falta por mejorar modelos de vision
This commit is contained in:
@@ -62,6 +62,7 @@ python main.py --help
|
||||
```
|
||||
|
||||
- `--model-path` / `-m`: Ruta al archivo del modelo GGUF (requerido)
|
||||
- `--mmproj-path`: Ruta al proyector multimodal (mmproj) si el modelo lo requiere (LLaVA, Qwen-VL, etc.)
|
||||
- `--host`: Host del servidor (default: 0.0.0.0)
|
||||
- `--port`: Puerto del servidor (default: 8000)
|
||||
- `--n-ctx`: Tama�o del contexto (default: 4096)
|
||||
@@ -87,6 +88,31 @@ uv run python main.py --model-path ./models/Qwen3-4B-Instruct-2507-Q4_K_M.gguf -
|
||||
uv run python main.py --model-path ./models/Qwen3-4B-Instruct-2507-Q4_K_M.gguf --port 8000 --n-ctx 4096 --n-gpu-layers -1 --main-gpu 0 --split-mode 1
|
||||
```
|
||||
|
||||
### Modelos multimodales (visi�n)
|
||||
|
||||
- Si el modelo requiere proyector externo (mmproj), coloca el archivo en disco y pasa `--mmproj-path /ruta/proyector.mmproj` o config�ralo en `api_cuda.conf` como `MM_PROJ_PATH`.
|
||||
- Solo se aceptan im�genes inline (data URI o base64 puro). Si env�as base64 sin prefijo, el servidor lo convierte en `data:image/png;base64,...`.
|
||||
- Ejemplo de request multimodal:
|
||||
|
||||
```bash
|
||||
curl -X POST http://localhost:8000/v1/chat/completions \
|
||||
-H "Content-Type: application/json" \
|
||||
-d '{
|
||||
"model": "llama",
|
||||
"messages": [
|
||||
{
|
||||
"role": "user",
|
||||
"content": [
|
||||
{"type": "text", "text": "Describe lo que ves"},
|
||||
{"type": "image_url", "image_url": "data:image/png;base64,AAA..."}
|
||||
]
|
||||
}
|
||||
],
|
||||
"max_tokens": 120,
|
||||
"temperature": 0.2
|
||||
}'
|
||||
```
|
||||
|
||||
## API Endpoints
|
||||
|
||||
### GET `/v1/models`
|
||||
@@ -188,4 +214,4 @@ Una vez que el servidor est� ejecut�ndose, puedes acceder a la documentaci
|
||||
- **Memoria GPU insuficiente**: Reduce `--n-gpu-layers` a un n�mero menor (ej: 20, 10)
|
||||
- **GPU no detectada**: Verifica que `nvidia-smi` funcione y muestre tu GPU
|
||||
- **Rendimiento lento con GPU**: Aseg�rate de usar `--n-gpu-layers -1` para cargar todas las capas
|
||||
- **Error de compatibilidad**: Verifica que tu GPU tenga compute capability >= 3.5
|
||||
- **Error de compatibilidad**: Verifica que tu GPU tenga compute capability >= 3.5
|
||||
|
||||
Reference in New Issue
Block a user