falta por mejorar modelos de vision

This commit is contained in:
2025-11-28 23:01:32 +01:00
parent 7ca6ae3dd4
commit b68a4ec43b
5 changed files with 357 additions and 17 deletions
+27 -1
View File
@@ -62,6 +62,7 @@ python main.py --help
```
- `--model-path` / `-m`: Ruta al archivo del modelo GGUF (requerido)
- `--mmproj-path`: Ruta al proyector multimodal (mmproj) si el modelo lo requiere (LLaVA, Qwen-VL, etc.)
- `--host`: Host del servidor (default: 0.0.0.0)
- `--port`: Puerto del servidor (default: 8000)
- `--n-ctx`: Tamao del contexto (default: 4096)
@@ -87,6 +88,31 @@ uv run python main.py --model-path ./models/Qwen3-4B-Instruct-2507-Q4_K_M.gguf -
uv run python main.py --model-path ./models/Qwen3-4B-Instruct-2507-Q4_K_M.gguf --port 8000 --n-ctx 4096 --n-gpu-layers -1 --main-gpu 0 --split-mode 1
```
### Modelos multimodales (visin)
- Si el modelo requiere proyector externo (mmproj), coloca el archivo en disco y pasa `--mmproj-path /ruta/proyector.mmproj` o configralo en `api_cuda.conf` como `MM_PROJ_PATH`.
- Solo se aceptan imgenes inline (data URI o base64 puro). Si envas base64 sin prefijo, el servidor lo convierte en `data:image/png;base64,...`.
- Ejemplo de request multimodal:
```bash
curl -X POST http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "llama",
"messages": [
{
"role": "user",
"content": [
{"type": "text", "text": "Describe lo que ves"},
{"type": "image_url", "image_url": "data:image/png;base64,AAA..."}
]
}
],
"max_tokens": 120,
"temperature": 0.2
}'
```
## API Endpoints
### GET `/v1/models`
@@ -188,4 +214,4 @@ Una vez que el servidor est ejecutndose, puedes acceder a la documentaci
- **Memoria GPU insuficiente**: Reduce `--n-gpu-layers` a un nmero menor (ej: 20, 10)
- **GPU no detectada**: Verifica que `nvidia-smi` funcione y muestre tu GPU
- **Rendimiento lento con GPU**: Asegrate de usar `--n-gpu-layers -1` para cargar todas las capas
- **Error de compatibilidad**: Verifica que tu GPU tenga compute capability >= 3.5
- **Error de compatibilidad**: Verifica que tu GPU tenga compute capability >= 3.5