falta por mejorar modelos de vision

2025-11-28 23:01:32 +01:00
parent 7ca6ae3dd4
commit b68a4ec43b
5 changed files with 357 additions and 17 deletions
@@ -62,6 +62,7 @@ python main.py --help
 ```

 - `--model-path` / `-m`: Ruta al archivo del modelo GGUF (requerido)
+- `--mmproj-path`: Ruta al proyector multimodal (mmproj) si el modelo lo requiere (LLaVA, Qwen-VL, etc.)
 - `--host`: Host del servidor (default: 0.0.0.0)
 - `--port`: Puerto del servidor (default: 8000)
 - `--n-ctx`: Tama�o del contexto (default: 4096)
@@ -87,6 +88,31 @@ uv run python main.py --model-path ./models/Qwen3-4B-Instruct-2507-Q4_K_M.gguf -
 uv run python main.py --model-path ./models/Qwen3-4B-Instruct-2507-Q4_K_M.gguf --port 8000 --n-ctx 4096 --n-gpu-layers -1 --main-gpu 0 --split-mode 1
 ```

+### Modelos multimodales (visi�n)
+
+- Si el modelo requiere proyector externo (mmproj), coloca el archivo en disco y pasa `--mmproj-path /ruta/proyector.mmproj` o config�ralo en `api_cuda.conf` como `MM_PROJ_PATH`.
+- Solo se aceptan im�genes inline (data URI o base64 puro). Si env�as base64 sin prefijo, el servidor lo convierte en `data:image/png;base64,...`.
+- Ejemplo de request multimodal:
+
+```bash
+curl -X POST http://localhost:8000/v1/chat/completions \
+  -H "Content-Type: application/json" \
+  -d '{
+    "model": "llama",
+    "messages": [
+      {
+        "role": "user",
+        "content": [
+          {"type": "text", "text": "Describe lo que ves"},
+          {"type": "image_url", "image_url": "data:image/png;base64,AAA..."}
+        ]
+      }
+    ],
+    "max_tokens": 120,
+    "temperature": 0.2
+  }'
+```
+
 ## API Endpoints

 ### GET `/v1/models`
@@ -188,4 +214,4 @@ Una vez que el servidor est� ejecut�ndose, puedes acceder a la documentaci
 - **Memoria GPU insuficiente**: Reduce `--n-gpu-layers` a un n�mero menor (ej: 20, 10)
 - **GPU no detectada**: Verifica que `nvidia-smi` funcione y muestre tu GPU
 - **Rendimiento lento con GPU**: Aseg�rate de usar `--n-gpu-layers -1` para cargar todas las capas
- **Error de compatibilidad**: Verifica que tu GPU tenga compute capability >= 3.5
+- **Error de compatibilidad**: Verifica que tu GPU tenga compute capability >= 3.5