falta por mejorar modelos de vision

This commit is contained in:
2025-11-28 23:01:32 +01:00
parent 7ca6ae3dd4
commit b68a4ec43b
5 changed files with 357 additions and 17 deletions
+35
View File
@@ -0,0 +1,35 @@
# Configuracion editable para run_api_cuda.sh
# Si MODEL_PATH queda vacio, el script usara el primer .gguf en model_choice/
# Ruta al modelo GGUF
MODEL_PATH=""
# Ruta al proyector multimodal (mmproj) cuando el modelo lo necesita (LLaVA, Qwen-VL, etc.)
MM_PROJ_PATH=""
# Red
HOST="0.0.0.0"
PORT=8000
# Parametros del modelo
N_CTX=4096
N_BATCH=512
# Dejar vacio para que se use el valor automatico de llama.cpp
N_THREADS=""
N_GPU_LAYERS=-1 # -1 usa todas las capas en GPU
MAIN_GPU=0
SPLIT_MODE=1
ROPE_FREQ_BASE=10000
ROPE_FREQ_SCALE=1.0
OFFLOAD_KV_CACHE=true
KEEP_MODEL_IN_MEMORY=true # usa mlock para fijar en RAM
TRY_MMAP=true
SEED=0
FLASH_ATTN=true
# Parametros de generacion por defecto (pueden sobreescribirse en cada request)
DEFAULT_MAX_TOKENS=2048
DEFAULT_TEMPERATURE=0.8
DEFAULT_TOP_K=40
DEFAULT_REPEAT_PENALTY=1.1
DEFAULT_MIN_P=0.05
DEFAULT_TOP_P=0.95