# Configuracion editable para run_api_cuda.sh # Si MODEL_PATH queda vacio, el script usara el primer .gguf en model_choice/ # Ruta al modelo GGUF MODEL_PATH="" # Ruta al proyector multimodal (mmproj) cuando el modelo lo necesita (LLaVA, Qwen-VL, etc.) MM_PROJ_PATH="" # Red HOST="0.0.0.0" PORT=8000 # Parametros del modelo N_CTX=4096 N_BATCH=512 # Dejar vacio para que se use el valor automatico de llama.cpp N_THREADS="" N_GPU_LAYERS=-1 # -1 usa todas las capas en GPU MAIN_GPU=0 SPLIT_MODE=1 ROPE_FREQ_BASE=10000 ROPE_FREQ_SCALE=1.0 OFFLOAD_KV_CACHE=true KEEP_MODEL_IN_MEMORY=true # usa mlock para fijar en RAM TRY_MMAP=true SEED=0 FLASH_ATTN=true # Parametros de generacion por defecto (pueden sobreescribirse en cada request) DEFAULT_MAX_TOKENS=2048 DEFAULT_TEMPERATURE=0.8 DEFAULT_TOP_K=40 DEFAULT_REPEAT_PENALTY=1.1 DEFAULT_MIN_P=0.05 DEFAULT_TOP_P=0.95