llama_cpp_local/api_cuda.conf

# Configuracion editable para run_api_cuda.sh
# Si MODEL_PATH queda vacio, el script usara el primer .gguf en model_choice/

# Ruta al modelo GGUF
MODEL_PATH=""
# Ruta al proyector multimodal (mmproj) cuando el modelo lo necesita (LLaVA, Qwen-VL, etc.)
MM_PROJ_PATH=""

# Red
HOST="0.0.0.0"
PORT=8000

# Parametros del modelo
N_CTX=4096
N_BATCH=512
# Dejar vacio para que se use el valor automatico de llama.cpp
N_THREADS=""
N_GPU_LAYERS=-1   # -1 usa todas las capas en GPU
MAIN_GPU=0
SPLIT_MODE=1
ROPE_FREQ_BASE=10000
ROPE_FREQ_SCALE=1.0
OFFLOAD_KV_CACHE=true
KEEP_MODEL_IN_MEMORY=true   # usa mlock para fijar en RAM
TRY_MMAP=true
SEED=0
FLASH_ATTN=true

# Parametros de generacion por defecto (pueden sobreescribirse en cada request)
DEFAULT_MAX_TOKENS=2048
DEFAULT_TEMPERATURE=0.8
DEFAULT_TOP_K=40
DEFAULT_REPEAT_PENALTY=1.1
DEFAULT_MIN_P=0.05
DEFAULT_TOP_P=0.95