36 lines
868 B
Plaintext
36 lines
868 B
Plaintext
# Configuracion editable para run_api_cuda.sh
|
|
# Si MODEL_PATH queda vacio, el script usara el primer .gguf en model_choice/
|
|
|
|
# Ruta al modelo GGUF
|
|
MODEL_PATH=""
|
|
# Ruta al proyector multimodal (mmproj) cuando el modelo lo necesita (LLaVA, Qwen-VL, etc.)
|
|
MM_PROJ_PATH=""
|
|
|
|
# Red
|
|
HOST="0.0.0.0"
|
|
PORT=8000
|
|
|
|
# Parametros del modelo
|
|
N_CTX=4096
|
|
N_BATCH=512
|
|
# Dejar vacio para que se use el valor automatico de llama.cpp
|
|
N_THREADS=""
|
|
N_GPU_LAYERS=-1 # -1 usa todas las capas en GPU
|
|
MAIN_GPU=0
|
|
SPLIT_MODE=1
|
|
ROPE_FREQ_BASE=10000
|
|
ROPE_FREQ_SCALE=1.0
|
|
OFFLOAD_KV_CACHE=true
|
|
KEEP_MODEL_IN_MEMORY=true # usa mlock para fijar en RAM
|
|
TRY_MMAP=true
|
|
SEED=0
|
|
FLASH_ATTN=true
|
|
|
|
# Parametros de generacion por defecto (pueden sobreescribirse en cada request)
|
|
DEFAULT_MAX_TOKENS=2048
|
|
DEFAULT_TEMPERATURE=0.8
|
|
DEFAULT_TOP_K=40
|
|
DEFAULT_REPEAT_PENALTY=1.1
|
|
DEFAULT_MIN_P=0.05
|
|
DEFAULT_TOP_P=0.95
|