falta por mejorar modelos de vision
This commit is contained in:
@@ -0,0 +1,35 @@
|
||||
# Configuracion editable para run_api_cuda.sh
|
||||
# Si MODEL_PATH queda vacio, el script usara el primer .gguf en model_choice/
|
||||
|
||||
# Ruta al modelo GGUF
|
||||
MODEL_PATH=""
|
||||
# Ruta al proyector multimodal (mmproj) cuando el modelo lo necesita (LLaVA, Qwen-VL, etc.)
|
||||
MM_PROJ_PATH=""
|
||||
|
||||
# Red
|
||||
HOST="0.0.0.0"
|
||||
PORT=8000
|
||||
|
||||
# Parametros del modelo
|
||||
N_CTX=4096
|
||||
N_BATCH=512
|
||||
# Dejar vacio para que se use el valor automatico de llama.cpp
|
||||
N_THREADS=""
|
||||
N_GPU_LAYERS=-1 # -1 usa todas las capas en GPU
|
||||
MAIN_GPU=0
|
||||
SPLIT_MODE=1
|
||||
ROPE_FREQ_BASE=10000
|
||||
ROPE_FREQ_SCALE=1.0
|
||||
OFFLOAD_KV_CACHE=true
|
||||
KEEP_MODEL_IN_MEMORY=true # usa mlock para fijar en RAM
|
||||
TRY_MMAP=true
|
||||
SEED=0
|
||||
FLASH_ATTN=true
|
||||
|
||||
# Parametros de generacion por defecto (pueden sobreescribirse en cada request)
|
||||
DEFAULT_MAX_TOKENS=2048
|
||||
DEFAULT_TEMPERATURE=0.8
|
||||
DEFAULT_TOP_K=40
|
||||
DEFAULT_REPEAT_PENALTY=1.1
|
||||
DEFAULT_MIN_P=0.05
|
||||
DEFAULT_TOP_P=0.95
|
||||
Reference in New Issue
Block a user