feat(ml): generación de audio en ComfyUI (ACE-Step) — builder comfyui_build_audio_workflow + fetch_output_audio

Soporte nativo de audio texto->música/SFX en ComfyUI 0.26.0 capitalizado como funciones del registry: - comfyui_build_audio_workflow (pura): builder ACE-Step en API format. Cadena CheckpointLoaderSimple -> TextEncodeAceStepAudio + ConditioningZeroOut + EmptyAceStepLatentAudio -> ModelSamplingSD3 -> KSampler -> VAEDecodeAudio -> SaveAudio. Params seconds/seed/steps/cfg/shift/lyrics. Tags comfyui,audio,ace-step. - comfyui_fetch_output_audio (impura): baja el .flac/.wav/.mp3 del output (clave 'audio'). Hermana de comfyui_fetch_output_video, que no sirve para audio. Modelo ACE-Step v1 3.5B (Apache 2.0, abierto). Stable Audio Open 1.0 descartado por estar gated (HTTP 403) en HuggingFace. Cabe en 8GB con --lowvram. Verificado e2e: 2 .flac reales generados desde texto (4.0s y 8.0s, seeds distintos), duración exacta confirmada con ffprobe. Tests 6+5 verdes. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
2026-06-27 20:49:05 +02:00
6 changed files with 612 additions and 0 deletions
@@ -0,0 +1,99 @@
 ---
 name: comfyui_build_audio_workflow
 kind: function
 lang: py
 domain: ml
 version: "1.0.0"
 purity: pure
 signature: "def comfyui_build_audio_workflow(ckpt_name: str, prompt: str, *, lyrics: str = \"\", seconds: float = 10.0, seed: int = 0, steps: int = 50, cfg: float = 5.0, sampler_name: str = \"euler\", scheduler: str = \"simple\", shift: float = 5.0, lyrics_strength: float = 1.0, filename_prefix: str = \"audio/comfy_audio\") -> dict"
 description: "Construye el dict de un workflow ComfyUI texto->audio (ACE-Step) en API format. Cadena con nodos de audio NATIVOS de ComfyUI 0.26.0: CheckpointLoaderSimple(AUDIO_ace_step_v1_3.5b.safetensors -> MODEL, CLIP, VAE) -> TextEncodeAceStepAudio(tags=prompt, lyrics) como positive + ConditioningZeroOut como negative + EmptyAceStepLatentAudio(seconds) -> ModelSamplingSD3(shift) -> KSampler -> VAEDecodeAudio -> SaveAudio(.flac). ACE-Step es abierto (Apache 2.0). Genera musica y SFX por texto; lyrics opcional para voz cantada. Pura, sin red ni I/O. Hermana de audio de comfyui_build_txt2img_workflow."
 tags: [comfyui, audio, ace-step, sfx, music, ml, workflow]
 uses_functions: []
 uses_types: []
 returns: []
 returns_optional: false
 error_type: ""
 imports: []
 params:
  - name: ckpt_name
    desc: "Nombre del checkpoint ACE-Step tal como lo ve el servidor ComfyUI (ej. 'AUDIO_ace_step_v1_3.5b.safetensors', todo-en-uno: DiT + text encoder + VAE de audio). Debe estar entre los que devuelve comfyui_object_info en CheckpointLoaderSimple."
  - name: prompt
    desc: "Descripcion del sonido o estilo musical. Va al campo 'tags' de TextEncodeAceStepAudio. Ej. '8-bit coin pickup sound, retro game' o 'lofi hip hop, mellow piano, 90 bpm'."
  - name: lyrics
    desc: "Letra cantada para musica con voz. Vacio '' para SFX o musica instrumental. keyword-only."
  - name: seconds
    desc: "Duracion del audio en segundos (min 1.0). Controla el tamano del latente via EmptyAceStepLatentAudio. keyword-only."
  - name: seed
    desc: "Semilla del KSampler. 0 es determinista; cambiar para variar el resultado. keyword-only."
  - name: steps
    desc: "Pasos de sampling del KSampler. 50 recomendado para ACE-Step. keyword-only."
  - name: cfg
    desc: "Classifier-free guidance scale. 5.0 recomendado para ACE-Step. keyword-only."
  - name: sampler_name
    desc: "Algoritmo del KSampler. Por defecto 'euler'. keyword-only."
  - name: scheduler
    desc: "Scheduler del KSampler. Por defecto 'simple'. keyword-only."
  - name: shift
    desc: "Shift del ModelSamplingSD3 aplicado al MODEL antes del sampling. 5.0 recomendado para ACE-Step; mejora la coherencia temporal. keyword-only."
  - name: lyrics_strength
    desc: "Fuerza del condicionamiento de la letra (1.0 por defecto; sin efecto practico cuando lyrics esta vacio). keyword-only."
  - name: filename_prefix
    desc: "Prefijo del .flac generado por SaveAudio en output/ del servidor. keyword-only."
 output: "dict en API format listo para comfyui_submit_workflow. node_ids string; cada valor con class_type + inputs. Devuelve 8 nodos: CheckpointLoaderSimple, TextEncodeAceStepAudio, ConditioningZeroOut, EmptyAceStepLatentAudio, ModelSamplingSD3, KSampler, VAEDecodeAudio y SaveAudio. El denoise del KSampler se fija a 1.0 (genera desde el latente vacio, no es audio2audio)."
 tested: true
 tests: ["estructura: 8 nodos ACE-Step presentes + ckpt en CheckpointLoaderSimple + prompt en TextEncodeAceStepAudio.tags", "cableado: clip [4,1], positive [6,0], negative via ConditioningZeroOut [10,0], model post ModelSamplingSD3 [11,0], vae [4,2], denoise 1.0", "params reflejados (lyrics/seconds/seed/steps/cfg/sampler_name/scheduler/shift/lyrics_strength/filename_prefix)", "edge: seconds y seed variables se reflejan en EmptyAceStepLatentAudio y KSampler", "determinismo: misma entrada -> mismo dict (builder puro)"]
 test_file_path: "python/functions/ml/tests/test_comfyui_build_audio_workflow.py"
 file_path: "python/functions/ml/comfyui_build_audio_workflow.py"
 ---
 ## Ejemplo
 ```python
 import sys, os
 sys.path.insert(0, os.path.join(os.environ["HOME"], "fn_registry", "python", "functions"))
 from ml.comfyui_build_audio_workflow import comfyui_build_audio_workflow
 wf = comfyui_build_audio_workflow(
    ckpt_name="AUDIO_ace_step_v1_3.5b.safetensors",
    prompt="8-bit coin pickup sound, retro game, short",
    seconds=4.0, seed=42,
 )
 # wf["6"]["class_type"] == "TextEncodeAceStepAudio"
 # wf["9"]["class_type"] == "SaveAudio"
 # -> comfyui_submit_workflow(wf, server="127.0.0.1:8188") para encolar (necesita GPU)
 # -> comfyui_wait_result(prompt_id) -> comfyui_fetch_output_audio(prompt_id, dest=...)
 ```
 O lanzable directo con: `./fn run comfyui_build_audio_workflow` (imprime el JSON del workflow ACE-Step de ejemplo).
 ## Cuando usarla
 Antes de enviar una generacion de audio (musica o SFX por texto) a ComfyUI:
 construye aqui el dict del workflow ACE-Step y pasalo a `comfyui_submit_workflow`.
 Usala cuando quieres un sonido o pieza musical descrita en lenguaje natural
 (`prompt`), opcionalmente con letra cantada (`lyrics`). Baja el resultado con
 `comfyui_fetch_output_audio`. Verifica el workflow contra el servidor con
 `comfyui_validate_workflow` antes de encolar.
 ## Gotchas
 - Es API format (nodos numerados), NO el formato de la UI de ComfyUI. Es lo que
  acepta POST /prompt.
 - El checkpoint ACE-Step debe existir y ser visible para el servidor (carpeta de
  checkpoints o extra_model_paths) o ComfyUI rechaza el workflow con HTTP 400 al
  enviarlo. Esta funcion es pura y no valida contra el servidor.
 - Stable Audio Open 1.0 (la otra via nativa, mas ligera) esta GATED en HuggingFace
  (resolve da HTTP 403 sin aceptar la licencia): por eso el modelo por defecto es
  ACE-Step, que es abierto (Apache 2.0) y no gated.
 - VRAM 8GB: `ace_step_v1_3.5b.safetensors` pesa ~7.7GB. Arrancar ComfyUI con
  `--lowvram` para que streamee bloques a CPU; aun asi va justo. Antes de generar
  audio, liberar VRAM de SD/Flux con POST /free {"unload_models":true,
  "free_memory":true}. Si da OOM, bajar `seconds`. El builder es puro: no toca la
  GPU, solo arma el dict (un OOM ocurre en el submit posterior, no aqui).
 - ACE-Step es modelo de MUSICA: para SFX cortos funciona pero el resultado tiende
  a sonar "musical". `seconds` minimo 1.0. Para SFX muy cortos usar 2-4 s.
 - SaveAudio guarda `.flac` por defecto (clave "audio" en outputs[node]). Para bajar
  el archivo usa `comfyui_fetch_output_audio` (no `comfyui_fetch_output_video`, que
  solo busca extensiones de video).
 - `lyrics` vacio = instrumental/SFX. Con letra, ACE-Step canta; `lyrics_strength`
  ajusta cuanto se ciñe a ella.
@@ -0,0 +1,126 @@
 """Construye un workflow ComfyUI de texto->audio (ACE-Step) en "API format".
 API format: cada clave es un node_id (string); cada nodo tiene class_type +
 inputs. Las conexiones entre nodos son listas [node_id, output_index]. Este es
 el formato que acepta POST /prompt, distinto del formato de la UI (graph con
 links explicitos).
 El grafo usa los nodos de audio NATIVOS de ComfyUI 0.26.0 para el modelo
 ACE-Step (abierto, Apache 2.0): CheckpointLoaderSimple ->
 TextEncodeAceStepAudio (tags + lyrics) -> EmptyAceStepLatentAudio ->
 ModelSamplingSD3 -> KSampler -> VAEDecodeAudio -> SaveAudio. El negative se
 construye con ConditioningZeroOut sobre el positive (patron oficial de ACE-Step).
 Funcion pura: sin red, sin I/O. Determinista para los mismos argumentos.
 """
 def comfyui_build_audio_workflow(
    ckpt_name: str,
    prompt: str,
    *,
    lyrics: str = "",
    seconds: float = 10.0,
    seed: int = 0,
    steps: int = 50,
    cfg: float = 5.0,
    sampler_name: str = "euler",
    scheduler: str = "simple",
    shift: float = 5.0,
    lyrics_strength: float = 1.0,
    filename_prefix: str = "audio/comfy_audio",
 ) -> dict:
    """Construye el dict del workflow texto->audio para ACE-Step.
    Cadena de nodos: CheckpointLoaderSimple -> TextEncodeAceStepAudio (positivo)
    + ConditioningZeroOut (negativo) + EmptyAceStepLatentAudio -> ModelSamplingSD3
    -> KSampler -> VAEDecodeAudio -> SaveAudio. SaveAudio escribe un .flac en la
    carpeta output/<filename_prefix> del servidor ComfyUI.
    Args:
        ckpt_name: nombre del checkpoint ACE-Step tal como lo ve el servidor
            (ej. "AUDIO_ace_step_v1_3.5b.safetensors"). Debe estar entre los que
            devuelve comfyui_object_info en CheckpointLoaderSimple.
        prompt: descripcion del sonido o estilo musical (va al campo "tags" de
            TextEncodeAceStepAudio). Ej. "8-bit coin pickup sound, retro game".
        lyrics: letra cantada para musica con voz. Vacio "" para SFX o musica
            instrumental.
        seconds: duracion del audio en segundos (min 1.0). Controla el tamano
            del latente via EmptyAceStepLatentAudio.
        seed: semilla del KSampler (cambia para variar el resultado).
        steps: pasos de sampling del KSampler (50 recomendado para ACE-Step).
        cfg: classifier-free guidance scale (5.0 recomendado para ACE-Step).
        sampler_name: nombre del sampler (ej. "euler").
        scheduler: scheduler del sampler (ej. "simple").
        shift: shift del ModelSamplingSD3 aplicado al MODEL antes del sampling
            (5.0 recomendado para ACE-Step). Mejora la coherencia temporal.
        lyrics_strength: fuerza del condicionamiento de la letra (1.0 por
            defecto; sin efecto practico cuando lyrics esta vacio).
        filename_prefix: prefijo del .flac generado por SaveAudio en output/.
    Returns:
        dict en API format listo para comfyui_submit_workflow. Las claves son
        node_ids ("3".."11") y cada valor tiene class_type + inputs.
    """
    return {
        "4": {
            "class_type": "CheckpointLoaderSimple",
            "inputs": {"ckpt_name": ckpt_name},
        },
        "6": {
            "class_type": "TextEncodeAceStepAudio",
            "inputs": {
                "clip": ["4", 1],
                "tags": prompt,
                "lyrics": lyrics,
                "lyrics_strength": lyrics_strength,
            },
        },
        "10": {
            "class_type": "ConditioningZeroOut",
            "inputs": {"conditioning": ["6", 0]},
        },
        "5": {
            "class_type": "EmptyAceStepLatentAudio",
            "inputs": {"seconds": seconds, "batch_size": 1},
        },
        "11": {
            "class_type": "ModelSamplingSD3",
            "inputs": {"model": ["4", 0], "shift": shift},
        },
        "3": {
            "class_type": "KSampler",
            "inputs": {
                "seed": seed,
                "steps": steps,
                "cfg": cfg,
                "sampler_name": sampler_name,
                "scheduler": scheduler,
                "denoise": 1.0,
                "model": ["11", 0],
                "positive": ["6", 0],
                "negative": ["10", 0],
                "latent_image": ["5", 0],
            },
        },
        "8": {
            "class_type": "VAEDecodeAudio",
            "inputs": {"samples": ["3", 0], "vae": ["4", 2]},
        },
        "9": {
            "class_type": "SaveAudio",
            "inputs": {"filename_prefix": filename_prefix, "audio": ["8", 0]},
        },
    }
 if __name__ == "__main__":
    import json
    wf = comfyui_build_audio_workflow(
        ckpt_name="AUDIO_ace_step_v1_3.5b.safetensors",
        prompt="8-bit coin pickup sound, retro game, short",
        seconds=4.0,
        seed=42,
    )
    print(json.dumps(wf, indent=2))
@@ -0,0 +1,85 @@
 ---
 name: comfyui_fetch_output_audio
 kind: function
 lang: py
 domain: ml
 version: "1.0.0"
 purity: impure
 signature: "def comfyui_fetch_output_audio(prompt_id: str, *, server: str = \"127.0.0.1:8188\", dest: str | None = None, outputs: dict | None = None, timeout: float = 120.0) -> dict"
 description: "Localiza y descarga el output de audio de un workflow ComfyUI a disco local. Hermana de comfyui_fetch_output_video / _image / _mesh pero para los nodos de audio (SaveAudio, SaveAudioMP3, SaveAudioOpus, SaveAudioAdvanced): esos exponen su salida en GET /history bajo la clave 'audio' con items {filename, subfolder, type}. Localiza el primer .flac/.wav/.mp3/.opus/.ogg/.m4a, lo baja via GET /view y opcionalmente lo escribe en dest. Acepta outputs= ya obtenido de comfyui_wait_result para evitar re-consultar /history. Impura: HTTP GET + escritura en disco, solo stdlib."
 tags: [comfyui, audio, fetch, ace-step, ml, download, workflow]
 uses_functions: []
 uses_types: []
 returns: []
 returns_optional: false
 error_type: error_go_core
 imports: []
 params:
  - name: prompt_id
    desc: "id devuelto por comfyui_submit_workflow, de un workflow cuyo nodo de audio (SaveAudio/SaveAudioMP3/...) ya termino (usa comfyui_wait_result antes si dudas). Se ignora si se pasa outputs."
  - name: server
    desc: "host:port del servidor ComfyUI sin esquema. keyword-only."
  - name: dest
    desc: "Ruta destino. Si None, escribe el basename del audio en el cwd. Si es un directorio existente (o termina en separador), escribe el basename dentro. Si es una ruta de archivo, escribe ahi. keyword-only."
  - name: outputs
    desc: "dict de outputs ya obtenido (el que devuelve comfyui_wait_result). Si se pasa, se busca el audio ahi y NO se consulta /history (evita una peticion de red extra). keyword-only."
  - name: timeout
    desc: "Timeout de cada peticion HTTP en segundos. keyword-only."
 output: "dict {ok, path, format, bytes, error}. path = ruta local del archivo de audio guardado, format = extension sin punto (ej. 'flac' o 'mp3'), bytes = bytes descargados. Si falla, ok=False y error explica (sin audio en los outputs, HTTP, conexion o escritura)."
 tested: true
 tests:
  - "test_is_audio_item_por_extension"
  - "test_find_saveaudio_flac_bajo_audio"
  - "test_find_saveaudiomp3_bajo_audio"
  - "test_find_prioriza_clave_audio"
  - "test_find_sin_audio_devuelve_none"
 test_file_path: "python/functions/ml/comfyui_fetch_output_audio_test.py"
 file_path: "python/functions/ml/comfyui_fetch_output_audio.py"
 ---
 ## Ejemplo
 ```python
 import sys, os
 sys.path.insert(0, os.path.join(os.environ["HOME"], "fn_registry", "python", "functions"))
 from ml.comfyui_fetch_output_audio import comfyui_fetch_output_audio
 # Tras comfyui_submit_workflow + comfyui_wait_result de un workflow de audio
 # (ACE-Step, Stable Audio), baja el .flac/.mp3 al disco.
 res = comfyui_fetch_output_audio("8a278988-8a94-4225-add3-88a406f7101c", dest="/tmp/audios")
 # res == {"ok": True, "path": "/tmp/audios/comfy_audio_00001_.flac",
 #         "format": "flac", "bytes": 882000, "error": ""}
 # Si ya tienes los outputs de comfyui_wait_result, pasalos y evita re-consultar /history:
 outputs = {"9": {"audio": [{"filename": "comfy_audio_00001_.flac", "subfolder": "audio", "type": "output"}]}}
 res2 = comfyui_fetch_output_audio("ignored", dest="/tmp/audios", outputs=outputs)
 ```
 Lánzalo con el python del venv (import de arriba o heredoc). Nota: `./fn run` directo no aplica porque la firma usa `*` (keyword-only), no soportado por el generador de runner de `fn run`.
 ## Cuando usarla
 Después de generar audio con ComfyUI (música o SFX por texto con ACE-Step, o Stable
 Audio), cuando necesites el archivo `.flac`/`.wav`/`.mp3`/`.opus` real en disco (no
 solo su nombre): para reproducirlo, subirlo a un vault, o usarlo como asset de un
 juego. Es la hermana de `comfyui_fetch_output_video` (vídeo/animación),
 `comfyui_fetch_output_image` (imágenes) y `comfyui_fetch_output_mesh` (mallas 3D).
 El builder hermano es `comfyui_build_audio_workflow`.
 ## Gotchas
 - Impura: hace HTTP GET a /history y /view y escribe en disco. Requiere el server
  vivo y que el prompt YA haya terminado (usa `comfyui_wait_result` antes, o pásale
  `outputs=`).
 - Los nodos SaveAudio* exponen el archivo bajo la clave `"audio"` de los outputs
  (no `"images"` como los de imagen/vídeo). Por eso `comfyui_fetch_output_video` NO
  sirve para audio: busca extensiones de vídeo y claves gifs/videos/images.
 - SaveAudio guarda `.flac` por defecto; SaveAudioMP3 `.mp3`, SaveAudioOpus `.opus`.
  La función cubre todas por extensión.
 - Toma el PRIMER archivo de audio que encuentra. Si un workflow exporta varios,
  baja solo uno; para los demás llama otra vez o usa GET /view con el filename concreto.
 - El history se purga al reiniciar el server: si el prompt ya no está, devuelve
  `ok=False`. Pasar `outputs=` evita esa consulta y el problema.
 - `dest` se interpreta: None -> cwd; directorio EXISTENTE -> dentro; ruta de archivo
  -> esa ruta. Un directorio que aún no existe se trata como ruta de archivo: créalo
  antes (o termina la ruta en separador).
@@ -0,0 +1,162 @@
 """Localiza y descarga el output de audio de un workflow ComfyUI a disco.
 Hermana de comfyui_fetch_output_video / comfyui_fetch_output_image / _mesh, pero
 para los nodos de audio (SaveAudio, SaveAudioMP3, SaveAudioOpus, SaveAudioAdvanced).
 Esos nodos exponen su salida en GET /history/{prompt_id} bajo la clave "audio"
 como lista de items {filename, subfolder, type}. Esta funcion localiza el primer
 archivo con extension de audio (.flac/.wav/.mp3/.opus/.ogg/.m4a), lo baja via
 GET /view a disco y, opcionalmente, lo escribe en `dest`.
 Impura: red (HTTP GET a /history y /view) + escritura en disco. Solo stdlib.
 """
 import json
 import os
 import urllib.error
 import urllib.parse
 import urllib.request
 # Extensiones de audio que producen los nodos SaveAudio* de ComfyUI.
 _AUDIO_EXTS = (".flac", ".wav", ".mp3", ".opus", ".ogg", ".m4a")
 # Claves de output preferentes para audio (se inspeccionan primero).
 _AUDIO_KEYS = ("audio", "audios")
 def _is_audio_item(item: dict) -> bool:
    """True si el item de output apunta a un archivo de audio (por extension)."""
    fn = (item.get("filename") or "").lower()
    return fn.endswith(_AUDIO_EXTS)
 def _find_audio_output(outputs: dict) -> dict | None:
    """Busca en los outputs de /history el primer archivo de audio.
    Hace dos pasadas: primero en la clave preferente "audio" (la que usan los
    nodos SaveAudio*), luego en cualquier clave por si un nodo lo expone bajo
    otro nombre. Devuelve {filename, subfolder, type} o None.
    """
    for prefer in (True, False):
        for node_out in outputs.values():
            if not isinstance(node_out, dict):
                continue
            for key, items in node_out.items():
                if prefer and key not in _AUDIO_KEYS:
                    continue
                if not isinstance(items, list):
                    continue
                for item in items:
                    if isinstance(item, dict) and _is_audio_item(item):
                        return {
                            "filename": item.get("filename", ""),
                            "subfolder": item.get("subfolder", ""),
                            "type": item.get("type", "output"),
                        }
    return None
 def _resolve_dest(dest: str | None, filename: str) -> str:
    """Resuelve la ruta local destino a partir de `dest` y el basename remoto."""
    base = os.path.basename(filename)
    if dest is None:
        return os.path.join(os.getcwd(), base)
    expanded = os.path.expanduser(dest)
    if os.path.isdir(expanded) or expanded.endswith(os.sep):
        return os.path.join(expanded, base)
    return expanded
 def comfyui_fetch_output_audio(
    prompt_id: str,
    *,
    server: str = "127.0.0.1:8188",
    dest: str | None = None,
    outputs: dict | None = None,
    timeout: float = 120.0,
 ) -> dict:
    """Descarga el audio de un prompt ComfyUI ya ejecutado a disco local.
    Args:
        prompt_id: id devuelto por comfyui_submit_workflow, de un workflow cuyo
            nodo de audio (SaveAudio/SaveAudioMP3/...) ya termino (usa
            comfyui_wait_result antes si dudas). Se ignora si se pasa `outputs`.
        server: host:port del servidor ComfyUI (sin esquema). keyword-only.
        dest: ruta destino. Si None, escribe el basename del audio en el cwd.
            Si es un directorio (o termina en separador), escribe el basename
            dentro. Si es una ruta de archivo, escribe ahi. keyword-only.
        outputs: dict de outputs ya obtenido (el que devuelve comfyui_wait_result).
            Si se pasa, se busca el audio ahi y NO se consulta /history (evita una
            peticion de red extra justo despues de esperar). keyword-only.
        timeout: timeout de cada peticion HTTP en segundos. keyword-only.
    Returns:
        dict {ok, path, format, bytes, error}. path = ruta local del archivo de
        audio guardado; format = extension sin punto (ej. "flac" o "mp3"); bytes =
        tamano descargado. Si falla, ok=False y error explica (sin audio en los
        outputs, HTTP, conexion o escritura).
    """
    # 1. Obtener los outputs: del parametro (sin red) o consultando /history.
    if outputs is None:
        hist_url = f"http://{server}/history/{prompt_id}"
        try:
            with urllib.request.urlopen(hist_url, timeout=timeout) as resp:
                hist = json.loads(resp.read())
        except urllib.error.HTTPError as exc:
            body = exc.read().decode(errors="replace")[:200]
            return {"ok": False, "path": "", "format": "", "bytes": 0,
                    "error": f"HTTP {exc.code} en {hist_url}: {body}"}
        except urllib.error.URLError as exc:
            return {"ok": False, "path": "", "format": "", "bytes": 0,
                    "error": f"no se pudo conectar a {hist_url}: {exc.reason}"}
        except json.JSONDecodeError as exc:
            return {"ok": False, "path": "", "format": "", "bytes": 0,
                    "error": f"respuesta no es JSON valido desde {hist_url}: {exc}"}
        entry = hist.get(prompt_id)
        if not entry:
            return {"ok": False, "path": "", "format": "", "bytes": 0,
                    "error": f"prompt_id {prompt_id} no esta en /history (¿no termino o se purgo?)"}
        outputs = entry.get("outputs", {})
    audio = _find_audio_output(outputs or {})
    if audio is None:
        return {"ok": False, "path": "", "format": "", "bytes": 0,
                "error": f"sin archivo de audio en los outputs de {prompt_id}"}
    # 2. Descargar el archivo via GET /view.
    qs = urllib.parse.urlencode({
        "filename": audio["filename"],
        "subfolder": audio["subfolder"],
        "type": audio["type"],
    })
    view_url = f"http://{server}/view?{qs}"
    try:
        with urllib.request.urlopen(view_url, timeout=timeout) as resp:
            blob = resp.read()
    except urllib.error.HTTPError as exc:
        body = exc.read().decode(errors="replace")[:200]
        return {"ok": False, "path": "", "format": "", "bytes": 0,
                "error": f"HTTP {exc.code} en {view_url}: {body}"}
    except urllib.error.URLError as exc:
        return {"ok": False, "path": "", "format": "", "bytes": 0,
                "error": f"no se pudo conectar a {view_url}: {exc.reason}"}
    # 3. Escribir a disco.
    out_path = _resolve_dest(dest, audio["filename"])
    try:
        parent = os.path.dirname(out_path)
        if parent:
            os.makedirs(parent, exist_ok=True)
        with open(out_path, "wb") as f:
            f.write(blob)
    except OSError as exc:
        return {"ok": False, "path": "", "format": "", "bytes": 0,
                "error": f"no se pudo escribir en {out_path!r}: {exc}"}
    fmt = os.path.splitext(audio["filename"])[1].lstrip(".").lower()
    return {"ok": True, "path": out_path, "format": fmt, "bytes": len(blob), "error": ""}
 if __name__ == "__main__":
    import sys
    pid = sys.argv[1] if len(sys.argv) > 1 else "00000000-0000-0000-0000-000000000000"
    res = comfyui_fetch_output_audio(pid, dest="/tmp/comfy_audio")
    print(json.dumps(res, indent=2))
@@ -0,0 +1,50 @@
 """Tests de localizacion de output para comfyui_fetch_output_audio.
 Solo cubren la logica pura de busqueda (_is_audio_item / _find_audio_output): no
 tocan red ni disco. La descarga real via HTTP se prueba en el flujo e2e con el
 servidor ComfyUI vivo.
 """
 import os
 import sys
 sys.path.insert(0, os.path.dirname(__file__))
 from comfyui_fetch_output_audio import _find_audio_output, _is_audio_item
 def test_is_audio_item_por_extension():
    assert _is_audio_item({"filename": "comfy_audio_00001_.flac"})
    assert _is_audio_item({"filename": "x.mp3"})
    assert _is_audio_item({"filename": "x.WAV"})
    assert not _is_audio_item({"filename": "x.png"})
    assert not _is_audio_item({"filename": ""})
 def test_find_saveaudio_flac_bajo_audio():
    outputs = {
        "9": {"audio": [{"filename": "comfy_audio_00001_.flac",
                          "subfolder": "audio", "type": "output"}]}
    }
    got = _find_audio_output(outputs)
    assert got == {"filename": "comfy_audio_00001_.flac",
                   "subfolder": "audio", "type": "output"}
 def test_find_saveaudiomp3_bajo_audio():
    outputs = {"12": {"audio": [{"filename": "track.mp3", "subfolder": "", "type": "output"}]}}
    assert _find_audio_output(outputs)["filename"] == "track.mp3"
 def test_find_prioriza_clave_audio():
    # Un nodo deja un png bajo "images" y otro un flac bajo "audio": gana el audio.
    outputs = {
        "9": {"images": [{"filename": "preview.png", "subfolder": "", "type": "output"}]},
        "10": {"audio": [{"filename": "out.flac", "subfolder": "", "type": "output"}]},
    }
    assert _find_audio_output(outputs)["filename"] == "out.flac"
 def test_find_sin_audio_devuelve_none():
    outputs = {"9": {"images": [{"filename": "preview.png", "subfolder": "", "type": "output"}]}}
    assert _find_audio_output(outputs) is None
    assert _find_audio_output({}) is None
@@ -0,0 +1,90 @@
 """Tests de estructura para comfyui_build_audio_workflow (funcion pura, ACE-Step)."""
 import os
 import sys
 sys.path.insert(0, os.path.dirname(__file__))
 sys.path.insert(0, os.path.join(os.path.dirname(__file__), "..", ".."))
 from ml.comfyui_build_audio_workflow import comfyui_build_audio_workflow
 from _comfyui_wf_assert import assert_api_format, class_types, node_by_ct
 def test_estructura_y_nodos_acestep():
    wf = comfyui_build_audio_workflow(
        "AUDIO_ace_step_v1_3.5b.safetensors", "retro coin sfx"
    )
    assert_api_format(wf)
    cts = class_types(wf)
    for ct in (
        "CheckpointLoaderSimple",
        "TextEncodeAceStepAudio",
        "ConditioningZeroOut",
        "EmptyAceStepLatentAudio",
        "ModelSamplingSD3",
        "KSampler",
        "VAEDecodeAudio",
        "SaveAudio",
    ):
        assert ct in cts, f"falta nodo {ct}"
    assert len(wf) == 8
 def test_ckpt_y_prompt_reflejados():
    wf = comfyui_build_audio_workflow("AUDIO_x.safetensors", "magic spell whoosh")
    assert node_by_ct(wf, "CheckpointLoaderSimple")["inputs"]["ckpt_name"] == "AUDIO_x.safetensors"
    enc = node_by_ct(wf, "TextEncodeAceStepAudio")
    assert enc["inputs"]["tags"] == "magic spell whoosh"
    assert enc["inputs"]["lyrics"] == ""
 def test_cableado_ksampler():
    wf = comfyui_build_audio_workflow("AUDIO_x.safetensors", "p")
    ks = node_by_ct(wf, "KSampler")["inputs"]
    # model viene de ModelSamplingSD3 ("11"), no del checkpoint directo
    assert ks["model"] == ["11", 0]
    assert ks["positive"] == ["6", 0]
    # negative pasa por ConditioningZeroOut ("10")
    assert ks["negative"] == ["10", 0]
    assert ks["latent_image"] == ["5", 0]
    assert ks["denoise"] == 1.0
    # ModelSamplingSD3 toma el MODEL del checkpoint
    assert node_by_ct(wf, "ModelSamplingSD3")["inputs"]["model"] == ["4", 0]
    # VAEDecodeAudio usa el VAE del checkpoint
    assert node_by_ct(wf, "VAEDecodeAudio")["inputs"]["vae"] == ["4", 2]
    # ConditioningZeroOut deriva del positive
    assert node_by_ct(wf, "ConditioningZeroOut")["inputs"]["conditioning"] == ["6", 0]
 def test_edge_seconds_y_seed_variables():
    wf_a = comfyui_build_audio_workflow("c", "p", seconds=4.0, seed=42)
    wf_b = comfyui_build_audio_workflow("c", "p", seconds=8.0, seed=99)
    assert node_by_ct(wf_a, "EmptyAceStepLatentAudio")["inputs"]["seconds"] == 4.0
    assert node_by_ct(wf_b, "EmptyAceStepLatentAudio")["inputs"]["seconds"] == 8.0
    assert node_by_ct(wf_a, "KSampler")["inputs"]["seed"] == 42
    assert node_by_ct(wf_b, "KSampler")["inputs"]["seed"] == 99
 def test_params_reflejados():
    wf = comfyui_build_audio_workflow(
        "c", "p",
        lyrics="la la la", steps=30, cfg=4.0, sampler_name="dpmpp_2m",
        scheduler="karras", shift=3.5, lyrics_strength=0.7,
        filename_prefix="audio/mio",
    )
    enc = node_by_ct(wf, "TextEncodeAceStepAudio")["inputs"]
    assert enc["lyrics"] == "la la la"
    assert enc["lyrics_strength"] == 0.7
    ks = node_by_ct(wf, "KSampler")["inputs"]
    assert ks["steps"] == 30
    assert ks["cfg"] == 4.0
    assert ks["sampler_name"] == "dpmpp_2m"
    assert ks["scheduler"] == "karras"
    assert node_by_ct(wf, "ModelSamplingSD3")["inputs"]["shift"] == 3.5
    assert node_by_ct(wf, "SaveAudio")["inputs"]["filename_prefix"] == "audio/mio"
 def test_determinismo():
    a = comfyui_build_audio_workflow("c", "p", seconds=5.0, seed=7)
    b = comfyui_build_audio_workflow("c", "p", seconds=5.0, seed=7)
    assert a == b