1 Commits

Author SHA1 Message Date
egutierrez e49841a60a feat(ml): generación de audio en ComfyUI (ACE-Step) — builder comfyui_build_audio_workflow + fetch_output_audio
Soporte nativo de audio texto->música/SFX en ComfyUI 0.26.0 capitalizado como
funciones del registry:

- comfyui_build_audio_workflow (pura): builder ACE-Step en API format. Cadena
  CheckpointLoaderSimple -> TextEncodeAceStepAudio + ConditioningZeroOut +
  EmptyAceStepLatentAudio -> ModelSamplingSD3 -> KSampler -> VAEDecodeAudio ->
  SaveAudio. Params seconds/seed/steps/cfg/shift/lyrics. Tags comfyui,audio,ace-step.
- comfyui_fetch_output_audio (impura): baja el .flac/.wav/.mp3 del output (clave
  'audio'). Hermana de comfyui_fetch_output_video, que no sirve para audio.

Modelo ACE-Step v1 3.5B (Apache 2.0, abierto). Stable Audio Open 1.0 descartado
por estar gated (HTTP 403) en HuggingFace. Cabe en 8GB con --lowvram.

Verificado e2e: 2 .flac reales generados desde texto (4.0s y 8.0s, seeds
distintos), duración exacta confirmada con ffprobe. Tests 6+5 verdes.

Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
2026-06-27 20:49:05 +02:00
6 changed files with 612 additions and 0 deletions
@@ -0,0 +1,99 @@
---
name: comfyui_build_audio_workflow
kind: function
lang: py
domain: ml
version: "1.0.0"
purity: pure
signature: "def comfyui_build_audio_workflow(ckpt_name: str, prompt: str, *, lyrics: str = \"\", seconds: float = 10.0, seed: int = 0, steps: int = 50, cfg: float = 5.0, sampler_name: str = \"euler\", scheduler: str = \"simple\", shift: float = 5.0, lyrics_strength: float = 1.0, filename_prefix: str = \"audio/comfy_audio\") -> dict"
description: "Construye el dict de un workflow ComfyUI texto->audio (ACE-Step) en API format. Cadena con nodos de audio NATIVOS de ComfyUI 0.26.0: CheckpointLoaderSimple(AUDIO_ace_step_v1_3.5b.safetensors -> MODEL, CLIP, VAE) -> TextEncodeAceStepAudio(tags=prompt, lyrics) como positive + ConditioningZeroOut como negative + EmptyAceStepLatentAudio(seconds) -> ModelSamplingSD3(shift) -> KSampler -> VAEDecodeAudio -> SaveAudio(.flac). ACE-Step es abierto (Apache 2.0). Genera musica y SFX por texto; lyrics opcional para voz cantada. Pura, sin red ni I/O. Hermana de audio de comfyui_build_txt2img_workflow."
tags: [comfyui, audio, ace-step, sfx, music, ml, workflow]
uses_functions: []
uses_types: []
returns: []
returns_optional: false
error_type: ""
imports: []
params:
- name: ckpt_name
desc: "Nombre del checkpoint ACE-Step tal como lo ve el servidor ComfyUI (ej. 'AUDIO_ace_step_v1_3.5b.safetensors', todo-en-uno: DiT + text encoder + VAE de audio). Debe estar entre los que devuelve comfyui_object_info en CheckpointLoaderSimple."
- name: prompt
desc: "Descripcion del sonido o estilo musical. Va al campo 'tags' de TextEncodeAceStepAudio. Ej. '8-bit coin pickup sound, retro game' o 'lofi hip hop, mellow piano, 90 bpm'."
- name: lyrics
desc: "Letra cantada para musica con voz. Vacio '' para SFX o musica instrumental. keyword-only."
- name: seconds
desc: "Duracion del audio en segundos (min 1.0). Controla el tamano del latente via EmptyAceStepLatentAudio. keyword-only."
- name: seed
desc: "Semilla del KSampler. 0 es determinista; cambiar para variar el resultado. keyword-only."
- name: steps
desc: "Pasos de sampling del KSampler. 50 recomendado para ACE-Step. keyword-only."
- name: cfg
desc: "Classifier-free guidance scale. 5.0 recomendado para ACE-Step. keyword-only."
- name: sampler_name
desc: "Algoritmo del KSampler. Por defecto 'euler'. keyword-only."
- name: scheduler
desc: "Scheduler del KSampler. Por defecto 'simple'. keyword-only."
- name: shift
desc: "Shift del ModelSamplingSD3 aplicado al MODEL antes del sampling. 5.0 recomendado para ACE-Step; mejora la coherencia temporal. keyword-only."
- name: lyrics_strength
desc: "Fuerza del condicionamiento de la letra (1.0 por defecto; sin efecto practico cuando lyrics esta vacio). keyword-only."
- name: filename_prefix
desc: "Prefijo del .flac generado por SaveAudio en output/ del servidor. keyword-only."
output: "dict en API format listo para comfyui_submit_workflow. node_ids string; cada valor con class_type + inputs. Devuelve 8 nodos: CheckpointLoaderSimple, TextEncodeAceStepAudio, ConditioningZeroOut, EmptyAceStepLatentAudio, ModelSamplingSD3, KSampler, VAEDecodeAudio y SaveAudio. El denoise del KSampler se fija a 1.0 (genera desde el latente vacio, no es audio2audio)."
tested: true
tests: ["estructura: 8 nodos ACE-Step presentes + ckpt en CheckpointLoaderSimple + prompt en TextEncodeAceStepAudio.tags", "cableado: clip [4,1], positive [6,0], negative via ConditioningZeroOut [10,0], model post ModelSamplingSD3 [11,0], vae [4,2], denoise 1.0", "params reflejados (lyrics/seconds/seed/steps/cfg/sampler_name/scheduler/shift/lyrics_strength/filename_prefix)", "edge: seconds y seed variables se reflejan en EmptyAceStepLatentAudio y KSampler", "determinismo: misma entrada -> mismo dict (builder puro)"]
test_file_path: "python/functions/ml/tests/test_comfyui_build_audio_workflow.py"
file_path: "python/functions/ml/comfyui_build_audio_workflow.py"
---
## Ejemplo
```python
import sys, os
sys.path.insert(0, os.path.join(os.environ["HOME"], "fn_registry", "python", "functions"))
from ml.comfyui_build_audio_workflow import comfyui_build_audio_workflow
wf = comfyui_build_audio_workflow(
ckpt_name="AUDIO_ace_step_v1_3.5b.safetensors",
prompt="8-bit coin pickup sound, retro game, short",
seconds=4.0, seed=42,
)
# wf["6"]["class_type"] == "TextEncodeAceStepAudio"
# wf["9"]["class_type"] == "SaveAudio"
# -> comfyui_submit_workflow(wf, server="127.0.0.1:8188") para encolar (necesita GPU)
# -> comfyui_wait_result(prompt_id) -> comfyui_fetch_output_audio(prompt_id, dest=...)
```
O lanzable directo con: `./fn run comfyui_build_audio_workflow` (imprime el JSON del workflow ACE-Step de ejemplo).
## Cuando usarla
Antes de enviar una generacion de audio (musica o SFX por texto) a ComfyUI:
construye aqui el dict del workflow ACE-Step y pasalo a `comfyui_submit_workflow`.
Usala cuando quieres un sonido o pieza musical descrita en lenguaje natural
(`prompt`), opcionalmente con letra cantada (`lyrics`). Baja el resultado con
`comfyui_fetch_output_audio`. Verifica el workflow contra el servidor con
`comfyui_validate_workflow` antes de encolar.
## Gotchas
- Es API format (nodos numerados), NO el formato de la UI de ComfyUI. Es lo que
acepta POST /prompt.
- El checkpoint ACE-Step debe existir y ser visible para el servidor (carpeta de
checkpoints o extra_model_paths) o ComfyUI rechaza el workflow con HTTP 400 al
enviarlo. Esta funcion es pura y no valida contra el servidor.
- Stable Audio Open 1.0 (la otra via nativa, mas ligera) esta GATED en HuggingFace
(resolve da HTTP 403 sin aceptar la licencia): por eso el modelo por defecto es
ACE-Step, que es abierto (Apache 2.0) y no gated.
- VRAM 8GB: `ace_step_v1_3.5b.safetensors` pesa ~7.7GB. Arrancar ComfyUI con
`--lowvram` para que streamee bloques a CPU; aun asi va justo. Antes de generar
audio, liberar VRAM de SD/Flux con POST /free {"unload_models":true,
"free_memory":true}. Si da OOM, bajar `seconds`. El builder es puro: no toca la
GPU, solo arma el dict (un OOM ocurre en el submit posterior, no aqui).
- ACE-Step es modelo de MUSICA: para SFX cortos funciona pero el resultado tiende
a sonar "musical". `seconds` minimo 1.0. Para SFX muy cortos usar 2-4 s.
- SaveAudio guarda `.flac` por defecto (clave "audio" en outputs[node]). Para bajar
el archivo usa `comfyui_fetch_output_audio` (no `comfyui_fetch_output_video`, que
solo busca extensiones de video).
- `lyrics` vacio = instrumental/SFX. Con letra, ACE-Step canta; `lyrics_strength`
ajusta cuanto se ciñe a ella.
@@ -0,0 +1,126 @@
"""Construye un workflow ComfyUI de texto->audio (ACE-Step) en "API format".
API format: cada clave es un node_id (string); cada nodo tiene class_type +
inputs. Las conexiones entre nodos son listas [node_id, output_index]. Este es
el formato que acepta POST /prompt, distinto del formato de la UI (graph con
links explicitos).
El grafo usa los nodos de audio NATIVOS de ComfyUI 0.26.0 para el modelo
ACE-Step (abierto, Apache 2.0): CheckpointLoaderSimple ->
TextEncodeAceStepAudio (tags + lyrics) -> EmptyAceStepLatentAudio ->
ModelSamplingSD3 -> KSampler -> VAEDecodeAudio -> SaveAudio. El negative se
construye con ConditioningZeroOut sobre el positive (patron oficial de ACE-Step).
Funcion pura: sin red, sin I/O. Determinista para los mismos argumentos.
"""
def comfyui_build_audio_workflow(
ckpt_name: str,
prompt: str,
*,
lyrics: str = "",
seconds: float = 10.0,
seed: int = 0,
steps: int = 50,
cfg: float = 5.0,
sampler_name: str = "euler",
scheduler: str = "simple",
shift: float = 5.0,
lyrics_strength: float = 1.0,
filename_prefix: str = "audio/comfy_audio",
) -> dict:
"""Construye el dict del workflow texto->audio para ACE-Step.
Cadena de nodos: CheckpointLoaderSimple -> TextEncodeAceStepAudio (positivo)
+ ConditioningZeroOut (negativo) + EmptyAceStepLatentAudio -> ModelSamplingSD3
-> KSampler -> VAEDecodeAudio -> SaveAudio. SaveAudio escribe un .flac en la
carpeta output/<filename_prefix> del servidor ComfyUI.
Args:
ckpt_name: nombre del checkpoint ACE-Step tal como lo ve el servidor
(ej. "AUDIO_ace_step_v1_3.5b.safetensors"). Debe estar entre los que
devuelve comfyui_object_info en CheckpointLoaderSimple.
prompt: descripcion del sonido o estilo musical (va al campo "tags" de
TextEncodeAceStepAudio). Ej. "8-bit coin pickup sound, retro game".
lyrics: letra cantada para musica con voz. Vacio "" para SFX o musica
instrumental.
seconds: duracion del audio en segundos (min 1.0). Controla el tamano
del latente via EmptyAceStepLatentAudio.
seed: semilla del KSampler (cambia para variar el resultado).
steps: pasos de sampling del KSampler (50 recomendado para ACE-Step).
cfg: classifier-free guidance scale (5.0 recomendado para ACE-Step).
sampler_name: nombre del sampler (ej. "euler").
scheduler: scheduler del sampler (ej. "simple").
shift: shift del ModelSamplingSD3 aplicado al MODEL antes del sampling
(5.0 recomendado para ACE-Step). Mejora la coherencia temporal.
lyrics_strength: fuerza del condicionamiento de la letra (1.0 por
defecto; sin efecto practico cuando lyrics esta vacio).
filename_prefix: prefijo del .flac generado por SaveAudio en output/.
Returns:
dict en API format listo para comfyui_submit_workflow. Las claves son
node_ids ("3".."11") y cada valor tiene class_type + inputs.
"""
return {
"4": {
"class_type": "CheckpointLoaderSimple",
"inputs": {"ckpt_name": ckpt_name},
},
"6": {
"class_type": "TextEncodeAceStepAudio",
"inputs": {
"clip": ["4", 1],
"tags": prompt,
"lyrics": lyrics,
"lyrics_strength": lyrics_strength,
},
},
"10": {
"class_type": "ConditioningZeroOut",
"inputs": {"conditioning": ["6", 0]},
},
"5": {
"class_type": "EmptyAceStepLatentAudio",
"inputs": {"seconds": seconds, "batch_size": 1},
},
"11": {
"class_type": "ModelSamplingSD3",
"inputs": {"model": ["4", 0], "shift": shift},
},
"3": {
"class_type": "KSampler",
"inputs": {
"seed": seed,
"steps": steps,
"cfg": cfg,
"sampler_name": sampler_name,
"scheduler": scheduler,
"denoise": 1.0,
"model": ["11", 0],
"positive": ["6", 0],
"negative": ["10", 0],
"latent_image": ["5", 0],
},
},
"8": {
"class_type": "VAEDecodeAudio",
"inputs": {"samples": ["3", 0], "vae": ["4", 2]},
},
"9": {
"class_type": "SaveAudio",
"inputs": {"filename_prefix": filename_prefix, "audio": ["8", 0]},
},
}
if __name__ == "__main__":
import json
wf = comfyui_build_audio_workflow(
ckpt_name="AUDIO_ace_step_v1_3.5b.safetensors",
prompt="8-bit coin pickup sound, retro game, short",
seconds=4.0,
seed=42,
)
print(json.dumps(wf, indent=2))
@@ -0,0 +1,85 @@
---
name: comfyui_fetch_output_audio
kind: function
lang: py
domain: ml
version: "1.0.0"
purity: impure
signature: "def comfyui_fetch_output_audio(prompt_id: str, *, server: str = \"127.0.0.1:8188\", dest: str | None = None, outputs: dict | None = None, timeout: float = 120.0) -> dict"
description: "Localiza y descarga el output de audio de un workflow ComfyUI a disco local. Hermana de comfyui_fetch_output_video / _image / _mesh pero para los nodos de audio (SaveAudio, SaveAudioMP3, SaveAudioOpus, SaveAudioAdvanced): esos exponen su salida en GET /history bajo la clave 'audio' con items {filename, subfolder, type}. Localiza el primer .flac/.wav/.mp3/.opus/.ogg/.m4a, lo baja via GET /view y opcionalmente lo escribe en dest. Acepta outputs= ya obtenido de comfyui_wait_result para evitar re-consultar /history. Impura: HTTP GET + escritura en disco, solo stdlib."
tags: [comfyui, audio, fetch, ace-step, ml, download, workflow]
uses_functions: []
uses_types: []
returns: []
returns_optional: false
error_type: error_go_core
imports: []
params:
- name: prompt_id
desc: "id devuelto por comfyui_submit_workflow, de un workflow cuyo nodo de audio (SaveAudio/SaveAudioMP3/...) ya termino (usa comfyui_wait_result antes si dudas). Se ignora si se pasa outputs."
- name: server
desc: "host:port del servidor ComfyUI sin esquema. keyword-only."
- name: dest
desc: "Ruta destino. Si None, escribe el basename del audio en el cwd. Si es un directorio existente (o termina en separador), escribe el basename dentro. Si es una ruta de archivo, escribe ahi. keyword-only."
- name: outputs
desc: "dict de outputs ya obtenido (el que devuelve comfyui_wait_result). Si se pasa, se busca el audio ahi y NO se consulta /history (evita una peticion de red extra). keyword-only."
- name: timeout
desc: "Timeout de cada peticion HTTP en segundos. keyword-only."
output: "dict {ok, path, format, bytes, error}. path = ruta local del archivo de audio guardado, format = extension sin punto (ej. 'flac' o 'mp3'), bytes = bytes descargados. Si falla, ok=False y error explica (sin audio en los outputs, HTTP, conexion o escritura)."
tested: true
tests:
- "test_is_audio_item_por_extension"
- "test_find_saveaudio_flac_bajo_audio"
- "test_find_saveaudiomp3_bajo_audio"
- "test_find_prioriza_clave_audio"
- "test_find_sin_audio_devuelve_none"
test_file_path: "python/functions/ml/comfyui_fetch_output_audio_test.py"
file_path: "python/functions/ml/comfyui_fetch_output_audio.py"
---
## Ejemplo
```python
import sys, os
sys.path.insert(0, os.path.join(os.environ["HOME"], "fn_registry", "python", "functions"))
from ml.comfyui_fetch_output_audio import comfyui_fetch_output_audio
# Tras comfyui_submit_workflow + comfyui_wait_result de un workflow de audio
# (ACE-Step, Stable Audio), baja el .flac/.mp3 al disco.
res = comfyui_fetch_output_audio("8a278988-8a94-4225-add3-88a406f7101c", dest="/tmp/audios")
# res == {"ok": True, "path": "/tmp/audios/comfy_audio_00001_.flac",
# "format": "flac", "bytes": 882000, "error": ""}
# Si ya tienes los outputs de comfyui_wait_result, pasalos y evita re-consultar /history:
outputs = {"9": {"audio": [{"filename": "comfy_audio_00001_.flac", "subfolder": "audio", "type": "output"}]}}
res2 = comfyui_fetch_output_audio("ignored", dest="/tmp/audios", outputs=outputs)
```
Lánzalo con el python del venv (import de arriba o heredoc). Nota: `./fn run` directo no aplica porque la firma usa `*` (keyword-only), no soportado por el generador de runner de `fn run`.
## Cuando usarla
Después de generar audio con ComfyUI (música o SFX por texto con ACE-Step, o Stable
Audio), cuando necesites el archivo `.flac`/`.wav`/`.mp3`/`.opus` real en disco (no
solo su nombre): para reproducirlo, subirlo a un vault, o usarlo como asset de un
juego. Es la hermana de `comfyui_fetch_output_video` (vídeo/animación),
`comfyui_fetch_output_image` (imágenes) y `comfyui_fetch_output_mesh` (mallas 3D).
El builder hermano es `comfyui_build_audio_workflow`.
## Gotchas
- Impura: hace HTTP GET a /history y /view y escribe en disco. Requiere el server
vivo y que el prompt YA haya terminado (usa `comfyui_wait_result` antes, o pásale
`outputs=`).
- Los nodos SaveAudio* exponen el archivo bajo la clave `"audio"` de los outputs
(no `"images"` como los de imagen/vídeo). Por eso `comfyui_fetch_output_video` NO
sirve para audio: busca extensiones de vídeo y claves gifs/videos/images.
- SaveAudio guarda `.flac` por defecto; SaveAudioMP3 `.mp3`, SaveAudioOpus `.opus`.
La función cubre todas por extensión.
- Toma el PRIMER archivo de audio que encuentra. Si un workflow exporta varios,
baja solo uno; para los demás llama otra vez o usa GET /view con el filename concreto.
- El history se purga al reiniciar el server: si el prompt ya no está, devuelve
`ok=False`. Pasar `outputs=` evita esa consulta y el problema.
- `dest` se interpreta: None -> cwd; directorio EXISTENTE -> dentro; ruta de archivo
-> esa ruta. Un directorio que aún no existe se trata como ruta de archivo: créalo
antes (o termina la ruta en separador).
@@ -0,0 +1,162 @@
"""Localiza y descarga el output de audio de un workflow ComfyUI a disco.
Hermana de comfyui_fetch_output_video / comfyui_fetch_output_image / _mesh, pero
para los nodos de audio (SaveAudio, SaveAudioMP3, SaveAudioOpus, SaveAudioAdvanced).
Esos nodos exponen su salida en GET /history/{prompt_id} bajo la clave "audio"
como lista de items {filename, subfolder, type}. Esta funcion localiza el primer
archivo con extension de audio (.flac/.wav/.mp3/.opus/.ogg/.m4a), lo baja via
GET /view a disco y, opcionalmente, lo escribe en `dest`.
Impura: red (HTTP GET a /history y /view) + escritura en disco. Solo stdlib.
"""
import json
import os
import urllib.error
import urllib.parse
import urllib.request
# Extensiones de audio que producen los nodos SaveAudio* de ComfyUI.
_AUDIO_EXTS = (".flac", ".wav", ".mp3", ".opus", ".ogg", ".m4a")
# Claves de output preferentes para audio (se inspeccionan primero).
_AUDIO_KEYS = ("audio", "audios")
def _is_audio_item(item: dict) -> bool:
"""True si el item de output apunta a un archivo de audio (por extension)."""
fn = (item.get("filename") or "").lower()
return fn.endswith(_AUDIO_EXTS)
def _find_audio_output(outputs: dict) -> dict | None:
"""Busca en los outputs de /history el primer archivo de audio.
Hace dos pasadas: primero en la clave preferente "audio" (la que usan los
nodos SaveAudio*), luego en cualquier clave por si un nodo lo expone bajo
otro nombre. Devuelve {filename, subfolder, type} o None.
"""
for prefer in (True, False):
for node_out in outputs.values():
if not isinstance(node_out, dict):
continue
for key, items in node_out.items():
if prefer and key not in _AUDIO_KEYS:
continue
if not isinstance(items, list):
continue
for item in items:
if isinstance(item, dict) and _is_audio_item(item):
return {
"filename": item.get("filename", ""),
"subfolder": item.get("subfolder", ""),
"type": item.get("type", "output"),
}
return None
def _resolve_dest(dest: str | None, filename: str) -> str:
"""Resuelve la ruta local destino a partir de `dest` y el basename remoto."""
base = os.path.basename(filename)
if dest is None:
return os.path.join(os.getcwd(), base)
expanded = os.path.expanduser(dest)
if os.path.isdir(expanded) or expanded.endswith(os.sep):
return os.path.join(expanded, base)
return expanded
def comfyui_fetch_output_audio(
prompt_id: str,
*,
server: str = "127.0.0.1:8188",
dest: str | None = None,
outputs: dict | None = None,
timeout: float = 120.0,
) -> dict:
"""Descarga el audio de un prompt ComfyUI ya ejecutado a disco local.
Args:
prompt_id: id devuelto por comfyui_submit_workflow, de un workflow cuyo
nodo de audio (SaveAudio/SaveAudioMP3/...) ya termino (usa
comfyui_wait_result antes si dudas). Se ignora si se pasa `outputs`.
server: host:port del servidor ComfyUI (sin esquema). keyword-only.
dest: ruta destino. Si None, escribe el basename del audio en el cwd.
Si es un directorio (o termina en separador), escribe el basename
dentro. Si es una ruta de archivo, escribe ahi. keyword-only.
outputs: dict de outputs ya obtenido (el que devuelve comfyui_wait_result).
Si se pasa, se busca el audio ahi y NO se consulta /history (evita una
peticion de red extra justo despues de esperar). keyword-only.
timeout: timeout de cada peticion HTTP en segundos. keyword-only.
Returns:
dict {ok, path, format, bytes, error}. path = ruta local del archivo de
audio guardado; format = extension sin punto (ej. "flac" o "mp3"); bytes =
tamano descargado. Si falla, ok=False y error explica (sin audio en los
outputs, HTTP, conexion o escritura).
"""
# 1. Obtener los outputs: del parametro (sin red) o consultando /history.
if outputs is None:
hist_url = f"http://{server}/history/{prompt_id}"
try:
with urllib.request.urlopen(hist_url, timeout=timeout) as resp:
hist = json.loads(resp.read())
except urllib.error.HTTPError as exc:
body = exc.read().decode(errors="replace")[:200]
return {"ok": False, "path": "", "format": "", "bytes": 0,
"error": f"HTTP {exc.code} en {hist_url}: {body}"}
except urllib.error.URLError as exc:
return {"ok": False, "path": "", "format": "", "bytes": 0,
"error": f"no se pudo conectar a {hist_url}: {exc.reason}"}
except json.JSONDecodeError as exc:
return {"ok": False, "path": "", "format": "", "bytes": 0,
"error": f"respuesta no es JSON valido desde {hist_url}: {exc}"}
entry = hist.get(prompt_id)
if not entry:
return {"ok": False, "path": "", "format": "", "bytes": 0,
"error": f"prompt_id {prompt_id} no esta en /history (¿no termino o se purgo?)"}
outputs = entry.get("outputs", {})
audio = _find_audio_output(outputs or {})
if audio is None:
return {"ok": False, "path": "", "format": "", "bytes": 0,
"error": f"sin archivo de audio en los outputs de {prompt_id}"}
# 2. Descargar el archivo via GET /view.
qs = urllib.parse.urlencode({
"filename": audio["filename"],
"subfolder": audio["subfolder"],
"type": audio["type"],
})
view_url = f"http://{server}/view?{qs}"
try:
with urllib.request.urlopen(view_url, timeout=timeout) as resp:
blob = resp.read()
except urllib.error.HTTPError as exc:
body = exc.read().decode(errors="replace")[:200]
return {"ok": False, "path": "", "format": "", "bytes": 0,
"error": f"HTTP {exc.code} en {view_url}: {body}"}
except urllib.error.URLError as exc:
return {"ok": False, "path": "", "format": "", "bytes": 0,
"error": f"no se pudo conectar a {view_url}: {exc.reason}"}
# 3. Escribir a disco.
out_path = _resolve_dest(dest, audio["filename"])
try:
parent = os.path.dirname(out_path)
if parent:
os.makedirs(parent, exist_ok=True)
with open(out_path, "wb") as f:
f.write(blob)
except OSError as exc:
return {"ok": False, "path": "", "format": "", "bytes": 0,
"error": f"no se pudo escribir en {out_path!r}: {exc}"}
fmt = os.path.splitext(audio["filename"])[1].lstrip(".").lower()
return {"ok": True, "path": out_path, "format": fmt, "bytes": len(blob), "error": ""}
if __name__ == "__main__":
import sys
pid = sys.argv[1] if len(sys.argv) > 1 else "00000000-0000-0000-0000-000000000000"
res = comfyui_fetch_output_audio(pid, dest="/tmp/comfy_audio")
print(json.dumps(res, indent=2))
@@ -0,0 +1,50 @@
"""Tests de localizacion de output para comfyui_fetch_output_audio.
Solo cubren la logica pura de busqueda (_is_audio_item / _find_audio_output): no
tocan red ni disco. La descarga real via HTTP se prueba en el flujo e2e con el
servidor ComfyUI vivo.
"""
import os
import sys
sys.path.insert(0, os.path.dirname(__file__))
from comfyui_fetch_output_audio import _find_audio_output, _is_audio_item
def test_is_audio_item_por_extension():
assert _is_audio_item({"filename": "comfy_audio_00001_.flac"})
assert _is_audio_item({"filename": "x.mp3"})
assert _is_audio_item({"filename": "x.WAV"})
assert not _is_audio_item({"filename": "x.png"})
assert not _is_audio_item({"filename": ""})
def test_find_saveaudio_flac_bajo_audio():
outputs = {
"9": {"audio": [{"filename": "comfy_audio_00001_.flac",
"subfolder": "audio", "type": "output"}]}
}
got = _find_audio_output(outputs)
assert got == {"filename": "comfy_audio_00001_.flac",
"subfolder": "audio", "type": "output"}
def test_find_saveaudiomp3_bajo_audio():
outputs = {"12": {"audio": [{"filename": "track.mp3", "subfolder": "", "type": "output"}]}}
assert _find_audio_output(outputs)["filename"] == "track.mp3"
def test_find_prioriza_clave_audio():
# Un nodo deja un png bajo "images" y otro un flac bajo "audio": gana el audio.
outputs = {
"9": {"images": [{"filename": "preview.png", "subfolder": "", "type": "output"}]},
"10": {"audio": [{"filename": "out.flac", "subfolder": "", "type": "output"}]},
}
assert _find_audio_output(outputs)["filename"] == "out.flac"
def test_find_sin_audio_devuelve_none():
outputs = {"9": {"images": [{"filename": "preview.png", "subfolder": "", "type": "output"}]}}
assert _find_audio_output(outputs) is None
assert _find_audio_output({}) is None
@@ -0,0 +1,90 @@
"""Tests de estructura para comfyui_build_audio_workflow (funcion pura, ACE-Step)."""
import os
import sys
sys.path.insert(0, os.path.dirname(__file__))
sys.path.insert(0, os.path.join(os.path.dirname(__file__), "..", ".."))
from ml.comfyui_build_audio_workflow import comfyui_build_audio_workflow
from _comfyui_wf_assert import assert_api_format, class_types, node_by_ct
def test_estructura_y_nodos_acestep():
wf = comfyui_build_audio_workflow(
"AUDIO_ace_step_v1_3.5b.safetensors", "retro coin sfx"
)
assert_api_format(wf)
cts = class_types(wf)
for ct in (
"CheckpointLoaderSimple",
"TextEncodeAceStepAudio",
"ConditioningZeroOut",
"EmptyAceStepLatentAudio",
"ModelSamplingSD3",
"KSampler",
"VAEDecodeAudio",
"SaveAudio",
):
assert ct in cts, f"falta nodo {ct}"
assert len(wf) == 8
def test_ckpt_y_prompt_reflejados():
wf = comfyui_build_audio_workflow("AUDIO_x.safetensors", "magic spell whoosh")
assert node_by_ct(wf, "CheckpointLoaderSimple")["inputs"]["ckpt_name"] == "AUDIO_x.safetensors"
enc = node_by_ct(wf, "TextEncodeAceStepAudio")
assert enc["inputs"]["tags"] == "magic spell whoosh"
assert enc["inputs"]["lyrics"] == ""
def test_cableado_ksampler():
wf = comfyui_build_audio_workflow("AUDIO_x.safetensors", "p")
ks = node_by_ct(wf, "KSampler")["inputs"]
# model viene de ModelSamplingSD3 ("11"), no del checkpoint directo
assert ks["model"] == ["11", 0]
assert ks["positive"] == ["6", 0]
# negative pasa por ConditioningZeroOut ("10")
assert ks["negative"] == ["10", 0]
assert ks["latent_image"] == ["5", 0]
assert ks["denoise"] == 1.0
# ModelSamplingSD3 toma el MODEL del checkpoint
assert node_by_ct(wf, "ModelSamplingSD3")["inputs"]["model"] == ["4", 0]
# VAEDecodeAudio usa el VAE del checkpoint
assert node_by_ct(wf, "VAEDecodeAudio")["inputs"]["vae"] == ["4", 2]
# ConditioningZeroOut deriva del positive
assert node_by_ct(wf, "ConditioningZeroOut")["inputs"]["conditioning"] == ["6", 0]
def test_edge_seconds_y_seed_variables():
wf_a = comfyui_build_audio_workflow("c", "p", seconds=4.0, seed=42)
wf_b = comfyui_build_audio_workflow("c", "p", seconds=8.0, seed=99)
assert node_by_ct(wf_a, "EmptyAceStepLatentAudio")["inputs"]["seconds"] == 4.0
assert node_by_ct(wf_b, "EmptyAceStepLatentAudio")["inputs"]["seconds"] == 8.0
assert node_by_ct(wf_a, "KSampler")["inputs"]["seed"] == 42
assert node_by_ct(wf_b, "KSampler")["inputs"]["seed"] == 99
def test_params_reflejados():
wf = comfyui_build_audio_workflow(
"c", "p",
lyrics="la la la", steps=30, cfg=4.0, sampler_name="dpmpp_2m",
scheduler="karras", shift=3.5, lyrics_strength=0.7,
filename_prefix="audio/mio",
)
enc = node_by_ct(wf, "TextEncodeAceStepAudio")["inputs"]
assert enc["lyrics"] == "la la la"
assert enc["lyrics_strength"] == 0.7
ks = node_by_ct(wf, "KSampler")["inputs"]
assert ks["steps"] == 30
assert ks["cfg"] == 4.0
assert ks["sampler_name"] == "dpmpp_2m"
assert ks["scheduler"] == "karras"
assert node_by_ct(wf, "ModelSamplingSD3")["inputs"]["shift"] == 3.5
assert node_by_ct(wf, "SaveAudio")["inputs"]["filename_prefix"] == "audio/mio"
def test_determinismo():
a = comfyui_build_audio_workflow("c", "p", seconds=5.0, seed=7)
b = comfyui_build_audio_workflow("c", "p", seconds=5.0, seed=7)
assert a == b