feat(papers): estructura, scaffolding y capability page del artefacto papers/

Nuevo tipo de artefacto para papers académicos reproducibles (papers/<NNNN-slug>/): - Plantillas docs/templates/paper.md (IMRaD completo con guías por sección: Abstract, Introduction, Related work, Methods, Results, Discussion con Limitaciones + Amenazas a la validez, Conclusion + Future work) y docs/templates/preregistration.md (H0/H1 falsable, variables, diseño, plan de análisis con test exacto + effect size + corrección múltiple, predicción cuantitativa; nota anti-HARKing de congelado). - Pipeline init_paper (bash/functions/pipelines/init_paper.sh + .md): calcula el siguiente NNNN, crea las subcarpetas (experiments data figures reviews out), copia las plantillas rellenando el frontmatter (title, slug, date, phase=question, status=draft) y crea references.md. No hace git init (fase interna local). - Función atómica reutilizable next_numbered_dir (bash/functions/io): siguiente prefijo NNNN- escaneando un directorio numerado (reutilizable por papers/reports/issues). - papers/ como artefacto local gitignored (bloque en .gitignore + papers/.gitkeep): un paper en fase interna no contamina el repo padre; al promocionar a publishable se vuelve sub-repo Gitea propio. - Página de capacidad docs/capabilities/papers.md + fila en el INDEX: tabla de funciones del grupo papers (disponibles + en construcción por la flota), ejemplo canónico end-to-end y fronteras. Reutiliza slugify_ascii del registry. Diseño: reports/0001-2026-06-30-papers-system-design.md. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
2026-06-30 20:38:38 +02:00
13 changed files with 598 additions and 556 deletions
@@ -54,6 +54,13 @@ reports/*
 !reports/.gitkeep
 projects/*/reports/

+# Papers — artefacto local: papers académicos reproducibles. En fase interna viven
+# local y gitignored (como los reports); al promocionar a fase publishable se
+# vuelven sub-repo Gitea propio (como apps/analyses). Solo el marcador .gitkeep se
+# versiona. Convención: docs/capabilities/papers.md
+papers/*
+!papers/.gitkeep
+
 # Node / pnpm
 **/node_modules/

@@ -0,0 +1,58 @@
+---
+name: next_numbered_dir
+kind: function
+lang: bash
+domain: io
+version: "1.0.0"
+purity: impure
+signature: "next_numbered_dir(parent_dir: string, [width: int]) -> string"
+description: "Calcula el siguiente prefijo numerico NNNN- para un directorio numerado incremental. Escanea los subdirectorios directos de parent_dir cuyo nombre empiece por NNNN- (4+ digitos seguidos de guion), toma el maximo, le suma 1 y lo imprime con zero-padding al ancho width (default 4). Si parent_dir no existe o no tiene subdirs que matcheen, imprime 0001."
+tags: [papers, io, scaffold]
+uses_functions: []
+uses_types: []
+returns: []
+returns_optional: false
+error_type: "error_go_core"
+imports: []
+params:
+  - name: parent_dir
+    desc: "directorio padre cuyos subdirectorios numerados (NNNN-...) se escanean; obligatorio"
+  - name: width
+    desc: "ancho del zero-padding del numero impreso (default 4); opcional"
+output: "el siguiente numero como string con zero-padding a width digitos a stdout (ej. 0003); usage a stderr y exit 1 si falta parent_dir"
+tested: false
+tests: []
+test_file_path: ""
+file_path: "bash/functions/io/next_numbered_dir.sh"
+---
+
+## Ejemplo
+
+```bash
+source bash/functions/io/next_numbered_dir.sh
+
+# Sobre un papers/ que ya contiene 0001-foo y 0002-bar
+mkdir -p /tmp/papers/{0001-foo,0002-bar}
+next_numbered_dir /tmp/papers
+# -> 0003
+
+# Directorio vacio o inexistente -> primer numero
+next_numbered_dir /tmp/papers_nuevo
+# -> 0001
+
+# Ancho de padding distinto
+next_numbered_dir /tmp/papers 6
+# -> 000003
+```
+
+## Cuando usarla
+
+Cuando scaffoldees un artefacto numerado incremental (papers/, reports/, issues/) y necesites el siguiente NNNN sin colision: escanea lo que ya existe en disco y te da el numero libre listo para crear `<NNNN>-<slug>`.
+
+## Gotchas
+
+- **Impura**: lee el filesystem (estado del directorio en el momento de la llamada). No crea nada — solo calcula e imprime el numero.
+- **Octal**: los numeros con cero a la izquierda (`08`, `09`) se interpretan como octal en aritmetica bash y romperian el calculo. La funcion fuerza base 10 con `10#$num` para evitarlo.
+- **Solo subdirectorios**: cuenta unicamente subdirs directos. Archivos sueltos (`.gitkeep`, `notas.md`) y subdirs que no matcheen el patron se ignoran. No es recursivo.
+- **Patron estricto**: el prefijo debe ser `NNNN-` (minimo 4 digitos seguidos de guion). Un subdir `12-foo` o `0001foo` (sin guion) NO se cuenta.
+- No hay deteccion de huecos: devuelve `max+1`, no el primer numero libre intermedio. Si tienes `0001` y `0003`, devuelve `0004`, no `0002`.
@@ -0,0 +1,46 @@
+#!/usr/bin/env bash
+# next_numbered_dir — Compute the next NNNN- prefix for a numbered directory.
+#
+# Scans the DIRECT subdirectories of <parent_dir> whose names start with a
+# numeric prefix of the form `NNNN-` (4+ digits followed by a hyphen), takes
+# the maximum number, adds 1, and prints it zero-padded to <width> (default 4).
+# If <parent_dir> does not exist or contains no matching subdir, prints the
+# first number (0001 at default width).
+
+next_numbered_dir() {
+    local parent_dir="${1:-}"
+    local width="${2:-4}"
+
+    if [[ -z "$parent_dir" ]]; then
+        echo "usage: next_numbered_dir <parent_dir> [width]" >&2
+        return 1
+    fi
+
+    local max=0
+    local entry base num
+
+    if [[ -d "$parent_dir" ]]; then
+        # Iterate only over direct subdirectories. The trailing slash in the
+        # glob ensures files (e.g. .gitkeep) are skipped — only dirs match.
+        for entry in "$parent_dir"/*/; do
+            # If the glob matched nothing it stays literal; guard with -d.
+            [[ -d "$entry" ]] || continue
+            base="$(basename "$entry")"
+            # Require a prefix of 4+ digits followed by a hyphen.
+            if [[ "$base" =~ ^([0-9]{4,})- ]]; then
+                num="${BASH_REMATCH[1]}"
+                # Force base 10 so leading zeros (08, 09) are not read as octal.
+                num=$((10#$num))
+                if (( num > max )); then
+                    max=$num
+                fi
+            fi
+        done
+    fi
+
+    printf "%0*d\n" "$width" $(( max + 1 ))
+}
+
+if [[ "${BASH_SOURCE[0]}" == "${0}" ]]; then
+    next_numbered_dir "$@"
+fi
@@ -0,0 +1,69 @@
+---
+name: init_paper
+kind: pipeline
+lang: bash
+domain: pipelines
+version: "1.0.0"
+purity: impure
+signature: "init_paper(slug: string, [--title <t>] [--domain <d>] [--tags <csv>]) -> void"
+description: "Scaffold de un paper académico reproducible en papers/<NNNN-slug>/. Calcula el siguiente número incremental escaneando papers/, crea las subcarpetas (experiments data figures reviews out), copia las plantillas paper.md (IMRaD) + preregistration.md (anti-HARKing) rellenando el frontmatter (title, slug, date de hoy, phase=question, status=draft) y crea references.md. NO hace git init: el paper arranca en fase interna local (papers/ gitignored). Grupo de capacidad papers."
+tags: [papers, scaffold, paper, pipeline, bash, launcher]
+uses_functions:
+  - next_numbered_dir_bash_io
+  - slugify_ascii_py_core
+uses_types: []
+returns: []
+returns_optional: false
+error_type: "error_go_core"
+imports: []
+params:
+  - name: slug
+    desc: "identificador legible del paper; se slugifica a ASCII (espacios/acentos se normalizan) y se prefija con el siguiente NNNN incremental"
+  - name: "--title"
+    desc: "título del paper (string); si se omite, usa el slug limpio. No debe contener el carácter '|'"
+  - name: "--domain"
+    desc: "dominio del paper escrito en el frontmatter (default datascience)"
+  - name: "--tags"
+    desc: "tags CSV que se escriben en el frontmatter de paper.md (opcional)"
+output: "sin salida directa; crea papers/<NNNN-slug>/ con paper.md, preregistration.md, references.md y las subcarpetas experiments/ data/ figures/ reviews/ out/. Imprime el resumen y los pasos siguientes a stdout."
+tested: false
+tests: []
+test_file_path: ""
+file_path: "bash/functions/pipelines/init_paper.sh"
+---
+
+## Ejemplo
+
+```bash
+# Scaffold de un paper nuevo (numera 0001, 0002, ... automáticamente)
+fn run init_paper mi-primer-paper --title "Mi primer paper"
+fn run init_paper reactive-loop-calls --domain datascience --tags registry,telemetria
+
+# El slug se slugifica: "Áreas de Mejora" -> papers/0003-areas-de-mejora/
+fn run init_paper "Áreas de Mejora"
+```
+
+## Cuando usarla
+
+Cuando empiezas un paper académico nuevo dentro de `fn_registry` y necesitas el esqueleto del artefacto (`papers/<NNNN-slug>/`) con las plantillas IMRaD y de pre-registro listas para rellenar. Es el paso 1 del grupo de capacidad `papers` (ver `docs/capabilities/papers.md`), antes de la revisión de literatura y del pre-registro de la hipótesis.
+
+## Flujo
+
+1. Parsea `<slug>` (posicional) + flags `--title` / `--domain` / `--tags`. Falla con exit ≠ 0 si falta el slug.
+2. `slugify_ascii` — normaliza el slug a ASCII lowercase sin diacríticos (reutiliza la función del registry, solo stdlib).
+3. `next_numbered_dir papers/` — calcula el siguiente NNNN de 4 dígitos sin colisión.
+4. Crea `papers/<NNNN-slug>/` con las subcarpetas `experiments/ data/ figures/ reviews/ out/`.
+5. Copia `docs/templates/paper.md` + `docs/templates/preregistration.md` y rellena el frontmatter por clave de línea (title, slug, date de hoy, domain, tags; phase=question y status=draft vienen de la plantilla).
+6. Crea `references.md` vacío.
+
+## Gotchas
+
+- **NO hace `git init`.** El paper arranca en fase interna local; `papers/` está gitignored en el repo padre (solo `papers/.gitkeep` se versiona). Promocionar a sub-repo Gitea (fase publishable) es manual.
+- **El `--title` no debe contener el carácter `|`** (se usa como delimitador de sed al rellenar el frontmatter; los `&` y `\` sí se escapan).
+- **No indexa el paper en `registry.db`** — los artefactos `papers/<slug>/` no se indexan en esta fase (KISS); sí se indexa este pipeline.
+- Requiere `python3` (del venv del registry o del sistema) para slugificar; `slugify_ascii` solo usa stdlib, así que el venv no es obligatorio.
+- Idempotencia: si el directorio destino ya existiera, aborta con exit ≠ 0 en vez de sobrescribir.
+
+## Notas
+
+Cada paper es un artefacto independiente (mismo patrón que `apps/` y `analysis/`, pero para investigación). El pipeline usa `set -euo pipefail`: cualquier fallo detiene la ejecución. Parte del grupo de capacidad `papers` — diseño completo en `reports/0001-2026-06-30-papers-system-design.md`.
@@ -0,0 +1,177 @@
+#!/usr/bin/env bash
+# init_paper
+# ----------
+# Scaffold de un paper académico reproducible en papers/<NNNN-slug>/.
+#
+# Calcula el siguiente número incremental escaneando papers/, crea el
+# directorio con todas las subcarpetas (experiments data figures reviews out),
+# copia las plantillas paper.md + preregistration.md rellenando el frontmatter
+# (title, slug, date de hoy, phase=question, status=draft) y crea references.md.
+#
+# NO hace `git init`: el paper arranca en fase interna local (papers/ está
+# gitignored en el repo padre, solo .gitkeep se versiona). La promoción a
+# sub-repo Gitea (fase publishable) es un paso posterior MANUAL.
+#
+# Compone: next_numbered_dir (helper de numeración del registry) +
+#          slugify_ascii (slug ASCII del registry).
+#
+# USO:
+#   ./init_paper.sh <slug> [--title "..."] [--domain <d>] [--tags a,b,c]
+#
+# EJEMPLOS:
+#   ./init_paper.sh mi-primer-paper --title "Mi primer paper"
+#   ./init_paper.sh reactive-loop-calls --domain datascience --tags registry,telemetria
+
+set -euo pipefail
+
+SCRIPT_DIR="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)"
+REGISTRY_ROOT="$(cd "$SCRIPT_DIR/../../.." && pwd)"
+
+# Funciones atómicas del registry
+source "$REGISTRY_ROOT/bash/functions/io/next_numbered_dir.sh"
+
+# ── Parsing de argumentos ────────────────────────────────────
+
+SLUG_RAW=""
+TITLE=""
+DOMAIN="datascience"
+TAGS=""
+
+while [ $# -gt 0 ]; do
+    case "$1" in
+        --title)
+            TITLE="$2"; shift 2 ;;
+        --domain)
+            DOMAIN="$2"; shift 2 ;;
+        --tags)
+            TAGS="$2"; shift 2 ;;
+        -h|--help)
+            grep "^#" "$0" | sed 's/^# \?//' ; exit 0 ;;
+        -*)
+            echo "Flag desconocido: $1" >&2 ; exit 1 ;;
+        *)
+            if [ -z "$SLUG_RAW" ]; then
+                SLUG_RAW="$1"
+            else
+                echo "ERROR: argumento posicional inesperado: '$1' (solo se admite un <slug>)." >&2
+                exit 1
+            fi
+            shift ;;
+    esac
+done
+
+if [ -z "$SLUG_RAW" ]; then
+    echo "ERROR: falta el argumento <slug>." >&2
+    echo "Uso: $0 <slug> [--title \"...\"] [--domain <d>] [--tags a,b,c]" >&2
+    echo "  Ejemplo: $0 mi-primer-paper --title \"Mi primer paper\"" >&2
+    exit 1
+fi
+
+# ── Slugificar (reutiliza slugify_ascii del registry; solo stdlib) ──
+
+PYBIN="$REGISTRY_ROOT/python/.venv/bin/python3"
+[ -x "$PYBIN" ] || PYBIN="$(command -v python3 || true)"
+if [ -z "$PYBIN" ]; then
+    echo "ERROR: no se encontró python3 para slugificar el slug." >&2
+    exit 1
+fi
+
+SLUG_CLEAN=$("$PYBIN" -c '
+import sys, os
+sys.path.insert(0, os.path.join(sys.argv[2], "python", "functions"))
+from core.slugify_ascii import slugify_ascii
+print(slugify_ascii(sys.argv[1], default="paper"))
+' "$SLUG_RAW" "$REGISTRY_ROOT")
+
+# ── Resolver número incremental y directorio destino ─────────
+
+PAPERS_DIR="$REGISTRY_ROOT/papers"
+mkdir -p "$PAPERS_DIR"
+
+NUM=$(next_numbered_dir "$PAPERS_DIR")
+SLUG_FULL="${NUM}-${SLUG_CLEAN}"
+PAPER_DIR="$PAPERS_DIR/$SLUG_FULL"
+
+if [ -d "$PAPER_DIR" ]; then
+    echo "ERROR: el directorio del paper ya existe: $PAPER_DIR" >&2
+    exit 1
+fi
+
+TODAY=$(date +%Y-%m-%d)
+[ -n "$TITLE" ] || TITLE="$SLUG_CLEAN"
+
+TAGS_YAML="[]"
+if [ -n "$TAGS" ]; then
+    TAGS_YAML="[$(echo "$TAGS" | sed 's/,/, /g')]"
+fi
+
+echo ""
+echo "════════════════════════════════════════════════════════════"
+echo "  INIT PAPER: ${SLUG_FULL}"
+echo "  Título:     ${TITLE}"
+echo "  Directorio: ${PAPER_DIR}"
+echo "════════════════════════════════════════════════════════════"
+echo ""
+
+# ── Crear estructura ─────────────────────────────────────────
+
+echo "[1/3] Creando estructura..."
+mkdir -p "$PAPER_DIR"/experiments "$PAPER_DIR"/data "$PAPER_DIR"/figures \
+         "$PAPER_DIR"/reviews "$PAPER_DIR"/out
+echo "  experiments/ data/ figures/ reviews/ out/"
+
+# ── Copiar plantillas + rellenar frontmatter ─────────────────
+
+echo "[2/3] Escribiendo paper.md + preregistration.md..."
+
+# Escapa caracteres especiales del RHS de sed (delimitador |)
+sed_escape() { printf '%s' "$1" | sed -e 's/[\\&|]/\\&/g'; }
+TITLE_ESC="$(sed_escape "$TITLE")"
+DOMAIN_ESC="$(sed_escape "$DOMAIN")"
+
+PAPER_MD="$PAPER_DIR/paper.md"
+PREREG_MD="$PAPER_DIR/preregistration.md"
+
+cp "$REGISTRY_ROOT/docs/templates/paper.md" "$PAPER_MD"
+cp "$REGISTRY_ROOT/docs/templates/preregistration.md" "$PREREG_MD"
+
+sed -i \
+    -e "s|^title:.*|title: \"${TITLE_ESC}\"|" \
+    -e "s|^slug:.*|slug: ${SLUG_FULL}|" \
+    -e "s|^date:.*|date: ${TODAY}|" \
+    -e "s|^domain:.*|domain: ${DOMAIN_ESC}|" \
+    -e "s|^tags:.*|tags: ${TAGS_YAML}|" \
+    "$PAPER_MD"
+
+sed -i \
+    -e "s|^paper_slug:.*|paper_slug: ${SLUG_FULL}|" \
+    "$PREREG_MD"
+
+echo "  $PAPER_MD"
+echo "  $PREREG_MD"
+
+# ── references.md ────────────────────────────────────────────
+
+echo "[3/3] Escribiendo references.md..."
+cat > "$PAPER_DIR/references.md" << EOF
+# References — ${TITLE}
+
+<!-- Una entrada por referencia. Formato libre (o BibTeX) hasta promocionar a publishable. -->
+EOF
+echo "  $PAPER_DIR/references.md"
+
+# ── Resumen ──────────────────────────────────────────────────
+
+echo ""
+echo "════════════════════════════════════════════════════════════"
+echo "  PAPER '${SLUG_FULL}' LISTO (fase: question, status: draft)"
+echo "════════════════════════════════════════════════════════════"
+echo ""
+echo "  Pasos siguientes:"
+echo "  1. Revisión de literatura (skill /deep-research) → Related work."
+echo "  2. Pre-registro: congela H0/H1 + plan en preregistration.md (preregister_hypothesis)."
+echo "  3. Experimentos en experiments/ → análisis (grupo eda) → escritura IMRaD en paper.md."
+echo "  4. render_paper_pdf → out/paper.pdf. Peer review adversarial → reviews/."
+echo ""
+echo "  papers/ está gitignored: este paper vive local hasta promocionar a publishable."
+echo ""
@@ -39,6 +39,7 @@ Indice de grupos de capacidades del registry. Cada grupo agrupa >=3 funciones qu
 | [cpp-tables](tql.md) | 9 | Table Query Language C++ puro: filter, group, agg, sort, join, stats, formulas Lua, round-trip emit/apply |
 | [data-table-renderers](data_table_renderers.md) | 1 | API declarativa de cell renderers para data_table: Badge, Progress, Duration, Icon via TableInput.column_specs |
 | [scheduler](scheduler.md) | 4 | Cron expression parsing, matching, next-run y traduccion humana (consume `apps/dag_engine`) |
+| [papers](papers.md) | — | Papers académicos reproducibles en `papers/<NNNN-slug>/`: scaffold del artefacto (`init_paper` + helper `next_numbered_dir`), plantillas IMRaD + pre-registro anti-HARKing, y (en construcción por la flota) congelar hipótesis, funciones estadísticas (effect size/CI/corrección múltiple), render md→PDF y peer-review adversarial. Reutiliza `deep-research`, grupo `eda` y el motor PDF de `datascience`. Diseño: `reports/0001-2026-06-30-papers-system-design.md` |
 | [extractor](extractor.md) | 15 | Funciones que leen datos de fuentes externas (BD, API, archivos, web). Nodos input de `data_factory` |
 | [transformer](transformer.md) | 15 | Funciones que clean/dedup/aggregate/feature-engineer datos. Nodos intermedios de `data_factory` |
 | [sink](sink.md) | 11 | Funciones que escriben datos a destino externo (BD, dashboard, alerta, email). Nodos output |
@@ -0,0 +1,82 @@
+# papers — papers académicos reproducibles
+
+Grupo de capacidad para producir **papers académicos** dentro de `fn_registry`: investigación con hipótesis falsables, experimentos reproducibles, análisis estadístico honesto y escritura en formato IMRaD. Cada paper es un artefacto nuevo en `papers/<NNNN-slug>/` que reutiliza infraestructura existente (skill `deep-research` para la revisión de literatura, grupo `eda` para el análisis, motor md→PDF de `datascience`, patrón de verificación adversarial del orquestador) y añade lo que falta como funciones del registry.
+
+Diseño completo y decisiones: `reports/0001-2026-06-30-papers-system-design.md`.
+
+> **Regla de oro anti paper-mill:** una hipótesis que **podía** fallar + un experimento con riesgo real de refutación + estadística que no es teatro. Si no hay riesgo de refutación, no es un paper. Los claims nunca superan a la evidencia. El antídoto al HARKing es el **pre-registro**: el plan de análisis se congela *antes* de mirar los datos.
+
+## Estructura del artefacto
+
+```
+papers/0001-mi-paper/
+  paper.md            # frontmatter (title, slug, authors, date, status, phase, tags, domain, hypothesis_id) + cuerpo IMRaD
+  preregistration.md  # H0/H1 + plan de análisis CONGELADO (frozen_at + content_hash) antes de correr
+  references.md       # bibliografía
+  experiments/        # código / notebooks por experimento (exp01_*, exp02_*)
+  data/               # crudos + procesados (gitignored si pesa)
+  figures/            # gráficos generados
+  reviews/            # outputs del peer-review adversarial
+  out/                # paper.pdf — entregable final
+  .git/               # SOLO cuando promociona a fase publishable (sub-repo Gitea)
+```
+
+`papers/` está gitignored en el repo padre (solo `papers/.gitkeep` se versiona): un paper en fase interna no contamina el repo. Al promocionar a `status: publishable` se vuelve sub-repo Gitea `dataforge/<slug>` (como apps y analyses).
+
+### Fases (campo `phase` de `paper.md`)
+
+```
+question → review → hypothesis → design → running → analysis → writing → internal-review
+  → [DONE interno]  → polish → submitted          [solo en fase publishable]
+```
+
+## Funciones
+
+| ID | Pureza | Estado | Qué hace |
+|---|---|---|---|
+| `init_paper_bash_pipelines` | impure | ✅ disponible | Scaffold de `papers/<NNNN-slug>/`: calcula el siguiente NNNN, crea las subcarpetas, copia `paper.md` + `preregistration.md` con el frontmatter relleno (slug, title, date de hoy, `phase: question`, `status: draft`) y `references.md` vacío. NO hace `git init` (el paper arranca en fase interna local). |
+| `next_numbered_dir_bash_io` | impure | ✅ disponible | Dado un directorio, devuelve el siguiente número incremental de 4 dígitos (`0001`, `0002`, …) escaneando los subdirs con prefijo `NNNN-`. Helper de numeración de `init_paper` (reutilizable por reports/issues). |
+| `preregister_hypothesis` | impure | 🚧 en construcción (flota) | Congela el `preregistration.md` (H0/H1 + plan de análisis) con `frozen_at` + `content_hash`, pasa `status` a `frozen` y escribe `hypothesis_id` en `paper.md`. Mata el HARKing: tras congelar, el plan no se edita. |
+| `cohens_d` (effect size) | pure | 🚧 en construcción (flota) | Tamaño del efecto (Cohen's d) entre dos grupos. Reporta magnitud, no solo significancia. |
+| `confidence_interval` | pure | 🚧 en construcción (flota) | Intervalo de confianza de una métrica (media/diferencia). |
+| `holm_bonferroni` | pure | 🚧 en construcción (flota) | Corrección de comparaciones múltiples (Holm-Bonferroni / FWER) para el plan de análisis. |
+| `render_paper_pdf` | impure | 🚧 en construcción (flota) | Markdown IMRaD (`paper.md` + figuras) → `out/paper.pdf`, reutilizando el motor md→PDF del grupo `eda`/`datascience`. |
+
+> Las funciones estadísticas reutilizan lo que ya exista en `datascience` (p.ej. `fdr_correction_py_datascience` cubre la corrección de comparaciones múltiples por FDR; el agente del rigor experimental decide si añade Holm-Bonferroni o reusa lo existente). Buscar antes de duplicar: `mcp__registry__fn_search query="effect size" domain="datascience"`.
+
+### Peer review (no es función del registry)
+
+El agente adversarial `.claude/agents/paper-reviewer.md` (🚧 en construcción por la flota) puntúa novedad, rigor, reproducibilidad y validez, e intenta **refutar** cada claim. Default a "failed" si la evidencia no soporta. Escribe su veredicto en `reviews/`. Es el equivalente al verificador adversarial del orquestador aplicado al paper.
+
+## Ejemplo canónico (end-to-end)
+
+```bash
+# 1. Scaffold del paper (fase question, local). Crea papers/0001-mi-paper/.
+./fn run init_paper mi-paper --title "¿El bucle reactivo reduce las calls inline?" --domain datascience --tags registry,telemetria
+
+# 2. Revisión de literatura → llena Related work (skill deep-research, fase review).
+#    /deep-research "..."
+
+# 3. Pre-registro: congela H0/H1 + plan de análisis ANTES de mirar datos (fase hypothesis).
+./fn run preregister_hypothesis papers/0001-mi-paper      # 🚧 en construcción
+
+# 4. Experimentos en papers/0001-mi-paper/experiments/ (fase running) →
+#    análisis con el grupo `eda` + funciones de effect size / CI / corrección múltiple (fase analysis).
+
+# 5. Escritura IMRaD en paper.md (fase writing) → render del entregable PDF.
+./fn run render_paper_pdf papers/0001-mi-paper            # 🚧 en construcción → out/paper.pdf
+
+# 6. Peer review adversarial (fase internal-review).
+#    Agent(subagent_type="paper-reviewer", prompt="Revisa papers/0001-mi-paper ...")  # 🚧 en construcción
+```
+
+## Fronteras
+
+- **NO es para reports de trabajo.** Un report (`reports/`) es el entregable escrito de una tarea (resumen + evidencia + gaps); un paper es investigación con hipótesis falsable y experimento. Ver `.claude/rules/reports.md`.
+- **NO se indexa en `registry.db` en esta fase.** No hay tabla `papers` ni `entity_type` `paper` (KISS); se añadiría con migración propia si se decide. Las *funciones* del grupo sí se indexan (viven en `bash/functions/`, `python/functions/`), pero los artefactos `papers/<slug>/` no.
+- **NO hace `git init` en el scaffold.** El paper arranca en fase interna local y gitignored. La promoción a sub-repo Gitea (fase publishable) es un paso manual posterior.
+- **NO soporta LaTeX/arXiv todavía.** Formato elegido: Markdown como fuente + PDF como entregable. El soporte LaTeX se añadiría al promocionar un paper a fase publishable.
+
+## Estado
+
+Fase de scaffolding. Disponible: estructura del artefacto, plantillas (`docs/templates/paper.md`, `docs/templates/preregistration.md`), pipeline `init_paper` + helper `next_numbered_dir`, esta página y el bloque gitignore de `papers/`. En construcción por la flota: `preregister_hypothesis`, funciones estadísticas (effect size / CI / corrección múltiple), `render_paper_pdf` y el agente `paper-reviewer`. Validación end-to-end con un paper piloto real: pendiente.
@@ -0,0 +1,94 @@
+---
+title: "TITULO DEL PAPER"
+slug: NNNN-slug
+authors: [Enmanuel]
+date: 2026-01-01
+status: draft          # draft | internal | publishable
+phase: question        # question -> review -> hypothesis -> design -> running -> analysis -> writing -> internal-review -> polish -> submitted
+tags: []
+domain: datascience
+hypothesis_id: ""      # lo rellena preregister_hypothesis al congelar el preregistro
+---
+
+<!--
+Paper académico reproducible (formato IMRaD). Esta es la FUENTE editable en Markdown;
+el entregable PDF se genera con render_paper_pdf (grupo `papers`).
+
+Regla de oro anti paper-mill: una hipótesis que PODÍA fallar + un experimento con
+riesgo real de refutación + estadística que no es teatro. Si no hay riesgo de
+refutación, no es un paper. Los claims nunca superan a la evidencia.
+-->
+
+# {{título del paper}}
+
+## Abstract
+
+<!--
+Resumen estructurado en 4-6 frases: contexto -> gap -> método -> resultados -> conclusión.
+Sin citas, sin abreviaturas sin definir. Es lo único que mucha gente leerá: que se sostenga solo.
+-->
+
+## 1. Introduction
+
+<!--
+Embudo en cuatro movimientos:
+1. Contexto — el área y por qué importa.
+2. Gap — qué NO se sabe todavía (el hueco que este paper llena).
+3. Pregunta / hipótesis — formulada de forma falsable (ver preregistration.md).
+4. Contribución — lista explícita de lo que aporta este trabajo ("Contributions:").
+-->
+
+## 2. Related work
+
+<!--
+Qué existe ya y por qué no basta. Agrupa por enfoque, no por autor. Cada cita debe
+justificar por qué el gap sigue abierto. Output de la fase de revisión (skill deep-research).
+-->
+
+## 3. Methods
+
+<!--
+Diseño REPRODUCIBLE: otra persona lo corre y obtiene lo mismo.
+- Variables: independiente(s), dependiente(s), control.
+- Diseño: N, condiciones, muestreo, aleatorización.
+- Métricas y cómo se miden.
+- Protocolo paso a paso + dónde vive el código (experiments/) y los datos (data/).
+Debe ser coherente con el preregistration.md congelado (no se cambia el plan tras ver datos).
+-->
+
+## 4. Results
+
+<!--
+Datos SIN interpretar. Tablas y figuras (figures/) con su lectura literal.
+Reporta effect size + intervalos de confianza, no solo p-valores.
+Incluye también los resultados negativos / no significativos (anti cherry-picking).
+-->
+
+## 5. Discussion
+
+<!--
+Interpretación de los resultados a la luz de la pregunta. Claims <= evidencia.
+-->
+
+### 5.1 Limitaciones
+
+<!-- Qué no cubre el estudio, supuestos, datos faltantes. Honestidad explícita. -->
+
+### 5.2 Amenazas a la validez
+
+<!--
+- Validez interna — ¿la causa es lo que decimos o hay confusores?
+- Validez externa — ¿generaliza fuera de esta muestra/condiciones?
+- Validez de constructo — ¿la métrica mide lo que dice medir?
+- Validez estadística — ¿N suficiente, supuestos del test cumplidos, comparaciones múltiples corregidas?
+-->
+
+## 6. Conclusion + Future work
+
+<!--
+Cierre en 2-4 frases: qué se aprendió (sin overclaiming) + las siguientes preguntas que abre.
+-->
+
+## References
+
+<!-- Ver references.md. -->
@@ -0,0 +1,59 @@
+---
+paper_slug: NNNN-slug
+frozen_at: ""          # timestamp ISO — lo rellena preregister_hypothesis al congelar
+content_hash: ""       # hash del contenido congelado — lo rellena preregister_hypothesis
+status: draft          # draft -> frozen (preregister_hypothesis lo pasa a frozen; tras congelar NO se edita)
+---
+
+> **⚠️ ESTE DOCUMENTO SE CONGELA ANTES DE MIRAR LOS DATOS (anti-HARKing).**
+> El plan de análisis se fija aquí *antes* de ejecutar el experimento. Una vez congelado
+> (`status: frozen`, con `frozen_at` + `content_hash`), **no se edita**. Inventar o ajustar
+> la hipótesis después de ver los resultados (HARKing) invalida el paper. Si el plan cambia
+> tras ver datos, eso es análisis exploratorio y se reporta como tal, no como confirmatorio.
+
+# Pre-registro — {{título del paper}}
+
+## 1. Pregunta de investigación
+
+<!-- La pregunta concreta, en una frase. Debe poder responderse con un experimento. -->
+
+## 2. Hipótesis
+
+<!-- Falsable (Popper): una predicción que PODRÍA fallar. -->
+
+- **H0 (nula):** <!-- no hay efecto / no hay diferencia. Es lo que el test intenta rechazar. -->
+- **H1 (alternativa):** <!-- el efecto esperado, con dirección si la hay. -->
+
+## 3. Variables
+
+- **Independiente(s):** <!-- lo que se manipula. -->
+- **Dependiente(s):** <!-- lo que se mide (la métrica de resultado). -->
+- **Control:** <!-- lo que se mantiene fijo / se cubre estadísticamente. -->
+
+## 4. Diseño
+
+<!--
+- N: tamaño de muestra (y justificación / power analysis si aplica).
+- Condiciones / grupos.
+- Muestreo y aleatorización.
+- Criterios de inclusión / exclusión de datos (definidos AHORA, no después).
+-->
+
+## 5. Plan de análisis
+
+<!--
+El plan estadístico EXACTO, decidido antes de ver los datos:
+- Test estadístico concreto (p.ej. t-test de Welch, Mann-Whitney U, regresión...).
+- Métrica de effect size (p.ej. Cohen's d, diferencia de medias, odds ratio).
+- Criterio de decisión (umbral alpha, qué resultado confirma/refuta H1).
+- Corrección por comparaciones múltiples (p.ej. Holm-Bonferroni) si hay >1 contraste.
+- Manejo de supuestos (normalidad, varianzas) y qué se hace si no se cumplen.
+-->
+
+## 6. Predicción cuantitativa
+
+<!--
+La predicción numérica concreta que el experimento pondrá a prueba.
+P.ej. "esperamos d >= 0.5 con IC95% que no cruza 0" o "una reducción >= 15% en la métrica X".
+Cuanto más específica, más falsable.
+-->
@@ -1,253 +0,0 @@
-"""Tests for the Markdown completeness appendix (report 2053).
-
-The AutomaticEDA Markdown is the output meant to be *pasted into an LLM*, so it
-must carry EVERYTHING the engine computed — even the numbers the human-facing
-chapters (shared with the PDF/PPTX) drop for readability. ``render_md`` appends a
-full-data appendix built from ``meta['profile']`` that closes the six losses the
-evaluation found:
-
-1. the complete association matrix (every pair, incl. correlation_ratio /
-   cramers_v) — not just the top extremes;
-2. every numeric statistic for every numeric column (skew/kurtosis/percentiles);
-3. the concrete recommended re-expression;
-4. KMeans ``scores_by_k``;
-5. the normality test statistics;
-6. correct headers for bar/scree figure tables (not ``Desde/Hasta/Frecuencia``).
-
-Self-contained: a synthetic profile, no DuckDB, no heavy renderer.
-"""
-
-import os
-import sys
-
-import pytest  # noqa: F401
-
-_HERE = os.path.dirname(os.path.abspath(__file__))
-_FUNCTIONS = os.path.abspath(os.path.join(_HERE, "..", "..", ".."))  # python/functions
-if _FUNCTIONS not in sys.path:
-    sys.path.insert(0, _FUNCTIONS)
-
-from datascience.automatic_eda import model  # noqa: E402
-from datascience.automatic_eda.render_md_impl import (  # noqa: E402
-    _bars_table,
-    _is_histogram_caption,
-    _profile_appendix,
-    render_md,
-)
-
-
-# --------------------------------------------------------------------------- #
-# Synthetic profile fixtures.
-# --------------------------------------------------------------------------- #
-def _numeric(skew, kurtosis):
-    """A numeric stat block with every key the appendix serializes."""
-    return {
-        "count": 100, "min": 0.0, "max": 10.0, "mean": 5.0, "median": 5.0,
-        "mode": 4.0, "std": 2.0, "variance": 4.0, "cv": 0.4,
-        "p1": 0.1, "p5": 0.5, "p25": 2.5, "p50": 5.0, "p75": 7.5,
-        "p95": 9.5, "p99": 9.9, "iqr": 5.0, "skew": skew, "kurtosis": kurtosis,
-        "n_outliers": 1, "distribution_type": "normal",
-    }
-
-
-def _profile():
-    """A small but structurally faithful TableProfile (3 numeric, 2 categorical)."""
-    pairs = [
-        {"a": "A", "b": "B", "a_type": "numeric", "b_type": "numeric",
-         "method": "pearson/spearman", "value": 0.8,
-         "p_value": 1e-9, "p_value_adjusted": 2e-9, "significant": True},
-        {"a": "A", "b": "C", "a_type": "numeric", "b_type": "numeric",
-         "method": "pearson/spearman", "value": -0.3,
-         "p_value": 0.01, "p_value_adjusted": 0.02, "significant": True},
-        {"a": "A", "b": "Cat1", "a_type": "numeric", "b_type": "categorical",
-         "method": "correlation_ratio", "value": 0.45,
-         "p_value": 0.001, "p_value_adjusted": 0.002, "significant": True},
-        # The single cat-cat pair the human chapter never shows.
-        {"a": "Cat1", "b": "Cat2", "a_type": "categorical",
-         "b_type": "categorical", "method": "cramers_v", "value": 0.11,
-         "p_value": 0.04, "p_value_adjusted": 0.05, "significant": False},
-    ]
-    return {
-        "correlations": {
-            "pairs": pairs,
-            "multiple_testing": {"method": "bh", "n_tests": 4, "n_rejected": 3},
-        },
-        "columns": [
-            {"name": "A", "count": 100, "numeric": _numeric(0.0, -1.2),
-             "reexpression": {"recommended": "none", "ladder_power": 1.0,
-                              "reason": "symmetric", "alternatives": []}},
-            {"name": "B", "count": 100, "numeric": _numeric(4.77, 33.1),
-             "reexpression": {"recommended": "log1p", "ladder_power": 0.0,
-                              "reason": "skew 4.77 with zeros",
-                              "alternatives": [{"transform": "yeo-johnson"},
-                                               {"transform": "sqrt"}]}},
-            {"name": "C", "count": 100, "numeric": _numeric(-0.6, 0.2)},
-            {"name": "Cat1", "categorical": {"top": [], "mode": "x"}},
-            {"name": "Cat2", "categorical": {"top": [], "mode": "y"}},
-        ],
-        "models": {
-            "kmeans": {
-                "best_k": 3,
-                "scores_by_k": [
-                    {"k": 2, "silhouette": 0.46, "inertia": 900.0},
-                    {"k": 3, "silhouette": 0.50, "inertia": 550.0},
-                    {"k": 4, "silhouette": 0.38, "inertia": 430.0},
-                ],
-                "cluster_sizes": [40, 35, 25],
-            },
-            "normality": {
-                "A": {"n": 100,
-                      "jarque_bera": {"stat": 18.7, "p": 8e-5, "normal": False},
-                      "dagostino": {"stat": 18.1, "p": 1e-4, "normal": False},
-                      "shapiro": {"stat": 0.98, "p": 7e-8, "normal": False},
-                      "is_normal": False},
-                "C": {"n": 100,
-                      "jarque_bera": {"stat": 2.1, "p": 0.35, "normal": True},
-                      "dagostino": {"stat": 1.9, "p": 0.38, "normal": True},
-                      "shapiro": {"stat": 0.99, "p": 0.12, "normal": True},
-                      "is_normal": True},
-            },
-        },
-    }
-
-
-def _dummy_chapters():
-    """A minimal one-chapter document so render_md does not early-return empty."""
-    return model.as_chapters([
-        {"id": "intro", "title": "Intro",
-         "blocks": [{"kind": "markdown", "text": "cuerpo del informe"}]},
-    ])
-
-
-def _render(tmp_path, profile):
-    out = os.path.join(str(tmp_path), "out.md")
-    res = render_md(_dummy_chapters(), out, {"title": "EDA — t", "profile": profile})
-    assert res["path"] == out
-    return open(out, encoding="utf-8").read()
-
-
-def _table_rows(md, section_title):
-    """Count data rows of the first Markdown table under ``section_title``."""
-    seg = md.split(section_title, 1)[1]
-    rows, in_t, seen_sep = 0, False, False
-    for ln in seg.splitlines():
-        if ln.startswith("|"):
-            in_t = True
-            stripped = ln.replace("|", "").replace(" ", "")
-            if stripped and set(stripped) == {"-"}:
-                seen_sep = True
-                continue
-            if seen_sep:
-                rows += 1
-        elif in_t and not ln.strip():
-            break
-    return rows
-
-
-# --------------------------------------------------------------------------- #
-# Golden: every datum the profile holds reaches the .md.
-# --------------------------------------------------------------------------- #
-def test_appendix_lists_all_correlation_pairs(tmp_path):
-    md = _render(tmp_path, _profile())
-    assert "## Apéndice — Datos completos del perfil" in md
-    # All 4 pairs (the real titanic profile has 28; here 4 synthetic).
-    assert _table_rows(md, "### Matriz de asociación") == 4
-    # The cat-cat Cramér's V pair the human chapter drops is present.
-    assert "Cat1 ↔ Cat2" in md
-    assert "cramers_v" in md
-    assert "correlation_ratio" in md
-
-
-def test_appendix_has_skew_kurtosis_for_every_numeric(tmp_path):
-    md = _render(tmp_path, _profile())
-    seg = md.split("### Estadísticos numéricos completos", 1)[1].split("###", 1)[0]
-    lines = [l for l in seg.splitlines() if l.startswith("|")]
-    header = [h.strip() for h in lines[0].strip("|").split("|")]
-    assert "skew" in header and "kurtosis" in header
-    ski, kui = header.index("skew"), header.index("kurtosis")
-    data = lines[2:]  # skip header + separator
-    assert len(data) == 3  # exactly the 3 numeric columns
-    for row in data:
-        cells = [c.strip() for c in row.strip("|").split("|")]
-        assert cells[ski] != "", f"missing skew in {cells[0]}"
-        assert cells[kui] != "", f"missing kurtosis in {cells[0]}"
-
-
-def test_appendix_has_extended_percentiles(tmp_path):
-    md = _render(tmp_path, _profile())
-    seg = md.split("### Estadísticos numéricos completos", 1)[1]
-    header = [h.strip() for h in seg.splitlines()[2].strip("|").split("|")]
-    for p in ("p1", "p5", "p25", "p75", "p95", "p99"):
-        assert p in header, f"percentile {p} missing from describe header"
-
-
-def test_appendix_names_concrete_reexpression(tmp_path):
-    md = _render(tmp_path, _profile())
-    assert "### Re-expresión recomendada" in md
-    assert "log1p" in md  # the concrete transform, not just "consider re-expressing"
-    assert "yeo-johnson" in md  # alternatives listed too
-
-
-def test_appendix_has_kmeans_scores_by_k(tmp_path):
-    md = _render(tmp_path, _profile())
-    assert "scores_by_k" in md
-    assert _table_rows(md, "#### KMeans — selección de k") == 3  # k=2,3,4
-
-
-def test_appendix_has_normality_statistics(tmp_path):
-    md = _render(tmp_path, _profile())
-    assert "JB stat" in md  # the statistic, not only the p-value
-    assert "Shapiro stat" in md
-    assert _table_rows(md, "#### Tests de normalidad") == 2  # cols A and C
-
-
-# --------------------------------------------------------------------------- #
-# Edge: a profile missing models / correlations degrades, never raises.
-# --------------------------------------------------------------------------- #
-def test_lite_profile_without_models(tmp_path):
-    prof = _profile()
-    prof.pop("models")  # lite: no KMeans/normality
-    md = _render(tmp_path, prof)
-    assert "scores_by_k" not in md  # section skipped
-    assert "Matriz de asociación" in md  # correlations still dumped
-    assert "## Apéndice" in md
-
-
-def test_profile_without_correlations(tmp_path):
-    prof = _profile()
-    prof.pop("correlations")
-    md = _render(tmp_path, prof)  # must not raise
-    assert "Matriz de asociación" not in md
-    assert "Estadísticos numéricos completos" in md  # numeric section still there
-
-
-def test_no_profile_means_no_appendix(tmp_path):
-    out = os.path.join(str(tmp_path), "noprof.md")
-    res = render_md(_dummy_chapters(), out, {"title": "x"})
-    assert res["path"] == out
-    assert "## Apéndice" not in open(out, encoding="utf-8").read()
-
-
-def test_appendix_helper_is_defensive():
-    assert _profile_appendix(None) == ""
-    assert _profile_appendix({}) == ""
-    assert _profile_appendix({"columns": []}) == ""
-
-
-# --------------------------------------------------------------------------- #
-# Loss #6: bar/scree figure tables get a non-misleading header.
-# --------------------------------------------------------------------------- #
-def test_histogram_caption_detection():
-    assert _is_histogram_caption("Histograma de Age")
-    assert _is_histogram_caption("Distribución de Fare")
-    assert not _is_histogram_caption("Media de Survived por Sex")
-    assert not _is_histogram_caption("Varianza explicada (scree PCA)")
-
-
-def test_bars_table_custom_header():
-    bars = [(0.0, 1.0, 5.0), (1.0, 2.0, 3.0)]
-    hist = _bars_table(bars)  # default histogram header
-    assert "| Desde | Hasta | Frecuencia |" in hist
-    bar = _bars_table(bars, ("Inicio", "Fin", "Valor"))
-    assert "| Inicio | Fin | Valor |" in bar
-    assert "Frecuencia" not in bar
@@ -178,17 +178,9 @@ def _md_data_table(block) -> str:
    return "\n".join(lines)


-def _bars_table(bars: list, header: tuple = ("Desde", "Hasta", "Frecuencia")) -> str:
-    """Render extracted bar/histogram data as a Markdown table.
-
-    ``header`` is the 3-column header to use. Histogram bars are
-    ``(Desde, Hasta, Frecuencia)``; bar/scree charts (means by group, PCA
-    explained variance) are *not* bins, so the caller passes a semantically
-    correct header (e.g. ``(Inicio, Fin, Valor)``) to avoid the misleading
-    "Frecuencia" label — see report 2053, loss #6.
-    """
-    h0, h1, h2 = header
-    lines = [f"| {h0} | {h1} | {h2} |", "| --- | --- | --- |"]
+def _bars_table(bars: list) -> str:
+    """Render extracted bar/histogram data as a Markdown table (Desde/Hasta/Frec)."""
+    lines = ["| Desde | Hasta | Frecuencia |", "| --- | --- | --- |"]
    shown = bars[:_MAX_BAR_ROWS]
    for x0, x1, h in shown:
        lines.append(f"| {_fmt_num(x0)} | {_fmt_num(x1)} | {_fmt_num(h)} |")
@@ -199,18 +191,6 @@ def _bars_table(bars: list, header: tuple = ("Desde", "Hasta", "Frecuencia")) ->
    return out


-def _is_histogram_caption(caption: str) -> bool:
-    """True when a figure caption describes a histogram (genuine numeric bins).
-
-    Histograms are the only figures whose bars are real ``[Desde, Hasta)`` bins
-    with a frequency count. Bar charts (means by group) and the PCA scree plot
-    carry per-category / per-component values, not bins — they must not inherit
-    the ``Desde/Hasta/Frecuencia`` header.
-    """
-    c = (caption or "").lower()
-    return "histograma" in c or "distribución" in c or "distribucion" in c
-
-
 def _extract_bars(fig) -> list:
    """Collect (x_from, x_to, height) of the rectangular bars of a matplotlib fig.

@@ -273,13 +253,7 @@ def _md_figure(block, meta: dict, out_path: str, counter: list) -> str:
        if fig is not None:
            bars = _extract_bars(fig)
            if bars:
-                # A histogram's bars are genuine numeric bins (Desde/Hasta/
-                # Frecuencia). Bar charts and the PCA scree plot are not bins —
-                # give them a header that does not lie about "Frecuencia".
-                header = (("Desde", "Hasta", "Frecuencia")
-                          if _is_histogram_caption(caption)
-                          else ("Inicio", "Fin", "Valor"))
-                parts.append(_bars_table(bars, header))
+                parts.append(_bars_table(bars))
            if meta.get("embed_figures"):
                png = _embed_png(fig, out_path, counter)
                if png:
@@ -380,258 +354,6 @@ def _serialize_block(block, meta: dict, out_path: str, counter: list) -> str:
    return _md_note(model.Note(text=model._safe_str(block)))


-# --------------------------------------------------------------------------- #
-# Profile appendix — the data the human-facing chapters drop.
-#
-# The chapter document (shared with the PDF/PPTX renderers) is designed for human
-# reading and intentionally omits raw numbers: the correlation matrix shows only
-# the top extremes, the numeric blocks skip skew/kurtosis/extended percentiles,
-# the model chapter does not list ``scores_by_k`` or the normality test
-# statistics. But the Markdown is meant to be *pasted into an LLM*, so it should
-# carry EVERYTHING the engine computed. This appendix serializes the full
-# ``profile`` (passed via ``meta['profile']``) as Markdown tables, additively:
-# the PDF/PPTX are untouched, the .md simply has more than they do. Each section
-# is emitted only when its source data is present, so a ``lite`` profile (no
-# models) or a profile without correlations degrades cleanly instead of raising.
-# See report 2053 for the six losses this closes.
-# --------------------------------------------------------------------------- #
-def _pair_types(a_type, b_type) -> str:
-    """Short ``num↔cat`` label for an association pair's variable types."""
-    def short(t):
-        t = model._safe_str(t).lower()
-        if t.startswith("num"):
-            return "num"
-        if t.startswith("cat"):
-            return "cat"
-        return t or "?"
-    return f"{short(a_type)}↔{short(b_type)}"
-
-
-def _app_correlations(corr: dict) -> str:
-    """Loss #1 — every association pair (not just the top extremes).
-
-    Dumps all of ``correlations['pairs']`` as a table (pair · types · method ·
-    value · p · p-FDR · significant), ordered by |value| desc so the strongest
-    associations lead while nothing is cut. Includes the ``correlation_ratio``
-    (num↔cat) and ``cramers_v`` (cat↔cat) pairs the human chapter never shows.
-    """
-    pairs = list(corr.get("pairs", []) or [])
-    if not pairs:
-        return ""
-    def keyfn(p):
-        try:
-            return -abs(float(p.get("value")))
-        except Exception:  # noqa: BLE001
-            return 0.0
-    pairs_sorted = sorted(pairs, key=keyfn)
-    lines = ["### Matriz de asociación — todos los pares",
-             "",
-             ("| Par | Tipos | Método | Valor | p-value | p-ajustado (FDR) "
-              "| ¿Sig? |"),
-             "| --- | --- | --- | --- | --- | --- | --- |"]
-    for p in pairs_sorted:
-        par = f"{_cell(p.get('a'))} ↔ {_cell(p.get('b'))}"
-        types = _pair_types(p.get("a_type"), p.get("b_type"))
-        method = _cell(p.get("method"))
-        val = _fmt_num(p.get("value"))
-        pv = _fmt_num(p.get("p_value")) if p.get("p_value") is not None else ""
-        padj = (_fmt_num(p.get("p_value_adjusted"))
-                if p.get("p_value_adjusted") is not None else "")
-        sig = "sí" if p.get("significant") else "no"
-        lines.append(
-            f"| {par} | {types} | {method} | {val} | {pv} | {padj} | {sig} |")
-    mt = corr.get("multiple_testing") or {}
-    n_tests = mt.get("n_tests", corr.get("n_tests"))
-    n_rej = mt.get("n_rejected")
-    note_bits = [f"{len(pairs)} pares en total"]
-    if n_tests is not None and n_rej is not None:
-        note_bits.append(
-            f"{n_rej} de {n_tests} significativos tras corrección "
-            f"{model._safe_str(mt.get('method', 'FDR')).upper()}")
-    lines.append("")
-    lines.append(f"*{'; '.join(note_bits)}.*")
-    return "\n".join(lines)
-
-
-# Numeric statistics, in serialization order: (profile key, column header).
-_NUM_STATS = [
-    ("count", "n"), ("mean", "mean"), ("median", "median"), ("mode", "mode"),
-    ("std", "std"), ("variance", "variance"), ("cv", "cv"),
-    ("skew", "skew"), ("kurtosis", "kurtosis"),
-    ("min", "min"), ("p1", "p1"), ("p5", "p5"), ("p25", "p25"), ("p50", "p50"),
-    ("p75", "p75"), ("p95", "p95"), ("p99", "p99"), ("iqr", "iqr"),
-    ("max", "max"), ("n_outliers", "outliers"),
-    ("distribution_type", "distribución"),
-]
-
-
-def _app_numeric_describe(columns: list) -> str:
-    """Loss #2 — every numeric statistic for every numeric column.
-
-    One row per numeric column with the full describe: mean/median/mode/std/
-    variance/cv, skew & kurtosis (for ALL columns, not only the skewed ones),
-    p1/p5/p25/p50/p75/p95/p99, iqr, min/max, outliers and distribution_type.
-    """
-    rows = []
-    for info in (columns or []):
-        num = info.get("numeric") if isinstance(info, dict) else None
-        if not num:
-            continue
-        name = _cell(info.get("name"))
-        cells = [name]
-        for key, _hdr in _NUM_STATS:
-            v = num.get("count" if key == "count" else key)
-            if key == "count":
-                v = num.get("count", info.get("count"))
-            if key == "distribution_type":
-                cells.append(_cell(v))
-            else:
-                cells.append(_fmt_num(v) if v is not None else "")
-        rows.append(cells)
-    if not rows:
-        return ""
-    header = ["Columna"] + [hdr for _k, hdr in _NUM_STATS]
-    lines = ["### Estadísticos numéricos completos (describe)",
-             "",
-             "| " + " | ".join(header) + " |",
-             "| " + " | ".join(["---"] * len(header)) + " |"]
-    for cells in rows:
-        lines.append("| " + " | ".join(cells) + " |")
-    return "\n".join(lines)
-
-
-def _app_reexpression(columns: list) -> str:
-    """Loss #3 — the concrete recommended re-expression per column.
-
-    Names the transform (log1p/sqrt/yeo-johnson/none) instead of a vague
-    "consider re-expressing", with the ladder power, reason and alternatives.
-    """
-    rows = []
-    for info in (columns or []):
-        rx = info.get("reexpression") if isinstance(info, dict) else None
-        if not rx or not isinstance(rx, dict):
-            continue
-        rec = model._safe_str(rx.get("recommended")).strip()
-        if not rec:
-            continue
-        alts = rx.get("alternatives") or []
-        alt_txt = ", ".join(
-            model._safe_str(a.get("transform")) for a in alts
-            if isinstance(a, dict) and a.get("transform")) or "—"
-        rows.append([
-            _cell(info.get("name")), _cell(rec),
-            _fmt_num(rx.get("ladder_power")) if rx.get("ladder_power") is not None else "",
-            _cell(rx.get("reason")), _cell(alt_txt),
-        ])
-    if not rows:
-        return ""
-    lines = ["### Re-expresión recomendada (escalera de Tukey)",
-             "",
-             "| Columna | Recomendada | Potencia | Razón | Alternativas |",
-             "| --- | --- | --- | --- | --- |"]
-    for r in rows:
-        lines.append("| " + " | ".join(r) + " |")
-    return "\n".join(lines)
-
-
-def _app_kmeans_scores(kmeans: dict) -> str:
-    """Loss #4 — KMeans silhouette + inertia per k (justifies the chosen k)."""
-    scores = list(kmeans.get("scores_by_k", []) or [])
-    if not scores:
-        return ""
-    best_k = kmeans.get("best_k")
-    lines = ["#### KMeans — selección de k (`scores_by_k`)",
-             "",
-             "| k | Silhouette | Inercia | Elegido |",
-             "| --- | --- | --- | --- |"]
-    for s in scores:
-        if not isinstance(s, dict):
-            continue
-        k = s.get("k")
-        chosen = "✓" if best_k is not None and k == best_k else ""
-        lines.append(
-            f"| {_fmt_num(k)} | {_fmt_num(s.get('silhouette'))} "
-            f"| {_fmt_num(s.get('inertia'))} | {chosen} |")
-    return "\n".join(lines)
-
-
-def _app_normality(normality: dict) -> str:
-    """Loss #5 — each normality test's statistic next to its p-value."""
-    if not isinstance(normality, dict) or not normality:
-        return ""
-    lines = ["#### Tests de normalidad (estadístico + p-value)",
-             "",
-             ("| Columna | n | JB stat | JB p | D'Agostino stat | D'Agostino p "
-              "| Shapiro stat | Shapiro p | ¿Normal? |"),
-             "| --- | --- | --- | --- | --- | --- | --- | --- | --- |"]
-    any_row = False
-    for col, res in normality.items():
-        if not isinstance(res, dict):
-            continue
-        jb = res.get("jarque_bera") or {}
-        da = res.get("dagostino") or {}
-        sh = res.get("shapiro") or {}
-        is_norm = "sí" if res.get("is_normal") else "no"
-        lines.append(
-            f"| {_cell(col)} | {_fmt_num(res.get('n')) if res.get('n') is not None else ''} "
-            f"| {_fmt_num(jb.get('stat'))} | {_fmt_num(jb.get('p'))} "
-            f"| {_fmt_num(da.get('stat'))} | {_fmt_num(da.get('p'))} "
-            f"| {_fmt_num(sh.get('stat'))} | {_fmt_num(sh.get('p'))} | {is_norm} |")
-        any_row = True
-    return "\n".join(lines) if any_row else ""
-
-
-def _profile_appendix(profile: dict) -> str:
-    """Build the full-data appendix from a TableProfile dict (additive).
-
-    Returns a Markdown ``## Apéndice`` section with one sub-table per loss the
-    human chapters drop, or ``""`` when the profile carries none of them. Never
-    raises: a missing/oddly-shaped section is skipped, not fatal.
-    """
-    if not isinstance(profile, dict):
-        return ""
-    sections: list = []
-    try:
-        corr = profile.get("correlations") or {}
-        seg = _app_correlations(corr) if isinstance(corr, dict) else ""
-        if seg:
-            sections.append(seg)
-    except Exception:  # noqa: BLE001
-        pass
-    try:
-        columns = profile.get("columns") or []
-        seg = _app_numeric_describe(columns)
-        if seg:
-            sections.append(seg)
-        seg = _app_reexpression(columns)
-        if seg:
-            sections.append(seg)
-    except Exception:  # noqa: BLE001
-        pass
-    try:
-        models = profile.get("models") or {}
-        if isinstance(models, dict):
-            model_segs = []
-            seg = _app_kmeans_scores(models.get("kmeans") or {})
-            if seg:
-                model_segs.append(seg)
-            seg = _app_normality(models.get("normality") or {})
-            if seg:
-                model_segs.append(seg)
-            if model_segs:
-                sections.append(
-                    "### Modelos — detalle\n\n" + "\n\n".join(model_segs))
-    except Exception:  # noqa: BLE001
-        pass
-    if not sections:
-        return ""
-    intro = ("Volcado completo de los datos que el motor computó y que los "
-             "capítulos (pensados para lectura humana / PDF) resumen. "
-             "Pensado para que un LLM reconstruya el análisis entero.")
-    return ("## Apéndice — Datos completos del perfil\n\n"
-            f"*{intro}*\n\n" + "\n\n".join(sections))
-
-
 # --------------------------------------------------------------------------- #
 # Entry point.
 # --------------------------------------------------------------------------- #
@@ -715,18 +437,6 @@ def render_md(chapters: list, out_path: str, meta: dict = None) -> dict:
                segments.append(seg)
        chapters_meta.append({"id": ch.id, "version": ch.version})

-    # Full-data appendix: dump everything the profile holds that the human
-    # chapters drop (additive — the .md ends up with more than the PDF/PPTX).
-    # Emitted only when a profile is supplied via meta['profile']; never fatal.
-    try:
-        appendix = _profile_appendix(meta.get("profile"))
-    except Exception as e:  # noqa: BLE001
-        appendix = ""
-        notes.append(f"apéndice de perfil omitido: {e}")
-    if appendix:
-        segments.append("---")
-        segments.append(appendix)
-
    content = "\n\n".join(segments) + "\n"
    note = f"{len(content)} caracteres"
    if notes:
@@ -261,15 +261,7 @@ def render_automatic_eda(
        md_path = None
        if emit_md:
            md_path = os.path.join(out_dir, base + ".md")
-            # El Markdown es la salida MÁS completa: además del documento por
-            # capítulos (compartido con PDF/PPTX) volca un apéndice con TODOS los
-            # datos numéricos del perfil (matriz de asociación completa, describe
-            # con skew/kurtosis/percentiles, re-expresiones, scores_by_k de
-            # KMeans, estadísticos de normalidad). Se le pasa el `prof` vía
-            # meta['profile']; un meta propio evita alterar el de PDF/PPTX.
-            md_meta = dict(meta)
-            md_meta["profile"] = prof
-            rmd = render_automatic_eda_markdown(prof, md_path, md_meta) or {}
+            rmd = render_automatic_eda_markdown(prof, md_path, meta) or {}

        return {
            "status": "ok",