feat(eda): series temporales + rigor anti-data-mining + PDF movil + /eda + benchmark issues

Bloque del grupo eda (sesion ausente EDA-benchmark): - 8 funciones nuevas: adf_kpss_stationarity, acf_pacf, stl_decompose, to_returns, fdr_correction, suggest_reexpression, exploratory_caveats, render_eda_pdf - integracion: profile_table (run_series, emit_pdf), association_matrix (FDR Benjamini-Hochberg), render_eda_markdown (secciones series/reexpresion/caveats) - slash commands /eda y /capitulos - issues 0173-0177: mejoras del /eda derivadas del benchmark sobre 12 datasets reales (outlier_pct x100, periodo estacional, FK inference, render models, tipos id-like) Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
2026-06-29 03:34:01 +02:00
parent 02301aaed3
commit 7ac69ab4fb
33 changed files with 3995 additions and 51 deletions
@@ -29,16 +29,23 @@ import os
 from datetime import datetime, timezone

 from datascience import (
+    acf_pacf,
+    adf_kpss_stationarity,
    association_matrix,
    column_quality_score,
    describe_numeric,
    eda_llm_insights,
+    exploratory_caveats,
    infer_semantic_type,
    render_eda_markdown,
+    render_eda_pdf,
    run_eda_models,
+    stl_decompose,
+    suggest_reexpression,
    summarize_categorical,
    summarize_table_duckdb,
    summarize_table_pg,
+    to_returns,
 )
 from infra import duckdb_query_readonly, pg_query

@@ -115,6 +122,83 @@ def _sample_rows(query_fn, table: str, names: list, sample: int) -> list:
    return q.get("rows", [])


+def _sample_series(query_fn, table: str, value_col: str, order_col, sample: int) -> list:
+    """Trae hasta `sample` valores no nulos de una columna en orden de serie temporal.
+
+    A diferencia de _sample_values, cuando hay una columna de orden temporal
+    (`order_col`, normalmente la primera columna datetime de la tabla) se ordena
+    ascendentemente por ella para que la secuencia recuperada respete el orden
+    cronologico, requisito de los contrastes de serie temporal (ADF/KPSS, ACF/PACF,
+    STL). Si `order_col` es None se cae al orden fisico de inserciones (columna
+    numerica secuencial). query_fn es el lector read-only del backend activo.
+    """
+    base = (
+        f'SELECT "{value_col}" AS v FROM "{table}" '
+        f'WHERE "{value_col}" IS NOT NULL'
+    )
+    if order_col:
+        base += f' ORDER BY "{order_col}"'
+    base += f" LIMIT {int(sample)}"
+    q = query_fn(base)
+    if q.get("status") != "ok":
+        return []
+    return [row.get("v") for row in q.get("rows", [])]
+
+
+def _build_series_block(query_fn, table: str, col: dict, order_col, sample: int) -> dict:
+    """Construye el bloque `series` de una columna numerica (estilo dict-no-throw).
+
+    Compone los contrastes de serie temporal del grupo `eda` sobre la secuencia
+    ordenada de la columna: estacionariedad (ADF+KPSS), autocorrelacion (ACF/PACF +
+    Ljung-Box) y descomposicion STL (tendencia/estacional/resto). Cuando la columna
+    parece de NIVELES (precios: estrictamente positiva y no claramente estacionaria)
+    anade ademas la conversion a retornos (`to_returns`) como sugerencia, ya que
+    correlacionar/modelar niveles no estacionarios produce relaciones espurias
+    (Granger-Newbold).
+
+    Devuelve None si no hay suficientes puntos validos (<8) para ningun contraste.
+    """
+    name = col.get("name")
+    raw = _sample_series(query_fn, table, name, order_col, sample)
+    series_vals = [f for f in (_to_float(v) for v in raw) if f is not None]
+    if len(series_vals) < 8:
+        return None
+
+    block: dict = {
+        "order_col": order_col,
+        "ordered": bool(order_col),
+        "n": len(series_vals),
+        "stationarity": adf_kpss_stationarity(series_vals),
+        "acf_pacf": acf_pacf(series_vals),
+        # stl_decompose auto-infiere el periodo; si no hay estacionalidad detectable
+        # devuelve una nota y strengths None (se incluye igual, es informativo).
+        "stl": stl_decompose(series_vals),
+    }
+
+    # Sugerencia de retornos solo si la columna parece de niveles: estrictamente
+    # positiva y con veredicto de estacionariedad NO confirmado.
+    nb = col.get("numeric") or {}
+    minimum = nb.get("min")
+    verdict = (block["stationarity"] or {}).get("verdict")
+    if (
+        isinstance(minimum, (int, float))
+        and not isinstance(minimum, bool)
+        and minimum > 0
+        and verdict in ("non_stationary", "inconclusive")
+    ):
+        block["to_returns"] = to_returns(series_vals, method="log")
+        block["levels_suggested"] = True
+        block["levels_reason"] = (
+            "columna estrictamente positiva y no claramente estacionaria: parece una "
+            "serie de niveles (precios); trabajar sobre retornos evita correlacion "
+            "espuria (Granger-Newbold)."
+        )
+    else:
+        block["levels_suggested"] = False
+
+    return block
+
+
 def profile_table(
    db_path: str,
    table: str,
@@ -122,6 +206,8 @@ def profile_table(
    sample: int = 5000,
    run_models: bool = False,
    run_llm: bool = False,
+    run_series: bool = False,
+    emit_pdf: bool = False,
    report_dir: str = "reports",
    write_report: bool = True,
 ) -> dict:
@@ -135,6 +221,20 @@ def profile_table(
        sample: maximo de valores no nulos muestreados por columna para el
            enriquecimiento (describe_numeric / summarize_categorical /
            infer_semantic_type). Default 5000.
+        run_models: si True (default False) corre los modelos baratos
+            (PCA/KMeans/IsolationForest/normalidad) sobre las numericas y guarda
+            el bloque en prof["models"].
+        run_llm: si True (default False) hace 1 llamada LLM sobre el perfil
+            agregado y guarda el resultado en prof["llm"].
+        run_series: si True (default False) calcula, para cada columna numerica,
+            un bloque de serie temporal (estacionariedad ADF+KPSS, ACF/PACF,
+            descomposicion STL y, si parece de niveles, conversion a retornos).
+            Si hay una columna datetime se usa como orden cronologico; si no, se
+            usa el orden fisico de filas (columna numerica secuencial). Los bloques
+            se guardan por columna en col["series"] y agregados en prof["series"].
+        emit_pdf: si True (default False) renderiza un PDF multipagina vertical
+            (legible en movil) del perfil junto al report markdown y devuelve su
+            ruta en pdf_path.
        report_dir: directorio donde escribir los reports si write_report.
            Default "reports". Se crea si no existe.
        write_report: si True (default), escribe un report markdown + un JSON
@@ -143,8 +243,8 @@ def profile_table(

    Returns:
        dict. En exito: {status:'ok', profile: <TableProfile>,
-        report_md_path: str|None, report_json_path: str|None}. En error (sin
-        lanzar): {status:'error', error:str}.
+        report_md_path: str|None, report_json_path: str|None, pdf_path: str|None}.
+        En error (sin lanzar): {status:'error', error:str}.
    """
    try:
        # 1) Perfil base por columna (push-down SQL) + lector read-only del
@@ -195,6 +295,9 @@ def profile_table(
            if inferred == "numeric":
                vals_float = [f for f in (_to_float(v) for v in vals) if f is not None]
                col["numeric"] = describe_numeric(vals_float)
+                # Re-expresion sugerida (escalera de Tukey): que transformacion
+                # simetriza mejor la columna a partir de su skew/dominio.
+                col["reexpression"] = suggest_reexpression(col["numeric"])
            elif inferred in ("categorical", "text"):
                col["categorical"] = summarize_categorical(vals)
                # Para columnas no promovidas que ya eran categorical/text y no
@@ -299,12 +402,53 @@ def profile_table(
            except Exception:  # noqa: BLE001
                prof["llm"] = None

-        # 9) Reports opcionales.
+        # 8.7) Analisis de serie temporal opt-in. Para cada columna numerica se
+        # calcula estacionariedad (ADF+KPSS), autocorrelacion (ACF/PACF) y
+        # descomposicion STL sobre la secuencia ordenada; si parece de niveles se
+        # anade la conversion a retornos. Si hay una columna datetime se usa como
+        # orden cronologico; si no, el orden fisico (columna numerica secuencial).
+        if run_series:
+            try:
+                order_col = next(
+                    (
+                        c.get("name")
+                        for c in cols
+                        if c.get("inferred_type") == "datetime"
+                    ),
+                    None,
+                )
+                series_map: dict = {}
+                for col in cols:
+                    if col.get("inferred_type") != "numeric":
+                        continue
+                    try:
+                        sblock = _build_series_block(
+                            _q, table, col, order_col, sample
+                        )
+                    except Exception:  # noqa: BLE001
+                        sblock = None
+                    if sblock is not None:
+                        col["series"] = sblock
+                        series_map[col["name"]] = sblock
+                prof["series"] = series_map or None
+            except Exception:  # noqa: BLE001
+                prof["series"] = None
+
+        # 8.8) Avisos exploratorios: recuerdan que el EDA genera hipotesis, no
+        # conclusiones. Se calculan sobre el perfil ya completo (correlaciones,
+        # modelos, outliers, faltantes determinan que advertencias aplican).
+        try:
+            prof["caveats"] = exploratory_caveats(prof)
+        except Exception:  # noqa: BLE001
+            prof["caveats"] = None
+
+        # 9) Reports opcionales (markdown + JSON sidecar + PDF movil).
        report_md_path = None
        report_json_path = None
+        pdf_path = None
+        ts = datetime.now(timezone.utc).strftime("%Y%m%d-%H%M%S")
        if write_report:
            os.makedirs(report_dir, exist_ok=True)
-            ts = datetime.now(timezone.utc).strftime("%Y%m%d-%H%M%S")
            report_json_path = os.path.join(report_dir, f"eda_{table}_{ts}.json")
            report_md_path = os.path.join(report_dir, f"eda_{table}_{ts}.md")
            with open(report_json_path, "w", encoding="utf-8") as fh:
@@ -312,11 +456,22 @@ def profile_table(
            with open(report_md_path, "w", encoding="utf-8") as fh:
                fh.write(render_eda_markdown(prof))

+        # PDF multipagina vertical (legible en movil), junto al report markdown.
+        if emit_pdf:
+            try:
+                os.makedirs(report_dir, exist_ok=True)
+                pdf_target = os.path.join(report_dir, f"eda_{table}_{ts}.pdf")
+                pres = render_eda_pdf(prof, pdf_target)
+                pdf_path = pres.get("pdf_path")
+            except Exception:  # noqa: BLE001
+                pdf_path = None
+
        return {
            "status": "ok",
            "profile": prof,
            "report_md_path": report_md_path,
            "report_json_path": report_json_path,
+            "pdf_path": pdf_path,
        }
    except Exception as e:  # noqa: BLE001
        return {"status": "error", "error": str(e)}