feat(eda): wiring AutomaticEDA — build_eda_render_ctx + pipeline render_automatic_eda + profile_table(emit_automatic)

Conecta el motor AutomaticEDA con los datos crudos para que los 4 capítulos dependientes de ctx (modelos, timeseries, geospatial, agregacion) salgan POBLADOS en vez de degradar a una nota. - build_eda_render_ctx (datascience, impure, dict-no-throw): dado db_path+table y el TableProfile agregado, construye el ctx con los datos crudos que el perfil no incluye: raw_numeric {col:[float|None]} alineado por fila (modelos / geospatial), timeseries_raw {time_col,t,series} vía extract_timeseries_raw, geo_points {lats,lons} desde el par lat/lon detectado, y db_path/table para el groupby/pivot push-down de agregacion. Muestrea con LIMIT (no trae la tabla entera a RAM). Compone detect_time_column / extract_timeseries_raw / detect_latlon_columns / duckdb_query_readonly (imports lazy para evitar ciclo). - render_automatic_eda (pipeline): one-shot perfil -> ctx -> PDF + PPTX con los 11 capítulos poblados; devuelve rutas + manifest de versiones por capítulo. - profile_table: flag aditivo emit_automatic=True emite el AutomaticEDA PDF+PPTX además del flujo legacy (emit_pdf/render_eda_pdf intacto). Nuevas claves de retorno aeda_pdf_path / aeda_pptx_path / aeda_manifest_path. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
2026-06-30 16:08:41 +02:00
parent f5b30b23dc
commit f3d427d9e4
9 changed files with 867 additions and 2 deletions
@@ -65,12 +65,14 @@ from .render_automatic_eda_pdf import render_automatic_eda_pdf
 from .render_automatic_eda_pptx import render_automatic_eda_pptx
 from .detect_time_column import detect_time_column
 from .extract_timeseries_raw import extract_timeseries_raw
+from .build_eda_render_ctx import build_eda_render_ctx
 from .profile_datetime import profile_datetime
 from .resample_timeseries import resample_timeseries

 __all__ = [
    "detect_time_column",
    "extract_timeseries_raw",
+    "build_eda_render_ctx",
    "profile_datetime",
    "resample_timeseries",
    "render_automatic_eda_pdf",
@@ -0,0 +1,114 @@
+---
+name: build_eda_render_ctx
+kind: function
+lang: py
+domain: datascience
+version: "1.0.0"
+purity: impure
+signature: "def build_eda_render_ctx(db_path: str, table: str, profile: dict, backend: str = 'duckdb', sample: int = 5000, base_ctx: dict = None) -> dict"
+description: "Constructor del `ctx` de datos crudos del motor AutomaticEDA. Dado un db_path+table (DuckDB o Postgres) y el TableProfile AGREGADO ya calculado por profile_table, produce el dict ctx que los renderers (render_automatic_eda_pdf/_pptx -> build_document(profile, ctx)) pasan a los capitulos que necesitan DATOS CRUDOS no presentes en el perfil agregado: modelos (project_clusters_2d en vivo), timeseries, geospatial y agregacion (groupby/pivot push-down). NO trae tablas enteras a RAM: muestrea con LIMIT sample y delega el push-down de la serie en extract_timeseries_raw. Construye el lector read-only query_fn(sql)->dict igual que profile_table (closure sobre duckdb_query_readonly / pg_query). Estilo dict-no-throw del grupo eda: NUNCA lanza; si una pieza falla, degrada esa clave a ausente/[] y sigue. Devuelve el ctx dict directamente (NO un wrapper {status,...}); se pasa tal cual como meta={'ctx': <ese dict>}. Claves de datos que produce: raw_numeric (muestra cruda alineada por fila), timeseries_raw (fechas+series), geo_points (lats/lons) y db_path+table para el push-down de agregacion. Respeta base_ctx: parte de una copia y solo AÑADE las claves de datos; las de presentacion (dataset_name, source_origin, ...) no se pisan."
+tags: [eda, datascience, automatic-eda, render, ctx, extraction, read-only, duckdb, postgres, python]
+uses_functions: [detect_time_column_py_datascience, extract_timeseries_raw_py_datascience, detect_latlon_columns_py_datascience, duckdb_query_readonly_py_infra, pg_query_py_infra]
+uses_types: []
+returns: []
+returns_optional: false
+error_type: "error_go_core"
+imports: []
+params:
+  - name: db_path
+    desc: "ruta al archivo DuckDB, o DSN PostgreSQL si backend='postgres'. Se guarda tal cual en ctx['db_path'] (el capitulo agregacion lo usa para el groupby/pivot push-down via DuckDB) y se inyecta en el closure query_fn. No se valida aqui: si la base no existe, las queries devuelven status error y las claves de datos se omiten."
+  - name: table
+    desc: "nombre de la tabla. Se escapa con comillas dobles en las queries (raw_numeric y timeseries) y se guarda en ctx['table']."
+  - name: profile
+    desc: "TableProfile AGREGADO producido por profile_table. Solo se lee su clave `columns` (lista de ColumnProfile dict con name / inferred_type / numeric.{min,max} / semantic_type). Lectura defensiva: si no es dict o no tiene columns, se trata como []. NO se traen las filas crudas de aqui — se muestrean de la base."
+  - name: backend
+    desc: "'duckdb' (default) o 'postgres'. Selecciona el lector read-only del registry (duckdb_query_readonly / pg_query). Cualquier otro valor devuelve el base_ctx tal cual, SIN añadir claves de datos (ni siquiera db_path/table)."
+  - name: sample
+    desc: "maximo de filas a muestrear (clausula LIMIT) tanto para raw_numeric (una sola query SELECT de las numericas) como para timeseries_raw (max_rows de extract_timeseries_raw). Default 5000. Acota memoria y tiempo de render."
+  - name: base_ctx
+    desc: "dict opcional con claves de PRESENTACION ya preparadas (dataset_name, source_origin, ...). Se parte de una copia y NO se pisan sus claves; solo se añaden las de datos. Default None -> {}."
+output: "El dict `ctx` directamente (NO un wrapper {status,...}); se pasa tal cual como meta={'ctx': <ese dict>} a render_automatic_eda_pdf/pptx. Nunca lanza. Para backends validos contiene SIEMPRE db_path + table, y opcionalmente: raw_numeric {col:[float|None,...]} (muestra cruda alineada por fila; omitida si no hay numericas o falla la query), timeseries_raw {time_col, t:[iso...], series:{col:[float|None,...]}} (solo si hay columna temporal + numericas y trae filas), geo_points {lats:[...], lons:[...]} (solo si se detecta par lat/lon y ambas estan en raw_numeric). Ante fallo global devuelve al menos {**base_ctx, 'db_path': db_path, 'table': table}. Backend desconocido -> base_ctx tal cual sin claves de datos."
+tested: true
+tests: ["test_db_path_y_table_en_ctx", "test_raw_numeric_con_columnas_numericas", "test_timeseries_raw_con_fecha", "test_geo_points_con_latlon", "test_sin_fecha_no_hay_timeseries", "test_base_ctx_preservado"]
+test_file_path: "python/functions/datascience/build_eda_render_ctx_test.py"
+file_path: "python/functions/datascience/build_eda_render_ctx.py"
+---
+
+## Ejemplo
+
+```python
+import sys, os
+sys.path.insert(0, os.path.join("python", "functions"))
+from datascience import build_eda_render_ctx, render_automatic_eda_pdf
+from datascience import profile_table  # opcional: para obtener el TableProfile
+
+# 1) Perfil agregado de la tabla (push-down, sin RAM).
+prof = profile_table("data/ventas.duckdb", "ventas_geo", write_report=False)["profile"]
+
+# 2) ctx de datos crudos para los capitulos (muestrea con LIMIT, no carga todo).
+ctx = build_eda_render_ctx(
+    "data/ventas.duckdb", "ventas_geo", prof,
+    backend="duckdb", sample=5000,
+    base_ctx={"dataset_name": "Ventas con geolocalizacion"},
+)
+# ctx == {
+#   "dataset_name": "Ventas con geolocalizacion",   # preservado del base_ctx
+#   "db_path": "data/ventas.duckdb", "table": "ventas_geo",
+#   "raw_numeric": {"ventas": [1200.5, ...], "lat": [40.41, ...], "lon": [-3.70, ...]},
+#   "timeseries_raw": {"time_col": "fecha", "t": ["2024-01-01", ...], "series": {...}},
+#   "geo_points": {"lats": [40.41, ...], "lons": [-3.70, ...]},
+# }
+
+# 3) Se entrega tal cual a los renderers via meta={"ctx": ctx}.
+render_automatic_eda_pdf(prof, "reports/eda.pdf", meta={"ctx": ctx})
+```
+
+## Cuando usarla
+
+Justo antes de renderizar un AutomaticEDA (PDF o PPTX), cuando ya tienes el
+TableProfile AGREGADO de `profile_table` pero los capitulos de modelos,
+timeseries, geospatial y agregacion necesitan DATOS CRUDOS que el perfil
+agregado no lleva (la muestra numerica alineada por fila, la serie cronologica,
+el par lat/lon, y el db_path/table para el push-down del groupby/pivot). Es el
+puente entre el perfil agregado y `build_document(profile, ctx)`: una sola
+llamada produce el `ctx` completo muestreando con `LIMIT` en vez de cargar la
+tabla entera en memoria.
+
+## Gotchas
+
+- **Impura**: lee de la base de datos a traves de `query_fn` (closure sobre
+  `duckdb_query_readonly` / `pg_query`). No abre conexiones fuera de esos
+  wrappers del registry. Estilo dict-no-throw del grupo `eda`: NUNCA lanza; ante
+  cualquier fallo (query, deteccion, render de una clave) degrada esa clave a
+  ausente/`[]` y sigue. Ante un fallo global devuelve al menos
+  `{**base_ctx, "db_path": db_path, "table": table}`.
+- **`error_type` en el frontmatter es `error_go_core` por convencion del
+  registry** (toda funcion impura debe declararlo y el indexer lo exige), pero el
+  codigo NO lanza esa excepcion: degrada al ctx parcial. Es metadata, no
+  comportamiento.
+- **Devuelve el ctx dict directamente, NO un wrapper `{status,...}`**: a
+  diferencia de `extract_timeseries_raw` / `profile_table`, esta funcion es el
+  ultimo eslabon antes del render y su salida se pasa tal cual como
+  `meta={"ctx": <ese dict>}`. No envuelvas su retorno.
+- **Backend desconocido**: con un `backend` que no sea `duckdb` ni `postgres`
+  devuelve el `base_ctx` tal cual, SIN claves de datos (ni siquiera
+  `db_path`/`table`). Comprueba el backend antes si dependes de esas claves.
+- **Alineacion por fila de `raw_numeric`**: `raw_numeric[col]` tiene una entrada
+  por fila muestreada (un valor no convertible a float queda como `None`, no se
+  descarta la fila) porque `project_clusters_2d` descarta filas listwise: todas
+  las columnas deben tener la MISMA longitud. `geo_points` se construye desde
+  `raw_numeric` para heredar esa alineacion.
+- **`geo_points` exige lat/lon en `raw_numeric`**: el par lat/lon solo se adjunta
+  si ambas columnas se detectaron (nombre+rango) Y figuran en `raw_numeric`
+  (es decir, son numericas en el perfil). Si la tabla guarda lat/lon como texto
+  no promovido a numeric, no apareceran; el capitulo geospatial sabe degradar.
+- **`timeseries_raw` depende del orden del backend**: hereda el `ORDER BY
+  "time_col"` de `extract_timeseries_raw`. Si la columna temporal esta guardada
+  como texto no ordenable lexicograficamente (p.ej. `DD/MM/YYYY`), el orden no
+  sera el cronologico real — normaliza la columna a date/timestamp antes.
+- **`LIMIT sample`**: con tablas grandes obtienes el primer tramo (raw_numeric
+  por orden fisico, timeseries por orden cronologico), no un muestreo uniforme.
+  Sube `sample` si necesitas mas cobertura.
+- **No loguear los datos crudos**: `raw_numeric` / `timeseries_raw` /
+  `geo_points` pueden contener datos sensibles. En trazas usa solo conteos y
+  nombres de columna, no el ctx completo.
@@ -0,0 +1,200 @@
+"""build_eda_render_ctx — constructor del `ctx` de datos crudos del motor AutomaticEDA.
+
+Funcion impura (lee de la base de datos) del grupo de capacidad `eda`. Dado un
+``db_path`` + ``table`` (DuckDB o PostgreSQL) y el ``TableProfile`` AGREGADO ya
+calculado por ``profile_table``, produce el dict ``ctx`` que los renderers
+(``render_automatic_eda_pdf`` / ``render_automatic_eda_pptx`` ->
+``build_document(profile, ctx)``) pasan a los capitulos que necesitan DATOS
+CRUDOS no presentes en el perfil agregado: modelos (``project_clusters_2d`` en
+vivo), timeseries, geospatial y agregacion (groupby/pivot push-down).
+
+NO trae tablas enteras a RAM: muestrea con ``LIMIT sample`` y, para la serie
+temporal, delega el push-down en ``extract_timeseries_raw`` (una sola query
+ordenada). El lector read-only ``query_fn(sql) -> dict`` se construye igual que
+en ``profile_table`` (un closure sobre ``duckdb_query_readonly`` / ``pg_query``)
+y nunca abre conexiones fuera de esos wrappers.
+
+Estilo dict-no-throw del grupo `eda`: la funcion NUNCA lanza. Si una pieza falla
+(query, deteccion, render de una clave), esa clave se degrada a ausente / lista
+vacia y el resto del ctx se construye igual. Ante un fallo global devuelve al
+menos ``{**base_ctx, "db_path": db_path, "table": table}``.
+
+Claves de DATOS que produce (las consumen los capitulos):
+  - ``raw_numeric``    : {col: [float|None, ...]} muestra cruda de las columnas
+                         numericas, ALINEADA POR FILA (una entrada por fila aunque
+                         sea None). La leen modelos (clustering 2D en vivo) y
+                         geospatial (lat/lon salen de aqui).
+  - ``timeseries_raw`` : {time_col, t: [iso...], series: {col: [float|None, ...]}}.
+                         La lee el capitulo TIMESERIES.
+  - ``geo_points``     : {lats: [...], lons: [...]} listas alineadas (ya floats).
+                         La lee el capitulo GEOSPATIAL.
+  - ``db_path``, ``table`` : los usa el capitulo AGREGACION para el groupby/pivot
+                         push-down via DuckDB.
+
+Las claves de PRESENTACION que traiga ``base_ctx`` (dataset_name, source_origin,
+...) NO se pisan: esta funcion solo AÑADE las claves de datos sobre una copia.
+"""
+
+
+def _to_float(value):
+    """Convierte un valor a float de forma defensiva. None si no es convertible.
+
+    Un bool es subclase de int en Python pero nunca es un valor numerico de
+    serie/coordenada valido, asi que se trata como None (mismo criterio que
+    extract_timeseries_raw / detect_latlon_columns).
+    """
+    if value is None or isinstance(value, bool):
+        return None
+    if isinstance(value, (int, float)):
+        return float(value)
+    s = str(value).strip()
+    if not s:
+        return None
+    try:
+        return float(s)
+    except (TypeError, ValueError):
+        return None
+
+
+def build_eda_render_ctx(db_path, table, profile, backend="duckdb", sample=5000, base_ctx=None):
+    """Construye el ctx de datos crudos para los renderers de AutomaticEDA.
+
+    Args:
+        db_path: ruta al archivo DuckDB, o DSN PostgreSQL si backend="postgres".
+            Se guarda tal cual en ctx["db_path"] (el capitulo agregacion lo usa
+            para el push-down).
+        table: nombre de la tabla. Se escapa con comillas dobles en las queries y
+            se guarda en ctx["table"].
+        profile: TableProfile agregado producido por profile_table. Solo se lee
+            su clave ``columns`` (lista de ColumnProfile dict con name /
+            inferred_type / numeric.{min,max} / semantic_type). Lectura
+            defensiva: si no es dict o no tiene columns, se trata como [].
+        backend: "duckdb" (default) o "postgres". Selecciona el lector read-only
+            (duckdb_query_readonly / pg_query). Cualquier otro valor devuelve el
+            base_ctx tal cual, sin añadir claves de datos.
+        sample: maximo de filas a muestrear (clausula LIMIT) tanto para
+            raw_numeric como para timeseries_raw. Default 5000.
+        base_ctx: dict opcional con claves de presentacion ya preparadas
+            (dataset_name, source_origin, ...). Se parte de una copia y NO se
+            pisan sus claves; solo se añaden las de datos. Default None -> {}.
+
+    Returns:
+        El dict ``ctx`` directamente (NO un wrapper {status,...}): se pasa tal
+        cual como ``meta={"ctx": <ese dict>}`` a render_automatic_eda_pdf/pptx.
+        Nunca lanza. Claves que puede contener: raw_numeric, timeseries_raw,
+        geo_points (omitidas si no aplican o fallan), y siempre db_path + table
+        para backends validos.
+    """
+    # Copia de base_ctx: nunca mutamos el dict del caller. Las claves de
+    # presentacion que ya traiga se conservan; las de datos se añaden encima.
+    ctx = dict(base_ctx) if isinstance(base_ctx, dict) else {}
+
+    try:
+        # 1) Lector read-only del backend activo, construido EXACTAMENTE como en
+        # profile_table (closure sobre el wrapper del registry). Imports perezosos
+        # dentro de la funcion: este modulo vive en el paquete `datascience`, asi
+        # que importar sus hermanas a nivel de modulo crearia un ciclo al cargar
+        # el __init__ del paquete. Lazy import rompe el ciclo y respeta el
+        # contrato (imports explicitos, sin `import *`).
+        if backend == "duckdb":
+            from infra import duckdb_query_readonly
+
+            def query_fn(sql):
+                return duckdb_query_readonly(db_path, sql)
+
+        elif backend == "postgres":
+            from infra import pg_query
+
+            def query_fn(sql):
+                return pg_query(db_path, sql)
+
+        else:
+            # Backend desconocido: devolver base_ctx tal cual, sin claves de datos.
+            return ctx
+
+        # 7) db_path + table SIEMPRE (para backends validos): el capitulo
+        # agregacion los necesita para el groupby/pivot push-down via DuckDB.
+        ctx["db_path"] = db_path
+        ctx["table"] = table
+
+        # 2) Columnas del perfil agregado (lectura defensiva).
+        cols = profile.get("columns") if isinstance(profile, dict) else None
+        cols = cols or []
+
+        # 3) Deteccion temporal/numerica con la funcion PURA del registry.
+        from datascience import detect_time_column
+
+        det = detect_time_column(cols)
+        time_col = det.get("time_col")
+        numeric_cols = det.get("numeric_cols") or []
+
+        # 4) raw_numeric: muestra de las columnas numericas CRUDAS, ALINEADAS POR
+        # FILA en UNA sola query. Cada columna queda con una entrada por fila
+        # (None si no parsea) para no desalinear filas: project_clusters_2d
+        # descarta filas listwise, asi que las listas deben tener igual longitud.
+        raw_numeric = {}
+        if numeric_cols:
+            try:
+                cols_sql = ", ".join(f'"{c}"' for c in numeric_cols)
+                sql = f'SELECT {cols_sql} FROM "{table}" LIMIT {int(sample)}'
+                q = query_fn(sql)
+                if isinstance(q, dict) and q.get("status") == "ok":
+                    rows = q.get("rows", []) or []
+                    raw_numeric = {c: [] for c in numeric_cols}
+                    for row in rows:
+                        for c in numeric_cols:
+                            raw_numeric[c].append(_to_float(row.get(c)))
+            except Exception:  # noqa: BLE001 - dict-no-throw: degradar la clave
+                raw_numeric = {}
+        if raw_numeric:
+            ctx["raw_numeric"] = raw_numeric
+
+        # 5) timeseries_raw: SOLO si hay columna temporal y numericas. Se delega
+        # el push-down en la funcion impura extract_timeseries_raw (una sola query
+        # ordenada cronologicamente). Solo se adjunta si trae filas.
+        if time_col and numeric_cols:
+            try:
+                from datascience import extract_timeseries_raw
+
+                ts = extract_timeseries_raw(
+                    query_fn, table, time_col, numeric_cols, max_rows=sample
+                )
+                if (
+                    isinstance(ts, dict)
+                    and ts.get("status") == "ok"
+                    and (ts.get("n") or 0) > 0
+                ):
+                    ctx["timeseries_raw"] = {
+                        "time_col": ts["time_col"],
+                        "t": ts["t"],
+                        "series": ts["series"],
+                    }
+            except Exception:  # noqa: BLE001 - dict-no-throw: omitir la clave
+                pass
+
+        # 6) geo_points: detecta el par lat/lon con la funcion PURA del registry.
+        # Solo se adjunta si AMBAS columnas estan en raw_numeric (ya floats,
+        # alineadas por fila). Si no hay par o no estan, se omite: el capitulo
+        # geospatial sabe degradar.
+        try:
+            from datascience import detect_latlon_columns
+
+            geo = detect_latlon_columns(cols)
+            lat_col = geo.get("lat_col")
+            lon_col = geo.get("lon_col")
+            if lat_col and lon_col and lat_col in raw_numeric and lon_col in raw_numeric:
+                ctx["geo_points"] = {
+                    "lats": raw_numeric[lat_col],
+                    "lons": raw_numeric[lon_col],
+                }
+        except Exception:  # noqa: BLE001 - dict-no-throw: omitir la clave
+            pass
+
+        return ctx
+    except Exception:  # noqa: BLE001 - dict-no-throw global: nunca reventar.
+        # Fallback minimo: copia de base_ctx + db_path/table para que el capitulo
+        # agregacion siga teniendo lo imprescindible.
+        out = dict(base_ctx) if isinstance(base_ctx, dict) else {}
+        out["db_path"] = db_path
+        out["table"] = table
+        return out
@@ -0,0 +1,153 @@
+"""Tests para build_eda_render_ctx.
+
+Self-contained: crea un DuckDB temporal pequeño con una columna fecha, varias
+numericas y un par lat/lon, construye un TableProfile minimo a mano (con la forma
+de columnas del grupo `eda`: name / inferred_type / numeric.{min,max} /
+semantic_type) y verifica que el ctx producido contiene las claves de datos que
+consumen los capitulos del AutomaticEDA.
+"""
+
+import os
+import sys
+
+# El test importa funciones del registry como una app del registry: inserta el
+# directorio raiz `python/functions` en sys.path y luego `from datascience import`.
+_FUNCTIONS_ROOT = os.path.abspath(os.path.join(os.path.dirname(__file__), "..", ".."))
+if _FUNCTIONS_ROOT not in sys.path:
+    sys.path.insert(0, _FUNCTIONS_ROOT)
+
+import duckdb  # noqa: E402
+
+from datascience import build_eda_render_ctx  # noqa: E402
+
+_TABLE = "ventas_geo"
+# Filas: fecha creciente, 2 columnas numericas (ventas, unidades) y un par lat/lon
+# (Madrid -> lat ~40, lon ~-3, dentro de [-90,90] y [-180,180]).
+_ROWS = [
+    ("2024-01-01", 1200.5, 12, 40.41, -3.70),
+    ("2024-01-02", 980.0, 9, 41.38, 2.17),
+    ("2024-01-03", 1500.25, 15, 37.39, -5.99),
+    ("2024-01-04", 1100.0, 11, 39.47, -0.38),
+    ("2024-01-05", 1750.75, 18, 43.26, -2.93),
+]
+
+
+def _make_db(tmp_path):
+    """Crea un DuckDB temporal con la tabla de prueba y devuelve su ruta."""
+    db_path = os.path.join(str(tmp_path), "eda_ctx.duckdb")
+    con = duckdb.connect(db_path)
+    try:
+        con.execute(
+            f'CREATE TABLE "{_TABLE}" '
+            "(fecha DATE, ventas DOUBLE, unidades INTEGER, lat DOUBLE, lon DOUBLE)"
+        )
+        con.executemany(
+            f'INSERT INTO "{_TABLE}" VALUES (?, ?, ?, ?, ?)', _ROWS
+        )
+    finally:
+        con.close()
+    return db_path
+
+
+def _profile_with_date():
+    """TableProfile minimo con columna fecha + numericas + lat/lon."""
+    return {
+        "columns": [
+            {"name": "fecha", "inferred_type": "datetime", "semantic_type": "datetime_iso"},
+            {
+                "name": "ventas",
+                "inferred_type": "numeric",
+                "semantic_type": "decimal",
+                "numeric": {"min": 980.0, "max": 1750.75},
+            },
+            {
+                "name": "unidades",
+                "inferred_type": "numeric",
+                "semantic_type": "integer",
+                "numeric": {"min": 9, "max": 18},
+            },
+            {
+                "name": "lat",
+                "inferred_type": "numeric",
+                "semantic_type": "decimal",
+                "numeric": {"min": 37.39, "max": 43.26},
+            },
+            {
+                "name": "lon",
+                "inferred_type": "numeric",
+                "semantic_type": "decimal",
+                "numeric": {"min": -5.99, "max": 2.17},
+            },
+        ]
+    }
+
+
+def _profile_without_date():
+    """Mismo perfil pero SIN columna temporal (solo numericas)."""
+    prof = _profile_with_date()
+    prof["columns"] = [c for c in prof["columns"] if c["name"] != "fecha"]
+    return prof
+
+
+def test_db_path_y_table_en_ctx(tmp_path):
+    db_path = _make_db(tmp_path)
+    ctx = build_eda_render_ctx(db_path, _TABLE, _profile_with_date())
+    assert ctx["db_path"] == db_path
+    assert ctx["table"] == _TABLE
+
+
+def test_raw_numeric_con_columnas_numericas(tmp_path):
+    db_path = _make_db(tmp_path)
+    ctx = build_eda_render_ctx(db_path, _TABLE, _profile_with_date())
+    raw = ctx["raw_numeric"]
+    # Las 4 columnas numericas (ventas, unidades, lat, lon), listas no vacias y
+    # alineadas por fila (misma longitud == nº de filas).
+    for col in ("ventas", "unidades", "lat", "lon"):
+        assert col in raw
+        assert len(raw[col]) == len(_ROWS)
+    assert raw["ventas"][0] == 1200.5
+    assert raw["unidades"][0] == 12.0  # int promovido a float
+
+
+def test_timeseries_raw_con_fecha(tmp_path):
+    db_path = _make_db(tmp_path)
+    ctx = build_eda_render_ctx(db_path, _TABLE, _profile_with_date())
+    ts = ctx["timeseries_raw"]
+    assert ts["time_col"] == "fecha"
+    assert len(ts["t"]) == len(_ROWS)  # fechas ISO no vacias
+    # Las numericas aparecen como series paralelas a t.
+    for col in ("ventas", "unidades", "lat", "lon"):
+        assert col in ts["series"]
+        assert len(ts["series"][col]) == len(_ROWS)
+
+
+def test_geo_points_con_latlon(tmp_path):
+    db_path = _make_db(tmp_path)
+    ctx = build_eda_render_ctx(db_path, _TABLE, _profile_with_date())
+    geo = ctx["geo_points"]
+    assert len(geo["lats"]) == len(_ROWS)
+    assert len(geo["lons"]) == len(_ROWS)
+    # Listas alineadas, ya floats, leidas de raw_numeric.
+    assert geo["lats"][0] == 40.41
+    assert geo["lons"][0] == -3.70
+
+
+def test_sin_fecha_no_hay_timeseries(tmp_path):
+    db_path = _make_db(tmp_path)
+    ctx = build_eda_render_ctx(db_path, _TABLE, _profile_without_date())
+    assert "timeseries_raw" not in ctx
+    # raw_numeric y geo_points siguen presentes (no dependen de la fecha).
+    assert "raw_numeric" in ctx
+    assert "geo_points" in ctx
+
+
+def test_base_ctx_preservado(tmp_path):
+    db_path = _make_db(tmp_path)
+    base = {"dataset_name": "ventas_geo_demo", "source_origin": "test"}
+    ctx = build_eda_render_ctx(db_path, _TABLE, _profile_with_date(), base_ctx=base)
+    # Las claves de presentacion del base_ctx no se pisan.
+    assert ctx["dataset_name"] == "ventas_geo_demo"
+    assert ctx["source_origin"] == "test"
+    # Y las de datos se añaden encima.
+    assert ctx["db_path"] == db_path
+    assert "raw_numeric" in ctx