Compare commits

...

7 Commits

Author SHA1 Message Date
egutierrez f2eb782a5f merge(eda): portada v2 (sin Criterios, descripcion LLM, resumen a la derecha) + zebra global PDF + nombre PPTX grande/subrayado 2026-06-30 22:53:46 +02:00
egutierrez 80d10010f5 feat(eda): portada cap01 + zebra global y emphasis de render
Itera el capítulo PORTADA del AutomaticEDA y dos mejoras globales de los
renderers PDF/PPTX:

1. Zebra global (PDF): _place_kv_table ahora sombrea las filas pares igual que
   las DataTable, así toda tabla del documento queda rayada (no solo las
   DataTable). Mismo patrón coherente al partir/repetir cabecera.
2. Portada usa la descripción LLM rica (profile['llm']['summary']) cuando el
   perfil la tiene; se elimina del fallback derivado el texto ruido
   "active la interpretación LLM (run_llm)…". No fuerza llamadas LLM en el
   capítulo, solo consume profile['llm'] si está.
3. Se quita el bloque "Criterios de calidad" de la portada (PDF y PPTX);
   el score "Calidad" se mantiene.
4. "Resumen del análisis" (PDF): los valores se alinean al margen derecho via
   el nuevo KVTable.value_align="right".
5. Nombre del dataset en la portada PPTX más grande (44pt) y subrayado via los
   nuevos hints Heading.underline / Heading.size_pt (el PDF los ignora).

Bump CHAPTER_VERSION de portada 1.2.0 -> 1.3.0.

Verificado: suite 213 passed / 1 skipped (incl. aceptación de los 16 capítulos);
golden zebra = 185 filas zebra en 13 capítulos del PDF completo; portada con
run_llm sin "Criterios de calidad", con descripción LLM rica y valores a la
derecha; PPTX con nombre 44pt subrayado; edge sin LLM cae al fallback derivado
sin ruido; fn index sin error.

Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
2026-06-30 22:44:33 +02:00
egutierrez ecc22d6d57 merge(eda): suite de aceptacion de los 16 capitulos (29 passed, rescatado de ejecutor con auth caida) 2026-06-30 22:07:21 +02:00
agent 7bdb8bffb5 test(eda): suite de aceptacion de los 16 capitulos del AutomaticEDA
Bateria que blinda el subsistema: cobertura de los 16 capitulos sobre el dataset
sintetico Faker, contenido esencial por capitulo (needles parametrizados),
capitulos sueltos con resolucion de dependencias (only_chapters=[outliers] puebla
IsolationForest sin run_models; timeseries; correlacion), None cuando no aplica,
folder multi-tabla con FK, completitud del MD (matriz de correlacion completa +
skew/kurtosis), 3 salidas no vacias, determinismo. Test full+LLM skippeable.

29 passed, 1 skipped. Sin hallazgos: los 16 capitulos salen como deben.
2026-06-30 22:07:15 +02:00
egutierrez 4139394326 merge(eda): only_chapters con resolucion automatica de dependencias de computo por capitulo 2026-06-30 21:37:16 +02:00
egutierrez 4773781323 merge(eda): generadores sinteticos Faker (tabla todo-en-uno + carpeta multi-tabla) que activan todos los capitulos 2026-06-30 21:26:20 +02:00
egutierrez ea6678ec23 feat(eda): generadores de datasets sintéticos Faker que ejercitan el AutomaticEDA
Añade dos funciones impuras dict-no-throw, deterministas por seed, al dominio
datascience (grupo eda):

- generate_synthetic_eda_table: una tabla DuckDB de 19 columnas (numéricas
  correlacionadas + outliers, categóricas desbalanceadas, texto largo
  multi-idioma es/en/fr, fecha DATE, lat/lon válidas, PII email/iban/phone/uuid,
  nulos con patrón MCAR/MAR co-ocurrentes). Activa 14 capítulos del motor
  AutomaticEDA (num_distr, cat_distr, text_distr, calidad, missingness,
  correlacion, relaciones, modelos, timeseries, geospatial, agregacion,
  glosario + portada/overview).
- generate_synthetic_eda_folder: 3 CSV relacionados (customers/orders/reviews)
  con FK customer detectable por containment, para el EDA de carpeta multi-tabla.

Determinismo via Faker.seed_instance + numpy.default_rng. Tests: 16 passed
(incluye determinismo por hash, rangos lat/lon, co-nulos income/spending,
mediana palabras review >=20, phone formato internacional, FK containment).

Añade faker (40.27.0) a python/pyproject.toml + uv.lock.

Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
2026-06-30 21:25:31 +02:00
14 changed files with 1415 additions and 26 deletions
+4
View File
@@ -77,8 +77,12 @@ from .add_pdf_internal_links import add_pdf_internal_links
from .suggest_intratable_fk_candidates import suggest_intratable_fk_candidates
from .render_paper_pdf import render_paper_pdf
from .draw_join_graph_figure import draw_join_graph_figure
from .generate_synthetic_eda_table import generate_synthetic_eda_table
from .generate_synthetic_eda_folder import generate_synthetic_eda_folder
__all__ = [
"generate_synthetic_eda_table",
"generate_synthetic_eda_folder",
"render_paper_pdf",
"draw_join_graph_figure",
"suggest_intratable_fk_candidates",
@@ -26,7 +26,7 @@ from datetime import datetime, timezone
from .. import model
CHAPTER_VERSION = "1.2.0"
CHAPTER_VERSION = "1.3.0"
CHAPTER_ID = "portada"
CHAPTER_TITLE = "Portada"
@@ -35,12 +35,9 @@ CHAPTER_TITLE = "Portada"
# row represents) from it when the LLM layer ran (``run_llm``).
_LLM_KEY = "llm"
# Default human description of what the table quality score measures. Chapters
# can override it via ctx["quality_criteria"].
_DEFAULT_QUALITY_CRITERIA = (
"media de los scores por columna (0100): completitud (sin nulos/vacíos), "
"validez (tipo y rango coherentes) y consistencia (sin duplicados/constantes)."
)
# Font size (pt) for the dataset name on the PPTX cover slide — notably larger
# than the default H1 so the dataset name stands out (shown underlined too).
_PPTX_TITLE_PT = 44.0
def _storage_from_source(source: str) -> str:
@@ -120,7 +117,8 @@ def _summary_blocks(summary) -> list:
blocks = [model.Heading(text="Resumen del análisis", level=2)]
if rows:
blocks.append(model.KVTable(rows=rows))
# Values pinned to the right margin (numbers flush right, label left).
blocks.append(model.KVTable(rows=rows, value_align="right"))
if titles:
bullets = "\n".join(f"- {model._safe_str(t)}" for t in titles)
blocks.append(model.Markdown(
@@ -213,9 +211,7 @@ def _derive_description(profile: dict, ctx: dict) -> str:
score = profile.get("quality_score")
if score is not None:
parts.append(f"Calidad media estimada: {score}/100.")
parts.append(
"Resumen derivado del perfil; active la interpretación LLM (`run_llm`) "
"para una descripción de negocio más rica.")
parts.append("Resumen derivado del perfil.")
return " ".join(parts)
@@ -259,7 +255,6 @@ def build_portada(profile: dict, ctx: dict):
shape = f"{_fmt_int(n_rows)} filas × {_fmt_int(n_cols)} columnas"
score = profile.get("quality_score")
quality_criteria = ctx.get("quality_criteria") or _DEFAULT_QUALITY_CRITERIA
quality_value = "" if score is None else f"{score} / 100"
llm = _llm_block(profile, ctx)
@@ -282,8 +277,11 @@ def build_portada(profile: dict, ctx: dict):
# Title + dataset size shown together and BIG (Heading) at the top, kept on
# the same page (Group). The size is no longer buried in the metadata table.
# The dataset name is shown big and underlined on the PPTX cover slide
# (size_pt/underline are honoured by the PPTX renderer; the PDF ignores them).
cover = [
model.Heading(text=str(dataset_name), level=1),
model.Heading(text=str(dataset_name), level=1, underline=True,
size_pt=_PPTX_TITLE_PT),
model.Markdown(text="**Automatic-EDA** · informe exploratorio automático"),
model.Heading(text=shape, level=2),
]
@@ -295,7 +293,6 @@ def build_portada(profile: dict, ctx: dict):
("Almacenamiento", storage),
("Generado", when),
("Calidad", quality_value),
("Criterios de calidad", quality_criteria),
]),
model.Heading(text="Descripción", level=2),
model.Markdown(text=str(description)),
@@ -38,10 +38,18 @@ ENGINE_NAME = "AutomaticEDA"
# --------------------------------------------------------------------------- #
@dataclass
class Heading:
"""A section heading. ``level`` 1 (largest) .. 3 (smallest)."""
"""A section heading. ``level`` 1 (largest) .. 3 (smallest).
``underline`` and ``size_pt`` are optional emphasis hints honoured by the
PPTX renderer (the cover uses them to show the dataset name big and
underlined). ``size_pt`` overrides the per-level font size when set; the PDF
renderer ignores both so its layout is unchanged.
"""
text: str = ""
level: int = 1
underline: bool = False
size_pt: Optional[float] = None
kind: str = field(default="heading", init=False)
@@ -62,10 +70,17 @@ class Markdown:
@dataclass
class KVTable:
"""A two-column key/value table. ``rows`` is a list of ``(label, value)``."""
"""A two-column key/value table. ``rows`` is a list of ``(label, value)``.
``value_align`` controls the horizontal alignment of the value column in the
PDF renderer: ``"left"`` (default) keeps values next to the label column;
``"right"`` pins them to the right margin (used by the cover's analysis
summary so the numbers line up flush right).
"""
rows: list = field(default_factory=list)
title: Optional[str] = None
value_align: str = "left"
kind: str = field(default="kv_table", init=False)
@@ -210,13 +225,20 @@ def as_block(obj: Any):
# Build only with fields the dataclass accepts (ignore extras).
try:
if cls is Heading:
size_pt = obj.get("size_pt")
return Heading(text=_safe_str(obj.get("text")),
level=int(obj.get("level", 1) or 1))
level=int(obj.get("level", 1) or 1),
underline=bool(obj.get("underline", False)),
size_pt=(float(size_pt)
if isinstance(size_pt, (int, float))
else None))
if cls is Markdown:
return Markdown(text=_safe_str(obj.get("text")))
if cls is KVTable:
return KVTable(rows=list(obj.get("rows") or []),
title=obj.get("title"))
title=obj.get("title"),
value_align=_safe_str(
obj.get("value_align")) or "left")
if cls is DataTable:
return DataTable(header=list(obj.get("header") or []),
rows=list(obj.get("rows") or []),
@@ -317,10 +317,18 @@ def _place_kv_table(st: _PdfState, block) -> None:
if title:
_place_heading(st, model.Heading(title, level=2))
rows = getattr(block, "rows", []) or []
# ``value_align="right"`` pins the value column to the right margin (label
# left, number flush right) — used by the cover's analysis summary.
right = str(getattr(block, "value_align", "left")).lower() == "right"
key_w = 1.9 # inches reserved for the label column.
# Right-aligned values wrap against the full usable width minus the label
# column; left-aligned values wrap against the value column only.
val_chars = tl.chars_per_line(_USABLE_W - key_w - 0.1, _FS_BODY)
lh = tl.line_height_in(_FS_BODY)
for row in rows:
# ``data_idx`` is the 0-based logical row index: even rows (1-based) are
# zebra-shaded → 0-based odd indices, matching the data-table convention so
# every table in the document carries the same striping.
for data_idx, row in enumerate(rows):
try:
label, value = row[0], row[1]
except Exception: # noqa: BLE001
@@ -329,11 +337,25 @@ def _place_kv_table(st: _PdfState, block) -> None:
row_h = lh * len(v_lines) + _ROW_VPAD
_ensure_space(st, row_h)
y0 = st.y
# Faint zebra fill for even rows, drawn first (zorder 0) so striping
# never hides the text/value drawn on top.
if data_idx % 2 == 1:
st.fig.add_artist(Rectangle(
(_xf(_ML), _yf(y0 + row_h)), _xf(_ML + _USABLE_W) - _xf(_ML),
_yf(y0) - _yf(y0 + row_h), transform=st.fig.transFigure,
color=_ZEBRA, lw=0, zorder=0))
st.fig.text(_xf(_ML), _yf(y0), tl.strip_inline_md(model._safe_str(label)),
fontsize=_FS_BODY, color=_MUTED, ha="left", va="top")
fontsize=_FS_BODY, color=_MUTED, ha="left", va="top",
zorder=2)
for k, vl in enumerate(v_lines):
st.fig.text(_xf(_ML + key_w), _yf(y0 + k * lh), vl,
fontsize=_FS_BODY, color=_INK, ha="left", va="top")
if right:
st.fig.text(_xf(_ML + _USABLE_W), _yf(y0 + k * lh), vl,
fontsize=_FS_BODY, color=_INK, ha="right",
va="top", zorder=2)
else:
st.fig.text(_xf(_ML + key_w), _yf(y0 + k * lh), vl,
fontsize=_FS_BODY, color=_INK, ha="left",
va="top", zorder=2)
st.y = y0 + row_h
st.y += _GAP
@@ -135,7 +135,7 @@ def _ensure(st: _PptxState, height: float) -> None:
def _add_text(st: _PptxState, lines: list, fs: float, color, bold=False,
italic=False, indent=0.0, bullet=False) -> None:
italic=False, indent=0.0, bullet=False, underline=False) -> None:
lh = tl.line_height_in(fs)
height = lh * len(lines) + 0.05
_ensure(st, height)
@@ -153,6 +153,7 @@ def _add_text(st: _PptxState, lines: list, fs: float, color, bold=False,
run.font.size = Pt(fs)
run.font.bold = bold
run.font.italic = italic
run.font.underline = underline
run.font.color.rgb = _rgb(color)
st.y += height
@@ -206,10 +207,16 @@ def _add_rich_text(st: _PptxState, rich_lines: list, fs: float, color,
def _place_heading(st: _PptxState, block) -> None:
level = max(1, min(3, int(getattr(block, "level", 1) or 1)))
fs = {1: _FS_H1, 2: _FS_H2, 3: _FS_H3}[level]
# Optional per-heading emphasis (cover dataset name): a larger font and an
# underline. ``size_pt`` overrides the per-level size when set.
size_override = getattr(block, "size_pt", None)
if isinstance(size_override, (int, float)) and size_override > 0:
fs = float(size_override)
underline = bool(getattr(block, "underline", False))
text = tl.strip_inline_md(getattr(block, "text", ""))
st.last_heading = text or st.last_heading
lines = tl.wrap(text, tl.chars_per_line(_USABLE_W, fs))
_add_text(st, lines, fs, _INK, bold=True)
_add_text(st, lines, fs, _INK, bold=True, underline=underline)
st.y += 0.04
@@ -552,9 +559,11 @@ def _place_note(st: _PptxState, block) -> None:
# WITHOUT drawing it so a Group can move whole to the next slide before drawing.
# Over-estimating only triggers an earlier slide break, never a content cut.
# --------------------------------------------------------------------------- #
def _measure_heading_text(text: str, level: int) -> float:
def _measure_heading_text(text: str, level: int, size_pt=None) -> float:
level = max(1, min(3, int(level or 1)))
fs = {1: _FS_H1, 2: _FS_H2, 3: _FS_H3}[level]
if isinstance(size_pt, (int, float)) and size_pt > 0:
fs = float(size_pt)
lines = tl.wrap(tl.strip_inline_md(text), tl.chars_per_line(_USABLE_W, fs))
return tl.line_height_in(fs) * len(lines) + 0.05 + 0.04
@@ -679,7 +688,8 @@ def _measure_block(st: _PptxState, block) -> float:
try:
if kind == "heading":
return _measure_heading_text(getattr(block, "text", ""),
getattr(block, "level", 1))
getattr(block, "level", 1),
size_pt=getattr(block, "size_pt", None))
if kind == "markdown":
return _measure_markdown(block)
if kind in ("figure", "image"):
@@ -0,0 +1,77 @@
---
name: generate_synthetic_eda_folder
kind: function
lang: py
domain: datascience
version: "1.0.0"
purity: impure
signature: "def generate_synthetic_eda_folder(out_dir: str, n_rows: int = 2000, seed: int = 42) -> dict"
description: "Genera una carpeta con 3 CSV RELACIONADOS (customers, orders, reviews) deterministas por seed (Faker + numpy) para ejercitar el motor AutomaticEDA multi-tabla / profile_database. orders.customer_id y reviews.customer_id estan contenidos al 100% en customers.customer_id (PK uuid), de modo que la deteccion FK por containment (min_inclusion=0.9) descubre ambas relaciones. customers es la tabla padre; reutiliza helpers de generate_synthetic_eda_table (texto multi-idioma, lat/lon validas, amount con outliers). Estilo dict-no-throw: nunca lanza."
tags: [eda, synthetic, faker, testing, fixture, datascience]
params:
- name: out_dir
desc: "Carpeta de salida. Se crea con mkdir -p si no existe. Recibe customers.csv, orders.csv y reviews.csv."
- name: n_rows
desc: "Numero de clientes (filas de customers). orders ~= 2*n_rows filas, reviews ~= n_rows filas. Default 2000."
- name: seed
desc: "Semilla para Faker (Faker.seed) y numpy (np.random.default_rng). Mismo seed -> CSVs identicos byte a byte. Default 42."
output: "dict dict-no-throw. En exito {status:'ok', out_dir, files:{customers,orders,reviews}, n_customers, n_orders, n_reviews, expected_relations:[{from_table,from_col,to_table,to_col}, ...], seed}. En error (sin lanzar, p.ej. n_rows<=0) {status:'error', error:str}. expected_relations declara las 2 FK orders->customers y reviews->customers (ambas por customer_id)."
uses_functions: []
uses_types: []
returns: []
returns_optional: false
error_type: "error_go_core"
imports: []
tested: true
tests: ["test_genera_ok_y_archivos", "test_determinismo_mismo_seed", "test_seeds_distintos_difieren", "test_fk_containment", "test_review_text_mediana_palabras", "test_n_rows_invalido"]
test_file_path: "python/functions/datascience/generate_synthetic_eda_folder_test.py"
file_path: "python/functions/datascience/generate_synthetic_eda_folder.py"
---
## Ejemplo
```bash
# Genera /tmp/eda_folder/{customers,orders,reviews}.csv (300 customers, seed 42)
fn run generate_synthetic_eda_folder /tmp/eda_folder 300 42
```
```python
import sys, os
sys.path.insert(0, os.path.join("python", "functions"))
from datascience import generate_synthetic_eda_folder
res = generate_synthetic_eda_folder("/tmp/eda_folder", n_rows=300, seed=42)
# res["files"] -> {"customers": ".../customers.csv", "orders": ..., "reviews": ...}
# res["expected_relations"] -> orders.customer_id y reviews.customer_id -> customers.customer_id
# Luego perfila la carpeta/base con el grupo eda:
# fn run profile_database /tmp/eda_folder
```
## Cuando usarla
- Cuando necesites un fixture REPRODUCIBLE multi-tabla para evaluar el EDA de carpeta/base (`profile_database`, join graph, capitulo de relaciones inter-tabla) con relaciones FK reales y detectables.
- Cuando escribas tests de la deteccion de claves foraneas por containment: orders y reviews referencian customer_id contenido al 100% en customers (inclusion 1.0 >= min_inclusion 0.9).
- Como contraparte multi-tabla de `generate_synthetic_eda_table` (que cubre el EDA de UNA tabla).
## Gotchas
- **Impura**: escribe 3 CSV a disco (`mkdir -p` de la carpeta). Sobrescribe los CSV existentes con el mismo nombre.
- **Requiere `faker`, `numpy` y `pandas`** en el venv. Sin `faker` devuelve `{status:'error'}` (no lanza).
- **El containment depende del orden**: customers se genera PRIMERO y orders/reviews muestrean sus `customer_id`. Si se invierte el orden, la FK deja de estar contenida y el detector no la encuentra.
- **`signup_date`/`ts` se escriben como texto ISO en el CSV** (`YYYY-MM-DD` / `YYYY-MM-DD HH:MM:SS`): es CSV, todo es texto; el profiler los promociona a datetime al leerlos.
- **Determinismo dependiente del orden de llamadas**: se siembra `Faker.seed(seed)` + `np.random.default_rng(seed)` al inicio; mismo seed -> CSVs identicos byte a byte.
- **Reutiliza helpers privados** de `generate_synthetic_eda_table` (`_make_fakers`, `_make_latlon`, `_make_reviews`, `_amount_with_outliers`): no romper esas firmas sin actualizar esta funcion.
## Notas
Estructura generada:
| Archivo | PK | FK | Columnas clave |
|---|---|---|---|
| customers.csv | customer_id (uuid) | — | name, country, signup_date, latitude, longitude, email |
| orders.csv | order_id (uuid) | customer_id -> customers | amount (lognormal + outliers), category, ts |
| reviews.csv | review_id (uuid) | customer_id -> customers | review_text (multi-idioma, mediana palabras>=20), rating (1..5) |
orders tiene ~2x filas que customers y reviews ~1x. Todos los `customer_id` de orders
y reviews estan contenidos en customers (containment ⊆), por lo que la deteccion FK por
inclusion descubre las dos relaciones declaradas en `expected_relations`.
@@ -0,0 +1,177 @@
"""generate_synthetic_eda_folder — fixture multi-tabla relacionado para el EDA de base/carpeta.
Funcion impura (escribe CSVs a disco) y determinista por ``seed``: crea una
carpeta con 3 CSV RELACIONADOS (customers, orders, reviews) cuyo contenido esta
disenado para que el motor AutomaticEDA multi-tabla / `profile_database` detecte
las relaciones FK por containment de valores (orders.customer_id y
reviews.customer_id contenidos al 100% en customers.customer_id, por encima del
``min_inclusion=0.9`` que usa la deteccion).
Reutiliza los helpers de ``generate_synthetic_eda_table`` (texto multi-idioma,
lat/lon validas, amount con outliers, listas fijas de paises/categorias) para no
reimplementar logica.
Estilo dict-no-throw del grupo `eda`: NUNCA lanza; devuelve
``{"status": "error", "error": str}`` ante cualquier fallo.
"""
import os
from .generate_synthetic_eda_table import (
_CATEGORIES,
_COUNTRIES,
_amount_with_outliers,
_make_fakers,
_make_latlon,
_make_reviews,
)
def generate_synthetic_eda_folder(out_dir, n_rows=2000, seed=42):
"""Genera una carpeta con 3 CSV relacionados (customers/orders/reviews).
customers es la tabla padre (PK ``customer_id`` uuid unica). orders y reviews
referencian ``customer_id`` muestreandolo de customers, de modo que TODOS sus
valores estan contenidos en customers (inclusion 1.0 -> FK detectable).
Funcion impura (escribe a disco) y determinista por ``seed``. NUNCA lanza.
Args:
out_dir: carpeta de salida. Se crea con ``mkdir -p`` si no existe.
n_rows: numero de clientes (customers). orders ~= 2*n_rows, reviews ~= n_rows.
Default 2000.
seed: semilla para Faker y numpy. Default 42.
Returns:
dict dict-no-throw. En exito::
{"status": "ok", "out_dir": ..., "files": {customers, orders, reviews},
"n_customers": ..., "n_orders": ..., "n_reviews": ...,
"expected_relations": [{from_table, from_col, to_table, to_col}, ...],
"seed": seed}
En error (sin lanzar)::
{"status": "error", "error": str}
"""
try:
import numpy as np
import pandas as pd
n = int(n_rows)
if n <= 0:
return {"status": "error", "error": f"n_rows debe ser > 0, dado {n_rows!r}"}
os.makedirs(out_dir, exist_ok=True)
fakers = _make_fakers(seed)
rng = np.random.default_rng(seed)
# ---------------- customers (tabla padre) ----------------
n_cust = n
customer_ids = [fakers["en_US"].uuid4() for _ in range(n_cust)]
names = [fakers["en_US"].name() for _ in range(n_cust)]
cust_country = rng.choice(_COUNTRIES, n_cust)
base = np.datetime64("2022-01-01")
signup_offsets = rng.integers(0, 730, n_cust)
signup_date = pd.to_datetime(base) + pd.to_timedelta(signup_offsets, unit="D")
signup_iso = [d.strftime("%Y-%m-%d") for d in signup_date]
lat, lon = _make_latlon(cust_country, rng)
cust_email = [fakers["en_US"].email() for _ in range(n_cust)]
customers = pd.DataFrame(
{
"customer_id": customer_ids,
"name": names,
"country": cust_country,
"signup_date": signup_iso,
"latitude": lat,
"longitude": lon,
"email": cust_email,
}
)
# ---------------- orders (FK -> customers) ----------------
n_orders = n_cust * 2
order_ids = [fakers["en_US"].uuid4() for _ in range(n_orders)]
order_cust = rng.choice(customer_ids, n_orders) # subset/multiset de customers
amount = _amount_with_outliers(n_orders, rng, n_extreme=10)
order_cat = rng.choice(_CATEGORIES, n_orders)
ts_offsets = rng.integers(0, 730 * 24 * 3600, n_orders)
ts = pd.to_datetime(np.datetime64("2022-01-01T00:00:00")) + pd.to_timedelta(
ts_offsets, unit="s"
)
ts_iso = [t.strftime("%Y-%m-%d %H:%M:%S") for t in ts]
orders = pd.DataFrame(
{
"order_id": order_ids,
"customer_id": order_cust,
"amount": amount,
"category": order_cat,
"ts": ts_iso,
}
)
# ---------------- reviews (FK -> customers) ----------------
n_reviews = n_cust
review_ids = [fakers["en_US"].uuid4() for _ in range(n_reviews)]
# Subconjunto de customers (no todos) -> containment estricto ⊆ customers.
rev_cust = rng.choice(customer_ids, n_reviews)
review_text = _make_reviews(n_reviews, rng, fakers, null_frac=0.0)
rating = rng.integers(1, 6, n_reviews)
reviews = pd.DataFrame(
{
"review_id": review_ids,
"customer_id": rev_cust,
"review_text": review_text,
"rating": rating,
}
)
files = {
"customers": os.path.join(out_dir, "customers.csv"),
"orders": os.path.join(out_dir, "orders.csv"),
"reviews": os.path.join(out_dir, "reviews.csv"),
}
customers.to_csv(files["customers"], index=False)
orders.to_csv(files["orders"], index=False)
reviews.to_csv(files["reviews"], index=False)
return {
"status": "ok",
"out_dir": out_dir,
"files": files,
"n_customers": n_cust,
"n_orders": n_orders,
"n_reviews": n_reviews,
"expected_relations": [
{
"from_table": "orders",
"from_col": "customer_id",
"to_table": "customers",
"to_col": "customer_id",
},
{
"from_table": "reviews",
"from_col": "customer_id",
"to_table": "customers",
"to_col": "customer_id",
},
],
"seed": seed,
}
except Exception as exc: # noqa: BLE001 — dict-no-throw del grupo eda.
return {"status": "error", "error": str(exc)}
if __name__ == "__main__":
import json
import sys
args = sys.argv[1:]
out = args[0] if len(args) > 0 else "/tmp/synthetic_eda_folder"
rows = int(args[1]) if len(args) > 1 else 2000
sd = int(args[2]) if len(args) > 2 else 42
print(json.dumps(generate_synthetic_eda_folder(out, rows, sd), indent=2))
@@ -0,0 +1,74 @@
"""Tests para generate_synthetic_eda_folder."""
import os
import statistics
import pandas as pd
from datascience.generate_synthetic_eda_folder import generate_synthetic_eda_folder
def test_genera_ok_y_archivos(tmp_path):
out = str(tmp_path / "folder")
res = generate_synthetic_eda_folder(out, n_rows=300, seed=42)
assert res["status"] == "ok"
assert res["n_customers"] == 300
assert res["n_orders"] == 600
assert res["n_reviews"] == 300
for key in ("customers", "orders", "reviews"):
assert os.path.exists(res["files"][key])
# Relaciones esperadas declaradas.
rels = {(r["from_table"], r["to_table"]) for r in res["expected_relations"]}
assert ("orders", "customers") in rels
assert ("reviews", "customers") in rels
def test_determinismo_mismo_seed(tmp_path):
out1 = str(tmp_path / "f1")
out2 = str(tmp_path / "f2")
generate_synthetic_eda_folder(out1, n_rows=250, seed=11)
generate_synthetic_eda_folder(out2, n_rows=250, seed=11)
for name in ("customers.csv", "orders.csv", "reviews.csv"):
a = open(os.path.join(out1, name), "rb").read()
b = open(os.path.join(out2, name), "rb").read()
assert a == b, f"{name} difiere entre dos generaciones con el mismo seed"
def test_seeds_distintos_difieren(tmp_path):
out1 = str(tmp_path / "f1")
out2 = str(tmp_path / "f2")
generate_synthetic_eda_folder(out1, n_rows=250, seed=11)
generate_synthetic_eda_folder(out2, n_rows=250, seed=12)
a = open(os.path.join(out1, "customers.csv"), "rb").read()
b = open(os.path.join(out2, "customers.csv"), "rb").read()
assert a != b
def test_fk_containment(tmp_path):
out = str(tmp_path / "folder")
res = generate_synthetic_eda_folder(out, n_rows=300, seed=42)
customers = pd.read_csv(res["files"]["customers"])
orders = pd.read_csv(res["files"]["orders"])
reviews = pd.read_csv(res["files"]["reviews"])
cust_ids = set(customers["customer_id"])
# Todos los customer_id de orders y reviews ⊆ customers.
assert set(orders["customer_id"]) <= cust_ids
assert set(reviews["customer_id"]) <= cust_ids
# customer_id es PK unica en customers.
assert customers["customer_id"].is_unique
assert orders["order_id"].is_unique
assert reviews["review_id"].is_unique
def test_review_text_mediana_palabras(tmp_path):
out = str(tmp_path / "folder")
res = generate_synthetic_eda_folder(out, n_rows=300, seed=42)
reviews = pd.read_csv(res["files"]["reviews"])
words = [len(str(t).split()) for t in reviews["review_text"].dropna()]
assert statistics.median(words) >= 20
def test_n_rows_invalido(tmp_path):
out = str(tmp_path / "folder")
res = generate_synthetic_eda_folder(out, n_rows=0, seed=42)
assert res["status"] == "error"
@@ -0,0 +1,82 @@
---
name: generate_synthetic_eda_table
kind: function
lang: py
domain: datascience
version: "1.0.0"
purity: impure
signature: "def generate_synthetic_eda_table(out_db_path: str, table: str = 'synthetic', n_rows: int = 2000, seed: int = 42) -> dict"
description: "Genera una tabla DuckDB sintetica (Faker + numpy, determinista por seed) cuyo contenido esta disenado para ACTIVAR el maximo de capitulos del motor AutomaticEDA del grupo eda: numericas continuas con correlacion lineal/no-lineal, numericas con outliers, categoricas desbalanceadas, texto libre multi-idioma con duplicados, fecha para serie temporal, lat/lon validas, semanticos/PII (uuid/email/iban/phone) y nulos con patron MCAR/MAR. Fixture para evaluar el EDA de punta a punta. Estilo dict-no-throw: nunca lanza."
tags: [eda, synthetic, faker, testing, fixture, datascience]
params:
- name: out_db_path
desc: "Ruta al archivo DuckDB de salida. Se crea (o reutiliza) y la tabla se reemplaza con CREATE OR REPLACE TABLE si ya existe."
- name: table
desc: "Nombre de la tabla a crear. Se valida contra ^[A-Za-z_][A-Za-z0-9_]*$ y se cita en el DDL. Default 'synthetic'."
- name: n_rows
desc: "Numero de filas (clientes unicos). Cada fila es un cliente con id/email/iban/phone propios. Default 2000."
- name: seed
desc: "Semilla para Faker (Faker.seed) y numpy (np.random.default_rng). Mismo seed -> tabla identica byte a byte. Default 42."
output: "dict dict-no-throw. En exito {status:'ok', db_path, table, n_rows, columns:[19 nombres de columna], seed}. En error (sin lanzar, p.ej. nombre de tabla invalido o n_rows<=0) {status:'error', error:str}. Columnas: customer_id,email,iban,phone,income,spending,age,risk_score,tenure_months,engagement_quad,amount,n_purchases,country,category,plan,review,signup_date,latitude,longitude."
uses_functions: []
uses_types: []
returns: []
returns_optional: false
error_type: "error_go_core"
imports: []
tested: true
tests: ["test_genera_ok_y_columnas", "test_determinismo_mismo_seed", "test_seeds_distintos_difieren", "test_latlon_en_rango", "test_plan_solo_niveles_validos", "test_income_spending_co_nulos", "test_review_mediana_palabras_y_signup_datetime", "test_phone_matchea_regex_internacional", "test_outliers_y_correlaciones", "test_tabla_invalida_devuelve_error"]
test_file_path: "python/functions/datascience/generate_synthetic_eda_table_test.py"
file_path: "python/functions/datascience/generate_synthetic_eda_table.py"
---
## Ejemplo
```bash
# Genera /tmp/x.duckdb con la tabla `synthetic` (2000 filas, seed 42)
fn run generate_synthetic_eda_table /tmp/x.duckdb synthetic 2000 42
```
```python
import sys, os
sys.path.insert(0, os.path.join("python", "functions"))
from datascience import generate_synthetic_eda_table
res = generate_synthetic_eda_table("/tmp/x.duckdb", "synthetic", n_rows=2000, seed=42)
# res == {"status":"ok", "db_path":"/tmp/x.duckdb", "table":"synthetic",
# "n_rows":2000, "columns":[...19...], "seed":42}
# Luego perfilala con el grupo eda:
# fn run profile_table /tmp/x.duckdb synthetic
```
## Cuando usarla
- Cuando necesites un dataset de prueba REPRODUCIBLE para evaluar el motor AutomaticEDA de punta a punta: su contenido dispara, a proposito, num_distr, cat_distr, text_distr, correlacion, missingness (MCAR/MAR), modelos (PCA/KMeans/outliers), timeseries, geospatial, calidad, agregacion y los detectores semanticos / PII (`infer_semantic_type`).
- Cuando escribas tests de capitulos del EDA y quieras una tabla con una columna que active CADA detector sin montar datos a mano.
- Cuando quieras un fixture determinista (mismo seed -> misma tabla) para comparar el render del EDA entre versiones.
## Gotchas
- **Impura**: escribe a disco (crea/reutiliza el archivo DuckDB). Reemplaza la tabla destino con `CREATE OR REPLACE`.
- **Requiere `faker`, `duckdb`, `numpy` y `pandas`** instalados en el venv. Sin `faker` la generacion devuelve `{status:'error'}` (no lanza).
- **`signup_date` queda como TIMESTAMP/DATE en DuckDB** (se construye con `datetime64[ns]`), NO VARCHAR — condicion para que `detect_time_column` la elija y se active el capitulo timeseries. Si fuese VARCHAR, el detector de fecha fallaria.
- **El texto de `review` debe superar el gate de text_distr**: media de caracteres >= 50 y mediana de palabras >= 20. Por eso cada review concatena dos parrafos Faker (~50 palabras de mediana); no reducir el numero de frases o el capitulo text_distr no activa.
- **Determinismo dependiente del orden de llamadas**: se siembra `Faker.seed(seed)` + `np.random.default_rng(seed)` al inicio; cambiar el orden de las extracciones cambia la salida aunque el seed sea el mismo.
- **PII real-istica**: `email`/`iban`/`phone`/`customer_id` matchean los regex de `infer_semantic_type` (email/iban/phone_intl/uuid) al 100%; son datos sinteticos de Faker, no personas reales.
## Notas
Mapa columna -> detector que activa:
| Columna(s) | Tipo | Detector / capitulo |
|---|---|---|
| income, spending | num continua | correlacion POSITIVA fuerte (Pearson > 0.8) |
| age, risk_score | num continua | correlacion NEGATIVA |
| tenure_months, engagement_quad | num continua | relacion NO LINEAL (cuadratica) |
| amount, n_purchases | num + outliers | num_distr / outliers (cola pesada + extremos inyectados) |
| country (12), category (6), plan (3 desbalanceado) | categorica | cat_distr / agregacion (entropia baja en plan) |
| review | texto libre multi-idioma | text_distr (len_mean>=50, mediana palabras>=20) + duplicados exactos |
| signup_date | DATE/TIMESTAMP | timeseries |
| latitude, longitude | num [-90,90]/[-180,180] | geospatial (detect_latlon_columns) |
| customer_id, email, iban, phone | texto | semantic_type uuid/email/iban/phone_intl (PII) |
| income+spending (co-nulos 12%), risk_score (nulo si plan=alta), review (8%) | nulos con patron | missingness MCAR/MAR |
@@ -0,0 +1,314 @@
"""generate_synthetic_eda_table — fixture sintetico para ejercitar el motor AutomaticEDA.
Funcion impura (escribe un archivo DuckDB a disco) y determinista por ``seed``:
construye una unica tabla cuyo CONTENIDO esta disenado para ACTIVAR el maximo
numero de capitulos del motor AutomaticEDA del grupo `eda` (num_distr, cat_distr,
text_distr, correlacion, missingness, modelos, timeseries, geospatial, relaciones,
calidad, agregacion) y los detectores semanticos / PII (`infer_semantic_type`).
Estilo dict-no-throw del grupo `eda`: NUNCA lanza; captura cualquier error y
devuelve ``{"status": "error", "error": str}``.
Determinismo: con el mismo ``seed`` el DataFrame y, por tanto, la tabla DuckDB
resultante son identicos byte a byte. Se siembra Faker (``Faker.seed``) y numpy
(``np.random.default_rng(seed)``) al inicio de cada generacion.
"""
import re
# Lista fija de paises (12 -> cardinalidad media para cat_distr / agregacion).
_COUNTRIES = [
"ES", "FR", "DE", "IT", "PT", "NL",
"BE", "US", "GB", "IE", "SE", "PL",
]
# Lista fija de categorias de producto (6 -> cardinalidad media).
_CATEGORIES = [
"electronics", "clothing", "home", "sports", "books", "toys",
]
# Niveles de plan con probabilidades DESBALANCEADAS (entropia baja para cat_distr).
_PLANS = ["baja", "media", "alta"]
_PLAN_PROBS = [0.70, 0.25, 0.05]
# Centroides (lat, lon) aproximados por pais: muestrean coordenadas validas
# dentro de [-90, 90] x [-180, 180] para que detect_latlon_columns las acepte.
_CENTROIDS = {
"ES": (40.4, -3.7), "FR": (46.6, 2.2), "DE": (51.1, 10.4), "IT": (41.9, 12.5),
"PT": (39.4, -8.2), "NL": (52.1, 5.3), "BE": (50.5, 4.5), "US": (39.0, -98.0),
"GB": (54.0, -2.0), "IE": (53.4, -8.0), "SE": (60.1, 18.6), "PL": (52.0, 19.1),
}
# Locales rotados para generar texto multi-idioma (es/en/fr).
_TEXT_LOCALES = ["es_ES", "en_US", "fr_FR"]
# Identificador SQL valido (DuckDB no parametriza el nombre de tabla en DDL).
_IDENT_RE = re.compile(r"^[A-Za-z_][A-Za-z0-9_]*$")
def _make_fakers(seed):
"""Crea los Faker por locale tras sembrar el generador compartido.
``Faker.seed(seed)`` siembra el ``random.Random`` compartido por todas las
instancias Faker que usan el generador por defecto, asi que el orden de
llamadas determina por completo la salida (determinismo).
"""
from faker import Faker
Faker.seed(seed)
es_es, en_us, fr_fr = (Faker(loc) for loc in _TEXT_LOCALES)
return {"es_ES": es_es, "en_US": en_us, "fr_FR": fr_fr}
# Texto duplicado canonico (multi-idioma, > 20 palabras) que se inyecta en una
# fraccion de las filas para que el analisis de duplicados exactos lo detecte.
_DUP_REVIEW = (
"Servicio excelente y entrega muy rapida, el producto llego en perfecto "
"estado y coincide con la descripcion publicada en la tienda. The customer "
"support team answered every question quickly and the packaging was solid "
"and well protected during shipping. Je recommande vivement ce vendeur a "
"tous mes amis, la qualite est vraiment au rendez-vous cette fois."
)
def _make_reviews(n, rng, fakers, dup_frac=0.04, null_frac=0.08):
"""Genera ``n`` reviews de texto libre largo multi-idioma (es/en/fr).
Cada review concatena dos parrafos de Faker en el idioma rotado por fila, de
modo que la MEDIANA de palabras por documento queda muy por encima de 20 y la
media de caracteres por encima de 50 (gates del capitulo text_distr). Se
inyectan duplicados exactos (``dup_frac``) y nulos (``null_frac``).
Devuelve una ``list`` de ``str`` o ``None`` (nulos) de longitud ``n``.
"""
# Numero de frases por parrafo precomputado con numpy (determinista) para no
# interleavar draws de rng dentro del bucle de faker.
nb1 = rng.integers(4, 8, n)
nb2 = rng.integers(3, 7, n)
reviews = []
for i in range(n):
fk = fakers[_TEXT_LOCALES[i % 3]]
p1 = fk.paragraph(nb_sentences=int(nb1[i]))
p2 = fk.paragraph(nb_sentences=int(nb2[i]))
reviews.append(f"{p1} {p2}")
# Duplicados exactos: una fraccion de filas comparte un review identico.
if n > 0 and dup_frac > 0:
k_dup = max(1, int(n * dup_frac))
dup_idx = rng.choice(n, size=min(k_dup, n), replace=False)
for j in dup_idx:
reviews[int(j)] = _DUP_REVIEW
# Nulos MCAR-ish: una fraccion de filas al azar queda en None.
if n > 0 and null_frac > 0:
k_null = max(1, int(n * null_frac))
null_idx = rng.choice(n, size=min(k_null, n), replace=False)
for j in null_idx:
reviews[int(j)] = None
return reviews
def _make_phone_intl(rng):
"""Construye un telefono en formato internacional que casa phone_intl.
Regex objetivo (fullmatch): ``\\+\\d[\\d\\s()-]{6,}\\d``. Empieza por '+',
digito, bloques de digitos separados por espacios y termina en digito.
"""
cc = int(rng.integers(1, 99))
a = int(rng.integers(100, 999))
b = int(rng.integers(100, 999))
c = int(rng.integers(100, 999))
return f"+{cc} {a} {b} {c}"
def _make_latlon(countries, rng):
"""Devuelve (latitudes, longitudes) muestreando centroides de pais + jitter.
Mantiene los valores dentro de [-90, 90] y [-180, 180] (validez exigida por
detect_latlon_columns). El jitter es pequeno para no salirse del rango.
"""
import numpy as np
lats = np.empty(len(countries), dtype=float)
lons = np.empty(len(countries), dtype=float)
jitter_lat = rng.normal(0.0, 0.5, len(countries))
jitter_lon = rng.normal(0.0, 0.5, len(countries))
for i, code in enumerate(countries):
base_lat, base_lon = _CENTROIDS[code]
lats[i] = float(np.clip(base_lat + jitter_lat[i], -90.0, 90.0))
lons[i] = float(np.clip(base_lon + jitter_lon[i], -180.0, 180.0))
return lats, lons
def _amount_with_outliers(n, rng, n_extreme=6, factor=50.0):
"""Serie lognormal de cola pesada con ~``n_extreme`` outliers altos (x``factor``)."""
import numpy as np
amount = rng.lognormal(mean=4.0, sigma=1.0, size=n)
if n > 0 and n_extreme > 0:
idx = rng.choice(n, size=min(n_extreme, n), replace=False)
amount[idx] = amount[idx] * factor
return amount
def generate_synthetic_eda_table(
out_db_path, table="synthetic", n_rows=2000, seed=42
):
"""Genera una tabla DuckDB sintetica que activa el maximo de capitulos del EDA.
Construye un DataFrame de ``n_rows`` clientes unicos con columnas elegidas para
disparar detectores concretos del motor AutomaticEDA (numericas continuas con
correlaciones lineal/no-lineal, numericas con outliers, categoricas
desbalanceadas, texto libre multi-idioma con duplicados, fecha para serie
temporal, lat/lon validas, semanticos/PII y nulos con patron MCAR/MAR), y la
materializa en ``out_db_path`` con ``CREATE OR REPLACE TABLE``.
Funcion impura (escribe a disco) y determinista por ``seed``: con el mismo
seed la tabla resultante es identica byte a byte. NUNCA lanza.
Args:
out_db_path: ruta al archivo DuckDB de salida. Se crea (o reutiliza) y la
tabla se reemplaza si ya existe.
table: nombre de la tabla a crear. Se valida contra
``^[A-Za-z_][A-Za-z0-9_]*$`` y se cita en el DDL.
n_rows: numero de filas (clientes unicos). Default 2000.
seed: semilla para Faker y numpy. Default 42.
Returns:
dict dict-no-throw. En exito::
{"status": "ok", "db_path": out_db_path, "table": table,
"n_rows": n_rows, "columns": [<nombres de columna>], "seed": seed}
En error (sin lanzar)::
{"status": "error", "error": str}
"""
try:
import duckdb
import numpy as np
import pandas as pd
if not _IDENT_RE.match(table or ""):
return {
"status": "error",
"error": (
f"nombre de tabla invalido: {table!r} "
"(debe casar con ^[A-Za-z_][A-Za-z0-9_]*$)"
),
}
n = int(n_rows)
if n <= 0:
return {"status": "error", "error": f"n_rows debe ser > 0, dado {n_rows!r}"}
fakers = _make_fakers(seed)
rng = np.random.default_rng(seed)
# --- Numericas continuas (distinct alto, correlaciones) ---
income = np.clip(rng.normal(40000.0, 12000.0, n), 1000.0, None)
spending = income * 0.35 + rng.normal(0.0, 2000.0, n) # corr POSITIVA fuerte
age = rng.integers(18, 91, n)
risk_score = 90.0 - age * 0.7 + rng.normal(0.0, 5.0, n) # corr NEGATIVA con age
tenure_months = rng.uniform(0.0, 60.0, n)
engagement_quad = ((tenure_months - 30.0) ** 2) / 30.0 + rng.normal(0.0, 1.0, n)
# --- Numericas con outliers claros ---
amount = _amount_with_outliers(n, rng)
n_purchases = rng.poisson(3.0, n).astype(float)
if n > 0:
k_hi = min(max(1, int(n * 0.002)) + 2, n) # ~3-5 valores altisimos
hi_idx = rng.choice(n, size=k_hi, replace=False)
n_purchases[hi_idx] = rng.integers(200, 400, len(hi_idx)).astype(float)
# --- Categoricas ---
country = rng.choice(_COUNTRIES, n)
category = rng.choice(_CATEGORIES, n)
plan = rng.choice(_PLANS, n, p=_PLAN_PROBS)
# --- Texto libre multi-idioma con duplicados ---
review = _make_reviews(n, rng, fakers)
# --- Fecha / serie temporal (rango ~2 anios, cadencia ~diaria) ---
base = np.datetime64("2022-01-01")
offsets = rng.integers(0, 730, n)
signup_date = pd.to_datetime(base) + pd.to_timedelta(offsets, unit="D")
# --- Geo lat/lon validas ---
latitude, longitude = _make_latlon(country, rng)
# --- Semanticos / PII (>=80% match para infer_semantic_type) ---
customer_id = [fakers["en_US"].uuid4() for _ in range(n)]
email = [fakers["en_US"].email() for _ in range(n)]
iban = [fakers["en_US"].iban() for _ in range(n)]
phone = [_make_phone_intl(rng) for _ in range(n)]
df = pd.DataFrame(
{
"customer_id": customer_id,
"email": email,
"iban": iban,
"phone": phone,
"income": income,
"spending": spending,
"age": age,
"risk_score": risk_score,
"tenure_months": tenure_months,
"engagement_quad": engagement_quad,
"amount": amount,
"n_purchases": n_purchases,
"country": country,
"category": category,
"plan": plan,
"review": review,
"signup_date": signup_date,
"latitude": latitude,
"longitude": longitude,
}
)
# --- Nulos con patron ---
# income + spending faltan JUNTAS en las MISMAS filas (co-ocurrencia -> MAR).
k_co = max(1, int(n * 0.12))
co_idx = rng.choice(n, size=min(k_co, n), replace=False)
df.loc[co_idx, "income"] = np.nan
df.loc[co_idx, "spending"] = np.nan
# risk_score falta cuando plan == "alta" (mas una pizca de azar) -> MAR.
risk_mask = (df["plan"] == "alta").to_numpy() | (rng.random(n) < 0.02)
df.loc[risk_mask, "risk_score"] = np.nan
columns = list(df.columns)
con = duckdb.connect(out_db_path)
try:
con.register("df_synth_eda", df)
con.execute(
f'CREATE OR REPLACE TABLE "{table}" AS SELECT * FROM df_synth_eda'
)
con.unregister("df_synth_eda")
finally:
con.close()
return {
"status": "ok",
"db_path": out_db_path,
"table": table,
"n_rows": n,
"columns": columns,
"seed": seed,
}
except Exception as exc: # noqa: BLE001 — dict-no-throw del grupo eda.
return {"status": "error", "error": str(exc)}
if __name__ == "__main__":
import json
import sys
args = sys.argv[1:]
db_path = args[0] if len(args) > 0 else "/tmp/synthetic_eda.duckdb"
tbl = args[1] if len(args) > 1 else "synthetic"
rows = int(args[2]) if len(args) > 2 else 2000
sd = int(args[3]) if len(args) > 3 else 42
print(json.dumps(generate_synthetic_eda_table(db_path, tbl, rows, sd), indent=2))
@@ -0,0 +1,129 @@
"""Tests para generate_synthetic_eda_table."""
import os
import re
import statistics
import duckdb
from datascience.generate_synthetic_eda_table import generate_synthetic_eda_table
_EXPECTED_COLS = [
"customer_id", "email", "iban", "phone", "income", "spending", "age",
"risk_score", "tenure_months", "engagement_quad", "amount", "n_purchases",
"country", "category", "plan", "review", "signup_date", "latitude", "longitude",
]
_PHONE_RE = re.compile(r"\+\d[\d\s()-]{6,}\d")
def _load(db_path, table="synthetic"):
con = duckdb.connect(db_path, read_only=True)
try:
return con.execute(f'SELECT * FROM "{table}"').fetch_df()
finally:
con.close()
def test_genera_ok_y_columnas(tmp_path):
db = str(tmp_path / "t.duckdb")
res = generate_synthetic_eda_table(db, "synthetic", n_rows=500, seed=42)
assert res["status"] == "ok"
assert res["table"] == "synthetic"
assert res["n_rows"] == 500
assert res["columns"] == _EXPECTED_COLS
assert os.path.exists(db)
df = _load(db)
assert list(df.columns) == _EXPECTED_COLS
assert len(df) == 500
def test_determinismo_mismo_seed(tmp_path):
db1 = str(tmp_path / "a.duckdb")
db2 = str(tmp_path / "b.duckdb")
generate_synthetic_eda_table(db1, "synthetic", n_rows=400, seed=7)
generate_synthetic_eda_table(db2, "synthetic", n_rows=400, seed=7)
df1 = _load(db1).astype(str)
df2 = _load(db2).astype(str)
# Misma semilla -> tabla identica fila a fila.
assert df1.equals(df2)
def test_seeds_distintos_difieren(tmp_path):
db1 = str(tmp_path / "a.duckdb")
db2 = str(tmp_path / "b.duckdb")
generate_synthetic_eda_table(db1, "synthetic", n_rows=400, seed=7)
generate_synthetic_eda_table(db2, "synthetic", n_rows=400, seed=8)
df1 = _load(db1).astype(str)
df2 = _load(db2).astype(str)
assert not df1.equals(df2)
def test_latlon_en_rango(tmp_path):
db = str(tmp_path / "t.duckdb")
generate_synthetic_eda_table(db, "synthetic", n_rows=500, seed=42)
df = _load(db)
assert df["latitude"].between(-90, 90).all()
assert df["longitude"].between(-180, 180).all()
def test_plan_solo_niveles_validos(tmp_path):
db = str(tmp_path / "t.duckdb")
generate_synthetic_eda_table(db, "synthetic", n_rows=500, seed=42)
df = _load(db)
assert set(df["plan"].unique()) <= {"baja", "media", "alta"}
def test_income_spending_co_nulos(tmp_path):
db = str(tmp_path / "t.duckdb")
generate_synthetic_eda_table(db, "synthetic", n_rows=600, seed=42)
df = _load(db)
inc_null = df["income"].isna()
sp_null = df["spending"].isna()
# income y spending faltan exactamente en las MISMAS filas.
assert (inc_null == sp_null).all()
assert inc_null.sum() > 0
def test_review_mediana_palabras_y_signup_datetime(tmp_path):
db = str(tmp_path / "t.duckdb")
generate_synthetic_eda_table(db, "synthetic", n_rows=500, seed=42)
df = _load(db)
words = [len(str(r).split()) for r in df["review"].dropna()]
assert statistics.median(words) >= 20
# signup_date debe ser datetime/date en DuckDB (no VARCHAR).
con = duckdb.connect(db, read_only=True)
try:
dtype = con.execute(
"SELECT column_type FROM (DESCRIBE synthetic) WHERE column_name='signup_date'"
).fetchone()[0]
finally:
con.close()
assert dtype.upper().startswith(("DATE", "TIMESTAMP"))
def test_phone_matchea_regex_internacional(tmp_path):
db = str(tmp_path / "t.duckdb")
generate_synthetic_eda_table(db, "synthetic", n_rows=500, seed=42)
df = _load(db)
phones = [p for p in df["phone"].tolist() if p is not None]
assert all(_PHONE_RE.fullmatch(str(p)) for p in phones)
def test_outliers_y_correlaciones(tmp_path):
db = str(tmp_path / "t.duckdb")
generate_synthetic_eda_table(db, "synthetic", n_rows=800, seed=42)
df = _load(db)
# amount tiene cola con outliers altos evidentes.
assert df["amount"].max() > df["amount"].median() * 20
# correlacion positiva fuerte income~spending y negativa age~risk_score.
sub = df[["income", "spending"]].dropna()
assert sub["income"].corr(sub["spending"]) > 0.8
sub2 = df[["age", "risk_score"]].dropna()
assert sub2["age"].corr(sub2["risk_score"]) < -0.6
def test_tabla_invalida_devuelve_error(tmp_path):
db = str(tmp_path / "t.duckdb")
res = generate_synthetic_eda_table(db, "bad name;", n_rows=10, seed=42)
assert res["status"] == "error"
assert "invalido" in res["error"]
@@ -0,0 +1,466 @@
"""Batería de tests de ACEPTACIÓN del AutomaticEDA — "que cada AEDA salga como queremos".
Esta suite es la red de seguridad del subsistema EDA del grupo `eda`: garantiza
que CADA capítulo de un informe AutomaticEDA sale poblado y con su contenido
esencial, que la feature de capítulos sueltos (``only_chapters``) resuelve sus
dependencias de cómputo, que los capítulos opcionales devuelven None cuando no
aplican, que el informe de carpeta multi-tabla detecta la FK, y que el Markdown
trae el apéndice completo (matriz de asociación entera + describe con
skew/kurtosis). A diferencia de los tests unitarios de cada capítulo, aquí se
ejercita el pipeline END-TO-END sobre un dataset sintético determinista que
activa todos los capítulos a la vez.
Determinismo: el dataset se genera con ``seed`` fijo y el pipeline corre sin LLM
(``profile_level='standard'``), de modo que el manifest y el Markdown son
reproducibles entre corridas. Un único render `standard` se reutiliza vía un
fixture de scope module para no repetir el cómputo caro.
dict-no-throw: los pipelines del grupo `eda` nunca lanzan; aquí se asserta sobre
``status == 'ok'`` y luego sobre el contenido concreto del manifest / Markdown.
Honestidad (DoD): los asserts comprueban CONTENIDO real (texto esencial de cada
capítulo), no solo el heading. Si un capítulo dejara de emitir su contenido (un
cambio rompiera la distribución numérica, el Isolation Forest, la matriz de
correlación completa, …), el test correspondiente FALLA nombrando el capítulo y
el fragmento ausente — no se ablanda para que pase.
"""
import json
import os
import subprocess
import sys
import pytest
_HERE = os.path.dirname(os.path.abspath(__file__))
_FUNCTIONS = os.path.abspath(os.path.join(_HERE, "..", "..")) # python/functions
if _FUNCTIONS not in sys.path:
sys.path.insert(0, _FUNCTIONS)
from datascience.automatic_eda import CHAPTER_ORDER # noqa: E402
from datascience.generate_synthetic_eda_folder import ( # noqa: E402
generate_synthetic_eda_folder,
)
from datascience.generate_synthetic_eda_table import ( # noqa: E402
generate_synthetic_eda_table,
)
from pipelines.render_automatic_eda import render_automatic_eda # noqa: E402
from pipelines.render_automatic_eda_folder import ( # noqa: E402
render_automatic_eda_folder,
)
# --------------------------------------------------------------------------- #
# Parámetros deterministas del fixture de oro.
# --------------------------------------------------------------------------- #
SEED = 42
N_ROWS = 800
TABLE = "synthetic"
# El capítulo `analisis_llm` SOLO se computa con run_llm=True; en el preset
# `standard` (sin LLM, lo que esta suite usa) no debe aparecer. Por eso los
# capítulos esperados en un informe `standard` son todos los de CHAPTER_ORDER
# MENOS analisis_llm. CHAPTER_ORDER es la fuente de verdad de los 16 capítulos
# del motor (portada … glosario).
LLM_ONLY_CHAPTERS = {"analisis_llm"}
EXPECTED_STANDARD = [c for c in CHAPTER_ORDER if c not in LLM_ONLY_CHAPTERS]
def _pdf_text(path):
"""Texto del PDF vía pdftotext, o None si la herramienta no está disponible."""
try:
out = subprocess.run(
["pdftotext", "-layout", path, "-"],
capture_output=True, text=True, timeout=60,
)
return out.stdout if out.returncode == 0 else None
except Exception: # noqa: BLE001 — la verificación principal es sobre el MD.
return None
def _manifest_chapters(result):
"""Set de ids de capítulo presentes en el manifest del resultado."""
with open(result["manifest_path"], encoding="utf-8") as fh:
return set((json.load(fh).get("chapters") or {}).keys())
# --------------------------------------------------------------------------- #
# Fixtures de scope module: el dataset sintético se genera UNA vez y el render
# `standard` se computa UNA vez; todos los tests de contenido lo reutilizan.
# --------------------------------------------------------------------------- #
@pytest.fixture(scope="module")
def synth_db(tmp_path_factory):
"""Tabla sintética determinista que activa los 16 capítulos del motor."""
d = tmp_path_factory.mktemp("aeda_accept_synth")
db = str(d / "synthetic.duckdb")
g = generate_synthetic_eda_table(db, TABLE, n_rows=N_ROWS, seed=SEED)
assert g["status"] == "ok", g.get("error")
return {"db": db, "table": TABLE, "gen": g}
@pytest.fixture(scope="module")
def standard_run(synth_db, tmp_path_factory):
"""Render AutomaticEDA `standard` (sin LLM) sobre el dataset sintético.
Devuelve el dict del pipeline más el manifest cargado, el texto del Markdown
y el del PDF (si pdftotext está). Reutilizado por la mayoría de los tests.
"""
out = str(tmp_path_factory.mktemp("aeda_accept_std"))
r = render_automatic_eda(
synth_db["db"], synth_db["table"],
profile_level="standard", out_dir=out, basename="synth_std",
)
assert r["status"] == "ok", r.get("error")
with open(r["manifest_path"], encoding="utf-8") as fh:
manifest = json.load(fh)
md = open(r["aeda_md_path"], encoding="utf-8").read()
return {
"r": r,
"manifest": manifest,
"chapters": manifest.get("chapters") or {},
"md": md,
"pdf_text": _pdf_text(r["pdf_path"]),
}
@pytest.fixture(scope="module")
def minimal_db(tmp_path_factory):
"""Tabla mínima SIN texto libre, SIN fecha y SIN lat/lon.
Sirve para comprobar que text_distr / timeseries / geospatial devuelven None
(no aparecen en el manifest) y el EDA no peta. Solo numéricas continuas +
una categórica de baja cardinalidad.
"""
import random
import duckdb
d = tmp_path_factory.mktemp("aeda_accept_min")
db = str(d / "minimal.duckdb")
con = duckdb.connect(db)
con.execute("CREATE TABLE minimal (a DOUBLE, b DOUBLE, c INTEGER, grp VARCHAR)")
random.seed(7)
rows = [
(round(random.gauss(10, 2), 3), round(random.gauss(50, 5), 3),
random.randint(1, 100), ["x", "y", "z"][i % 3])
for i in range(120)
]
con.executemany("INSERT INTO minimal VALUES (?,?,?,?)", rows)
con.close()
return {"db": db, "table": "minimal"}
# --------------------------------------------------------------------------- #
# 1) COBERTURA DE CAPÍTULOS (golden) — el manifest standard trae los 15
# capítulos no-LLM esperados, ninguno falta, y analisis_llm NO sale sin LLM.
# --------------------------------------------------------------------------- #
def test_standard_cubre_todos_los_capitulos_esperados(standard_run):
chapters = set(standard_run["chapters"].keys())
expected = set(EXPECTED_STANDARD)
missing = expected - chapters
assert not missing, (
"capítulos esperados ausentes del manifest standard: "
f"{sorted(missing)} (presentes: {sorted(chapters)})"
)
# analisis_llm requiere run_llm=True: en standard NO debe aparecer.
assert "analisis_llm" not in chapters, (
"analisis_llm apareció sin LLM: el preset standard no debería computarlo"
)
def test_manifest_top_level_es_valido(standard_run):
"""El manifest declara el motor y un dict de capítulos con metadatos por id."""
man = standard_run["manifest"]
assert man.get("engine") == "AutomaticEDA"
assert man.get("engine_version")
chapters = standard_run["chapters"]
# Cada capítulo trae version + nº de páginas/slides (formato del manifest).
for cid, meta in chapters.items():
assert meta.get("version"), f"capítulo {cid} sin version en el manifest"
assert (meta.get("n_pages") or 0) > 0, f"capítulo {cid} con 0 páginas"
# --------------------------------------------------------------------------- #
# 2) CONTENIDO CLAVE POR CAPÍTULO (acceptance) — cada capítulo trae su contenido
# ESENCIAL en el Markdown, no solo el heading. Un fragmento ausente nombra el
# capítulo y el texto que falta.
# --------------------------------------------------------------------------- #
# Fragmentos de texto ESTABLE que cada capítulo emite en el Markdown del dataset
# sintético. No son números frágiles: son etiquetas/estructura del capítulo más
# nombres de columna del fixture. Si un capítulo deja de poblar su contenido, su
# fragmento desaparece y el test falla nombrándolo.
CHAPTER_NEEDLES = {
"portada": ["800 filas", "19 columnas"],
"overview": ["Primeras filas (df.head)", "Diccionario de columnas",
"customer_id", "signup_date"],
"num_distr": ["Distribuciones numéricas", "vallas Tukey", "income"],
"cat_distr": ["Distribuciones categóricas", "Entropía", "Top categorías",
"country"],
"text_distr": ["Texto libre (NLP)", "TTR", "Términos más frecuentes",
"Idioma dominante"],
"calidad": ["Cómo se calcula la calidad", "Calidad global"],
"missingness": ["Datos faltantes", "Celdas faltantes (global)",
"Faltantes por columna"],
"outliers": ["Valores atípicos por columna", "Filas atípicas (multivariante)",
"Isolation Forest", "Filas analizadas"],
"correlacion": ["Matriz de asociación", "Pares más correlacionados"],
"relaciones": ["Candidatas a clave primaria", "customer_id"],
"modelos": ["PCA — varianza explicada", "Segmentación (KMeans)"],
"timeseries": ["Series temporales", "Columna de fecha", "signup_date"],
"geospatial": ["Análisis geoespacial", "Extensión geográfica", "Centroide"],
"agregacion": ["Agregación por grupos", "Agrupado por"],
"glosario": ["Glosario de términos",
"### Isolation Forest (anomalías multivariantes)",
"### PCA (componentes principales)"],
}
def test_needles_cubren_exactamente_los_capitulos_standard():
"""Guard de mantenimiento: las needles cubren los mismos 15 capítulos no-LLM.
Si alguien añade un capítulo nuevo a CHAPTER_ORDER, este test recuerda que
hay que documentar su contenido esencial aquí (o marcarlo como LLM-only)."""
assert set(CHAPTER_NEEDLES.keys()) == set(EXPECTED_STANDARD), (
"CHAPTER_NEEDLES desincronizado con los capítulos esperados de standard: "
f"falta needles para {set(EXPECTED_STANDARD) - set(CHAPTER_NEEDLES)}, "
f"sobra {set(CHAPTER_NEEDLES) - set(EXPECTED_STANDARD)}"
)
@pytest.mark.parametrize("chapter_id", list(CHAPTER_NEEDLES.keys()))
def test_capitulo_trae_su_contenido_esencial(standard_run, chapter_id):
md = standard_run["md"]
# Pre-condición: el capítulo está en el manifest (cobertura). Si no, es un
# fallo de cobertura, no de contenido — se reporta como tal.
assert chapter_id in standard_run["chapters"], (
f"capítulo {chapter_id} ausente del manifest (fallo de cobertura)"
)
for needle in CHAPTER_NEEDLES[chapter_id]:
assert needle in md, (
f"capítulo '{chapter_id}': falta su contenido esencial en el Markdown "
f"— fragmento ausente: {needle!r}"
)
def test_outliers_isolation_forest_poblado_no_degradado(standard_run):
"""El bloque multivariante (Isolation Forest) sale con datos, no degradado."""
md = standard_run["md"]
assert "Anomalías multivariantes" in md
assert "Filas analizadas" in md, "el Isolation Forest no trae su tabla poblada"
assert "No se pudo analizar la anomalía multivariante" not in md, (
"el bloque multivariante salió degradado en el informe completo"
)
# El perfil trae el bloque de modelos con los outliers multivariantes.
models = (standard_run["r"]["profile"] or {}).get("models") or {}
assert models.get("outliers") is not None, "profile['models']['outliers'] vacío"
# --------------------------------------------------------------------------- #
# 3) CAPÍTULOS SUELTOS CON DEPS RESUELTAS (acceptance de only_chapters) — pedir
# un capítulo suelto lo deja POBLADO porque la resolución de dependencias
# activa el cómputo que necesita, aunque el caller no lo pidiera.
# --------------------------------------------------------------------------- #
def test_only_outliers_isolation_forest_poblado(synth_db, tmp_path):
"""only=['outliers'] sin run_models explícito → IsolationForest poblado."""
out = str(tmp_path / "only_out")
r = render_automatic_eda(
synth_db["db"], synth_db["table"],
only_chapters=["outliers"], out_dir=out, basename="only_outliers",
)
assert r["status"] == "ok", r.get("error")
# Documento = portada + outliers + glosario, nada más.
assert _manifest_chapters(r) == {"portada", "outliers", "glosario"}
md = open(r["aeda_md_path"], encoding="utf-8").read()
assert "Filas atípicas (multivariante)" in md
assert "Filas analizadas" in md, "Isolation Forest sin tabla poblada"
assert "No se pudo analizar la anomalía multivariante" not in md, (
"el multivariante salió degradado pese a resolver las deps"
)
# La resolución activó run_models → el perfil trae el bloque de modelos.
assert ((r["profile"] or {}).get("models") or {}).get("outliers") is not None
def test_only_timeseries_rango_temporal_presente(synth_db, tmp_path):
"""only=['timeseries'] → rango temporal poblado (run_series resuelto)."""
out = str(tmp_path / "only_ts")
r = render_automatic_eda(
synth_db["db"], synth_db["table"],
only_chapters=["timeseries"], out_dir=out, basename="only_ts",
)
assert r["status"] == "ok", r.get("error")
assert "timeseries" in _manifest_chapters(r)
md = open(r["aeda_md_path"], encoding="utf-8").read()
assert "Columna de fecha" in md
assert "signup_date" in md, "la serie no nombra su columna de fecha"
# run_series resuelto por deps → el perfil trae el análisis de serie.
assert (r["profile"] or {}).get("series") is not None, (
"only=['timeseries'] debe activar run_series por dependencias"
)
def test_only_correlacion_scatters_presentes(synth_db, tmp_path):
"""only=['correlacion'] → matriz + scatters de los pares fuertes."""
out = str(tmp_path / "only_corr")
r = render_automatic_eda(
synth_db["db"], synth_db["table"],
only_chapters=["correlacion"], out_dir=out, basename="only_corr",
)
assert r["status"] == "ok", r.get("error")
assert _manifest_chapters(r) == {"portada", "correlacion", "glosario"}
md = open(r["aeda_md_path"], encoding="utf-8").read()
assert "Matriz de asociación" in md
assert "Relaciones más fuertes (scatter)" in md, "faltan los scatters"
assert "Dispersión de" in md, "no se emitió ninguna figura de dispersión"
# --------------------------------------------------------------------------- #
# 4) NONE CUANDO NO APLICA — sobre una tabla sin texto largo, sin fecha y sin
# lat/lon, text_distr / timeseries / geospatial NO aparecen y el EDA no peta.
# --------------------------------------------------------------------------- #
def test_capitulos_opcionales_ausentes_cuando_no_aplican(minimal_db, tmp_path):
out = str(tmp_path / "minimal_out")
r = render_automatic_eda(
minimal_db["db"], minimal_db["table"],
profile_level="standard", out_dir=out, basename="minimal",
)
assert r["status"] == "ok", r.get("error")
chapters = _manifest_chapters(r)
for absent in ("text_distr", "timeseries", "geospatial"):
assert absent not in chapters, (
f"capítulo {absent} apareció en una tabla que no lo justifica "
f"(presentes: {sorted(chapters)})"
)
# El documento sigue siendo válido: portada + glosario + capítulos que sí
# aplican (overview/num_distr/correlacion al menos).
assert {"portada", "glosario", "overview", "num_distr"} <= chapters
# --------------------------------------------------------------------------- #
# 5) FOLDER MULTI-TABLA (acceptance) — el informe de carpeta perfila las N tablas
# y el capítulo de relaciones detecta la FK por containment.
# --------------------------------------------------------------------------- #
def test_folder_multitabla_con_fk_detectada(tmp_path):
fdir = str(tmp_path / "folder")
g = generate_synthetic_eda_folder(fdir, n_rows=300, seed=SEED)
assert g["status"] == "ok", g.get("error")
out = str(tmp_path / "fout")
rf = render_automatic_eda_folder(fdir, out_dir=out, basename="folder")
assert rf["status"] == "ok", rf.get("error")
# Las 3 tablas se perfilaron.
assert rf["n_tables"] == 3, f"esperadas 3 tablas, vistas {rf['n_tables']}"
# El manifest base trae el capítulo de relaciones inter-tabla.
with open(rf["manifest_path"], encoding="utf-8") as fh:
chapters = set((json.load(fh).get("chapters") or {}).keys())
assert "relaciones" in chapters, (
f"el documento de carpeta no incluye el capítulo de relaciones: {chapters}"
)
# El Markdown nombra las 3 tablas y declara la FK detectada por containment.
md = open(rf["md_path"], encoding="utf-8").read()
for tbl in ("customers", "orders", "reviews"):
assert tbl in md, f"la tabla {tbl} no aparece en el informe de carpeta"
assert "FK candidatas" in md, "no se declaran las FK candidatas"
assert "orders.customer_id" in md and "customers.customer_id" in md, (
"la FK orders→customers no se detectó por containment"
)
assert "reviews.customer_id" in md, "la FK reviews→customers no se detectó"
# --------------------------------------------------------------------------- #
# 6) MD COMPLETITUD (regresión) — el Markdown trae el apéndice con la matriz de
# asociación COMPLETA (todos los pares, no solo el top) y el describe con
# skew/kurtosis de todas las numéricas. Protege un fix ya mergeado.
# --------------------------------------------------------------------------- #
def test_md_apendice_matriz_correlacion_completa(standard_run):
md = standard_run["md"]
assert "Matriz de asociación — todos los pares" in md, (
"falta el apéndice con la matriz de asociación completa"
)
# Un par num-num de correlación BAJA que el top del capítulo NUNCA mostraría:
# su presencia prueba que el apéndice lista TODOS los pares, no solo el top.
assert "income ↔ longitude" in md, (
"el apéndice no contiene los pares de baja correlación: no es la matriz "
"completa, solo el top-k del capítulo"
)
def test_md_apendice_describe_con_skew_kurtosis(standard_run):
md = standard_run["md"]
assert "Estadísticos numéricos completos (describe)" in md, (
"falta el apéndice describe completo"
)
# La cabecera del describe del apéndice lleva las columnas skew y kurtosis
# (subcadena única de ese header). Sin ellas el describe está incompleto.
assert "| skew | kurtosis |" in md, (
"el describe del apéndice no trae las columnas skew/kurtosis"
)
# --------------------------------------------------------------------------- #
# 7) LAS 3 SALIDAS NO-VACÍAS — PDF con páginas, PPTX con slides, MD con un mínimo
# de caracteres, y los tres archivos en disco. Manifest válido.
# --------------------------------------------------------------------------- #
def test_tres_salidas_no_vacias(standard_run):
r = standard_run["r"]
assert r["pdf_path"] and os.path.exists(r["pdf_path"])
assert r["pptx_path"] and os.path.exists(r["pptx_path"])
assert r["aeda_md_path"] and os.path.exists(r["aeda_md_path"])
assert (r["n_pages"] or 0) > 0, "el PDF no tiene páginas"
assert (r["n_slides"] or 0) > 0, "el PPTX no tiene slides"
# El informe completo es grande: un mínimo holgado protege contra un MD vacío
# o truncado sin atarse a un tamaño exacto.
assert (r["md_chars"] or 0) > 10000, f"MD demasiado corto: {r['md_chars']} chars"
assert r["manifest_path"] and os.path.exists(r["manifest_path"])
def test_pdf_texto_extraible_con_contenido(standard_run):
"""Si pdftotext está disponible, el PDF debe traer texto real (no solo
imágenes): la portada nombra el dataset y su forma. Si no está la
herramienta, el test se omite (no es un fallo del EDA)."""
txt = standard_run["pdf_text"]
if txt is None:
pytest.skip("pdftotext no disponible")
assert len(txt) > 5000, "el PDF apenas tiene texto extraíble"
assert "Portada" in txt or "synthetic" in txt, (
"el texto del PDF no contiene la portada esperada"
)
# --------------------------------------------------------------------------- #
# DETERMINISMO — dos renders del MISMO dataset producen el MISMO manifest
# (mismos capítulos y mismos n_pages/n_slides por capítulo). El generated_at
# difiere por timestamp, por eso se compara el dict de capítulos, no el archivo.
# --------------------------------------------------------------------------- #
def test_render_es_determinista(synth_db, tmp_path):
out1 = str(tmp_path / "det1")
out2 = str(tmp_path / "det2")
r1 = render_automatic_eda(synth_db["db"], synth_db["table"],
profile_level="standard", out_dir=out1, basename="d1")
r2 = render_automatic_eda(synth_db["db"], synth_db["table"],
profile_level="standard", out_dir=out2, basename="d2")
assert r1["status"] == "ok" and r2["status"] == "ok"
c1 = json.load(open(r1["manifest_path"], encoding="utf-8")).get("chapters")
c2 = json.load(open(r2["manifest_path"], encoding="utf-8")).get("chapters")
assert c1 == c2, "el manifest no es determinista entre dos renders del mismo dataset"
# --------------------------------------------------------------------------- #
# SLOW (opcional, skippeable) — informe `full` con narrativa LLM. Requiere red /
# credenciales y NO es determinista, por eso está apagado salvo opt-in explícito
# vía la variable de entorno EDA_ACCEPT_LLM=1. Se omite con skipif (no con un
# marker custom) para no depender de registro de marks en la config del repo.
# --------------------------------------------------------------------------- #
@pytest.mark.skipif(
os.environ.get("EDA_ACCEPT_LLM") != "1",
reason="full+LLM es lento/no determinista; exporta EDA_ACCEPT_LLM=1 para correrlo",
)
def test_full_incluye_capitulo_analisis_llm(synth_db, tmp_path):
out = str(tmp_path / "full")
r = render_automatic_eda(synth_db["db"], synth_db["table"],
profile_level="full", out_dir=out, basename="full")
assert r["status"] == "ok", r.get("error")
assert "analisis_llm" in _manifest_chapters(r), (
"el preset full debe incluir el capítulo de análisis LLM"
)
+1
View File
@@ -9,6 +9,7 @@ dependencies = [
"contextily>=1.7.0",
"cryptography>=46.0.6",
"duckdb>=1.5.2",
"faker>=40.27.0",
"fpdf2>=2.8.7",
"geopandas>=1.1.3",
"google-api-python-client>=2.197.0",
+14
View File
@@ -839,6 +839,18 @@ wheels = [
{ url = "https://files.pythonhosted.org/packages/c1/ea/53f2148663b321f21b5a606bd5f191517cf40b7072c0497d3c92c4a13b1e/executing-2.2.1-py2.py3-none-any.whl", hash = "sha256:760643d3452b4d777d295bb167ccc74c64a81df23fb5e08eff250c425a4b2017", size = 28317, upload-time = "2025-09-01T09:48:08.5Z" },
]
[[package]]
name = "faker"
version = "40.27.0"
source = { registry = "https://pypi.org/simple" }
dependencies = [
{ name = "tzdata", marker = "sys_platform == 'win32'" },
]
sdist = { url = "https://files.pythonhosted.org/packages/1a/7b/c62c98764137c949be240ad83f763b6f96cf76055952a3e2835359acc3af/faker-40.27.0.tar.gz", hash = "sha256:f697cf07f461474ad7d511164c21f45317e69f1d531d25f3e0f872b639e346a1", size = 2018361, upload-time = "2026-06-30T18:05:17.775Z" }
wheels = [
{ url = "https://files.pythonhosted.org/packages/c6/b2/788aae329da3d7e4f08f8e1a82e82243c3376c0f3f49b75ae29eea40b371/faker-40.27.0-py3-none-any.whl", hash = "sha256:6099bd6d7bc79041b46c28e100815e2558952bcf384b76ce6c71c8bdca744256", size = 2057897, upload-time = "2026-06-30T18:05:15.555Z" },
]
[[package]]
name = "fastapi"
version = "0.136.3"
@@ -890,6 +902,7 @@ dependencies = [
{ name = "contextily" },
{ name = "cryptography" },
{ name = "duckdb" },
{ name = "faker" },
{ name = "fpdf2" },
{ name = "geopandas" },
{ name = "google-api-python-client" },
@@ -949,6 +962,7 @@ requires-dist = [
{ name = "contextily", specifier = ">=1.7.0" },
{ name = "cryptography", specifier = ">=46.0.6" },
{ name = "duckdb", specifier = ">=1.5.2" },
{ name = "faker", specifier = ">=40.27.0" },
{ name = "fpdf2", specifier = ">=2.8.7" },
{ name = "geopandas", specifier = ">=1.1.3" },
{ name = "gliner", marker = "extra == 'nlp'", specifier = ">=0.2.13" },