feat(eda): nueva fórmula de calidad de datos (report 2046) + capítulo calidad
Implementa el modelo de calidad del report 2046 en el grupo eda. Score de columna: 0.6·completeness + 0.4·validity con renormalización por aplicabilidad (si la validez no es medible —texto libre o columna 100% nula— el score se basa solo en completeness). Validez = conformidad real al tipo: nativo numérico/fecha/bool = 1.0; texto promovido a número/fecha = parse rate (validity_rate); texto con semantic_type = match_rate; texto libre = no aplica. Outliers, columnas constantes e identificadores salen del score a un bloque de observaciones analíticas (no son defectos de calidad). Se elimina el doble conteo de la falta de datos (mostly_null ya no castiga validez) y el bug de escala de outliers (que además ya no entran en el score). Score de dataset: 100·(0.85·cell_quality + 0.15·row_uniqueness) en vez de la media simple. Se pobla duplicate_rows/duplicate_pct push-down en summarize_table_duckdb (COUNT sobre DISTINCT *, sin RAM) para habilitar la unicidad de registro; renormaliza a solo cell_quality si no se puede calcular. Capítulo calidad (v2.0.0): intro de dos dimensiones (60/40) que declara que los outliers no bajan el score; tabla de scores Columna|Calidad|Completitud|Validez (sin Consistencia, n/a cuando no aplica); DOS tablas separadas (Problemas de calidad vs Observaciones analíticas); resumen con Unicidad de registro; glosario clicable de completitud, validez, unicidad de registro y calidad de datos. Verificado: 123 tests verdes (automatic_eda + render_automatic_eda + column_quality_score + summarize_table_duckdb + profile_table). Golden EDA de titanic (run_models+run_llm) con score recomputado a mano, outliers separados en observaciones y glosario clicable (5 links GOTO en el PDF). column_quality_score v2.0.0, summarize_table_duckdb v1.1.0, profile_table v1.1.0. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
This commit is contained in:
@@ -54,6 +54,30 @@ def test_shape_y_metadatos_tabla(db):
|
||||
assert profile["correlations"] is None
|
||||
|
||||
|
||||
def test_duplicate_pct_sin_duplicados(db):
|
||||
"""Tabla con todas las filas distintas: duplicate_pct = 0, no None."""
|
||||
profile = summarize_table_duckdb(db, "ventas")["profile"]
|
||||
assert profile["duplicate_rows"] == 0
|
||||
assert profile["duplicate_pct"] == 0.0
|
||||
|
||||
|
||||
def test_duplicate_pct_con_duplicados(tmp_path):
|
||||
"""Filas repetidas: duplicate_rows/duplicate_pct se pueblan push-down."""
|
||||
path = str(tmp_path / "dups.duckdb")
|
||||
con = duckdb.connect(path)
|
||||
con.execute("CREATE TABLE t (a INTEGER, b VARCHAR)")
|
||||
# 5 filas, 2 de ellas idénticas a otras -> 2 duplicadas sobre 5 = 0.4.
|
||||
con.execute(
|
||||
"INSERT INTO t VALUES "
|
||||
"(1,'x'), (2,'y'), (1,'x'), (3,'z'), (2,'y')"
|
||||
)
|
||||
con.close()
|
||||
profile = summarize_table_duckdb(path, "t")["profile"]
|
||||
assert profile["n_rows"] == 5
|
||||
assert profile["duplicate_rows"] == 2
|
||||
assert profile["duplicate_pct"] == 0.4
|
||||
|
||||
|
||||
def test_column_profile_shape(db):
|
||||
profile = summarize_table_duckdb(db, "ventas")["profile"]
|
||||
by_name = {c["name"]: c for c in profile["columns"]}
|
||||
|
||||
Reference in New Issue
Block a user