763e06c127
Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
4.6 KiB
4.6 KiB
name, kind, lang, domain, purity, version, signature, description, tags, uses_functions, uses_types, returns, returns_optional, error_type, imports, tested, tests, test_file_path, file_path, params, output
| name | kind | lang | domain | purity | version | signature | description | tags | uses_functions | uses_types | returns | returns_optional | error_type | imports | tested | tests | test_file_path | file_path | params | output | |||||||||||||||||||||||||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| profile_table | pipeline | py | pipelines | impure | 1.0.0 | def profile_table(db_path: str, table: str, sample: int = 5000, report_dir: str = "reports", write_report: bool = True) -> dict | Orquestador one-shot del grupo de capacidad eda: perfila UNA tabla DuckDB end-to-end componiendo las 7 funciones del grupo (perfil base SQL + muestreo read-only + inferencia semantica + promocion de tipo + estadistica numerica/categorica + score de calidad + render markdown) y emite el TableProfile completo mas (opcional) un report markdown y un JSON sidecar. Es la composicion canonica para hazme un EDA de esta tabla. |
|
|
false | error_go_core | true |
|
python/functions/pipelines/profile_table_test.py | python/functions/pipelines/profile_table.py |
|
dict {status:'ok', profile:<TableProfile enriquecido con quality_score, key_candidates y type_breakdown recalculado>, report_md_path:str|None, report_json_path:str|None} o {status:'error', error:str} (dict-no-throw). |
Ejemplo
import os
from pipelines.profile_table import profile_table
# Tabla real: freelance_projects (35 filas) en la DuckDB del monitor de captacion.
db = os.path.expanduser("~/.fn_freelance/freelance.duckdb")
r = profile_table(db, "freelance_projects", sample=5000, write_report=False)
print(r["status"], r["profile"]["quality_score"], r["profile"]["type_breakdown"])
# ok 98.9 {'numeric': 1, 'categorical': 9, 'datetime': 2, 'text': 0, 'boolean': 1}
# ^ 'bids' (VARCHAR '1'..'107') se promociono a numeric via semantic_type=integer.
# Con report a disco (markdown + JSON sidecar en reports/):
r = profile_table(db, "freelance_projects")
print(r["report_md_path"], r["report_json_path"])
# reports/eda_freelance_projects_20260620-101500.md reports/eda_freelance_projects_20260620-101500.json
Cuando usarla
Cuando necesites un EDA completo de una tabla DuckDB en una sola llamada: perfil
por columna + estadistica fina + calidad + report listo para leer. Usala como
primer paso al recibir un dataset desconocido, antes de modelar o limpiar, o
para auditar la calidad de una tabla ya productiva. Reemplaza orquestar a mano
summarize_table_duckdb -> muestreo -> describe_numeric/summarize_categorical
-> column_quality_score -> render_eda_markdown columna por columna.
Gotchas
- Impura: con
write_report=True(default) ESCRIBE dos archivos areport_dir(markdown + JSON). Pasawrite_report=Falsepara un dry-run sin tocar disco. - La promocion de tipo es una HEURISTICA sobre la muestra: una columna VARCHAR se
reclasifica a
numericsolo si susemantic_typees integer/decimal/currency y al menos el 80% de la muestra parsea a float; adatetimesi elsemantic_typees datetime_iso/date_eu. Tablas con datos sucios o muestras no representativas pueden quedar mal clasificadas; subesamplepara muestras mas fiables (coste: mas filas traidas a RAM por columna). - Las columnas promovidas a
datetimeaun NO reciben perfil fino:col["datetime"]queda enNone(la funcionprofile_datetimedel grupo llega en otra fase). Susemantic_typesi se conserva. - El parseo numerico limpia simbolos de moneda (€/$/£/EUR/USD/GBP), espacios y separadores de miles; con coma y punto juntos asume punto=miles, coma=decimal. Formatos exoticos pueden descartarse silenciosamente del calculo numerico.
db_pathdebe existir: DuckDB read-only NO crea la base. El muestreo usa el sandbox por defecto deduckdb_query_readonly(sin acceso a FS/red).