| render_automatic_eda_folder |
pipeline |
py |
pipelines |
impure |
1.0.0 |
def render_automatic_eda_folder(path: str, out_dir: str = "reports", basename: str = None, profile_level: str = "standard", emit_pdf: bool = True, emit_pptx: bool = True, emit_md: bool = True, per_table_eda: bool = False, min_inclusion: float = 0.9, ctx_extra: dict = None) -> dict |
Informe AutomaticEDA a nivel de BASE one-shot de una CARPETA de archivos tabulares (CSV/Parquet/JSON) o de una DuckDB existente. Carga la carpeta a una DuckDB temporal con load_folder_to_duckdb (o usa la DuckDB dada directa), perfila TODA la base con profile_database (resumen de cada tabla + FK candidatas por containment + join graph con diagrama Mermaid), ENSAMBLA un documento-base por capitulos (portada-base con nombre/n tablas/totales/fecha/fuente, resumen de tablas con una fila por tabla, y relaciones inter-tabla con la tabla de FK candidatas + una Figure matplotlib REAL del join graph dibujada con draw_join_graph_figure mas el texto Mermaid) y lo renderiza con el motor AutomaticEDA a PDF (A5 movil), PPTX (16:9) y Markdown autocontenido a la vez. Con per_table_eda=True anexa los capitulos de mini-EDA de cada tabla (build_document por tabla). Es el hermano a nivel de base de render_automatic_eda (que perfila UNA tabla): aqui el informe es de la base y de sus relaciones. Devuelve las rutas de PDF/PPTX/MD, el manifiesto y el DatabaseProfile. |
| eda |
| duckdb |
| database |
| profiling |
| relations |
| pipeline |
| dataops |
| report |
| pdf |
| pptx |
| launcher |
|
| load_folder_to_duckdb_py_infra |
| profile_database_py_pipelines |
| render_automatic_eda_pdf_py_datascience |
| render_automatic_eda_pptx_py_datascience |
| render_automatic_eda_markdown_py_datascience |
| draw_join_graph_figure_py_datascience |
|
|
|
false |
error_go_core |
|
true |
| golden: carpeta con 3 CSV relacionados (customers/orders/products) emite PDF+PPTX+MD del documento-base con 3 tablas y la FK orders.customer_id->customers.id |
| edge: carpeta vacia -> status ok con documento minimo, sin lanzar |
| edge: 1 sola tabla -> funciona sin relaciones (capitulo relaciones dice 'sin FK') |
|
python/functions/pipelines/render_automatic_eda_folder_test.py |
python/functions/pipelines/render_automatic_eda_folder.py |
| name |
desc |
| path |
DIRECTORIO con archivos tabulares (CSV/Parquet/JSON) que se cargan a una DuckDB temporal, o una DuckDB ya existente (.duckdb/.ddb/.db) que se perfila directa. |
|
| name |
desc |
| out_dir |
Directorio de salida de los informes (se crea si no existe). Default 'reports'. |
|
| name |
desc |
| basename |
Nombre base de los archivos sin extension. Default 'aeda_base_<nombre>_<timestamp>'. |
|
| name |
desc |
| profile_level |
Preset de coste del perfil por tabla ('lite'/'standard'/'full'); ajusta el sample que profile_database pasa a cada tabla (lite=2000, standard/full=5000). |
|
| name |
desc |
| emit_pdf |
Emite el PDF A5 movil del documento-base. Default True. |
|
| name |
desc |
| emit_pptx |
Emite el PPTX 16:9 del documento-base. Default True. |
|
| name |
desc |
| emit_md |
Emite el Markdown autocontenido del documento-base. Default True. |
|
| name |
desc |
| per_table_eda |
Si True, anexa al documento-base los capitulos de mini-EDA de cada tabla (Heading 'Tabla: <n>' + build_document por tabla). Default False (solo documento-base: portada + resumen + relaciones). |
|
| name |
desc |
| min_inclusion |
Umbral de inclusion (0-1) para emitir una FK candidata (se pasa a profile_database). Default 0.9. |
|
| name |
desc |
| ctx_extra |
Dict opcional de claves de presentacion (p.ej. dataset_name, description) que se mezclan en el contexto de la portada-base. |
|
|
Dict dict-no-throw. En exito: {status:'ok', pdf_path, pptx_path, md_path, manifest_path, n_tables, n_pages, n_slides, md_chars, db_path, db_profile}. En error: {status:'error', error:str}. |