| run_eda_models_py_datascience |
run_eda_models |
function |
py |
datascience |
1.0.0 |
pure |
def run_eda_models(columns: dict, run_pca: bool = True, run_kmeans: bool = True, run_isolation: bool = True, run_normality: bool = True) -> dict |
Orquesta los modelos baratos del grupo eda (PCA, KMeans, Isolation Forest, normalidad) sobre las columnas numericas de un perfil de tabla y devuelve el bloque models de un TableProfile. Composicion canonica del flag --models de profile_table. Compone funciones puras del registry, no reescribe logica. |
| eda |
| models |
| datascience |
| profiling |
| pca |
| kmeans |
| isolation-forest |
| normality |
| multivariate |
| composition |
|
| pca_explained_py_datascience |
| kmeans_segments_py_datascience |
| isolation_forest_outliers_py_datascience |
| normality_tests_py_datascience |
|
|
|
false |
|
|
from run_eda_models import run_eda_models
cols = {
"x": {"values": [1.0, 2.0, 3.0, 4.0], "type": "numeric"},
"y": {"values": [2.0, 4.0, 6.0, 8.0], "type": "numeric"},
"z": {"values": [5.0, 4.0, 6.0, 5.5], "type": "numeric"},
}
block = run_eda_models(cols)
# block["n_numeric_cols"] == 3; block["pca"], block["kmeans"], block["normality"] poblados
|
true |
| test_three_numeric_columns_runs_all_models |
| test_single_numeric_column_note_and_normality_only |
| test_flags_disable_models |
| test_no_numeric_columns_returns_note_and_no_normality |
|
python/functions/datascience/run_eda_models_test.py |
python/functions/datascience/run_eda_models.py |
| name |
desc |
| columns |
Mapa {nombre_columna: {values: list, type: 'numeric'|'categorical'|'datetime'|...}}. Mismo shape que recibe association_matrix; listas alineadas por fila. Solo las columnas con type=='numeric' alimentan los modelos. |
|
| name |
desc |
| run_pca |
Si True, ejecuta pca_explained sobre el subconjunto numerico (estructura latente / varianza explicada). Default True. |
|
| name |
desc |
| run_kmeans |
Si True, ejecuta kmeans_segments con seleccion automatica de k por silhouette (segmentos naturales). Default True. |
|
| name |
desc |
| run_isolation |
Si True, ejecuta isolation_forest_outliers (anomalias multivariante). Default True. |
|
| name |
desc |
| run_normality |
Si True, ejecuta normality_tests por cada columna numerica. Es univariante: basta 1 columna. Default True. |
|
|
dict con {n_numeric_cols, pca, kmeans, outliers, normality, note}. pca/kmeans/outliers son la salida de su funcion del registry o None (flag desactivado o <2 columnas numericas). normality es {col: salida de normality_tests} o None (flag desactivado o sin columnas numericas). Con <2 columnas numericas los multivariantes quedan en None y note = "insuficientes columnas numericas para modelos multivariantes" (normality sigue poblandose si hay >=1 columna numerica). Con >=2 columnas y todo activado, note = "". Nunca lanza excepcion.
|