fn_registry

Author	SHA1	Message	Date
egutierrez	3be188a921	feat(eda): profile_level (lite/standard/full) en render_automatic_eda Añade el parámetro profile_level a render_automatic_eda como preset de consumo CPU/LLM que mapea a los flags existentes (run_models, run_series, run_llm, sample). Tres niveles: - lite (bajo consumo): run_llm=False, run_series=False, sample=2000 y modelos limitados a PCA + normalidad, SIN KMeans ni IsolationForest (lo caro en CPU). Para un vistazo rápido y barato. - standard (default): comportamiento histórico — modelos completos, serie, sin LLM. - full: standard + narrativa LLM por capítulo. Precedencia: un flag explícito del caller (run_llm=..., run_models=..., etc.) siempre prima sobre el default que fija el preset; el preset solo aplica al parámetro que se deja en None. Cableado del modo lite sin tocar profile_table (lo tocan otros agentes en paralelo): profile_table NO corre los modelos (evita pagar KMeans + IsolationForest); este pipeline los corre con run_eda_models(run_kmeans=False, run_isolation=False) reusando ctx['raw_numeric'], y quita raw_numeric del ctx para que el capítulo modelos no reproyecte clusters KMeans en vivo (project_clusters_2d). geo_points ya queda derivado, así que geospatial no se afecta. Cambio aditivo y retro-compatible: sin profile_level el comportamiento es idéntico al de v1.0.0 (standard). Tests nuevos cubren lite/standard, la precedencia flag-sobre-preset, y la equivalencia del default con el histórico. Bump 1.0.0 -> 1.1.0 + growth log en el .md. Skill /eda documenta --lite/--full. Verificación: golden lite/standard/full sobre titanic — lite 4.8s (PCA+norm, sin KMeans/iso/LLM/serie), standard 7.8s (modelos completos), full 38.3s (+LLM). Suite render_automatic_eda + automatic_eda: 96 passed. fn index sin error. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-30 18:20:17 +02:00
egutierrez	b1d205203a	feat(eda): poblar head_rows real en el capitulo OVERVIEW (df.head) El capitulo OVERVIEW del motor AutomaticEDA mostraba "df.head no disponible" porque ninguna fase de calculo poblaba las primeras filas crudas de la tabla. - build_eda_render_ctx: nuevo bloque que muestrea SELECT * LIMIT head_n (param nuevo head_n=10) y lo expone en ctx["head_rows"] como lista de dicts fila. Estilo dict-no-throw: si la query falla, se omite la clave. - profile_table: puebla prof["head_rows"] reusando _sample_rows (SELECT de las columnas LIMIT 10) tras recalcular el type_breakdown. Asi el report JSON sidecar tambien lo lleva y el capitulo lo recoge via profile aunque no se construya el ctx. - overview.py: la nota del DataTable de df.head ahora indica el total de filas del dataset cuando se conoce ("primeras 10 filas de 891"). Bump CHAPTER_VERSION 1.0.0 -> 1.1.0. - overview_test.py (nuevo): golden (head via profile y via ctx, render PDF + PPTX muestran las filas reales, placeholder ausente), edge (sin head_rows degrada a nota honesta sin romper, None/vacio devuelven None). Verificado end-to-end con titanic: render_automatic_eda emite PDF + PPTX con df.head visible (Braund/Cumings/Heikkinen + columnas) y sin el placeholder. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-30 17:56:24 +02:00
egutierrez	d1a3d58a6b	feat(eda): motor AutomaticEDA fase 4a — render fixes + keep-together + glosario clicable Mejoras transversales del motor de render (no del contenido de capítulos): 1. Fix negrita pisa texto (PDF): _place_rich_lines mide el ancho REAL de cada span con las métricas de fuente del renderer (peso correcto) en vez del grid de ancho medio; negrita y normal en la misma línea ya no se solapan. 2. Zebra striping: filas pares sombreadas (#f6f8fa) en DataTable (PDF + PPTX), coherente al partir tablas largas (índice de fila lógico, no por página). 3. Keep-together: bloque Group nuevo; el renderer mide el grupo entero y lo mueve completo a la página/slide siguiente si no cabe, y encoge la figura (height_in) para dejar sitio a su título y texto. num_distr lo usa. 4. Caption siempre visible en toda figura PPTX (fallback al heading); la figura reserva el alto de su caption para que ambos quepan en el mismo slide. 5. Portada construida al final (con resumen agregado del análisis vía ctx['document_summary']) pero colocada primera por build_document. 6. Glosario: capítulo nuevo (último) + GlossaryCollector en ctx; los capítulos registran términos y marcan apariciones con [[term:key]]...[[/term]]. Links clicables reales: PDF (PyMuPDF, link GOTO) y PPTX (slide-jump nativo). Enganchado "entropía" en cat_distr como ejemplo end-to-end. Funciones reutilizables delegadas a fn-constructor (tag eda): - add_pdf_internal_links_py_datascience (PyMuPDF) - pptx_link_run_to_slide_py_datascience (slide-jump) Contrato docs/automatic_eda_contract.md actualizado (§1/§3/§5 + §11 nueva) con la API de glosario, keep-together y zebra para la siguiente fase. PyMuPDF declarado en pyproject. Suite verde (90 tests); golden titanic verificado. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-30 17:35:19 +02:00
egutierrez	f3d427d9e4	feat(eda): wiring AutomaticEDA — build_eda_render_ctx + pipeline render_automatic_eda + profile_table(emit_automatic) Conecta el motor AutomaticEDA con los datos crudos para que los 4 capítulos dependientes de ctx (modelos, timeseries, geospatial, agregacion) salgan POBLADOS en vez de degradar a una nota. - build_eda_render_ctx (datascience, impure, dict-no-throw): dado db_path+table y el TableProfile agregado, construye el ctx con los datos crudos que el perfil no incluye: raw_numeric {col:[float\|None]} alineado por fila (modelos / geospatial), timeseries_raw {time_col,t,series} vía extract_timeseries_raw, geo_points {lats,lons} desde el par lat/lon detectado, y db_path/table para el groupby/pivot push-down de agregacion. Muestrea con LIMIT (no trae la tabla entera a RAM). Compone detect_time_column / extract_timeseries_raw / detect_latlon_columns / duckdb_query_readonly (imports lazy para evitar ciclo). - render_automatic_eda (pipeline): one-shot perfil -> ctx -> PDF + PPTX con los 11 capítulos poblados; devuelve rutas + manifest de versiones por capítulo. - profile_table: flag aditivo emit_automatic=True emite el AutomaticEDA PDF+PPTX además del flujo legacy (emit_pdf/render_eda_pdf intacto). Nuevas claves de retorno aeda_pdf_path / aeda_pptx_path / aeda_manifest_path. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-30 16:08:41 +02:00
egutierrez	f5b30b23dc	feat(eda): negrita inline real (bold) en renderers AutomaticEDA El render de Markdown del motor AutomaticEDA quitaba los marcadores negrita sin aplicar estilo. Ahora los spans bold/__bold__ se renderizan en negrita real, de forma aditiva y sin romper el anti-corte: - text_layout.py: parse_inline_bold() tokeniza spans preservando el texto visible (== strip_inline_md) y wrap_rich() envuelve por palabras a max_chars conservando el flag de negrita por segmento (la anchura visible no cambia, así que la paginación es idéntica). - render_pdf_impl.py: _place_rich_lines() dibuja cada segmento con su fontweight avanzando x por el mismo grid de caracteres que usa el wrap (párrafos+bullets). - render_pptx_impl.py: _add_rich_text() usa runs nativos de python-pptx con font.bold por segmento (negrita real de PowerPoint). - bold_render_test.py: helpers puros (no-overflow, bold preservado, marcadores desbalanceados) + e2e que abre el .pptx y confirma un run con font.bold True. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-30 16:08:16 +02:00
egutierrez	5eaf3f662e	merge: capitulo AutomaticEDA agregacion (verificado met) + funciones delegadas eda	2026-06-30 15:45:37 +02:00
egutierrez	05fe76bce0	merge: capitulo AutomaticEDA timeseries (verificado met) + funciones delegadas eda	2026-06-30 15:45:37 +02:00
egutierrez	864430e988	merge: capitulo AutomaticEDA geospatial (verificado met) + detect_latlon_columns/analyze_geo_extent/build_geo_scatter	2026-06-30 15:36:22 +02:00
egutierrez	a69d14d38e	feat(eda): capítulo TIMESERIES del AutomaticEDA (evolución + análisis de serie) Capítulo nuevo build_timeseries(profile, ctx) -> Chapter\|None del motor AutomaticEDA. Cuando la tabla tiene columna de fecha/datetime, grafica la evolución de cada columna numérica por periodo (valor agregado + conteo de filas) y los paneles de descomposición STL y autocorrelación (ACF), con el análisis de la serie: estacionariedad (ADF+KPSS), autocorrelación (Ljung-Box), fuerzas de tendencia/estacionalidad (Hyndman) y la transformación sugerida (retornos o diferencias) para evitar correlaciones espurias. Sin columna temporal devuelve None. Consolida series OHLC casi idénticas en un único gráfico conservando el análisis de cada columna. La serie cruda llega por ctx['timeseries_raw'] (mismo patrón que modelos con raw_numeric); las figuras son perezosas (Figure.make) y el paginador del núcleo garantiza no-corte en PDF y PPTX. CHAPTER_VERSION 1.0.0. Cubre los MUST del diseño (report 2043): MUST-9.1 (línea valor-vs-tiempo + conteo por periodo), MUST-9.2 (paneles STL + ACF), MUST-9.3 (perfil datetime + consolidación OHLC). Funciones nuevas del registry (grupo eda), delegadas a fn-constructor, no inline: - detect_time_column (pure): detecta la columna temporal y las numéricas - profile_datetime (pure): rango/frecuencia/regularidad/huecos de la fecha - resample_timeseries (pure): agrega la serie por periodo + conteo - extract_timeseries_raw (impure): lee la serie cruda ordenada de DuckDB/PG Verificación: 69 tests verdes (capítulo 9 + funciones 28 + núcleo/renderers); golden real sobre seattle-weather (estacional) y aapl (OHLC) con PDF+PPTX sin cortar nada (cols_cortadas=[]). Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-30 15:35:42 +02:00
egutierrez	fd59530751	feat(eda): capítulo AGREGACION del AutomaticEDA (groupby + pivot + barras) Capítulo nuevo (siempre presente cuando hay categóricas agrupables) que analiza la tabla por grupos: stats de numéricas por grupo, tablas dinámicas (pivot) y gráficos de barras desde cero. Obtiene los datos por ctx['aggregations'] precomputado o en vivo vía push-down (ctx['db_path']+table), siguiendo el patrón de chapters/modelos.py. Degrada a None cuando no hay categóricas; emite los bloques del modelo (DataTable, Markdown, Figure) para que el paginador del núcleo no corte nada en PDF ni PPTX. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-30 15:33:55 +02:00
egutierrez	96da9e3015	feat(eda): funciones de agregación/OLAP para AutomaticEDA (groupby/pivot push-down + selección LLM) Cuatro funciones nuevas del grupo eda que nutren el capítulo AGREGACION: - select_groupby_keys (pure): elige categóricas agrupables + numéricas medida desde el TableProfile. - groupby_stats_duckdb (impure): GROUP BY push-down en DuckDB (count/mean/median/std/min/max por grupo). - pivot_table_duckdb (impure): pivot A×B push-down, limitado a top filas/cols para no cortar. - suggest_aggregations_llm (impure): el LLM elige las agregaciones interesantes con fallback determinista. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-30 15:33:55 +02:00
egutierrez	00cd5274bc	feat(eda): capítulo GEOSPATIAL del AutomaticEDA (scatter geográfico + zona/país) Capítulo nuevo chapters/geospatial.py (CHAPTER_VERSION 1.0.0). Cuando el dataset tiene un par de coordenadas, dibuja un scatter geográfico en proyección equirectangular (la escala respeta la latitud para no estirar la longitud) y analiza la extensión: bounding box, centroide, span, conteo por zona/país, hemisferios y una interpretación. Cuando NO hay coordenadas, build_geospatial devuelve None y el capítulo se omite. Sigue el contrato de capítulos (firma build_<id>(profile, ctx) -> Chapter\|None, lectura defensiva, nunca lanza) y el patrón de modelos/num_distr: delega el cálculo a las primitivas puras del registry (detect_latlon_columns, analyze_geo_extent, build_geo_scatter) y solo dibuja la figura matplotlib de forma perezosa. Las coordenadas crudas llegan por ctx['geo_points'] o ctx['raw_numeric'] (como modelos lee raw_numeric); sin ellas, degrada con un bounding box aproximado de numeric.min/max y una nota honesta. Anti-cortes: usa DataTable/KVTable/Figure/Markdown del modelo, que el paginador parte sin cortar. Test self-contained con golden + 6 edges + anti-cut (nombres largos + 2100 puntos en varias regiones renderizan a PDF y PPTX sin truncar). Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-30 15:29:33 +02:00
egutierrez	cd658cc703	feat(eda): primitivas geoespaciales del grupo eda (detección lat/lon + extensión + scatter) Tres funciones puras nuevas del dominio datascience (tags eda + geospatial) que sostienen el capítulo GEOSPATIAL del AutomaticEDA, delegadas a fn-constructor: - detect_latlon_columns: identifica el par (lat, lon) por nombre de columna + rango de valores ([-90,90] / [-180,180]) desde profile['columns']. Devuelve {lat_col, lon_col, confidence, reason}. 9 tests. - analyze_geo_extent: bbox, centroide, span haversine, conteo por zona/país (lookup offline con bounding boxes embebidos, KISS sin geopandas) y hemisferios. 7 tests. - build_geo_scatter: prepara los puntos del scatter en orden [lon, lat] con downsampling determinista por paso fijo + aspect equirectangular 1/cos(lat) clampado. 6 tests. Registradas en datascience/__init__.py. Todas pure, params_schema completo, .md autosuficiente (Ejemplo + Cuando usarla + Gotchas). Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-30 15:29:33 +02:00
egutierrez	81b57f9acd	merge: capitulo AutomaticEDA analisis_llm (verificado met)	2026-06-30 15:15:39 +02:00
egutierrez	02ee222dde	merge: capitulo AutomaticEDA cat_distr (verificado met)	2026-06-30 15:15:39 +02:00
egutierrez	ba162ab301	merge: capitulo AutomaticEDA correlacion (verificado met)	2026-06-30 15:15:39 +02:00
egutierrez	415154d9a3	merge: capitulo AutomaticEDA modelos (verificado met)	2026-06-30 15:10:23 +02:00
egutierrez	d479a8e4e2	merge: capitulo AutomaticEDA calidad (verificado met)	2026-06-30 15:10:22 +02:00
egutierrez	649de07d6b	feat(eda): capítulo AutomaticEDA CAT DISTR + funciones cardinalidad/pie Capítulo cat_distr del motor AutomaticEDA: distribuciones categóricas con explicación de entropía de Shannon, métricas de cardinalidad por columna (valores distintos, % distintos, total de filas, valores únicos, entropía y su máximo log2(k) + normalizada), tabla top-k y un donut de las categorías más comunes (top-k + «Otros»). Marca columnas id-like y dominadas. Delegadas a fn-constructor (grupo eda): - categorical_cardinality_block: deriva métricas de cardinalidad/entropía. - categorical_top_pie_figure: figura donut top-k + «Otros», leyenda lateral. Defensivo (dict-no-throw): None si no hay columnas categóricas; normaliza mode_pct a escala 0-100 (summarize_categorical lo emite como fracción). Tablas vía DataTable y figura perezosa: el paginador del núcleo garantiza no-corte en PDF y PPTX. Tests: golden + edge (sin categóricas) + anti-corte (label largo / muchas columnas) en ambos renderers. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-30 15:04:10 +02:00
egutierrez	af1dd9bcc2	test(eda): tests del capítulo ANÁLISIS LLM (golden + edges + anti-cortes) Suite self-contained (perfil sintético + un golden, sin DuckDB): - golden: build_analisis_llm devuelve el Chapter y el documento entero renderiza a PDF y PPTX con resumen, análisis sugeridos, limpieza y una columna del diccionario presentes. - orden: el capítulo queda inmediatamente después de `overview`. - edges: profile sin bloque `llm` (o None/{}/malformado/llm vacío) -> None sin lanzar; fallback a ctx['llm']. - anti-cortes: diccionario de 40 filas + sugerencia de limpieza de ~150 chars se reparten en varias páginas/slides sin perder ninguna fila ni palabra. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-30 15:01:26 +02:00
egutierrez	fc5bc334c8	feat(eda): capítulo ANÁLISIS LLM para AutomaticEDA, junto al overview Nuevo capítulo `analisis_llm` del motor AutomaticEDA. Consume el bloque `llm` que `eda_llm_insights` (grupo eda) ya deja en el TableProfile —no llama al LLM ni recalcula— y lo convierte en bloques del modelo de documento para que se renderice sin cortarse en PDF ni PPTX: - Resumen de la tabla y significado de una fila -> bloques Markdown (el renderer los envuelve a líneas completas, nunca pierde texto). - Diccionario de datos y PII -> DataTable (el paginador parte por filas repitiendo cabecera y envuelve celdas largas dentro de su columna). - Análisis sugeridos y limpieza sugerida -> listas de viñetas Markdown; cada entrada es una línea completa que el renderer envuelve, nunca trunca. Lectura defensiva (.get) en todo; devuelve None si el profile no trae bloque `llm` (p.ej. profile_table sin run_llm) para omitir el capítulo. MUST-3.2 (report 2043): se mueve `analisis_llm` en CHAPTER_ORDER a la posición inmediatamente posterior a `overview`, como pidió el usuario ("va junto al overview"). Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-30 15:01:26 +02:00
egutierrez	03f3dca823	feat(eda): capítulo CORRELACION de AutomaticEDA (matriz + top pares ±) Implementa chapters/correlacion.py siguiendo el contrato de capítulos: build_correlacion(profile, ctx) -> Chapter\|None, CHAPTER_VERSION="1.0.0". Consume profile['correlations'] (salida de association_matrix del grupo eda, sin recalcular estadística) y emite, como bloques del modelo: - Matriz de asociación (Figure/heatmap perezoso, RdBu_r, con signo en num-num y magnitud en métricas mixtas; etiquetas ordenadas por conectividad y recortadas a las 16 más conectadas para legibilidad). - TOP de pares POSITIVOS y TOP de pares NEGATIVOS en dos DataTable separadas (los negativos son por construcción num-num, único método con signo), con método, valor, p-valor corregido (FDR) y significancia. - Resumen FDR (multiple_testing) + leyenda de métodos. - Aviso de espuriedad por niveles no estacionarios (Granger-Newbold) cuando el profile lo marca. Lectura defensiva en todo (None si no hay pares; nunca lanza). Anti-cortes: sólo bloques del modelo, el paginador parte tablas repitiendo cabecera y escala la figura entera. Test self-contained (5 casos): golden a nivel de bloques + golden render PDF/PPTX, edge sin pares -> None, edge sólo positivos -> nota honesta, y anti-corte con matriz ancha + etiquetas largas (dato íntegro a nivel de bloque, ambos renderers sin reventar). Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-30 14:59:50 +02:00
egutierrez	d412522db9	feat(eda): capítulo CALIDAD del AutomaticEDA (criterios + scores + problemas ES) Añade el capítulo de calidad de datos al motor AutomaticEDA, siguiendo el contrato de capítulos (build_calidad(profile, ctx) -> Chapter \| None, CHAPTER_VERSION). El capítulo responde lo que pidió el usuario, en español y en formato de tabla: - Intro "Cómo se calcula la calidad": explica los tres criterios y sus pesos (completitud 50%, validez 30%, consistencia 20%) antes de cualquier número, más una KVTable de resumen a nivel tabla (calidad global y agregados). - Tabla "Scores por columna": score total más su desglose en completitud / validez / consistencia, ordenada de peor a mejor. - Tabla "Problemas detectados": los issues en español por columna, separados de los flags de tipo. Cuando no hay problemas, una nota honesta. Registry-first: el desglose y los issues NO se recalculan aquí; se consumen de la función pura del registry column_quality_score (grupo eda), que ya deriva {score, completeness, validity, consistency, issues} del ColumnProfile. El capítulo es render-only y compone bloques del modelo; los renderers paginan las tablas (parten por filas repitiendo cabecera) y envuelven celdas largas, de modo que nada se corta en PDF ni en PPTX. La lista de issues por celda se acota a 160 caracteres con "(+N más)" para que una fila nunca crezca más que una página. Test self-contained (sin DuckDB): golden con desglose + issues ES, edges (None/{}/sin columnas -> None; perfil limpio -> nota), y anti-cortes (perfil de 22 columnas con nombres largos renderizado a PDF y PPTX: el nombre completo sobrevive al envolverse, sin marcador de truncado). Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-30 14:59:10 +02:00
Egutierrez	c1a4a83717	feat(eda): capítulo num_distr — histograma con media/mediana/±σ + boxplot Tukey Capítulo NUM DISTR del motor AutomaticEDA. Por cada columna numérica emite, como una sola Figure indivisible de dos ejes compartiendo X, un histograma con la media (línea roja discontinua), la mediana (línea verde continua) y la banda ±1σ dibujadas como referencias, y un boxplot de Tukey debajo (caja P25–P75, bigotes a 1,5·IQR, marca de valores fuera de las vallas). Una nota por columna traduce el distribution_type a lenguaje llano (MUST-4.1/4.2/4.3 del report 2043). Consume el profile del grupo eda sin recalcular: el histograma usa los bins {lo,hi,count} de describe_numeric y las vallas del boxplot las deriva la función pura build_boxplot_stats_py_datascience. Lectura defensiva: sin columna numérica devuelve None; profile None/{} no lanza. Test self-contained: golden + edges + anti-corte (8 columnas no cortan en PDF ni PPTX).	2026-06-30 14:58:03 +02:00
egutierrez	81e8597d21	feat(eda): capitulo MODELOS de AutomaticEDA (markdown, scatter PCA+clusters, micro-LLM) Implementa chapters/modelos.py (build_modelos / CHAPTER_VERSION) consumiendo profile['models'] {pca,kmeans,outliers,normality} de run_eda_models. Render markdown estructurado con bloques anti-corte: - Intro de normalizacion z-score: por que se estandariza antes de PCA/KMeans (MUST-8.3). - PCA: scree plot (varianza explicada + acumulada, un solo eje Y) + tablas de varianza y cargas principales (SHOULD-8.4). - Segmentacion KMeans: scatter PCA coloreado por cluster con centroides, en su propia pagina/slide (MUST-8.1); tabla de tamaños; micro-analisis LLM por cluster con titulo, cada entrada indivisible (MUST-8.2). - Isolation Forest: explicacion de la deteccion multivariante de outliers y del umbral + conteos (MUST-8.3). - Normalidad: tabla por columna (Jarque-Bera / D'Agostino / Shapiro), pagina sola. El scatter coloreado y los titulos LLM no estan en el TableProfile, asi que el capitulo los toma de ctx (cluster_projection precomputado, o raw_numeric para calcular project_clusters_2d en vivo, o cluster_titles/run_cluster_llm para el micro-analisis), igual que overview lee head_rows; degrada honesto con una Note cuando faltan. Devuelve None si el profile no trae bloque models renderizable. Tests self-contained (sin DuckDB/sklearn/LLM/red): golden PDF+PPTX, edges (profile None/vacio/insuficiente, kmeans sin proyeccion), anti-corte (tabla de normalidad de 40 columnas parte repitiendo cabecera sin perder ninguna). 8/8. Suite del nucleo render_automatic_eda_pdf/pptx sigue verde. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-30 14:57:43 +02:00
egutierrez	4de071f2f9	feat(eda): project_clusters_2d + describe_clusters_llm para el capitulo MODELOS project_clusters_2d (pura): PCA(2)+KMeans sobre el MISMO subset estandarizado, devolviendo proyeccion 2D y labels alineados por fila + centroides en espacio PCA + perfiles de cluster desestandarizados. Es la pieza que garantiza la alineacion points<->labels que pca_explained y kmeans_segments no cubren (estandarizan por separado y kmeans descarta los labels). Habilita el scatter PCA coloreado por cluster (MUST-8.1). describe_clusters_llm (impura): micro-analisis LLM de los clusters en una sola llamada a ask_llm (grupo claude-direct), devuelve titulo + descripcion por cluster con degradacion dict-no-throw a titulos genericos si el LLM no responde (MUST-8.2). Ambas re-exportadas en datascience/__init__.py. Tests: 6/6 y 9/9 (sin red). Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-30 14:57:27 +02:00
egutierrez	fcf5a4c6a3	feat(eda): build_boxplot_stats — estadísticas de boxplot Tukey desde sub-bloque numeric Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-30 14:54:49 +02:00
egutierrez	9cdde4a341	feat(eda): núcleo AutomaticEDA — documento por capítulos + renderers PDF/PPTX anti-corte Introduce la capa intermedia entre el contenido de un EDA y su formato de salida. Un documento es una lista de capítulos versionados; cada capítulo es un conjunto ordenado de bloques (heading, markdown, kv_table, data_table, figure, image, caption, note) independientes del formato. Núcleo (paquete de soporte python/functions/datascience/automatic_eda/): - model.py: dataclasses de bloques + Chapter, normalizadores defensivos (aceptan dataclass o dict, nunca lanzan), ENGINE_VERSION y el manifiesto por capítulo (automatic_eda_manifest.json). - text_layout.py: medición/wrapping por rejilla de caracteres compartida. - chapters_registry.py: CHAPTER_ORDER pre-declarado + build_document con auto-discovery de capítulos por convención (permite añadir capítulos en paralelo sin editar el registro). - render_pdf_impl.py: paginador A5 retrato móvil que MIDE cada bloque y nunca corta: texto a líneas completas, tablas largas partidas por filas repitiendo cabecera, figuras/imágenes escaladas para caber enteras. Pie versionado por capítulo. - render_pptx_impl.py: mismo principio sobre slides 16:9 (continúa en slide "(cont.)"; tablas repiten cabecera; figuras exportadas a PNG escaladas). - chapters/portada.py y chapters/overview.py: capítulos de referencia. Portada con nombre, rótulo Automatic-EDA, fuente, almacenamiento (inferido de source), fecha europea, filas×cols, descripción, granularidad y calidad con criterios. Overview con df.head (placeholder honesto si falta head_rows), diccionario de columnas (tipo/nulos/ejemplos) y describe numérico. Funciones públicas del registry (grupo eda, dict-no-throw): - render_automatic_eda_pdf / render_automatic_eda_pptx: aceptan capítulos o un TableProfile (construyen los capítulos con build_document) y escriben el manifiesto. Aditivas — no reemplazan render_eda_pdf. Tests self-contained (sin DuckDB) para ambos renderers: golden (portada + overview), partición de tablas largas repitiendo cabecera, no-corte de celdas y markdown largos, profile None/{} válido de 1 página/slide, y error path en directorio no escribible. 23 tests verdes (incluye los previos de render_eda_pdf, intactos). Dependencia nueva python-pptx>=1.0.2 declarada en python/pyproject.toml. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-30 14:30:31 +02:00
Egutierrez	e142ef026d	fix(eda): hallazgos de comportamiento del benchmark (H2,H3,H6,H7,H8,H10,H11) Ronda 4 (verificada con re-corrida sobre los datasets afectados): - H2: stl_decompose deriva periodo de la frecuencia del indice (seattle period=365 seasonal_strength=0.84; fin del period=2 espurio) - H3+H10: infer_fk por senal de nombre (<X>Id->X.<X>Id) + excluir no-clave -> chinook 111->9 FK, todas reales, cero absurdas, 16-27x mas rapido; base intacta (flag off->111) - H6: association no computa eta2 si cardinalidad~=n (Ticket-Fare espurio fuera) - H7: id secuencial monotono excluido de correlacion y PCA/KMeans (PassengerId fuera) - H8: correlacion de series no estacionarias marcada espuria / sobre retornos - H11: distribution_type usa modos/cardinalidad/normalidad (quality->discrete) - 66 tests verdes Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-29 06:37:47 +02:00
Egutierrez	c4cff5ed5b	feat(eda): render de models en markdown + PDF DB-level para profile_database (H4,H9) - H4: render_eda_markdown anade seccion Modelos (PCA/KMeans/normalidad/outliers); render_eda_pdf formatea models/series/caveats como tablas (no str(dict) crudo) - H9: profile_database gana flag emit_pdf -> PDF movil DB-level (resumen tablas + join graph) via render_eda_pdf_relational; clave report_pdf_path - aditivos y retrocompatibles (flags default False). 38 tests verdes Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-29 04:05:38 +02:00
Egutierrez	caf8c25d99	fix(eda): bugs de bajo riesgo del benchmark (H1,H5,H12,H13,H14) + tests faltantes - H1: render_eda_markdown ya no aplica doble x100 a outlier_pct (336% -> real) - H5: profile_database filtra base_tables_only (excluye VIEWs; sakila 21->16) - H12: suggest_reexpression salta columnas no-continuas - H13: to_returns/profile_table elige retornos (financiera) vs diferencias (fisica) - H14: test de regresion ATTACH sqlite via information_schema - +8 tests de las funciones eda nuevas (acf_pacf, adf_kpss, ...). 77 tests verdes - L/M (H2,H3,H4,H6,H7,H8,H9,H10,H11) quedan en issues 0174-0177 para revision Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-29 03:51:11 +02:00
Egutierrez	7ac69ab4fb	feat(eda): series temporales + rigor anti-data-mining + PDF movil + /eda + benchmark issues Bloque del grupo eda (sesion ausente EDA-benchmark): - 8 funciones nuevas: adf_kpss_stationarity, acf_pacf, stl_decompose, to_returns, fdr_correction, suggest_reexpression, exploratory_caveats, render_eda_pdf - integracion: profile_table (run_series, emit_pdf), association_matrix (FDR Benjamini-Hochberg), render_eda_markdown (secciones series/reexpresion/caveats) - slash commands /eda y /capitulos - issues 0173-0177: mejoras del /eda derivadas del benchmark sobre 12 datasets reales (outlier_pct x100, periodo estacional, FK inference, render models, tipos id-like) Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-29 03:34:01 +02:00
egutierrez	02301aaed3	feat(datascience): auto-commit con 5 cambios Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-06-28 18:16:24 +02:00
egutierrez	6cc90558d4	feat(gamedev-2d): pipeline walk_cycle_oneshot — personaje andando en pixel-art animado Promueve el caso 1 del report 0217 (animacion de sprites de personaje) a un pipeline one-shot: de un prompt de personaje a un sprite sheet + GIF/WEBP en loop, frame-by-frame dirigido por pose (ControlNet OpenPose + seed fija + Rembg) con cada frame pixelizado a NxN RGBA. Nuevas funciones reutilizables (issue 0087, crecimiento por composicion): - comfyui_walk_cycle_oneshot (pipeline): orquesta poses -> generacion -> pixelizado -> ensamblado. No-throw, salta frames que fallan. Modo openpose (esqueletos reales) con fallback prompt-pose. - render_openpose_walk_skeletons: dibuja N esqueletos OpenPose COCO-18 del walk cycle (el insumo que el report 0217 marco como faltante). - comfyui_pixelize_sprite_png: PNG existente -> NxN RGBA pixel-art real (compone crop_to_content + pixeloe_downscale + comfyui_pixelize_image). - assemble_animated_sprite: frames RGBA -> sprite sheet horizontal + WEBP/GIF loop. - comfyui_build_walk_cycle_workflow (pura): grafo API del workflow animado para la UI (ControlNet OpenPose -> KSampler xN seed fija -> ImageBatch -> Rembg -> SaveAnimatedWEBP). Verificado en GPU: GIF/WEBP de caballero andando, 4 frames 32x32 (y 64x64) RGBA con fondo transparente y 16 colores, identidad de silueta consistente, piernas que cambian. Metodo de poses usado: OpenPose real (sin fallback). Evidencia en report 0221. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-28 18:14:46 +02:00
egutierrez	36a725ba10	feat(ml): auto-commit con 4 cambios Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-06-28 16:02:08 +02:00
egutierrez	1dd6c889e5	tune(comfyui): crop_to_content pad_ratio 0.06->0.02 — sprite llena más el frame	2026-06-28 16:02:02 +02:00
egutierrez	7aaac44a49	test(comfyui): reubicar tests del sprite-fix a tests/	2026-06-28 16:00:20 +02:00
egutierrez	c79f33265e	fix(comfyui): pixelart_real_oneshot — sprite llena el frame + fondo transparente Arregla los dos defectos reportados del pipeline comfyui_pixelart_real_oneshot: el sujeto salía diminuto respecto al frame y siempre traía fondo (sin opción de transparencia). Causa raíz: comfyui_pixelize_image hacía convert("RGB") y descartaba el alpha; comfyui_build_pixelart_workflow no inyectaba rembg (a diferencia de sus hermanos item_icon/enemy_creature); y no había ningún paso de auto-crop al contenido. Orden correcto del pipeline ahora: generar (rembg) -> autocrop al bbox + cuadrar -> downscale (alpha aparte por PixelOE) -> cuantización alpha-aware -> PNG RGBA transparente. Piezas: - comfyui_pixelize_image (1.1.0): keep_alpha/alpha_threshold. Con RGBA cuantiza solo el RGB (fondo transparente relleno con la moda del sujeto, fuera de la paleta) y preserva/binariza el alpha aparte. RGB sin alpha intacto. - crop_to_content (NUEVA, pura PIL): bbox del contenido (alpha o diff-fondo) -> recorta -> margen -> cuadra centrando. No-throw; imagen vacía -> copia intacta. - comfyui_build_pixelart_workflow (1.1.0): transparent=True + rembg_model. Inyecta nodo Image Rembg tras VAEDecode (patrón de item_icon). - comfyui_pixelart_real_oneshot (1.1.0): transparent + autocrop + crop_pad_ratio + rembg_model. Recombina el alpha aparte tras PixelOE (trabaja en RGB). Campos nuevos: has_alpha, autocrop_applied. Verificado en GPU (knight 64px): RGBA con 4 esquinas alpha==0, contenido cubre 88% del frame (antes 48%), 16 colores, 64x64. 32 tests offline en verde. Report: reports/0218-2026-06-28-pixelart-sprite-fix.md Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-28 15:59:26 +02:00
egutierrez	31c2f6ac7f	test(comfyui): reubicar test de pixeloe_downscale a tests/	2026-06-28 15:27:13 +02:00
egutierrez	ccdd529bdc	feat(comfyui): pipeline comfyui_pixelart_real_oneshot — pixelart REAL (PixelOE + cuantizacion dura) Materializa el metodo ganador del report 0215: generar a alta-res con SDXL + LoRA SDXL_pixel-art, downscale contrast-aware con PixelOE (engine=pixeloe para sprites/personajes) o nearest (tiles), y cuantizacion dura con comfyui_pixelize_image (16 colores libres o paleta fija pico-8/nes/game-boy). - pixeloe_downscale_py_ml: downscale contrast-aware via lib pixeloe con bridge de interprete (la lib vive en el venv de ComfyUI, no en el del registry). No-throw, fallback limpio si pixeloe no disponible. - comfyui_pixelart_real_oneshot_py_pipelines: one-shot que compone build_pixelart + submit + wait + fetch + pixeloe_downscale + pixelize_image. Fallback automatico pixeloe->nearest. Sweet-spot 64px personajes, 32px iconos. Verificado por PIL: personaje 64x64=16 colores, icono 32x32=16 colores (vs ~33k de la imagen de difusion cruda). 100% grid duro + outline nitido. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-28 15:24:15 +02:00
Egutierrez	8e9e1e6c8a	feat(comfyui): pipeline comfyui_generate_until_quality (loop evaluator-optimizer) Loop tipo GAN sin entrenar: genera con un builder del registry, juzga con el panel multi-juez (comfyui_judge_image) y, si no alcanza el umbral, refina (nueva seed, mas steps/cfg, prompt corregido con el feedback del juez via ask_llm) y regenera hasta converger (verdict 'good') o agotar max_iters. Devuelve siempre la mejor candidata por score (best-of-N), nunca lanza excepcion cruda. Compone comfyui_submit_workflow + comfyui_wait_result + comfyui_fetch_output_image + comfyui_judge_image + ask_llm. Filtra kwargs por inspect.signature para ser robusto entre builders. Caso HUD verificado: itera iter0 bad -> iter1 good. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-28 15:01:37 +02:00
egutierrez	b173ac2703	merge(comfyui): higiene capability pages (drift conteos + styles + audio/templates + build_flux + parallax)	2026-06-28 07:34:02 +02:00
egutierrez	5280499df5	merge(comfyui): tests offline para 16 builders puros (376 tests verdes) + tested:true	2026-06-28 07:32:15 +02:00
egutierrez	346f859b86	test(comfyui): tests offline para 15 builders/funciones puras sin test Cubre 15 funciones del grupo comfyui (+ las 4 de comfyui-judge) que no tenian test, con tests offline (sin red, sin GPU, sin servidor ComfyUI): - 5 builders puros gamedev-2d: build_asset_variant, build_directional_sprite, build_inpaint_asset, build_outpaint_asset, build_sprite_from_sketch (estructura del workflow en API format + cableado + determinismo + error paths). - 3 impuras offline via PIL/stdlib: build_grid, flatten_alpha_on_color, read_png_metadata (PNGs reales en tmp, error paths). - 4 de comfyui-judge: score_aesthetic y score_clip_alignment por sus guards previos al subproceso torch; judge_image (panel) y critique_image_llm con la dependencia pesada monkeypatcheada. - 3 que componen otras funciones: resolve_workflow_deps, import_workflow_json, extract_recipe_from_png (dependencia de red monkeypatcheada o fallback offline). Cada .md actualizado con tested: true + test_file_path + tests. Cobertura del grupo comfyui (tag plano): 79 -> 90 con test (47 -> 36 sin). comfyui-judge: 0/4 -> 4/4. pytest: 101 passed; carpeta ml/tests: 376 passed. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-28 07:30:59 +02:00
egutierrez	604d3d4feb	docs(comfyui): higiene de capability pages — drift 29→126 + styles + build_flux + parallax - comfyui.md: bloque de tamaño real del grupo (126 funciones tag comfyui: 63 puras, 50 impuras, 13 pipelines) con punteros a los sub-grupos (comfyui-skill, comfyui-styles, comfyui-judge, gamedev-2d). Corrige la firma corta de build_flux (variant/steps=None/ weight_dtype='default' + camino custom-advanced) que arrastraba drift del report 0205. Añade sección Styles con las 5 funciones del sub-grupo. - comfyui-styles.md (NUEVA): página madre del sub-grupo de estilo (catálogo WAS + style presets gamedev), tabla de las 5 funciones, ejemplos canónicos alineados con los retornos reales y fronteras. - comfyui-overview.md: añade audio (05b) y styles (04b) al mapa cross-grupo y a la tabla resumen; referencia las nuevas páginas madre comfyui-styles y gamedev-2d. - INDEX.md: comfyui 29→126 con descripción actualizada; nueva fila comfyui-styles. - comfyui_build_parallax_background_workflow.md: añade sección ## Ejemplo lanzable (el indexer extrae example del cuerpo, no del frontmatter) — cobertura del grupo pasa a 126/126 con ejemplo. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-28 07:27:32 +02:00
egutierrez	f8793f96ac	fix(comfyui): firmas sin keyword-only para que fn run las despache El generador de runner de fn run (cmd/fn/pyrunner.go::generatePyRunner) parsea la signature de la funcion desde el frontmatter del .md y emite `<param> = _args[i]` por cada parametro posicional. Cuando la firma es keyword-only (`def f(, ...)`), el `` se trata como un nombre de parametro y genera la linea invalida `* = _args[0]`, que rompe el runner con `SyntaxError: invalid syntax` antes de ejecutar la funcion. Se quita el separador keyword-only (`,`) de la firma — tanto en la `def` del .py como en el campo `signature:` del .md (la fuente que lee el indexer y el runner) — convirtiendo los parametros keyword-only en parametros normales con su mismo default. No cambia nombres, defaults ni comportamiento: las llamadas con keyword siguen siendo validas. Afecta a 5 funciones detectadas en el report 0208 §3.3, todas con SyntaxError reproducido via `fn run <id>`: - comfyui_fetch_civitai_image_meta - comfyui_load_skill - comfyui_save_skill - comfyui_import_workflow_png - comfyui_list_skills Se completa ademas el fix de comfyui_interrupt_queue: el commit `643ebfb8` quito el `,` del .py pero dejo el `*,` en el campo `signature:` del .md, que es justo lo que lee el runner — por eso `fn run comfyui_interrupt_queue` seguia fallando. Aqui se corrige el .md. Verificado: tras el cambio las 6 despachan sin SyntaxError (las 4 con primer arg requerido devuelven el `missing required arg` esperado del runner; list_skills e interrupt_queue ejecutan `ok:true`). Tests existentes verdes (comfyui_fetch_civitai_image_meta_test.py + tests/test_comfyui_interrupt_queue.py: 8 passed). Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-28 07:23:59 +02:00
egutierrez	643ebfb849	fix(comfyui): comfyui_interrupt_queue firma sin keyword-only para que fn run la despache	2026-06-28 04:55:39 +02:00
egutierrez	ca07b25297	feat(comfyui): comfyui_interrupt_queue v1.1.0 — clear_pending + cleared/queue_remaining + tests Alinea la funcion al contrato de control de cola (punto 3 del roadmap ComfyUI): - firma keyword-only: clear_pending (vacia pendientes con POST /queue {clear:true}) + timeout - output {ok, interrupted, cleared, queue_remaining, error}; GET /queue al final - no lanza en fallo de red: degrada a {ok:False, error} - test con mock HTTP local (golden + clear + cola vacia + error path), 4/4 verde - .md autosuficiente con gotchas + capability growth log Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-28 04:54:14 +02:00
egutierrez	7d33b39859	docs(comfyui): consolidar las 5 funciones nuevas del grupo (tests + capability page) Higiene del grupo comfyui sobre las 5 funciones de la sesión: comfyui_build_audio_workflow, comfyui_fetch_output_audio, comfyui_build_flux_workflow, comfyui_list_templates, comfyui_extract_template. - Tests nuevos para list_templates y extract_template (lógica pura: localización del intérprete, error-path sin el paquete instalado, contrato del dict; golden condicional con skip si no hay ComfyUI con comfyui-workflow-templates). 10 tests, todos verdes. - comfyui_list_templates.md / comfyui_extract_template.md: tested true + tests + test_file_path. - Fix drift de test_file_path en comfyui_fetch_output_audio.md (apuntaba a un _test.py inexistente; corregido a tests/test_.py). Elimina el WARN de fn index. - docs/capabilities/comfyui.md: subsecciones Audio (ACE-Step) y Templates oficiales. - docs/capabilities/comfyui-overview.md: sección 05b audio, fetch_output_audio en Outputs, Templates oficiales en Workflows I/O. (flux ya estaba documentada.) fn index limpio (las 5 sin WARN); sin drift nuevo en fn doctor uses-functions. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-28 04:46:47 +02:00
egutierrez	a1074d32e7	fix(test): corregir sys.path del test de comfyui_fetch_output_audio	2026-06-27 20:51:09 +02:00

1 2 3 4 5

214 Commits