T

egutierrez 105e56cf05 feat(eda): capítulo text_distr (TEXTO/NLP) — primer capítulo de datos no tabulares

Añade el capítulo `text_distr` al motor AutomaticEDA: perfila columnas de texto
libre largo (reseñas, descripciones, comentarios) que la distribución categórica
no resume bien. Sigue el patrón de cat_distr/num_distr (build_text_distr(profile,
ctx) -> Chapter | None) y se registra en CHAPTER_ORDER tras cat_distr.

Activación en dos fases: gate barato desde el perfil (columna no numérica con
len_mean >= 50 chars) + confirmación con muestra cruda (mediana de palabras >= 20).
Un dataset sin texto largo (p.ej. titanic) devuelve None sin tocar el informe.

Bloques por columna (Group con page_break): resumen (longitudes, vocabulario con
TTR y % hapax, idioma dominante, % duplicados, legibilidad), histograma de
longitudes, top términos (tabla + barras), bigramas/trigramas, idiomas detectados
y nube de palabras opcional. Términos ttr/hapax enganchados al glosario clicable.

Lógica delegada a 7 funciones nuevas del registry (datascience, tag eda),
estilo dict-no-throw:
- extract_text_sample (impura, push-down SQL DuckDB/Postgres)
- compute_text_length_stats, compute_vocabulary_stats, compute_top_ngrams (puras, stdlib)
- detect_corpus_language (langdetect opcional), compute_text_readability (textstat
  opcional), compute_text_duplicates (hash + datasketch opcional)

Versión barata sin modelos pesados: las piezas que dependen de una librería
opcional (langdetect, textstat, wordcloud, datasketch) degradan a omitidas sin
lanzar. Añade langdetect y textstat (ligeras) al pyproject + uv.lock.

Verificado: golden sobre dataset de reviews multi-idioma (capítulo presente en
PDF+PPTX+MD con métricas reales), titanic sin capítulo (None), degradación sin
libs, suite automatic_eda + pipeline verde (128 passed), fn index OK.

Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>

2026-06-30 20:38:17 +02:00

.claude

feat(eda): profile_level (lite/standard/full) en render_automatic_eda

2026-06-30 18:20:17 +02:00

.jupyter

feat(cybersecurity): auto-commit con 48 cambios

2026-06-04 23:44:39 +02:00

analysis

feat: externalize apps/analysis to Gitea repos, add analysis table

2026-04-01 04:23:51 +02:00

apps

chore: untrack apps/auto_metabase (lives in its own repo dataforge/auto_metabase)

2026-04-13 14:28:26 +02:00

bash/functions

fix(fleetclaude): reusar contexto dentro de la flota tmux en vez de abrir kitty nueva

2026-06-30 17:56:41 +02:00

cmd

chore: avance acumulado de sesiones previas (reorg dev/issues + ajustes)

2026-06-30 14:43:51 +02:00

cpp

docs(capabilities): unifica tag gamedev en gamedev-2d + separa gamedev-engine

2026-06-27 02:40:50 +02:00

dev

chore: avance acumulado de sesiones previas (reorg dev/issues + ajustes)

2026-06-30 14:43:51 +02:00

docs

feat(eda): motor AutomaticEDA fase 4a — render fixes + keep-together + glosario clicable

2026-06-30 17:35:19 +02:00

emsdk @ bafd64c26b

feat(kotlin-compose): design system + 33 components + gallery_kt + e2e android emulator + scaffolder fixes

2026-05-11 16:28:50 +02:00

fn_operations

chore: auto-commit (799 archivos)

2026-05-14 00:28:20 +02:00

frontend

feat(registry): add playwright capability group (6 TS browser fns)

2026-05-14 12:57:30 +02:00

functions

feat(infra): exponer pane_id (%N) estable en el JSON de la flota

2026-06-21 21:19:55 +02:00

kotlin

feat(kotlin-compose): design system fn.compose:ui + toolbelt android Linux-first

2026-06-04 23:43:59 +02:00

logs

chore: auto-commit (1 archivos)

2026-06-29 11:05:00 +02:00

modules

chore: auto-commit (43 archivos)

2026-05-30 17:28:47 +02:00

powershell/functions/infra

chore: auto-commit (799 archivos)

2026-05-14 00:28:20 +02:00

projects

feat(infra): auto-commit con 88 cambios

2026-06-11 00:16:46 +02:00

python

feat(eda): capítulo text_distr (TEXTO/NLP) — primer capítulo de datos no tabulares

2026-06-30 20:38:17 +02:00

registry

chore: auto-commit (43 archivos)

2026-05-30 17:28:47 +02:00

reports

feat(browser): auto-commit con 60 cambios

2026-06-07 11:42:31 +02:00

scratchpad/pipeline3d

chore: auto-commit (61 archivos)

2026-06-24 00:30:30 +02:00

sources

chore: auto-commit (43 archivos)

2026-05-30 17:28:47 +02:00

types

feat(infra): modelo de datos del meta-orquestador de flota (flow 0012)

2026-06-20 19:51:11 +02:00

vaults

docs: regla projects, estructura projects/vaults, registry.db

2026-04-13 01:17:25 +02:00

.gitignore

chore: untrack gitlinks fantasma cpp/apps/{chart_demo,shaders_lab}

2026-06-23 20:24:17 +02:00

.gitmodules

chore: submodulos C++ en modo shallow (depth 1)

2026-06-03 00:46:11 +02:00

.jupyter_ystore.db

feat(cybersecurity): auto-commit con 48 cambios

2026-06-04 23:44:39 +02:00

.mcp.json

chore: auto-commit (2 archivos)

2026-06-27 20:43:03 +02:00

agents_dashboard.log

feat(infra): auto-commit con 86 cambios

2026-05-26 19:38:15 +02:00

altsnap_jitter_test.log

chore: auto-commit (286 archivos)

2026-05-16 16:33:22 +02:00

CHANGELOG.md

chore: snapshot WIP previo + flow 0008 + 7 sub-issues (0112-0119)

2026-05-18 18:17:08 +02:00

dag_engine_ui.log

chore: auto-commit (286 archivos)

2026-05-16 16:33:22 +02:00

dag_engine.db

feat(shell): auto-commit con 31 cambios

2026-06-14 23:55:16 +02:00

go.mod

feat(infra): grupo fleet-metrics — collect_host_metrics, format_prom_exposition, push_prom_remote, push_loki_stream, collect_battery_metrics + tipo PromSample (gopsutil; Android-safe: sin exec/pidfd, procesos via /proc)

2026-06-07 14:25:45 +02:00

go.sum

2026-06-07 14:25:45 +02:00

go.work.disabled-windows-build

feat(infra): auto-commit con 86 cambios

2026-05-26 19:38:15 +02:00

go.work.sum

feat(infra): auto-commit con 86 cambios

2026-05-26 19:38:15 +02:00

launcher.sh

feat: pipeline_launcher TUI para lanzar pipelines y registrar ejecuciones

2026-03-28 17:14:11 +01:00

odr_console.log

feat(infra): auto-commit con 11 cambios

2026-05-10 13:30:27 +02:00

registry_dashboard.log

chore: auto-commit (286 archivos)

2026-05-16 16:33:22 +02:00

docs/README.md

fn-registry — Schema de documentación

Registry personal de código con búsqueda FTS. Diseñado para composición funcional y agentes.

Archivos

functions.md — Schema de la tabla functions (incluye pipelines y componentes React)
types.md — Schema de la tabla types
integrity.md — Reglas de integridad y referencias cruzadas
architecture.md — Visión general del sistema
sync_setup.md — Vincular una PC al server registry.organic-machine.com (env vars, fn sync, troubleshooting)
adr/ — Architecture Decision Records: decisiones de diseño (qué se decidió y por qué)
../reports/ — Reportes de trabajo: artefacto local (entregable de una tarea: qué se hizo, cómo se verificó, gaps). Gitignored salvo .gitkeep, NO sube a Gitea ni se versiona (como los vaults). Convención en .claude/rules/reports.md. Decisión: ADR 0006

Tablas

Tabla	Descripción
`functions`	Funciones atómicas, pipelines y componentes React
`types`	Tipos algebraicos (product / sum)

kind: valores posibles

Valor	Descripción
`function`	Función atómica pura o impura
`pipeline`	Composición de funciones, siempre impura
`component`	Componente React, extiende el schema base

fn-registry schema v1.0

Languages

Python 51.6%

Go 18.5%

C++ 15.1%

Shell 8.2%

C 3.4%

Other 3.1%