a69d14d38e
Capítulo nuevo build_timeseries(profile, ctx) -> Chapter|None del motor AutomaticEDA. Cuando la tabla tiene columna de fecha/datetime, grafica la evolución de cada columna numérica por periodo (valor agregado + conteo de filas) y los paneles de descomposición STL y autocorrelación (ACF), con el análisis de la serie: estacionariedad (ADF+KPSS), autocorrelación (Ljung-Box), fuerzas de tendencia/estacionalidad (Hyndman) y la transformación sugerida (retornos o diferencias) para evitar correlaciones espurias. Sin columna temporal devuelve None. Consolida series OHLC casi idénticas en un único gráfico conservando el análisis de cada columna. La serie cruda llega por ctx['timeseries_raw'] (mismo patrón que modelos con raw_numeric); las figuras son perezosas (Figure.make) y el paginador del núcleo garantiza no-corte en PDF y PPTX. CHAPTER_VERSION 1.0.0. Cubre los MUST del diseño (report 2043): MUST-9.1 (línea valor-vs-tiempo + conteo por periodo), MUST-9.2 (paneles STL + ACF), MUST-9.3 (perfil datetime + consolidación OHLC). Funciones nuevas del registry (grupo eda), delegadas a fn-constructor, no inline: - detect_time_column (pure): detecta la columna temporal y las numéricas - profile_datetime (pure): rango/frecuencia/regularidad/huecos de la fecha - resample_timeseries (pure): agrega la serie por periodo + conteo - extract_timeseries_raw (impure): lee la serie cruda ordenada de DuckDB/PG Verificación: 69 tests verdes (capítulo 9 + funciones 28 + núcleo/renderers); golden real sobre seattle-weather (estacional) y aapl (OHLC) con PDF+PPTX sin cortar nada (cols_cortadas=[]). Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
4.7 KiB
4.7 KiB
name, kind, lang, domain, version, purity, signature, description, tags, uses_functions, uses_types, returns, returns_optional, error_type, imports, params, output, tested, tests, test_file_path, file_path
| name | kind | lang | domain | version | purity | signature | description | tags | uses_functions | uses_types | returns | returns_optional | error_type | imports | params | output | tested | tests | test_file_path | file_path | |||||||||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| profile_datetime | function | py | datascience | 1.0.0 | pure | def profile_datetime(values: list) -> dict | Perfil minimo de una columna fecha/datetime para la cabecera del capitulo TIMESERIES de AutomaticEDA. Acepta datetime.date, datetime.datetime y strings ISO mezclados, parsea defensivamente e ignora lo no parseable (nunca lanza). Devuelve rango (min/max ISO), n, n_distinct, span_days, frecuencia inferida (daily/weekly/monthly/quarterly/yearly/irregular/unknown) a partir del paso mediano entre fechas distintas, is_regular (pasos ~constantes), n_gaps (huecos en la rejilla) y median_step_days. Solo stdlib (datetime + statistics). |
|
false |
|
|
dict SIEMPRE presente con: 'min'/'max' (ISO date YYYY-MM-DD o None), 'n' (valores parseables), 'n_distinct' (fechas unicas), 'span_days' (float o None), 'freq' (daily|weekly|monthly|quarterly|yearly|irregular|unknown), 'is_regular' (bool), 'n_gaps' (int), 'median_step_days' (float o None) y 'note' (str). Con <2 valores o una sola fecha distinta: freq='unknown', is_regular=False, n_gaps=0, median_step_days=None y nota. Nunca lanza. | true |
|
python/functions/datascience/profile_datetime_test.py | python/functions/datascience/profile_datetime.py |
Ejemplo
from datascience import profile_datetime
from datetime import date, datetime, timedelta
# Serie diaria regular de 30 dias
fechas = [date(2021, 1, 1) + timedelta(days=i) for i in range(30)]
res = profile_datetime(fechas)
res["freq"] # -> "daily"
res["is_regular"] # -> True
res["n_gaps"] # -> 0
res["min"], res["max"] # -> ("2021-01-01", "2021-01-30")
res["span_days"] # -> 29.0
# Acepta strings ISO mezclados con objetos datetime/date; ignora lo no parseable
profile_datetime(["2021-06-28", datetime(2021, 6, 29, 12), "basura", None])["n"] # -> 2
# Columna vacia o sin fechas validas
profile_datetime([])["freq"] # -> "unknown" + note "datos insuficientes"
Cuando usarla
Cuando construyes la cabecera del capitulo TIMESERIES de un EDA y necesitas
caracterizar la columna de fecha antes de modelar: que rango cubre, cada cuanto
llegan los datos (frecuencia), si la cadencia es regular y si hay huecos en la
rejilla temporal. Es el complemento de fecha al perfil numerico/categorico del
TableProfile (cierra el datetime{}=None pendiente). Pasale la columna de fechas
en bruto (tal cual venga de la BD: dates, datetimes o strings ISO) y usa freq +
is_regular + n_gaps para decidir si conviene resamplear, rellenar huecos o
desestacionalizar mas adelante.
Gotchas
- Es pura y stdlib-only, pero la inferencia de
freqes heuristica por bandas sobre el paso mediano entre fechas distintas (se deduplica antes de medir). Cualquier paso fuera de las bandas conocidas (incluido sub-diario, p.ej. datos horarios) cae en"irregular": no hay banda hourly. - El analisis de frecuencia/regularidad/huecos necesita >=2 fechas distintas.
Con 0-1 valores parseables o una sola fecha unica,
freq="unknown",median_step_days=Noneyn_gaps=0, peromin/max/span_dayssiguen siendo coherentes si hay al menos una fecha. min/maxse reportan como ISO date (YYYY-MM-DD); la hora se conserva internamente para calcularspan_daysymedian_step_days(que pueden ser fraccionarios con datetimes sub-diarios) pero no aparece en min/max.- Los datetime con zona horaria se normalizan a naive (se descarta el tzinfo) para poder mezclarlos con fechas naive sin que las restas lancen; esto puede desplazar la fecha en datetimes con offset grande. Para EDA es despreciable.
is_regularusa tolerancia ±25% sobre el paso mediano y umbral del 80% de los pasos dentro de banda; series de "primero de mes" (deltas 28-31) salen regulares.n_gapssolo se calcula cuandofreqes una rejilla regular conocida; confreq"irregular"o"unknown"siempre es 0.