fix(eda): hallazgos de comportamiento del benchmark (H2,H3,H6,H7,H8,H10,H11)

Ronda 4 (verificada con re-corrida sobre los datasets afectados):
- H2: stl_decompose deriva periodo de la frecuencia del indice (seattle period=365
  seasonal_strength=0.84; fin del period=2 espurio)
- H3+H10: infer_fk por senal de nombre (<X>Id->X.<X>Id) + excluir no-clave -> chinook
  111->9 FK, todas reales, cero absurdas, 16-27x mas rapido; base intacta (flag off->111)
- H6: association no computa eta2 si cardinalidad~=n (Ticket-Fare espurio fuera)
- H7: id secuencial monotono excluido de correlacion y PCA/KMeans (PassengerId fuera)
- H8: correlacion de series no estacionarias marcada espuria / sobre retornos
- H11: distribution_type usa modos/cardinalidad/normalidad (quality->discrete)
- 66 tests verdes

Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
This commit is contained in:
Egutierrez
2026-06-29 06:37:47 +02:00
parent c4cff5ed5b
commit e142ef026d
12 changed files with 1028 additions and 36 deletions
@@ -70,3 +70,37 @@ def test_serie_larga_resume_sin_values():
assert res["trend"]["values"] is None
assert "mean" in res["trend"]
assert "note" in res["trend"]
# --- H2: deteccion de periodo robusta a tendencia (detrend) ------------------
def test_h2_infer_period_detrend_con_tendencia_fuerte():
# Golden: serie con tendencia FUERTE + estacionalidad de periodo 12. Sin detrend
# la autocorrelacion cruda decae monotonamente y el lag minimo (2) gana siempre
# (period=2 espurio). Con el detrend lineal el lag ganador es el periodo real.
from stl_decompose import _infer_period
serie = _serie_estacional(n=120, period=12, trend=0.8, amp=10.0, seed=0)
arr = np.asarray(serie, dtype=float)
assert _infer_period(arr, max_period=60) == 12
def test_h2_auto_period_no_degenera_a_2():
# End-to-end: stl_decompose(period=None) sobre serie con tendencia fuerte detecta
# estacionalidad real en vez de reportar period=2 y seasonal_strength ~ 0
# (el falso negativo de estacionalidad que motivo el fix H2).
serie = _serie_estacional(n=120, period=12, trend=0.8, amp=10.0, seed=0)
res = stl_decompose(serie)
assert res["period"] != 2
assert res["seasonal_strength"] > 0.5
def test_h2_serie_sin_estacionalidad_no_inventa_periodo():
# Edge: serie con SOLO tendencia (sin componente estacional) no debe inventar un
# periodo; tras el detrend el residuo es ruido sin pico de autocorrelacion claro.
rng = np.random.default_rng(7)
serie = [0.5 * i + rng.normal(0, 1) for i in range(120)]
res = stl_decompose(serie)
# Sin periodo fiable: nota explicita, nunca seasonal_strength=0 como conclusion.
assert res["trend_strength"] is None
assert "note" in res