Files
fn_registry/cpp/functions/datascience/beta_dist.md
T
egutierrez d76c831247 feat(cpp/datascience): CPU stats + MCMC primitives
Nuevo dominio cpp/functions/datascience con primitivas puras CPU para post-
proceso de samples Monte Carlo y diagnostico de cadenas MCMC. Diseñadas como
gemelas CPU de los kernels GPU (rng pareja con gpu_rng_glsl, MH 1D/ND con
mc_metropolis_hastings_gpu) para validar numericamente y para datasets
pequeños donde el dispatch GPU no compensa.

- rng: xoshiro256++ con uniform / normal (Box-Muller) / below (Lemire) /
  categorical. Determinista bit-exacto dado seed.
- stats_summary: sum (Kahan), mean, var/std (Welford one-pass), min, max,
  quantile / percentile (R type-7).
- autocorr: r(k), ACF, tau_int (Sokal) — diagnostico ACF y ESS.
- rhat_ess: Gelman-Rubin clasico y split + ESS basico (multi-chain).
- beta_dist: lgamma (Lanczos), beta_pdf, beta_cdf (continued fraction),
  beta_quantile, mean/var/std — para inferencia Beta-Binomial.
- drawdown: max_dd absoluto/pct + underwater series para sesiones
  simuladas y backtests.
- samples_to_grid_2d: binning 2D CPU para alimentar heatmap_cpp_viz /
  contour_cpp_viz desde samples (x[], y[]).
- metropolis_hastings: MH 1D y ND con target log-pdf como std::function
  (no normalizada).

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-05-04 11:52:26 +02:00

76 lines
3.2 KiB
Markdown

---
name: beta_dist
kind: function
lang: cpp
domain: datascience
version: "1.0.0"
purity: pure
signature: "double lgamma_lanczos(double x); double log_beta(double a, double b); double beta_pdf(double x, double a, double b); double beta_cdf(double x, double a, double b); double beta_quantile(double p, double a, double b); double beta_mean(double a, double b); double beta_variance(double a, double b); double beta_std(double a, double b)"
description: "Distribucion Beta(a,b) completa: log-Gamma (Lanczos), log B(a,b), pdf, cdf (incomplete beta via continued fraction), quantile (bisection), mean/var/std. Para inferencia Bayesiana Beta-Binomial (mcmc-bayes / mcmc-full)."
tags: [beta, distribution, bayesian, lgamma, incomplete_beta, datascience]
uses_functions: []
uses_types: []
returns: []
returns_optional: false
error_type: ""
imports: [cmath]
tested: false
tests: []
test_file_path: ""
file_path: "cpp/functions/datascience/beta_dist.cpp"
params:
- name: x
desc: "Soporte de la distribucion en [0, 1]. Fuera devuelve 0 (pdf) o se clamp (cdf)."
- name: a
desc: "Parametro alpha (>0)."
- name: b
desc: "Parametro beta (>0)."
- name: p
desc: "(quantile) Probabilidad en [0, 1]."
output: "Escalares double. Precision: lgamma ~1e-15, cdf ~1e-12, quantile ~1e-7. log_beta y beta_pdf computados en log-space para evitar overflow con a/b grandes."
---
# beta_dist
Pack completo para inferencia Beta-Binomial. Soporta los 3 calculadores Bayesianos del set (mcmc-bayes, mcmc-full, y el targetPDF de mcmc-lab si se cambia a Beta).
## Algoritmos
| Funcion | Algoritmo | Precision |
|---|---|---|
| `lgamma_lanczos` | Lanczos g=7, n=9 + reflection x<0.5 | ~1e-15 |
| `beta_pdf` | log-space exp((a-1)*log(x) + (b-1)*log(1-x) - log B) | full fp64 |
| `beta_cdf` | I_x(a,b) via continued fraction (NR 6.4) | ~1e-12 |
| `beta_quantile` | bisection (60 iter, tol 1e-7) | ~1e-7 |
| `beta_mean/var/std` | formulas cerradas | exacto modulo fp |
## Uso (Bayesian inference)
```cpp
// Posterior Beta(alpha + k, beta + n - k) tras k exitos en n trials con
// prior Beta(alpha, beta).
double a_post = alpha + k;
double b_post = beta + (n - k);
double map = (a_post - 1.0) / (a_post + b_post - 2.0); // moda
double mean = fn::ds::beta_mean(a_post, b_post);
double std = fn::ds::beta_std (a_post, b_post);
// CI 95% via quantiles
double lo = fn::ds::beta_quantile(0.025, a_post, b_post);
double hi = fn::ds::beta_quantile(0.975, a_post, b_post);
// Densidad para plotear
for (int i = 0; i <= 100; ++i) {
double x = i / 100.0;
double y = fn::ds::beta_pdf(x, a_post, b_post);
// ... feed a line_plot
}
```
## Notas
- La continued fraction converge en <50 iteraciones para `a, b` razonables (<1000); para parametros muy grandes (>1e4) considerar regularized incomplete beta de la libreria estandar — pero `std::lgamma` no esta garantizado portable bit-exact entre toolchains, por eso esta implementacion es self-contained.
- `beta_quantile` es bisection puro: ~60 iter siempre, robusto pero no maximalmente eficiente. Newton encadenado a `beta_cdf` y `beta_pdf` daria 5-10 iter pero requiere care con los bordes.
- Para `a < 1` o `b < 1` la PDF tiene singularidades en los bordes — la implementacion devuelve 0 estrictamente fuera de (0,1) para evitar inf.