Files
fn_registry/cpp/functions/datascience/beta_dist.md
T
egutierrez d76c831247 feat(cpp/datascience): CPU stats + MCMC primitives
Nuevo dominio cpp/functions/datascience con primitivas puras CPU para post-
proceso de samples Monte Carlo y diagnostico de cadenas MCMC. Diseñadas como
gemelas CPU de los kernels GPU (rng pareja con gpu_rng_glsl, MH 1D/ND con
mc_metropolis_hastings_gpu) para validar numericamente y para datasets
pequeños donde el dispatch GPU no compensa.

- rng: xoshiro256++ con uniform / normal (Box-Muller) / below (Lemire) /
  categorical. Determinista bit-exacto dado seed.
- stats_summary: sum (Kahan), mean, var/std (Welford one-pass), min, max,
  quantile / percentile (R type-7).
- autocorr: r(k), ACF, tau_int (Sokal) — diagnostico ACF y ESS.
- rhat_ess: Gelman-Rubin clasico y split + ESS basico (multi-chain).
- beta_dist: lgamma (Lanczos), beta_pdf, beta_cdf (continued fraction),
  beta_quantile, mean/var/std — para inferencia Beta-Binomial.
- drawdown: max_dd absoluto/pct + underwater series para sesiones
  simuladas y backtests.
- samples_to_grid_2d: binning 2D CPU para alimentar heatmap_cpp_viz /
  contour_cpp_viz desde samples (x[], y[]).
- metropolis_hastings: MH 1D y ND con target log-pdf como std::function
  (no normalizada).

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-05-04 11:52:26 +02:00

3.2 KiB

name, kind, lang, domain, version, purity, signature, description, tags, uses_functions, uses_types, returns, returns_optional, error_type, imports, tested, tests, test_file_path, file_path, params, output
name kind lang domain version purity signature description tags uses_functions uses_types returns returns_optional error_type imports tested tests test_file_path file_path params output
beta_dist function cpp datascience 1.0.0 pure double lgamma_lanczos(double x); double log_beta(double a, double b); double beta_pdf(double x, double a, double b); double beta_cdf(double x, double a, double b); double beta_quantile(double p, double a, double b); double beta_mean(double a, double b); double beta_variance(double a, double b); double beta_std(double a, double b) Distribucion Beta(a,b) completa: log-Gamma (Lanczos), log B(a,b), pdf, cdf (incomplete beta via continued fraction), quantile (bisection), mean/var/std. Para inferencia Bayesiana Beta-Binomial (mcmc-bayes / mcmc-full).
beta
distribution
bayesian
lgamma
incomplete_beta
datascience
false
cmath
false
cpp/functions/datascience/beta_dist.cpp
name desc
x Soporte de la distribucion en [0, 1]. Fuera devuelve 0 (pdf) o se clamp (cdf).
name desc
a Parametro alpha (>0).
name desc
b Parametro beta (>0).
name desc
p (quantile) Probabilidad en [0, 1].
Escalares double. Precision: lgamma ~1e-15, cdf ~1e-12, quantile ~1e-7. log_beta y beta_pdf computados en log-space para evitar overflow con a/b grandes.

beta_dist

Pack completo para inferencia Beta-Binomial. Soporta los 3 calculadores Bayesianos del set (mcmc-bayes, mcmc-full, y el targetPDF de mcmc-lab si se cambia a Beta).

Algoritmos

Funcion Algoritmo Precision
lgamma_lanczos Lanczos g=7, n=9 + reflection x<0.5 ~1e-15
beta_pdf log-space exp((a-1)*log(x) + (b-1)*log(1-x) - log B) full fp64
beta_cdf I_x(a,b) via continued fraction (NR 6.4) ~1e-12
beta_quantile bisection (60 iter, tol 1e-7) ~1e-7
beta_mean/var/std formulas cerradas exacto modulo fp

Uso (Bayesian inference)

// Posterior Beta(alpha + k, beta + n - k) tras k exitos en n trials con
// prior Beta(alpha, beta).
double a_post = alpha + k;
double b_post = beta  + (n - k);

double map  = (a_post - 1.0) / (a_post + b_post - 2.0);    // moda
double mean = fn::ds::beta_mean(a_post, b_post);
double std  = fn::ds::beta_std (a_post, b_post);

// CI 95% via quantiles
double lo = fn::ds::beta_quantile(0.025, a_post, b_post);
double hi = fn::ds::beta_quantile(0.975, a_post, b_post);

// Densidad para plotear
for (int i = 0; i <= 100; ++i) {
    double x = i / 100.0;
    double y = fn::ds::beta_pdf(x, a_post, b_post);
    // ... feed a line_plot
}

Notas

  • La continued fraction converge en <50 iteraciones para a, b razonables (<1000); para parametros muy grandes (>1e4) considerar regularized incomplete beta de la libreria estandar — pero std::lgamma no esta garantizado portable bit-exact entre toolchains, por eso esta implementacion es self-contained.
  • beta_quantile es bisection puro: ~60 iter siempre, robusto pero no maximalmente eficiente. Newton encadenado a beta_cdf y beta_pdf daria 5-10 iter pero requiere care con los bordes.
  • Para a < 1 o b < 1 la PDF tiene singularidades en los bordes — la implementacion devuelve 0 estrictamente fuera de (0,1) para evitar inf.