Files

T

egutierrez 07d06d5e7d feat(cpp/gfx): GPU compute primitives for Monte Carlo (G1-G7)

Stack base de compute shaders OpenGL 4.3 para cargas Monte Carlo intensivas
en GPU. Reutiliza el patron de graph_force_layout_gpu (SSBO + compute) y se
integra con el resto del registry sin nuevos simbolos en gl_loader (todo lo
que se necesita ya estaba expuesto).

- gpu_ssbo: lifecycle de Shader Storage Buffer Objects.
- gpu_compute_program: compila compute GLSL 4.3 con preamble inyectable
  (mismo pattern de gl_shader::compile_fragment).
- gpu_dispatch: dispatch_1d/2d/3d con ceil(N/local) automatico + barrier
  helpers (storage, uniform, image, buffer_update, all).
- gpu_rng_glsl: PCG32 GLSL (uniform/normal/below) + SplitMix64 seed walkers
  para sembrar deterministicamente N walkers desde un master seed.
- gpu_histogram_1d: SSBO float[N] -> uint[nbins] via atomicAdd.
- gpu_histogram_2d: SSBO float[2N] xy-interleaved -> uint[nx*ny] +
  to_density helper para alimentar heatmap_cpp_viz.
- gpu_reduce: workgroup-shared sum/min/max/mean (local 256, partials CPU).

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>

2026-05-04 11:52:08 +02:00

2.8 KiB

Raw Blame History

name, kind, lang, domain, version, purity, signature, description, tags, uses_functions, uses_types, returns, returns_optional, error_type, imports, tested, tests, test_file_path, file_path, framework, params, output

name

kind

lang

domain

version

purity

signature

description

tags

uses_functions

uses_types

returns

returns_optional

error_type

imports

tested

tests

test_file_path

file_path

framework

params

output

gpu_reduce

function

cpp

gfx

1.0.0

impure

GpuReduce gpu_reduce_create(int max_n_samples); float gpu_reduce_run(GpuReduce&, ReduceOp op, const Ssbo& samples, int count); float gpu_reduce_mean(GpuReduce&, const Ssbo& samples, int count); void gpu_reduce_destroy(GpuReduce&)

Reduccion paralela sobre SSBO float[]: sum, min, max, mean. Workgroup-shared tree reduction (local 256). Cada workgroup escribe un partial; reduccion final CPU-side sobre N/256 partials.

opengl

compute

reduce

parallel

gpu

gfx

gl_loader_cpp_gfx

gpu_ssbo_cpp_gfx

gpu_compute_program_cpp_gfx

gpu_dispatch_cpp_gfx

false

error_go_core

GL/gl.h

GL/glext.h

vector

algorithm

limits

false

cpp/functions/gfx/gpu_reduce.cpp

opengl

name	desc
max_n_samples	Cota maxima del N que se reducira. Dimensiona el SSBO de partials a ceil(N/256) floats.

name	desc
op	ReduceOp::Sum, Min o Max.

name	desc
samples	Ssbo float[count] (binding 0).

name	desc
count	Numero efectivo de elementos a reducir (<= max_n_samples).

Escalar reducido. Bloquea (incluye readback de los ~N/256 partials a CPU). Para N=10^6, partials = 4096 floats = 16 KB readback (microscopico).

gpu_reduce

Reduccion paralela GPU + finalizacion CPU. Util para metrics resumen sobre un SSBO de samples sin tener que leer todo el buffer a CPU.

Patron

auto r = fn::gfx::gpu_reduce_create(/*max_n=*/10'000'000);

// Tras un dispatch que llena samples_ssbo:
float total = fn::gfx::gpu_reduce_run(r, fn::gfx::ReduceOp::Sum,  samples, N);
float lo    = fn::gfx::gpu_reduce_run(r, fn::gfx::ReduceOp::Min,  samples, N);
float hi    = fn::gfx::gpu_reduce_run(r, fn::gfx::ReduceOp::Max,  samples, N);
float mean  = fn::gfx::gpu_reduce_mean(r, samples, N);

fn::gfx::gpu_reduce_destroy(r);

Performance

Workgroup-shared tree reduction: cada workgroup procesa 256 elementos en log2(256) = 8 pasos sobre shared memory (sin atomics). Para N = 10^7 son 39062 workgroups y readback de 39062 floats (152 KB) — total ~2 ms en RTX 3070.

Notas

El readback es sincrono. Si llamas multiples reduce sobre el mismo SSBO en sucesion (sum, min, max), cada uno cuesta el round-trip. Para metrics multiple-output considerar un kernel custom que las calcule en una sola pasada.
No incluye variance / std — depende de mean, asi que requiere dos passes. Implementarlo como funcion custom encima de este reduce.
count <= 0 o partials vacios devuelven identidad (Sum=0, Min=+inf, Max=-inf).
Para reducciones de uint (counts de histograma) este modulo no aplica — usar gpu_histogram_1d/2d que ya emiten counts directamente.

2.8 KiB Raw Blame History

gpu_reduce

Patron

Performance

Notas

2.8 KiB

Raw Blame History