07d06d5e7d
Stack base de compute shaders OpenGL 4.3 para cargas Monte Carlo intensivas en GPU. Reutiliza el patron de graph_force_layout_gpu (SSBO + compute) y se integra con el resto del registry sin nuevos simbolos en gl_loader (todo lo que se necesita ya estaba expuesto). - gpu_ssbo: lifecycle de Shader Storage Buffer Objects. - gpu_compute_program: compila compute GLSL 4.3 con preamble inyectable (mismo pattern de gl_shader::compile_fragment). - gpu_dispatch: dispatch_1d/2d/3d con ceil(N/local) automatico + barrier helpers (storage, uniform, image, buffer_update, all). - gpu_rng_glsl: PCG32 GLSL (uniform/normal/below) + SplitMix64 seed walkers para sembrar deterministicamente N walkers desde un master seed. - gpu_histogram_1d: SSBO float[N] -> uint[nbins] via atomicAdd. - gpu_histogram_2d: SSBO float[2N] xy-interleaved -> uint[nx*ny] + to_density helper para alimentar heatmap_cpp_viz. - gpu_reduce: workgroup-shared sum/min/max/mean (local 256, partials CPU). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
62 lines
2.8 KiB
Markdown
62 lines
2.8 KiB
Markdown
---
|
|
name: gpu_reduce
|
|
kind: function
|
|
lang: cpp
|
|
domain: gfx
|
|
version: "1.0.0"
|
|
purity: impure
|
|
signature: "GpuReduce gpu_reduce_create(int max_n_samples); float gpu_reduce_run(GpuReduce&, ReduceOp op, const Ssbo& samples, int count); float gpu_reduce_mean(GpuReduce&, const Ssbo& samples, int count); void gpu_reduce_destroy(GpuReduce&)"
|
|
description: "Reduccion paralela sobre SSBO float[]: sum, min, max, mean. Workgroup-shared tree reduction (local 256). Cada workgroup escribe un partial; reduccion final CPU-side sobre N/256 partials."
|
|
tags: [opengl, compute, reduce, parallel, gpu, gfx]
|
|
uses_functions: ["gl_loader_cpp_gfx", "gpu_ssbo_cpp_gfx", "gpu_compute_program_cpp_gfx", "gpu_dispatch_cpp_gfx"]
|
|
uses_types: []
|
|
returns: []
|
|
returns_optional: false
|
|
error_type: "error_go_core"
|
|
imports: [GL/gl.h, GL/glext.h, vector, algorithm, limits]
|
|
tested: false
|
|
tests: []
|
|
test_file_path: ""
|
|
file_path: "cpp/functions/gfx/gpu_reduce.cpp"
|
|
framework: opengl
|
|
params:
|
|
- name: max_n_samples
|
|
desc: "Cota maxima del N que se reducira. Dimensiona el SSBO de partials a ceil(N/256) floats."
|
|
- name: op
|
|
desc: "ReduceOp::Sum, Min o Max."
|
|
- name: samples
|
|
desc: "Ssbo float[count] (binding 0)."
|
|
- name: count
|
|
desc: "Numero efectivo de elementos a reducir (<= max_n_samples)."
|
|
output: "Escalar reducido. Bloquea (incluye readback de los ~N/256 partials a CPU). Para N=10^6, partials = 4096 floats = 16 KB readback (microscopico)."
|
|
---
|
|
|
|
# gpu_reduce
|
|
|
|
Reduccion paralela GPU + finalizacion CPU. Util para metrics resumen sobre un SSBO de samples sin tener que leer todo el buffer a CPU.
|
|
|
|
## Patron
|
|
|
|
```cpp
|
|
auto r = fn::gfx::gpu_reduce_create(/*max_n=*/10'000'000);
|
|
|
|
// Tras un dispatch que llena samples_ssbo:
|
|
float total = fn::gfx::gpu_reduce_run(r, fn::gfx::ReduceOp::Sum, samples, N);
|
|
float lo = fn::gfx::gpu_reduce_run(r, fn::gfx::ReduceOp::Min, samples, N);
|
|
float hi = fn::gfx::gpu_reduce_run(r, fn::gfx::ReduceOp::Max, samples, N);
|
|
float mean = fn::gfx::gpu_reduce_mean(r, samples, N);
|
|
|
|
fn::gfx::gpu_reduce_destroy(r);
|
|
```
|
|
|
|
## Performance
|
|
|
|
Workgroup-shared tree reduction: cada workgroup procesa 256 elementos en `log2(256) = 8` pasos sobre shared memory (sin atomics). Para N = 10^7 son 39062 workgroups y readback de 39062 floats (152 KB) — total ~2 ms en RTX 3070.
|
|
|
|
## Notas
|
|
|
|
- El readback es sincrono. Si llamas multiples reduce sobre el mismo SSBO en sucesion (sum, min, max), cada uno cuesta el round-trip. Para metrics multiple-output considerar un kernel custom que las calcule en una sola pasada.
|
|
- No incluye variance / std — depende de mean, asi que requiere dos passes. Implementarlo como funcion custom encima de este reduce.
|
|
- `count <= 0` o partials vacios devuelven identidad (Sum=0, Min=+inf, Max=-inf).
|
|
- Para reducciones de uint (counts de histograma) este modulo no aplica — usar gpu_histogram_1d/2d que ya emiten counts directamente.
|