c74fd4ae0d
Stack base de compute shaders OpenGL 4.3 para cargas Monte Carlo intensivas en GPU. Reutiliza el patron de graph_force_layout_gpu (SSBO + compute) y se integra con el resto del registry sin nuevos simbolos en gl_loader (todo lo que se necesita ya estaba expuesto). - gpu_ssbo: lifecycle de Shader Storage Buffer Objects. - gpu_compute_program: compila compute GLSL 4.3 con preamble inyectable (mismo pattern de gl_shader::compile_fragment). - gpu_dispatch: dispatch_1d/2d/3d con ceil(N/local) automatico + barrier helpers (storage, uniform, image, buffer_update, all). - gpu_rng_glsl: PCG32 GLSL (uniform/normal/below) + SplitMix64 seed walkers para sembrar deterministicamente N walkers desde un master seed. - gpu_histogram_1d: SSBO float[N] -> uint[nbins] via atomicAdd. - gpu_histogram_2d: SSBO float[2N] xy-interleaved -> uint[nx*ny] + to_density helper para alimentar heatmap_cpp_viz. - gpu_reduce: workgroup-shared sum/min/max/mean (local 256, partials CPU). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
3.2 KiB
3.2 KiB
name, kind, lang, domain, version, purity, signature, description, tags, uses_functions, uses_types, returns, returns_optional, error_type, imports, tested, tests, test_file_path, file_path, framework, params, output
| name | kind | lang | domain | version | purity | signature | description | tags | uses_functions | uses_types | returns | returns_optional | error_type | imports | tested | tests | test_file_path | file_path | framework | params | output | ||||||||||||||||||||||||||||||||||||||||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| gpu_dispatch | function | cpp | gfx | 1.0.0 | impure | void dispatch_1d(int num, int local=64); void dispatch_2d(int w, int h, int lx=8, int ly=8); void dispatch_3d(int x, int y, int z, int lx=4, int ly=4, int lz=4); void barrier_storage(); void barrier_uniform(); void barrier_image(); void barrier_buffer_update(); void barrier_all() | Wrappers de glDispatchCompute con calculo automatico de workgroups (ceil(N/local)) y helpers de glMemoryBarrier para los casos comunes (storage, uniform, image, buffer update, all). |
|
|
false | error_go_core |
|
false | cpp/functions/gfx/gpu_dispatch.cpp | opengl |
|
Emite glDispatchCompute con los grupos calculados. No-op si algun parametro <= 0. Las funciones barrier_* emiten glMemoryBarrier con la mascara apropiada. |
gpu_dispatch
Despacho de computes y memory barriers. Pensado para usarse despues de glUseProgram + ssbo_bind + sets de uniforms.
Patron tipico
glUseProgram(prog);
fn::gfx::ssbo_bind(samples, 0);
fn::gfx::ssbo_bind(seeds, 1);
glUniform1ui(loc_count, N);
fn::gfx::dispatch_1d(N, /*local=*/64);
fn::gfx::barrier_storage(); // siguiente compute leera samples
Encadenado de pases
// Pass 1: muestrear
glUseProgram(p_sample);
fn::gfx::dispatch_1d(N, 64);
fn::gfx::barrier_storage();
// Pass 2: binning a histograma
glUseProgram(p_hist);
fn::gfx::dispatch_1d(N, 64);
fn::gfx::barrier_buffer_update(); // antes de readback
// Readback a CPU
fn::gfx::ssbo_readback(hist, 0, M*sizeof(uint), host_hist);
Que barrier elegir
| Despues del compute, vas a... | Barrier |
|---|---|
| Otro compute que lee los SSBOs escritos | barrier_storage() |
| Renderizar leyendo uniforms | barrier_uniform() |
| Render que muestrea image2D escrito por compute | barrier_image() |
Llamar ssbo_readback o usar como vertex buffer |
barrier_buffer_update() |
| Estas debugeando y no sabes que paso | barrier_all() |
Notas
- El
local_size_*del wrapper DEBE coincidir con el del shader. Mantener ambos en una constantekLocalSizeevita drift. - Si
num_invocationsno es multiplo delocal_size_x, el shader debe hacer guardif (i >= u_count) return;para no procesar hilos sobrantes. - Limites tipicos en RTX 3070:
GL_MAX_COMPUTE_WORK_GROUP_COUNT= 2^31-1 por dim,GL_MAX_COMPUTE_WORK_GROUP_INVOCATIONS= 1024 (= local_xlocal_ylocal_z max).