Files
graph_explorer/app.md
T
egutierrez 5e6023f639 docs: issues 0041 (split thresholds) + 0042 (GLiNER2), supersedes mREBEL
Cierra el ciclo del analysis gliner_glirel_tuning: documenta en app.md el
pipeline NER+RE disponible en el registry y abre los dos issues que faltan
para cablearlo en extract_graph_hybrid + panel paste_extract. Archiva el
0042 original (mREBEL) tras la decision a favor de GLiNER2 (Apache 2.0,
joint NER+RE, 20-30x mas rapido en CPU).

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-05-05 10:07:43 +02:00

5.5 KiB

name, lang, domain, description, tags, uses_functions, uses_types, framework, entry_point, dir_path, repo_url, python_runtime, python_runtime_deps
name lang domain description tags uses_functions uses_types framework entry_point dir_path repo_url python_runtime python_runtime_deps
graph_explorer cpp viz Visor de grafos GPU-accelerated agnostico del backend. Lee operations.db de cualquier app del registry y permite explorar entidades/relaciones con shapes/iconos/layouts/filtros.
imgui
graph
osint
visualization
gpu
graph_renderer_cpp_viz
graph_force_layout_cpp_viz
graph_force_layout_gpu_cpp_viz
graph_layouts_cpp_viz
graph_viewport_cpp_viz
graph_viewport_selection_cpp_viz
graph_labels_cpp_viz
graph_labels_select_cpp_viz
graph_icons_cpp_viz
graph_sources_cpp_viz
graph_types_cpp_viz
graph_spatial_hash_cpp_core
button_cpp_core
icon_button_cpp_core
toolbar_cpp_core
modal_dialog_cpp_core
text_input_cpp_core
select_cpp_core
tree_view_cpp_core
page_header_cpp_core
fullscreen_window_cpp_core
badge_cpp_core
empty_state_cpp_core
extract_iocs_py_cybersecurity
extract_graph_hybrid_py_pipelines
imgui main.cpp projects/osint_graph/apps/graph_explorer https://gitea-dgg044oo04woo4ggcsws4gk0.organic-machine.com/dataforge/graph_explorer true
requests
certifi
urllib3
cryptography

Arquitectura

App C++ ImGui para explorar cualquier operations.db del registry como un grafo de entidades y relaciones. Agnostica del backend — el dispatcher en data.{h,cpp} selecciona el GraphLoadFn segun --input (hoy solo operations, manana json/jsonl/graphml).

Capas:

  • data.{h,cpp} — dispatcher de sources. Hoy unica implementacion: graph_load_from_operations (issue 0049g).
  • types_registry.{h,cpp} — parser minimo de YAML para sobrescribir color/shape/icon/style por nombre de tipo. Construye el IconAtlas con los codepoints Tabler resueltos por tabler_codepoint_by_name.
  • views.{h,cpp} — paneles Toolbar, Legend, Inspector, Stats. Toggle via AppConfig::panels.
  • main.cpp — CLI + fn::run_app + bucle de force layout (CPU/GPU) + glue.
  • graph_explorer.db — SQLite junto al exe. Tabla layouts(graph_hash, node_id, x, y, pinned, updated_at). Persistencia de posiciones por grafo.

CLI

graph_explorer [<operations.db>]
graph_explorer --input operations <path>
graph_explorer --types <yaml>
graph_explorer --layout force|grid|circular|radial|hierarchical|fixed
graph_explorer apps/registry_dashboard/operations.db
graph_explorer --types projects/osint_graph/apps/graph_explorer/examples/types.yaml \
               apps/element_agents/operations.db

Build

cd cpp
cmake -B build/linux -S .
cmake --build build/linux --target graph_explorer -j$(nproc)
./build/linux/apps/graph_explorer/graph_explorer apps/registry_dashboard/operations.db

Notas

  • Usa GPU layout si el contexto soporta compute 4.3; toggle CPU/GPU desde la toolbar. Fallback transparente a CPU si GPU no esta disponible.
  • 50k nodos a 60fps con layout GPU (medido en demos/graph en primitives_gallery).
  • operations.db se abre con mode=ro cuando el path no apunta al filesystem propio para evitar lock con otras apps que esten escribiendo.
  • El graph_hash se calcula a partir del path canonico del input. Mismo path = mismo grafo a efectos de layout guardado.

Pipeline NER+RE disponible en el registry (2026-05-04)

Tras la investigacion del analysis gliner_glirel_tuning (proyecto osint_graph), el stack completo de extraccion de entidades + relaciones desde texto / PDF esta listo como funciones del registry. Esto desbloquea los issues 0041 y 0042:

# Pipeline E2E recomendado (texto -> grafo)
from pipelines.extract_graph_from_text import extract_graph_from_text
from datascience.gliner2_load_model import gliner2_load_model

model = gliner2_load_model()  # Apache 2.0, NER+RE joint, 340M params
result = extract_graph_from_text(text, ENTITY_LABELS, RELATION_LABELS, ALLOWED, model)
# result = {'nodes': [...], 'edges': [...], 'stats': {...}}

Componentes (mira python/functions/{core,datascience,pipelines}/):

  • core (puras): clean_pdf_text, chunk_with_overlap, merge_entity_aliases, filter_relations_by_entity_types, aggregate_extraction_results.
  • datascience (impuras): gliner2_load_model, extract_graph_gliner2, spacy_es_load_model, extract_triples_spacy_es (OpenIE schema-less ES).
  • pipelines: extract_graph_from_text — composicion E2E.

Recetas validadas en notebooks 04-08 del analysis y vaultadas en vaults/osint_nlp_models/:

  • threshold=0.3 (vs default 0.5) para GLiNER2.
  • snake_case verbal labels (works_at, ceo_of...).
  • chunk_with_overlap para texto > 1500 chars.
  • filter_relations_by_entity_types para descartar Madrid president_of Persona.
  • merge_entity_aliases para fusionar BBVABanco Bilbao Vizcaya Argentaria, S.A..
  • spaCy ES dep-rules como capa OpenIE schema-less complementaria (predicado = verbo del texto).

Issues que desbloquea: issues/0041-split-confidence-thresholds.md y issues/0042-gliner2-unified-extractor.md. El registry tiene todas las funciones necesarias; solo falta cablearlas en extract_graph_hybrid_py_pipelines y el panel paste_extract.

Playground de referencia: projects/osint_graph/analysis/gliner_glirel_tuning/playground/ (FastAPI + Sigma.js, sirviendo en localhost:7878).