Files
egutierrez 9042110ea2 docs(issues): plan enrichers asincronos + recoleccion web (0026-0030)
Cinco issues que componen el plan:
- 0026: sistema de jobs (infra, contrato wire)
- 0027: tipo Webpage + cache de documentos
- 0028: enricher fetch_webpage (MVP end-to-end)
- 0028b: enrichers extract_domain / extract_links / extract_text_entities
- 0029: variantes CDP (Chrome headless, screenshot)
- 0030: macro "Deep enrich" + expand_domain

Tambien anade los issues previos 0012-0025 que estaban untracked.

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-05-01 18:24:13 +02:00

1.2 KiB

id, title, status, priority, created, depends_on
id title status priority created depends_on
0019 OCR de region de pantalla y archivos imagen pending low 2026-05-01
0012

Objetivo

Capturar una region de pantalla (atajo global) o soltar imagen sobre la app (issue 0015) -> Tesseract / PaddleOCR -> texto -> extract_graph_hybrid.

Util cuando la fuente solo esta como captura, PDF escaneado, o pantalla de un sistema sin copy/paste.

Alcance

  • Captura: usar herramienta del SO (gnome-screenshot, flameshot, snipping tool) con flag de region. Linux primero, Windows con Snip & Sketch.
  • OCR: Tesseract con datos de espanol (spa.traineddata). PaddleOCR como alternativa para texto manuscrito o calidades bajas.
  • Pipeline: imagen -> OCR -> texto -> panel preview de 0013.

Decisiones

  • Atajo global configurable (default Ctrl+Alt+G).
  • Idiomas OCR como lista en settings (default [spa, eng]).
  • Persistir la imagen original como metadata.source_image_path en la entidad creada para trazabilidad.

Definicion de hecho

  • Atajo abre selector de region, capturo un parrafo en pantalla, en menos de 5 s veo entidades extraidas.
  • Suelto un PNG con texto sobre el canvas, mismo flujo (encadena con 0015).
  • Calidad de OCR para espanol > 90% en capturas estandar 1080p de texto impreso.