docs(issues): plan enrichers asincronos + recoleccion web (0026-0030)
Cinco issues que componen el plan: - 0026: sistema de jobs (infra, contrato wire) - 0027: tipo Webpage + cache de documentos - 0028: enricher fetch_webpage (MVP end-to-end) - 0028b: enrichers extract_domain / extract_links / extract_text_entities - 0029: variantes CDP (Chrome headless, screenshot) - 0030: macro "Deep enrich" + expand_domain Tambien anade los issues previos 0012-0025 que estaban untracked. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
This commit is contained in:
@@ -0,0 +1,39 @@
|
||||
---
|
||||
id: 0019
|
||||
title: OCR de region de pantalla y archivos imagen
|
||||
status: pending
|
||||
priority: low
|
||||
created: 2026-05-01
|
||||
depends_on: [0012]
|
||||
---
|
||||
|
||||
## Objetivo
|
||||
|
||||
Capturar una region de pantalla (atajo global) o soltar imagen sobre la
|
||||
app (issue 0015) -> Tesseract / PaddleOCR -> texto -> `extract_graph_hybrid`.
|
||||
|
||||
Util cuando la fuente solo esta como captura, PDF escaneado, o pantalla
|
||||
de un sistema sin copy/paste.
|
||||
|
||||
## Alcance
|
||||
|
||||
- Captura: usar herramienta del SO (gnome-screenshot, flameshot, snipping
|
||||
tool) con flag de region. Linux primero, Windows con Snip & Sketch.
|
||||
- OCR: Tesseract con datos de espanol (`spa.traineddata`). PaddleOCR
|
||||
como alternativa para texto manuscrito o calidades bajas.
|
||||
- Pipeline: imagen -> OCR -> texto -> panel preview de 0013.
|
||||
|
||||
## Decisiones
|
||||
|
||||
- Atajo global configurable (default `Ctrl+Alt+G`).
|
||||
- Idiomas OCR como lista en settings (default `[spa, eng]`).
|
||||
- Persistir la imagen original como `metadata.source_image_path` en la
|
||||
entidad creada para trazabilidad.
|
||||
|
||||
## Definicion de hecho
|
||||
|
||||
- Atajo abre selector de region, capturo un parrafo en pantalla, en
|
||||
menos de 5 s veo entidades extraidas.
|
||||
- Suelto un PNG con texto sobre el canvas, mismo flujo (encadena con 0015).
|
||||
- Calidad de OCR para espanol > 90% en capturas estandar 1080p de texto
|
||||
impreso.
|
||||
Reference in New Issue
Block a user