feat(captacion_clientes): scraping freelance en perfil headless dedicado, no chromium-personal
El monitor de captación scrapeaba Workana sobre el navegador personal del usuario (chromium-personal, CDP 9222), interfiriendo con su navegación. El scraping CDP debe correr siempre en un perfil headless dedicado. - Nuevo pipeline monitor_freelance_projects_headless: levanta un Chromium headless aislado con perfil dedicado (~/.config/fn_scrape_chrome, CDP 9334) vía systemd-run, ejecuta monitor_freelance_projects contra ese puerto y cierra la instancia al terminar (finally). Reutiliza el patrón de lifecycle de ingest_market_trends_headless. Reutiliza un CDP vivo si el puerto ya responde (no cierra lo ajeno). - scrape_workana_projects y monitor_freelance_projects: default de `port` cambiado de 9222 (chromium-personal) a 9334 (perfil dedicado). Default seguro: correr a pelo sin Chrome en 9334 falla limpio, no contamina el 9222 personal. Verificado: el wrapper arranca headless en 9334, scrapea 8 proyectos reales de Workana, cierra la instancia (9334 muerto, sin proceso colgado) y deja el 9222 personal intacto. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
This commit is contained in:
@@ -5,7 +5,7 @@ lang: py
|
||||
domain: pipelines
|
||||
version: "1.0.0"
|
||||
purity: impure
|
||||
signature: "def monitor_freelance_projects(category: str = 'it-programming', language: str = 'es', query: str = '', pages: int = 1, include_upwork: bool = False, upwork_query: str = 'custom software', duckdb_path: str = '', xlsx_path: str = '', port: int = 9222, timeout_s: float = 25.0) -> dict"
|
||||
signature: "def monitor_freelance_projects(category: str = 'it-programming', language: str = 'es', query: str = '', pages: int = 1, include_upwork: bool = False, upwork_query: str = 'custom software', duckdb_path: str = '', xlsx_path: str = '', port: int = 9334, timeout_s: float = 25.0) -> dict"
|
||||
description: "Monitor de captacion de clientes freelance: scrapea proyectos nuevos de Workana (+ Upwork opcional) via CDP, los persiste en DuckDB con dedup por url, marca los de software a medida y exporta a Excel (hojas Nuevos y Todos)."
|
||||
tags: [market-intel, recon, launcher, pipelines, freelance, workana, upwork, duckdb, excel]
|
||||
uses_functions:
|
||||
@@ -42,7 +42,7 @@ params:
|
||||
- name: xlsx_path
|
||||
desc: "Ruta del .xlsx de salida. Si vacia, usa ~/.fn_freelance/freelance_projects.xlsx (crea el directorio). Se sobrescribe en cada corrida."
|
||||
- name: port
|
||||
desc: "Puerto de remote debugging del Chrome que usan los scrapers (CDP). Default 9222 (chromium-personal logueado). Usa 9333 para el Chrome aislado del browser_mcp."
|
||||
desc: "Puerto de remote debugging del Chrome que usan los scrapers (CDP). Default 9334 (perfil headless dedicado del scraping). NUNCA 9222 por defecto: ese es el chromium-personal del usuario. Para la corrida programada usa el wrapper monitor_freelance_projects_headless (levanta el Chrome headless en 9334 y lo cierra). 9333 = Chrome aislado interactivo del browser_mcp."
|
||||
- name: timeout_s
|
||||
desc: "Timeout en segundos por pagina para los scrapers (navegacion + espera de cards). Default 25.0."
|
||||
output: "dict. En exito: {status:'ok', new_count:int (proyectos nuevos de esta corrida), total_in_db:int, new_projects:[...], xlsx_path:'<abs>', duckdb_path:'<abs>', sources:{workana:{count,status}, upwork:{count,status}|'skipped'}}. En error (sin lanzar): {status:'error', error:str, sources:{...}}."
|
||||
@@ -51,11 +51,14 @@ output: "dict. En exito: {status:'ok', new_count:int (proyectos nuevos de esta c
|
||||
## Ejemplo
|
||||
|
||||
```bash
|
||||
# Requiere un Chrome con remote debugging vivo en el puerto indicado.
|
||||
# Produccion (chromium-personal logueado, port 9222) con los paths por defecto:
|
||||
# Para la corrida programada usa el wrapper headless (levanta Chrome en 9334 y lo
|
||||
# cierra): fn run monitor_freelance_projects_headless. Este pipeline asume que YA hay
|
||||
# un Chrome con remote debugging vivo en `port`.
|
||||
|
||||
# Contra el perfil headless dedicado (port 9334 por defecto), paths por defecto:
|
||||
fn run monitor_freelance_projects
|
||||
|
||||
# Probar contra el Chrome aislado del browser_mcp (port 9333) con paths efimeros:
|
||||
# Probar contra el Chrome aislado interactivo del browser_mcp (port 9333), paths efimeros:
|
||||
fn run monitor_freelance_projects --port 9333 \
|
||||
--duckdb-path /tmp/freelance.duckdb --xlsx-path /tmp/freelance.xlsx
|
||||
```
|
||||
@@ -88,8 +91,10 @@ oportunidades nuevas.
|
||||
|
||||
- **Requiere un Chrome con CDP vivo en `port`**: los scrapers (Workana/Upwork son
|
||||
SPAs) renderizan via Chrome DevTools Protocol. Sin remote debugging escuchando en
|
||||
ese puerto el pipeline devuelve `status:'error'` con el detalle. Produccion = 9222
|
||||
(chromium-personal logueado); Chrome aislado = 9333 (browser_mcp).
|
||||
ese puerto el pipeline devuelve `status:'error'` con el detalle. Por defecto 9334
|
||||
(perfil headless dedicado, lo levanta/cierra `monitor_freelance_projects_headless`).
|
||||
NO usa 9222 (chromium-personal del usuario) por defecto. 9333 = browser_mcp para
|
||||
smoke interactivo.
|
||||
- **Upwork OFF por defecto**: sus selectores no estan validados en vivo (sin sesion
|
||||
Upwork). Con `include_upwork=True`, si Upwork devuelve `status:'error'` el pipeline
|
||||
loguea un WARN a stderr y sigue solo con Workana — nunca aborta por Upwork.
|
||||
|
||||
Reference in New Issue
Block a user