fn_registry/functions/browser/cdp_get_html.md at 6bc97df5c0c6c4c74ae5ff08bee2ca3ed19251c8

Files

T

egutierrez 8742cb25be feat(browser): auto-commit con 60 cambios

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>

2026-06-07 11:42:31 +02:00

2.3 KiB

Raw Blame History

name, kind, lang, domain, version, purity, signature, description, tags, uses_functions, uses_types, returns, returns_optional, error_type, imports, params, output, tested, tests, test_file_path, file_path

name

kind

lang

domain

version

purity

signature

description

tags

uses_functions

uses_types

returns

returns_optional

error_type

imports

params

output

tested

tests

test_file_path

file_path

cdp_get_html

function

browser

1.0.0

impure

func CdpGetHTML(c *CDPConn) (string, error)

Retorna el HTML completo de la pagina actual (document.documentElement.outerHTML) via Runtime.evaluate. Captura el DOM vivo post-JavaScript, no el HTML fuente original.

chrome

cdp

browser

automation

html

dom

scraping

devtools

navegator

cdp_connect_go_browser

cdp_evaluate_go_browser

false

error_go_core

fmt

name	desc
c	conexión CDP activa

string: HTML completo de la página (post-JavaScript)

true

TestCdpGetHTML

functions/browser/chrome_launch_test.go

functions/browser/cdp_get_html.go

Ejemplo

conn, _ := CdpConnect(9222)
CdpNavigate(conn, "https://example.com")
CdpWaitElement(conn, "body", 5*time.Second)

html, err := CdpGetHTML(conn)
// html contiene el DOM completo con todos los cambios JS aplicados

Cuando usarla

Cuando necesites el HTML completo del DOM vivo (post-JavaScript) para parsear/extraer con un selector externo, guardar un snapshot fiel, o alimentar un parser HTML. Ideal para scraping de SPAs (React, Vue, Angular) donde el HTML fuente original está vacío.

Gotchas

Devuelve el HTML COMPLETO sin límite, a propósito: no trunca ni resume. En páginas complejas pueden ser cientos de KB. Esto es deliberado: su trabajo es dar el DOM íntegro para parsing fiel, no un resumen.
NO usar para alimentar un LLM directamente: el HTML crudo quema tokens y trae ruido (scripts, estilos inline, atributos). Para contexto de modelo usa cdp_get_text (innerText, con maxBytes opcional) o cdp_perceive_outline (outline accesible con #refs accionables). Reserva cdp_get_html para parsing programático.
Es el DOM actual, no el HTML fuente: incluye los cambios que el JavaScript haya aplicado hasta el instante de la llamada. Si la página sigue hidratando, espera con cdp_wait_idle antes.

Notas

A diferencia de Page.getResourceContent, esta funcion captura el estado actual del DOM incluyendo modificaciones hechas por JavaScript. Ideal para scraping de SPAs (React, Vue, Angular). El HTML retornado puede ser muy largo para paginas complejas.

2.3 KiB Raw Blame History

Ejemplo

Cuando usarla

Gotchas

Notas

2.3 KiB

Raw Blame History