Retorna el HTML completo de la pagina actual (document.documentElement.outerHTML) via Runtime.evaluate. Captura el DOM vivo post-JavaScript, no el HTML fuente original.
chrome
cdp
browser
automation
html
dom
scraping
devtools
navegator
cdp_connect_go_browser
cdp_evaluate_go_browser
false
error_go_core
fmt
name
desc
c
conexión CDP activa
string: HTML completo de la página (post-JavaScript)
true
TestCdpGetHTML
functions/browser/chrome_launch_test.go
functions/browser/cdp_get_html.go
Ejemplo
conn,_:=CdpConnect(9222)CdpNavigate(conn,"https://example.com")CdpWaitElement(conn,"body",5*time.Second)html,err:=CdpGetHTML(conn)// html contiene el DOM completo con todos los cambios JS aplicados
Cuando usarla
Cuando necesites el HTML completo del DOM vivo (post-JavaScript) para parsear/extraer con un selector externo, guardar un snapshot fiel, o alimentar un parser HTML. Ideal para scraping de SPAs (React, Vue, Angular) donde el HTML fuente original está vacío.
Gotchas
Devuelve el HTML COMPLETO sin límite, a propósito: no trunca ni resume. En páginas complejas pueden ser cientos de KB. Esto es deliberado: su trabajo es dar el DOM íntegro para parsing fiel, no un resumen.
NO usar para alimentar un LLM directamente: el HTML crudo quema tokens y trae ruido (scripts, estilos inline, atributos). Para contexto de modelo usa cdp_get_text (innerText, con maxBytes opcional) o cdp_perceive_outline (outline accesible con #refs accionables). Reserva cdp_get_html para parsing programático.
Es el DOM actual, no el HTML fuente: incluye los cambios que el JavaScript haya aplicado hasta el instante de la llamada. Si la página sigue hidratando, espera con cdp_wait_idle antes.
Notas
A diferencia de Page.getResourceContent, esta funcion captura el estado actual del DOM incluyendo modificaciones hechas por JavaScript. Ideal para scraping de SPAs (React, Vue, Angular). El HTML retornado puede ser muy largo para paginas complejas.