feat(browser): auto-commit con 178 cambios

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
This commit is contained in:
2026-06-20 18:22:23 +02:00
parent 7d100e7f3e
commit 763e06c127
178 changed files with 19917 additions and 317 deletions
@@ -0,0 +1,109 @@
---
name: pull_gsc_search_analytics
kind: function
lang: py
domain: datascience
version: "1.0.0"
purity: impure
signature: "def pull_gsc_search_analytics(service: object, site_url: str, start_date: str, end_date: str, dimensions: list = None, row_limit: int = 25000, max_total_rows: int = 0, search_type: str = 'web') -> list"
description: "Extrae datos de la Search Analytics API de Google Search Console (GSC): impresiones, clicks, CTR y posicion por las dimensiones pedidas (query, page, date, country, device, searchAppearance). Recibe un objeto service GSC ya autenticado (el que devuelve gsc_auth, inyectado) y llama a service.searchanalytics().query(siteUrl, body).execute(). Pagina automaticamente con startRow en pasos de row_limit (tope duro 25000 filas/request) hasta que una pagina devuelve menos de row_limit filas o se alcanza max_total_rows. Aplana cada fila mapeando el array keys posicionalmente a los nombres de dimensions y añade clicks, impressions, ctr y position. Si la API no devuelve filas (rows ausente), retorna lista vacia sin error. Es el extractor principal de datos SEO para alimentar un pipeline hacia DuckDB/Postgres."
tags: [seo, gsc, datascience, search-console, google, extractor]
uses_functions: []
uses_types: []
returns: []
returns_optional: false
error_type: "error_go_core"
imports: [typing.Any]
params:
- name: service
desc: "objeto service autenticado de la Google Search Console API (el que devuelve gsc_auth_py_infra). Se inyecta ya construido; esta funcion NO lo crea ni llama a gsc_auth internamente. Debe exponer .searchanalytics().query(siteUrl=..., body=...).execute()."
- name: site_url
desc: "propiedad de Search Console. Formato 'sc-domain:ejemplo.com' para propiedad de dominio, o URL completa 'https://ejemplo.com/' para propiedad de prefijo. El formato importa: usar el que coincida con como la propiedad esta dada de alta en GSC."
- name: start_date
desc: "fecha inicial inclusiva en formato YYYY-MM-DD."
- name: end_date
desc: "fecha final inclusiva en formato YYYY-MM-DD. La API tiene ~2-3 dias de lag; el caller deberia pedir hasta hoy-3 para datos completos."
- name: dimensions
desc: "lista de dimensiones a desglosar. Por defecto ['query', 'page']. Otras validas: 'date', 'country', 'device', 'searchAppearance'. El orden define el orden de las keys en cada fila."
- name: row_limit
desc: "filas por request y tamaño de paso de la paginacion. Rango 1..25000 (se clampa al tope duro de la API). Por defecto 25000."
- name: max_total_rows
desc: "tope total de filas acumuladas en todas las paginas. 0 = sin tope (trae todo lo disponible). Si >0, recorta el resultado al llegar a ese numero."
- name: search_type
desc: "tipo de busqueda: 'web' | 'image' | 'video' | 'news' | 'discover' | 'googleNews'. Va en el body de la API como 'type'. Por defecto 'web'."
output: "list de dicts aplanados. Cada dict tiene una clave por cada dimension (con su nombre real, ej. query, page) mas clicks, impressions, ctr y position. Ejemplo con dimensions=['query','page']: {'query': '...', 'page': '...', 'clicks': 5, 'impressions': 100, 'ctr': 0.05, 'position': 12.3}. Lista vacia si la API no devuelve filas."
tested: true
tests:
- "test_aplanado_mapea_keys_a_nombres_de_dimension"
- "test_paginacion_recorre_varias_paginas_y_para_en_pagina_corta"
- "test_max_total_rows_recorta"
- "test_rows_ausente_retorna_lista_vacia"
- "test_dimension_unica_date"
test_file_path: "python/functions/datascience/pull_gsc_search_analytics_test.py"
file_path: "python/functions/datascience/pull_gsc_search_analytics.py"
---
## Ejemplo
```python
import sys, os
sys.path.insert(0, os.path.join("python", "functions"))
from infra import gsc_auth
from datascience import pull_gsc_search_analytics
# 1. Autenticar (service account JSON via env var GSC_SA_JSON o ruta explicita)
service = gsc_auth() # o gsc_auth("/ruta/fuera/del/repo/sa.json")
# 2. Extraer datos SEO por query + page de los ultimos dias (hasta hoy-3 por el lag)
rows = pull_gsc_search_analytics(
service,
site_url="sc-domain:ejemplo.com", # propiedad de dominio
# site_url="https://ejemplo.com/", # alternativa: propiedad de prefijo
start_date="2026-06-01",
end_date="2026-06-17",
dimensions=["query", "page"],
)
print(len(rows), "filas")
# rows[0] -> {'query': 'comprar zapatillas', 'page': 'https://ejemplo.com/zapatillas',
# 'clicks': 5, 'impressions': 100, 'ctr': 0.05, 'position': 12.3}
# Desglose temporal (1 fila por dia) con tope de filas:
serie = pull_gsc_search_analytics(
service, "sc-domain:ejemplo.com", "2026-06-01", "2026-06-17",
dimensions=["date"], max_total_rows=1000,
)
```
## Cuando usarla
Cuando necesites ingerir datos SEO de Google Search Console (impresiones, clicks,
CTR, posicion por query/pagina/fecha/pais/dispositivo) para volcarlos a DuckDB o
Postgres. Es el paso de extraccion del pipeline SEO: primero `gsc_auth` para
construir el `service`, luego esta funcion para traer las filas paginadas y
aplanadas, listas para upsert en una tabla.
## Gotchas
- **Lag de 2-3 dias**: GSC no tiene los datos del dia actual ni los 1-2 previos
completos. Pide `end_date` = hoy-3 para evitar dias parciales que luego cambian.
- **Privacy threshold (anonimizacion)**: las queries de baja frecuencia se ocultan
por privacidad de Google. La suma de clicks/impressions por `query` NO cuadra con
el total agregado sin dimension `query` — falta la "cola" anonimizada. Para totales
exactos, pide tambien una consulta sin la dimension `query` (ej. solo `["date"]`).
- **Formato de site_url**: `sc-domain:ejemplo.com` para propiedad de dominio; URL
completa con esquema y barra final `https://ejemplo.com/` para propiedad de prefijo.
Si no coincide con como esta dada de alta la propiedad, la API devuelve 403/permission.
- **Tope 25000 filas/request**: `row_limit` se clampa a 25000. Para propiedades grandes
la paginacion puede dar muchas requests; vigila los rate limits de la API (la funcion
no reintenta — el error de quota se propaga al caller).
- **Permisos**: la service account debe estar añadida como usuario (al menos lectura)
en la propiedad de GSC; si no, error de permisos al ejecutar el query.
## Notas
`service` se inyecta ya construido (separacion auth/extraccion), por eso esta funcion
no aparece acoplada a `gsc_auth` en `uses_functions`: no la importa ni la llama. El
test ejercita la logica de paginado y aplanado con un service mock, sin red ni
credenciales. Funcion impura: hace I/O de red contra la API de Google; cualquier error
HTTP (auth, permisos, quota) se propaga.