fn_registry/python/functions/bigquery/bq_load_from_file.md at master

Files

T

egutierrez a03675113a chore: auto-commit (286 archivos)

- .claude/agents/fn-orquestador/SKILL.md
- .claude/commands/fn_claude.md
- .claude/rules/INDEX.md
- .claude/rules/cpp_apps.md
- .claude/rules/ids_naming.md
- CHANGELOG.md
- apps/dag_engine/README.md
- apps/dag_engine/api.go
- apps/dag_engine/dags_migrated/example.yaml
- apps/dag_engine/dags_migrated/example_lineage_tracking.yaml
- ...

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>

2026-05-16 16:33:22 +02:00

2.6 KiB

Raw Permalink Blame History

name, kind, lang, domain, version, purity, signature, description, tags, uses_functions, uses_types, returns, returns_optional, error_type, imports, params, output, tested, tests, test_file_path, file_path

name

kind

lang

domain

version

purity

signature

description

tags

uses_functions

uses_types

returns

returns_optional

error_type

imports

params

output

tested

tests

test_file_path

file_path

bq_load_from_file

function

infra

1.0.0

impure

def bq_load_from_file(client: BQClient, file_path: str, dataset_id: str, table_id: str, source_format: str = 'CSV', write_disposition: str = 'WRITE_APPEND', autodetect: bool = True, skip_leading_rows: int = 0) -> dict

Carga datos desde un archivo local a una tabla BigQuery usando load_table_from_file del SDK. Equivalente a bq_load_from_gcs pero para disco local.

bigquery

gcp

load

file

google-cloud

python

etl

pendiente-usar

sink

false

error_go_core

google-cloud-bigquery

name	desc
client	cliente BQClient autenticado contra el proyecto GCP

name	desc
file_path	ruta absoluta o relativa al archivo local a cargar

name	desc
dataset_id	ID del dataset de destino en BigQuery

name	desc
table_id	ID de la tabla de destino en BigQuery

name	desc
source_format	formato del archivo fuente: CSV, NEWLINE_DELIMITED_JSON, AVRO, PARQUET, ORC

name	desc
write_disposition	comportamiento si la tabla ya existe: WRITE_APPEND agrega, WRITE_TRUNCATE reemplaza, WRITE_EMPTY falla si hay datos

name	desc
autodetect	si True, BigQuery infiere el schema automaticamente desde los datos

name	desc
skip_leading_rows	numero de filas a ignorar al inicio del archivo (tipicamente 1 para saltar cabeceras CSV)

dict con {job_id: ID del LoadJob, rows_loaded: filas cargadas, status: DONE o FAILED}

false

python/functions/bigquery/queries.py

Ejemplo

from bigquery.client import bq_auth
from bigquery.queries import bq_load_from_file

client = bq_auth("my-project")

# Cargar CSV local con cabecera
result = bq_load_from_file(
    client,
    "/tmp/export_users.csv",
    "my_dataset", "users",
    skip_leading_rows=1,
    write_disposition="WRITE_TRUNCATE",
)
print(f"Cargadas {result['rows_loaded']} filas — job: {result['job_id']}")

# Cargar JSONL local
result = bq_load_from_file(
    client,
    "/data/events.jsonl",
    "my_dataset", "events",
    source_format="NEWLINE_DELIMITED_JSON",
)

Notas

El archivo se abre en modo binario (rb) y se sube directamente al job de BigQuery. Para archivos muy grandes, preferir bq_load_from_gcs — subir primero a GCS y luego cargar desde ahi es mas eficiente y permite paralelismo.

La funcion bloquea hasta que el job termina (job.result()). Los archivos Parquet y Avro no admiten skip_leading_rows — ese parametro solo aplica para CSV.

2.6 KiB Raw Permalink Blame History

Ejemplo

Notas

2.6 KiB

Raw Permalink Blame History