feat: funciones Python infra y tipos Python (core, datascience, infra)

Infra: cache_to_file, cache_to_sqlite, http_download_file, http_get_json,
http_post_json, read_file_with_encoding, safe_extract_zip, scan_directory,
setup_logger, normalize_zip_filenames.
Tipos: 30+ tipos core (agent_action, context, task, message, parse_result...),
6 tipos datascience (entity_candidate, extraction_result...), 2 tipos infra.

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
This commit is contained in:
2026-04-05 17:11:43 +02:00
parent 63a9cb5273
commit 9fd0ca9cac
110 changed files with 5714 additions and 0 deletions
@@ -0,0 +1,49 @@
---
name: normalize_zip_filenames
kind: function
lang: py
domain: infra
version: "1.0.0"
purity: impure
signature: "def normalize_zip_filenames(zipf: zipfile.ZipFile) -> None"
description: "Repara nombres de archivos UTF-8 en ZIPs que no tienen el flag UTF-8 seteado (0x800). Comun en archivos creados en Windows con nombres CJK (chino, japones, coreano). Detecta mojibake comparando rangos Unicode y recodifica CP437 -> UTF-8."
tags: [zip, encoding, utf-8, cjk, mojibake, normalize, infra]
uses_functions: []
uses_types: []
returns: []
returns_optional: false
error_type: "error_go_core"
imports: [zipfile]
tested: true
tests:
- "ZIP con nombres UTF-8 correctos no se modifican"
- "ZIP con nombres CJK mojibake se reparan"
test_file_path: "python/functions/infra/safe_extract_zip_test.py"
file_path: "python/functions/infra/safe_extract_zip.py"
---
## Ejemplo
```python
import zipfile
from normalize_zip_filenames import normalize_zip_filenames
with zipfile.ZipFile("archivo_windows.zip", "r") as zipf:
normalize_zip_filenames(zipf)
for info in zipf.infolist():
print(info.filename) # nombres CJK correctos
```
## Notas
Funcion impure: modifica los `ZipInfo` del objeto ZipFile in-place.
El flag `0x800` en `flag_bits` indica que el filename ya esta codificado en UTF-8 segun la especificacion PKZip. Si esta seteado, el nombre no se toca.
Deteccion de CJK: rangos `\u3400-\u4dbf`, `\u4e00-\u9fff`, `\u3000-\u303f`, `\uff00-\uffef`.
Deteccion de mojibake: rangos Greek (`\u0370-\u03ff`), Math (`\u2200-\u22ff`), Box Drawing (`\u2500-\u257f`). Estos caracteres aparecen cuando bytes UTF-8 se interpretan como CP437.
Si se reparo algun nombre, se setea `zipf.metadata_encoding = "utf-8"`.
El codigo fuente de ambas funciones vive en `safe_extract_zip.py`.