feat: funciones Python infra y tipos Python (core, datascience, infra)
Infra: cache_to_file, cache_to_sqlite, http_download_file, http_get_json, http_post_json, read_file_with_encoding, safe_extract_zip, scan_directory, setup_logger, normalize_zip_filenames. Tipos: 30+ tipos core (agent_action, context, task, message, parse_result...), 6 tipos datascience (entity_candidate, extraction_result...), 2 tipos infra. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
This commit is contained in:
@@ -0,0 +1,49 @@
|
||||
---
|
||||
name: normalize_zip_filenames
|
||||
kind: function
|
||||
lang: py
|
||||
domain: infra
|
||||
version: "1.0.0"
|
||||
purity: impure
|
||||
signature: "def normalize_zip_filenames(zipf: zipfile.ZipFile) -> None"
|
||||
description: "Repara nombres de archivos UTF-8 en ZIPs que no tienen el flag UTF-8 seteado (0x800). Comun en archivos creados en Windows con nombres CJK (chino, japones, coreano). Detecta mojibake comparando rangos Unicode y recodifica CP437 -> UTF-8."
|
||||
tags: [zip, encoding, utf-8, cjk, mojibake, normalize, infra]
|
||||
uses_functions: []
|
||||
uses_types: []
|
||||
returns: []
|
||||
returns_optional: false
|
||||
error_type: "error_go_core"
|
||||
imports: [zipfile]
|
||||
tested: true
|
||||
tests:
|
||||
- "ZIP con nombres UTF-8 correctos no se modifican"
|
||||
- "ZIP con nombres CJK mojibake se reparan"
|
||||
test_file_path: "python/functions/infra/safe_extract_zip_test.py"
|
||||
file_path: "python/functions/infra/safe_extract_zip.py"
|
||||
---
|
||||
|
||||
## Ejemplo
|
||||
|
||||
```python
|
||||
import zipfile
|
||||
from normalize_zip_filenames import normalize_zip_filenames
|
||||
|
||||
with zipfile.ZipFile("archivo_windows.zip", "r") as zipf:
|
||||
normalize_zip_filenames(zipf)
|
||||
for info in zipf.infolist():
|
||||
print(info.filename) # nombres CJK correctos
|
||||
```
|
||||
|
||||
## Notas
|
||||
|
||||
Funcion impure: modifica los `ZipInfo` del objeto ZipFile in-place.
|
||||
|
||||
El flag `0x800` en `flag_bits` indica que el filename ya esta codificado en UTF-8 segun la especificacion PKZip. Si esta seteado, el nombre no se toca.
|
||||
|
||||
Deteccion de CJK: rangos `\u3400-\u4dbf`, `\u4e00-\u9fff`, `\u3000-\u303f`, `\uff00-\uffef`.
|
||||
|
||||
Deteccion de mojibake: rangos Greek (`\u0370-\u03ff`), Math (`\u2200-\u22ff`), Box Drawing (`\u2500-\u257f`). Estos caracteres aparecen cuando bytes UTF-8 se interpretan como CP437.
|
||||
|
||||
Si se reparo algun nombre, se setea `zipf.metadata_encoding = "utf-8"`.
|
||||
|
||||
El codigo fuente de ambas funciones vive en `safe_extract_zip.py`.
|
||||
Reference in New Issue
Block a user