Files
fn_registry/python/functions/infra/normalize_zip_filenames.md
T
egutierrez 9fd0ca9cac feat: funciones Python infra y tipos Python (core, datascience, infra)
Infra: cache_to_file, cache_to_sqlite, http_download_file, http_get_json,
http_post_json, read_file_with_encoding, safe_extract_zip, scan_directory,
setup_logger, normalize_zip_filenames.
Tipos: 30+ tipos core (agent_action, context, task, message, parse_result...),
6 tipos datascience (entity_candidate, extraction_result...), 2 tipos infra.

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
2026-04-05 17:11:43 +02:00

1.7 KiB

name, kind, lang, domain, version, purity, signature, description, tags, uses_functions, uses_types, returns, returns_optional, error_type, imports, tested, tests, test_file_path, file_path
name kind lang domain version purity signature description tags uses_functions uses_types returns returns_optional error_type imports tested tests test_file_path file_path
normalize_zip_filenames function py infra 1.0.0 impure def normalize_zip_filenames(zipf: zipfile.ZipFile) -> None Repara nombres de archivos UTF-8 en ZIPs que no tienen el flag UTF-8 seteado (0x800). Comun en archivos creados en Windows con nombres CJK (chino, japones, coreano). Detecta mojibake comparando rangos Unicode y recodifica CP437 -> UTF-8.
zip
encoding
utf-8
cjk
mojibake
normalize
infra
false error_go_core
zipfile
true
ZIP con nombres UTF-8 correctos no se modifican
ZIP con nombres CJK mojibake se reparan
python/functions/infra/safe_extract_zip_test.py python/functions/infra/safe_extract_zip.py

Ejemplo

import zipfile
from normalize_zip_filenames import normalize_zip_filenames

with zipfile.ZipFile("archivo_windows.zip", "r") as zipf:
    normalize_zip_filenames(zipf)
    for info in zipf.infolist():
        print(info.filename)  # nombres CJK correctos

Notas

Funcion impure: modifica los ZipInfo del objeto ZipFile in-place.

El flag 0x800 en flag_bits indica que el filename ya esta codificado en UTF-8 segun la especificacion PKZip. Si esta seteado, el nombre no se toca.

Deteccion de CJK: rangos \u3400-\u4dbf, \u4e00-\u9fff, \u3000-\u303f, \uff00-\uffef.

Deteccion de mojibake: rangos Greek (\u0370-\u03ff), Math (\u2200-\u22ff), Box Drawing (\u2500-\u257f). Estos caracteres aparecen cuando bytes UTF-8 se interpretan como CP437.

Si se reparo algun nombre, se setea zipf.metadata_encoding = "utf-8".

El codigo fuente de ambas funciones vive en safe_extract_zip.py.