--- name: extract_iocs kind: function lang: go domain: cybersecurity version: "1.0.0" purity: pure signature: "func ExtractIocs(text string, types []string) []IoC" description: "Port a Go de extract_iocs_py_cybersecurity. Extrae todos los IoCs (email, ip_address, domain, file_hash, crypto_wallet, cve_id, mac_address, phone_number) de un texto usando regex puro. Si types es nil corre todos los extractores; si tiene valores filtra solo esos tipos. Deduplica por (Type, Value) y elimina spans contenidos (ej. dominio dentro de un email). Retorna slice ordenada por offset." tags: [ioc, cybersecurity, regex, threat-intel, email, ip, domain, hash, wallet, cve, mac, phone] uses_functions: [] uses_types: [ioc_go_cybersecurity] returns: [] returns_optional: false error_type: "" imports: ["net", "regexp", "sort"] params: - name: text desc: "Texto plano o markdown del que extraer IoCs. Puede contener cualquier contenido — se aplican todos los extractores sobre el texto completo." - name: types desc: "Slice de tipos a extraer. Valores validos: email, ip_address, domain, file_hash, crypto_wallet, cve_id, mac_address, phone_number. Si es nil, se corren todos los extractores. Tipos desconocidos se ignoran silenciosamente." output: "Slice de IoC ordenada por offset Start ascendente. Cada IoC tiene Type, Value, Start (byte offset inicio), End (byte offset fin) y opcionalmente Extra (algorithm para file_hash, asset para crypto_wallet). Sin duplicados: mismo (Type, Value) aparece una sola vez, y spans completamente contenidos dentro de otro span se descartan." tested: true tests: - "texto sin IoCs retorna slice vacia" - "un IoC de cada tipo detectado" - "filtro por types=[email] retorna solo emails" - "dedup mismo email aparece dos veces solo una entrada" - "IPv4 valida detectada" - "numero con octeto 999 no es IPv4" - "numero con octeto 256 no es IPv4" - "hash MD5 exactamente 32 hex chars detectado" - "hash SHA1 exactamente 40 hex chars detectado" - "hash SHA256 exactamente 64 hex chars detectado" - "hash SHA512 exactamente 128 hex chars detectado" - "longitud intermedia 60 hex chars ignorada" - "dominio contenido en email span se descarta" - "tipos desconocidos se ignoran sin error" - "CVE-2014-0160 extraido" - "multiples CVEs en mismo texto" - "MAC con dos puntos extraida" - "separadores mezclados rechazados" - "E.164 con prefijo pais extraido" - "formato ES 9 digitos extraido" - "offsets Start/End cubren el valor exacto en el texto" - "pipeline completo detecta email ip cve mac wallet" test_file_path: "functions/cybersecurity/extract_iocs_test.go" file_path: "functions/cybersecurity/extract_iocs.go" --- ## Ejemplo ```go iocs := ExtractIocs("Contact alice@example.com, vuln CVE-2023-1234, ip 192.0.2.5", nil) // iocs[0] = IoC{Type:"email", Value:"alice@example.com", Start:8, End:25} // iocs[1] = IoC{Type:"ip_address", Value:"192.0.2.5", ...} // iocs[2] = IoC{Type:"cve_id", Value:"CVE-2023-1234", ...} // Solo emails: emails := ExtractIocs(text, []string{"email"}) // Campo extra para hashes: // ioc.Extra["algorithm"] == "sha256" // Campo extra para wallets: // ioc.Extra["asset"] == "btc" | "eth" ``` ## Notas Port directo de `extract_iocs_py_cybersecurity`. La validacion de IPv4/IPv6 usa `net.ParseIP` de stdlib, equivalente al modulo `ipaddress` de Python. Los regex son equivalentes a los Python — Go usa RE2 (sin lookbehind de longitud variable) por lo que los patrones de contexto se implementan con grupos capturadores y ajuste de offsets al grupo 1. La deduplicacion opera en dos niveles: 1. (Type, Value) — el mismo valor del mismo tipo solo aparece una vez (primer match gana). 2. Contencion de spans — si el span de un IoC queda completamente dentro del span de otro ya aceptado, se descarta (ej. "example.com" dentro de "alice@example.com").