17 test functions cubriendo:
- Deteccion de delimitadores de sistema (<|system|>, [INST], XML tags)
- Override de instrucciones (EN/ES)
- Redefinicion de identidad (you are now / ahora eres)
- Exfiltracion de prompt (EN/ES)
- Jailbreak (developer mode, DAN)
- Evasion base64
- Modos: warn, strip, reject
- Filtro por severidad minima
- Patrones deshabilitados
- False positives: 9 mensajes legitimos verifican 0 warnings
Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>