Auditoría de seguridad para sistemas de IA (LLM) — OWASP LLM Top 10
SandboxIA es un sandbox de auditoría de seguridad para sistemas de IA (modelos de lenguaje). Evaluamos el modelo frente a vulnerabilidades estándar y generamos reporte ejecutivo y evidencia por fallo para que el dueño del modelo pueda validar y reproducir los hallazgos.
Alcance: OWASP LLM Top 10 (Prompt Injection, Information Disclosure, Output Handling, Prompt Leakage, Misinformation, Unbounded Consumption, etc.) y extensión LLM101 (sesgos y toxicidad), alineado con técnicas MITRE ATLAS cuando aplica.
Métricas: ASR (Attack Success Rate), Security Score y clasificación de riesgo (bajo / moderado / alto / crítico) según estándares OWASP y NIST AI Risk Management Framework.
Evidencia: Para cada caso vulnerable entregamos prompt exacto, respuesta del modelo y razón del fallo, de modo que el ejercicio sea auditable y reproducible. Incluimos traducción EN→ES de fallos y mutación de casos para ampliar la batería.
Por ahora SandboxIA se concentra en la evaluación del modelo (comportamiento ante prompts, fugas de información, consumo de recursos, etc.). Un modelo, sin embargo, suele operar dentro de un software que a su vez está inserto en una organización; por eso el proyecto contempla ir incorporando más adelante:
Estas líneas amplían el alcance desde el modelo aislado hacia el sistema y el entorno organizacional.
Versión actual: solo on premise
La versión actual de SandboxIA.aware funciona en tu entorno local (on premise). Para saber cuándo estará disponible la versión en la nube y las planificaciones del próximo release:
El flujo sigue fases configurables, en este orden: