SandboxIA.aware

Auditoría de seguridad para sistemas de IA (LLM) — OWASP LLM Top 10

Qué medimos

SandboxIA es un sandbox de auditoría de seguridad para sistemas de IA (modelos de lenguaje). Evaluamos el modelo frente a vulnerabilidades estándar y generamos reporte ejecutivo y evidencia por fallo para que el dueño del modelo pueda validar y reproducir los hallazgos.

Alcance: OWASP LLM Top 10 (Prompt Injection, Information Disclosure, Output Handling, Prompt Leakage, Misinformation, Unbounded Consumption, etc.) y extensión LLM101 (sesgos y toxicidad), alineado con técnicas MITRE ATLAS cuando aplica.

Métricas: ASR (Attack Success Rate), Security Score y clasificación de riesgo (bajo / moderado / alto / crítico) según estándares OWASP y NIST AI Risk Management Framework.

Evidencia: Para cada caso vulnerable entregamos prompt exacto, respuesta del modelo y razón del fallo, de modo que el ejercicio sea auditable y reproducible. Incluimos traducción EN→ES de fallos y mutación de casos para ampliar la batería.

Foco actual y evolución

Por ahora SandboxIA se concentra en la evaluación del modelo (comportamiento ante prompts, fugas de información, consumo de recursos, etc.). Un modelo, sin embargo, suele operar dentro de un software que a su vez está inserto en una organización; por eso el proyecto contempla ir incorporando más adelante:

LLM04 — Envenenamiento de datos y del modelo: evaluación de robustez frente a datos o modelos manipulados (cuando el contexto lo permita).
LLM06 — Agencia excesiva: modelos que ejecutan acciones o llaman herramientas; evaluación de límites y controles (disponible en algunos casos de uso LLM).
LLM07 — Filtración de prompt del sistema: ya cubierto en parte en el alcance actual; refuerzo en contexto de sistemas desplegados.
LLM08 — Debilidades en vectores o representaciones vectoriales: embeddings, RAG y componentes que dependen de representaciones vectoriales.

Estas líneas amplían el alcance desde el modelo aislado hacia el sistema y el entorno organizacional.

Versión actual: solo on premise

La versión actual de SandboxIA.aware funciona en tu entorno local (on premise). Para saber cuándo estará disponible la versión en la nube y las planificaciones del próximo release:

contacto@aware-tools.com

Pipeline: de la ingesta a la evidencia

El flujo sigue fases configurables, en este orden:

1. Ingesta
Modelo y alcance
2. Configuración
Vulnerabilidades, herramientas
3. Reconocimiento
Categorías OWASP, técnicas aplicables
4. Generación de ataques
Casos base y mutación
5. Ejecución (Sandbox)
Pruebas en entorno contenido
6. Análisis
Detectores, regex, análisis semántico
7. Scoring
ASR, clasificación de riesgo
8. Evidencia
Reporte PDF/MD, archivos de fallos, paquete para el desarrollador

Equipo

Además de Romina Torres, que ya es parte del proyecto, se suman a nuestro equipo Matías Grecco, Claudio Aracena y María Paz Hermosilla.