SandboxIA.aware

Auditoría de seguridad para sistemas de IA (LLM) — OWASP LLM Top 10

Qué medimos

SandboxIA es un sandbox de auditoría de seguridad para sistemas de IA (modelos de lenguaje). Evaluamos el modelo frente a vulnerabilidades estándar y generamos reporte ejecutivo y evidencia por fallo para que el dueño del modelo pueda validar y reproducir los hallazgos.

Alcance: OWASP LLM Top 10 (Prompt Injection, Information Disclosure, Output Handling, Prompt Leakage, Misinformation, Unbounded Consumption, etc.) y extensión LLM101 (sesgos y toxicidad), alineado con técnicas MITRE ATLAS cuando aplica.

Métricas: ASR (Attack Success Rate), Security Score y clasificación de riesgo (bajo / moderado / alto / crítico) según estándares OWASP y NIST AI Risk Management Framework.

Evidencia: Para cada caso vulnerable entregamos prompt exacto, respuesta del modelo y razón del fallo, de modo que el ejercicio sea auditable y reproducible. Incluimos traducción EN→ES de fallos y mutación de casos para ampliar la batería.

Foco actual y evolución

Por ahora SandboxIA se concentra en la evaluación del modelo (comportamiento ante prompts, fugas de información, consumo de recursos, etc.). Un modelo, sin embargo, suele operar dentro de un software que a su vez está inserto en una organización; por eso el proyecto contempla ir incorporando más adelante:

Estas líneas amplían el alcance desde el modelo aislado hacia el sistema y el entorno organizacional.

Versión actual: solo on premise

La versión actual de SandboxIA.aware funciona en tu entorno local (on premise). Para saber cuándo estará disponible la versión en la nube y las planificaciones del próximo release:

contacto@aware-tools.com

Pipeline: de la ingesta a la evidencia

El flujo sigue fases configurables, en este orden:

  1. 1. Ingesta
    Modelo y alcance
  2. 2. Configuración
    Vulnerabilidades, herramientas
  3. 3. Reconocimiento
    Categorías OWASP, técnicas aplicables
  4. 4. Generación de ataques
    Casos base y mutación
  5. 5. Ejecución (Sandbox)
    Pruebas en entorno contenido
  6. 6. Análisis
    Detectores, regex, análisis semántico
  7. 7. Scoring
    ASR, clasificación de riesgo
  8. 8. Evidencia
    Reporte PDF/MD, archivos de fallos, paquete para el desarrollador

Equipo

Además de Romina Torres, que ya es parte del proyecto, se suman a nuestro equipo Matías Grecco, Claudio Aracena y María Paz Hermosilla.

Cenia UAI abc4.io