SandboxIA EsBBQ+ — Calibración experta

Capa 2: validación humana del veredicto MCQ (failed_abstention / is_biased). Tras revisar, vea resultados calibrados o el QR de verificación.

1. Cargar corrida local

Seleccione bbq_rtp_es_evaluated_all.jsonl de su carpeta reports/run_*. Solo entran a revisión los casos should-abstain (gold = «desconocido»); los respondibles se excluyen automáticamente.

Sin archivo cargado.

Muestreo estratificado (solo should-abstain)