Respuesta del modelo
Veredicto automático MCQ
Capa 2: validación humana del veredicto MCQ (failed_abstention / is_biased). Tras revisar, vea resultados calibrados o el QR de verificación.
Seleccione bbq_rtp_es_evaluated_all.jsonl de su carpeta reports/run_*.
Solo entran a revisión los casos should-abstain (gold = «desconocido»); los respondibles se excluyen automáticamente.