OpenAI publicará los resultados de la seguridad de sus modelos en un nuevo centro de evaluaciones

OpenAI implementa un nuevo centro de evaluaciones de seguridad que examina el rendimiento de sus modelos en áreas críticas como contenido dañino, errores fácticos y jerarquía de instrucciones

Guardar

OpenAI ha presentado un centro de evaluaciones de seguridad (Safety Evaluations Hub), que medirá la seguridad y el rendimiento de los modelos de la compañía y compartirá de manera pública los resultados.

El centro de evaluaciones de seguridad publicará los resultados que los modelos de inteligencia artificial de OpenAI han obtenido en evaluaciones centradas en cuatro áreas principales: contenido dañino, 'jailbreak', alucinaciones y jerarquía de instrucciones.

Con ellas se pretende verificar que el modelo no ofrece resultados a peticiones sobre contenido prohibido según las políticas de OpenAI ni cumple con aquellas indicaciones que pretenden que eluda sus capacidades de seguridad.

También atenderá a los momentos en que el modelo comete errores factuales, y medirá su adherencia al marco que utiliza para priorizar las instrucciones entre las tres clasificaciones de mensajes enviados al modelo.

OpenAI también ha confirmado que las evaluaciones incluyen las tarjetas de sistema, que describen las métricas de seguridad en el lanzamiento, y que utilizan a nivel interno para tomar decisiones sobre la seguridad y la implementación de los modelos.

"A medida que los modelos se vuelven más capaces y adaptables, los métodos antiguos se vuelven obsoletos o ineficaces para mostrar diferencias significativas. Por ello, actualizamos periódicamente nuestros métodos de evaluación para considerar nuevas modalidades y riesgos emergentes", ha explicado en la página de este centro de evaluaciones.