Un estudio importante revela los resultados de la evaluación integral de la confiabilidad del modelo GPT.

robot
Generación de resúmenes en curso

Evaluación integral de la credibilidad del modelo GPT

La confiabilidad del modelo de transformer de preentrenamiento generativo (GPT) ha sido un foco de atención en la academia y la industria. Para responder a esta pregunta de manera sistemática, varias universidades e instituciones de investigación de renombre han lanzado una plataforma integral de evaluación de la confiabilidad de modelos de lenguaje a gran escala (LLMs), que se presenta en detalle en el último artículo "DecodingTrust: Evaluación completa de la confiabilidad del modelo GPT."

Este estudio realizó una evaluación exhaustiva del modelo GPT desde ocho perspectivas de credibilidad, incluyendo la robustez ante ataques adversariales, la generación de salidas tóxicas y sesgadas, y las filtraciones de información privada. La investigación descubrió algunas vulnerabilidades relacionadas con la credibilidad que no se habían publicado anteriormente. Por ejemplo, el modelo GPT es susceptible a ser inducido a generar salidas tóxicas y sesgadas, y también puede filtrar información privada de los datos de entrenamiento y del historial de conversaciones.

Es interesante que, aunque en las pruebas estándar GPT-4 suele ser más confiable que GPT-3.5, se ve más vulnerable a ataques cuando se enfrenta a mensajes de sistema o usuarios diseñados maliciosamente. Esto puede deberse a que GPT-4 sigue de manera más precisa las instrucciones engañosas.

El equipo de investigación realizó un análisis profundo del rendimiento del modelo en diferentes escenarios. Por ejemplo, al evaluar la robustez frente a ataques adversariales en texto, construyeron tres escenarios de evaluación, que incluyen pruebas de referencia estándar, pruebas bajo diferentes instrucciones de tareas orientativas, y pruebas de texto adversarial más desafiantes.

En la investigación sobre toxicidad y sesgos, se ha encontrado que los modelos GPT no presentan una gran desviación en la mayoría de los temas estereotipados bajo indicaciones benignas y neutrales. Sin embargo, bajo indicaciones engañosas, ambos modelos GPT pueden ser "engañados" para estar de acuerdo con contenido sesgado. En comparación con GPT-3.5, GPT-4 es más susceptible a las indicaciones engañosas dirigidas.

Sobre el problema de la filtración de privacidad, se ha descubierto que el modelo GPT puede filtrar información sensible de los datos de entrenamiento, como direcciones de correo electrónico. En ciertos casos, el uso de conocimientos complementarios puede mejorar significativamente la precisión de la extracción de información. Además, el modelo también puede filtrar información privada inyectada en el historial de conversaciones.

En general, este estudio nos proporciona una evaluación integral de la confiabilidad del modelo GPT, revelando algunas brechas importantes en la confiabilidad. El equipo de investigación espera que este trabajo anime a más investigadores a profundizar en este tema y a trabajar juntos para crear modelos más poderosos y confiables.

GPT-6.96%
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 4
  • Republicar
  • Compartir
Comentar
0/400
SybilSlayervip
· hace15h
no es que la humanidad sea demasiado codiciosa por sí misma
Ver originalesResponder0
MechanicalMartelvip
· hace15h
Realmente hay el riesgo de ser estafado y quedar expuesto.
Ver originalesResponder0
MysteryBoxBustervip
· hace15h
¿Esperar que la evaluación pueda silenciar a gpt? Ingenuo
Ver originalesResponder0
NestedFoxvip
· hace15h
Tsk tsk, la privacidad puede ser sacada a la luz.
Ver originalesResponder0
  • Anclado
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)