Evaluación de la confianza en modelos de lenguaje a gran escala: revelación de vulnerabilidades de seguridad y riesgos de privacidad de GPT-4

Estudio integral sobre la evaluación de la credibilidad de los modelos de lenguaje grandes

Un estudio realizado por la Universidad de Illinois en Urbana-Champaign en colaboración con la Universidad de Stanford, la Universidad de California en Berkeley, el Centro de Seguridad de Inteligencia Artificial y Microsoft Research, llevó a cabo una evaluación exhaustiva de la confiabilidad del modelo de transformador preentrenado generativo (GPT). El equipo de investigación publicó una plataforma de evaluación integral y detalló sus hallazgos en el reciente artículo "DecodingTrust: Evaluación integral de la confiabilidad del modelo GPT".

La investigación revela algunas vulnerabilidades relacionadas con la credibilidad que antes no se habían hecho públicas. Por ejemplo, los modelos GPT son susceptibles a ser engañados, produciendo salidas tóxicas y sesgadas, y pueden filtrar información privada de los datos de entrenamiento y del historial de conversaciones. Curiosamente, aunque GPT-4 generalmente es más confiable que GPT-3.5 en las pruebas de referencia estándar, se ha observado que GPT-4 es más vulnerable a ataques cuando se enfrenta a indicaciones maliciosas diseñadas para eludir medidas de seguridad. Esto podría deberse a que GPT-4 sigue más estrictamente las instrucciones engañosas.

El equipo de investigación realizó una evaluación exhaustiva del modelo GPT desde ocho perspectivas de credibilidad, que incluyen la robustez ante ataques adversariales, toxicidad y sesgo, y la filtración de privacidad, entre otros. Construyeron múltiples escenarios de evaluación para probar el rendimiento del modelo en diferentes condiciones.

En términos de demostraciones adversariales, la investigación ha encontrado que GPT-3.5 y GPT-4 tienen cierta resistencia a ejemplos contrafactuales, pero en algunas ocasiones también pueden ser engañados. En cuanto a toxicidad y sesgo, ambos modelos presentan un sesgo menor en la mayoría de los temas estereotipados bajo indicaciones benignas, pero bajo indicaciones engañosas, pueden generar contenido sesgado, especialmente GPT-4.

En términos de privacidad, los estudios han encontrado que el modelo GPT puede filtrar información sensible contenida en los datos de entrenamiento, como direcciones de correo electrónico. En ciertos casos, el uso de conocimientos adicionales puede mejorar significativamente la precisión de la extracción de información. En general, el GPT-4 tiene un mejor desempeño en la protección de la información de identificación personal, pero ambos modelos son relativamente robustos en la protección de ciertos tipos de información sensible.

El equipo de investigación enfatiza que este trabajo tiene como objetivo alentar a más investigadores a participar, para prevenir posibles usos malintencionados. Esperan que este estándar fomente la colaboración y promueva el desarrollo de modelos más robustos y confiables. Para ello, el código de evaluación que han diseñado tiene una alta escalabilidad y facilidad de uso, permitiendo una evaluación completa de nuevos modelos con solo un comando.

Es importante señalar que el equipo de investigación ha colaborado con los departamentos de productos correspondientes para confirmar que estos hallazgos no afectarán los servicios actuales orientados al cliente. Esto se debe en parte a una serie de medidas de mitigación que se han implementado. Los resultados de la investigación también se han compartido con los desarrolladores de modelos para su mejora continua.

GPT6.12%
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 6
  • Republicar
  • Compartir
Comentar
0/400
SigmaValidatorvip
· 08-16 02:02
GPT no puede arreglar ni siquiera este pequeño error.
Ver originalesResponder0
MemeTokenGeniusvip
· 08-15 05:03
¡Ya lo dije, esto no es confiable!
Ver originalesResponder0
ILCollectorvip
· 08-13 07:32
Ah, sabía que tenía un problema.
Ver originalesResponder0
LiquidationWatchervip
· 08-13 07:32
Siempre temo que se malinterprete.
Ver originalesResponder0
AirdropNinjavip
· 08-13 07:30
El monstruo del abuso ha aparecido.
Ver originalesResponder0
BearMarketBuyervip
· 08-13 07:05
¿Dónde hay algo completamente confiable?
Ver originalesResponder0
  • Anclado
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)