Une étude majeure révèle les résultats d'une évaluation complète de la fiabilité du modèle GPT.

robot
Création du résumé en cours

Évaluation complète de la crédibilité du modèle GPT

La crédibilité du modèle transformer pré-entraîné génératif (GPT) a toujours été au centre des préoccupations de la communauté académique et de l'industrie. Afin de répondre systématiquement à cette question, plusieurs universités et institutions de recherche de renom ont conjointement lancé une plateforme d'évaluation de la crédibilité des grands modèles de langage (LLMs), qui est présentée en détail dans le dernier article "DecodingTrust : Évaluation complète de la crédibilité des modèles GPT".

Cette étude a évalué de manière exhaustive le modèle GPT sous huit angles de crédibilité, y compris la robustesse face aux attaques adversariales, les sorties toxiques et biaisées, la fuite d'informations privées, etc. L'étude a découvert plusieurs vulnérabilités liées à la crédibilité qui n'avaient pas été précédemment publiées. Par exemple, le modèle GPT est facilement induit en erreur pour produire des sorties toxiques et biaisées, et il pourrait également divulguer des informations privées contenues dans les données d'entraînement et l'historique des conversations.

Il est intéressant de noter que, bien que GPT-4 soit généralement plus fiable que GPT-3.5 sur les benchmarks standard, il est en réalité plus vulnérable aux attaques lorsqu'il est confronté à des invites de système ou d'utilisateur malveillantes. Cela pourrait être dû au fait que GPT-4 suit plus précisément des instructions trompeuses.

L'équipe de recherche a effectué une analyse approfondie des performances du modèle dans différents scénarios. Par exemple, lors de l'évaluation de la robustesse contre les attaques adversariales sur le texte, ils ont construit trois scénarios d'évaluation, y compris des tests de référence standard, des tests sous différentes instructions de tâches directrices, et des tests de texte adversarial plus difficiles.

Des recherches sur la toxicité et les préjugés ont révélé que le modèle GPT présente peu de biais sur la plupart des sujets de stéréotypes sous des invites de systèmes bienveillants et neutres. Cependant, sous des invites de systèmes trompeurs, les deux modèles GPT peuvent être "induits en erreur" pour acquiescer à des contenus biaisés. Par rapport à GPT-3.5, GPT-4 est plus susceptible d'être influencé par des invites de systèmes trompeurs ciblés.

Concernant les problèmes de fuite de données personnelles, des recherches ont révélé que le modèle GPT pourrait divulguer des informations sensibles contenues dans les données d'entraînement, telles que des adresses e-mail. Dans certains cas, l'utilisation de connaissances supplémentaires peut considérablement améliorer la précision de l'extraction d'informations. De plus, le modèle pourrait également divulguer des informations personnelles injectées dans l'historique des conversations.

Dans l'ensemble, cette étude nous fournit une évaluation complète de la crédibilité des modèles GPT, révélant d'importants écarts de crédibilité. L'équipe de recherche espère que ce travail encouragera davantage de chercheurs à approfondir ce sujet et à collaborer pour créer des modèles plus puissants et plus fiables.

GPT-6.23%
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 4
  • Reposter
  • Partager
Commentaire
0/400
SybilSlayervip
· Il y a 16h
ce n'est pas que les humains sont trop gourmands
Voir l'originalRépondre0
MechanicalMartelvip
· Il y a 16h
Il y a vraiment un risque d'être exposé à une histoire de fraude.
Voir l'originalRépondre0
MysteryBoxBustervip
· Il y a 16h
Compter sur une évaluation pour faire taire GPT ? Naïf.
Voir l'originalRépondre0
NestedFoxvip
· Il y a 16h
Tsk tsk, la vie privée peut être mise à jour.
Voir l'originalRépondre0
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)