Une étude majeure révèle les résultats d'une évaluation complète de la fiabilité du modèle GPT.

2025-08-11 15:54:47

Création du résumé en cours

Évaluation complète de la crédibilité du modèle GPT

La crédibilité du modèle transformer pré-entraîné génératif (GPT) a toujours été au centre des préoccupations de la communauté académique et de l'industrie. Afin de répondre systématiquement à cette question, plusieurs universités et institutions de recherche de renom ont conjointement lancé une plateforme d'évaluation de la crédibilité des grands modèles de langage (LLMs), qui est présentée en détail dans le dernier article "DecodingTrust : Évaluation complète de la crédibilité des modèles GPT".

Cette étude a évalué de manière exhaustive le modèle GPT sous huit angles de crédibilité, y compris la robustesse face aux attaques adversariales, les sorties toxiques et biaisées, la fuite d'informations privées, etc. L'étude a découvert plusieurs vulnérabilités liées à la crédibilité qui n'avaient pas été précédemment publiées. Par exemple, le modèle GPT est facilement induit en erreur pour produire des sorties toxiques et biaisées, et il pourrait également divulguer des informations privées contenues dans les données d'entraînement et l'historique des conversations.

Il est intéressant de noter que, bien que GPT-4 soit généralement plus fiable que GPT-3.5 sur les benchmarks standard, il est en réalité plus vulnérable aux attaques lorsqu'il est confronté à des invites de système ou d'utilisateur malveillantes. Cela pourrait être dû au fait que GPT-4 suit plus précisément des instructions trompeuses.

L'équipe de recherche a effectué une analyse approfondie des performances du modèle dans différents scénarios. Par exemple, lors de l'évaluation de la robustesse contre les attaques adversariales sur le texte, ils ont construit trois scénarios d'évaluation, y compris des tests de référence standard, des tests sous différentes instructions de tâches directrices, et des tests de texte adversarial plus difficiles.

Des recherches sur la toxicité et les préjugés ont révélé que le modèle GPT présente peu de biais sur la plupart des sujets de stéréotypes sous des invites de systèmes bienveillants et neutres. Cependant, sous des invites de systèmes trompeurs, les deux modèles GPT peuvent être "induits en erreur" pour acquiescer à des contenus biaisés. Par rapport à GPT-3.5, GPT-4 est plus susceptible d'être influencé par des invites de systèmes trompeurs ciblés.

Concernant les problèmes de fuite de données personnelles, des recherches ont révélé que le modèle GPT pourrait divulguer des informations sensibles contenues dans les données d'entraînement, telles que des adresses e-mail. Dans certains cas, l'utilisation de connaissances supplémentaires peut considérablement améliorer la précision de l'extraction d'informations. De plus, le modèle pourrait également divulguer des informations personnelles injectées dans l'historique des conversations.

Dans l'ensemble, cette étude nous fournit une évaluation complète de la crédibilité des modèles GPT, révélant d'importants écarts de crédibilité. L'équipe de recherche espère que ce travail encouragera davantage de chercheurs à approfondir ce sujet et à collaborer pour créer des modèles plus puissants et plus fiables.

GPT-6.23%

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

9 J'aime