Étude complète sur l'évaluation de la fiabilité des modèles de langage de grande taille
Une étude menée par l'Université de l'Illinois à Urbana-Champaign en collaboration avec l'Université de Stanford, l'Université de Californie à Berkeley, le Centre de sécurité de l'intelligence artificielle et Microsoft Research a effectué une évaluation complète de la fiabilité des modèles de transformateur pré-entraînés génératifs (GPT). L'équipe de recherche a publié une plateforme d'évaluation intégrée et a détaillé ses découvertes dans le récent article intitulé « DecodingTrust : Évaluation complète de la fiabilité des modèles GPT ».
La recherche a révélé certaines vulnérabilités liées à la crédibilité qui n'avaient pas été publiées auparavant. Par exemple, les modèles GPT sont facilement trompés, produisant des sorties toxiques et biaisées, et peuvent divulguer des informations privées dans les données d'entraînement et l'historique des conversations. Fait intéressant, bien que le GPT-4 soit généralement plus fiable que le GPT-3.5 dans les tests de référence standard, il est en fait plus vulnérable aux attaques lorsqu'il est confronté à des incitations malveillantes visant à contourner les mesures de sécurité. Cela peut être dû au fait que le GPT-4 suit plus strictement des instructions trompeuses.
L'équipe de recherche a effectué une évaluation complète du modèle GPT sous huit angles de crédibilité, y compris la robustesse face aux attaques, la toxicité et les biais, ainsi que les fuites de données personnelles. Ils ont construit plusieurs scénarios d'évaluation pour tester la performance du modèle dans différentes conditions.
En ce qui concerne les démonstrations adversariales, des recherches ont montré que GPT-3.5 et GPT-4 présentent une certaine résistance aux exemples contrefactuels, mais peuvent être induits en erreur dans certaines situations. En ce qui concerne la toxicité et les biais, les deux modèles montrent peu de biais sur la plupart des sujets stéréotypés avec des invites bienveillantes, mais sous des invites trompeuses, ils peuvent produire du contenu biaisé, en particulier GPT-4.
En ce qui concerne la vie privée, des recherches ont révélé que le modèle GPT pourrait divulguer des informations sensibles contenues dans les données d'entraînement, telles que des adresses e-mail. Dans certains cas, l'utilisation de connaissances supplémentaires peut considérablement améliorer la précision de l'extraction d'informations. Dans l'ensemble, le GPT-4 se comporte mieux en matière de protection des informations d'identité personnelle, mais les deux modèles sont relativement robustes en ce qui concerne la protection de certains types d'informations sensibles.
L'équipe de recherche souligne que ce travail vise à encourager davantage de chercheurs à participer pour prévenir les utilisations malveillantes potentielles. Ils espèrent que cette référence pourra promouvoir la collaboration et favoriser le développement de modèles plus puissants et plus fiables. À cet effet, le code d'évaluation qu'ils ont conçu est hautement extensible et facile à utiliser, permettant une évaluation complète des nouveaux modèles par une simple commande.
Il convient de noter que l'équipe de recherche a collaboré avec les départements de produits concernés pour confirmer que ces découvertes n'affecteront pas les services actuellement destinés aux clients. Cela est en partie dû à une série de mesures d'atténuation qui ont été mises en œuvre. Les résultats de la recherche ont également été partagés avec les développeurs de modèles afin d'apporter des améliorations supplémentaires.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
11 J'aime
Récompense
11
6
Reposter
Partager
Commentaire
0/400
SigmaValidator
· Il y a 5h
GPT ne peut même pas corriger ce petit bug.
Voir l'originalRépondre0
MemeTokenGenius
· 08-15 05:03
Je l'avais dit, ce n'est pas fiable !
Voir l'originalRépondre0
ILCollector
· 08-13 07:32
Eh bien, je savais qu'il y avait un problème.
Voir l'originalRépondre0
LiquidationWatcher
· 08-13 07:32
J'ai toujours peur qu'il ne devienne mauvais.
Voir l'originalRépondre0
AirdropNinja
· 08-13 07:30
Le phénomène du freeloading est apparu.
Voir l'originalRépondre0
BearMarketBuyer
· 08-13 07:05
Où est-ce qu'on peut trouver quelque chose de totalement fiable ?
Évaluation de la fiabilité des grands modèles de langage : Révélations sur les vulnérabilités de sécurité et les risques de confidentialité de GPT-4
Étude complète sur l'évaluation de la fiabilité des modèles de langage de grande taille
Une étude menée par l'Université de l'Illinois à Urbana-Champaign en collaboration avec l'Université de Stanford, l'Université de Californie à Berkeley, le Centre de sécurité de l'intelligence artificielle et Microsoft Research a effectué une évaluation complète de la fiabilité des modèles de transformateur pré-entraînés génératifs (GPT). L'équipe de recherche a publié une plateforme d'évaluation intégrée et a détaillé ses découvertes dans le récent article intitulé « DecodingTrust : Évaluation complète de la fiabilité des modèles GPT ».
La recherche a révélé certaines vulnérabilités liées à la crédibilité qui n'avaient pas été publiées auparavant. Par exemple, les modèles GPT sont facilement trompés, produisant des sorties toxiques et biaisées, et peuvent divulguer des informations privées dans les données d'entraînement et l'historique des conversations. Fait intéressant, bien que le GPT-4 soit généralement plus fiable que le GPT-3.5 dans les tests de référence standard, il est en fait plus vulnérable aux attaques lorsqu'il est confronté à des incitations malveillantes visant à contourner les mesures de sécurité. Cela peut être dû au fait que le GPT-4 suit plus strictement des instructions trompeuses.
L'équipe de recherche a effectué une évaluation complète du modèle GPT sous huit angles de crédibilité, y compris la robustesse face aux attaques, la toxicité et les biais, ainsi que les fuites de données personnelles. Ils ont construit plusieurs scénarios d'évaluation pour tester la performance du modèle dans différentes conditions.
En ce qui concerne les démonstrations adversariales, des recherches ont montré que GPT-3.5 et GPT-4 présentent une certaine résistance aux exemples contrefactuels, mais peuvent être induits en erreur dans certaines situations. En ce qui concerne la toxicité et les biais, les deux modèles montrent peu de biais sur la plupart des sujets stéréotypés avec des invites bienveillantes, mais sous des invites trompeuses, ils peuvent produire du contenu biaisé, en particulier GPT-4.
En ce qui concerne la vie privée, des recherches ont révélé que le modèle GPT pourrait divulguer des informations sensibles contenues dans les données d'entraînement, telles que des adresses e-mail. Dans certains cas, l'utilisation de connaissances supplémentaires peut considérablement améliorer la précision de l'extraction d'informations. Dans l'ensemble, le GPT-4 se comporte mieux en matière de protection des informations d'identité personnelle, mais les deux modèles sont relativement robustes en ce qui concerne la protection de certains types d'informations sensibles.
L'équipe de recherche souligne que ce travail vise à encourager davantage de chercheurs à participer pour prévenir les utilisations malveillantes potentielles. Ils espèrent que cette référence pourra promouvoir la collaboration et favoriser le développement de modèles plus puissants et plus fiables. À cet effet, le code d'évaluation qu'ils ont conçu est hautement extensible et facile à utiliser, permettant une évaluation complète des nouveaux modèles par une simple commande.
Il convient de noter que l'équipe de recherche a collaboré avec les départements de produits concernés pour confirmer que ces découvertes n'affecteront pas les services actuellement destinés aux clients. Cela est en partie dû à une série de mesures d'atténuation qui ont été mises en œuvre. Les résultats de la recherche ont également été partagés avec les développeurs de modèles afin d'apporter des améliorations supplémentaires.