Avaliação da confiabilidade de grandes modelos de linguagem: Vulnerabilidades de segurança do GPT-4 e riscos de privacidade revelados

Estudo abrangente sobre a avaliação da confiabilidade de grandes modelos de linguagem

Uma pesquisa realizada pela Universidade de Illinois em Urbana-Champaign em colaboração com a Universidade de Stanford, a Universidade da Califórnia em Berkeley, o Centro de Segurança em Inteligência Artificial e o Microsoft Research avaliou de forma abrangente a confiabilidade dos modelos de transformadores pré-treinados generativos (GPT). A equipe de pesquisa lançou uma plataforma de avaliação abrangente e detalhou suas descobertas no recente artigo "DecodingTrust: Avaliação Abrangente da Confiabilidade dos Modelos GPT".

A pesquisa revelou algumas vulnerabilidades relacionadas à credibilidade que anteriormente não eram divulgadas. Por exemplo, os modelos GPT são suscetíveis a serem induzidos ao erro, produzindo saídas tóxicas e tendenciosas, e podem vazar informações privadas contidas nos dados de treinamento e no histórico de conversas. Curiosamente, embora o GPT-4 seja geralmente mais confiável do que o GPT-3.5 em testes de referência padrão, ele se torna mais vulnerável a ataques quando confrontado com solicitações maliciosas que visam contornar as medidas de segurança. Isso pode ser devido ao fato de que o GPT-4 segue instruções enganosas de forma mais rigorosa.

A equipe de pesquisa realizou uma avaliação abrangente do modelo GPT a partir de oito ângulos de credibilidade, incluindo robustez contra ataques adversariais, toxicidade e preconceito, vazamento de privacidade, entre outros. Eles construíram vários cenários de avaliação para testar o desempenho do modelo sob diferentes condições.

Em termos de demonstrações adversariais, a pesquisa descobriu que o GPT-3.5 e o GPT-4 têm uma certa resistência a exemplos contrafactuais, mas em alguns casos podem ser enganados. Quanto à toxicidade e preconceito, ambos os modelos apresentam um viés menor na maioria dos temas de estereótipos sob prompts benignos, mas sob prompts enganadores, podem gerar conteúdo tendencioso, especialmente o GPT-4.

No que diz respeito à privacidade, estudos descobriram que os modelos GPT podem vazar informações sensíveis contidas nos dados de treinamento, como endereços de e-mail. Em certos casos, o uso de conhecimento adicional pode aumentar significativamente a precisão da extração de informações. De modo geral, o GPT-4 apresenta um desempenho melhor na proteção de informações de identificação pessoal, mas ambos os modelos são relativamente robustos na proteção de tipos específicos de informações sensíveis.

A equipa de investigação enfatiza que este trabalho visa encorajar mais investigadores a participar, a fim de prevenir potenciais utilizações maliciosas. Eles esperam que esta referência possa promover a colaboração e impulsionar o desenvolvimento de modelos mais robustos e fiáveis. Para tal, o código de avaliação que projetaram possui uma alta escalabilidade e facilidade de uso, permitindo uma avaliação completa de novos modelos com apenas um comando.

É importante notar que a equipe de pesquisa colaborou com os departamentos de produtos relevantes para confirmar que essas descobertas não afetarão os serviços atualmente oferecidos aos clientes. Isso se deve a uma série de medidas de mitigação que foram implementadas. Os resultados da pesquisa também foram compartilhados com os desenvolvedores de modelos para melhorias adicionais.

GPT-0.41%
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 6
  • Republicar
  • Partilhar
Comentar
0/400
SigmaValidatorvip
· 6h atrás
A GPT não consegue corrigir nem este pequeno bug.
Ver originalResponder0
MemeTokenGeniusvip
· 08-15 05:03
Já disse que isso não é confiável!
Ver originalResponder0
ILCollectorvip
· 08-13 07:32
Ah, já sabia que havia um problema.
Ver originalResponder0
LiquidationWatchervip
· 08-13 07:32
Tenho medo que ele aprenda coisas erradas.
Ver originalResponder0
AirdropNinjavip
· 08-13 07:30
O monstro do loot grátis apareceu.
Ver originalResponder0
BearMarketBuyervip
· 08-13 07:05
Onde é que há algo completamente confiável?
Ver originalResponder0
  • Pino
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)