Avaliação da confiabilidade de grandes modelos de linguagem: Vulnerabilidades de segurança do GPT-4 e riscos de privacidade revelados

2025-08-13 07:02:47

Estudo abrangente sobre a avaliação da confiabilidade de grandes modelos de linguagem

Uma pesquisa realizada pela Universidade de Illinois em Urbana-Champaign em colaboração com a Universidade de Stanford, a Universidade da Califórnia em Berkeley, o Centro de Segurança em Inteligência Artificial e o Microsoft Research avaliou de forma abrangente a confiabilidade dos modelos de transformadores pré-treinados generativos (GPT). A equipe de pesquisa lançou uma plataforma de avaliação abrangente e detalhou suas descobertas no recente artigo "DecodingTrust: Avaliação Abrangente da Confiabilidade dos Modelos GPT".

A pesquisa revelou algumas vulnerabilidades relacionadas à credibilidade que anteriormente não eram divulgadas. Por exemplo, os modelos GPT são suscetíveis a serem induzidos ao erro, produzindo saídas tóxicas e tendenciosas, e podem vazar informações privadas contidas nos dados de treinamento e no histórico de conversas. Curiosamente, embora o GPT-4 seja geralmente mais confiável do que o GPT-3.5 em testes de referência padrão, ele se torna mais vulnerável a ataques quando confrontado com solicitações maliciosas que visam contornar as medidas de segurança. Isso pode ser devido ao fato de que o GPT-4 segue instruções enganosas de forma mais rigorosa.

A equipe de pesquisa realizou uma avaliação abrangente do modelo GPT a partir de oito ângulos de credibilidade, incluindo robustez contra ataques adversariais, toxicidade e preconceito, vazamento de privacidade, entre outros. Eles construíram vários cenários de avaliação para testar o desempenho do modelo sob diferentes condições.

Em termos de demonstrações adversariais, a pesquisa descobriu que o GPT-3.5 e o GPT-4 têm uma certa resistência a exemplos contrafactuais, mas em alguns casos podem ser enganados. Quanto à toxicidade e preconceito, ambos os modelos apresentam um viés menor na maioria dos temas de estereótipos sob prompts benignos, mas sob prompts enganadores, podem gerar conteúdo tendencioso, especialmente o GPT-4.

No que diz respeito à privacidade, estudos descobriram que os modelos GPT podem vazar informações sensíveis contidas nos dados de treinamento, como endereços de e-mail. Em certos casos, o uso de conhecimento adicional pode aumentar significativamente a precisão da extração de informações. De modo geral, o GPT-4 apresenta um desempenho melhor na proteção de informações de identificação pessoal, mas ambos os modelos são relativamente robustos na proteção de tipos específicos de informações sensíveis.

A equipa de investigação enfatiza que este trabalho visa encorajar mais investigadores a participar, a fim de prevenir potenciais utilizações maliciosas. Eles esperam que esta referência possa promover a colaboração e impulsionar o desenvolvimento de modelos mais robustos e fiáveis. Para tal, o código de avaliação que projetaram possui uma alta escalabilidade e facilidade de uso, permitindo uma avaliação completa de novos modelos com apenas um comando.

É importante notar que a equipe de pesquisa colaborou com os departamentos de produtos relevantes para confirmar que essas descobertas não afetarão os serviços atualmente oferecidos aos clientes. Isso se deve a uma série de medidas de mitigação que foram implementadas. Os resultados da pesquisa também foram compartilhados com os desenvolvedores de modelos para melhorias adicionais.

GPT-0.41%

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

11 gostos