Estudo abrangente sobre a avaliação da confiabilidade de grandes modelos de linguagem
Uma pesquisa realizada pela Universidade de Illinois em Urbana-Champaign em colaboração com a Universidade de Stanford, a Universidade da Califórnia em Berkeley, o Centro de Segurança em Inteligência Artificial e o Microsoft Research avaliou de forma abrangente a confiabilidade dos modelos de transformadores pré-treinados generativos (GPT). A equipe de pesquisa lançou uma plataforma de avaliação abrangente e detalhou suas descobertas no recente artigo "DecodingTrust: Avaliação Abrangente da Confiabilidade dos Modelos GPT".
A pesquisa revelou algumas vulnerabilidades relacionadas à credibilidade que anteriormente não eram divulgadas. Por exemplo, os modelos GPT são suscetíveis a serem induzidos ao erro, produzindo saídas tóxicas e tendenciosas, e podem vazar informações privadas contidas nos dados de treinamento e no histórico de conversas. Curiosamente, embora o GPT-4 seja geralmente mais confiável do que o GPT-3.5 em testes de referência padrão, ele se torna mais vulnerável a ataques quando confrontado com solicitações maliciosas que visam contornar as medidas de segurança. Isso pode ser devido ao fato de que o GPT-4 segue instruções enganosas de forma mais rigorosa.
A equipe de pesquisa realizou uma avaliação abrangente do modelo GPT a partir de oito ângulos de credibilidade, incluindo robustez contra ataques adversariais, toxicidade e preconceito, vazamento de privacidade, entre outros. Eles construíram vários cenários de avaliação para testar o desempenho do modelo sob diferentes condições.
Em termos de demonstrações adversariais, a pesquisa descobriu que o GPT-3.5 e o GPT-4 têm uma certa resistência a exemplos contrafactuais, mas em alguns casos podem ser enganados. Quanto à toxicidade e preconceito, ambos os modelos apresentam um viés menor na maioria dos temas de estereótipos sob prompts benignos, mas sob prompts enganadores, podem gerar conteúdo tendencioso, especialmente o GPT-4.
No que diz respeito à privacidade, estudos descobriram que os modelos GPT podem vazar informações sensíveis contidas nos dados de treinamento, como endereços de e-mail. Em certos casos, o uso de conhecimento adicional pode aumentar significativamente a precisão da extração de informações. De modo geral, o GPT-4 apresenta um desempenho melhor na proteção de informações de identificação pessoal, mas ambos os modelos são relativamente robustos na proteção de tipos específicos de informações sensíveis.
A equipa de investigação enfatiza que este trabalho visa encorajar mais investigadores a participar, a fim de prevenir potenciais utilizações maliciosas. Eles esperam que esta referência possa promover a colaboração e impulsionar o desenvolvimento de modelos mais robustos e fiáveis. Para tal, o código de avaliação que projetaram possui uma alta escalabilidade e facilidade de uso, permitindo uma avaliação completa de novos modelos com apenas um comando.
É importante notar que a equipe de pesquisa colaborou com os departamentos de produtos relevantes para confirmar que essas descobertas não afetarão os serviços atualmente oferecidos aos clientes. Isso se deve a uma série de medidas de mitigação que foram implementadas. Os resultados da pesquisa também foram compartilhados com os desenvolvedores de modelos para melhorias adicionais.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
Avaliação da confiabilidade de grandes modelos de linguagem: Vulnerabilidades de segurança do GPT-4 e riscos de privacidade revelados
Estudo abrangente sobre a avaliação da confiabilidade de grandes modelos de linguagem
Uma pesquisa realizada pela Universidade de Illinois em Urbana-Champaign em colaboração com a Universidade de Stanford, a Universidade da Califórnia em Berkeley, o Centro de Segurança em Inteligência Artificial e o Microsoft Research avaliou de forma abrangente a confiabilidade dos modelos de transformadores pré-treinados generativos (GPT). A equipe de pesquisa lançou uma plataforma de avaliação abrangente e detalhou suas descobertas no recente artigo "DecodingTrust: Avaliação Abrangente da Confiabilidade dos Modelos GPT".
A pesquisa revelou algumas vulnerabilidades relacionadas à credibilidade que anteriormente não eram divulgadas. Por exemplo, os modelos GPT são suscetíveis a serem induzidos ao erro, produzindo saídas tóxicas e tendenciosas, e podem vazar informações privadas contidas nos dados de treinamento e no histórico de conversas. Curiosamente, embora o GPT-4 seja geralmente mais confiável do que o GPT-3.5 em testes de referência padrão, ele se torna mais vulnerável a ataques quando confrontado com solicitações maliciosas que visam contornar as medidas de segurança. Isso pode ser devido ao fato de que o GPT-4 segue instruções enganosas de forma mais rigorosa.
A equipe de pesquisa realizou uma avaliação abrangente do modelo GPT a partir de oito ângulos de credibilidade, incluindo robustez contra ataques adversariais, toxicidade e preconceito, vazamento de privacidade, entre outros. Eles construíram vários cenários de avaliação para testar o desempenho do modelo sob diferentes condições.
Em termos de demonstrações adversariais, a pesquisa descobriu que o GPT-3.5 e o GPT-4 têm uma certa resistência a exemplos contrafactuais, mas em alguns casos podem ser enganados. Quanto à toxicidade e preconceito, ambos os modelos apresentam um viés menor na maioria dos temas de estereótipos sob prompts benignos, mas sob prompts enganadores, podem gerar conteúdo tendencioso, especialmente o GPT-4.
No que diz respeito à privacidade, estudos descobriram que os modelos GPT podem vazar informações sensíveis contidas nos dados de treinamento, como endereços de e-mail. Em certos casos, o uso de conhecimento adicional pode aumentar significativamente a precisão da extração de informações. De modo geral, o GPT-4 apresenta um desempenho melhor na proteção de informações de identificação pessoal, mas ambos os modelos são relativamente robustos na proteção de tipos específicos de informações sensíveis.
A equipa de investigação enfatiza que este trabalho visa encorajar mais investigadores a participar, a fim de prevenir potenciais utilizações maliciosas. Eles esperam que esta referência possa promover a colaboração e impulsionar o desenvolvimento de modelos mais robustos e fiáveis. Para tal, o código de avaliação que projetaram possui uma alta escalabilidade e facilidade de uso, permitindo uma avaliação completa de novos modelos com apenas um comando.
É importante notar que a equipe de pesquisa colaborou com os departamentos de produtos relevantes para confirmar que essas descobertas não afetarão os serviços atualmente oferecidos aos clientes. Isso se deve a uma série de medidas de mitigação que foram implementadas. Os resultados da pesquisa também foram compartilhados com os desenvolvedores de modelos para melhorias adicionais.