Estudo abrangente revela resultados da avaliação de confiabilidade do modelo GPT

2025-08-11 15:54:47

Geração do resumo em andamento

Avaliação abrangente da credibilidade do modelo GPT

A confiabilidade do modelo transformer pré-treinado generativo (GPT) tem sido um foco de atenção na academia e na indústria. Para responder sistematicamente a essa questão, várias universidades e instituições de pesquisa renomadas se uniram para lançar uma plataforma abrangente de avaliação de confiabilidade de modelos de linguagem de grande escala (LLMs), que foi detalhadamente apresentada no artigo mais recente "DecodingTrust: Avaliação Abrangente da Confiabilidade do Modelo GPT".

Este estudo avaliou de forma abrangente o modelo GPT sob oito ângulos de credibilidade, incluindo robustez contra ataques adversariais, saídas tóxicas e enviesadas, e vazamento de informações privadas. A pesquisa descobriu algumas vulnerabilidades relacionadas à credibilidade que não haviam sido divulgadas anteriormente. Por exemplo, o modelo GPT é suscetível a ser induzido a produzir saídas tóxicas e enviesadas, e também pode vazar informações privadas contidas nos dados de treinamento e no histórico de conversas.

Curiosamente, embora no padrão de referência o GPT-4 seja geralmente mais confiável do que o GPT-3.5, quando enfrenta prompts de sistema ou de usuário projetados maliciosamente, o GPT-4 é mais suscetível a ataques. Isso pode ser devido ao fato de que o GPT-4 segue de forma mais precisa as instruções enganosas.

A equipe de pesquisa realizou uma análise aprofundada do desempenho do modelo em diferentes cenários. Por exemplo, ao avaliar a robustez contra ataques adversariais em texto, eles construíram três cenários de avaliação, incluindo testes de referência padrão, testes sob diferentes instruções de tarefa orientadora e testes de texto adversarial mais desafiadores.

A pesquisa sobre toxicidade e preconceito descobriu que os modelos GPT apresentam pouca viés em relação à maioria dos temas estereotipados sob sugestões de sistema benignas e neutras. No entanto, sob sugestões de sistema enganosas, ambos os modelos GPT podem ser "enganados" a concordar com conteúdos tendenciosos. Comparado ao GPT-3.5, o GPT-4 é mais suscetível a sugestões de sistema enganosas direcionadas.

Sobre a questão da violação de privacidade, pesquisas descobriram que o modelo GPT pode vazar informações sensíveis contidas nos dados de treino, como endereços de e-mail. Em certos casos, o uso de conhecimentos suplementares pode aumentar significativamente a precisão da extração de informações. Além disso, o modelo também pode vazar informações pessoais injetadas no histórico de conversas.

Em geral, este estudo nos fornece uma avaliação abrangente da confiabilidade do modelo GPT, revelando algumas lacunas importantes na confiabilidade. A equipe de pesquisa espera que este trabalho possa encorajar mais pesquisadores a continuar aprofundando-se nesta área, trabalhando juntos para criar modelos mais robustos e confiáveis.

GPT-8.67%

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

9 Curtidas