Достоверность генеративной предобученной модели трансформера (GPT) всегда была в центре внимания академического и промышленного сообществ. Чтобы систематически ответить на этот вопрос, несколько известных университетов и исследовательских учреждений объединили усилия для создания крупной платформы комплексной оценки достоверности языковых моделей (LLMs), которая была подробно описана в последней статье «DecodingTrust: Полная оценка достоверности модели GPT».
Данное исследование проводит всестороннюю оценку модели GPT с восьми углов надежности, включая устойчивость к атакующим, токсичный и предвзятый вывод, утечку конфиденциальной информации и другие аспекты. Исследование выявило некоторые ранее не опубликованные уязвимости, связанные с надежностью. Например, модель GPT легко может быть введена в заблуждение, что приводит к токсичному и предвзятому выводу, а также может раскрывать конфиденциальную информацию из обучающих данных и истории диалогов.
Интересно, что хотя GPT-4 обычно более надежен, чем GPT-3.5, по стандартным критериям, он оказывается более уязвимым к атакам при столкновении с злонамеренно разработанными системными подсказками или пользовательскими подсказками. Это может быть связано с тем, что GPT-4 более точно следует вводящим в заблуждение инструкциям.
Исследовательская группа провела углубленный анализ производительности модели в различных сценариях. Например, при оценке устойчивости к текстовым атакующим воздействиям они создали три сценария оценки, включая стандартные эталонные тесты, тесты при различных инструкциях по заданиям и более сложные тесты с противостоящими текстами.
Исследования по токсичности и предвзятости показали, что модели GPT имеют незначительные отклонения по большинству тем стереотипов под доброжелательными и нейтральными системными подсказками. Однако под вводящими в заблуждение системными подсказками обе модели GPT могут быть "вынуждены" согласиться с предвзятым содержанием. По сравнению с GPT-3.5, GPT-4 легче поддается влиянию целенаправленных вводящих в заблуждение системных подсказок.
Что касается проблемы утечки конфиденциальной информации, исследования показывают, что модели GPT могут раскрывать чувствительную информацию из обучающих данных, такую как адреса электронной почты. В некоторых случаях использование дополнительных знаний может значительно повысить точность извлечения информации. Кроме того, модель может также раскрывать личную информацию, внедренную в историю диалога.
В общем, это исследование предоставляет нам всестороннюю оценку надежности модели GPT, выявляя некоторые важные разрывы в надежности. Исследовательская команда надеется, что эта работа сможет вдохновить больше исследователей продолжить углубленное изучение в этой области, совместно трудясь над созданием более мощных и надежных моделей.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
9 Лайков
Награда
9
4
Репост
Поделиться
комментарий
0/400
SybilSlayer
· 19ч назад
всё же это не люди слишком жадные
Посмотреть ОригиналОтветить0
MechanicalMartel
· 19ч назад
Действительно существует риск быть обманутым и раскрыть свою историю.
Посмотреть ОригиналОтветить0
MysteryBoxBuster
· 19ч назад
Надеяться, что оценка сможет закрыть рот GPT? Наивно.
Важное исследование показывает результаты комплексной оценки надежности модели GPT
Полная оценка надежности модели GPT
Достоверность генеративной предобученной модели трансформера (GPT) всегда была в центре внимания академического и промышленного сообществ. Чтобы систематически ответить на этот вопрос, несколько известных университетов и исследовательских учреждений объединили усилия для создания крупной платформы комплексной оценки достоверности языковых моделей (LLMs), которая была подробно описана в последней статье «DecodingTrust: Полная оценка достоверности модели GPT».
Данное исследование проводит всестороннюю оценку модели GPT с восьми углов надежности, включая устойчивость к атакующим, токсичный и предвзятый вывод, утечку конфиденциальной информации и другие аспекты. Исследование выявило некоторые ранее не опубликованные уязвимости, связанные с надежностью. Например, модель GPT легко может быть введена в заблуждение, что приводит к токсичному и предвзятому выводу, а также может раскрывать конфиденциальную информацию из обучающих данных и истории диалогов.
Интересно, что хотя GPT-4 обычно более надежен, чем GPT-3.5, по стандартным критериям, он оказывается более уязвимым к атакам при столкновении с злонамеренно разработанными системными подсказками или пользовательскими подсказками. Это может быть связано с тем, что GPT-4 более точно следует вводящим в заблуждение инструкциям.
Исследовательская группа провела углубленный анализ производительности модели в различных сценариях. Например, при оценке устойчивости к текстовым атакующим воздействиям они создали три сценария оценки, включая стандартные эталонные тесты, тесты при различных инструкциях по заданиям и более сложные тесты с противостоящими текстами.
Исследования по токсичности и предвзятости показали, что модели GPT имеют незначительные отклонения по большинству тем стереотипов под доброжелательными и нейтральными системными подсказками. Однако под вводящими в заблуждение системными подсказками обе модели GPT могут быть "вынуждены" согласиться с предвзятым содержанием. По сравнению с GPT-3.5, GPT-4 легче поддается влиянию целенаправленных вводящих в заблуждение системных подсказок.
Что касается проблемы утечки конфиденциальной информации, исследования показывают, что модели GPT могут раскрывать чувствительную информацию из обучающих данных, такую как адреса электронной почты. В некоторых случаях использование дополнительных знаний может значительно повысить точность извлечения информации. Кроме того, модель может также раскрывать личную информацию, внедренную в историю диалога.
В общем, это исследование предоставляет нам всестороннюю оценку надежности модели GPT, выявляя некоторые важные разрывы в надежности. Исследовательская команда надеется, что эта работа сможет вдохновить больше исследователей продолжить углубленное изучение в этой области, совместно трудясь над созданием более мощных и надежных моделей.