Всеобъемлющее исследование оценки доверия крупных языковых моделей
Исследование, проведенное Университетом штата Иллинойс в Урбана-Шампейн совместно со Станфордским университетом, Университетом Калифорнии в Беркли, Центром безопасности искусственного интеллекта и Исследовательской лабораторией Microsoft, провело всестороннюю оценку надежности модели генеративного предварительно обученного трансформера (GPT). Исследовательская группа выпустила комплексную оценочную платформу и подробно изложила свои выводы в недавней статье «DecodingTrust: всесторонняя оценка надежности модели GPT».
Исследование выявило некоторые ранее не опубликованные уязвимости, связанные с надежностью. Например, модели GPT легко вводятся в заблуждение, производя токсичный и предвзятый вывод, и могут раскрывать личные данные и историю диалогов из обучающих данных. Интересно, что хотя GPT-4 обычно более надежен, чем GPT-3.5, в стандартных тестах, он становится более уязвимым к атакам при столкновении с злонамеренными подсказками, направленными на обход мер безопасности. Это может объясняться тем, что GPT-4 более строго следует вводящим в заблуждение инструкциям.
Исследовательская группа провела всестороннюю оценку модели GPT с восьми углов доверия, включая устойчивость к атакам, токсичность и предвзятость, утечку личной информации и другие аспекты. Они создали различные сценарии оценки, чтобы протестировать работу модели в разных условиях.
В отношении антагонистических демонстраций исследования показали, что GPT-3.5 и GPT-4 обладают определенной устойчивостью к контрфактическим примерам, но в некоторых случаях также могут быть введены в заблуждение. Что касается токсичности и предвзятости, обе модели имеют меньшую предвзятость по большинству тем стереотипов при благожелательных подсказках, но под вводящими в заблуждение подсказками они могут генерировать предвзятое содержание, особенно GPT-4.
В аспекте конфиденциальности исследования показывают, что модели GPT могут раскрывать чувствительную информацию из обучающих данных, такую как адреса электронной почты. В некоторых случаях использование дополнительных знаний может значительно повысить точность извлечения информации. В целом, GPT-4 демонстрирует лучшие результаты в защите личной идентифицируемой информации, но обе модели относительно надежны в защите определенных типов чувствительной информации.
Исследовательская команда подчеркивает, что данная работа направлена на то, чтобы побудить больше исследователей участвовать в предотвращении потенциального злонамеренного использования. Они надеются, что этот базовый стандарт сможет способствовать сотрудничеству и продвижению разработки более мощных и надежных моделей. Для этого они разработали оценочный код с высокой масштабируемостью и удобством использования, который позволяет провести полную оценку новой модели всего лишь одной командой.
Стоит отметить, что исследовательская группа сотрудничала с соответствующими продуктовыми отделами, чтобы подтвердить, что эти выводы не повлияют на текущие услуги для клиентов. Это отчасти благодаря ряду внедренных мер по смягчению последствий. Результаты исследования также были переданы разработчикам моделей для дальнейшего улучшения.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Оценка надежности крупных языковых моделей: выявление уязвимостей безопасности и рисков конфиденциальности GPT-4
Всеобъемлющее исследование оценки доверия крупных языковых моделей
Исследование, проведенное Университетом штата Иллинойс в Урбана-Шампейн совместно со Станфордским университетом, Университетом Калифорнии в Беркли, Центром безопасности искусственного интеллекта и Исследовательской лабораторией Microsoft, провело всестороннюю оценку надежности модели генеративного предварительно обученного трансформера (GPT). Исследовательская группа выпустила комплексную оценочную платформу и подробно изложила свои выводы в недавней статье «DecodingTrust: всесторонняя оценка надежности модели GPT».
Исследование выявило некоторые ранее не опубликованные уязвимости, связанные с надежностью. Например, модели GPT легко вводятся в заблуждение, производя токсичный и предвзятый вывод, и могут раскрывать личные данные и историю диалогов из обучающих данных. Интересно, что хотя GPT-4 обычно более надежен, чем GPT-3.5, в стандартных тестах, он становится более уязвимым к атакам при столкновении с злонамеренными подсказками, направленными на обход мер безопасности. Это может объясняться тем, что GPT-4 более строго следует вводящим в заблуждение инструкциям.
Исследовательская группа провела всестороннюю оценку модели GPT с восьми углов доверия, включая устойчивость к атакам, токсичность и предвзятость, утечку личной информации и другие аспекты. Они создали различные сценарии оценки, чтобы протестировать работу модели в разных условиях.
В отношении антагонистических демонстраций исследования показали, что GPT-3.5 и GPT-4 обладают определенной устойчивостью к контрфактическим примерам, но в некоторых случаях также могут быть введены в заблуждение. Что касается токсичности и предвзятости, обе модели имеют меньшую предвзятость по большинству тем стереотипов при благожелательных подсказках, но под вводящими в заблуждение подсказками они могут генерировать предвзятое содержание, особенно GPT-4.
В аспекте конфиденциальности исследования показывают, что модели GPT могут раскрывать чувствительную информацию из обучающих данных, такую как адреса электронной почты. В некоторых случаях использование дополнительных знаний может значительно повысить точность извлечения информации. В целом, GPT-4 демонстрирует лучшие результаты в защите личной идентифицируемой информации, но обе модели относительно надежны в защите определенных типов чувствительной информации.
Исследовательская команда подчеркивает, что данная работа направлена на то, чтобы побудить больше исследователей участвовать в предотвращении потенциального злонамеренного использования. Они надеются, что этот базовый стандарт сможет способствовать сотрудничеству и продвижению разработки более мощных и надежных моделей. Для этого они разработали оценочный код с высокой масштабируемостью и удобством использования, который позволяет провести полную оценку новой модели всего лишь одной командой.
Стоит отметить, что исследовательская группа сотрудничала с соответствующими продуктовыми отделами, чтобы подтвердить, что эти выводы не повлияют на текущие услуги для клиентов. Это отчасти благодаря ряду внедренных мер по смягчению последствий. Результаты исследования также были переданы разработчикам моделей для дальнейшего улучшения.