Достовірність генеративної попередньо навченої моделі трансформера ( GPT ) завжди була в центрі уваги як академічного, так і промислового секторів. Щоб системно відповісти на це питання, кілька відомих університетів і дослідницьких установ об'єдналися для випуску великої платформи оцінки достовірності мовних моделей ( LLMs ), яка детально описана в останній статті "DecodingTrust: Всеосяжна оцінка достовірності моделей GPT".
Це дослідження проводить комплексну оцінку моделі GPT з восьми аспектів достовірності, включаючи стійкість до атак, токсичний та упереджений вихід, витік приватної інформації тощо. Дослідження виявило кілька раніше не опублікованих вразливостей, пов'язаних із достовірністю. Наприклад, модель GPT легко може бути введена в оману, що призводить до токсичного та упередженого виходу, а також може розкривати приватну інформацію з навчальних даних і історії діалогів.
Цікаво, що хоча GPT-4 зазвичай є більш надійним, ніж GPT-3.5, на стандартних тестах, він виявляється більш вразливим до атак, коли стикається з навмисно спроектованими системними або користувацькими запитами. Це може бути пов'язано з тим, що GPT-4 більш точно виконує оманливі інструкції.
Дослідницька команда провела глибокий аналіз роботи моделі в різних сценах. Наприклад, під час оцінки стійкості до атак на текст вони створили три оцінювальні сцени, включаючи стандартне бенчмаркінг, тестування під різними настановами завдань, а також більш складні тести з використанням агресивних текстів.
Дослідження щодо токсичності та упередженості виявили, що моделі GPT мають незначні відхилення по більшості тем стереотипів під доброзичливими та нейтральними системними підказками. Проте під оманливими системними підказками обидві моделі GPT можуть бути "обмануті" на прийняття упередженого контенту. У порівнянні з GPT-3.5, GPT-4 легше піддається впливу цілеспрямованих оманливих системних підказок.
Щодо проблеми витоку конфіденційності, дослідження виявило, що моделі GPT можуть розкривати чутливу інформацію з навчальних даних, таку як електронні адреси. У деяких випадках використання додаткових знань може суттєво підвищити точність вилучення інформації. Крім того, модель може також розкрити приватну інформацію, введену в історію діалогу.
В цілому, це дослідження надає нам всебічну оцінку надійності моделей GPT, виявляючи деякі важливі прогалини в надійності. Дослідницька команда сподівається, що ця робота зможе заохотити більше дослідників продовжити поглиблене вивчення на цій основі, об'єднавши зусилля для створення більш потужних і надійних моделей.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
8 лайків
Нагородити
8
4
Репост
Поділіться
Прокоментувати
0/400
SybilSlayer
· 12год тому
ще не людство само занадто жадібне
Переглянути оригіналвідповісти на0
MechanicalMartel
· 12год тому
Справді існує ризик бути обманутим і втратити все.
Переглянути оригіналвідповісти на0
MysteryBoxBuster
· 12год тому
Сподіватися, що оцінка зможе закрити рот gpt? Наївно
Переглянути оригіналвідповісти на0
NestedFox
· 12год тому
Ць-чь, навіть приватність можна вивести на поверхню.
Важливе дослідження розкриває результати комплексної оцінки надійності моделі GPT
Повна оцінка надійності моделі GPT
Достовірність генеративної попередньо навченої моделі трансформера ( GPT ) завжди була в центрі уваги як академічного, так і промислового секторів. Щоб системно відповісти на це питання, кілька відомих університетів і дослідницьких установ об'єдналися для випуску великої платформи оцінки достовірності мовних моделей ( LLMs ), яка детально описана в останній статті "DecodingTrust: Всеосяжна оцінка достовірності моделей GPT".
Це дослідження проводить комплексну оцінку моделі GPT з восьми аспектів достовірності, включаючи стійкість до атак, токсичний та упереджений вихід, витік приватної інформації тощо. Дослідження виявило кілька раніше не опублікованих вразливостей, пов'язаних із достовірністю. Наприклад, модель GPT легко може бути введена в оману, що призводить до токсичного та упередженого виходу, а також може розкривати приватну інформацію з навчальних даних і історії діалогів.
Цікаво, що хоча GPT-4 зазвичай є більш надійним, ніж GPT-3.5, на стандартних тестах, він виявляється більш вразливим до атак, коли стикається з навмисно спроектованими системними або користувацькими запитами. Це може бути пов'язано з тим, що GPT-4 більш точно виконує оманливі інструкції.
Дослідницька команда провела глибокий аналіз роботи моделі в різних сценах. Наприклад, під час оцінки стійкості до атак на текст вони створили три оцінювальні сцени, включаючи стандартне бенчмаркінг, тестування під різними настановами завдань, а також більш складні тести з використанням агресивних текстів.
Дослідження щодо токсичності та упередженості виявили, що моделі GPT мають незначні відхилення по більшості тем стереотипів під доброзичливими та нейтральними системними підказками. Проте під оманливими системними підказками обидві моделі GPT можуть бути "обмануті" на прийняття упередженого контенту. У порівнянні з GPT-3.5, GPT-4 легше піддається впливу цілеспрямованих оманливих системних підказок.
Щодо проблеми витоку конфіденційності, дослідження виявило, що моделі GPT можуть розкривати чутливу інформацію з навчальних даних, таку як електронні адреси. У деяких випадках використання додаткових знань може суттєво підвищити точність вилучення інформації. Крім того, модель може також розкрити приватну інформацію, введену в історію діалогу.
В цілому, це дослідження надає нам всебічну оцінку надійності моделей GPT, виявляючи деякі важливі прогалини в надійності. Дослідницька команда сподівається, що ця робота зможе заохотити більше дослідників продовжити поглиблене вивчення на цій основі, об'єднавши зусилля для створення більш потужних і надійних моделей.