Всеобъемлюче дослідження оцінки достовірності великих мовних моделей
Дослідження, проведене Університетом Іллінойс у Шампейні спільно з Університетом Стенфорда, Університетом Каліфорнії в Берклі, Центром безпеки штучного інтелекту та Дослідницькою лабораторією Microsoft, провело всебічну оцінку надійності моделей генеративних попередньо навчальних трансформерів (GPT). Дослідницька група опублікувала комплексну платформу оцінки та детально виклала свої висновки у недавній статті «DecodingTrust: всебічна оцінка надійності моделей GPT».
Дослідження виявило кілька раніше неоприлюднених вразливостей, пов'язаних з надійністю. Наприклад, моделі GPT схильні до дезінформації, що призводить до токсичних і упереджених результатів, а також можуть розкривати конфіденційну інформацію з навчальних даних і історії діалогів. Цікаво, що, незважаючи на те, що GPT-4 зазвичай більш надійний у стандартних бенчмарках порівняно з GPT-3.5, він виявляється більш вразливим до атаки при зіткненні з шкідливими запитами, які мають на меті обійти заходи безпеки. Це може бути пов'язано з тим, що GPT-4 суворіше дотримується оманливих інструкцій.
Дослідницька команда провела всебічну оцінку моделі GPT з восьми аспектів достовірності, включаючи стійкість до атаки, токсичність і упередженість, витік приватності та інші аспекти. Вони створили різні сценарії оцінки для тестування роботи моделі в різних умовах.
У контексті демонстрацій протидії дослідження показали, що GPT-3.5 та GPT-4 мають певну стійкість до контрфактичних прикладів, але в деяких випадках можуть бути введені в оману. Щодо токсичності та упередженості, обидві моделі мають менше упереджень щодо більшості тем стереотипів за доброзичливих підказок, але за оманливих підказок вони можуть генерувати упереджений контент, особливо GPT-4.
У сфері конфіденційності дослідження виявило, що моделі GPT можуть розкривати чутливу інформацію з навчальних даних, таку як адреси електронної пошти. У певних випадках використання додаткових знань може значно підвищити точність витягання інформації. Загалом, GPT-4 демонструє кращі результати в захисті особистої ідентифікаційної інформації, але обидві моделі відносно стійкі у захисті певних типів чутливої інформації.
Дослідницька команда підкреслила, що ця робота має на меті заохотити більше дослідників до участі для запобігання потенційному зловживанню. Вони сподіваються, що цей еталон сприятиме співпраці та розвитку більш потужних і надійних моделей. Для цього вони розробили код оцінки з високою масштабованістю та зручністю використання, який дозволяє проводити повну оцінку нових моделей всього за одну команду.
Варто зазначити, що дослідна команда співпрацює з відповідними підрозділами продукту, щоб підтвердити, що ці відкриття не вплинуть на поточні послуги для клієнтів. Ця частина заслуга реалізованої низки заходів пом'якшення. Результати дослідження також були поділені з розробниками моделей для подальшого вдосконалення.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Оцінка достовірності великих мовних моделей: Вразливості безпеки GPT-4 та виявлення ризиків конфіденційності
Всеобъемлюче дослідження оцінки достовірності великих мовних моделей
Дослідження, проведене Університетом Іллінойс у Шампейні спільно з Університетом Стенфорда, Університетом Каліфорнії в Берклі, Центром безпеки штучного інтелекту та Дослідницькою лабораторією Microsoft, провело всебічну оцінку надійності моделей генеративних попередньо навчальних трансформерів (GPT). Дослідницька група опублікувала комплексну платформу оцінки та детально виклала свої висновки у недавній статті «DecodingTrust: всебічна оцінка надійності моделей GPT».
Дослідження виявило кілька раніше неоприлюднених вразливостей, пов'язаних з надійністю. Наприклад, моделі GPT схильні до дезінформації, що призводить до токсичних і упереджених результатів, а також можуть розкривати конфіденційну інформацію з навчальних даних і історії діалогів. Цікаво, що, незважаючи на те, що GPT-4 зазвичай більш надійний у стандартних бенчмарках порівняно з GPT-3.5, він виявляється більш вразливим до атаки при зіткненні з шкідливими запитами, які мають на меті обійти заходи безпеки. Це може бути пов'язано з тим, що GPT-4 суворіше дотримується оманливих інструкцій.
Дослідницька команда провела всебічну оцінку моделі GPT з восьми аспектів достовірності, включаючи стійкість до атаки, токсичність і упередженість, витік приватності та інші аспекти. Вони створили різні сценарії оцінки для тестування роботи моделі в різних умовах.
У контексті демонстрацій протидії дослідження показали, що GPT-3.5 та GPT-4 мають певну стійкість до контрфактичних прикладів, але в деяких випадках можуть бути введені в оману. Щодо токсичності та упередженості, обидві моделі мають менше упереджень щодо більшості тем стереотипів за доброзичливих підказок, але за оманливих підказок вони можуть генерувати упереджений контент, особливо GPT-4.
У сфері конфіденційності дослідження виявило, що моделі GPT можуть розкривати чутливу інформацію з навчальних даних, таку як адреси електронної пошти. У певних випадках використання додаткових знань може значно підвищити точність витягання інформації. Загалом, GPT-4 демонструє кращі результати в захисті особистої ідентифікаційної інформації, але обидві моделі відносно стійкі у захисті певних типів чутливої інформації.
Дослідницька команда підкреслила, що ця робота має на меті заохотити більше дослідників до участі для запобігання потенційному зловживанню. Вони сподіваються, що цей еталон сприятиме співпраці та розвитку більш потужних і надійних моделей. Для цього вони розробили код оцінки з високою масштабованістю та зручністю використання, який дозволяє проводити повну оцінку нових моделей всього за одну команду.
Варто зазначити, що дослідна команда співпрацює з відповідними підрозділами продукту, щоб підтвердити, що ці відкриття не вплинуть на поточні послуги для клієнтів. Ця частина заслуга реалізованої низки заходів пом'якшення. Результати дослідження також були поділені з розробниками моделей для подальшого вдосконалення.