Studi Komprehensif tentang Penilaian Kepercayaan Model Bahasa Besar
Sebuah penelitian yang dilakukan oleh University of Illinois Urbana-Champaign bersama Stanford University, University of California Berkeley, Center for AI Safety, dan Microsoft Research, telah melakukan evaluasi menyeluruh terhadap keandalan model transformer pra-latihan generatif (GPT). Tim peneliti merilis sebuah platform evaluasi komprehensif dan merinci temuan mereka dalam makalah terbaru berjudul "DecodingTrust: Evaluasi Menyeluruh Terhadap Keandalan Model GPT."
Penelitian mengungkapkan beberapa kerentanan terkait keandalan yang sebelumnya tidak dipublikasikan. Misalnya, model GPT mudah disesatkan, menghasilkan keluaran yang beracun dan bias, serta dapat membocorkan informasi pribadi dalam data pelatihan dan riwayat percakapan. Menariknya, meskipun GPT-4 biasanya lebih andal daripada GPT-3.5 dalam pengujian standar, GPT-4 justru lebih rentan terhadap serangan saat menghadapi prompt jahat yang bertujuan untuk menghindari langkah-langkah keamanan. Ini mungkin karena GPT-4 lebih ketat dalam mengikuti instruksi menyesatkan.
Tim penelitian melakukan evaluasi menyeluruh terhadap model GPT dari delapan sudut pandang kepercayaan, termasuk ketahanan terhadap serangan, toksisitas dan bias, serta kebocoran privasi. Mereka membangun berbagai skenario evaluasi untuk menguji kinerja model di bawah kondisi yang berbeda.
Dalam demonstrasi yang bersifat antagonis, penelitian menemukan bahwa GPT-3.5 dan GPT-4 memiliki ketahanan tertentu terhadap contoh-kontra-faktual, tetapi dalam beberapa kasus juga dapat disesatkan. Mengenai toksisitas dan bias, kedua model menunjukkan bias yang lebih kecil terhadap sebagian besar tema stereotip di bawah petunjuk yang bersifat baik, tetapi di bawah petunjuk yang menyesatkan, mereka dapat menghasilkan konten yang bias, terutama GPT-4.
Dalam hal privasi, penelitian menemukan bahwa model GPT dapat mengungkap informasi sensitif dari data pelatihan, seperti alamat email. Dalam beberapa kasus, memanfaatkan pengetahuan tambahan dapat secara signifikan meningkatkan akurasi ekstraksi informasi. Secara keseluruhan, GPT-4 menunjukkan kinerja yang lebih baik dalam melindungi informasi identitas pribadi, tetapi kedua model relatif tangguh dalam melindungi jenis informasi sensitif tertentu.
Tim penelitian menekankan bahwa pekerjaan ini bertujuan untuk mendorong lebih banyak peneliti untuk berpartisipasi dalam mencegah potensi penyalahgunaan. Mereka berharap bahwa tolok ukur ini dapat memfasilitasi kolaborasi dan mendorong pengembangan model yang lebih kuat dan lebih dapat dipercaya. Untuk itu, kode evaluasi yang mereka desain memiliki skalabilitas dan kemudahan penggunaan yang tinggi, hanya dengan satu perintah dapat melakukan evaluasi lengkap terhadap model baru.
Perlu dicatat bahwa tim penelitian bekerja sama dengan departemen produk terkait untuk memastikan bahwa temuan ini tidak akan mempengaruhi layanan yang ada untuk pelanggan. Ini sebagian berkat serangkaian langkah mitigasi yang telah diterapkan. Hasil penelitian juga telah dibagikan dengan pengembang model untuk perbaikan lebih lanjut.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Penilaian Keandalan Model Bahasa Besar: Mengungkap Kerentanan Keamanan dan Risiko Privasi GPT-4
Studi Komprehensif tentang Penilaian Kepercayaan Model Bahasa Besar
Sebuah penelitian yang dilakukan oleh University of Illinois Urbana-Champaign bersama Stanford University, University of California Berkeley, Center for AI Safety, dan Microsoft Research, telah melakukan evaluasi menyeluruh terhadap keandalan model transformer pra-latihan generatif (GPT). Tim peneliti merilis sebuah platform evaluasi komprehensif dan merinci temuan mereka dalam makalah terbaru berjudul "DecodingTrust: Evaluasi Menyeluruh Terhadap Keandalan Model GPT."
Penelitian mengungkapkan beberapa kerentanan terkait keandalan yang sebelumnya tidak dipublikasikan. Misalnya, model GPT mudah disesatkan, menghasilkan keluaran yang beracun dan bias, serta dapat membocorkan informasi pribadi dalam data pelatihan dan riwayat percakapan. Menariknya, meskipun GPT-4 biasanya lebih andal daripada GPT-3.5 dalam pengujian standar, GPT-4 justru lebih rentan terhadap serangan saat menghadapi prompt jahat yang bertujuan untuk menghindari langkah-langkah keamanan. Ini mungkin karena GPT-4 lebih ketat dalam mengikuti instruksi menyesatkan.
Tim penelitian melakukan evaluasi menyeluruh terhadap model GPT dari delapan sudut pandang kepercayaan, termasuk ketahanan terhadap serangan, toksisitas dan bias, serta kebocoran privasi. Mereka membangun berbagai skenario evaluasi untuk menguji kinerja model di bawah kondisi yang berbeda.
Dalam demonstrasi yang bersifat antagonis, penelitian menemukan bahwa GPT-3.5 dan GPT-4 memiliki ketahanan tertentu terhadap contoh-kontra-faktual, tetapi dalam beberapa kasus juga dapat disesatkan. Mengenai toksisitas dan bias, kedua model menunjukkan bias yang lebih kecil terhadap sebagian besar tema stereotip di bawah petunjuk yang bersifat baik, tetapi di bawah petunjuk yang menyesatkan, mereka dapat menghasilkan konten yang bias, terutama GPT-4.
Dalam hal privasi, penelitian menemukan bahwa model GPT dapat mengungkap informasi sensitif dari data pelatihan, seperti alamat email. Dalam beberapa kasus, memanfaatkan pengetahuan tambahan dapat secara signifikan meningkatkan akurasi ekstraksi informasi. Secara keseluruhan, GPT-4 menunjukkan kinerja yang lebih baik dalam melindungi informasi identitas pribadi, tetapi kedua model relatif tangguh dalam melindungi jenis informasi sensitif tertentu.
Tim penelitian menekankan bahwa pekerjaan ini bertujuan untuk mendorong lebih banyak peneliti untuk berpartisipasi dalam mencegah potensi penyalahgunaan. Mereka berharap bahwa tolok ukur ini dapat memfasilitasi kolaborasi dan mendorong pengembangan model yang lebih kuat dan lebih dapat dipercaya. Untuk itu, kode evaluasi yang mereka desain memiliki skalabilitas dan kemudahan penggunaan yang tinggi, hanya dengan satu perintah dapat melakukan evaluasi lengkap terhadap model baru.
Perlu dicatat bahwa tim penelitian bekerja sama dengan departemen produk terkait untuk memastikan bahwa temuan ini tidak akan mempengaruhi layanan yang ada untuk pelanggan. Ini sebagian berkat serangkaian langkah mitigasi yang telah diterapkan. Hasil penelitian juga telah dibagikan dengan pengembang model untuk perbaikan lebih lanjut.