Studi Risiko AI Tidak Dipublikasikan NIST Masih Disimpan di Tengah Perubahan Administratif

Secara Singkat

Sebuah latihan red-teaming yang dipimpin oleh NIST di CAMLIS, mengevaluasi kerentanan dalam sistem AI canggih, menilai risiko seperti misinformasi, kebocoran data, dan manipulasi emosional.

Studi Risiko AI yang Tidak Dipublikasikan NIST Tetap Terpendam di Tengah Perubahan Administratif

Institut Nasional Standar dan Teknologi (NIST) menyelesaikan laporan tentang keamanan model AI canggih menjelang akhir pemerintahan Joe Biden, tetapi dokumen tersebut tidak dipublikasikan setelah transisi ke pemerintahan Donald Trump. Meskipun laporan tersebut dirancang untuk membantu organisasi dalam mengevaluasi sistem AI mereka, itu termasuk di antara beberapa dokumen AI yang ditulis oleh NIST yang ditahan rilisnya karena potensi konflik dengan arah kebijakan pemerintahan baru.

Sebelum menjabat, Presiden Donald Trump mengindikasikan niatnya untuk mencabut perintah eksekutif era Biden yang terkait dengan AI. Sejak transisi, administrasi telah mengalihkan fokus para ahli dari area seperti bias algoritmik dan keadilan dalam AI. Rencana Aksi AI yang dirilis pada bulan Juli secara khusus meminta revisi terhadap Kerangka Manajemen Risiko AI NIST, merekomendasikan penghapusan referensi terhadap informasi yang salah, Keberagaman, Kesetaraan, dan Inklusi (DEI), dan perubahan iklim.

Pada saat yang sama, Rencana Aksi AI mencakup proposal yang mirip dengan tujuan laporan yang belum dipublikasikan. Ini mengarahkan beberapa lembaga federal, termasuk NIST, untuk mengorganisir inisiatif hackathon AI yang terkoordinasi yang bertujuan untuk menguji sistem AI untuk transparansi, fungsionalitas, kontrol pengguna, dan potensi kerentanan keamanan.

Latihan Tim Merah yang Dipimpin NIST Menyelidiki Risiko Sistem AI Menggunakan Kerangka ARIA di Konferensi CAMLIS

Latihan red-teaming dilakukan di bawah program Menilai Risiko dan Dampak AI (ARIA) oleh NIST, bekerja sama dengan Humane Intelligence, sebuah perusahaan yang fokus pada evaluasi sistem AI. Inisiatif ini diadakan selama Konferensi tentang Pembelajaran Mesin Terapan dalam Keamanan Informasi (CAMLIS), di mana para peserta mengeksplorasi kerentanan dari berbagai teknologi AI canggih.

Laporan CAMLIS Red Teaming mendokumentasikan penilaian berbagai alat AI, termasuk Llama dari Meta, sebuah model bahasa besar sumber terbuka (LLM); Anote, sebuah platform untuk mengembangkan dan menyempurnakan model AI; sebuah sistem keamanan dari Robust Intelligence, yang sejak itu telah diakuisisi oleh CISCO; dan platform generasi avatar AI dari Synthesia. Perwakilan dari setiap organisasi berkontribusi pada kegiatan red-teaming.

Peserta menggunakan kerangka NIST AI 600-1 untuk menganalisis alat yang dimaksud. Kerangka ini menguraikan berbagai area risiko, seperti potensi AI untuk menghasilkan informasi yang salah atau ancaman terhadap keamanan siber, mengungkapkan data pribadi atau sensitif, atau mendorong ketergantungan emosional antara pengguna dan sistem AI.

Laporan Red Teaming AI yang Belum Dirilis Mengungkap Kerentanan Model, Memicu Kekhawatiran Tentang Penindasan Politik dan Insight Penelitian yang Terlewatkan

Tim peneliti menemukan beberapa metode untuk menghindari perlindungan yang dimaksudkan dari alat-alat yang sedang dievaluasi, yang mengakibatkan keluaran yang mencakup informasi yang salah, pengungkapan informasi pribadi, dan bantuan dalam membentuk strategi serangan siber. Menurut laporan tersebut, beberapa aspek dari kerangka NIST terbukti lebih dapat diterapkan daripada yang lain. Laporan itu juga mencatat bahwa kategori risiko tertentu kurang memiliki kejelasan yang diperlukan untuk penggunaan praktis.

Individu yang familiar dengan inisiatif red-teaming menyatakan bahwa temuan dari latihan tersebut dapat memberikan wawasan berharga kepada komunitas penelitian dan pengembangan AI secara lebih luas. Salah satu peserta, Alice Qian Zhang, seorang kandidat doktor di Carnegie Mellon University, mencatat bahwa berbagi laporan tersebut secara publik mungkin telah membantu memperjelas bagaimana kerangka risiko NIST berfungsi ketika diterapkan dalam lingkungan pengujian dunia nyata. Dia juga menekankan bahwa interaksi langsung dengan para pengembang alat selama penilaian menambah nilai pada pengalaman tersebut.

Kontributor lain, yang memilih untuk tetap anonim, menunjukkan bahwa latihan tersebut mengungkapkan teknik pemicu spesifik—menggunakan bahasa seperti Rusia, Gujarat, Marathi, dan Telugu—yang sangat berhasil dalam memicu keluaran terlarang dari model seperti Llama, termasuk instruksi terkait bergabung dengan kelompok ekstremis. Individu ini menyarankan bahwa keputusan untuk tidak merilis laporan tersebut mungkin mencerminkan pergeseran yang lebih luas menjauh dari area yang dianggap terkait dengan keragaman, kesetaraan, dan inklusi menjelang pemerintahan yang akan datang.

Beberapa peserta berspekulasi bahwa penghilangan laporan tersebut mungkin juga berasal dari fokus pemerintah yang meningkat pada risiko-risiko besar—seperti potensi penggunaan sistem AI dalam mengembangkan senjata pemusnah massal—dan upaya paralel untuk memperkuat hubungan dengan perusahaan teknologi besar. Salah satu peserta tim merah berkomentar secara anonim bahwa pertimbangan politik kemungkinan memainkan peran dalam penahanan laporan tersebut dan bahwa latihan tersebut mengandung wawasan yang relevan secara ilmiah.

IN-1.64%
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
0/400
Tidak ada komentar
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)