NIST未發布的人工智能風險研究因行政變動而繼續擱置

簡要概述

由NIST領導的紅隊演習在CAMLIS進行,評估了先進AI系統中的漏洞,分析了諸如錯誤信息、數據泄露和情感操控等風險。

NIST 未發布的 AI 風險研究在行政變更中仍被擱置

國家標準與技術研究院(NIST)在喬·拜登政府快結束時完成了一份關於先進人工智能模型安全性的報告,但該文件在過渡到唐納德·川普政府後並未發布。盡管該報告旨在幫助組織評估其人工智能系統,但它是幾份由於與新政府政策方向可能存在衝突而被扣留的NIST撰寫的人工智能文件之一。

在就任之前,川普總統表示他打算撤銷與人工智能相關的拜登時代的行政命令。自過渡以來,政府已將專家的關注點從算法偏見和人工智能的公平性等領域轉移開。7月發布的人工智能行動計劃特別呼籲對NIST的人工智能風險管理框架進行修訂,建議刪除對錯誤信息、多樣性、公平性和包容性(DEI)以及氣候變化的提及。

與此同時,人工智能行動計劃包括一個類似於未公布報告目標的提案。它指示多個聯邦機構,包括NIST,組織一個協調的人工智能黑客馬拉松活動,旨在測試人工智能系統的透明度、功能、用戶控制和潛在的安全漏洞。

NIST主導的紅隊演習使用ARIA框架探討AI系統風險,地點在CAMLIS會議上

紅隊演習是在NIST的評估人工智能的風險與影響(ARIA)項目下進行的,合作夥伴是專注於評估人工智能系統的公司Humane Intelligence。該項目在信息安全應用機器學習會議(CAMLIS)期間舉行,參與者探討了一系列先進人工智能技術的脆弱性。

CAMLIS紅隊報告記錄了對各種AI工具的評估,包括Meta的Llama,一個開源大型語言模型(LLM);Anote,一個用於開發和完善AI模型的平台;來自Robust Intelligence的安全系統,該系統已被CISCO收購;以及Synthesia的AI頭像生成平台。每個組織的代表都參與了紅隊活動。

參與者利用NIST AI 600-1框架對相關工具進行了分析。該框架概述了多個風險領域,例如AI產生虛假信息或網路安全威脅的潛力,泄露私人或敏感數據,或促進用戶與AI系統之間的情感依賴。

未發布的AI紅隊報告揭示模型漏洞,引發對政治壓制和錯失研究見解的擔憂

研究團隊發現了幾種方法來規避評估工具的預期安全措施,導致輸出包括錯誤信息、私人信息的泄露以及協助制定網路攻擊策略。根據報告,NIST框架的某些方面比其他方面更具適用性。報告還指出,某些風險類別缺乏實際使用所需的清晰度。

熟悉紅隊計劃的個人表示,該活動的發現可能爲更廣泛的人工智能研究和開發社區提供了寶貴的見解。參與者之一,卡內基梅隆大學的博士生Alice Qian Zhang指出,公開分享報告可能有助於澄清NIST風險框架在真實測試環境中的運作方式。她還強調,在評估過程中與工具開發者的直接互動爲這次體驗增添了價值。

另一位選擇保持匿名的貢獻者表示,這項研究揭示了特定的提示技術——使用俄語、古吉拉特語、馬拉地語和泰盧固語——這些技術在從像Llama這樣的模型中引發禁止輸出方面特別成功,包括與加入極端主義團體相關的指令。這位個人建議,不發布該報告的決定可能反映出在即將上任的政府之前,向被視爲與多樣性、公平和包容性相關的領域的更廣泛轉變。

一些參與者推測,報告的遺漏可能也源於政府對高風險的關注加劇——例如人工智能系統在開發大規模毀滅性武器中的潛在應用——以及與主要科技公司加強關係的平行努力。一位紅隊參與者匿名評論說,政治考量很可能在於隱瞞報告中發揮了作用,而該演練包含了持續的科學相關見解。

IN2.01%
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)