NIST未发布的人工智能风险研究因行政变动而继续搁置

简要概述

由NIST领导的红队演习在CAMLIS进行,评估了先进AI系统中的漏洞,分析了诸如错误信息、数据泄露和情感操控等风险。

NIST 未发布的 AI 风险研究在行政变更中仍被搁置

国家标准与技术研究院(NIST)在乔·拜登政府快结束时完成了一份关于先进人工智能模型安全性的报告,但该文件在过渡到唐纳德·特朗普政府后并未发布。尽管该报告旨在帮助组织评估其人工智能系统,但它是几份由于与新政府政策方向可能存在冲突而被扣留的NIST撰写的人工智能文件之一。

在就任之前,特朗普总统表示他打算撤销与人工智能相关的拜登时代的行政命令。自过渡以来,政府已将专家的关注点从算法偏见和人工智能的公平性等领域转移开。7月发布的人工智能行动计划特别呼吁对NIST的人工智能风险管理框架进行修订,建议删除对错误信息、多样性、公平性和包容性(DEI)以及气候变化的提及。

与此同时,人工智能行动计划包括一个类似于未公布报告目标的提案。它指示多个联邦机构,包括NIST,组织一个协调的人工智能黑客马拉松活动,旨在测试人工智能系统的透明度、功能、用户控制和潜在的安全漏洞。

NIST主导的红队演习使用ARIA框架探讨AI系统风险,地点在CAMLIS会议上

红队演习是在NIST的评估人工智能的风险与影响(ARIA)项目下进行的,合作伙伴是专注于评估人工智能系统的公司Humane Intelligence。该项目在信息安全应用机器学习会议(CAMLIS)期间举行,参与者探讨了一系列先进人工智能技术的脆弱性。

CAMLIS红队报告记录了对各种AI工具的评估,包括Meta的Llama,一个开源大型语言模型(LLM);Anote,一个用于开发和完善AI模型的平台;来自Robust Intelligence的安全系统,该系统已被CISCO收购;以及Synthesia的AI头像生成平台。每个组织的代表都参与了红队活动。

参与者利用NIST AI 600-1框架对相关工具进行了分析。该框架概述了多个风险领域,例如AI产生虚假信息或网络安全威胁的潜力,泄露私人或敏感数据,或促进用户与AI系统之间的情感依赖。

未发布的AI红队报告揭示模型漏洞,引发对政治压制和错失研究见解的担忧

研究团队发现了几种方法来规避评估工具的预期安全措施,导致输出包括错误信息、私人信息的泄露以及协助制定网络攻击策略。根据报告,NIST框架的某些方面比其他方面更具适用性。报告还指出,某些风险类别缺乏实际使用所需的清晰度。

熟悉红队计划的个人表示,该活动的发现可能为更广泛的人工智能研究和开发社区提供了宝贵的见解。参与者之一,卡内基梅隆大学的博士生Alice Qian Zhang指出,公开分享报告可能有助于澄清NIST风险框架在真实测试环境中的运作方式。她还强调,在评估过程中与工具开发者的直接互动为这次体验增添了价值。

另一位选择保持匿名的贡献者表示,这项研究揭示了特定的提示技术——使用俄语、古吉拉特语、马拉地语和泰卢固语——这些技术在从像Llama这样的模型中引发禁止输出方面特别成功,包括与加入极端主义团体相关的指令。这位个人建议,不发布该报告的决定可能反映出在即将上任的政府之前,向被视为与多样性、公平和包容性相关的领域的更广泛转变。

一些参与者推测,报告的遗漏可能也源于政府对高风险的关注加剧——例如人工智能系统在开发大规模毁灭性武器中的潜在应用——以及与主要科技公司加强关系的平行努力。一位红队参与者匿名评论说,政治考量很可能在于隐瞒报告中发挥了作用,而该演练包含了持续的科学相关见解。

IN4.3%
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate APP
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)