SecLab
2024年6月30日
美国商务部今天宣布,在拜登总统关于安全、可靠和可信赖的人工智能(AI)发展的行政命令(EO)发布 270 天后,发布新的指导方针和软件,以帮助提高人工智能系统的安全性、可靠性和可信赖性。
商务部的国家标准与技术研究院(NIST)发布了三份最终指导文件,这些文件最初于 4 月发布以供公众评论,以及美国 AI 安全研究所的一份旨在帮助减轻风险的指导文件草案。NIST 还发布了一个软件包,旨在测量对抗性攻击如何降低 AI 系统的性能。此外,商务部的美国专利商标局(USPTO)发布了一份关于专利主题资格的指导更新,以解决包括 AI 在内的关键和新兴技术的创新问题。
“尽管生成式 AI 具有潜在的变革性好处,但它也带来了与传统软件显著不同的风险。这些指导文件和测试平台将告知软件创建者这些独特的风险,并帮助他们在支持创新的同时开发减轻这些风险的方法。” ——劳里·E·洛卡西奥,商务部标准与技术副部长兼 NIST 主任
阅读商务部新闻稿全文。 阅读白宫关于 AI 行政行动的事实清单。
背景:NIST 回应 2023 年 AI 行政命令交付 5 个产品 NIST 的发布涵盖了 AI 技术的各个方面。其中两个是首次发布:一个是美国 AI 安全研究所的指导文件草案,旨在帮助软件开发者减轻生成式 AI 和双用途基础模型(可用于有益或有害目的的 AI 系统)的风险。另一个是一个测试平台,旨在帮助 AI 系统用户和开发者测量某些类型的攻击如何降低 AI 系统的性能。
其余三个发布中,两个是旨在帮助管理生成式 AI 风险的指导文件,这些技术使许多聊天机器人以及基于文本的图像和视频创建工具成为可能,并作为 NIST 的 AI 风险管理框架(AI RMF)和安全软件开发框架(SSDF)的配套资源。第三个提出了一个计划,让美国利益相关者与其他国家的利益相关者合作制定 AI 标准。这三份出版物之前于 4 月 29 日以草案形式发布以供公众评论,NIST 现在发布它们的最终版本。
NIST 今天首次宣布的两个发布是:
防止双用途基础模型的滥用 AI 基础模型是强大的工具,广泛应用于各种任务,有时被称为“双用途”,因为它们既有利又有害。NIST 的 AI 安全研究所发布了其关于管理双用途基础模型滥用风险的指南草案(NIST AI 800-1),概述了基础模型开发者如何保护其系统不被滥用来对个人、公共安全和国家安全造成故意伤害的自愿最佳实践。
该草案指导提供了七种关键方法来减轻模型被滥用的风险,并提供了如何实施这些方法以及如何透明地实施这些方法的建议。这些实践共同有助于防止模型通过开发生物武器、进行网络攻击和生成儿童性虐待材料和未经同意的亲密图像等活动造成伤害。
NIST 正在接受公众对双用途基础模型滥用风险管理草案的评论,截止日期为 2024 年 9 月 9 日东部时间晚上 11:59。评论可以提交至 NISTAI800-1@nist.gov。
测试 AI 系统模型如何响应攻击 AI 系统的一个漏洞是其核心模型。通过向模型暴露大量训练数据,它学会做出决策。但如果对手用不准确的数据毒化训练数据——例如,通过引入可能导致模型将停车标志误认为限速标志的数据——模型可能会做出错误、潜在灾难性的决策。测试对抗性攻击对机器学习模型的影响是 Dioptra 的目标之一,这是一个旨在帮助 AI 开发者和客户确定其 AI 软件如何抵御各种对抗性攻击的新软件包。
这个开源软件可以免费下载,可以帮助社区,包括政府机构和中小型企业,进行评估以评估 AI 开发者对其系统性能的声明。该软件回应了行政命令第 4.1(ii)(B)节,该节要求 NIST 帮助进行模型测试。Dioptra 通过允许用户确定哪些类型的攻击会使模型表现不佳并量化性能降低,从而使用户能够了解系统在何种情况下会失败。
今天首次发布的两个发布之外,还有三个最终文件:
减轻生成式 AI 的风险 AI RMF 生成式 AI 配置文件(NIST AI 600-1)可以帮助组织识别生成式 AI 带来的独特风险,并提出与他们的目标和优先级最一致的生成式 AI 风险管理行动。该指导旨在作为 NIST 的 AI RMF 用户的配套资源。它围绕 12 种风险和 200 多种开发者可以采取的行动来管理这些风险。
这 12 种风险包括降低网络安全攻击的门槛、产生错误和虚假信息或仇恨言论和其他有害内容,以及生成式 AI 系统捏造或“幻觉”输出。在描述每种风险后,该文件提出了开发者可以采取的行动矩阵来减轻风险,并映射到 AI RMF。
减少用于训练 AI 系统的数据面临的威胁 第二个最终出版物,生成式 AI 和双用途基础模型的安全软件开发实践(NIST 特别出版物(SP)800-218A),旨在与安全软件开发框架(SP 800-218)一起使用。虽然 SSDF 主要关注软件编码实践,但配套资源部分扩展了 SSDF,以解决生成式 AI 系统的一个主要关注点:它们可能被恶意训练数据破坏,从而对 AI 系统的性能产生不利影响。
除了涵盖 AI 系统的训练和使用方面,该指导文件还确定了潜在的风险因素和应对策略。其中建议包括分析训练数据中的中毒、偏见、同质性和篡改迹象。
全球参与 AI 标准 AI 系统不仅在美国,而且在世界各地都在改变社会。全球参与 AI 标准的计划(NIST AI 100-5),今天的第三个最终出版物,旨在推动全球 AI 相关共识标准、合作和协调以及信息共享的发展和实施。
该指导受 NIST 开发的联邦参与 AI 标准和相关工具计划的优先事项的启发,并与关键和新兴技术的国家标准战略相关联。该出版物建议更多来自不同国家的多学科利益相关者参与标准开发过程。