AI 安全 (AI Security): 捍卫智能系统的“工程防御手册”
想象一下,我们正在建造一座坚不可摧的 AI“城堡”。
-
AI 对齐 (AI Alignment)
关心的是城堡的 “顶层设计哲学”:城堡的最终目的是什么?城堡里的“国王”(AI)是否与人民(人类)同心同德?它关心的是“意图”和“价值观”。 -
而 AI 安全 (AI Security),则是这座城堡的 “工程防御手册”。它关心的是具体的技术和操作问题:如何防范外部的敌人攻破城墙?如何防止内部的坏人滥用权力?如何确保城堡的每一个部件都坚固可靠?
AI 安全是一个更具体、更偏向于攻防实践的领域,旨在保护 AI 系统免受内部和外部的恶意攻击、滥用和故障。
本文核心洞察
- 核心区别:AI 安全关心的是 “如何防范恶意行为者利用漏洞攻击 AI”(攻防问题),而 AI 对齐关心的是 “如何确保 AI 的意图与人类一致”(价值观问题)。
- 两大战场:AI 安全的实践主要分为两个层面。第一是 “为 AI 提供安全保障”,即传统网络安全在 AI 基础设施上的应用;第二是 “AI 模型自身安全”,即防御针对模型心智的独特攻击。
- 四类新型攻击:AI 模型本身面临四种独特的威胁:对抗性攻击(欺骗输入)、提示词注入(劫持逻辑)、数据投毒(污染训练)和模型萃取(窃取输出)。
- 防御哲学:AI 安全需要采用“纵深防御”策略。没有任何单一的解决方案能应对所有威胁,必须在数据、模型、应用和基础设施等多个层面建立防护。
战场一:为 AI 提供安全保障 (Security for AI)
这是 AI 安全最基础、最直观的层面,本质上是传统网络安全在 AI 领域的延伸。它保护的是承载 AI 模型的整个系统和基础设施。
其核心措施与传统 IT 系统无异:
- 访问控制 (Access Control):确保只有授权的用户和系统才能调用 AI 模型或访问其管理后台。
- API 安全:保护模型的 API 端点,防止DDoS攻击、注入攻击和未经授权的访问。
- 基础设施安全:确保服务器、网络和存储等底层设施的安全,防止被黑客入侵。
- 监控与审计:建立完善的日志和警报机制,实时监测异常行为,防范内部威胁。
这些措施能保护 AI 的“物理身体”,但无法防御针对其“心智”的攻击。
战场二:AI 模型自身安全 (Security of AI)
这是 AI 安全最独特、也最具挑战性的领域。这里的攻击者不再攻击服务器,而是作为一个普通用户,通过巧妙的输入来直接欺骗、操纵或破坏 AI 模型本身。
1. 输入端攻击:对抗性攻击 (Adversarial Attacks)
这种攻击旨在欺骗模型的“眼睛”和“耳朵”。
- 比喻:攻击者在一张“停车”路牌上贴了几个精心设计的小贴纸。人类司机一看,仍然是“停车”牌。但自动驾驶汽车的 AI 摄像头一看,却会以 99% 的置信度,把它识别成一个“限速100公里”的标志。
- 原理:通过对输入数据(图片、声音、文本)进行人眼难以察觉的微小扰动,利用模型在决策边界上的“盲点”,使其做出灾难性的错误判断。