无监督学习可以检测未知的对抗性攻击
2022年1月12日整理发布:人们越来越担心机器学习模型成为许多关键应用程序的重要组成部分而产生的新安全威胁。威胁列表的顶部是对抗性攻击,这些数据样本经过不显眼的修改以操纵目标机器学习模型的行为。
对抗性机器学习已成为热门研究领域,也是人工智能会议上的演讲和研讨会主题。科学家们经常寻找新的方法来攻击和防御机器学习模型。
卡内基梅隆大学和 KAIST 网络安全研究中心的研究人员开发的一项新技术采用无监督学习来解决当前用于检测对抗性攻击的方法的一些挑战。这项新技术在 ACM 知识发现和数据挖掘会议 (KDD 2021)的对抗性机器学习研讨会(AdvML) 上发表,利用机器学习可解释性方法来找出哪些输入数据可能经历了对抗性扰动。
创建对抗样本
假设攻击者想要发起对抗性攻击,导致图像分类器将图像的标签从“狗”更改为“猫”。攻击者从未经修改的狗图像开始。当目标模型处理此图像时,它会返回已训练过的每个类的置信度分数列表。具有最高置信度分数的类对应于图像所属的类。
然后,攻击者在图像中添加少量随机噪声,并再次通过模型运行。修改会导致模型输出发生微小变化。通过重复该过程,攻击者找到了一个方向,该方向将导致主要置信度得分降低而目标置信度得分增加。通过重复这个过程,攻击者可以使机器学习模型将其输出从一个类更改为另一个类。
对抗性攻击算法通常具有一个epsilon参数,该参数限制允许对原始图像进行的更改量。epsilon 参数确保对抗性扰动仍然无法被人眼察觉。
有多种方法可以保护机器学习模型免受对抗性攻击。然而,大多数流行的防御方法在计算、准确性或通用性方面引入了相当大的成本。
例如,一些方法依赖于有监督的对抗训练。在这种情况下,防御者必须生成大量对抗样本并微调目标网络以正确分类修改后的样本。这种方法会产生示例生成和训练成本,并且在某些情况下,它可能会降低目标模型在原始任务上的性能。它也不能保证可以抵抗未经训练的攻击技术。
其他防御方法需要防御者训练一个单独的机器学习模型来检测特定类型的对抗性攻击。这可能有助于保持目标模型的准确性,但不能保证能够对抗未知的对抗性攻击技术。