Open-set Adversarial Defense

Open-set Adversarial Defense

背景

1、Open-set 的识别模型易受对抗攻击的影响 2、在闭集上训练的一些对抗防御方法不能很好地泛化到开放集

本文提供的方法无论在闭集上还是在开放集中,对抗样本的准确率都会提升。

proposed method

本文提出的方法包括4个CNN模块:

    encoder: 提取添加扰动攻击后的对抗样本的潜在特征,带特征去噪层(移除对抗噪声) decoder: 根据encoder提取到的特征进行noise-free图像重建。由此得到了重建后的图像与原图像的Reconstruction Loss(Lrec) open-set classifier: 开放集的分类器。由此得到了Classification Loss (Lcls) transformation classifier: 对原图像进行随机变换后再添加对抗扰动,然后通过转换分类器进行分类。由此得到了Self-supervision Loss (Lssd)

Noise-free Feature Encoding

一般分类CNN模型的前半部分,但是在每一层后面添加了一个去噪层。本文CNN模型基于resnet18,去噪层用的是基于non-local means filter的Gaussian(softmax)。

Open-set Classification

开放集的分类器与一般的分类器一样,但是在Full Connection层后添加了OpenMax层。分类器用来分类被扰动后的已知类别和未知类别的样本。 开放集分类器的交叉熵损失: θ heta θF: encoder layer参数 θ heta θH: Open-set 分类 layer 参数

Decoder:Clean Image Generation

根据encoder提取的对抗样本去噪后的特征进行重建。这一方法被应用于之前的开放集识别工作中。优化生成的样本与原未添加扰动的样本之间的距离。同时,这一方法也有助于提升对抗防御能力。 生成的样本与干净样本之间的距离: θ heta θG: decoder layer 参数

Transformation classification:Self-supervised Denoising

对原干净图像进行几何变换后再添加对抗扰动,目的是提供能多的信息,增加模型的鲁棒性。 rotation-based 自监督方法:对图像进行随机旋转,Transformation 分类器自动识别旋转的角度。

transformation classification的交叉熵损失: θ heta θT: transformation layer参数 r: ground-true 旋转的角度

实验

model: Resnet-18 optimizer: Adam (learning rate 1e-3) attacks: PDG(iteration=5, ϵ epsilon ϵ = 0.3) FGSM( ϵ epsilon ϵ = 0.3) dataset:

    SVHN:Street-View House Number dataset, 10 classes, 32 x 32 CIFAR10:four vehicle classes and six animal classes, 10 classes, 32 x 32 TinyImageNet: sub-set of 200 classes selected from the ImageNet dataset, 20 classes are randomly selected to be known and the ramaining 180 classes are chosen to be open-set classed, 64 x 64

close-set accuracy

open-set accurancy

1、模型需要检测出开放集中的样本,检测效果通过ROC曲线下的面积衡量 2、需要正确分类闭集中的样本,检测效果通过识别准确率衡量 对比表2和表3,我们可以得到以下信息:

    在开集和闭集上,干净样本的准确率都很高 添加扰动后,在闭集和开放集上的准确率都有很大下降 无论是对抗训练还是去噪,都可以提升准确率 本文提出的方法无论在闭集还是开放集中的效果都是最好的

Out-of-distribution accurancy

training known-classes: FIFAR10 dataset testing out-of-distribution images: ImageNet and LSUN dataset (both cropped and resized)

由表4可知,本文提供的方法对Out-of-distribution数据集的攻击也很有防御效果。

[paper] [code]

经验分享 程序员 微信小程序 职场和发展