一種快速的無代替模型的黑盒對抗攻擊算法 SurFree

作者：seven010@墨云科技VLab Team
原文鏈接：https://mp.weixin.qq.com/s/XYpeT7tdVD7l-LfFrhDm-g

今天筆者給大家推薦一篇高效的基于決策的黑盒對抗攻擊算法的文章——SurFree: a fast surrogate-free black-box attack，目前該工作已被CVPR2021錄用。

論文地址：https://arxiv.org/abs/2011.12807v1

黑盒攻擊

基于分數的黑盒攻擊算法是根據目標模型對輸入樣本的輸出，即各個類別的概率分數來估計目標模型損失函數的梯度，進而構造相應的對抗樣本。整個過程既不需要知道目標模型的內部信息，也不需要訓練額外的替代模型。

基于決策的黑盒攻擊算法的特點是僅僅依靠目標模型返回的最終標簽類別來生成對抗樣本。相比其他兩類攻擊方法，基于決策的黑盒攻擊算法既不需要訓練替代模型，也不需要知道每個輸入樣本歸屬于各個類別的概率分數，但往往需要向目標模型進行更多次的查詢以達到最優的攻擊性能。該類型攻擊又稱為hard-label attack。

基于可遷移性的黑盒攻擊，針對某一種機器學習模型的對抗樣本常常也會被其它的機器學習模型錯誤分類。為了攻擊目標模型，攻擊者首先會訓練一個與目標模型盡可能相似的替代模型。對于攻擊者而言，替代模型的全部信息都是已知的，因此可以使用已有的白盒對抗攻擊算法來生成能夠成功欺騙替代模型的對抗樣本，根據對抗樣本的可遷移性，這些對抗樣本大概率也能成功欺騙攻擊者真正想要攻擊的目標模型。

SurFree攻擊

算法概要

機器學習分類器極易受到對抗樣本的攻擊。所謂對抗樣本，是指在數據集中通過故意添加細微的干擾所形成的輸入樣本，并導致模型給出一個高置信度的錯誤輸出，同時在人類視覺感知上保持與原始樣本的高度一致。在過去幾年中，為了偽造對抗樣本，黑盒攻擊向目標分類器提交的查詢數量顯著減少，這方面研究的進展主要集中于基于分數的黑盒攻擊，即攻擊者通過獲得的分類預測概率實現攻擊，將其查詢量從數百萬次減少到不足一千次。

本文介紹的SurFree是一種基于幾何原理的對抗攻擊算法，可以在最苛刻的條件下，即基于黑盒決策的攻擊，僅依賴最終的分類標簽來大幅減少查詢花銷。在苛刻條件下實現優秀的對抗攻擊，HSJA、QEBA 和 GeoDA 都執行了代價高昂的梯度代理估計，而SurFree避免了代價高昂的梯度代理估計，基于分類器決策邊界的幾何特性制導，專注于沿著不同方向的探索。在與其他最新的攻擊算法進行正面比較之前，筆者對SurFree進行了實驗，并重點關注查詢量，SurFree在低查詢量（幾百到一千）的情況下表現出更快的失真衰減，而在更高的查詢預算下保持更強競爭力。

算法介紹

作者認為之前做梯度估計的方法會在估計梯度時采樣B個樣本，從而浪費了大量的查詢。下圖展示了隨著查詢數量的增多，其擾動導致的失真情況。通過對350多幅圖像求平均值可知，其他攻擊的失真情況表現出明顯的階梯形狀。

圖一

為了避免冗余的梯度估計，作者提出了一種有效的隨機搜索方法，即將原始樣本與當前在邊界上的對抗樣本起來，通過施密特正交化產生一個隨機正交向量，保證與連接的向量以及之前采樣過的向量都正交，然后在該正交向量與連接向量構成的超平面內搜索，代替其在整個高維空間內搜索。

插值方法

如下圖所示，受watermark攻擊的啟發，邊界面具有小曲率的凸曲面，從給定角度，距離為d的點開始，給出角度距離，在邊界上以角度找到第三個點。當為0，/2和，通過二階多項式插值從角度到距離并在以下位置找到其最小值：

利用二分搜索法找到了和之間的邊界點，點在邊界上找到的最近的點。

圖二

算法流程圖

圖三

基本流程：首先構建超平面，通過旋轉角度搜索更近的對抗樣本，再通過二分法細化角度。如果第二步找不到更近的對抗樣本，則重新采樣方向構建另一個超平面去尋找。

1.初始化：該算法需要一個初始化的點，通過目標攻擊或非目標攻擊生成對抗樣本點。

2.搜索新方向：第k次迭代中，原始樣本和當前對抗樣本連線向量，使用DCT基產生一個偽隨機向量，將與和前次產生的方向做施密特正交化，正交后的方向向量為，即本次產生的新方向。

3.搜索：在當前方向和所構成的平面內，由當前給定的最大角度，乘以系數來試探點是否為對抗樣本，一旦發現對抗樣本圖片搜索立即停止。否則縮小重新生成一個進行上述搜索。

4.二分法搜索：找到角度以及符號后，用二分法搜索在細化步，最后增大。

實驗結果

評估指標

論文中的評估指標是查詢的數量，以及受攻擊圖像的對抗擾動。對抗擾動是用空間上的范數來進行測量的（用像素的數量乘以顏色通道的數量）。對于給定的，它是在查詢序列上獲得的最小擾動，具體表達式為：

N張原始圖像上的平均值給出了攻擊效率的特征，揭示了其找到接近原始圖像的對抗樣本的能力，具體的表達式為：

作者將成功率定義為在查詢預算內獲得低于目標數據的失真概率，具體的表達式為：

實驗分析

本論文中的攻擊方向的產生是高度隨機的，這可能會產生不穩定的結果，產生分散擾動的對抗圖像。下面兩幅圖分別展示了100幅圖像的平均失真情況和一幅圖像被攻擊20次的標準偏差。這兩幅圖展示了一次迭代在查詢數量方面的復雜性與失真率下降的增益之間的權衡，并且可以發現，SurFree攻擊算法很好地權衡了平均失真和標準偏差這兩方面。

圖四

圖五

如下表所示，在最初的一千個查詢中，全像素域的失真更大。對于相同的查詢代價，將擾動約束在用全離散余弦變換定義的較小低頻子空間中是更加有益的。

圖六

下表顯示了三個被攻擊圖像的視覺展示，這三個被攻擊圖像分別是容易攻擊、中等攻擊和難以攻擊。雖然這三種攻擊對圖像的影響不同，可以很明顯的發現SurFree攻擊生成的對抗樣本非常有針對性，并且生成的對抗擾動不是漫無目的。

圖七

參考文獻：

Maho T, Furon T, Le Merrer E. SurFree: a fast surrogate-free black-box attack[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 10430-10439.

注：本文圖片圖一至圖七均來源于以上論文

Paper 本文由 Seebug Paper 發布，如需轉載請注明來源。本文地址：http://www.bjnorthway.com/1958/

Paper - 安全技術精粹

一種快速的無代替模型的黑盒對抗攻擊算法 SurFree

目錄

黑盒攻擊

SurFree攻擊

實驗結果

暫無評論