應用

技術

物聯網世界 >> 物聯網新聞 >> 物聯網熱點新聞
企業(yè)注冊個人注冊登錄

深度揭秘AI換臉原理,為啥最先進分類器也認不出?

2020-04-21 09:36 智東西(公眾號:zhidxcom)
關鍵詞:AI換臉物聯網

導讀:AI換臉已不是新鮮事,手機應用市場中有多款換臉app,此前也曾曝出有網絡IP用明星的面孔偽造色情影片、在大選期間用競選者的臉制作虛假影像信息等。

AI換臉已不是新鮮事,手機應用市場中有多款換臉app,此前也曾曝出有網絡IP用明星的面孔偽造色情影片、在大選期間用競選者的臉制作虛假影像信息等。

為了規(guī)避Deepfake濫用帶來的惡性后果,許多研究者嘗試用AI技術開發(fā)鑒定分類器。

然而,谷歌公司和加州大學伯克利分校的研究人員最近的研究顯示,現在的鑒定技術水平還不足以100%甄別出AI換臉作品。另一項由加州大學圣地亞哥分校主導的研究也得出了相同結論。

這些研究結果為我們敲響了警鐘,要警惕AI換臉制作的虛假信息。

目前谷歌和加州大學伯克利分校的研究已經發(fā)表在學術網站arXiv上,論文標題為《用白盒、黑盒攻擊繞過Deepfake圖像鑒別工具(Evading Deepfake-Image Detectors with White- and Black-Box Attacks)》

論文鏈接:https://arxiv.org/pdf/2004.00622.pdf

一、實驗準備:訓練3種分類器,設置對照組

實現AI換臉的技術被稱為Deepfake,原理是基于生成對抗網絡(generative adversarial networks,GAN)合成虛假圖片。GAN由一個生成網絡和一個判別網絡組成。

GAN模型的學習過程就是生成網絡和判別網絡的相互博弈的過程:生成網絡隨機合成一張圖片,讓判別網絡判斷這張圖片的真假,繼而根據判別網絡給出的反饋不斷提高“造假”能力,最終做到以假亂真。

研究人員共對3個分類器做了測試,其中兩個為第三方分類器,一個為研究人員訓練出的用于對照的分類器。

選用的第三方分類器分別采用兩種不同訓練方式。

第一個分類器模型基于深度殘差網絡ResNet-50(Deepresidual network)。

用到的ResNet-50預先經過大型視覺數據庫ImageNet訓練,接下來再被訓練用于辨別真假圖像。采用包含720000個訓練圖像、4000個驗證圖像的訓練集,其中一半為真實圖像,另一半是用ProGAN生成的合成圖像。合成圖像采用空間模糊和JEPG壓縮方法增強。

經過訓練后,這個分類器能準確識別出ProGAN生成的圖像,而且還能分類其他未被發(fā)現的圖像。

第二個鑒定分類器采用的是基于相似性學習(similar learning-based)的方法。經過訓練后這款分類器可以準確辨認出由不同生成器合成的圖像。

研究團隊還自己搭建了一個鑒定分類器模型,作為前述兩個鑒定分類器的對照示例。這個分類器采用100萬個ProGAN生成的圖像進行訓練,其中真假圖像各占一半。論文中指出,這個分類器的訓練管道比前述兩種簡單很多,因此錯誤率也更高。

研究人員根據分類器是否開放了訪問權限,選用了不同的攻擊方式。對開發(fā)訪問權限的分類器采用白盒攻擊;對不開放訪問權限的分類器采用黑盒攻擊。

另外,研究人員用接收者操作特征曲線(ROC曲線)評估分類器的正確率。評估標準是曲線下面積(AUC)的大小。AUC的取值范圍為0~1,一般來說AUC>0.5即代表分類器有預測價值,AUC值越大代表分類器準確率越高。

二、4種白盒攻擊方法,AUC最低被降至0.085

對于開放了訪問權限的分類器,研究人員用白盒攻擊評估其穩(wěn)健性。

白盒攻擊即攻擊者能夠獲知分類器所使用的算法以及算法使用的參數。在產生對抗性攻擊數據的過程中,攻擊者能夠與分類器系統(tǒng)產生交互。

攻擊過程中用到的所有圖像都來自一個包含94036張圖像的視覺數據庫。

開始白盒攻擊之前,基于這個數據庫的分類器的AUC數值為0.97。即使在執(zhí)行典型的清洗策略隱藏圖像合成痕跡后,分類器的AUC數值仍保持在0.94以上。

接下來研究人員使用了4種白盒攻擊方法。這4種攻擊在之前的對抗性示例中已有過研究。攻擊的具體方式是對圖像進行修改,使分類器誤認為它們是真實的。

▲四種攻擊前后,分類器的ROC曲線圖。藍色實線代表JPEG格式的合成圖像,藍色虛線代表PNG格式的合成圖像

第一種是失真最小化攻擊(Distortion-minimizing Attack),即對合成圖像添加一個較小的加法擾動δ。假設一個合成圖像x先被分類器判定為假,施加擾動后,(x+δ)就會被判定為真。

結果顯示,像素翻轉2%,就會有71.3%的假圖像被誤判為真;像素翻轉4%,會有89.7%的假圖像被誤判為真;像素翻轉4~11%,所有的假圖像都會被誤判為真。

▲a:分類器把假圖像識別為真;b:分類器把真圖像識別為假。把像素翻轉1%,就會有一半的假圖像被判定為真;把像素翻轉7%,就會有一半的真圖像被判定為假。

第二種是損失最大化攻擊(Loss-Maximizing Attack),即定義一個更簡單的目標函數,更大限度地提升合成圖像被判定為真的概率。

結果顯示把未壓縮圖像的像素翻轉40%,AUC值就會從0.966降到0.27。

第三種是通用對抗性補丁攻擊(Universal Adversarial-Patch Attack)。失真最小化攻擊方法有有一個局限性:攻擊者需要花費0.1秒為每個圖像定制攻擊方式。為了彌補這一局限性,研究人員創(chuàng)建了一個單一的可視噪聲模板補丁。這個補丁可以疊加在任何假圖像上,有效增加了假圖像的迷惑性。

疊加補丁后,分類器的AUC值從0.966降到0.085。

不同于之前三種方法通過對假圖像施加擾動來影響分類結果,第四種攻擊方法是通用潛空間攻擊(Universal Latent-Space Attack),即對圖像的潛在空間進行攻擊。最終把分類器的AUC值從0.99降到0.17。

▲a為通用對抗性補丁攻擊效果,b~d為通用潛空間攻擊效果。圖中所有假圖像都被分類器誤判為真

三、限制條件進行黑盒攻擊,AUC值降至0.22以下

論文指出,現實中的社交網站、約會網站等,并不會公開其鑒定分類器的算法,因此很難進行前面所說的白盒攻擊。

面對這種情況,研究人員進行了黑盒攻擊。黑盒攻擊假設對方知道攻擊的存在,并且掌握了一般的防御策略。

研究結果顯示,即使在這種限制性較強的黑盒攻擊條件下,鑒定分類器也很容易受到對抗性因素影響。經過黑盒攻擊,分類器的AUC數值下降到0.22以下。

結語:現有分類器有局限性,仍需深入研究

谷歌公司和加州大學伯克利分校研究團隊證明,只要對虛假圖片適當加以處理,就能使其“騙”過分類器。

這種現象令人擔憂,論文中寫道:“部署這樣的分類器會比不部署還糟糕,不僅虛假圖像本身顯得十分真實,分類器的誤判還會賦予它額外的可信度”。

因此,研究人員建議開創(chuàng)新的檢測方法,研究出可以識別經過再壓縮、調整大小、降低分辨率等擾動手段處理的假圖像。

據悉,目前有許多機構正在從事這一工作,如臉書、亞馬遜網絡服務及其他機構聯合發(fā)起了“Deepfake鑒別挑戰(zhàn)”,期待能探索出更好的解決方案。