1. <sub id="zp9ne"></sub>

    <nav id="zp9ne"></nav>
    <object id="zp9ne"><video id="zp9ne"></video></object>
    <sub id="zp9ne"></sub>

    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能學術 正文
    發私信給我在思考中
    發送

    0

    北交?;w:“超”人的機器學習,非語義特征的得與失

    本文作者:我在思考中 2022-05-05 11:38
    導語:報告中分享多媒體分析特別是計算機視覺中非語義特征的現象,分為三個部分:得、失和失而復得。

    北交?;w:“超”人的機器學習,非語義特征的得與失

    作者 | ?;w

    整理 | 維克多

    人工智能目前最大的“攔路虎”是不可信賴性,以深度學習為基礎的算法,在實驗室環境下可以達到甚至超過人類的水平,但在很多實際應用場景下的性能無法保證,而且存在對抗魯棒性、解釋性、公平性等問題。

    4月8日,在AI TIME青年科學家——AI 2000學者專場論壇上,北京交通大學計算機科學系教授、系主任?;w在報告《“超”人的機器學習:非語義特征的得與失》中,從兩類虛假相關性角度解釋了這種現象:

    機器學習其實不管是目標,還是學習方式,都是類人的,是對人的知識蒸餾。這種知識蒸餾會出現兩種情況:學的不夠好,稱為虛假相關性-1(欠蒸餾);學的太好了,稱之為虛假相關性-2(過蒸餾)。

    欠蒸餾,因為數據不完備,模型只學習到了訓練數據的局部相關性,會存在分布外泛化和公平性等問題;過蒸餾是機器學習到了人難以感知/理解的模式,影響到了模型的對抗魯棒性和解釋性。

    此外,桑教授還提出了將虛假相關性統一,探索非語義特征的學習和利用。以下是演講全文,AI科技評論做了不改變原意的整理:

    今天分享多媒體分析特別是計算機視覺中非語義特征的現象,分為三個部分:得、失和失而復得。報告內容受了很多工作的啟發,其中有一些是我不成熟的思考,希望能和大家交流討論。



    1

    得:“超”人的機器學習和非語義特征

    北交?;w:“超”人的機器學習,非語義特征的得與失

    回顧人工智能和機器學習的發展史,在圍繞和人類經典任務PK的過程中,AI已經超越了人類的表現。從1997年國際象棋深藍”以3.5:2.5戰勝人類國際象棋世界冠軍卡斯帕羅夫,到2021年AlphaFold蛋白質結構預測超過人類,都在表明,AI已經可以模擬分析、推理、決策等人類重要能力。

    北交?;w:“超”人的機器學習,非語義特征的得與失

    但在“超人”的能力之外,也體現了AI在對抗攻擊下的脆弱性。上圖第二張圖片,人類加了一些噪聲之后,同樣一個網絡卻給出了兩種截然不同的答案:elephant與koala。

    北交?;w:“超”人的機器學習,非語義特征的得與失

    不僅是圖像分類,對于對抗攻擊下的決策、表示,AI也非常脆弱。例如,通過加入一些對抗噪聲,以上圖片經過神經網絡能得到完全一致的特征表示,也就是人視覺不同、對抗攻擊后表示完全相同。目前,對抗攻擊有很多作惡的地方,例如無人駕駛中攻擊路標識別;刷卡機中攻擊人臉識別。

    北交?;w:“超”人的機器學習,非語義特征的得與失

    回顧對抗樣本的發展,在2014年,Szegedy首次提出對抗樣本問題的10年前,2003年就有欺騙算法,也叫敵手模型,攻擊垃圾郵件檢測器。2014年提出的深度學習對抗樣本,重要的特點是其強調“人類察覺不到擾動”。此后,對抗樣本研究發展,呈現“貓鼠游戲”的狀態,沒有絕對成功的攻擊,也沒有絕對的防御。

    2017年有兩個工作值得一提,對抗樣本實體化,在各個視角欺騙神經網絡的現實世界3D物體;通用對抗噪聲UAP,對于不同的樣本添加通用的噪聲,都可以讓模型出錯。

    2019年MIT Madry團隊的工作給了我們很大啟發:對抗噪聲本質是模型特征,對抗樣本的分類器可以泛化到攻擊類測試樣本。具體而言,Madry通過兩個實驗得出兩個結論:

    北交?;w:“超”人的機器學習,非語義特征的得與失

    1.對抗噪聲可以作為目標類特征。如上圖,是一張干凈的小狗圖片,通過加入“代表貓(特征)”的對抗噪聲,讓AI將其識別成貓?;谶@些對抗攻擊污染后的對抗樣本訓練的貓分類器在識別干凈貓圖像的任務中,卻有不錯的泛化。這就是利用對抗噪聲訓練的目標類分類器可以較好地泛化于真實的目標類樣本。

    2.非魯棒特征對模型泛化性有貢獻。把圖像分成兩類特征,一類是人可以理解,稱為魯棒特征,另一類是噪聲,稱為非魯棒特征。當把圖像非魯棒特征去掉時,只利用這一部分特征去進行訓練時候,會發現模型在樣本上的準確性、泛化性是下降的。因此,可以得出結論非魯棒特征對模型泛化性有貢獻,有些信息人類不易理解但可以輔助模型推斷。

    北交?;w:“超”人的機器學習,非語義特征的得與失

    除了對抗噪聲能夠體現人與AI算法的不同,是否關注物體的形狀和紋理也是區別之一。如上圖,在處理一個8*8拼圖的圖片時,人類很難識別出物體本來的面目;如果是4*4,我們勉強能看出邊緣。因此,人在判斷物體的時候,其實是需要借助形狀信息。但是對于CNN模型,當形狀信息缺失的時候,完全可以根據紋理進行準確的判斷。

    北交?;w:“超”人的機器學習,非語義特征的得與失

    同時,該現象在頻域里也有表現。如上圖,高頻重建的圖像人眼幾乎無法識別,模型卻能準確預測類別。這篇論文中指出:數據包含兩類信息,一類是語義信息,一類是以高頻為代表的非語義信息。

    在這兩類信息里,人只能利用語義信息進行判斷,模型同時可以利用這兩部分信息。這篇論文和Madry團隊論文中的觀點引發了激烈的討論:這部分信息是過擬合的噪聲,還是真實任務的特征?我更傾向于后者,下面提供幾個證據。

    1.對抗樣本的遷移性,其實就說明了非語義特征可以跨模型、跨數據集。換句話說,它不是針對模型和數據集過擬合的。

    2.非哺乳動物的四色視覺,也表明一種視覺的信息對于某些物種,可能是不可見、不可感知的,但是對于其他物種是可感知的,而且是非常重要的。例如紫外光譜人不可感知,但鳥類可以看見,其中包含了鳥類求偶的真實特征。

    3.AlphaFold:蛋白質折疊中的非語義特征。學者發現,折疊配置依賴于分布于整個多肽鏈的交互指紋,而交互指紋由于其全局分布性,結構非常復雜,人難以用規則進行定義。但其對于預測是有效的。因此,交互指紋這種非語義特征,顯然對于蛋白質折疊的任務是有益的。

    以上這些非語義特征的存在,也是當前很多機器學習任務超過人類的一個原因。



    2

    失:兩類虛假相關性和可信賴機器學習

    從另外角度看,這種非語義特征有哪些問題?從一種假設說起:“把機器學習看成對人的知識蒸餾”。這一假設可以用監督學習進行理解,監督學習要求“人去打標簽”,然后模型會基于標簽去學習從樣本到標簽的映射。在無監督和自監督任務中,其實也是人為去設定目標和學習機制。換句話說,機器學習其實不管是目標,還是學習方式,都是類人的,是對人的知識蒸餾。

    但這種知識蒸餾有時會出現兩種情況:學的不夠好,稱為虛假相關性-1(欠蒸餾);學的太好了,稱之為虛假相關性-2(過蒸餾)。

    其中,虛假的相關性是指統計機器學習基于訓練數據中存在的相關性學習特征構建模型,其中某些相關性特征在系統和人使用過程中會出現錯誤。

    這種欠蒸餾可以從機器學習過擬合的角度理解,因為數據不完備,模型學習到了訓練數據的局部相關性。這會導致分布外泛化問題,訓練集和測試集來自不同分布時,測試性能大幅下降,“聰明的漢斯”、“坦克都市傳奇”都是分布外泛化的例子。

    北交?;w:“超”人的機器學習,非語義特征的得與失

    2017年,ICLR一篇最佳論文提出隨機標簽現象也可理解為欠蒸餾的體現,即隨機打亂訓練集樣本標簽,泛化gap隨隨機標簽比例上升而增加,導致測試性能下降。這反映了深度網絡甚至可以記憶訓練集中的噪聲信息,但這種噪聲不是任務的本質特征,無法保證泛化性能。

    北交?;w:“超”人的機器學習,非語義特征的得與失

    總結一下,欠蒸餾會導致模型學習到一些任務無關特征,即訓練集強關聯,但測試集無法泛化。我們嘗試對任務無關特征給出更為嚴謹的定義,并分析它的性質。如上圖,從數據生成的角度,從標簽Y到樣本X的生成過程中間引入一個變量G。G分成兩部分,一部分是和任務相關的生成變量,也就是說當變量改變的時候,整個任務都會改變;另一部分是,它不會影響Y的分布,但是會影響x的呈現,例如對于生成“狗”的任務里面,模型會關注狗的位置,尺寸、光照等和任務無關的變量。這其實是對IID的放松,更符合數據集的實際分布情況。

    任務無關特征除了有泛化性問題,在因果框架中,還可以看做混淆變量,同時如果這種特征帶有社會屬性,還可以看做偏見變量,會導致公平性問題。

    前面提到過蒸餾是機器學習到了人難以感知/理解的模式,我們將其定義為非語義特征。簡單來說,這種非語義特征是模型可利用的、人類難以理解的信息。值得指出的是,目前對于非語義特征尚沒有統一的認識,我們正嘗試結合人類視覺感知特點和信息理論建立一個嚴謹的、可以量化的定義。目前可以借助非語義特征的兩種表現形式來理解:從內容結構角度可稱為弱結構化特征,比如高頻、小奇異值對應的信息都是人難以感知的;從模型知識角度即對應了Madry論文中提到的非魯棒特征,可大致理解為攻擊模型產生的對抗噪聲。

    北交?;w:“超”人的機器學習,非語義特征的得與失

    上圖(左)是在亞馬遜眾包平臺上請工人對字符驗證碼進行識別的例子。我們在里面加入了8種程度的對抗噪聲,可以看出人類和OCR識別算法的變化:最高尺度的噪聲對人類沒有變化,但由于擾動了非語義信息,算法性能會下降很快。

    上圖(右) 是加入高斯白噪聲的情況??梢钥吹?,人和算法雖然隨著噪聲程度的增加都有下降,但是人受影響會更大。原因可能是,當白噪聲的等級增加,人類所主要依賴的語義信息就被遮蓋掉了,但是模型可以同時挖掘非語義信息進行輔助判斷。

    北交?;w:“超”人的機器學習,非語義特征的得與失

    過蒸餾,其實還影響到了模型的解釋性,有研究發現,對抗魯棒模型可能依賴語義特征進行推斷,因此具有更好的梯度解釋性。

    這兩種虛假相關性擴展到可賴機器學習有哪些啟示?可信賴機器學習大概對應了可信計算的應用層。它有兩個核心的概念:按照預期的目標執行,按照預期的方式執行。按照預期的目標要求任務理解準確,但只通過訓練數據描述的任務往往不夠全面、準確;以預期的方式執行,要求執行準確,即推斷過程可理解、推斷結果可預測。

    北交?;w:“超”人的機器學習,非語義特征的得與失

    如上圖,上述兩個目標和兩類虛假相關性有一個大致的對應關系?;趦深愄摷傧嚓P性可以將視覺信息劃分為四個象限,而可信賴機器學習希望模型只利用第一象限的信息:即任務相關的語義特征。

    北交?;w:“超”人的機器學習,非語義特征的得與失

    我們提出一個可信賴機器學習框架,以最終讓模型依賴任務相關的語義特征。有三步,第一步是傳統的訓練器,目的是在測試數據可以泛化,學到任務相關的特征,這部分特征可以滿足不需要和人進行交互的系統應用場景。第二部分是解釋器,目標是人可以理解,從任務相關特征進一步提取出面向語義的特征,可以同時滿足和人的交互;第三部分是算法測試,目標是評估真實性能+診斷發現bug。我們注意到,把機器學習當成軟件系統的話,其實缺少了軟件工程里成熟的測試和調試的模塊,引入試模塊,進一步針對性地發現模型中利用的兩類虛假相關特征,與訓練器和解釋器形成閉環,通過測試-調試共同保證機器學習算法從實驗室級向工業級的可信賴應用。在這一框架下,我們對應在三個階段探索了一些基礎問題,并圍繞視覺識別、多模態預訓練、用戶建模等應用場景開展了一些研究工作,這些工作我們整理成開源代碼包供調用,并會集成到一個統一測試-診斷-調試平臺上,將作為工具發布,以供對可信賴性有需求的算法設計、開發和使用人員使用。



    3

    失而復得:虛假相關性的統一和非語義特征學習

    根據以上的討論,圍繞非語義特征,實際存在兩個矛盾。一是“棄之可惜,用之不可信”。非語義特征丟掉很可惜,但拿來用又有風險。有用之處在于:模型可以利用非語義特征輔助推斷,完全移除非語義特征使模型泛化性下降。風險在于:使用非語義特征的模型存在對抗魯棒性、解釋性等機器學習的可信賴問題。

    北交?;w:“超”人的機器學習,非語義特征的得與失

    第二個矛盾是:機器學習能力“超”人 ,但學習目標和方式“類”人。非語義特征包含了人類難以感知、機器可以利用的信息,而學習目標和方式是類人,比如深度神經網絡受人類視覺系統啟發,包括層次化網絡結構、感受野逐層增加、簡單細胞、復雜細胞等。

    圍繞“棄之可惜,用之不可信”矛盾,以泛化性和對抗魯棒性為例,它背后代表的是兩類虛假相關性之間的矛盾:泛化性的提高很大程度上來自非語義特征的利用,而在目前訓練范式下,限制非語義特征會影響泛化性。

    有沒有可能將兩類虛假相關性進行統一?我們提出一個假設,對抗魯棒性問題不是因為模型利用了非語義特征,而是因為沒有很好地利用非語義特征,非語義特征在提供有限泛化性貢獻的同時,增加了被對抗攻擊的風險。

    北交?;w:“超”人的機器學習,非語義特征的得與失

    我們也從頻域入手,暫且將高頻信息大致對應非語義特征。如上圖,相比中低頻,特征提取后,高頻分量的類間距比較小,對最終分類的貢獻也就比較弱。而實際上,在特征提取前,原始圖像的高頻分量中存在著相當的類判別信息。如下圖,原始圖像不同頻率的HOG特征分布情況,右邊是高頻,左邊是中低頻。

    北交?;w:“超”人的機器學習,非語義特征的得與失

    經過特征提取之后,可以明顯看出:高頻信息被抑制了,而中低頻經過特征提取得到了增強。這告訴我們,高頻信息對于模型泛化性的貢獻是有限的。

    北交?;w:“超”人的機器學習,非語義特征的得與失

    但是和對抗魯棒性有很強的關聯性。如上圖中間是無目標對抗攻擊過程的動圖,可以看出對抗攻擊有一個階段明顯沿高頻分量的分布方向移動,換句話說,高頻分量很可能引導了對抗攻擊在特征空間的行為。

    北交?;w:“超”人的機器學習,非語義特征的得與失

    這里我們有一個初步的假設,對抗攻擊過程可能分為兩個階段:第一階段,它會尋找正交于數據流形的決策邊界,并跨過類決策邊界;在第二個階段對抗攻擊繼續向目標類中心集中。我們最近發現這個假設和兩個階段互信息的變化有很強的一致性,后續有進一步的結果,我們會專門進行介紹。從這個角度來看,高頻信息代表的非語義特征,在模型訓練過程中并沒有得到重視,非語義特征不是天然容易被攻擊,只是它沒有被學習得很好,導致了對抗攻擊有機可乘。

    北交?;w:“超”人的機器學習,非語義特征的得與失

    圍繞“能力超人,學習類人”矛盾,對于非語義特征的學習和提取,可能要區別對待單獨設計。這里以受人類視覺處理系統的層次化網絡設計為例。今天的CNN設計,嘗試借鑒逐層的網絡結構,包括感受野逐層變化。如上圖可視化的呈現,相比中低頻特征,高頻特征逐層差異小、感受野相對固定幾乎是全局的。我們初步的實驗發現,淺層、大卷積核更有利于高頻特征學習。

    北交?;w:“超”人的機器學習,非語義特征的得與失

    最后,人類為什么會聚焦語義信息,而忽略非語義信息?我們“猜測”是進化的低成本目標所致。一個是學習代價?。喝祟惖膶W習首先通過群體大數據積累形成結構先驗,然后個體小樣本遷移,從而能夠舉一反三。上圖的實驗中我們發現高頻特征的學習需要消耗較多的樣本,在典型的小樣本學習設置下,模型無法實現良好擬合。另一個是推斷代價?。和瓿梢粋€任務所需要調用的神經元盡可能少,然而我們發現高頻神經元總激活消耗大且不同高頻神經元激活的差異大造成利用率低。高頻特征處理的這些特點都和生物神經系統的低成本進化方向是相違背的。

    北交?;w:“超”人的機器學習,非語義特征的得與失

    我們知道AlphaGo的能量消耗相當于一個人的5萬倍,如果我們拋開對于低成本的約束,對于非語義特征的學習和提取似乎也應該突破“類人”的約束。這啟發我們根據所處理信息的特點,重新設計模型結構;參考其他生物神經系統,啟發設計模型結構等。如果我們認可非語義特征的存在,機器學習關于數據集、模型結構、損失函數、優化方法等的先驗假設是否都存在著新的理解和可能?同時,如何平衡類人和超人以避免非語義特征在現階段帶來的不可信賴風險?如果是需要人理解/交互的任務,我們希望是“類人”方式,定義好邊界;如果是需要新知識發現的任務,就可以允許“超人”,大膽探索人所不能。當然,也有可能,對于非語義特征,只是目前不可理解,希望通過更多人投入相關研究,我們理解了背后的原理和機制后,不僅能可靠地利用這些信息設計機器學習算法和系統,更能拓展和提高我們自己的認知。

    北交?;w:“超”人的機器學習,非語義特征的得與失

    雷峰網(公眾號:雷峰網)雷峰網

    雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。

    北交?;w:“超”人的機器學習,非語義特征的得與失

    分享:
    相關文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說