在人工智能五十年的研發(fā)過(guò)程中,我們一直在不斷嘗試著(zhù)讓機器理解人對于世界的認知方式。不管是一直沒(méi)有實(shí)現較大突破的類(lèi)腦計算,還是模仿人類(lèi)感知外界機制的人工神經(jīng)網(wǎng)絡(luò ),本質(zhì)上都是對人類(lèi)行為方式的多種模仿。
當然我們也知道,這些模仿雖然在應用上取得突破,但本質(zhì)上來(lái)看與人類(lèi)的認知方式還是大相徑庭的。
就拿視覺(jué)來(lái)說(shuō),人類(lèi)對于萬(wàn)事萬(wàn)物的認知來(lái)自于綜合的感知。以前一陣社交媒體上瘋傳的《神奇寶貝》大電影來(lái)說(shuō),人們見(jiàn)到3D版皮卡丘非常驚訝——皮卡丘竟然是有毛的?
其實(shí)這就體現了人類(lèi)非常有趣的一點(diǎn),建立在綜合知識基礎之上,人類(lèi)的五感是相通的,因此可以從有限的信息里進(jìn)行關(guān)聯(lián)挖掘,對陌生的事物建立起認知。
當我們簡(jiǎn)單皮卡丘身上茸毛時(shí),我們立刻聯(lián)想起了那種毛茸茸的手感,認為它像一只大老鼠毫不可愛(ài)。
被隨意愚弄的機器思維相比之下機器視覺(jué)的認知方式就相對孤立,建立分類(lèi)器后組織層層的神經(jīng)網(wǎng)絡(luò ),對圖片進(jìn)行分層處理,分別去辨認圖片中是不是一架橋,是不是一只猴子,是不是一棵大樹(shù)。最后得出的結論是,這張圖片97%的幾率是一架橋,2%的幾率是一只猴子,1%的幾率是一棵大樹(shù)。
對于人類(lèi)來(lái)說(shuō),我們可能把猴子看成猩猩,原因是我們自己腦海中的底層知識不足,在認知中分不清猩猩和猴子的概念。但絕不會(huì )把橋、猴子、大樹(shù)這些風(fēng)馬牛不相及的東西混淆一談。
但對于機器視覺(jué)就不一樣了,在機器的“眼中”,一切圖像都是像素點(diǎn)的排列組合。對于我們來(lái)說(shuō),猴子和大樹(shù)的區別是哺乳動(dòng)物和區別??蓪τ跈C器來(lái)說(shuō),猴子和大樹(shù)之間只有一個(gè)數字分割線(xiàn)而已。
這就導致了機器視覺(jué)可以被“針對性”的愚弄,讓圖像識別輸出完全錯誤的結果,這就是我們常說(shuō)的對抗生成樣本。例如:將一張圖片的像素點(diǎn)進(jìn)行輕微的移動(dòng),在人眼中兩張圖片沒(méi)有任何區別,可在機器識別邏輯下,卻可能讓機器把猴子認成大樹(shù)。
又比如我們曾經(jīng)介紹過(guò)的“迷幻貼紙”——將某一種物體的分類(lèi)特征高度濃縮成一個(gè)很小圖案,“粘貼”在其他圖片上。圖像識別對于結果的輸出,是基于幾項結果比率的高低。在貼上貼紙之前,圖像識別可能明確的分析出圖片有98%幾率的是一只猴子。但粘貼上高度濃縮特征的貼紙之后,就能立刻改變圖像識別的結果。