深度 | 打败围棋冠军后,机器智能下一步能战胜黑客吗?
阿里妹導(dǎo)讀:從深藍(lán)戰(zhàn)勝象棋冠軍到AlphaGo戰(zhàn)勝圍棋冠軍,每一次機(jī)器智能在特定領(lǐng)域戰(zhàn)勝人類,都會(huì)引發(fā)整個(gè)社會(huì)的廣泛關(guān)注。洞察了棋類博弈真相的機(jī)器智能,接下來(lái)能洞察網(wǎng)絡(luò)安全的真相并且在黑客博弈中戰(zhàn)勝人類嗎?在機(jī)器智能炙手可熱的今天,或許我們?cè)撿o下心來(lái),去理解機(jī)器智能的本質(zhì)、網(wǎng)絡(luò)安全的困境以及未來(lái)二者結(jié)合的挑戰(zhàn)。
安全的真相是什么?安全的過(guò)去是人與人的對(duì)抗,安全的現(xiàn)狀是攻擊者加攻擊機(jī)器對(duì)抗防御者加防御機(jī)器。而未來(lái)安全的終局,一定是機(jī)器與機(jī)器的自主對(duì)抗。從這個(gè)角度來(lái)看,安全的本質(zhì)其實(shí)是智能體之間的知識(shí)對(duì)抗,智能可以是碳基的智能,也可以是硅基的智能。到終局那一天我們有沒(méi)有「搞清楚安全」顯得一點(diǎn)都不重要,重要的是到那一天我們親手鍛造的機(jī)器智能,作為人類智能的延伸,注定是會(huì)早于我們一步,提前觸達(dá)安全的真相。
通用技術(shù)與人類發(fā)展
技術(shù)是人類自身能力的延伸,發(fā)明技術(shù)是人類最大的天賦。早在現(xiàn)代智人出現(xiàn)之前,早期的原始人就發(fā)明了各種技術(shù),使得他們?cè)谂c其他動(dòng)物的生物競(jìng)爭(zhēng)中更占優(yōu)勢(shì)。而在人類歷史進(jìn)程中,生產(chǎn)力和經(jīng)濟(jì)水平的一次次躍遷,背后的核心推動(dòng)力是一代又一代通用技術(shù)(GPTs General Purpose Technologies)的發(fā)明。通用技術(shù)通過(guò)對(duì)已有經(jīng)濟(jì)結(jié)構(gòu)和社會(huì)結(jié)構(gòu)的影響,徹底影響著人類的發(fā)展進(jìn)程。
通用技術(shù)是單一可識(shí)別的基礎(chǔ)性共性技術(shù),目前為止人類歷史上只有二十來(lái)種技術(shù)可被歸類為通用技術(shù),這些技術(shù)具有如下幾個(gè)特點(diǎn):
- 「無(wú)處不在」通用技術(shù)有著各種各樣的使用用途以及大量廣泛的使用場(chǎng)景;
- 「持續(xù)改進(jìn)」隨著時(shí)間的推移,通用技術(shù)不斷在改進(jìn)使用成本也不斷降低;
- 「驅(qū)動(dòng)創(chuàng)新」通用技術(shù)使技術(shù)創(chuàng)新和技術(shù)發(fā)明更加容易,催生更多新產(chǎn)品。
從新石器時(shí)代農(nóng)業(yè)革命,對(duì)動(dòng)植物的馴化技術(shù)、文字書(shū)寫(xiě)技術(shù),到18-19世紀(jì)第一次工業(yè)革命,蒸汽引擎技術(shù)、工廠系統(tǒng)、鐵路系統(tǒng)……,到第二次工業(yè)革命,內(nèi)燃機(jī)技術(shù)、電力技術(shù)、汽車技術(shù)、飛機(jī)技術(shù)……,再到20世紀(jì)信息革命,計(jì)算機(jī)、互聯(lián)網(wǎng)、生物科技等。通用技術(shù)的發(fā)明間隔時(shí)間越來(lái)越短、密集程度越來(lái)越高、影響范圍也越來(lái)越大、生產(chǎn)力的提升也越來(lái)越快。
同一時(shí)代各種通用技術(shù)之間的技術(shù)銜接產(chǎn)生的協(xié)同效應(yīng),更是對(duì)生產(chǎn)力提升、經(jīng)濟(jì)發(fā)展、促進(jìn)創(chuàng)新起到了疊加推動(dòng)的作用。蒸汽時(shí)代,蒸汽引擎提供動(dòng)力能源,鐵路網(wǎng)連接各個(gè)物理空間傳輸鋼鐵等物資,應(yīng)用到各種機(jī)器系統(tǒng)。電氣時(shí)代,中央電站提供電力能源,電力網(wǎng)連接各個(gè)物理空間傳輸電流,應(yīng)用到各類電氣系統(tǒng)。
信息時(shí)代,個(gè)人電腦(或服務(wù)器)提供計(jì)算能力,互聯(lián)網(wǎng)連接傳輸數(shù)據(jù),連接各個(gè)數(shù)字空間的信息系統(tǒng)。而在智能時(shí)代,通用計(jì)算(云邊端等各類計(jì)算形態(tài))提供計(jì)算能力,物理空間和數(shù)字空間的邊界會(huì)越來(lái)越模糊形成融合空間,萬(wàn)物互聯(lián)網(wǎng)連接融合空間中的各個(gè)智能系統(tǒng)。不同的時(shí)代,通用技術(shù)之間有著相似的協(xié)同方式。蒸汽時(shí)代給機(jī)器以動(dòng)能,電力時(shí)代給機(jī)器以電能,信息時(shí)代給機(jī)器以數(shù)據(jù),智能時(shí)代給機(jī)器以知識(shí)。
機(jī)器智能的歷史發(fā)展
在所有通用技術(shù)中,機(jī)器智能又是最為特殊的一種通用技術(shù),這是人類第一次發(fā)明讓機(jī)器能自主獲取知識(shí)的技術(shù),也是人類第一次有能力打造非碳基體系的智能體。
1882年2月一個(gè)寒冷的下午,年輕的尼古拉·特斯拉完成了困擾其5年的交流電發(fā)電機(jī)設(shè)想,欣喜若狂地感嘆道「從此之后人類不再是重體力勞動(dòng)的奴役,我的機(jī)器將解放他們,全世界都將如此」。
1936年,為證明數(shù)學(xué)中存在不可判定命題,24歲的艾倫·圖靈提出「圖靈機(jī)」的設(shè)想,1948年在論文《 INTELLIGENT MACHINERY》中描繪了聯(lián)結(jié)主義的大部分內(nèi)容,緊接著在1950年發(fā)表《COMPUTING MACHINERY AND INTELLIGENCE》,提出了著名的「圖靈測(cè)試」。同年,馬文·明斯基與其同學(xué)鄧恩·埃德蒙建造了世界上第一臺(tái)神經(jīng)網(wǎng)絡(luò)計(jì)算機(jī)。
1955年馮·諾伊曼接受了耶魯大學(xué)西里曼講座的邀請(qǐng),講稿內(nèi)容后來(lái)匯總成書(shū)《THECOMPUTER AND THE BRAIN》。1956年,約翰·麥卡錫在達(dá)茅斯學(xué)院夏季學(xué)術(shù)研討會(huì)上首次提出了「Aritificial Intelligene」的概念。至此,機(jī)器智能的歷史序幕正式拉開(kāi),符號(hào)主義(Symbolism)、聯(lián)結(jié)主義(Connectionism)、行為主義(Actionism)三大流派相繼形成。
機(jī)器智能發(fā)展至今,經(jīng)歷了幾次浪潮和寒冬,三大主義也各自起起落落。50年代起,以專家系統(tǒng)、經(jīng)典機(jī)器學(xué)習(xí)為代表的符號(hào)主義長(zhǎng)期占據(jù)統(tǒng)治地位。相比之下聯(lián)結(jié)主義則歷經(jīng)了一波三折,從感知機(jī)的提出到80年代反向傳播的發(fā)表,再到深度學(xué)習(xí)借助算力與數(shù)據(jù)大獲成功,到2018年三巨頭Geoffrey Hinton、Yann LeCun、Yoshua Bengio獲得圖靈獎(jiǎng),最后才變得炙手可熱。而以強(qiáng)化學(xué)習(xí)為代表的行為主義在2016年AlphaGo、AlphaZero的橫空出世之后大獲關(guān)注,更是被譽(yù)為通向通用機(jī)器智能的必經(jīng)之路。
人類智能的演化經(jīng)歷了上百萬(wàn)年,機(jī)器智能演化迄今為止也才六十余年。盡管通用機(jī)器智能依舊還很遙遠(yuǎn),但今天機(jī)器智能在很多領(lǐng)域已經(jīng)逐漸超過(guò)了人類智能。過(guò)去這六十年,數(shù)據(jù)計(jì)算能力、數(shù)據(jù)存儲(chǔ)能力、數(shù)據(jù)傳輸能力都至少提升了1000萬(wàn)倍。同時(shí)數(shù)據(jù)資源的增長(zhǎng)速度,更是遠(yuǎn)遠(yuǎn)超過(guò)摩爾定律增長(zhǎng)的速度,預(yù)計(jì)到2020年全球數(shù)據(jù)總量能達(dá)到40ZB。機(jī)器智能今天已經(jīng)到達(dá)通用技術(shù)爆炸的一個(gè)關(guān)鍵節(jié)點(diǎn),同時(shí)在其他通用技術(shù)的協(xié)同作用下,這一次通用技術(shù)引發(fā)的變革會(huì)比以往任何一次都來(lái)得更劇烈。
數(shù)據(jù)驅(qū)動(dòng)到智能驅(qū)動(dòng)
「商業(yè)智能與智能商業(yè)」、「安全智能與智能安全」……類似這樣的詞還有很多,二者之間核心的區(qū)別前者是單點(diǎn)的智能,后者是全局的智能,前者是基于數(shù)據(jù)驅(qū)動(dòng),而后者是基于智能驅(qū)動(dòng)。「數(shù)據(jù)驅(qū)動(dòng)」與「智能驅(qū)動(dòng)」看似相似但卻有著根本性的區(qū)別,最本質(zhì)的不同是背后決策主體的不同。「數(shù)據(jù)驅(qū)動(dòng)」最終還是依賴人類來(lái)做決策,數(shù)據(jù)只是提供了能夠做出更好決策的輔助判斷信息,而「智能驅(qū)動(dòng)」則是機(jī)器取代人類直接做在線決策。
人類大腦受認(rèn)知偏見(jiàn)的影響一直是生命進(jìn)化的結(jié)果。受限于人腦信息傳輸帶寬和信息處理速度的限制,從早期狩獵者階段開(kāi)始,人類就逐步形成了基于簡(jiǎn)單啟發(fā)式的推理決策系統(tǒng),規(guī)避了處理大量信息的高額成本。這使得人類在處于各種危險(xiǎn)的環(huán)境時(shí)能夠快速、幾乎無(wú)意識(shí)地做出決策,文明才得以延續(xù)至今。然而,快速和幾乎無(wú)意識(shí)的決策并非意味著總是最佳甚至是準(zhǔn)確的決策。
啟發(fā)式的方法通過(guò)遺傳,成為刻入我們大腦中預(yù)先加載的認(rèn)知偏差,這些「偏見(jiàn)」以偏離理性客觀的方式影響人類的決策。直到「數(shù)據(jù)驅(qū)動(dòng)」時(shí)代的來(lái)臨,豐富海量的在線數(shù)據(jù)為更好的決策提供了輔助判斷的依據(jù)。我們用通用計(jì)算、海量數(shù)據(jù)處理技術(shù),將數(shù)據(jù)量減少到人腦可消化的摘要范圍之內(nèi),用于各種應(yīng)用場(chǎng)景下的輔助決策。
「數(shù)據(jù)驅(qū)動(dòng)」相比以往基于「直覺(jué)驅(qū)動(dòng)」或「經(jīng)驗(yàn)驅(qū)動(dòng)」有著無(wú)法比擬的優(yōu)勢(shì),但人類在這其中仍然扮演著「中央處理器」的決策主體,這依然存在著局限性。人腦處理器的吞吐量限制,無(wú)法處理全量原始數(shù)據(jù),只能將全量數(shù)據(jù)資源變?yōu)椤竻R總數(shù)據(jù)」或「摘要數(shù)據(jù)」,進(jìn)而再?gòu)钠渲刑崛≈R(shí)。這個(gè)過(guò)程注定是伴隨著信息量的損失,從而會(huì)丟掉全量數(shù)據(jù)中的部分隱含關(guān)系、數(shù)據(jù)模式以及數(shù)據(jù)背后的洞察。
「智能驅(qū)動(dòng)」是讓機(jī)器智能直接做線上決策,無(wú)論是決策效率、規(guī)模程度、客觀程度還是進(jìn)化成長(zhǎng)速度,都是「數(shù)據(jù)驅(qū)動(dòng)」所無(wú)法比擬的。「智能驅(qū)動(dòng)」是直接從全量數(shù)據(jù)資源中提取全量知識(shí),然后運(yùn)用全量知識(shí)直接進(jìn)行全局決策。「數(shù)據(jù)驅(qū)動(dòng)」本質(zhì)上是匯總數(shù)據(jù)加人類智能,「智能驅(qū)動(dòng)」的本質(zhì)則是全量數(shù)據(jù)加機(jī)器智能。
然而現(xiàn)實(shí)的現(xiàn)狀是在業(yè)務(wù)場(chǎng)景中我們大量的決策連「數(shù)據(jù)驅(qū)動(dòng)」都還沒(méi)做到,更談不上「智能驅(qū)動(dòng)」。機(jī)器智能實(shí)現(xiàn)「感知」只是第一步,實(shí)現(xiàn)「決策」則是更為關(guān)鍵的一步,現(xiàn)階段的機(jī)器智能正如丘吉爾的一句話「Now this is not the end, it is not even the beginning of the end.But it is perhaps the end of beginning」。那么,到底什么才是真正的機(jī)器智能系統(tǒng)?
智能系統(tǒng)的核心范式
真正意義上的智能系統(tǒng),實(shí)例的核心范式一定有如下幾個(gè)組成部分:感知體系、認(rèn)知體系、決策體系、行動(dòng)體系。同時(shí),一個(gè)智能系統(tǒng)的實(shí)例,一定離不開(kāi)與環(huán)境的交互,過(guò)去我們總是過(guò)多的強(qiáng)調(diào)和關(guān)注系統(tǒng)內(nèi)在本身,卻容易忽視與環(huán)境交互的作用。
感知體系的作用是對(duì)環(huán)境進(jìn)行觀測(cè)和沉淀,產(chǎn)出的是數(shù)據(jù)。一切數(shù)據(jù)的產(chǎn)生都源于對(duì)環(huán)境的觀測(cè)和沉淀,觀測(cè)和沉淀背后的動(dòng)機(jī)是我們測(cè)量、記錄、分析世界的渴望。信息時(shí)時(shí)刻刻存在于環(huán)境中(數(shù)字空間或物理空間),在不同的場(chǎng)景下,我們用硬件、軟件、算法的方式,將其「數(shù)據(jù)化」。硬件有如傳感器、攝像頭等,軟件如日志記錄器、數(shù)據(jù)采集器等,算法如各類智能視覺(jué)算法、智能語(yǔ)音算法等。終有一天,我們能夠?qū)⒁磺形锢砜臻g都數(shù)據(jù)化,將物理空間完完全全映射到數(shù)據(jù)空間。
認(rèn)知體系的作用是對(duì)數(shù)據(jù)進(jìn)行歸納和總結(jié),提煉出知識(shí)。人類理解的知識(shí)一定是要用自然語(yǔ)言表達(dá),而對(duì)機(jī)器而言,用能夠代表問(wèn)題空間的數(shù)據(jù)集進(jìn)行訓(xùn)練,再用訓(xùn)練好的「模型」來(lái)在新的數(shù)據(jù)空間中進(jìn)行推理。只要是能解決特定目標(biāo)任務(wù),無(wú)論其表現(xiàn)形態(tài)是向量、圖譜還是自然語(yǔ)言,其實(shí)都是知識(shí),特征空間的表達(dá)本身就是一種知識(shí)。
決策體系的作用是對(duì)目標(biāo)任務(wù)進(jìn)行規(guī)劃和決策,生成對(duì)目標(biāo)任務(wù)的策略。行動(dòng)體系根據(jù)策略執(zhí)行具體動(dòng)作,和環(huán)境進(jìn)行交互、對(duì)環(huán)境產(chǎn)生影響。動(dòng)作作用于環(huán)境后形成反饋,反饋又促進(jìn)感知體系感知更多的數(shù)據(jù),進(jìn)而持續(xù)獲取更多的知識(shí),對(duì)目標(biāo)任務(wù)作出更好的決策,形成閉環(huán)持續(xù)迭代進(jìn)化。
從這個(gè)角度來(lái)看,機(jī)器智能的本質(zhì),實(shí)質(zhì)是一種觀測(cè)環(huán)境沉淀數(shù)據(jù)、歸納數(shù)據(jù)提煉知識(shí)、規(guī)劃目標(biāo)在線決策、作出行動(dòng)影響環(huán)境的自主機(jī)器。機(jī)器智能是一種自主機(jī)器,而自主機(jī)器與過(guò)去自動(dòng)化機(jī)器的最大區(qū)別在于其能否自主獲取解決目標(biāo)任務(wù)的知識(shí)。
單體智能到群體智能
今天大多數(shù)的智能系統(tǒng),都是一個(gè)個(gè)孤立分布的單體智能實(shí)例,解決的相應(yīng)也是一個(gè)個(gè)孤立分布的單體問(wèn)題。云計(jì)算的本質(zhì)是「計(jì)算在線」,大數(shù)據(jù)的本質(zhì)是「數(shù)據(jù)在線」,而機(jī)器智能最終也需要實(shí)現(xiàn)讓智能在線,讓智能實(shí)例之間進(jìn)行自主在線交互。
單個(gè)智能實(shí)例都是由「感知-認(rèn)知-決策-行動(dòng)」的體系構(gòu)成的自主系統(tǒng),有著自己的世界表征形式,能自主完成自身的目標(biāo)任務(wù)。在同一個(gè)動(dòng)態(tài)復(fù)雜的博弈環(huán)境之中,實(shí)例與實(shí)例之間通過(guò)互聯(lián)實(shí)現(xiàn)在線,彼此存在相互作用,可以合作、競(jìng)爭(zhēng),可以競(jìng)合并存,也可以既不合作也不競(jìng)爭(zhēng)。一個(gè)實(shí)例的策略變化不光會(huì)影響自身的環(huán)境,也會(huì)影響其他實(shí)例的策略變化。
對(duì)于合作的多個(gè)智能實(shí)例之間,可以選擇共享數(shù)據(jù)、知識(shí)、策略或動(dòng)作,協(xié)調(diào)協(xié)作以完成更為復(fù)雜的目標(biāo)任務(wù),共同形成更為高階的智能實(shí)例。當(dāng)單位空間內(nèi)智能實(shí)例的覆蓋密度足夠大的時(shí)候,單體智能開(kāi)始向群體智能演進(jìn)。
智能與安全的四象限
安全是所有技術(shù)中最為特殊的一種,嚴(yán)格意義上甚至或許都不能稱「安全」為一門技術(shù)。早在人類還未發(fā)明任何技術(shù)之前,安全就已經(jīng)伴隨著人類的各種活動(dòng)。迄今為止,沒(méi)有任何一種技術(shù)是安全領(lǐng)域獨(dú)有或者說(shuō)從安全領(lǐng)域長(zhǎng)出來(lái)的,但安全從來(lái)都是與其他技術(shù)相伴相生、相輔相成。
任何一門通用技術(shù),與安全的結(jié)合都有如下四種方式。機(jī)器智能技術(shù)也不例外,縱向是「給智能以安全」和「給安全以智能」,橫向是「攻擊視角」和「防御視角」。給智能以安全,是指機(jī)器智能技術(shù)本身會(huì)帶來(lái)新的安全問(wèn)題,一種是機(jī)器智能自身脆弱性導(dǎo)致的安全問(wèn)題,一種是機(jī)器智能引發(fā)周邊場(chǎng)景衍生出的安全問(wèn)題。給安全以智能,是指將機(jī)器智能應(yīng)用于安全場(chǎng)景,攻擊者利用機(jī)器智能賦能攻擊,防御者利用機(jī)器智能賦能防御。
而在這四個(gè)象限中,新技術(shù)與安全發(fā)生交集的時(shí)間和發(fā)展的成熟程度又有所不同。攻擊者相比防御者而言,有更強(qiáng)的動(dòng)機(jī)和利益,所以攻擊相關(guān)的象限通常都會(huì)更容易去探索新技術(shù)去接納新技術(shù)。防御者總是滯后,也總是容易沉迷于舊技術(shù)和人工經(jīng)驗(yàn)營(yíng)造出的安全假象中,導(dǎo)致第四象限總是發(fā)展最滯后最緩慢的一個(gè)象限。當(dāng)然,這與防御視角自身的屬性與困境也有直接關(guān)系。
機(jī)器智能的安全之困
圍棋是簡(jiǎn)單的復(fù)雜游戲,而安全是復(fù)雜的簡(jiǎn)單游戲。1994年,認(rèn)知科學(xué)家Steven Pinker在《The Language Instinct》中寫(xiě)道「對(duì)機(jī)器智能而言,困難的問(wèn)題是易解的,簡(jiǎn)單的問(wèn)題是難解的」。「簡(jiǎn)單的復(fù)雜問(wèn)題」指的是問(wèn)題空間是閉合的,但是問(wèn)題本身卻又有較高的復(fù)雜度,「復(fù)雜的簡(jiǎn)單問(wèn)題」指的是問(wèn)題空間是是無(wú)限開(kāi)放式的,但問(wèn)題本身卻并沒(méi)有很高的復(fù)雜度。今天機(jī)器智能技術(shù)在「簡(jiǎn)單的復(fù)雜問(wèn)題」的領(lǐng)域,往往都比人類會(huì)更強(qiáng),但對(duì)于「復(fù)雜的簡(jiǎn)單問(wèn)題」,泛化界限引起的維數(shù)災(zāi)難,機(jī)器智能往往都會(huì)失效。
安全是一個(gè)典型的「復(fù)雜的簡(jiǎn)單問(wèn)題」,莫拉維克悖論在安全領(lǐng)域更為明顯。高度不確定性是安全最大的特點(diǎn),安全自身最大的困境就是如何去應(yīng)對(duì)「未知的未知」。很多時(shí)候我們問(wèn)題都沒(méi)定義清楚問(wèn)題就沖上去說(shuō)要用機(jī)器智能解決問(wèn)題,這是絕大多數(shù)機(jī)器智能在安全領(lǐng)域失效的主要原因。今天在安全領(lǐng)域,不太需要去突破智能技術(shù)的天花板,亟待解決的反而是「定義清楚問(wèn)題」,即如何閉合掉問(wèn)題空間。
安全的問(wèn)題空間通常都是無(wú)界的,同時(shí)問(wèn)題空間對(duì)應(yīng)的正負(fù)樣本的樣本空間卻又嚴(yán)重的不對(duì)稱。「未知的未知」引起的負(fù)向數(shù)據(jù)(如攻擊數(shù)據(jù)、風(fēng)險(xiǎn)數(shù)據(jù)等)的嚴(yán)重缺乏導(dǎo)致特征空間的不對(duì)稱,進(jìn)而導(dǎo)致特征空間無(wú)法真正表征問(wèn)題空間。「模型」是已有數(shù)據(jù)空間下關(guān)于世界的假設(shè),并且用于在新的數(shù)據(jù)空間下進(jìn)行推理。今天機(jī)器智能技術(shù)已經(jīng)能很好的解決表示輸入和輸出之間的非線性復(fù)雜關(guān)系,但對(duì)于樣本空間與問(wèn)題空間存在的巨大鴻溝卻依然比較乏力。
20世紀(jì)六十年代,貝爾-拉帕杜拉安全模型(Bell-La Padula )指出「當(dāng)僅當(dāng)系統(tǒng)開(kāi)始于安全的狀態(tài),且一直不會(huì)落入非安全狀態(tài),它才是安全的」。由于安全的本質(zhì)是對(duì)抗,對(duì)抗的存在導(dǎo)致安全領(lǐng)域的機(jī)器智能模型多數(shù)都逃不過(guò)的「上線即衰減」的命運(yùn)。在訓(xùn)練集上表現(xiàn)良好的模型,對(duì)于大規(guī)模的現(xiàn)實(shí)環(huán)境,從上線那一刻起就在引起對(duì)抗升級(jí),進(jìn)而不斷跌入失效的狀態(tài)。模型衰減和封閉系統(tǒng)中的熵增一樣,是一個(gè)必然。
同時(shí),安全場(chǎng)景中對(duì)檢測(cè)結(jié)果的準(zhǔn)確性、結(jié)果可解釋性都高度敏感。機(jī)器智能相比于傳統(tǒng)安全中經(jīng)常使用的基于規(guī)則、基于策略的檢測(cè)技術(shù),優(yōu)勢(shì)在于其強(qiáng)大的表征能力,但同時(shí)其不可解釋性、模糊性導(dǎo)致推理結(jié)果在決策場(chǎng)景下無(wú)法直接使用,這也是今天很多智能安全系統(tǒng)大都只在做「感知」,至多也只是做輔助決策的原因。
然而這些都還不是最大的「困」,機(jī)器智能在安全領(lǐng)域最大的「困」是思維模式上的困局。安全的思維模式是「守正出奇」,而機(jī)器智能的思維模式是「Model The World」。這兩種思維模式之間不僅存在巨大的差異,也異常難調(diào)和。一方面極少有人能同時(shí)駕馭這兩種思維方式,另一方面把兩種思維的人放到一起也極難協(xié)作起來(lái),本質(zhì)原因是缺少橋梁來(lái)銜接安全問(wèn)題到算法問(wèn)題之間的相互轉(zhuǎn)換和定義。
問(wèn)題空間之困、樣本空間之困、推理結(jié)果之困、對(duì)抗衰減之困、思維模式之困,這些問(wèn)題導(dǎo)致了今天絕大多數(shù)現(xiàn)實(shí)中的智能安全系統(tǒng)的表現(xiàn)都差強(qiáng)人意。或者也可以說(shuō)得更悲觀一點(diǎn),今天在安全領(lǐng)域,迄今為止還沒(méi)有真正意義的智能安全系統(tǒng)。
真正的智能安全系統(tǒng)
先來(lái)說(shuō)說(shuō)通用安全場(chǎng)景下的通用數(shù)據(jù)范式。柏拉圖學(xué)派認(rèn)為「我們感知的世界是洞穴里面墻壁上的投影」,現(xiàn)象世界都是理性世界的倒影,理性世界才是世界的本質(zhì)或本原。「洞穴比喻」意味著存在一個(gè)外在的客觀的知識(shí)體系,不依賴人類的認(rèn)知而存在,人類探索知識(shí)的過(guò)程就是不斷從現(xiàn)實(shí)世界的現(xiàn)象觀察中,摸索、推測(cè)這個(gè)客觀知識(shí)體系的過(guò)程。亞里士多德進(jìn)一步奠定了本體論最初的思想,定義其為研究「存在」的科學(xué),是形而上學(xué)的基本分支。再到17世紀(jì),哲學(xué)家郭克蘭紐 (R. Goclenius) 首次提出「Ontology」一詞,再到20世紀(jì)60年代,機(jī)器智能領(lǐng)域開(kāi)始引入Ontology的思想,之后又進(jìn)一步演化出語(yǔ)義網(wǎng)、知識(shí)圖譜等。
安全中的對(duì)抗本質(zhì)是知識(shí)的對(duì)抗,獲取知識(shí)更多的一方就能擁有更多的不對(duì)稱優(yōu)勢(shì)。無(wú)論是威脅分析、情報(bào)研判、攻擊檢測(cè)、事件溯源……本質(zhì)都是在探索知識(shí)的一個(gè)過(guò)程,這就是為什么Palantir的Gotham、IBM的I2、UEBA、各種威脅情報(bào)產(chǎn)品等等背后都不約而同或多或少借鑒了Ontology思想的根本原因。
而安全場(chǎng)景下的通用數(shù)據(jù)范式,也離不開(kāi)Ontology。實(shí)體、屬性、行為、事件、關(guān)系,通過(guò)這五大元數(shù)據(jù)類型,可以構(gòu)建出所有安全場(chǎng)景中的數(shù)據(jù)架構(gòu)(無(wú)論是基礎(chǔ)安全、業(yè)務(wù)安全、數(shù)據(jù)安全、公共安全、城市安全……注:公共安全領(lǐng)域也單獨(dú)關(guān)注「軌跡」這一類元數(shù)據(jù)類型,因「軌跡」是一種特殊的「行為」數(shù)據(jù),故這里統(tǒng)一都合并成行為)。
- 實(shí)體:實(shí)體是客觀存在并可以與其他對(duì)象區(qū)分開(kāi)來(lái)的對(duì)象;
- 屬性:屬性即為標(biāo)簽,是描述實(shí)體的表述,對(duì)實(shí)體抽象方面的刻畫(huà);
- 行為:行為是實(shí)體在特定時(shí)間、空間下發(fā)出的動(dòng)作;
- 事件:事件是一定時(shí)空或條件下所認(rèn)識(shí)到的可識(shí)別的事情;
- 關(guān)系:關(guān)系是實(shí)體與其他實(shí)體之間的關(guān)聯(lián)程度與表述。
安全領(lǐng)域絕大多數(shù)沉淀的源數(shù)據(jù)都是行為類數(shù)據(jù),無(wú)論是網(wǎng)絡(luò)流量日志、主機(jī)命令日志、業(yè)務(wù)日志、攝像頭數(shù)據(jù)流、感知設(shè)備數(shù)據(jù)流……,這些都是行為數(shù)據(jù)。而實(shí)體、屬性、關(guān)系、事件的產(chǎn)生都是從行為數(shù)據(jù)中進(jìn)行萃取,通過(guò)對(duì)不同的行為數(shù)據(jù)運(yùn)行不同的 Function 來(lái)產(chǎn)生。
當(dāng) Function 是生成事件的時(shí)候,即為安全檢測(cè)問(wèn)題,包括攻擊檢測(cè)、威脅檢測(cè)、風(fēng)險(xiǎn)檢測(cè)、異常檢測(cè)等等。絕大多數(shù)安全檢測(cè)問(wèn)題的原子范式都可以抽象為Y=F(X),其中X是實(shí)體的行為數(shù)據(jù),Y是檢測(cè)結(jié)果,F是檢測(cè)模型。F可以是基于規(guī)則、基于策略、詞法語(yǔ)義、統(tǒng)計(jì)檢測(cè)、機(jī)器學(xué)習(xí)、深度神經(jīng)網(wǎng)絡(luò)等等,Y可以是正常、異常、攻擊或者未知。
更為復(fù)雜的檢測(cè)場(chǎng)景也都可以通過(guò)一個(gè)個(gè)基本F與各類算子組裝編排而成。每一種類型的F都有其優(yōu)勢(shì)和劣勢(shì),有不同的最優(yōu)使用場(chǎng)景,并不存在一種絕對(duì)先進(jìn)絕對(duì)領(lǐng)先的檢測(cè)技術(shù)。事實(shí)上算法在安全檢測(cè)中最應(yīng)該關(guān)注的不是去做檢測(cè)模型本身,而是能否自主化的根據(jù)各種場(chǎng)景生成最優(yōu)的檢測(cè)模型,并能自主化持續(xù)迭代檢測(cè)模型。
真正意義上的智能安全系統(tǒng)一定也是具備感知體系、認(rèn)知體系、決策體系和行動(dòng)體系,同時(shí)和環(huán)境形成反饋閉環(huán)。感知體系至少包括異常感知器、攻擊感知器、漏報(bào)感知器和誤報(bào)感知器。「異常感知器」的作用一方面是保持感知「未知的未知」的能力,另一方面是利用「通過(guò)定義正常來(lái)尋找異常」的思想來(lái)解「樣本空間之困」的問(wèn)題。「攻擊感知器」的作用是在異常數(shù)據(jù)的基礎(chǔ)上去檢測(cè)攻擊,為了解「推理結(jié)果之困」的同時(shí),也大大縮減推理結(jié)果誤報(bào)漏報(bào)范圍。「漏報(bào)感知器」和「誤報(bào)感知器」是為了去解「對(duì)抗衰減之困」。由此可以看出,整個(gè)行業(yè)內(nèi)大家最常關(guān)注的「用算法做攻擊檢測(cè)」,其實(shí)只是做了智能系統(tǒng)當(dāng)中感知體系里很小的一小步。
認(rèn)知體系沉淀的是跟安全相關(guān)的各種知識(shí),至少包括正常知識(shí)、攻擊知識(shí)、漏報(bào)知識(shí)、誤報(bào)知識(shí)。安全知識(shí)可以是基于專家規(guī)則、向量、模型、圖譜、自然語(yǔ)言等等,但無(wú)論是哪種形態(tài),一定都是精細(xì)化個(gè)性化的「千人千面」的知識(shí)。即對(duì)每一個(gè)受保護(hù)對(duì)象(如用戶、系統(tǒng)、資產(chǎn)、域名、數(shù)據(jù)等),沉淀形成適用于該受保護(hù)對(duì)象的一套感知異常、攻擊、漏報(bào)、誤報(bào)的知識(shí)。決策體系當(dāng)中至少包含對(duì)目標(biāo)任務(wù)的攔截策略、各類模型的上線下線等策略等,能自主決策哪些行為該攔截,哪些模型已經(jīng)衰減該重訓(xùn)練該替換等。
行動(dòng)體系當(dāng)中是各類作用于環(huán)境的動(dòng)作,如放行、阻斷、重訓(xùn)練、發(fā)布等等。一個(gè)真正的智能安全 instance 里面包了含成千上萬(wàn)的 agent ,每一個(gè) agent 只作用于其對(duì)應(yīng)的受保護(hù)對(duì)象。最后,「問(wèn)題空間之困」的解法是將開(kāi)放的問(wèn)題空間收斂為一個(gè)個(gè)小的閉合的風(fēng)險(xiǎn)場(chǎng)景,一方面靠的是四個(gè)感知器的級(jí)連形成的縱深檢測(cè),另一方面靠的就是「千人千面」的 agent 。
機(jī)器智能重塑新安全
安全領(lǐng)域發(fā)展至今,一直處于問(wèn)題消滅得少概念卻造得不少的階段,亟待利用新技術(shù)去真正解決舊問(wèn)題。機(jī)器智能在各個(gè)行業(yè)的炙手可熱,同樣也引起了安全行業(yè)的追捧。但今天安全領(lǐng)域的智能能力參差不一的同時(shí),又難以分辨其真假。以至于但凡用了一丁點(diǎn)算法的,都會(huì)宣稱「基于人工智能的XX安全系統(tǒng)」。同早年的智能駕駛領(lǐng)域一樣,今天的智能安全也亟需統(tǒng)一的分級(jí)標(biāo)準(zhǔn),用以明確不同級(jí)別智能安全技術(shù)之間的差異性。「安全的本質(zhì)是智能體的對(duì)抗」,故根據(jù)自主對(duì)抗的程度,我們將智能安全劃分為L(zhǎng)0~5共如下6個(gè)級(jí)別:
L0級(jí)別為「人工對(duì)抗」,即完全沒(méi)有任何機(jī)器智能的能力,完全由防御者人工與攻擊者進(jìn)行對(duì)抗,對(duì)抗操作、感知判斷、任務(wù)支援全都由人工進(jìn)行。
L1級(jí)別為「輔助對(duì)抗」,由機(jī)器完成已知攻擊的攻擊檢測(cè)和攻擊防御,其余的操作(如感知未知威脅、感知漏報(bào)、感知誤報(bào)等)由人類進(jìn)行。
L2級(jí)別為「低度自主對(duì)抗」,由機(jī)器完成已知攻擊攻擊檢測(cè)和攻擊防御,并具備能感知未知威脅或誤報(bào)漏報(bào),其余由人類操作。
L3級(jí)別為「中度自主對(duì)抗」,由機(jī)器完成所有的對(duì)抗操作(攻擊檢測(cè)、攻擊防御、主動(dòng)感知未知威脅、誤報(bào)漏報(bào)主動(dòng)感知、對(duì)抗升級(jí)自動(dòng)學(xué)習(xí)),根據(jù)系統(tǒng)要求,人類在適當(dāng)?shù)臅r(shí)候進(jìn)行應(yīng)答(中間過(guò)程必須需要人類參與)。
L4級(jí)別為「高度自主對(duì)抗」,由機(jī)器完成所有的對(duì)抗操作,根據(jù)系統(tǒng)要求,人類不一定提供所有的應(yīng)答(中間過(guò)程非必須有人類參與),但只能作用于限定的特定的安全場(chǎng)景(如網(wǎng)絡(luò)域、主機(jī)域等)。
L5級(jí)別為「完全自主對(duì)抗」,由機(jī)器完成所有的對(duì)抗操作,根據(jù)系統(tǒng)要求,人類不一定提供所有的應(yīng)答,不限定特定的場(chǎng)景,作用于全域范圍。
不同于智能駕駛技術(shù),不同的 Level 采用的是完全不同的技術(shù)棧,智能安全中的 L0~5 是需要逐步往上構(gòu)建往上發(fā)展。按照這個(gè)劃分,今天行業(yè)內(nèi)絕大部分的安全系統(tǒng)都是L1 的系統(tǒng),極少一部分能達(dá)到 L2,但還沒(méi)有真正意義上的L3及以上的智能安全系統(tǒng)。隨著級(jí)別往上走,能夠?qū)⒎烙邚牡退綄?duì)抗中逐步釋放出來(lái),能更加關(guān)注高級(jí)對(duì)抗,L3是個(gè)分水嶺,有望在5年內(nèi)實(shí)現(xiàn)。「始于圍棋終于安全」,機(jī)器智能在安全領(lǐng)域的終局是什么?網(wǎng)絡(luò)層、主機(jī)層、應(yīng)用層、業(yè)務(wù)層、數(shù)據(jù)層都分別有各自的智能實(shí)例,不同層的實(shí)例在線互聯(lián),實(shí)現(xiàn)真正意義的協(xié)同防御與情報(bào)共享。當(dāng)智能「Intelligence」和情報(bào)「Intelligence」融合的那一天,才是真正的「Intelligence Remodels New Security」。
目前阿里云智能安全實(shí)驗(yàn)室正在多個(gè)領(lǐng)域打造L3級(jí)別的智能安全系統(tǒng),致力于智能技術(shù)在云安全中的應(yīng)用,現(xiàn)招聘安全算法專家和安全數(shù)據(jù)專家,尋志同道合者一起探索打造「智能重塑新安全」。目前在不到一年的時(shí)間,已經(jīng)取得了一定的階段性成果:
- LTD 攻擊檢測(cè)算法入選人工智能頂會(huì) IJCAI 2019「Locate Then Detect:Web Attack Detection viaAttention-Based Deep Neural Networks」;
- WAF AI 內(nèi)核助力阿里云 WAF 入選 2019 Gartner Web 應(yīng)用防火墻魔力象限,算法能力被評(píng)為強(qiáng)勢(shì);
- Anti-Bot AI 內(nèi)核助力阿里云爬蟲(chóng)風(fēng)險(xiǎn)管理入選 2018Forrester Bot Management 競(jìng)爭(zhēng)者象限;
- 內(nèi)容安全算法助力阿里云在國(guó)家級(jí)重保活動(dòng)中平穩(wěn)度過(guò),無(wú)任何風(fēng)險(xiǎn)外漏;
- 上線[XDATA]安全數(shù)據(jù)內(nèi)核、[XID]核心數(shù)據(jù)資產(chǎn)、[XService]智能安全服務(wù)、[弦+]安全知識(shí)引擎等一系列安全數(shù)據(jù)平臺(tái)服務(wù)產(chǎn)品,上線百億級(jí)節(jié)點(diǎn)千億級(jí)邊的復(fù)雜網(wǎng)絡(luò)和圖計(jì)算應(yīng)用;上線QPS千萬(wàn)級(jí)的復(fù)雜流計(jì)算應(yīng)用。
阿里云雙11億元補(bǔ)貼提前領(lǐng),進(jìn)入抽取iPhone 11 Pro:https://www.aliyun.com/1111/2019/home?utm_content=g_1000083110
原文鏈接
本文為云棲社區(qū)原創(chuàng)內(nèi)容,未經(jīng)允許不得轉(zhuǎn)載。
總結(jié)
以上是生活随笔為你收集整理的深度 | 打败围棋冠军后,机器智能下一步能战胜黑客吗?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 阿里技术专家详解 DDD 系列- Dom
- 下一篇: 一个阿里产品经理眼中的“垃圾分类”