人工机器:人工智能中的机器学习方法
? ? ? ? 人工智能的定義為基于表觀的行為定義,即圖靈測試,可以形式化為模式識別。智能從知識論的角度分析,歸納明確知識規(guī)則構(gòu)建知識圖譜系統(tǒng)形成專家系統(tǒng),而通過數(shù)據(jù)獲得歸納規(guī)則約束參數(shù)為機(jī)器學(xué)習(xí)系統(tǒng),即基于數(shù)據(jù)的模式識別系統(tǒng)。大量的機(jī)器學(xué)習(xí)模型,可以抽象為特定形式的神經(jīng)網(wǎng)絡(luò),處理輸入數(shù)據(jù)為定長輸入或者變長輸入。可處理變長數(shù)據(jù)的NN代表為RNN-循環(huán)神經(jīng)網(wǎng)絡(luò)。
? ? ? ? 知識系統(tǒng)應(yīng)用于現(xiàn)實(shí)之前,需要完成ND系統(tǒng)的完備性構(gòu)造,存在前向鏈和反向鏈的使用問題。一個(gè)完全性系統(tǒng),基于前向鏈?zhǔn)褂脧?fù)合或者單向推理過程(命題推理或者謂詞推理),構(gòu)造ND系統(tǒng)。而對于不完全系統(tǒng),構(gòu)造時(shí)候需要使用反向鏈或者歸納方法,機(jī)器學(xué)習(xí)系統(tǒng)是一個(gè)使用歸納法完成的觀測-假設(shè)-歸納系統(tǒng)。?
認(rèn)知與辯證
?????? 古老的認(rèn)知系統(tǒng)已經(jīng)構(gòu)建了一個(gè)自然關(guān)系與人類社會(huì)的諺語“天行有常,不為堯存,不為桀亡”,在此,只是斷章取義,與古人原義稍有出處,解釋為自然基本法則獨(dú)立于人類社會(huì)而運(yùn)行。
??????? 認(rèn)知,是指人們獲得知識或應(yīng)用知識的過程,或信息加工的過程,這是人的最基本的心理過程。它包括感覺、知覺、記憶、思維、想像和語言等。人腦接受外界輸入的信息,經(jīng)過頭腦的加工處理,轉(zhuǎn)換成內(nèi)在的心理活動(dòng),進(jìn)而支配人的行為,這個(gè)過程就是信息加工的過程,也就是認(rèn)知過程。-百度百科?
..............
?????? 此外還有諸多經(jīng)過哲學(xué)認(rèn)可的概念性定義,不接受辯駁,或者根基性反對,文章只是梳理和一個(gè)知識闡述過程,可以指正邏輯錯(cuò)誤,但概念和定義不接受辯證。
..................................
?????? 認(rèn)知/知識系統(tǒng)要求完備性,矛盾是不應(yīng)該存在的。哲學(xué)的許多問題已經(jīng)通過科學(xué)和數(shù)學(xué)的方式得到根本性的解決,但仍然有不完備的地方。
?????? 語法的完備性與語義的完備性:語義的完備性是不可解決的,語法的完備性是已經(jīng)證明的。
...................................
知識論:西哲將知識分為兩種,先驗(yàn)知識和后驗(yàn)知識。先驗(yàn)意味著僅憑推理得到的知識。(先於經(jīng)驗(yàn)觀察),而不受直接或間接經(jīng)驗(yàn)(這里經(jīng)驗(yàn)通常指通過感官對于世界的觀察)的影響。后驗(yàn)指其他種類的知識,也就是知識的得來和證實(shí)需要借助經(jīng)驗(yàn)(經(jīng)驗(yàn)觀察之后),也被稱作經(jīng)驗(yàn)性知識。
??????? 從歷史意義上說,不存在純粹的先驗(yàn)知識,即不依賴后驗(yàn)知識的先驗(yàn)知識。定理是先驗(yàn)知識,但定理的成立依賴于公理的成立(百科:知識論)。
知識論與哲學(xué)系統(tǒng):哲學(xué)(英語:Philosophy,希臘語:Φιλοσοφ?α),是對基本和普遍之問題的研究。其按其詞源有「愛智慧」之意。哲學(xué)是有嚴(yán)密邏輯系統(tǒng)的宇宙觀,它研究宇宙的性質(zhì)、宇宙內(nèi)萬事萬物演化的總規(guī)律、人在宇宙中的位置等等一些很基本的問題。
辯證法:辯證法三大規(guī)律,即對立統(tǒng)一規(guī)律、量變質(zhì)變規(guī)律、否定之否定規(guī)律。這三個(gè)辯證法規(guī)律在哲學(xué)上普遍性達(dá)到極限程度。這是黑格爾在《邏輯學(xué)》中首先闡述出來的,恩格斯則將它從《邏輯學(xué)》中總結(jié)和提煉出來,從而使辯證法的規(guī)律變得更加清晰了。辯證法規(guī)律揭示的全是極限本質(zhì)之間的聯(lián)系,是抽象程度最高的產(chǎn)物。
歸納法:歸納推理是一種由個(gè)別到一般的推理。由一定程度的關(guān)于個(gè)別事物的觀點(diǎn)過渡到范圍較大的觀點(diǎn),由特殊具體的事例推導(dǎo)出一般原理、原則的解釋方法。自然界和社會(huì)中的一般,都存在于個(gè)別、特殊之中,并通過個(gè)別而存在。通過觀察個(gè)別得到共性和一般性原理的過程,為歸納過程。
歸納與演繹:演繹推理(Deductive Reasoning)是由一般到特殊的推理方法。與“歸納法”相對。推論前提與結(jié)論之間的聯(lián)系是必然的,是一種確實(shí)性推理。
?
哲學(xué)和數(shù)理邏輯
?????? 作為系統(tǒng)論可以解析的哲學(xué)系統(tǒng)有一個(gè)數(shù)學(xué)基礎(chǔ),為數(shù)理邏輯。哲學(xué)基本定義在數(shù)理邏輯里有一個(gè)基本的映射。
?????? 數(shù)理邏輯的主要分支包括:邏輯演算(包括命題演算和謂詞演算)、模型論、證明論、遞歸論和公理化集合論。古典哲學(xué)系統(tǒng)的性質(zhì)在數(shù)理邏輯中得到了形式化解釋,而數(shù)理邏輯。
?????? 數(shù)理邏輯的基礎(chǔ)設(shè)施為命題演算和一階數(shù)理邏輯。一階邏輯的元邏輯結(jié)果為:1.定理的可靠性,一階邏輯內(nèi)的定理在論域內(nèi)是完全有效的;2.一致性,邏輯定理與其規(guī)約(全稱量詞約去)的命題演算是一致的;3.完全性,一階邏輯下凡是有效的公式都是定理,都可以由公理證明;4.緊致性,公式集г是一致的,當(dāng)且僅當(dāng)它的每一有窮子集是一致的。
?????? 從定理到命題的規(guī)約過程為歸納,從命題到定理的過程叫演繹。歸納法企圖使用論域規(guī)約到一般概念即全域,演繹是命題展開為全域定理的過程。
?????? 歸納與演繹在數(shù)理邏輯中的數(shù)學(xué)定義為:..............................
?????? 歸納法既然是從論域到全域的規(guī)約過程,隱含著不能覆蓋全域,天然的具有一定概率的錯(cuò)誤情況。
貝葉斯錯(cuò)誤率:貝葉斯決策理論是主觀貝葉斯派歸納理論的重要組成部分。 貝葉斯決策就是在不完全情報(bào)下,對部分未知的狀態(tài)用主觀概率估計(jì),然后用貝葉斯公式對發(fā)生概率進(jìn)行修正,最后再利用期望值和修正概率做出最優(yōu)決策。
?????? 對于任何給定問題,可以通過似然率測試決策規(guī)則得到最小的錯(cuò)誤概率。這個(gè)錯(cuò)誤概率稱為貝葉斯錯(cuò)誤率,且是所有分類器中可以得到的最好結(jié)果。最小化錯(cuò)誤概率的決策規(guī)則就是最大化后驗(yàn)概率判據(jù)。
?????? 歸納過程是一階謂詞邏輯定理命題化的過程,是一個(gè)天然的貝葉斯判定過程,歸納法天然具有錯(cuò)誤率,這個(gè)錯(cuò)誤率的最好極限也是貝葉斯錯(cuò)誤率。
?
全域和論域
?????? 作為集合論乃至整個(gè)數(shù)學(xué)系統(tǒng)基礎(chǔ)的數(shù)理邏輯,根據(jù)命題公式和謂詞邏輯提出的全域和論域概念,最初是解決古老迂腐的哲學(xué)家蘇格拉底的必死命題而提出的。
?????? 命題邏輯建立在全域概念上,而謂詞邏輯建立在論域概念上,論域可以是全域或者全域的子集。
?????? 包含統(tǒng)計(jì)學(xué)在內(nèi),大多數(shù)學(xué)科基礎(chǔ)的的基礎(chǔ)理論與數(shù)理邏輯是同構(gòu)的,機(jī)器學(xué)習(xí)理論有深刻的統(tǒng)計(jì)學(xué)基礎(chǔ)理論支撐。
? ? ?? 統(tǒng)計(jì)學(xué)中,對應(yīng)論域的概念為采樣空間,而全域的概念為樣本空間,采樣空間為可觀測空間又稱隨機(jī)事件,即樣本空間中可以被觀察到的樣本所覆蓋的空間。
?????? 機(jī)器學(xué)習(xí)的數(shù)理邏輯解釋為在全域的子集特定的論域上,使用歸納方法歸納出命題,得到模型即命題集合的方法。
?
PAC學(xué)習(xí)理論:
Hoeffding不等式:https://blog.csdn.net/wangjianguobj/article/details/57413819
?本小節(jié)結(jié)論:只要樣本數(shù)量m大于公式(3)中的M,就能保證模型在當(dāng)前條件下是PAC可學(xué)習(xí)的。
?
VC維理論:一個(gè)更緊的條件
?????? 先說一下什么是緊。簡單的講,緊的意思就是恰好滿足條件。開集表示局部,而緊性則是可以將局部的性質(zhì)推廣到全局。在度量空間中,緊性等價(jià)于自列緊性。
??? 為了保證PAC可學(xué)習(xí),根據(jù)公式(3),需要樣本數(shù)量大于等于M。M此值越小,PAC條件就越有可能達(dá)到。那么有沒有比M更緊也就是更小的值呢?這就引出了VC維理論。
?
論域的流動(dòng)性-時(shí)間維
?????? 人不能兩次踏入同一條河流。
?
模型論與證明論
數(shù)學(xué)公理化,歸納方法的完備性,語義系統(tǒng)的遍歷性質(zhì)。
????????????? ? ? ? ? ? ? ? ? ? ? ?? 哥德爾哥德爾
??????? 數(shù)學(xué)公理化推進(jìn)的最關(guān)鍵標(biāo)志性事件是1920~1923年間,希爾伯特推動(dòng)的“希爾伯特計(jì)劃”。這個(gè)計(jì)劃的主要目標(biāo),是為全部的數(shù)學(xué)提供一個(gè)安全的理論基礎(chǔ)。這個(gè)計(jì)劃對數(shù)學(xué)公理化提出了如下要求:
形式化:形式化是希爾伯特提出來的一個(gè)關(guān)鍵思想,意思是,所有數(shù)學(xué)應(yīng)該使用用統(tǒng)一的、嚴(yán)格的、無意義的、形式化的語言來表述,并且按照一套嚴(yán)格的、基礎(chǔ)的邏輯規(guī)則來推演。
完備性:形式化之后,數(shù)學(xué)里所有的真命題都可以通過上述規(guī)則被證明。
一致性:運(yùn)用這一套形式化的表達(dá)和規(guī)則,不可能推導(dǎo)出矛盾。
保守性:這是針對形式化而言的,即如果賦予一些形式化的表達(dá)以含義(希爾伯特將這稱為元數(shù)學(xué)),并由此證明了某些結(jié)論,那么必須保證即使不賦予這些含義,依然可以證明同樣的結(jié)論。
確定性:可以通過一個(gè)算法來確定每一個(gè)形式化的命題是真還是假。
?????? 對于修煉完成了“哥德爾不完備定理”第一重神功的讀者來說,應(yīng)該會(huì)看出上述“希爾伯特計(jì)劃”是有問題的。沒錯(cuò),之所以我們比大數(shù)學(xué)家希爾伯特還要目光如炬,是因?yàn)槲覀冋驹诟绲聽栠@個(gè)巨人的肩膀上!要知道,在哥德爾的論文發(fā)表之前,甚至是發(fā)表之后的一段時(shí)間,主流數(shù)學(xué)家、邏輯學(xué)家們?nèi)匀徽J(rèn)為希爾伯特計(jì)劃毫無疑問是正確的,問題只不過是如何給出證明罷了。
??????? 文章:哥德爾不完備性定理在說些什么-二?
證明論(Proof theory),是數(shù)理邏輯的一個(gè)分支,它將數(shù)學(xué)證明表達(dá)為形式化的數(shù)學(xué)客體,從而通過數(shù)學(xué)技術(shù)來簡化對他們的分析。證明通常用歸納式地定義的數(shù)據(jù)結(jié)構(gòu)來表達(dá),例如鏈表,盒鏈表,或者樹,它們根據(jù)邏輯系統(tǒng)的公理和推理規(guī)則構(gòu)造。因此,證明論本質(zhì)上是語法邏輯,和本質(zhì)上是語義學(xué)的模型論形相反。和模型論,公理化集合論,以及遞歸論一起,證明論被稱為數(shù)學(xué)基礎(chǔ)的四大支柱之一。
??????? 哥德爾完備性定理是數(shù)理邏輯中重要的定理,在1929年由庫爾特·哥德爾首先證明。它的最熟知的形式聲稱在一階謂詞演算中所有邏輯上有效的公式都是可以證明的。
??????? 數(shù)學(xué)上,模型論是研究數(shù)學(xué)對象用集合論的屬于表示數(shù)學(xué)概念的學(xué)科,或者是研究數(shù)學(xué)系統(tǒng)的組成模型的學(xué)科。它假定存在一些預(yù)先存在的數(shù)學(xué)對象,然后研究,給定這些對象、操作或者對象間的關(guān)系、以及一組公理時(shí),什么可以被證明,如何證明的問題。??
哥德爾完備性定理表明理論有一個(gè)模型當(dāng)且僅當(dāng)它是自洽的,也就是說沒有矛盾可以被該理論所證明。這是模型論的中心,因?yàn)樗沟梦覀兡軌蛲ㄟ^檢視模型回答關(guān)于理論的問題,反之亦然。不要把完備定理和完備理論的概念混淆。一個(gè)完備的理論是包含每個(gè)句子或其否命題的理論。重要的是,一個(gè)完備的自洽理論可以通過擴(kuò)展一個(gè)自洽的理論得到。
??????? 哥德爾在論文中明確提到,這種構(gòu)造思路是來源于兩個(gè)有名的悖論——理查德悖論(Richard-antinomy)和說謊者悖論(liar-antinomy),后者就是我們最前面說到的“這句話是謊話”的悖論,而前者則與哥德爾的構(gòu)造有類似之處,感興趣的讀者可以自行了解。
?????? 哥德爾證明的一個(gè)關(guān)鍵點(diǎn),就是把“真”、“假”與“可證明”及“不可證明”區(qū)分開來了。這里談到的可證明與否都是指在PM體系之內(nèi)。我們?nèi)粘I钆c工作中,經(jīng)常把“真假”與“是否可證明”等同起來,認(rèn)為“真?可證明”,“假?不可證明”。其實(shí),“真假”與“是否可證明”的嚴(yán)格關(guān)系應(yīng)該是“可證明?真”、“假?不可證明”,但是它們的逆命題卻不成立,也就是說“真命題未必可證明”,同時(shí)“不可證明的也未必就是假命題”。
?????? 文章:哥德爾不完備性定理在說些什么-三?
?????? 而哥德爾的不完備性定理,則證明了語義系統(tǒng)的不完備性。
?????? 第一定理:任意一個(gè)包含一階謂詞邏輯與初等數(shù)論的形式系統(tǒng),都存在一個(gè)命題,它在這個(gè)系統(tǒng)中既不能被證明為真,也不能被證明為否。
?????? 第二定理:如果系統(tǒng)S含有初等數(shù)論,當(dāng)S無矛盾時(shí),它的無矛盾性不可能在S內(nèi)證明。
?
缸中之腦
? ? ? ?? 哲學(xué)的第一悖論為“缸中之腦”,沒有根基是一個(gè)完備感知系統(tǒng)的根基。在計(jì)算機(jī)基礎(chǔ)科學(xué)中,這個(gè)論題演化為“丘奇-圖靈問題”,在數(shù)學(xué)與邏輯學(xué)中,這個(gè)問題為哥德爾的不完備性定理。
???????? 即沒有一個(gè)基礎(chǔ)是所有一切的基礎(chǔ),這個(gè)理論動(dòng)搖了語義系統(tǒng)的根基。
?
假設(shè)與證明
?????? 從最基本的知識理論開始,知識的構(gòu)建即存在一個(gè)“假設(shè)”與“證明”的過程。對于自然科學(xué)文盲的文科生來說,每一個(gè)古老的哲學(xué)問題都讓他們一籌莫展,在邏輯完備的過程中耗盡所有聰明。其中最悲慘的不是“缸中之腦”的不可描述之解釋,而是知識論固有的“空地上的牛奶”問題。
?????? 這個(gè)理論表明了語法系統(tǒng)的缺陷;
?????? 空地上的牛奶,它描述的是,一個(gè)農(nóng)民擔(dān)心自己的獲獎(jiǎng)的奶牛走丟了。這時(shí)送奶工到了農(nóng)場,他告訴農(nóng)民不要擔(dān)心,因?yàn)樗吹侥穷^奶牛在附近的一塊空地上。雖然農(nóng)民很相信送奶工,但他還是親自看了看,他看到了熟悉的黑白相間的形狀并感到很滿意。過了一會(huì),送奶工到那塊空地上再次確認(rèn)。那頭奶牛確實(shí)在那,但它躲在樹林里,而且空地上還有一大張黑白相間的紙纏在樹上,很明顯,農(nóng)民把這張紙錯(cuò)當(dāng)成自己的奶牛了。于是問題出現(xiàn)了,雖然奶牛一直都在空地上,但農(nóng)民說自己知道奶牛在空地上時(shí)是否正確?
? ?? ? 空地上的奶牛(The Cow in the field)最初是被Edmund Gettier用來批判主流上作為知識的定義的JTB(justified true belief)理論,即當(dāng)人們相信一件事時(shí),它就成為了知識;這件事在事實(shí)上是真的,并且人們有可以驗(yàn)證的理由相信它。在這個(gè)實(shí)驗(yàn)中,農(nóng)民相信奶牛在空地上,且被送奶工的證詞和他自己對于空地上的黑白相間物的觀察所證實(shí)。而且經(jīng)過送奶工后來的證實(shí),這件事也是真實(shí)的。盡管如此,農(nóng)民并沒有真正的知道奶牛在那兒,因?yàn)樗J(rèn)為奶牛在那兒的推導(dǎo)是建立在錯(cuò)誤的前提上的。Gettier利用這個(gè)實(shí)驗(yàn)和其他一些例子,解釋了將知識定義為JTB的理論需要修正。?
空地上的牛奶問題,設(shè)計(jì)了歸納的可信度問題,或許這個(gè)例子不能很好的描述假設(shè)與證明的問題。真正地假設(shè)與證明的問題,可以使用統(tǒng)計(jì)理論進(jìn)行定理化的證明,涉及采樣理論和觀測系統(tǒng)概念。
?
模型
????? 以哲學(xué)的本質(zhì)-完備性作為要求,使用實(shí)驗(yàn)的方法進(jìn)行觀測樣本即論域,進(jìn)行假設(shè),并使用科學(xué)方法進(jìn)行實(shí)驗(yàn)(擴(kuò)充論域,驗(yàn)證是否準(zhǔn)確),即證明,構(gòu)建-修改-添加知識規(guī)則,是知識系統(tǒng)構(gòu)建的一般過程。這個(gè)基本過程推演出了無數(shù)條剝離數(shù)學(xué)的哲學(xué)方法,如矛盾與統(tǒng)一、否定之自否等等一系列馬恩列斯毛的科學(xué)社會(huì)主義基本方法論的一些方法。
????? 完備性并非總是可達(dá),因此權(quán)衡出論域的泛化空間準(zhǔn)確度,即泛化性能。
?? ?? 觀測、歸納、驗(yàn)證在可以接受的性能內(nèi)形成的一定可信度的規(guī)則集合,被稱為“模型”。模型的定義包含了樣本集-論域、假設(shè)空間以及可擴(kuò)充論域的泛化性能。
?
參數(shù)與超參數(shù)簡介
?????? 我們把一個(gè)可以處理固定映射的參數(shù)模型分為幾個(gè)層次,模型結(jié)構(gòu)和模型參數(shù)。基于數(shù)據(jù)的模式識別所稱為“訓(xùn)練”的過程,是固定模型之后對模型使用數(shù)據(jù)進(jìn)行調(diào)整訓(xùn)練的過程為參數(shù)尋優(yōu)過程,目的為使模型符合ε學(xué)習(xí),完成模型優(yōu)化。
?????? 參數(shù)與超參數(shù),在固定模型的參數(shù)模型中,固定模型的一般約束參數(shù)為超參數(shù),“訓(xùn)練過程”使用數(shù)據(jù)優(yōu)化改變的參數(shù)為參數(shù),即對于參數(shù)模型訓(xùn)練過程是在超參數(shù)的約束下優(yōu)化參數(shù)的過程。
?????? 對于特定場景的模型,超參數(shù)一般固定模型的結(jié)構(gòu),而參數(shù)則意味著固定了固定結(jié)構(gòu)的映射屬性。
?????? 從泛函分析的角度來看,模型的一類結(jié)構(gòu)表示了一類算子,模型的超參數(shù)為算子的數(shù)值定義域。而模型的參數(shù),則率屬于函數(shù)模型的數(shù)值定義域。
?????? 以傳統(tǒng)的機(jī)器學(xué)習(xí)方法,簡單的多元一次線性回歸 ?為例,多元一次線性為模型的結(jié)構(gòu),選定的元數(shù)n為模型的超參數(shù),模型的ai為模型的參數(shù)。
?????? 以泛函的角度分析,多元一次線性回歸為壓縮算子y=L(Rx) 的一個(gè)定義,其中n為y=L(Rx) 的一個(gè)定義,代表Rn空間的一個(gè)子集。
CNN模型的超參數(shù)和參數(shù)
?????? 以圖像處理典型的CNN分類方法為例,CNN結(jié)構(gòu)為模型的結(jié)構(gòu)。CNN結(jié)構(gòu)比較復(fù)雜,以普遍使用最簡單的LeNet為例,不包含輸入和輸出,LeNet有七層,分別為C1、S2、C3、S4、C5、F6,最后一層為判別函數(shù)。
?????? 而每一層的結(jié)構(gòu)分別為:
Input Layer:1*32*32圖像
Conv1 Layer:包含6個(gè)卷積核,kernal size:5*5,parameters:(5*5+1)*6=156個(gè)
Subsampling Layer:average pooling,size:2*2
Activation Function:sigmoid
Conv3 Layer:包含16個(gè)卷積核,kernal size:5*5 ?->16個(gè)Feature Map
Subsampling4 Layer:average pooling,size:2*2
Conv5 Layer:包含120個(gè)卷積核,kernal size:5*5
Fully Connected Layer6:Activation Function:sigmoid
Output Layer:Gaussian connection..。
????? 每一層的函數(shù)形式都是固定了,因此構(gòu)建了一個(gè)固定的網(wǎng)絡(luò)結(jié)構(gòu)。Conv1層使用6個(gè)5*5的卷積核的函數(shù)結(jié)構(gòu),其中6個(gè)為層的結(jié)構(gòu),5*5為卷積函數(shù)的超參數(shù),而每個(gè)5*5的卷積核里面的值為參數(shù)。
????? CNN的機(jī)器學(xué)習(xí)過程,是固定了CNN的模型參數(shù),使用數(shù)據(jù)訓(xùn)練LeNetCNN的過程,即使使用數(shù)據(jù)和反傳算法優(yōu)化每一個(gè)卷積核參數(shù)的過程。
??? ? 而每一個(gè)卷積核的值,即是卷積函數(shù)的參數(shù),也是CNN的特征提取器,因此CNN方法也稱為“特征學(xué)習(xí)”。特征學(xué)習(xí)和模式識別器的參數(shù)訓(xùn)練,皆為參數(shù)學(xué)習(xí)。
? ??
結(jié)構(gòu)搜索與泛函
?????? 機(jī)器學(xué)習(xí)方法存在著固定場景中尋找特定模型固定結(jié)構(gòu)的參數(shù)學(xué)習(xí)與固定場景的特定模型的結(jié)構(gòu)學(xué)習(xí)。
?????? 哪個(gè)結(jié)構(gòu)才是最優(yōu)的呢?在自動(dòng)化結(jié)構(gòu)搜索之前,模型的結(jié)構(gòu)搜索是由人類專家完成,無數(shù)次的模型假設(shè)和實(shí)驗(yàn),無數(shù)次的欠擬合和過擬合的博弈,最終在圖像識別比賽中勝出的ALexNet是辛頓和其學(xué)生多年努力搜索的結(jié)果,這一結(jié)構(gòu)凝結(jié)了大量的專家知識,對于圖像結(jié)構(gòu)分類的知識描述映射為CNN網(wǎng)絡(luò)的結(jié)構(gòu)形式,是辛頓團(tuán)隊(duì)人腦搜索多年取得的成果。而這個(gè)成果對于ImageNet的圖像分類是否過擬合或者欠擬合,都在后續(xù)時(shí)間內(nèi)反復(fù)斟酌。
??????? 屬性集,映射對參數(shù)集,定義域搜索約束在向量空間。而模型結(jié)果的搜索,超參數(shù)的尋優(yōu)過程,進(jìn)一步擴(kuò)展到張量空間。在向量空間內(nèi)一個(gè)正交屬性為一個(gè)維度,量化符號為“維度”,向量空間為一階張量。張量的量化符號為“階”。
?
張量與空間
??????? 張量(Tensor)是一個(gè)定義在的一些向量空間和一些對偶空間的笛卡兒積上的多重線性映射,其坐標(biāo)是|n|維空間內(nèi),有|n|個(gè)分量的一種量, 其中每個(gè)分量都是坐標(biāo)的函數(shù), 而在坐標(biāo)變換時(shí),這些分量也依照某些規(guī)則作線性變換。r 稱為該張量的秩或階(與矩陣的秩和階均無關(guān)系)。
??????? 張量的階與維度................
??????? 在同構(gòu)的意義下,第零階張量 (r = 0) 為標(biāo)量?(Scalar),第一階張量 (r = 1) 為向量?(Vector), 第二階張量 (r = 2) 則成為矩陣?(Matrix)。例如,對于3維空間,r=1時(shí)的張量為此向量:(x,y,z)。由于變換方式的不同,張量分成協(xié)變張量?(Covariant Tensor,指標(biāo)在下者)、逆變張量?(Contravariant Tensor,指標(biāo)在上者)、 混合張量?(指標(biāo)在上和指標(biāo)在下兩者都有) 三類。
?????? 在數(shù)學(xué)里,張量是一種幾何實(shí)體,或者說廣義上的“數(shù)量”。張量概念包括標(biāo)量、向量和線性算子。張量可以用坐標(biāo)系統(tǒng)來表達(dá),記作標(biāo)量的數(shù)組,但它是定義為“不依賴于參照系的選擇的”。張量在物理和工程學(xué)中很重要。例如在擴(kuò)散張量成像中,表達(dá)器官對于水的在各個(gè)方向的微分透性的張量可以用來產(chǎn)生大腦的掃描圖。可能最重要的工程上的例子就是應(yīng)力張量和應(yīng)變張量了,它們都是二階張量,對于一般線性材料他們之間的關(guān)系由一個(gè)四階彈性張量來決定。
?????? 雖然張量可以用分量的多維數(shù)組來表示,張量理論存在的意義在于進(jìn)一步說明把一個(gè)數(shù)量稱為張量的涵義,而不僅僅是說它需要一定數(shù)量的有指標(biāo)索引的分量。特別是,在坐標(biāo)轉(zhuǎn)換時(shí),張量的分量值遵守一定的變換法則。
?????? 張量的抽象理論是線性代數(shù)分支,現(xiàn)在叫做多重線性代數(shù)。(摘自于百度百科)
?
拓?fù)淇臻g與線性空間
拓?fù)淇臻g與拓?fù)鋵W(xué)????
????? 拓?fù)淇臻g是一個(gè)集合 X和其上定義的拓?fù)浣Y(jié)構(gòu)組成的二元組。X的元素?x通常稱為拓?fù)淇臻g?的點(diǎn)。而拓?fù)浣Y(jié)構(gòu)一詞涵蓋了開集,閉集,鄰域,開核,閉包,導(dǎo)集,濾子等若干概念。從這些概念出發(fā),可給拓?fù)淇臻g作出若干種等價(jià)的定義。 [2]??
?????? 拓?fù)淇臻g作為對象,連續(xù)映射作為態(tài)射,構(gòu)成了拓?fù)淇臻g范疇,它是數(shù)學(xué)中的一個(gè)基礎(chǔ)性的范疇。試圖通過不變量來對這個(gè)范疇進(jìn)行分類的想法,激發(fā)和產(chǎn)生了整個(gè)領(lǐng)域的研究工作,包括同倫論、同調(diào)論和K-理論。
?? ?? 設(shè)是一個(gè)集合,是一些的子集構(gòu)成的族,則(,)被稱為一個(gè)拓?fù)淇臻g,如果下面的性質(zhì)成立:
1.空集和屬于,
2.中任意多個(gè)元素的并仍屬于,
3.中有限個(gè)元素的交仍屬于。
這時(shí),中的元素成為點(diǎn)(point),中的元素成為開集(open set)。我們也稱是上的一個(gè)拓?fù)洹?/p>
?????? 拓?fù)淇臻g有獨(dú)立研究的價(jià)值,研究拓?fù)淇臻g的數(shù)學(xué)分支稱為拓?fù)鋵W(xué)。
?
豪斯多夫分離公理:(T2分離公理) 空間內(nèi)任何兩個(gè)不同的點(diǎn)都各有鄰域互不相交。
豪斯多夫空間與數(shù)學(xué)分析
????? ? 在拓?fù)鋵W(xué)和相關(guān)的數(shù)學(xué)分支中,豪斯多夫空間、分離空間或T2 空間是其中的點(diǎn)都“由鄰域分離”的拓?fù)淇臻g。在眾多可施加在拓?fù)淇臻g上的分離公理中,“豪斯多夫條件”是最常使用和討論的。它蘊(yùn)涵了序列、網(wǎng)和濾子的極限的唯一性。豪斯多夫得名于拓?fù)鋵W(xué)的創(chuàng)立者之一費(fèi)利克斯·豪斯多夫。豪斯多夫最初的拓?fù)淇臻g定義把豪斯多夫條件包括為公理。
?????? 在數(shù)學(xué)分析所遇到的幾乎所有空間都是豪斯多夫空間。
?
度量空間與泛函分析
?????? 度量空間(Metric Space),在數(shù)學(xué)中是指一個(gè)集合,并且該集合中的任意元素之間的距離是可定義的。是任一元素可度量的拓?fù)淇臻g。
?????? 在度量空間中,緊性、可數(shù)緊性、序列緊性、子集緊性是一致的。可分性、遺傳可分性、第二可數(shù)性、林德勒夫性是一致的。度量空間必滿足第一可數(shù)公理,是豪斯多夫空間,完全正規(guī)空間,仿緊空間。偽度量空間滿足第一可數(shù)公理,但一般不是豪斯多夫空間。??
函數(shù)空間與向量叢
?????? 處理分析問題時(shí),根據(jù)具體情況需要可以引入種種函數(shù)空間。例如,考慮定義于閉區(qū)間[0,1]上的一切連續(xù)實(shí)值函數(shù)的集合,就可以定義兩個(gè)函數(shù)? 和g的距離為
度量空間
?????? 對于度量空間X,可以利用它的度量d 引進(jìn)一個(gè)拓?fù)浣Y(jié)構(gòu),其基的元就是所有的開球B(x,r)={y∈X|d(x,y)<r}。這種拓?fù)浣Y(jié)構(gòu)稱為由度量d 產(chǎn)生;同一集合上,不同的度量可以產(chǎn)生相同的拓?fù)浣Y(jié)構(gòu)。
?????? 例如,對于實(shí)數(shù)集R,d(x,y)=|x-y|與度量空間
?????? 就產(chǎn)生同一個(gè)拓?fù)浣Y(jié)構(gòu)。度量不是拓?fù)?/span>概念。(摘自于百科:度量空間)
向量叢是一個(gè)幾何構(gòu)造,對于拓?fù)淇臻g(或流形,或代數(shù)簇)的每一點(diǎn)用互相兼容的方式附上一個(gè)向量空間,所用這些向量空間"粘起來"就構(gòu)成了一個(gè)新的拓?fù)淇臻g(或流形,或代數(shù)簇)。其定義闡述了向量叢的一般性質(zhì)(百科:向量叢)。
線性空間與泛函分析
??????? 定義了距離后,我們再加上線性結(jié)構(gòu),如向量的加法、數(shù)乘,使其滿足加法的交換律、結(jié)合律、零元、負(fù)元;數(shù)乘的交換律、單位一;數(shù)乘與加法的結(jié)合律(兩個(gè))共八點(diǎn)要求,從而形成一個(gè)線性空間,這個(gè)線性空間就是向量空間。
?向量空間又稱線性空間,是線性代數(shù)的中心內(nèi)容和基本概念之一。在解析幾何里引入向量概念后,使許多問題的處理變得更為簡潔和清晰,在此基礎(chǔ)上的進(jìn)一步抽象化,形成了與域相聯(lián)系的向量空間概念。譬如,實(shí)系數(shù)多項(xiàng)式的集合在定義適當(dāng)?shù)倪\(yùn)算后構(gòu)成向量空間,在代數(shù)上處理是方便的。單變元實(shí)函數(shù)的集合在定義適當(dāng)?shù)?span style="color:#0000ff;">運(yùn)算后,也構(gòu)成向量空間,研究此類函數(shù)向量空間的數(shù)學(xué)分支稱為泛函分析。
范數(shù)與距離
??????? 在向量空間中,我們定義了范數(shù)的概念,表示某點(diǎn)到空間零點(diǎn)的距離:
1. ||x|| ≥0;
2. ||ax||=|a|||x||;
3. ||x+y||≤||x||+||y||。
??????? 將范數(shù)與距離比較,可知,范數(shù)比距離多了一個(gè)條件2,數(shù)乘的運(yùn)算,表明其是一個(gè)強(qiáng)化了的距離概念。范數(shù)與距離的關(guān)系可以類似理解為與紅富士蘋果與蘋果的關(guān)系。
文章:范數(shù).
接下來對范數(shù)和距離進(jìn)行擴(kuò)展,形成如下:
??????? 范數(shù)的集合?賦范空間+線性結(jié)構(gòu)?線性賦范空間
??????? 距離的集合??度量空間+線性結(jié)構(gòu)?線性度量空間
下面在已經(jīng)構(gòu)成的線性賦范空間上繼續(xù)擴(kuò)展,添加內(nèi)積運(yùn)算,使空間中有角的概念,形成如下:
??????? 線性賦范空間+內(nèi)積運(yùn)算?內(nèi)積空間;?
這時(shí)的內(nèi)積空間已經(jīng)有了距離、長度、角度等,有限維的內(nèi)積空間也就是我們熟悉的歐氏空間。
繼續(xù)在內(nèi)積空間上擴(kuò)展,使得內(nèi)積空間滿足完備性,形成希爾伯特空間如下:
??????? 內(nèi)積空間+完備性?希爾伯特空間?
其中完備性的意思就是空間中的極限運(yùn)算不能跑出該空間,如有理數(shù)空間中的2–√?的小數(shù)表示,其極限隨著小數(shù)位數(shù)的增加收斂到2(1/2),但2(1/2屬于無理數(shù),并不在有理數(shù)空間,故不滿足完備性。一個(gè)通俗的理解是把學(xué)校理解為一個(gè)空間,你從學(xué)校內(nèi)的宿舍中開始一直往外走,當(dāng)走不動(dòng)停下來時(shí)(極限收斂),發(fā)現(xiàn)已經(jīng)走出學(xué)校了(超出空間),不在學(xué)校范圍內(nèi)了(不完備了)。希爾伯特就相當(dāng)于地球,無論你怎么走,都還在地球內(nèi)(飛出太空除外)。
此外,前面提到的賦范空間,使其滿足完備性,擴(kuò)展形成巴拿赫空間如下:
??????? 賦范空間+完備性?巴拿赫空間
以上均是在距離的概念上進(jìn)行添加約束形成的,遞增關(guān)系如下:
??????? 距離?范數(shù)?內(nèi)積
??????? 向量空間+范數(shù)??賦范空間+線性結(jié)構(gòu)?線性賦范空間+內(nèi)積運(yùn)算?內(nèi)積空間+完備性?希爾伯特空間
?????? 內(nèi)積空間+有限維?歐幾里德空間
??????? 賦范空間+完備性?巴拿赫空間
順便提以下,對距離進(jìn)行弱化,保留距離的極限和連續(xù)概念,就形成拓?fù)涞母拍睢?/p>
?????? 文章:稀疏表達(dá)-向量、矩陣與張量(中)-0、1、2范數(shù)與RPCA
函數(shù)與對偶
?????1914年豪斯道夫(F.Hausdorff)在《集合論綱要》中用不明確的概念“序偶”來定義函數(shù),其避開了意義不明確的“變量”、“對應(yīng)”概念。庫拉托夫斯基(Kuratowski)于1921年用集合概念來定義“序偶”使豪斯道夫的定義很嚴(yán)謹(jǐn)了。
?????1930 年新的現(xiàn)代函數(shù)定義為“若對集合M的任意元素x,總有集合N確定的元素y與之對應(yīng),則稱在集合M上定義一個(gè)函數(shù),記為f。元素x稱為自變量,元素y稱為因變量” [1]??。
近代定義
??????? 設(shè)A,B是非空的數(shù)集,如果按照某種確定的對應(yīng)關(guān)系f,使對于集合A中的任意一個(gè)數(shù)x,在集合B中都有唯一確定的數(shù)和它對應(yīng),那么就稱映射為從集合A到集合B的一個(gè)函數(shù),記作或。
?????? 其中x叫作自變量,叫做x的函數(shù),集合叫做函數(shù)的定義域,與x對應(yīng)的y叫做函數(shù)值,函數(shù)值的集合叫做函數(shù)的值域,叫做對應(yīng)法則。其中,定義域、值域和對應(yīng)法則被稱為函數(shù)三要素。
?????? 定義域,值域,對應(yīng)法則稱為函數(shù)的三要素。一般書寫為。若省略定義域,一般是指使函數(shù)有意義的集合?[1] 。
?
函數(shù)空間與泛函分析
?????? 數(shù)學(xué)中,函數(shù)空間指的是從集合?X 到集合 Y 的給定種類的函數(shù)的集合。其叫做空間的原因是在很多應(yīng)用中,它是拓?fù)淇臻g或向量空間或這二者。
?????? 現(xiàn)代分析學(xué)的一般方法在于視Ω為拓?fù)淇臻g或測度空間又以問題的需要規(guī)定類中映射(即函數(shù)):Ω→A滿足的條件,諸如連續(xù)性、有界性、可測性、可微性、可積性等;??
??????? 從幾何學(xué)、拓?fù)鋵W(xué)及代數(shù)學(xué)的角度,對X一方面賦與關(guān)于加法與數(shù)量乘法的封閉性,這里加法為:?∈X,g∈X→?+g∈X,(?+g)(x)=?(x)+ g(x),對x∈Ω;數(shù)量乘法為:?∈X,λ∈A→λ?∈X,(λ?)(x)=λ?(x),對x∈Ω(即X對通常函數(shù)的線性運(yùn)算封閉);另一方面使之成為拓?fù)淇臻g,且兩方面又滿足一定的要求(例如線性運(yùn)算關(guān)于拓?fù)涫沁B續(xù)的等)。這樣,函數(shù)空間X通常也是拓?fù)渚€性空間。
?????? 由原始數(shù)的集合到函數(shù)集合,擴(kuò)展出一些列基于函數(shù)的算子定義:測度、可積、可微、收斂等一般意義(百科:函數(shù)空間)。
??????? 以多項(xiàng)式函數(shù)回歸模型:y=F(x)?=?ax+?bx^2?+?cx^3?+d為例,多項(xiàng)式函數(shù)從定義域Rx到值域Ry的函數(shù)空間是連續(xù)的,且可測、可積可微、可學(xué)習(xí)。
?? ? ? 對于有參數(shù)機(jī)器學(xué)習(xí)模型,常見的回歸模型(Logistics回歸、SVM等)和神經(jīng)網(wǎng)絡(luò)模型(回歸模型的非線性組合),都是可測可積可微可學(xué)習(xí)的。
函數(shù)積分與實(shí)分析
??????? 文章:為什么勒貝格積分比黎曼積分強(qiáng)?文風(fēng)很西化。???
黎曼積分和連續(xù)函數(shù)
??????? 柯西(Cauchy)為分析的發(fā)展提供了一種嚴(yán)密的語言,但是他并沒有解決微積分的全部問題。在19世紀(jì)的時(shí)候,分析的世界仍然有著一些揮之不去的烏云。而其中最重要的一個(gè)沒有解決的是“函數(shù)是否可積的問題”。我們在現(xiàn)在的微積分課本中學(xué)到的那種通過“無限分割區(qū)間,取矩陣面積和的極限”的積分,是大約在1850年由黎曼(Riemann)提出的,叫做黎曼積分。但是,什么函數(shù)存在黎曼積分呢(黎曼可積)?數(shù)學(xué)家們很早就證明了,定義在閉區(qū)間內(nèi)的連續(xù)函數(shù)是黎曼可積的。可是,這樣的結(jié)果并不令人滿意,工程師們需要對分段連續(xù)函數(shù)的函數(shù)積分。
勒貝格積分和測度函數(shù)
??????? 測度是定義在X?X上的函數(shù),記為d(x,y)其中x,y∈X,并且滿足: 1. d(x,x)=0??2. x≠y時(shí),d(x,y)>0??3. d(x,y)=d(y,x)??4. d(x,y)≤d(x,y)+d(y,z)(三角不等式)。文章:范數(shù)、測度和距離.此文總結(jié)的非常詳細(xì)。
?? ?? 測度與范數(shù)的區(qū)別:測度對應(yīng)的集合可以是一般的集合,范數(shù)對應(yīng)的集合必須有算術(shù)結(jié)構(gòu)?;如果d(x,y)是向量空間X上的測度,并且滿足平移不變性和齊次性,那么這個(gè)d(x,0就是某種范數(shù);反之,如果∣∣x∣∣是范數(shù),那么d(x,y)=∣∣x?y∣∣一定是測度。
?????文章:測度理論簡介.大多數(shù)的哲學(xué)問題都已經(jīng)被基礎(chǔ)數(shù)學(xué)解決了。
????? 勒貝格在1901年描述勒他的測度,隨后在第二年他描述了勒貝格積分。二者都是作為他在1902年的博士論文的一部分發(fā)表的。勒貝格測度是賦予歐幾里得空間的子集一個(gè)長度、面積、或者體積的標(biāo)準(zhǔn)方法。它廣泛應(yīng)用于實(shí)分析,特別是用于定義勒貝格積分。可以賦予一個(gè)體積的集合被稱為勒貝格可測;勒貝格可測集A的體積或者說測度記作λ(A)。
?????? 定義了測度的可測空間為測度空間,勒貝格積分把積分運(yùn)算擴(kuò)展到任何測度空間中。廣義地說是相對于一個(gè)測度而定義的函數(shù)積分。狹義則是指相對于勒貝格測度在實(shí)直線或者更高維數(shù)的歐氏空間的一個(gè)子集中定義的函數(shù)的積分。
?????? 勒貝格的博士論文《積分,長度與面積》建立了測度論和積分論,使一些原先在黎曼意義下不可積的函數(shù)按勒貝格的意義變得可積了,可以重建微積分基本定理。基于測度論和積分論構(gòu)建了數(shù)學(xué)的實(shí)變函數(shù)論。人們常把勒貝格以前的分析學(xué)稱為經(jīng)典分析,而把以由勒貝格積分引出的實(shí)變函數(shù)論為基礎(chǔ)而開拓出來的分析學(xué)稱為現(xiàn)代分析(百科)。
??????? 從直觀上看,作為兩個(gè)描述積分的不同理論,勒貝格積分跟黎曼積分最明顯的一個(gè)區(qū)別是:黎曼積分是對定義域進(jìn)行劃分的,勒貝格積分是對值域進(jìn)行劃分的。勒貝格積分的精髓是證明了函數(shù)的不連續(xù)點(diǎn)集的測度是零,這樣就把黎曼積分不可積的問題解決了。
????? 對于直觀上值域可數(shù)分割的勒貝格積分,因?yàn)橛昧丝蓴?shù)分割,勒貝格積分天生具有可數(shù)可加性,而相應(yīng)的,黎曼積分只具有有限可加性。
????? 此文:黎曼積分與勒貝格積分中,闡述簡明直觀。這兩種積分其實(shí)都是加法,但使用的手法不同,用數(shù)錢來比較,比如總計(jì)有100元,由硬幣和紙幣組成,黎曼積分采用的是悶頭數(shù)的方式,遇到硬幣算硬幣, 紙幣算紙幣,反正最后也能夠數(shù)出來正確的結(jié)果,勒貝格積分采用另外一種數(shù)法,將幣種歸類,看看10元有幾張,20元有幾張,1元硬幣有多少,也就是說使用5X10+2X20+1X10=100的方式。勒貝格積分的精髓是證明了函數(shù)的不連續(xù)點(diǎn)集的測度是零,這樣就把黎曼積分不可積的問題解決了。
函數(shù)值域擴(kuò)展
?????? 通俗地講,Ax=y的基礎(chǔ)解系構(gòu)成的線性空間,就是這個(gè)線性變換的核而值域是Ax取遍所有向量x后的解集。
???? ? 作用:核,可以用來快速判斷一個(gè)向量是否是線性方程組的解。而值域,可以用來快速判斷,一個(gè)向量是否可以通過其他向量,通過該線性變換后得到。
??????? 對于值域擴(kuò)展的ML模型,泛化理論和PAC學(xué)習(xí)理論不再對此有任何指導(dǎo)意義。擴(kuò)充值域的基礎(chǔ)前提是同時(shí)擴(kuò)充定義域且新的映射關(guān)系與原始模型相同或者相近。
具體方法:?
?
可積可微可學(xué)習(xí)
PAC可學(xué)習(xí)
可積函數(shù)是存在積分的函數(shù)。除非特別指明,一般積分是指勒貝格積分;否則,稱函數(shù)為"黎曼可積"(也即黎曼積分存在),或者"Henstock-Kurzweil可積"。在數(shù)學(xué)分析里,可積分的要求為函數(shù)有有限個(gè)間斷點(diǎn)即可以,在實(shí)變函數(shù)分析里,要求會(huì)更嚴(yán)格(百科:可積函數(shù))勒貝格可積分。
??????? 黎曼可積具有乘積、絕對值和復(fù)合可積的性質(zhì)。
??????? 在微積分學(xué)中,可微函數(shù)是指那些在定義域中所有點(diǎn)都存在導(dǎo)數(shù)的函數(shù)。可微函數(shù)的圖像在定義域內(nèi)的每一點(diǎn)上必存在非垂直切線。因此,可微函數(shù)的圖像是相對光滑的,沒有間斷點(diǎn)、尖點(diǎn)或任何有垂直切線的點(diǎn)。
??????? 機(jī)器學(xué)習(xí)可微函數(shù)模型是機(jī)器學(xué)習(xí)參數(shù)模型可學(xué)習(xí)的必要條件。機(jī)器學(xué)習(xí)模型構(gòu)建學(xué)習(xí)過程是重建假設(shè)并加以檢驗(yàn)的一般科學(xué)實(shí)驗(yàn)過程,其基本理論為PAC可學(xué)習(xí)理論。機(jī)器學(xué)習(xí)特定的模型可以求得解析解,只應(yīng)對于線性非共線模型參數(shù)個(gè)數(shù)與 樣本個(gè)數(shù)一致的情況下,但此種情況一般在現(xiàn)實(shí)ML中很少出現(xiàn)。大多數(shù)ML模型遵從了PAC學(xué)習(xí)理論,學(xué)習(xí)過程使用數(shù)學(xué)優(yōu)化方法,連續(xù)優(yōu)化的基本前提則是函數(shù)的可微性。
特殊函數(shù):連續(xù)不可積函數(shù),魏爾斯特拉斯函數(shù)連續(xù),但在任一點(diǎn)都不可導(dǎo)、不可微。科學(xué)實(shí)驗(yàn)建立的數(shù)學(xué)模型,大部分連續(xù)函數(shù)是可微的,而在純數(shù)學(xué)領(lǐng)域,巴拿赫聲稱可微函數(shù)在所有函數(shù)構(gòu)成的集合中卻是少數(shù)(百科:可微函數(shù))。
??????? 多元函數(shù)的可微性需要保證一個(gè)函數(shù)在某點(diǎn)的鄰域內(nèi)所有偏導(dǎo)數(shù)存在且連續(xù),偏導(dǎo)數(shù)都存在單獨(dú)不能保證函數(shù)在該點(diǎn)可微。
優(yōu)化方法-變分法
??????? 是處理函數(shù)的數(shù)學(xué)領(lǐng)域,和處理數(shù)的函數(shù)的普通微積分相對。它最終尋求的是極值函數(shù):它們使得泛函取得極大或極小值。
??????? 變分法起源于一些具體的物理學(xué)問題,最終由數(shù)學(xué)家研究解決。有些曲線上的經(jīng)典問題采用這種形式表達(dá):一個(gè)例子是最速降線,在重力作用下一個(gè)粒子沿著該路徑可以在最短時(shí)間從點(diǎn)A到達(dá)不直接在它底下的一點(diǎn)B。在所有從A到B的曲線中必須極小化代表下降時(shí)間的表達(dá)式。
......
??? ?? 變分法概念與尋常分析中的微分概念很為類似,但所聯(lián)系的不是x的變化,而是函數(shù)y(x)的變化。如果函數(shù)y(x)使U(y)達(dá)其極值,則U的變分δU變?yōu)?。
最小二乘法與梯度下降法
??????? 最小二乘法的目標(biāo):求誤差的最小平方和,對應(yīng)有兩種:線性和非線性。線性最小二乘法的解釋閉式解即x=(ATA)-1ATb,而非線性最小二乘法沒有閉式解,通常只能使用迭代搜索方法求解。
?
張量分析及其他
??????? 張量分析是微分幾何中研究張量場的微分運(yùn)算的一個(gè)分支。張量分析是用共變微分表示各種幾何量和微分算子性質(zhì)的運(yùn)算方法,可以看作是微分流形上的“微分法”,是研究流形上的幾何和分析的一種重要工具。 [1]?摘自于百度百科。 ??
多重線性函數(shù)?
??????? 記張量積的數(shù)學(xué)記號為 ?。文章:https://blog.csdn.net/lanchunhui/article/details/65439890
?
專家系統(tǒng)與強(qiáng)化學(xué)習(xí)
?????? 使用了參數(shù)模型或者非參數(shù)模型的機(jī)器學(xué)習(xí)系統(tǒng),不是傳統(tǒng)意義上的專家系統(tǒng),依然是一個(gè)嚴(yán)重依賴于專家的系統(tǒng)。
??????? 專家系統(tǒng)給出了知識節(jié)點(diǎn)和規(guī)則,使用粒度描述準(zhǔn)確性,依靠分解粒度解決矛盾,并反饋知識和推理規(guī)則更新。專家系統(tǒng)與機(jī)器學(xué)習(xí)有本質(zhì)區(qū)別,但從機(jī)器學(xué)習(xí)的角度看,專家系統(tǒng)是一個(gè)給出了規(guī)則/函數(shù)又給了函數(shù)參數(shù)的學(xué)習(xí)模型,其直接影響是泛化性能極差,容易導(dǎo)致矛盾。這樣,每一個(gè)專家系統(tǒng)的更新都涉及到知識節(jié)點(diǎn)(規(guī)則參數(shù))的分解重構(gòu),形式上等價(jià)于函數(shù)復(fù)合化。
?????? 機(jī)器學(xué)習(xí)系統(tǒng)設(shè)計(jì)也遵循了模式識別的一般構(gòu)架與過程。一般在特定或者廣泛的應(yīng)用領(lǐng)域,先給出目標(biāo)/評價(jià)函數(shù),以期待完成預(yù)期的結(jié)果。再依據(jù)目標(biāo)/評價(jià)函數(shù)設(shè)計(jì)滿足目標(biāo)函數(shù)的規(guī)則系統(tǒng)/數(shù)學(xué)模型,以期待能完成目標(biāo)函數(shù)所要求的功能。而應(yīng)對與每個(gè)領(lǐng)域,由實(shí)體到數(shù)學(xué)模型的轉(zhuǎn)化,產(chǎn)生了一個(gè)特征描述的專家過程,把領(lǐng)域?qū)嶓w表示為學(xué)習(xí)系統(tǒng)可以接受的輸入數(shù)據(jù)。
? ? ? ? 機(jī)器學(xué)習(xí)劃分出的非監(jiān)督學(xué)習(xí)與監(jiān)督學(xué)習(xí),在于是否使用了示例來指導(dǎo)數(shù)學(xué)模型的優(yōu)化過程。監(jiān)督學(xué)習(xí)給出了形式化的目標(biāo)函數(shù),形式化的數(shù)學(xué)模型,形式化的特征提取過程,并且給出了同倫映射空間模型參數(shù)的一些閾值確界,學(xué)習(xí)過程是通過閾值確界通過目標(biāo)函數(shù)約束來優(yōu)化數(shù)學(xué)模型的過程。非監(jiān)督學(xué)習(xí)沒有給出模型參數(shù)閾值,但依然有形式化的目標(biāo)函數(shù),形式化的數(shù)學(xué)模型和形式化的特征提取過程,主要通過目標(biāo)函數(shù)和數(shù)學(xué)模型精細(xì)結(jié)構(gòu)調(diào)整來達(dá)到預(yù)期目標(biāo)。
?????? 傳統(tǒng)的機(jī)器學(xué)習(xí)系統(tǒng)是一個(gè)模型逐漸優(yōu)化的學(xué)習(xí)系統(tǒng),學(xué)習(xí)的終極目標(biāo)是收斂到一個(gè)最優(yōu)解-模型的最優(yōu)參數(shù),期待是確定的數(shù)學(xué)模型。傳統(tǒng)的ML系統(tǒng)方法期待模型直接學(xué)習(xí)到模式的空間結(jié)構(gòu),并得到空間結(jié)構(gòu)的等價(jià)模型映射,相對于任意模型,學(xué)習(xí)到的模型是e精度最優(yōu)的,即是e精度最接近的,這就意味著最大的準(zhǔn)確率和最大的泛化性能。
?????? 跨越到連接主義的范疇,強(qiáng)化學(xué)習(xí)是一個(gè)反饋式學(xué)習(xí)系統(tǒng),其期待是一個(gè)不斷根據(jù)反饋進(jìn)行優(yōu)化的模型,并非一次成型。
reinforcement learning-RL又稱為評價(jià)學(xué)習(xí),在傳統(tǒng)ML領(lǐng)域不存在此種概念,接近于在線弱監(jiān)督學(xué)習(xí)。在連接主義學(xué)習(xí)中,ML劃分為監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)RL。
?????? 在機(jī)器學(xué)習(xí)學(xué)科中,機(jī)器學(xué)習(xí)模型的建立需要擺脫由專家人工構(gòu)建的過程,完成自動(dòng)模型搜索,因此引入強(qiáng)化學(xué)習(xí)概念。通過設(shè)計(jì)適當(dāng)?shù)脑u價(jià)模型,從一個(gè)模型開始,根據(jù)評價(jià)模型指導(dǎo),自動(dòng)搜索更優(yōu)的機(jī)器學(xué)習(xí)模型。近期的CNN結(jié)構(gòu)搜索方法使用了被動(dòng)強(qiáng)化學(xué)習(xí)的思想,使用固有的策略,在樣本空間完全可知狀態(tài)下,通過評價(jià)模型進(jìn)行評價(jià)反饋,在機(jī)器學(xué)習(xí)模型空間中搜索最優(yōu)模型,而不僅僅是更新固定模型的參數(shù)。
?缺陷:尋找最優(yōu)模型的最優(yōu)參數(shù)依然是一個(gè)概率過程,RL還不能對模型的泛化性能保證,不能避免過擬合。過擬合的避免依然需要遍歷級別的樣本空間。
?
DNN結(jié)構(gòu)搜索
???? LeNet是第一個(gè)成功的手寫阿拉伯?dāng)?shù)字識別模型,ALexNet是第一個(gè)成功的ImageNet圖像識別模型,從0-1一般由專家構(gòu)建。而后期模型不斷的發(fā)展,嚴(yán)重依賴了一種模型搜索方法:遷移學(xué)習(xí)-EnforceLearning:遷移學(xué)習(xí)-監(jiān)督訓(xùn)練與非監(jiān)督訓(xùn)練。遷移學(xué)習(xí)使用一個(gè)初始化結(jié)構(gòu)開始,人類專家,通過特定規(guī)則擴(kuò)充維度或者逐步搜索構(gòu)建新的結(jié)構(gòu),使模型擴(kuò)大到更大的論域。
???? 從一個(gè)初始化的AlexNet結(jié)構(gòu),不斷得搜索,取得了CNN在圖像處理模式識別的長足進(jìn)步與輝煌。AlexNet-GoogleLeNet-....
.....................................................................................希望找到不依賴于專家的模型探索方法................它需要一系列的方法論,這就引發(fā)了由方法論引導(dǎo)創(chuàng)建規(guī)則,再有規(guī)則創(chuàng)建模型的領(lǐng)域....................................
作為歸納系統(tǒng)的深度學(xué)習(xí)。
????深度學(xué)習(xí)以“數(shù)據(jù)驅(qū)動(dòng)”范式顛覆了“人造特征”范式,完成“特征學(xué)習(xí)”,這是一個(gè)重大的進(jìn)步。但與此同時(shí),它自己又陷入了一個(gè)“人造結(jié)構(gòu)”窠臼中。06年hinton教授發(fā)表在nature上的最初的論文,多層壓縮映射。給出的深度學(xué)習(xí)的方案是無監(jiān)督學(xué)習(xí)獲取網(wǎng)絡(luò)結(jié)構(gòu),之后再通過有監(jiān)督學(xué)習(xí)優(yōu)化參數(shù),DNN網(wǎng)絡(luò)的引爆點(diǎn)恰恰是結(jié)構(gòu)學(xué)習(xí)。大量利用未標(biāo)記數(shù)據(jù)學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)是深度學(xué)習(xí)最初的構(gòu)想。
但無論Hinton教授組最初設(shè)計(jì)的AlexNet,還是后來的VGG,GoogLeNet,ResNet等等,都是富有經(jīng)驗(yàn)的專家人工設(shè)計(jì)出來的。給定一個(gè)新問題,到底什么樣的網(wǎng)絡(luò)結(jié)構(gòu)是最佳的(如多少卷積層)卻不得而知,這在一定程度上阻礙了深度學(xué)習(xí)在更多智能任務(wù)上的普及和應(yīng)用。因此,同時(shí)學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)和網(wǎng)絡(luò)參數(shù)是一個(gè)值得大力關(guān)注的研究方向。
??????? 而2006年Hinton教授等人倡導(dǎo)的卻恰恰是利用無監(jiān)督學(xué)習(xí)來對深層神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練。利用超量的數(shù)據(jù)學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)是一個(gè)更耗費(fèi)時(shí)間和計(jì)算能力的事情。此后,特別是DCNN興起之后,無監(jiān)督的預(yù)訓(xùn)練似乎已經(jīng)被很多研究者所拋棄(特別是在CV領(lǐng)域)。
?????? 直接從大量無監(jiān)督數(shù)據(jù)中學(xué)習(xí)模型確實(shí)是非常困難的,即便是人這部“機(jī)器”,也有“狼孩”的例子警告我們“無師自通”似乎是不現(xiàn)實(shí)的。但“少量有導(dǎo)師數(shù)據(jù)+大量無導(dǎo)師數(shù)據(jù)”的弱監(jiān)督模式也許是更值得大力研究的。
??????? Hinton教授的Auto-Coder/Decoder方法,使用了SparseCoding概念,使用壓縮/重建映射的思想通過學(xué)習(xí)RBM 生成描述 隱藏元。Auto- Coder給出了方向和范圍兩方面的映射,使用大數(shù)據(jù)和反向重建思想自動(dòng)尋找數(shù)據(jù)本身的稀疏性,仍需要遍歷級別的無標(biāo)簽樣本。
??????? 原始DNN的Auto-Coder/Decoder方法是一種逐層結(jié)果反饋驅(qū)動(dòng)的方法,模型率屬于NN的層狀結(jié)構(gòu)。
NetWork In NetWork:
??????? VGGNet探索了卷積神經(jīng)網(wǎng)絡(luò)的深度與其性能之間的關(guān)系,通過反復(fù)堆疊3*3的小型卷積核和2*2的最大池化層(最小核和最小池化層),VGGNet成功地構(gòu)筑了16~19層深的卷積神經(jīng)網(wǎng)絡(luò)。獲得ImageNet2014年亞軍(VGGNet,top-5錯(cuò)誤率7.3%,19層神經(jīng)網(wǎng)絡(luò))。
??????? Google?Inception?Net首次出現(xiàn)在ILSVRC?2014的比賽中(和VGGNet同年),就以較大優(yōu)勢取得了第一名。那屆比賽中的Inception?Net通常被稱為Inception?V1,它最大的特點(diǎn)是控制了計(jì)算量和參數(shù)量的同時(shí),獲得了非常好的分類性能——top-5錯(cuò)誤率6.67%,只有AlexNet的一半不到。Inception?V1中精心設(shè)計(jì)的Inception?Module提高了參數(shù)的利用效率。
上圖為Inception結(jié)構(gòu)和ResNet基元結(jié)構(gòu)
?????? VGG結(jié)構(gòu)和INception結(jié)構(gòu)、ResNet基元結(jié)構(gòu)的出現(xiàn),驗(yàn)證了通過反復(fù)堆疊小型inception結(jié)構(gòu)可以構(gòu)建大型CNN網(wǎng)絡(luò),而構(gòu)建過程可以通過特定的規(guī)則自動(dòng)完成,這就引出了CNN結(jié)構(gòu)搜索即結(jié)構(gòu)學(xué)習(xí)的思路。
NasNet網(wǎng)絡(luò)逐層搜索
?????? Neural Architecture Search With Reinforcement Learning 1611.01578。谷歌推出的NASNet架構(gòu),用于大規(guī)模圖像分類和識別。NASNet架構(gòu)特點(diǎn)是由兩個(gè)AutoML設(shè)計(jì)的Layer組成——Normal Layer and Reduction Layer,這樣的效果是不再需要相關(guān)專家用human knowledge來搭建卷積網(wǎng)絡(luò)架構(gòu),直接用RNN把Hyperparameter計(jì)算出來,這樣就實(shí)現(xiàn)了AI關(guān)于CNN網(wǎng)絡(luò)結(jié)構(gòu)的自動(dòng)學(xué)習(xí)。
?????The controller RNN is a two-layer LSTM with 35 hidden units on each layer.It is trained with the ADAM optimizer (Kingma & Ba, 2015) with a learning rate of 0.0006. The?weights of the controller are initialized uniformly between -0.08 and 0.08. For the distributed training,?we set the number of parameter server shards S to 20, the number of controller replicas K to?100 and the number of child replicas m??to8, which means there are 800 networks being trained on?800 GPUs concurrently at any time.
谷歌大腦提出的NAS上的Auto-regressive RNN
該模式具有如下優(yōu)點(diǎn):
首先,這是一個(gè)靈活的框架(可應(yīng)用于自動(dòng)化設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)架構(gòu)、神經(jīng)優(yōu)化器、設(shè)備配置、數(shù)據(jù)增強(qiáng)策略等)。
其次,這種方法在CIFAR和ImageNet等基準(zhǔn)數(shù)據(jù)集上取得了當(dāng)時(shí)最佳的結(jié)果。
缺點(diǎn):
首先,這一模式通常依賴于大量的計(jì)算資源來取得好的結(jié)果(例如,NASNet使用了48000 GPU-hours)。
其次,遵循這一模式的許多方法仍然無法擊敗人工設(shè)計(jì)的最佳架構(gòu),尤其在計(jì)算資源受限的情況下。
?
基于網(wǎng)絡(luò)變換
?????? 既然我們已經(jīng)有許多成功的人工設(shè)計(jì)的架構(gòu),現(xiàn)有的神經(jīng)架構(gòu)搜索方法都無法輕易超越它們,那么為什么不利用它們呢?這就相當(dāng)于給網(wǎng)絡(luò)搜索結(jié)構(gòu)一個(gè)好的初始結(jié)構(gòu)。
??????? 為了實(shí)現(xiàn)這點(diǎn),上交大團(tuán)隊(duì)在AAAI 2018大會(huì)上發(fā)表的工作EAS(“Efficient Architecture Search by Network Transformation”)中提出:可以不從頭開始進(jìn)行神經(jīng)架構(gòu)搜索,而是使用現(xiàn)有的網(wǎng)絡(luò)作為起點(diǎn),通過網(wǎng)絡(luò)變換(Network Transformation)的方式來探索架構(gòu)空間。具體的,他們使用了Net2Net操作(一類 function-preserving的網(wǎng)絡(luò)變換操作)來探索架構(gòu)空間。
?????? 在之后的ICLR 2018上,來自CMU的研究人員提出了“N2N Learning: Network to Network Compression via Policy Gradient Reinforcement Learning”,即利用網(wǎng)絡(luò)壓縮操作來自動(dòng)化地壓縮一個(gè)訓(xùn)練好的網(wǎng)絡(luò)。
局限性
???? Net2Net和網(wǎng)絡(luò)壓縮操作的局限性在于他們都是layer-level的操作,例如添加(修剪)過濾器和插入(刪除)層。通過應(yīng)用這些layer-level的操作僅能改變網(wǎng)絡(luò)的深度和寬度,而不能修改網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)。這意味著在給定一個(gè)鏈?zhǔn)浇Y(jié)構(gòu)的起點(diǎn)時(shí),它們總是會(huì)導(dǎo)致鏈?zhǔn)浇Y(jié)構(gòu)網(wǎng)絡(luò)。
拓?fù)浣Y(jié)構(gòu)搜索
????上海交大APEX數(shù)據(jù)與知識管理實(shí)驗(yàn)室和MIT韓松老師在今年ICML 2018上發(fā)表的新研究“Path-Level Network Transformation for Efficient Architecture Search”表明,利用現(xiàn)有的成功的人工設(shè)計(jì)的架構(gòu)來設(shè)計(jì)高效的網(wǎng)絡(luò)架構(gòu)會(huì)容易得多。通過將現(xiàn)有成功的人工設(shè)計(jì)的架構(gòu)與神經(jīng)架構(gòu)搜索方法在設(shè)計(jì)有效的路徑拓?fù)浞矫娴膹?qiáng)大能力相結(jié)合,可以在有限的計(jì)算資源下獲得更好的結(jié)果。
..................
翻譯文章:算力節(jié)省240倍,http://www.sohu.com/a/242769393_473283?
?????? 考慮到當(dāng)前最先進(jìn)的人工設(shè)計(jì)的架構(gòu)(例如Inception模型、ResNets和DenseNets等)已經(jīng)超越了簡單的鏈?zhǔn)浇Y(jié)構(gòu)布局,并且顯示出精心定制的路徑拓?fù)?#xff08;path topology)的好處,因此對于這些基于變換的方法來說,這將是一個(gè)關(guān)鍵的需要解決的問題。
??????? 上交大和MIT的研究人員在ICML 2018發(fā)表的“Path-Level Network Transformation for Efficient Architecture Search”的主要目的便是解決這個(gè)問題。
..........
改進(jìn)方法:
?????? 解決方案是從一些簡單的觀察開始。考慮一個(gè)卷積層,如果我們把多分支結(jié)構(gòu)( multi-branch structure)中的每一個(gè)分支都設(shè)為該層的復(fù)制,那么給定相同的輸入,每個(gè)分支必然會(huì)產(chǎn)生相同的輸出,這些輸出的平均值也等于卷積層的輸出。
?????? 因此,我們可以構(gòu)造一個(gè)等效的多分支結(jié)構(gòu)(multi-branch structure),并通過add操作合并卷積層。類似地,為了構(gòu)造一個(gè)通過串聯(lián)合并的等效多分支結(jié)構(gòu),可以將卷積層沿著輸出通道維度分割為幾個(gè)部分,并將每個(gè)部分分配給相應(yīng)的分支。這樣,它們輸出的串聯(lián)就等于卷積層的輸出。
?????? 對于其他類型的層,例如 identity 層和深度可分離卷積層(depth-wise separable convolution layer,),可以類似地進(jìn)行這種等價(jià)的替換。
? ? ? ? ? ? ? ? ? ? ? ? ? ? identity層和等價(jià)的multi-branch結(jié)構(gòu)
更進(jìn)一步,通過將這些等價(jià)替換與Net2Net操作相結(jié)合,就可以任意修改神經(jīng)網(wǎng)絡(luò)的路徑拓?fù)洹?/p>
?樹形結(jié)構(gòu)的架構(gòu)空間
??????? 在路徑級網(wǎng)絡(luò)變換的基礎(chǔ)上,研究人員探索了一個(gè)樹形的結(jié)構(gòu)空間(即多分支結(jié)構(gòu)的一個(gè)簡單的擴(kuò)展)。
??????? 形式上,樹形結(jié)構(gòu)單元由節(jié)點(diǎn)和邊組成。在每個(gè)節(jié)點(diǎn),定義有一個(gè)分配方案,用于確定如何為每個(gè)分支分配輸入特性映射(feature map);還有一個(gè)合并方案,用于確定如何合并分支的輸出。節(jié)點(diǎn)通過邊(edge)連接到每個(gè)子節(jié)點(diǎn),而邊被定義為一個(gè)單元操作(例如卷積、池化、 identity等)。
??????? 給定輸入特性映射x,節(jié)點(diǎn)的輸出將基于其子節(jié)點(diǎn)的輸出遞歸地定義。首先將輸入特性映射分配給每個(gè)分支。然后在每個(gè)分支上,分配的特征映射由相應(yīng)的邊和子節(jié)點(diǎn)處理。最后,合并它們以產(chǎn)生輸出。
樹形結(jié)構(gòu)的強(qiáng)化學(xué)習(xí)元控制器(RL Meta-Controller)
為了探索樹形結(jié)構(gòu)空間,研究人員使用了一個(gè)強(qiáng)化學(xué)習(xí)元控制器。這里的策略網(wǎng)絡(luò)包括一個(gè)編碼器網(wǎng)絡(luò),用于將輸入架構(gòu)編碼成一個(gè)低維向量,以及各種softmax分類器,用于生成相應(yīng)的網(wǎng)絡(luò)變換操作。
此外,由于輸入架構(gòu)現(xiàn)在具有樹形結(jié)構(gòu),無法簡單用一個(gè)字符串序列來表示,因此這里使用了樹形結(jié)構(gòu)編碼器網(wǎng)絡(luò)( tree-structured encoder network)。
? ? ? ? ? ? ? ? ? ? 樹形結(jié)構(gòu)的編碼器網(wǎng)絡(luò)
具體來說,除了用于在邊上執(zhí)行隱藏狀態(tài)變換的普通LSTM單元之外,還引入了兩個(gè)額外的樹結(jié)構(gòu)LSTM單元,以在節(jié)點(diǎn)上執(zhí)行隱藏狀態(tài)轉(zhuǎn)換。如上圖所示,使用這3個(gè)LSTM單元,整個(gè)過程以自下而上和自上而下的方式進(jìn)行,使每個(gè)節(jié)點(diǎn)中的隱藏狀態(tài)包含架構(gòu)的所有信息,類似于雙向LSTM。
然后,給定每個(gè)節(jié)點(diǎn)的隱藏狀態(tài),做出三種不同類型的決策。第一種類型是確定是否要將一個(gè)節(jié)點(diǎn)轉(zhuǎn)換為多個(gè)子節(jié)點(diǎn)。合并方案和分支數(shù)量都是預(yù)測的。第二種類型是確定是否插入新節(jié)點(diǎn)。第三種類型是用從一組可能的原始操作中選擇的層來替換 identity 映射。
實(shí)驗(yàn)和結(jié)果
以下是論文中提供的受限的計(jì)算資源下(大約200 GPU-hours)找到的最好的樹形單元(TreeCell-A):
我們可以將這樣的樹形單元嵌入到已有的人類設(shè)計(jì)的網(wǎng)絡(luò)架構(gòu)(例如DenseNet,PyramidNet)當(dāng)中,而在CIFAR-10上的結(jié)果如下表所示
與原始的DenseNet和PyramidNet相比,樹形單元顯著提高了參數(shù)效率和測試誤差結(jié)果。與其他從頭開始的神經(jīng)架構(gòu)搜索方法(NASNet),TreeCell-A可以在大約一半?yún)?shù)的情況下實(shí)現(xiàn)更低的測試錯(cuò)誤率(2.30% test error with 14.3M parameters versus 2.40% test error with 27.6M parameters)。更重要的是,其所使用的計(jì)算資源要比NASNet少得多。
當(dāng)遷移到ImageNet(移動(dòng)設(shè)置)時(shí),與NASNets相比,樹形單元仍然可以獲得稍好的結(jié)果。
論文地址:https://arxiv.org/pdf/1806.02639.pdf
RNN方法
Sequence 2 Sequence Learning
時(shí)序分析是一種變長模式分析,而語言翻譯工作是sequence 2 sequence learning 工作。
變長序列的模式識別 ??
對于空間內(nèi)的手勢識別算法,在線流程是這樣的。不斷輸入的靜態(tài)圖像幀,從圖像中獲取手部,并實(shí)時(shí)檢測出手的位姿。以位姿特征序列作為輸入,模型的另一側(cè)輸入一個(gè)輸出模式的概率。
RNN的四種代表性擴(kuò)展
文章:RNN的四種代表性擴(kuò)展-.
作者:CHRIS OLAH Google Brain SHAN CARTER Google Brain
原Paper:http://distill.pub/2016/augmented-rnns/#citation
Recurrent neural networks are one of the staples of deep learning, allowing neural networks to work with sequences of data like text, audio and video. They can be used to boil a sequence down into a high-level understanding, to annotate sequences, and even to generate new sequences from scratch!(RNN是深度學(xué)習(xí)的一種,廣泛用于文本,語音和視頻中。RNN可以將一個(gè)序列抽象到一個(gè)高維理解,做注釋甚至可以生成一個(gè)新的序列)
Four directions stand out as particularly exciting:(四個(gè)具有代表性的RNN擴(kuò)展)
Individually, these techniques are all potent extensions of RNNs, but the really striking thing is that they can be combined together, and seem to just be points in a broader space. Further, they all rely on the same underlying trick – something called attention – to work.
Our guess is that these “augmented RNNs” will have an important role to play in extending deep learning’s capabilities over the coming years.
(個(gè)人認(rèn)為,以上RNN技術(shù)的擴(kuò)展都取得了顯著的效果,更顯著的是他們可以合并到一起,并且在更寬廣的空間中取得更好的效果。進(jìn)一步看,它們都依賴于相同的技巧——一種成為attention的東西——來工作。)
我們的猜測是這些擴(kuò)展的RNN在今后的幾年中將會(huì)扮演一個(gè)重要的角色。
CCT方法
Connectionist Temporal Classification (CTC)是一項(xiàng)技術(shù),它是位RNN專門設(shè)計(jì)的頂層(top layer)。使得針對輸入序列的每一幀,網(wǎng)絡(luò)能夠輸出一個(gè)標(biāo)簽或者空白(blank)。CTC使得用一個(gè)RNN構(gòu)建語音識別系統(tǒng)成為可能,這個(gè)和混合方法HMM+DNN不一樣。文章:CTC方法詳解補(bǔ)充
使RNN支持CTC模型所需要的輸出表示,關(guān)鍵步驟是將網(wǎng)絡(luò)輸出轉(zhuǎn)換為一個(gè)在label序列上的條件概率分布,之后對于給定輸入,網(wǎng)絡(luò)通過選擇最可能的label來完成分類。
............................
CTC原文翻譯
????因?yàn)樽罱隽艘恍┯眠B續(xù)標(biāo)簽做文字識別標(biāo)簽任務(wù)的工作,對 ctc 有了一些了解,在此記錄一下。
在學(xué)習(xí) CTC 的時(shí)候,也看了不少博客,但是我覺得講的最好的還是原論文 Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks?解釋的最清楚。
????對于沒接觸過這個(gè)概念的人,可能加一些例子會(huì)更好理解一些。我就來加一些例子。
文章:Connectionist Temporal Classification原文翻譯
…………………………….
CTC 解決了對輸入序列的單個(gè)詞的切分和對輸入序列的整合工作。
CTC 的優(yōu)點(diǎn)
?
LSTM方法
? ? ? 為解決RNN展開式的指數(shù)級參數(shù)傳遞的消失或爆炸問題,發(fā)明了LSTM網(wǎng)絡(luò)。
?
NTM方法
RNN無疑是深度學(xué)習(xí)的主要內(nèi)容之一,增強(qiáng)型RNN大致可以分為四種,本文介紹第一種:神經(jīng)圖靈機(jī)。
簡單的RNNs(vanilla version)是存在很多缺陷的,直到出現(xiàn)LSTM,增加了gates使得gradient vanishing不在成為問題。前幾天還看到關(guān)于LSTM之父 Sepp Hochreiter and Jürgen Schmidhuber(尤其后者)如今并沒有很大名氣的討論,大家有興趣也可以了解一下。如今所有state-of-the-art的RNNs幾乎都在使用LSTM。關(guān)于理解LSTM,推薦Olah's Blog。
在這基礎(chǔ)之上出現(xiàn)了很多更加 powerful 的增強(qiáng)型RNNs,這些研究都是非常激動(dòng)人心的。而這其中我們主要討論以下4種:
本質(zhì)上,它們都是RNNs的擴(kuò)展,并且它們甚至可以組合在一起使用,這是由于注意力機(jī)制的使用將它們聯(lián)系在了一起。Attention將是RNNs發(fā)展史上一個(gè)非常重要的里程碑。這四種模型都是非常酷的,但由于時(shí)間和篇幅關(guān)系,我們先從Neural Turing Machine開始,剩下的在后續(xù)文章中討論。也算是為了彌補(bǔ)我之前沒有那么成功的 NTM 分享經(jīng)驗(yàn)。
神經(jīng)圖靈機(jī) - Neural Turing Machines
NTM(Graves, et al., 2014)在一個(gè)很高的層面上構(gòu)建神經(jīng)計(jì)算模型,作為圖靈機(jī)的實(shí)現(xiàn)。核心思想是在RNNs的基礎(chǔ)上augment記憶模塊。張量是神經(jīng)網(wǎng)絡(luò)的語言,因此記憶模塊就是一組張量,具體地,原文使用一組向量來表示。實(shí)際上,只要可以保持一致性,使用一個(gè)高斯分布表示一個(gè)記憶單元也是可以的。
這里A被稱作 controller(圖中是在處理序列數(shù)據(jù),有個(gè)錯(cuò)誤,最后應(yīng)該是x3,y3), 可以是FNNs(feedforward neural networks),也可以是RNNs,但RNNs能實(shí)現(xiàn)更多操作,因?yàn)樗?Turing Complete 的。
? ? ? ?NTM的整個(gè)工作過程:
里面有個(gè)卷積操作比較有意思,稍微有點(diǎn)tricky,大家可以去原文里看,叫circular convolution。
之所以我說NTM是具有里程碑式意義的,是因?yàn)檫@種讀寫能力允許NTM執(zhí)行許多簡單的算法,這是超越傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的。 例如,他們可以學(xué)習(xí)在存儲器中存儲長序列,然后在其上循環(huán)、重復(fù)它。 當(dāng)他們這樣做,我們可以看到其在哪些位置進(jìn)行讀寫以更好地了解NTM在做什么。一定意義上,作為圖靈機(jī)的實(shí)現(xiàn),它具有實(shí)現(xiàn)目前計(jì)算機(jī)能使用的所以算法,并且它是可學(xué)習(xí)的。不過要實(shí)現(xiàn)這個(gè)目標(biāo)還有很多工作要做。
...........未完待續(xù)..........
...........哥德爾完全性定理和哥德爾不完備性定理,以及不可能達(dá)到卻要努力去達(dá)到的希爾伯特大廈..........
參考:
Neural Turing Machine include Taehoon Kim’s(TensorFlow), Shawn Tan’s (Theano), Fumin’s (Go), Kai Sheng Tai’s (Torch), Snip’s (Lasagne);
Differentiable Neural Computer: Mostafa-Samir(TensorFlow)
Code for the Neural GPU: TensorFlow Models repository;
Memory Networks include Facebook’s (Torch/Matlab), YerevaNN’s (Theano), and Taehoon Kim’s (TensorFlow).
?
總結(jié)
以上是生活随笔為你收集整理的人工机器:人工智能中的机器学习方法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: StyleAI:印象坐标-感情色彩量化/
- 下一篇: 简单好听的英文个性签名最新176个