机器学习在本体中的应用研究文献综述
生活随笔
收集整理的這篇文章主要介紹了
机器学习在本体中的应用研究文献综述
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
機(jī)器學(xué)習(xí)在本體標(biāo)注中的應(yīng)用研究文獻(xiàn)綜述<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" /> ? ????本設(shè)計(jì)是基于語義搜索引擎展開研究,針對這個(gè)新興的搜索引擎概念的提出,我們搜集了大量的資料并對此進(jìn)行了一定的研究。 ????先來談?wù)勊阉饕妗W鳛槿腴T而選擇現(xiàn)在的主流搜索引擎google。google最初起源于斯坦福大學(xué)的BackRub項(xiàng)目,當(dāng)時(shí)是由學(xué)生Lany?Page和Sergey?Brin主要負(fù)責(zé),到了1998年,BackRub更名為google,并且走出校園成為一個(gè)公司。認(rèn)識google技術(shù),從google黑板報(bào)---數(shù)學(xué)之美系列(科學(xué)與技術(shù))入手,由google研究員吳軍2006年4月發(fā)表的第一篇?《統(tǒng)計(jì)語言模型》開始,接連發(fā)表了《隱含馬爾可夫模型在語言處理中的應(yīng)用》、《簡單之美:布爾代數(shù)和搜索引擎的索引》、《信息論在信息處理中的應(yīng)用》《談?wù)勚形姆衷~》《圖論和網(wǎng)絡(luò)爬蟲?(Web?Crawlers)》、《賈里尼克的故事和現(xiàn)代語言處理》、《如何確定網(wǎng)頁和查詢的相關(guān)性》、《矩陣運(yùn)算和文本處理中的分類問題》、《馬爾可夫鏈的擴(kuò)展-貝葉斯網(wǎng)絡(luò)》、《布隆過濾器(Bloom?Filter)》、《談?wù)劽艽a學(xué)的數(shù)學(xué)原理》、《談?wù)勏戕r(nóng)第一定律》,從這些文章,大致了解了主流搜索引擎的一些技術(shù)。 ????此外,Google?被評價(jià)的優(yōu)點(diǎn)不僅僅在于去除無用的(廣告)標(biāo)語構(gòu)成單一頁面的功能、獨(dú)自的?Cache?系統(tǒng)、動(dòng)態(tài)制成摘要信息、為實(shí)現(xiàn)高速檢索而設(shè)置的分散系統(tǒng)(數(shù)千臺(tái)規(guī)模的Linux群集器)等,而其中最大的優(yōu)點(diǎn)正是它檢索結(jié)果的正確性。一種能夠自動(dòng)判斷網(wǎng)頁重要性的技術(shù)「PageRank是(網(wǎng)頁等級)」就是為此而設(shè)計(jì)的一種技術(shù)。 ????PageRank,有效地利用了Web所擁有的龐大鏈接構(gòu)造的特性。從網(wǎng)頁A導(dǎo)向網(wǎng)頁B的鏈接被看作是對頁面A對頁面B的支持投票,Google根據(jù)這個(gè)投票數(shù)來判斷頁面的重要性。可是?Google?不單單只看投票數(shù)(即鏈接數(shù)),對投票的頁面也進(jìn)行分析。「重要性」高的頁面所投的票的評價(jià)會(huì)更高,因?yàn)榻邮苓@個(gè)投票頁面會(huì)被理解為「重要的物品」。 ????根據(jù)這樣的分析,得到了高評價(jià)的重要頁面會(huì)被給予較高的?Page?Rank(網(wǎng)頁等級),在檢索結(jié)果內(nèi)的名次也會(huì)提高。PageRank是Google中表示網(wǎng)頁重要性的綜合性指標(biāo),而且不會(huì)受到各種檢索(引擎)的影響。倒不如說,PageRank就是基于對"使用復(fù)雜的算法而得到的鏈接構(gòu)造"的分析,從而得出的各網(wǎng)頁本身的特性。 ????當(dāng)然,重要性高的頁面如果和檢索詞句沒有關(guān)聯(lián)同樣也沒有任何意義。為此?Google?使用了精練后的文本匹配技術(shù),使得能夠檢索出重要而且正確的頁面。? ????但是,對于搜索引擎這種技術(shù),以上的信息還是遠(yuǎn)遠(yuǎn)不夠的,通過閱讀《搜索引擎---原理、技術(shù)與系統(tǒng)》首先了解到搜索引擎原理:現(xiàn)代大規(guī)模高質(zhì)量搜索引擎一般采用如圖?2-2?所示的稱之為三段式的工作流程,即:網(wǎng)頁搜集、預(yù)處理和查詢服務(wù)。 網(wǎng)頁搜集:分為定期搜集和增量搜集。在具體搜集過程中,如何抓取一篇篇的網(wǎng)頁,也可以有不同的考慮。最常見的一種是所謂“爬取”:將?Web?上的網(wǎng)頁集合看成是一個(gè)有向圖,搜集過程從給定起始?URL?集合?S(或者說“種子”)開始,沿著網(wǎng)頁中的鏈接,按照先深、先寬、或者某種別的策略遍歷,不停的從S中移除URL,下載相應(yīng)的網(wǎng)頁,解析出網(wǎng)頁中的超鏈接?URL,看是否已經(jīng)被訪問過,將未訪問過的那些URL加入集合S。整個(gè)過程可以形象地想象為一個(gè)蜘蛛(spider)在蜘蛛網(wǎng)(Web)上爬行(crawl)。后面我們會(huì)看到,真正的系統(tǒng)其實(shí)是多個(gè)“蜘蛛”同時(shí)在爬。這種方式的好處除了概念很漂亮,一般實(shí)現(xiàn)起來也不困難外,還有很重要的一條是容易通過一定的策略,使搜集到的網(wǎng)頁相對比較“重要”。前面提過,任何搜索引擎是不可能將Web上的網(wǎng)頁搜集完全的,通常都是在其他條件的限制下決定搜集過程的結(jié)束(例如磁盤滿,或者搜集時(shí)間已經(jīng)太長了)。因此就有一個(gè)盡量使搜到的網(wǎng)頁比較重要的問題,這對于那些并不追求很大的數(shù)量覆蓋率的搜索引擎特別重要。研究表明[Najork?and?Wiener,2001],按照先寬搜索方式得到的網(wǎng)頁集合要比先深搜索得到的集合重要(這里當(dāng)然有一個(gè)重要性的指標(biāo)問題)。這種方式的一個(gè)困難是要從每一篇網(wǎng)頁中提取出所含的URL。由于HTML的靈活性,其中出現(xiàn)URL的方式各種各樣,將這個(gè)環(huán)節(jié)做得徹底不容易(例如我們現(xiàn)在還沒有很好的簡單辦法從JavaScript腳本中提取URL)?。同時(shí),由于Web的“蝴蝶結(jié)”形狀[Broder,?et?al.,2000],?這種方式搜集到的網(wǎng)頁不大會(huì)超過所有目標(biāo)網(wǎng)頁數(shù)量的2/3。?? ????另外一種可能的方式是在第一次全面網(wǎng)頁搜集后,系統(tǒng)維護(hù)相應(yīng)的?URL?集合S,往后的搜集直接基于這個(gè)集合。每搜到一個(gè)網(wǎng)頁,如果它發(fā)生變化并含有新的?URL,則將它們對應(yīng)的網(wǎng)頁也抓回來,并將這些新?URL?也放到集合?S?中;如果?S?中某個(gè)?url?對應(yīng)的網(wǎng)頁不存在了,則將它從?S?中刪除。這種方式也可以看成是一種極端的先寬搜索,即第一層是一個(gè)很大的集合,往下最多只延伸一層。? ????還有一種方法是讓網(wǎng)站擁有者主動(dòng)向搜索引擎提交它們的網(wǎng)址(為了宣傳自己,通常會(huì)有這種積極性),系統(tǒng)在一定時(shí)間內(nèi)(2天到數(shù)月不等)定向向那些網(wǎng)站派出“蜘蛛”程序,掃描該網(wǎng)站的所有網(wǎng)頁并將有關(guān)信息存入數(shù)據(jù)庫中。大型商業(yè)搜索引擎一般都提供這種功能。? 預(yù)處理主要包括四個(gè)方面,關(guān)鍵詞的提取,“鏡像網(wǎng)頁”(網(wǎng)頁的內(nèi)容完全相同,未加任何修改)或“轉(zhuǎn)載網(wǎng)頁”?(near-replicas,主題內(nèi)容基本相同但可能有一些額外的編輯信息等,轉(zhuǎn)載網(wǎng)頁也稱為“近似鏡像網(wǎng)頁”?)的消除,鏈接分析和網(wǎng)頁重要程度的計(jì)算。 查詢服務(wù)如上述,從一個(gè)原始網(wǎng)頁集合S開始,預(yù)處理過程得到的是對S的一個(gè)子集的元素的某種內(nèi)部表示,這種表示構(gòu)成了查詢服務(wù)的直接基礎(chǔ)。對每個(gè)元素來說,這種表示至少包含如下幾個(gè)方面:原始網(wǎng)頁文檔、URL和標(biāo)題、編號、所含的重要關(guān)鍵詞的集合(以及它們在文檔中出現(xiàn)的位置信息)、其他一些指標(biāo)(例如重要程度,分類代碼等)而系統(tǒng)關(guān)鍵詞總體的集合和文檔的編號一起構(gòu)成了一個(gè)倒排文件結(jié)構(gòu),使得一旦得到一個(gè)關(guān)鍵詞輸入,系統(tǒng)能迅速給出相關(guān)文檔編號的集合輸出。 ????由此,可以進(jìn)一步探索了搜索引擎的體系結(jié)構(gòu),如圖2-3 ????1983年3月,Web的創(chuàng)始人Tim?Berners-Lee提出分布式超文本系統(tǒng)圖,其中所包含的鏈接都是蘊(yùn)含語義的,該圖最早提出了Web信息包含語義的思想。1994年5月第一屆國際WWW會(huì)議Tim?Berners-Lee在會(huì)議報(bào)告中特別強(qiáng)調(diào)了語義的重要性。這為搜索引擎的發(fā)展又注入了一種新的思想---語義網(wǎng)、語義搜索引擎。 ????先來看一個(gè)語義網(wǎng)層次模型(也稱為協(xié)議棧),如圖 ????從圖中可以看出語義網(wǎng)發(fā)展的層次結(jié)構(gòu)。第一層是Unicode(統(tǒng)一編碼)和URI(Uniform?Resource?Identifier,統(tǒng)一資源定位器),它是整個(gè)語義網(wǎng)的基礎(chǔ),Unicode處理資源的編碼,URI負(fù)責(zé)資源的標(biāo)識。第二層是XML,用于表示數(shù)據(jù)的內(nèi)容和結(jié)構(gòu)。第三層是RDF(Resource?Description?Framework,資源描述框架),用于描述資源及其相互關(guān)系。第四層RDF-S,為RDF提供了類型定義機(jī)制,確定了RDF描述的資源所使用的領(lǐng)域詞匯。第五層是本體(ontology)和規(guī)則(Rule),本體用于描述領(lǐng)域概念以及概念之間的聯(lián)系;?規(guī)則用于描述領(lǐng)域知識中的前提和結(jié)論;?本體和規(guī)則構(gòu)成領(lǐng)域知識層。覆蓋第四層和第五層的查詢語句SPARQL?提供了對OWL(Web?Ontology?Language,Web本體語言)和RIF(Rule?Interchange?Format,規(guī)則交換格式)文件的查詢功能。第六層是統(tǒng)一的邏輯(Unifying?Logic),在下面五層的基礎(chǔ)上進(jìn)行邏輯推理操作。第七層是驗(yàn)證(Proof),根據(jù)邏輯陳述進(jìn)行驗(yàn)證以得出結(jié)論。第八層是信任(Trust),在用戶間建立信任關(guān)系。第九層是應(yīng)用層,是構(gòu)建在語義Web之上的各種應(yīng)用。概括地說,下面兩層是語義Web的基礎(chǔ)設(shè)施,中間從元數(shù)據(jù)發(fā)展到本體描述語言及其統(tǒng)一的邏輯是語義網(wǎng)的關(guān)鍵研究所在,上面的證明和信任及各層次貫穿的數(shù)字簽名技術(shù)是擴(kuò)充,是對語義網(wǎng)成功應(yīng)用的要求與展望。 ????關(guān)于語義網(wǎng)的更多詳細(xì)可以參見[url]http://en.wikipedia.org/wiki/Semantic_Web[/url].?對語義網(wǎng)看好的公司很多,如IBM的主頁中有個(gè)專為語義網(wǎng)建頁面---"web的將來是語義的",此外,還有很多公司開始在Tim?Berners-Lee的這個(gè)構(gòu)想上建立語義搜索引擎,力圖改進(jìn)現(xiàn)在搜索引擎技術(shù)及方式,如下圖是現(xiàn)在正在測試和設(shè)計(jì)中的語義搜索引擎: ?? ? ????其中以twine最為引人注目,但所有這些標(biāo)明是語義搜索引擎的搜索引擎現(xiàn)在都還在測試階段,當(dāng)然,可以通過了解正在作測試工作的twine的公司網(wǎng)站[url]http://www.radarnetworks.com/[/url]?及[url]http://www.twine.com/[/url]了解語義搜索引擎的使用及不同,以及能為今后的網(wǎng)絡(luò)搜索帶來的不同體驗(yàn)。 ????因此,還在不能肯定Tim?Berners-Lee提出的語義網(wǎng)、語義搜索引擎已經(jīng)實(shí)現(xiàn)。在由上面給出的語義網(wǎng)層次模型,去進(jìn)一步了解語義網(wǎng)及語義網(wǎng)實(shí)現(xiàn)的真正意圖。 ???《頂級專家Frank?van?Harmelen揭秘語義網(wǎng)》所謂“語義”就是文本的含義。語義需要理解文本的意思和結(jié)構(gòu),而與顯示方式無關(guān)。簡單地說,語義網(wǎng)(Semantic?Web)是一種能理解人類語言的智能網(wǎng)絡(luò),它不但能夠理解人類的語言,而且還可以使人與電腦之間的交流變得像人與人之間交流一樣輕松。? ????雖然語義網(wǎng)和人工智能(AI)所用的工具有一些相同(比如本體、推理、邏輯等)?,但它們的目標(biāo)是完全不同的。實(shí)際上,語義網(wǎng)的目標(biāo)是更為適度的:語義網(wǎng)并不是要構(gòu)建一個(gè)通用的、綜合性的、基于Internet的智能系統(tǒng),而是要實(shí)現(xiàn)Web上數(shù)據(jù)集(datasets)間的互操作(無論數(shù)據(jù)是結(jié)構(gòu)化、非結(jié)構(gòu)化還是半結(jié)構(gòu)化的)——這一目標(biāo)更具實(shí)踐性,更為適度。?? ????語義網(wǎng)技術(shù)主要是基礎(chǔ)設(shè)施技術(shù)(Infrastructure?Technology)而基礎(chǔ)設(shè)施技術(shù)是存在于背后、并非用戶直接可見的。你所能感受到的,只是諸如:網(wǎng)站變得更人性化了(因?yàn)楸澈蟠嬖谡Z義網(wǎng)技術(shù),你的個(gè)人興趣概要(Pro?le)可以與網(wǎng)站的數(shù)據(jù)源進(jìn)行互操作)?、搜索引擎對結(jié)果的聚類(Clusterinof?Results)做得更好了(因?yàn)樗阉饕嬖诒澈蟛捎镁哂泻x的本體來對搜索結(jié)果加以分類)以及桌面搜索工具能夠把文檔作者的姓名與你的地址簿里的Email地址關(guān)聯(lián)起來了(因?yàn)檫@些數(shù)據(jù)格式在背后通過暴露其語義來實(shí)現(xiàn)互操作)等,但這些應(yīng)用不會(huì)在其界面上注明“語義網(wǎng)技術(shù)”。語義網(wǎng)技術(shù)就像是發(fā)動(dòng)機(jī)汽缸壁上的Nikasil涂層:雖然很少有司機(jī)知道它,但司機(jī)們能夠察覺到燃料消耗的減少、最高時(shí)速的提升以及引擎壽命的延長等等。語義網(wǎng)技術(shù)就是目前正在開發(fā)著的、下一代人類友好的計(jì)算機(jī)應(yīng)用的Nikasil涂層。 ????本體技術(shù)是語義網(wǎng)實(shí)現(xiàn)的基礎(chǔ),在《元素?fù)?jù)與知識本體》中對元數(shù)據(jù)和知識本體(ontology)進(jìn)行了解釋,其中所說的知識本體即本體。本體(ontology)被賦予了太多的含義,直觀地,我們可以把本體看成是“領(lǐng)域知識規(guī)范的抽象和描述,表達(dá)、共享、重用知識的方法。”? ????如果把每一個(gè)知識領(lǐng)域抽象成一套概念體系,再具體化為一個(gè)詞表來表示,包括每一個(gè)詞的明確定義、詞與詞之間的關(guān)系以及該領(lǐng)域的一些公理性知識的陳述等,并且能夠在這些知識領(lǐng)域的專家之間達(dá)成某種共識,即能夠共享這套詞表,所有這些就構(gòu)成了該知識領(lǐng)域的一個(gè)“本體”。最后,為了便于計(jì)算機(jī)理解和處理,需要用一定的編碼語言(例如RDF/OWL)明確表達(dá)上述體系(詞表、此表關(guān)系、關(guān)系約束、公理、推理規(guī)則等)。在這個(gè)意義上,知識本體已經(jīng)成為一種提取,理解和處理領(lǐng)域知識的工具,可以被應(yīng)用于任何具體的學(xué)科和專業(yè)領(lǐng)域。 ????OWL,這種本體描述語言,可以用來描述Web文檔和應(yīng)用中內(nèi)在的類和關(guān)系。OWL是語義網(wǎng)活動(dòng)的一個(gè)組成部分。這項(xiàng)工作的目的是通過對增加關(guān)于那些描述或提供網(wǎng)絡(luò)內(nèi)容的資源的信息,從而使網(wǎng)絡(luò)資源能夠更容易地被那些自動(dòng)進(jìn)程訪問。由于語義網(wǎng)絡(luò)固有的分布性,OWL必須允許信息能夠從分布的信息源收集起來。其中,允許本體間相互聯(lián)系,包括明確導(dǎo)入其他本體的信息,能夠部分實(shí)現(xiàn)這樣的功能。 ????另外,OWL提出了一個(gè)開放世界的假設(shè)。也就是說,對資源的描述并不局限于在一個(gè)簡單的文件或范圍內(nèi)。類C1本來是由本體O1定義出來的,然而,它也可以是由其他的本體擴(kuò)展出來的。對C1進(jìn)行這樣的假設(shè)的結(jié)果是單調(diào)的。新的信息不能否定之前的信息。新的信息可以是和舊的信息矛盾的,但是事實(shí)和推導(dǎo)只能被增加而不能被刪減。 ????當(dāng)設(shè)計(jì)一個(gè)本體的時(shí)候,設(shè)計(jì)者必須考慮到這種矛盾的可能性。一種期望是,工具的支持將幫助偵測到這樣的情況。 ????為了能寫出一個(gè)能被唯一翻譯的而且能被軟件(代理)使用的本體,我們要求OWL有一個(gè)語法和正規(guī)的語義。OWL是RDF的一個(gè)詞匯擴(kuò)充[RDF語義([url]http://www.w3.org/TR/rdf-mt/[/url])]。在OWL網(wǎng)絡(luò)本體語言語義和簡明語法中,有OWL的語義定義。用于三個(gè)方面:1.通過定義類以及類的屬性來形式化某個(gè)領(lǐng)域;? 2.定義個(gè)體并說明它們之間的屬性;3.在OWL語言的形式化語義允許的層次上,對類和個(gè)體進(jìn)行推理。 ????要進(jìn)一步了解owl,《元數(shù)據(jù)與知識本體》給出了新的東西。本體有多種形式,元數(shù)據(jù)方案本身可以看成是本體的一種形式,或者一類簡單的本體。元數(shù)據(jù)方案的制定是對一個(gè)應(yīng)用系統(tǒng)相關(guān)的實(shí)體進(jìn)行分析并提取屬性的過程,如果在此基礎(chǔ)上繼續(xù)對所涉及的各種實(shí)體類型的關(guān)聯(lián)關(guān)系進(jìn)行詳細(xì)分析,最終就能導(dǎo)出本體模型,元數(shù)據(jù)方案的制定過程就是一種本體的建立過程。? ????除此之外,許多敘詞表和分類表等本身就是領(lǐng)域知識的概念體系,包含豐富的關(guān)系,雖然許多關(guān)系可能不是非常嚴(yán)密,但它們也都可以看成是一類本體。上述兩種本體的初級形式經(jīng)過規(guī)范化和形式化之后,都可能成為計(jì)算機(jī)可以操作的本體工具。? ????目前支持本體開發(fā)的工具多大數(shù)十種,功能各不相同,對于本體語言的支持能力、表達(dá)能力、邏輯支持能力以及可擴(kuò)展性、靈活性、易用性等都相差很大,其中較著名的有Protégé?、OntoEdit、OilEd、Ontolingua等。Protégé是目前較活躍的本體工具,是可以免費(fèi)獲得開放軟件,目前的版本是Protégé?4.0?alpha。他用Java語言開發(fā),通過各類插件支持多種本體格式,甚至已經(jīng)能夠支持剛剛發(fā)布的,也是目前最有前途的W3C的OWL格式。 ????Protégé?是由斯坦福大學(xué)開發(fā)的本體編輯和知識獲取軟件。因?yàn)槭擒浖?#xff0c;要使用才能進(jìn)一步明白,可參考Protégé教程。利用Protégé可以建立本體,現(xiàn)在來看看怎么建立本體。 ????現(xiàn)在建立本體的普遍思路:先建立好領(lǐng)域本體,然后利用該本體中的類對文本進(jìn)行標(biāo)注,然后再對文本進(jìn)行標(biāo)注,然后在對標(biāo)注后的文本利用本體進(jìn)行相應(yīng)的處理。 ????但是,針對本體進(jìn)行語義標(biāo)注,首先需要明確要標(biāo)注的對象。從本體的角度來說,就是明確需要將本體中的哪些成份和現(xiàn)實(shí)世界建立聯(lián)系。者同時(shí)也是標(biāo)注的粒度問題。本體標(biāo)注的粒度由粗到細(xì)可以分為標(biāo)注概念、標(biāo)注概念的屬性、標(biāo)注關(guān)系和標(biāo)注實(shí)例。用本體進(jìn)行標(biāo)注,指出資源在語義層面上的特征圖書館里給書分類可以視為語義標(biāo)注,它使用本體(分類法)為資源(書)賦予語義特征(分類號)為博客文章添標(biāo)簽也可以視為語義標(biāo)注,它使用本體(已有標(biāo)簽集合)為資源(文章)賦予語義特征(標(biāo)簽)語義標(biāo)注的結(jié)果是語義元數(shù)據(jù),如一本書的分類號是什么,一篇文章的標(biāo)簽是什么都是語義元數(shù)據(jù),可以用于檢索owl是本體表示語言。 ????語義標(biāo)注就是在RDF和OWL之間為推理建立了聯(lián)系。標(biāo)注通常是為某一資源?(如一段話或者一個(gè)詞)賦予一個(gè)標(biāo)識,如在書中將某個(gè)概念用紅筆畫出來;語義標(biāo)注是基于某個(gè)本體對數(shù)據(jù)源進(jìn)行標(biāo)注,這種標(biāo)注不是劃線或者劃個(gè)圈,而是給它一個(gè)標(biāo)記,如<person>某某某</person>。 ????2007年8月28日,WSDL和XML?Schema的語義標(biāo)注(SAWSDL)達(dá)到推薦狀態(tài),成為“W3C標(biāo)準(zhǔn)”。 ????本體標(biāo)注了解到了這里,Tom.M.Mitchell通過分析Tesanro1992.1995設(shè)計(jì)的世界上最好的西洋雙陸棋程序TD-GAMMON,使人們對機(jī)器學(xué)習(xí)有了一個(gè)全新的認(rèn)識。西洋雙陸棋程序TD-GAMMON,它是通過一百萬次以上與自己對弈來學(xué)習(xí)起策略的,現(xiàn)在他的水平能與人類的世界冠軍相比。此程序使用人工神經(jīng)元網(wǎng)絡(luò)表示學(xué)到的評估函數(shù),考慮對棋局的完整描述,而不是棋盤的幾個(gè)參數(shù)。所以接下來要看看機(jī)器學(xué)習(xí)。 ???“機(jī)器學(xué)習(xí)”一般被定義為一個(gè)系統(tǒng)自我改進(jìn)的過程,但是僅僅從這個(gè)定義來理解和實(shí)現(xiàn)機(jī)器學(xué)習(xí)是困難的,從最初的給予神經(jīng)元模型以及函數(shù)逼近論的方法研究,到以符號演算為基礎(chǔ)的規(guī)則學(xué)習(xí)和決策樹學(xué)習(xí)的產(chǎn)生,和之后的認(rèn)知心理學(xué)中歸納、理解、類比等概念的引入,至最新的計(jì)算學(xué)習(xí)理論和統(tǒng)計(jì)學(xué)的興起(當(dāng)然還包括基于馬爾可夫過程的增強(qiáng)學(xué)習(xí)),機(jī)器學(xué)習(xí)一直都在相關(guān)科學(xué)的實(shí)踐應(yīng)用中起著主導(dǎo)作用。 ????機(jī)器學(xué)習(xí)從很多學(xué)科吸收了成果和概念,包括統(tǒng)計(jì)學(xué)、人工智能、哲學(xué)、信息論、生物學(xué)、認(rèn)知科學(xué)、計(jì)算復(fù)雜性和控制論等。 ????其中算法在機(jī)器學(xué)習(xí)中的應(yīng)用極為重要。先來看看算法在機(jī)器學(xué)習(xí)中的實(shí)際應(yīng)用:1.可以只簡單地存儲(chǔ)訓(xùn)練樣例,然后對尋找保存的“最接近的”情形來匹配新的情況(最臨近算法);2.可以產(chǎn)生大量候選的西洋跳棋程序,并讓他們相互比賽,保留最成功的程序并進(jìn)一步用模擬進(jìn)化的方式培育或變異它們(遺傳算法);3.分析或向自己解釋比賽中碰到的某一次成敗的原因(基于解釋的學(xué)習(xí))。 ????對于算法的了解,還參看了一些基礎(chǔ)的書籍,以輔助算法的學(xué)習(xí)及理解。《數(shù)據(jù)結(jié)構(gòu)》、《標(biāo)準(zhǔn)C語言基礎(chǔ)教程》、《Java?大學(xué)基礎(chǔ)教程》、《計(jì)算機(jī)程序的構(gòu)造和解釋》等。 ????此外為了輔助對機(jī)器學(xué)習(xí)及人工智能的理解選擇了《機(jī)器學(xué)習(xí)-實(shí)現(xiàn)人工智能的途徑》、《人工智能-理論與實(shí)踐》、《智能技術(shù)》等書籍。 ????此外關(guān)于建立好的本體的存儲(chǔ)有新的技術(shù)可以借鑒BigTable.BigTable?是Google?內(nèi)部開發(fā)的一個(gè)用來處理大數(shù)據(jù)量的系統(tǒng)。這種系統(tǒng)適合處理半結(jié)構(gòu)化的數(shù)據(jù)比如?RSS?數(shù)據(jù)源。根據(jù)Google的一貫做法,內(nèi)部開發(fā)的BigTable是為跑在廉價(jià)的PC機(jī)上設(shè)計(jì)的,所以對于它的實(shí)用價(jià)值和普及性是很適合用于這個(gè)設(shè)計(jì)中。BigTable?讓Google在提供新服務(wù)時(shí)的運(yùn)行成本降低,最大限度地利用了計(jì)算能力。BigTable?是建立在?GFS?,Scheduler?,Lock?Service?和?MapReduce?之上的。每個(gè)Table都是一個(gè)多維的稀疏圖?sparse?map。Table?由行和列組成,并且每個(gè)存儲(chǔ)單元?cell?都有一個(gè)時(shí)間戳。在不同的時(shí)間對同一個(gè)存儲(chǔ)單元cell有多份拷貝,這樣就可以記錄數(shù)據(jù)的變動(dòng)情況。在他的例子中,行是URLs?,列可以定義一個(gè)名字,比如:contents。Contents?字段就可以存儲(chǔ)文件的數(shù)據(jù)。或者列名是:”language”,可以存儲(chǔ)一個(gè)“EN”的語言代碼字符串。為了管理巨大的Table,把Table根據(jù)行分割,這些分割后的數(shù)據(jù)統(tǒng)稱為:Tablets。每個(gè)Tablets大概有?100-200?MB,每個(gè)機(jī)器存儲(chǔ)100個(gè)左右的?Tablets。底層的架構(gòu)是:GFS。由于GFS是一種分布式的文件系統(tǒng),采用Tablets的機(jī)制后,可以獲得很好的負(fù)載均衡。比如:可以把經(jīng)常響應(yīng)的表移動(dòng)到其他空閑機(jī)器上,然后快速重建。Tablets在系統(tǒng)中的存儲(chǔ)方式是不可修改的?immutable?的SSTables,一臺(tái)機(jī)器一個(gè)日志文件。當(dāng)系統(tǒng)的內(nèi)存滿后,系統(tǒng)會(huì)壓縮一些Tablets。 ?
轉(zhuǎn)載于:https://blog.51cto.com/designing/77706
總結(jié)
以上是生活随笔為你收集整理的机器学习在本体中的应用研究文献综述的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 关闭windows垃圾服务
- 下一篇: 精妙的SQL语句收藏