KnowIME: A System to Construct a Knowledge Graph for Intelligent Manufacturing Equipment-学习笔记
KnowIME: A System to Construct a Knowledge Graph for Intelligent Manufacturing Equipment
構(gòu)建智能制造設(shè)備知識圖譜的系統(tǒng)
系統(tǒng)架構(gòu)
顯示了構(gòu)建KnowIME信息系統(tǒng)的架構(gòu)圖。
智能制造設(shè)備的非結(jié)構(gòu)化數(shù)據(jù)(例如文本,圖像)和結(jié)構(gòu)化數(shù)據(jù)(例如數(shù)值數(shù)據(jù))是從互聯(lián)網(wǎng),百度百科以及相關(guān)的智能制造網(wǎng)站獲得的。
數(shù)據(jù)與關(guān)系數(shù)據(jù)一起保存到Redis數(shù)據(jù)庫中。
從多個來源(例如數(shù)據(jù)庫和Hadoop File System)中提取知識實(shí)體和數(shù)據(jù)關(guān)系。
提取的實(shí)體和關(guān)系將保存到特殊格式的文件中,并通過APOC工具和load csv文件導(dǎo)入到Neo4j非關(guān)系數(shù)據(jù)庫中。
最后,為了提高用戶查詢知識的效率,首先完成了圖數(shù)據(jù)庫中實(shí)體與關(guān)系之間的知識存儲,并盡可能優(yōu)化了圖結(jié)構(gòu)。
建筑KG的技術(shù)
如圖所示提出的智能制造設(shè)備信息系統(tǒng)主要包括兩個方面,即制造設(shè)備領(lǐng)域中的實(shí)體提取和設(shè)備領(lǐng)域中實(shí)體之間的關(guān)系提取。
數(shù)據(jù)準(zhǔn)備階段是關(guān)于獲取數(shù)據(jù)和清潔數(shù)據(jù)。
然后,構(gòu)造知識單元的操作主要包括文本中的命名實(shí)體信息和單元實(shí)體之間的關(guān)系提取。
結(jié)構(gòu)化顯示是使用數(shù)據(jù)可視化技術(shù)在提取的實(shí)體和關(guān)系之間進(jìn)行可視化的過程。
最后,最短路徑算法用于計算圖節(jié)點(diǎn)的最接近距離,以推薦相關(guān)設(shè)備信息并為用戶提供搜索服務(wù)。
文本數(shù)據(jù)的預(yù)處理主要使用NLP的常用方法,包括文本的提取和詞性標(biāo)記。
對于從網(wǎng)頁抓取的文本數(shù)據(jù),通過分詞,停用詞的去除和詞性標(biāo)記的處理,獲得了關(guān)系提取所需的句子集。
G成為無向圖?,V?是一組節(jié)點(diǎn),E?是一組無向邊。
V?對應(yīng)于隨機(jī)變量Y_v,其范圍是可能的標(biāo)記集{y}。
p?表示狀態(tài)轉(zhuǎn)換概率。?ω???v?表示圖G上的相鄰點(diǎn)。
其含義是,當(dāng)一個隨機(jī)過程在給定現(xiàn)在狀態(tài)及所有過去狀態(tài)情況下,其未來狀態(tài)的條件概率分布僅依賴于當(dāng)前狀態(tài);換句話說,在給定現(xiàn)在狀態(tài)時,它與過去狀態(tài)(即該過程的歷史路徑)是條件獨(dú)立的,那么此隨機(jī)過程即具有馬爾可夫性質(zhì)。
如圖所示,圖G的結(jié)構(gòu)可以是任意的,只要在標(biāo)記序列上方描述了某些條件獨(dú)立性即可。 通過對序列進(jìn)行建模,可以形成簡單的普通鏈結(jié)構(gòu)圖,并且節(jié)點(diǎn)對應(yīng)于標(biāo)記序列中的元素。
tj(yi-1,yi,X,i)是轉(zhuǎn)換特征函數(shù),表示觀察到的序列X的標(biāo)記序列在i到i-1位置的轉(zhuǎn)移概率。sk(yi,X,i)是一個狀態(tài)特征函數(shù),表示對位置為i的觀察序列X進(jìn)行標(biāo)記的概率。βj和μk是tj和sk的權(quán)重。
觀察到的序列代表訓(xùn)練樣本中特征的分布。
i代表X的維數(shù)或特征。
當(dāng)yi-1和yi滿足轉(zhuǎn)移條件且Xi是特定詞時,轉(zhuǎn)移特征函數(shù)取1; 否則為0。
為了便于描述,狀態(tài)功能可以編寫如下:
如果轉(zhuǎn)換特征函數(shù)和狀態(tài)特征函數(shù)都抽象為f(x),則:
z(x)?是歸一化因子,并且?βj代表相應(yīng)的系數(shù)。
中文句子以多種方式表達(dá)。為了更充分地準(zhǔn)備提取關(guān)系,首先進(jìn)行以??下定義:
根據(jù)以上定義,本文通過語料庫分析,自然語言處理和漢語語法知識介紹以下提取規(guī)則:
規(guī)則1:假設(shè)中文句子符合“(設(shè)備實(shí)體,特征,屬性值)”模式。如圖所示,O(NN),?F?(NN / VV),N(CD)分別表示實(shí)體,要素和屬性值,并且該關(guān)系提取的路徑?jīng)]有多余的選項(xiàng)。根據(jù)漢語語法,除量詞,名詞和動詞外,其他所有單詞均被刪除,其余部分根據(jù)其在原始句子中的位置進(jìn)行排序,并提取結(jié)果。
規(guī)則2:如果文本中的句子符合“((實(shí)體1,實(shí)體2,…,實(shí)體i),特征值,屬性值)”模式,則謂詞前面的介詞機(jī)構(gòu)指向主題。
如圖所示,?1個?(NN),??2?(NN),??3?(NN),??4?(NN)分別代表實(shí)體1,實(shí)體2,實(shí)體3,實(shí)體4。和F?(NN / VV),???(CD)分別表示特征和屬性值。
使用分詞工具進(jìn)行分詞時,謂詞之前的部分可能會分為多個名詞,這可能是特征對象的一部分。
同時,對應(yīng)于多個實(shí)體之間的關(guān)系,多個實(shí)體以并排關(guān)系位于特征詞的前面。
因此,提取特征對象候選集合的結(jié)果是從“(實(shí)體1,實(shí)體2,…,實(shí)體n)”中依次選擇幾個組合,整個實(shí)體關(guān)系提取為“(實(shí)體組合選項(xiàng),特征詞,屬性值”)。
主要使用語法分析的功能來手動提取制造設(shè)備實(shí)體之間的屬性關(guān)系。
案例分析
從智能制造的新聞?wù)Z料庫中,我們使用了上面提出的無監(jiān)督語法分析方法來獲取相關(guān)關(guān)系,如圖所示。
由于適合提取設(shè)備實(shí)體之間關(guān)系的語料庫數(shù)據(jù)非常小,因此該設(shè)備的新數(shù)據(jù)有偏斜,并且只有與表類似的簡單關(guān)系可以獲得。在構(gòu)建過程中,還需要人為地添加一些設(shè)備信息的關(guān)聯(lián)數(shù)據(jù),并根據(jù)附加信息完成設(shè)備KG信息。
entity1{Id: String, product_Name: String, company: String, product_Price: String, product_place: String}.
車床子類設(shè)備的KG信息,綠色圓圈代表子類設(shè)備,藍(lán)色圓圈代表父類。
設(shè)備KG檢索的整個過程
?
總結(jié)
以上是生活随笔為你收集整理的KnowIME: A System to Construct a Knowledge Graph for Intelligent Manufacturing Equipment-学习笔记的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 腊鱼怎么做好吃(水煮腊鱼怎么做好吃)
- 下一篇: 装备保障性验证知识图谱构建方法研究-学习