专利:结构化大数据通信协议
發(fā)明專利技術(shù)
結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議
發(fā)明人:樊永正
269779216@qqqq.com
技術(shù)領(lǐng)域
結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議是一種通信協(xié)議,也是一種讓數(shù)據(jù)成為合格的結(jié)構(gòu)化大數(shù)據(jù)的技術(shù)。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議也類似于ETL,ETL是處理現(xiàn)有的信息系統(tǒng)所產(chǎn)生的數(shù)據(jù)的問題,而結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議是在設(shè)計(jì)信息系統(tǒng)之初就開始預(yù)防數(shù)據(jù)產(chǎn)生問題。ETL是為數(shù)據(jù)治病,結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議是預(yù)防數(shù)據(jù)產(chǎn)生疾病。ETL是對(duì)現(xiàn)有技術(shù)所產(chǎn)生的問題進(jìn)行小修小補(bǔ),結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議提出了新的數(shù)據(jù)處理方案。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議也是一種軟件開發(fā)模式,利用結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議所建立的各種信息系統(tǒng)都是大數(shù)據(jù)信息系統(tǒng),只要以鏡像的方式把各大數(shù)據(jù)信息系統(tǒng)中的數(shù)據(jù)上傳到大數(shù)據(jù)中心即可累加成合格的結(jié)構(gòu)化大數(shù)據(jù)。合格的結(jié)構(gòu)化大數(shù)據(jù)是不經(jīng)ETL轉(zhuǎn)換即可高效挖掘的結(jié)構(gòu)化數(shù)據(jù)。
背景技術(shù)
隨著大數(shù)據(jù)時(shí)代的到來,人們發(fā)現(xiàn)各行各業(yè)已有很多信息系統(tǒng),然而信息系統(tǒng)雖多卻不能滿足大數(shù)據(jù)時(shí)代的需求,信息孤島嚴(yán)重,難以互聯(lián)互通,數(shù)據(jù)共享困難,各行各業(yè)已有很多數(shù)據(jù),然而數(shù)據(jù)雖多,卻難以高效挖掘。目前是利用關(guān)系數(shù)據(jù)庫來解決這些問題,但只能解決局部的問題,不能從根本上解決問題。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議就是針對(duì)這些問題而創(chuàng)立的。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議來源于模仿大腦記憶、聯(lián)想、思維,始于1982年,那時(shí)想讓計(jì)算機(jī)模仿大腦的聯(lián)想功能。
發(fā)明內(nèi)容
結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議是通過對(duì)數(shù)據(jù)的優(yōu)化及軟件開發(fā)模式的改變而避免信息孤島問題、互聯(lián)互通問題、數(shù)據(jù)共享問題產(chǎn)生,并使數(shù)據(jù)容易挖掘。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議可使數(shù)據(jù)具有12個(gè)技術(shù)特性:“唯一性、歸屬性、可識(shí)別性、獨(dú)立性、完整性、規(guī)范性、與系統(tǒng)的耦合性(耦合度為零)、結(jié)構(gòu)統(tǒng)一性、可累加性、可移植性、時(shí)間性、真實(shí)性”,只有同時(shí)滿足12個(gè)技術(shù)特性的數(shù)據(jù)才是合格的結(jié)構(gòu)化大數(shù)據(jù)。
發(fā)明所要解決的技術(shù)問題
發(fā)明所要解決的技術(shù)問題是大數(shù)據(jù)4V中“數(shù)據(jù)類型多(Variety)”問題及“數(shù)據(jù)速度快(velocity)”問題。所針對(duì)的具體的技術(shù)問題:各行各業(yè)已有很多信息系統(tǒng),然而信息系統(tǒng)雖多卻不能滿足大數(shù)據(jù)時(shí)代的需求,信息孤島嚴(yán)重,難以互聯(lián)互通,數(shù)據(jù)共享困難;各行各業(yè)已有很多數(shù)據(jù),然而數(shù)據(jù)雖多,卻難以高效挖掘。
有益效果
實(shí)現(xiàn)互聯(lián)互通、數(shù)據(jù)共享容易,查詢速度快,數(shù)據(jù)挖掘容易。
具體實(shí)施方式
結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議的創(chuàng)新表現(xiàn)在如下5個(gè)方面:
1、首次提出了結(jié)構(gòu)化大數(shù)據(jù)的12個(gè)技術(shù)特性,只有同時(shí)滿足12個(gè)技術(shù)特性的數(shù)據(jù)才能成為合格的結(jié)構(gòu)化大數(shù)據(jù)。為使數(shù)據(jù)滿足12個(gè)技術(shù)特性,創(chuàng)立了與12個(gè)技術(shù)特性相對(duì)應(yīng)的12個(gè)數(shù)據(jù)優(yōu)化方法。
2、通信的基礎(chǔ)是雙方必須采用同一個(gè)協(xié)議。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議所提出的“結(jié)構(gòu)化大數(shù)據(jù)的12個(gè)技術(shù)特性”就是結(jié)構(gòu)化數(shù)據(jù)互聯(lián)互通的“通信協(xié)議”。
3、在結(jié)構(gòu)化大數(shù)據(jù)的每一條數(shù)據(jù)中都增加了體現(xiàn)“數(shù)據(jù)的唯一性”和“數(shù)據(jù)的歸屬性”的數(shù)據(jù)項(xiàng)。現(xiàn)有數(shù)據(jù)庫技術(shù)由于都是用于處理小數(shù)據(jù),都沒有考慮這兩個(gè)數(shù)據(jù)項(xiàng)的作用,現(xiàn)有的數(shù)據(jù)中也都沒有這兩個(gè)數(shù)據(jù)項(xiàng)。這兩個(gè)數(shù)據(jù)項(xiàng)是表明一個(gè)數(shù)據(jù)是不是合格的結(jié)構(gòu)化大數(shù)據(jù)的關(guān)鍵數(shù)據(jù)項(xiàng)。
4、特別強(qiáng)調(diào)數(shù)據(jù)的標(biāo)準(zhǔn)化、規(guī)范化。因?yàn)榇髷?shù)據(jù)環(huán)境中,標(biāo)準(zhǔn)化、規(guī)范化的數(shù)據(jù)能自動(dòng)模仿大腦的聯(lián)想功能,從而大幅度提高查詢數(shù)據(jù)的速度和靈活性。關(guān)系數(shù)據(jù)庫對(duì)數(shù)據(jù)不加任何限制,完全由數(shù)據(jù)庫的設(shè)計(jì)人員自己定義;結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議對(duì)數(shù)據(jù)的限制非常嚴(yán)格,絕對(duì)不充許設(shè)計(jì)人員任意定義數(shù)據(jù),所有數(shù)據(jù)都必須是規(guī)范的,這也是讓大數(shù)據(jù)容易挖掘的一項(xiàng)重要措施。
5、利用結(jié)構(gòu)化大數(shù)據(jù)的12個(gè)技術(shù)特性為大數(shù)據(jù)的真實(shí)性提供保障。小數(shù)據(jù)只是在某個(gè)單位內(nèi)部使用,大數(shù)據(jù)是在很多單位之間使用,因此大數(shù)據(jù)的真實(shí)性、公證性、權(quán)威、不可悔改性就顯得非常重要。
結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議在對(duì)數(shù)據(jù)優(yōu)化時(shí)是以“萬能數(shù)據(jù)結(jié)構(gòu)表”(如表一所示)來存貯數(shù)據(jù),“萬能數(shù)據(jù)結(jié)構(gòu)表”可以用一張表存貯各種各樣的結(jié)構(gòu)化數(shù)據(jù)。
表一:萬能數(shù)據(jù)結(jié)構(gòu)表存貯數(shù)據(jù)的例子
ID | 事物代號(hào) | 事物屬性 | 事物屬性值 | 超長屬性值 | 單位 | 附件 | 時(shí)間 |
1099 | 1280 | 數(shù)據(jù)來源 | 廣州第一醫(yī)院 | 2014.5.3 | |||
1100 | 1280 | 事物分類 | 病歷 | 2014.5.3 | |||
1101 | 1280 | 事物分類 | 住院病歷 | 2014.5.3 | |||
1102 | 1280 | 事物分類 | 醫(yī)療費(fèi)用 | 2014.5.3 | |||
1103 | 1280 | ×××號(hào) | XXXXXXXXXX | 2014.5.3 | |||
1104 | 1280 | 住院號(hào) | XXXXXXXXXX | 2014.5.3 | |||
1105 | 1280 | 姓名 | 張三 | 2014.5.3 | |||
1106 | 1280 | 性別 | 男 | 2014.5.3 | |||
1107 | 1280 | 中藥費(fèi) | 56 | 元 | 2014.5.3 | ||
1108 | 1280 | 西藥費(fèi) | 72 | 元 | 2014.5.3 | ||
1109 | 1280 | 其它費(fèi)用 | 180 | 元 | 2014.5.3 |
說明1:合格的結(jié)構(gòu)化大數(shù)據(jù)的12個(gè)技術(shù)特性及12個(gè)數(shù)據(jù)優(yōu)化方法
合格的結(jié)構(gòu)化大數(shù)據(jù)具有12個(gè)技術(shù)特性,或者說只有同時(shí)滿足12個(gè)技術(shù)特性的結(jié)構(gòu)化數(shù)據(jù)才是合格的結(jié)構(gòu)化大數(shù)據(jù)。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議就是使結(jié)構(gòu)化數(shù)據(jù)滿足12個(gè)技術(shù)特性的方法。為使數(shù)據(jù)擁有結(jié)構(gòu)化大數(shù)據(jù)的12個(gè)技術(shù)特性,結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議提出了12種相應(yīng)的數(shù)據(jù)優(yōu)化方法。
1、數(shù)據(jù)的唯一性
數(shù)據(jù)的唯一性:同一事物的各種數(shù)據(jù)在生存周期中,在不同的信息系統(tǒng)中,都應(yīng)該是唯一的、可識(shí)別的,不能因時(shí)間、空間的變化而變成不可識(shí)別的數(shù)據(jù)。
數(shù)據(jù)的唯一性所針對(duì)的問題:當(dāng)前的同一事物的各種數(shù)據(jù)在不同的信息系統(tǒng)中的表達(dá)形式各不相同,在大數(shù)據(jù)挖掘時(shí)難以準(zhǔn)確地識(shí)別。例如,同一商品,在不同的經(jīng)銷商的信息系統(tǒng)中具有不同的編碼;同一患者在不同的醫(yī)院就醫(yī)時(shí),患者的住院號(hào)各不相同,在大數(shù)據(jù)環(huán)境中查患者病史時(shí),會(huì)因?yàn)榕c患者相關(guān)的數(shù)據(jù)沒有一個(gè)統(tǒng)一的標(biāo)識(shí)碼而難以查詢。
數(shù)據(jù)優(yōu)化方法一:讓同一事物的所有數(shù)據(jù),在不同的時(shí)間、空間、環(huán)境中,都必須含有一個(gè)(或若干個(gè))唯一的、統(tǒng)一的大數(shù)據(jù)識(shí)別碼。大數(shù)據(jù)識(shí)別碼是數(shù)據(jù)的×××、車牌號(hào)。大數(shù)據(jù)識(shí)別碼與關(guān)系數(shù)據(jù)庫中的ID有本質(zhì)的差異,ID只是在一張表的范圍內(nèi)標(biāo)識(shí)數(shù)據(jù),大數(shù)據(jù)識(shí)別碼是在大數(shù)據(jù)的范圍內(nèi)標(biāo)識(shí)數(shù)據(jù)。
大數(shù)據(jù)范圍:不同的大數(shù)據(jù)所涉及到的范圍不同。在國際貿(mào)易中,大數(shù)據(jù)范圍是全球,國家醫(yī)療大數(shù)據(jù)的大數(shù)據(jù)范圍是醫(yī)療行業(yè),廣州大數(shù)據(jù)的數(shù)據(jù)范圍是廣州市。
大數(shù)據(jù)識(shí)別碼可分為兩種,一種是某個(gè)具體事物的識(shí)別碼,猶如設(shè)備的序列號(hào),但與設(shè)備的序列號(hào)有本質(zhì)的差異,設(shè)備序列號(hào)是企業(yè)自己編寫的,大數(shù)據(jù)識(shí)別碼需要按國際統(tǒng)一的標(biāo)準(zhǔn)來編碼;另一種是某類事物的識(shí)別碼。例如,在了解某種型號(hào)的手機(jī)在各個(gè)經(jīng)銷商的銷售情況時(shí),就需要該種型號(hào)手機(jī)的大數(shù)據(jù)識(shí)別碼,因?yàn)槭謾C(jī)由全世界數(shù)十萬個(gè)經(jīng)銷商銷售,手機(jī)廠家需要與全世界數(shù)十萬信息系統(tǒng)互聯(lián)互通。與人相關(guān)的數(shù)據(jù)全應(yīng)含有×××號(hào),以確保在全球范圍內(nèi),在任何時(shí)間段,與某人相關(guān)的數(shù)據(jù)都是唯一的,可識(shí)別為同一個(gè)人的。大數(shù)據(jù)會(huì)涉及到多個(gè)不同的信息系統(tǒng),而小數(shù)據(jù)只是在同一個(gè)信息系統(tǒng)中生存,因此在大數(shù)據(jù)環(huán)境中,數(shù)據(jù)的唯一性就非常重要,沒有統(tǒng)一的、標(biāo)準(zhǔn)的、規(guī)范的識(shí)別碼會(huì)導(dǎo)致數(shù)據(jù)挖掘非常困難。數(shù)據(jù)的唯一性是大數(shù)據(jù)挖掘、分析的基礎(chǔ)。大數(shù)據(jù)識(shí)別碼必須使可以方便數(shù)據(jù)分類統(tǒng)計(jì)。
2、數(shù)據(jù)的歸屬性
數(shù)據(jù)的歸屬性:數(shù)據(jù)不僅要反映事物的各種屬性,也要反映出數(shù)據(jù)是歸誰所有(或者說由誰采集、或者說從何而來)。
數(shù)據(jù)優(yōu)化方法二:每一個(gè)事物的數(shù)據(jù)中都要含有“數(shù)據(jù)來源”數(shù)據(jù)項(xiàng)。“數(shù)據(jù)來源”是結(jié)構(gòu)化數(shù)據(jù)具有了“歸屬性”,一般情況下,可用單位名稱來表示“數(shù)據(jù)來源”。
大數(shù)據(jù)源于成千上萬家單位,若不標(biāo)明“數(shù)據(jù)來源”,在大數(shù)據(jù)挖掘時(shí)會(huì)引起識(shí)別混亂。
3、數(shù)據(jù)的識(shí)別性
數(shù)據(jù)的識(shí)別性:是指讓信息系統(tǒng)可識(shí)別,讓人也可識(shí)別。進(jìn)一步而言,不但要讓自己的信息系統(tǒng)識(shí)別,也要能讓他人的信息系統(tǒng)識(shí)別,不但要讓自己能識(shí)別,也要讓他人能識(shí)別。
數(shù)據(jù)的識(shí)別性所針對(duì)的問題:關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)只有數(shù)據(jù)庫的設(shè)計(jì)人員自己和自己的信息系統(tǒng)可識(shí)別。其它人、其它信息系統(tǒng)只能通過軟件對(duì)數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行解釋、注釋、翻譯之后才能識(shí)別。
數(shù)據(jù)優(yōu)化方法三:以適當(dāng)?shù)娜哂嗍箶?shù)據(jù)可識(shí)別,盡量用標(biāo)準(zhǔn)的、規(guī)范的自然語言來表達(dá)數(shù)據(jù),盡量避免用代碼來表達(dá)數(shù)據(jù)。在對(duì)數(shù)據(jù)進(jìn)行優(yōu)化時(shí)的原則是“讓相應(yīng)領(lǐng)域的技術(shù)人員能看懂,讓別人的信息系統(tǒng)也能識(shí)別,而不能只是數(shù)據(jù)庫的設(shè)計(jì)人員能看懂,也不只是自己的系統(tǒng)能識(shí)別。”
在大數(shù)據(jù)環(huán)境中,數(shù)據(jù)的最重要、最關(guān)鍵的一個(gè)特性就是“數(shù)據(jù)的識(shí)別性”。關(guān)系數(shù)據(jù)庫的一個(gè)策略是:盡量減少數(shù)據(jù)冗余。關(guān)系數(shù)據(jù)庫在降低了數(shù)據(jù)冗余的同時(shí)卻增加了識(shí)別數(shù)據(jù)的難度。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議的策略與關(guān)系數(shù)據(jù)庫正好相反。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議的策略:以適當(dāng)?shù)娜哂喽箶?shù)據(jù)具有可識(shí)別性,從而使數(shù)據(jù)可以讓他人讀懂,也讓他人的信息系統(tǒng)能識(shí)別。
關(guān)系數(shù)據(jù)庫是一種“數(shù)據(jù)、數(shù)據(jù)結(jié)構(gòu)、程序、數(shù)據(jù)庫系統(tǒng)四者密不可分的數(shù)據(jù)庫”。因?yàn)殛P(guān)系數(shù)據(jù)庫中的數(shù)據(jù)脫離具體的表結(jié)構(gòu)和程序以后就變成了無意義的數(shù)據(jù),關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)只有在特定的表中才具有意義。
“萬能數(shù)據(jù)結(jié)構(gòu)表”是一種“數(shù)據(jù)與程序無關(guān)的數(shù)據(jù)結(jié)構(gòu)”,或者說是一種“是什么就是什么,與程序無關(guān)”。因?yàn)椤叭f能數(shù)據(jù)結(jié)構(gòu)表”中的數(shù)據(jù)脫離其數(shù)據(jù)結(jié)構(gòu)后,其數(shù)據(jù)的真實(shí)含義不變。“萬能數(shù)據(jù)結(jié)構(gòu)表”中的數(shù)據(jù)是用標(biāo)準(zhǔn)的、規(guī)范的自然語言而表達(dá)的,只要懂自然語言,誰都可以看懂“萬能數(shù)據(jù)結(jié)構(gòu)表”中的數(shù)據(jù)的真實(shí)含義。
從表面上看,關(guān)系數(shù)據(jù)庫減少了數(shù)據(jù)冗余,這是其一大優(yōu)點(diǎn)。然而,這也是關(guān)系數(shù)據(jù)庫的最大缺點(diǎn)之一。關(guān)系數(shù)據(jù)庫在減少了數(shù)據(jù)冗余的同時(shí),也導(dǎo)致了數(shù)據(jù)失真。數(shù)據(jù)失真的結(jié)果就導(dǎo)致了“信息交換、信息孤島、數(shù)據(jù)挖掘難”等等問題。在關(guān)系數(shù)據(jù)庫中,只有通過編寫大量的程序,才能解決數(shù)據(jù)失真問題。無數(shù)事實(shí)表明,關(guān)系數(shù)據(jù)庫因數(shù)據(jù)冗余問題而付出了非常高昂的代價(jià)。當(dāng)“數(shù)據(jù)與程序密不可分”時(shí),要存貯、讀取、查詢數(shù)據(jù)就必須編寫大量的程序。當(dāng)“數(shù)據(jù)與程序無關(guān)時(shí)”,只要編寫一個(gè)通用的程序,其它人借助這個(gè)程序就可以非常方便地存貯、讀取、查詢數(shù)據(jù),而不必每開發(fā)一個(gè)數(shù)據(jù)庫都開發(fā)大量的軟件。
結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議的一個(gè)原則:基本上不考慮數(shù)據(jù)冗余問題,以空間換取智能和使用方便,讓數(shù)據(jù)自己說話,而不是讓程序替數(shù)據(jù)說話。而關(guān)系數(shù)據(jù)則是通過應(yīng)用程序而代替數(shù)據(jù)說話。用數(shù)據(jù)代替程序:寧愿增加大量的“冗余”,也要使數(shù)據(jù)具有獨(dú)立性、完整性、可識(shí)別性。或者說為了使數(shù)據(jù)具有獨(dú)立性、完整性、可識(shí)別性,不考慮數(shù)據(jù)冗余問題,無論增加多少冗余都可以。在用關(guān)系數(shù)據(jù)庫設(shè)計(jì)信息系統(tǒng)時(shí),總是用程序來解讀數(shù)據(jù)庫中的數(shù)據(jù)。這種策略所帶來的嚴(yán)重惡果就是在處理數(shù)據(jù)時(shí)需要編寫大量的程序,不編寫程序就無法處理數(shù)據(jù)。
結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議的策略:不惜一切代價(jià),讓數(shù)據(jù)自己說話,杜絕用程序當(dāng)翻譯!
?“讓數(shù)據(jù)自已說話”的目的是:無論把一個(gè)數(shù)據(jù)放到任何地方、任何環(huán)境中都能獨(dú)立地、完整地表達(dá)出同樣的、完整的含義。在大數(shù)據(jù)時(shí)代,一個(gè)數(shù)據(jù)會(huì)出現(xiàn)在不同的信息系統(tǒng)中,因此,必須確保數(shù)據(jù)在不同的信息系統(tǒng)中、不同的環(huán)境中都有相同的含義。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議使數(shù)據(jù)具有“獨(dú)立性、完整性、識(shí)別性、唯一性、歸屬性”的目的就是讓數(shù)據(jù)自己說話,在大數(shù)據(jù)環(huán)境中,這樣可以大幅度地減少編寫程序的數(shù)量。關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)沒有獨(dú)立性,也沒有完整性,關(guān)系數(shù)據(jù)庫做不到“讓數(shù)據(jù)自己說話”。關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)需要借助各種“關(guān)系”才能表達(dá)出完整的含義。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議可以讓數(shù)據(jù)自己說話,而關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)需要配備“七大姑八大姨”的“關(guān)系”才能準(zhǔn)確地表達(dá)出相應(yīng)的含義。
關(guān)系數(shù)據(jù)庫的“七大姑八大姨”的“關(guān)系”:數(shù)據(jù)與數(shù)據(jù)庫系統(tǒng)具有密不可分的關(guān)系,數(shù)據(jù)與表結(jié)構(gòu)具有密不可分的關(guān)系,數(shù)據(jù)與應(yīng)用程序具有密不可分的關(guān)系,數(shù)據(jù)與數(shù)據(jù)庫中的眾多表之間具有密不可分的關(guān)系。關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)必須依靠關(guān)系數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)類型、應(yīng)用程序才具有意義。當(dāng)關(guān)系數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù)脫離了相應(yīng)的關(guān)系數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)類型、應(yīng)用程序之后就變成了無意義的數(shù)據(jù)。當(dāng)前的信息系統(tǒng)所存在的“信息孤島問題、信息交換問題、數(shù)據(jù)接口問題、互聯(lián)互通問題、系統(tǒng)的升級(jí)換代問題”等等,都是由于關(guān)系數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù)不能自己說話而造成的。
用關(guān)系數(shù)據(jù)庫系統(tǒng)設(shè)計(jì)電子病歷系統(tǒng)時(shí),對(duì)“患者基本情況”會(huì)采用如下形式:
表二:患者基本情況表(關(guān)系數(shù)據(jù)庫中的表)
ID | HZXM | GZDW | ZB | XB | ZZ | NL | RQ | HF | BXRQ | MZ | CSZ |
26 | 胡鳳 | 橡膠廠 | 工人 | 0 | 蒙古路2號(hào) | 32 | 1991-4-3 | 已 | 1991-4-3 | 漢 | 本人 |
上述形式的數(shù)據(jù)是小數(shù)據(jù)時(shí)代的經(jīng)典結(jié)構(gòu)形式。其實(shí)“字段名”也是很重要的信息,必須用標(biāo)準(zhǔn)的、規(guī)范的自然語言來描述。“患者基本情況”經(jīng)過結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議進(jìn)行優(yōu)化之后,在“萬能數(shù)據(jù)結(jié)構(gòu)表”中的表達(dá)形式:
表三:患者基本情況表(萬能數(shù)據(jù)結(jié)構(gòu)表)
ID | 事物代號(hào) | 事物屬性 | 事物屬性值 | 超長屬性值 | 單位 | 附件 | 時(shí)間 |
100 | 1001 | 數(shù)據(jù)來源 | 上海市第一醫(yī)院 | ||||
101 | 1001 | 事物分類 | 病歷 | ||||
102 | 1001 | 事物分類 | 住院病歷 | ||||
103 | 1001 | 事物分類 | 入院病歷 | ||||
104 | 1001 | 事物分類 | 患者基本情況 | ||||
105 | 1001 | 患者編號(hào) | SH10-199103Z21 | ||||
106 | 1001 | 健康卡號(hào) | XXXXXXXXXXXX09 | ||||
107 | 1001 | ×××號(hào) | XXXXXXXXXXXXXX | ||||
108 | 1001 | 姓名 | 胡風(fēng) | ||||
109 | 1001 | 工作單位 | 上海橡膠廠 | ||||
110 | 1001 | 職別 | 工人 | ||||
111 | 1001 | 性別 | 女 | ||||
112 | 1001 | 住址 | 蒙古路20號(hào) | ||||
113 | 1001 | 年齡 | 32 | ||||
114 | 1001 | 入院日期 | 1991-4-30 | ||||
115 | 1001 | 婚否 | 已婚 | ||||
116 | 1001 | 病史采取日期 | 1991-4-30 | ||||
117 | 1001 | 民族 | 漢 | ||||
118 | 1001 | 病情陳述者 | 本人 |
通過上述兩張表的對(duì)比發(fā)現(xiàn),用“萬能數(shù)據(jù)結(jié)構(gòu)表”所表達(dá)的信息是一種完全用自然語言所表達(dá)的不失真的信息,這種信息無論放在什么地方其含義都是一樣的。
從表面上看用“萬能數(shù)據(jù)結(jié)構(gòu)表”所存貯的信息會(huì)多占據(jù)一倍左右的存貯空間,但這樣存貯數(shù)據(jù)可以減少很多復(fù)雜的數(shù)據(jù)抽取、轉(zhuǎn)換工作。“萬能數(shù)據(jù)結(jié)構(gòu)表”中的“數(shù)據(jù)冗余”就是讓“數(shù)據(jù)自己說話”,讓數(shù)據(jù)不依賴數(shù)據(jù)庫系統(tǒng)、不依賴數(shù)據(jù)結(jié)構(gòu),不依賴數(shù)據(jù)類型,不依賴應(yīng)用程序。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議的策略是“以空間換智能及使用方便”。與30年前相比,目前硬盤的存貯容量已提高了10萬倍以上,多占據(jù)一倍左右的存貯空間的代價(jià)很低,可以忽略不計(jì)。“讓數(shù)據(jù)自己說話”就是讓數(shù)據(jù)猶如自然語言那樣,可以準(zhǔn)確、無誤地表達(dá)應(yīng)有的含義,不需要注釋,也不需要應(yīng)用程序的解讀。
4、數(shù)據(jù)的獨(dú)立性
數(shù)據(jù)的獨(dú)立性:數(shù)據(jù)不依靠數(shù)據(jù)庫系統(tǒng)、不依靠數(shù)據(jù)結(jié)構(gòu)、不依靠注釋、不依靠應(yīng)用程序而獨(dú)立地表達(dá)出某種含義。
針對(duì)的問題:關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)不具有獨(dú)立性,需要借助于注釋、數(shù)據(jù)結(jié)構(gòu)、應(yīng)用程序才能解讀數(shù)據(jù)的含義。關(guān)系數(shù)據(jù)庫中的很多表的字段名用的是不規(guī)范的字母縮寫,在呈現(xiàn)給用戶時(shí),需要通過信息系統(tǒng)為表加上表頭才能表達(dá)出數(shù)據(jù)的真正含義。
數(shù)據(jù)優(yōu)化方法四:通過一定的數(shù)據(jù)冗余而是數(shù)據(jù)可以自己說話,讓“數(shù)據(jù)不依靠數(shù)據(jù)庫系統(tǒng)、不依靠數(shù)據(jù)結(jié)構(gòu)、不依靠注釋、不依靠應(yīng)用程序而獨(dú)立地表達(dá)出某種含義”,如上表三所示的萬能數(shù)據(jù)結(jié)構(gòu)表可實(shí)現(xiàn)數(shù)據(jù)的獨(dú)立性。
5、數(shù)據(jù)的完整性
數(shù)據(jù)的完整性:數(shù)據(jù)不依靠數(shù)據(jù)庫系統(tǒng)、不依靠數(shù)據(jù)結(jié)構(gòu)、不依靠注釋、不依靠應(yīng)用程序而完整地表達(dá)出某種含義。
針對(duì)的問題:關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)不具有完整性,需要借助于注釋、數(shù)據(jù)結(jié)構(gòu)、應(yīng)用程序才能解讀數(shù)據(jù)完整的含義。
數(shù)據(jù)優(yōu)化方法五:通過一定的數(shù)據(jù)冗余而是數(shù)據(jù)可以自己說話,讓“數(shù)據(jù)不依靠數(shù)據(jù)庫系統(tǒng)、不依靠數(shù)據(jù)結(jié)構(gòu)、不依靠注釋、不依靠應(yīng)用程序而獨(dú)立地表達(dá)出某種含義”,如上表三所示的萬能數(shù)據(jù)結(jié)構(gòu)表可實(shí)現(xiàn)數(shù)據(jù)的獨(dú)立性。
6、數(shù)據(jù)的規(guī)范性
數(shù)據(jù)的規(guī)范性:數(shù)據(jù)應(yīng)為標(biāo)準(zhǔn)的、規(guī)范的、統(tǒng)一的、無歧義的。
針對(duì)的問題:當(dāng)前的各種信息系統(tǒng)中的數(shù)據(jù)不規(guī)范導(dǎo)致數(shù)據(jù)挖掘非常困難。
數(shù)據(jù)優(yōu)化方法六:應(yīng)在信息系統(tǒng)設(shè)計(jì)、數(shù)據(jù)采集階段就確保數(shù)據(jù)是規(guī)范的。
數(shù)據(jù)的規(guī)范性需要建立在“國標(biāo)大數(shù)據(jù)標(biāo)準(zhǔn)、國家大數(shù)據(jù)標(biāo)準(zhǔn)、行業(yè)大數(shù)據(jù)標(biāo)準(zhǔn)”的基礎(chǔ)之上,而不是建立在某個(gè)單位內(nèi)部的數(shù)據(jù)標(biāo)準(zhǔn)、規(guī)范的基礎(chǔ)之上。只有符合“國標(biāo)大數(shù)據(jù)標(biāo)準(zhǔn)、國家大數(shù)據(jù)標(biāo)準(zhǔn)、行業(yè)大數(shù)據(jù)標(biāo)準(zhǔn)”的規(guī)范的數(shù)據(jù)才有資格成為合格的結(jié)構(gòu)化大數(shù)據(jù)。當(dāng)前的問題是各家單位的數(shù)據(jù)規(guī)范只是自己制訂的,各不相同,沒有“國標(biāo)大數(shù)據(jù)標(biāo)準(zhǔn)、國家大數(shù)據(jù)標(biāo)準(zhǔn)、行業(yè)大數(shù)據(jù)標(biāo)準(zhǔn)”,這是阻礙大數(shù)據(jù)發(fā)展的一個(gè)大障礙。有了標(biāo)準(zhǔn)、規(guī)范,并按標(biāo)準(zhǔn)、規(guī)范執(zhí)行,那么在對(duì)大數(shù)據(jù)進(jìn)行挖掘時(shí),不再需要ETL。
如何體現(xiàn)結(jié)構(gòu)化大數(shù)據(jù)的規(guī)范性:在設(shè)計(jì)信息系統(tǒng)時(shí)就要考慮數(shù)據(jù)的規(guī)范性,在采集、生成數(shù)據(jù)時(shí),必須嚴(yán)格按照“國標(biāo)大數(shù)據(jù)標(biāo)準(zhǔn)、國家大數(shù)據(jù)標(biāo)準(zhǔn)、各行各業(yè)大數(shù)據(jù)標(biāo)準(zhǔn)”輸入數(shù)據(jù)、生成數(shù)據(jù),只有這樣,信息系統(tǒng)所生成的數(shù)據(jù)才是規(guī)范的數(shù)據(jù)。
各行各業(yè)的數(shù)據(jù)的標(biāo)準(zhǔn)化、規(guī)范化是一項(xiàng)工程量巨大的工程。只有做好這項(xiàng)工作,才能確保“結(jié)構(gòu)化大數(shù)據(jù)的規(guī)范性”。數(shù)據(jù)的標(biāo)準(zhǔn)化是大數(shù)據(jù)的基礎(chǔ)。可以說沒有數(shù)據(jù)的標(biāo)準(zhǔn)化就沒有合格的大數(shù)據(jù)。大數(shù)據(jù)工程,標(biāo)準(zhǔn)先行。從某一方面而言,由于目前國際上、國內(nèi)的各行各業(yè)都未能做好數(shù)據(jù)標(biāo)準(zhǔn)化工作,所以目前根本就沒有合格的大數(shù)據(jù)!
“信息系統(tǒng)名、數(shù)據(jù)庫名、表名、字段名、數(shù)據(jù)庫中的數(shù)據(jù)”都要用標(biāo)準(zhǔn)的、規(guī)范的、統(tǒng)一的自然語言,盡量避免使用不規(guī)范的代碼,這是讓數(shù)據(jù)自然形成“聯(lián)想關(guān)系”的關(guān)鍵,也是實(shí)現(xiàn)萬能查詢的關(guān)鍵。這也是結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議主張數(shù)據(jù)規(guī)范化的一個(gè)非常重要的原因!在大數(shù)據(jù)環(huán)境中,這種“聯(lián)想關(guān)系”可為數(shù)據(jù)挖掘帶來極大的便利,可以大幅度地提高查詢數(shù)據(jù)的速度。
關(guān)系數(shù)據(jù)庫理論對(duì)數(shù)據(jù)基本上沒有任何限制,全部由設(shè)計(jì)人員任意定義。這是關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)非常難以挖掘的一個(gè)根本原因。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議對(duì)數(shù)據(jù)的要求、限制非常嚴(yán)格。嚴(yán)格要求數(shù)據(jù)必須是標(biāo)準(zhǔn)的、規(guī)范的、統(tǒng)一的,必須滿足12個(gè)技術(shù)特性,每一個(gè)數(shù)據(jù)都必須嚴(yán)格符合國際標(biāo)準(zhǔn)、國家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)。嚴(yán)禁設(shè)計(jì)人員任意私自定義數(shù)據(jù)。數(shù)據(jù)猶如通用機(jī)械地零部件,必須標(biāo)準(zhǔn)化才可以。
大數(shù)據(jù)標(biāo)準(zhǔn)涉及到每一個(gè)行業(yè),也涉及到各種各樣的業(yè)務(wù)。大數(shù)據(jù)標(biāo)準(zhǔn)涉及數(shù)據(jù)的標(biāo)準(zhǔn)、數(shù)據(jù)結(jié)構(gòu)的標(biāo)準(zhǔn)、業(yè)務(wù)的標(biāo)準(zhǔn)、業(yè)務(wù)流程的標(biāo)準(zhǔn)、信息系統(tǒng)標(biāo)準(zhǔn)等。
在大數(shù)據(jù)時(shí)代,一定要在信息系統(tǒng)中采用統(tǒng)一的、標(biāo)準(zhǔn)的、規(guī)范的自然言,盡量避免用代碼。這是確保數(shù)據(jù)獨(dú)立性、數(shù)據(jù)的完整性和數(shù)據(jù)的識(shí)別性,降低數(shù)據(jù)與系統(tǒng)的耦合度的必要措施。
7、數(shù)據(jù)與系統(tǒng)的耦合性
數(shù)據(jù)與系統(tǒng)的耦合性:數(shù)據(jù)與系統(tǒng)的耦合度越高,數(shù)據(jù)對(duì)系統(tǒng)的依賴程度就越高。當(dāng)數(shù)據(jù)對(duì)系統(tǒng)的依賴程度比較高時(shí),數(shù)據(jù)一旦脫離了原有的系統(tǒng)就變成了無意義的數(shù)據(jù)。如果說一個(gè)數(shù)據(jù)不需要任何信息系統(tǒng)的解讀,用戶就能讀懂,那么該數(shù)據(jù)與信息系統(tǒng)的耦合度為零。
針對(duì)的問題:關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)與信息系統(tǒng)的耦合度非常高。關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)與數(shù)據(jù)庫系統(tǒng)、與數(shù)據(jù)結(jié)構(gòu)、與應(yīng)用程序是密不可分的,關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)一旦脫離了原信息系統(tǒng)到了大數(shù)據(jù)環(huán)境中之后,就變成了無意義的數(shù)據(jù)。
數(shù)據(jù)優(yōu)化方法七:必須確保每一個(gè)數(shù)據(jù)與信息系統(tǒng)的耦合度為零。以適當(dāng)?shù)臄?shù)據(jù)冗余而使數(shù)據(jù)具有獨(dú)立性、完整性、識(shí)別性、規(guī)范性、唯一性、歸屬性,以數(shù)據(jù)的獨(dú)立性、數(shù)據(jù)的完整性、數(shù)據(jù)的識(shí)別性、數(shù)據(jù)的規(guī)范性、數(shù)據(jù)的唯一性、數(shù)據(jù)的歸屬性而確保每一個(gè)數(shù)據(jù)都是與信息系統(tǒng)耦合度為零的數(shù)據(jù)。
大數(shù)據(jù)的數(shù)據(jù)來源于成千上萬家單位的系統(tǒng),因此,大數(shù)據(jù)中的數(shù)據(jù)應(yīng)該是與系統(tǒng)的耦合度為零的數(shù)據(jù),否則就需要編寫很多的應(yīng)用程度來解讀數(shù)據(jù),這會(huì)增加處理數(shù)據(jù)的難度、成本。人們用自然語言所編寫的各種文章就是相應(yīng)專業(yè)的人員可直接讀懂的,不需要任何的信息系統(tǒng)的解讀,因此,這種數(shù)據(jù)與信息系統(tǒng)的耦合度為零。在大數(shù)據(jù)中,其數(shù)據(jù)量數(shù)以千億條計(jì),如果其中的每一個(gè)數(shù)據(jù)都與系統(tǒng)都有一定的耦合度,那么就需要編寫海量的程序才能解讀大數(shù)據(jù)。如果說大數(shù)據(jù)中的每一個(gè)數(shù)據(jù)都是與信息系統(tǒng)的耦合度為零的數(shù)據(jù),那么在處理大數(shù)據(jù)時(shí),就不必再編寫任何程序?qū)?shù)據(jù)進(jìn)行解讀。
關(guān)系數(shù)據(jù)庫的設(shè)計(jì)者習(xí)慣用代碼來表示各種數(shù)據(jù)。例如,有的設(shè)計(jì)人員用“0”代表女性,用“1”代表男性,而有的設(shè)計(jì)人員用“W”代表女性,用“M”代表男性。面對(duì)成千上萬的信息系統(tǒng)所產(chǎn)生的數(shù)千億條以上的數(shù)據(jù),這種不標(biāo)準(zhǔn)、不規(guī)范的代碼就會(huì)為大數(shù)據(jù)挖掘帶來巨大災(zāi)難。
用關(guān)系數(shù)據(jù)庫所建立的信息系統(tǒng)之所以會(huì)產(chǎn)生嚴(yán)重的信息孤島問題,一個(gè)重要原因在于關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)是不完整的、不獨(dú)立的、難以識(shí)別的。關(guān)系數(shù)據(jù)庫是用各種“關(guān)系”來表達(dá)各種事物間的關(guān)系。關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)與關(guān)系數(shù)據(jù)庫系統(tǒng)、表結(jié)構(gòu)以及相應(yīng)的應(yīng)用程序密不可分,一旦分開,關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)將會(huì)變成無意義的數(shù)據(jù),正是這種“關(guān)系”導(dǎo)致關(guān)系數(shù)據(jù)庫必然產(chǎn)生“信息孤島”。
“萬能數(shù)據(jù)結(jié)構(gòu)表”中的數(shù)據(jù)與數(shù)據(jù)庫系統(tǒng)、表結(jié)構(gòu)及應(yīng)用程序無關(guān),可以完全脫離數(shù)據(jù)庫系統(tǒng)、表結(jié)構(gòu)及應(yīng)用程序而獨(dú)立地存在。“表一”中的數(shù)據(jù)是經(jīng)過結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議進(jìn)行優(yōu)化后的數(shù)據(jù),這樣的數(shù)據(jù)即使脫離表結(jié)構(gòu)也能表達(dá)出原來的含義。
大數(shù)據(jù)的原則:盡量避免代碼,盡量用標(biāo)準(zhǔn)的自然語言。
判斷數(shù)據(jù)是不是合格的大數(shù)據(jù)的方法:與信息系統(tǒng)耦合度為零的數(shù)據(jù)才有資格成為合格的大數(shù)據(jù)。
推論:由于當(dāng)前的關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)全部都是與信息系統(tǒng)密切耦合的數(shù)據(jù),所以當(dāng)前的關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)都不是合格的大數(shù)據(jù)。
8、數(shù)據(jù)結(jié)構(gòu)的統(tǒng)一性
數(shù)據(jù)結(jié)構(gòu)的統(tǒng)一性:合格的結(jié)構(gòu)化大數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)必須是統(tǒng)一的。目前只有“萬能數(shù)據(jù)結(jié)構(gòu)表”可以使數(shù)據(jù)實(shí)現(xiàn)“數(shù)據(jù)結(jié)構(gòu)的統(tǒng)一性”。
針對(duì)的問題:各個(gè)關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)各不相同。
數(shù)據(jù)優(yōu)化方法八:結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議利用“萬能數(shù)據(jù)結(jié)構(gòu)表”(如下表四所示)來實(shí)現(xiàn)數(shù)據(jù)的“數(shù)據(jù)結(jié)構(gòu)的統(tǒng)一性”。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議不充許設(shè)計(jì)人員設(shè)計(jì)任何數(shù)據(jù)結(jié)構(gòu),所有結(jié)構(gòu)化數(shù)據(jù)都必須存貯在一張,或若干張結(jié)構(gòu)完全一樣的、標(biāo)準(zhǔn)的、統(tǒng)一的表中。用關(guān)系數(shù)據(jù)庫理論做不到數(shù)據(jù)結(jié)構(gòu)的標(biāo)準(zhǔn)化。
表四:萬能數(shù)據(jù)結(jié)構(gòu)表可實(shí)現(xiàn)數(shù)據(jù)結(jié)構(gòu)的統(tǒng)一性
ID | 事物代號(hào) | 事物屬性 | 事物屬性值 | 超長屬性值 | 單位 | 附件 | 時(shí)間 |
100 | 1001 | 數(shù)據(jù)來源 | 上海市第一人民醫(yī)院 | ||||
101 | 1001 | 事物分類 | 病歷 | ||||
102 | 1001 | 事物分類 | 住院病歷 | ||||
103 | 1001 | 事物分類 | 入院病歷 | ||||
104 | 1001 | 事物分類 | 患者基本情況 | ||||
105 | 1001 | 患者編號(hào) | SH10-19910430Z21 | ||||
106 | 1001 | 健康卡號(hào) | XXXXXXXXXXXXX09 | ||||
107 | 1001 | ×××號(hào) | XXXXXXXXXXXXXXX | ||||
108 | 1001 | 姓名 | 胡風(fēng) | ||||
109 | 1001 | 工作單位 | 上海橡膠廠 | ||||
110 | 1001 | 職別 | 工人 | ||||
111 | 1001 | 性別 | 女 | ||||
112 | 1001 | 住址 | 上海市蒙古路20號(hào) | ||||
113 | 1001 | 年齡 | 32 | ||||
114 | 1001 | 入院日期 | 1991/4/30 | ||||
115 | 1001 | 婚否 | 已婚 | ||||
116 | 1001 | 病史采取日期 | 1991-4-30 | ||||
117 | 1001 | 民族 | 漢 | ||||
118 | 1001 | 病情陳述者 | 本人 | ||||
10000 | 52367 | 數(shù)據(jù)來源 | 廣州動(dòng)物園 | ||||
10001 | 52367 | 事物分類 | 動(dòng)物管理系統(tǒng) | ||||
10002 | 52367 | 事物分類 | 企鵝 | ||||
10003 | 52367 | 事物分類 | 帝企鵝 | ||||
10004 | 52367 | 事物分類 | 動(dòng)物檔案 | ||||
10005 | 52367 | 大數(shù)據(jù)識(shí)別碼 | GZQE0003 | ||||
10006 | 52367 | 名字 | 漢武帝 | ||||
10007 | 52367 | 購入日期 | 2013-3-21 | ||||
10008 | 52367 | 身高 | 1.2 | m | |||
10009 | 52367 | 體重 | 20 | kg | |||
10010 | 52367 | 出生日期 | 2011-4-2 | ||||
10011 | 52367 | 照片 | JPG | ||||
10012 | 52367 | 籠舍編號(hào) | 098 | ||||
10013 | 52367 | 管理員 | 張三 | ||||
10014 | 52367 | 父 | GZQE0001 | ||||
10015 | 52367 | 母 | GZQE0002 | ||||
10016 | 52367 | 性別 | 雄 |
關(guān)系數(shù)據(jù)庫的最大問題就是數(shù)據(jù)結(jié)構(gòu)不標(biāo)準(zhǔn)。關(guān)系數(shù)據(jù)庫理論對(duì)數(shù)據(jù)結(jié)構(gòu)沒有任何限制,完全由設(shè)計(jì)人員自由定義數(shù)據(jù)結(jié)構(gòu)。數(shù)據(jù)結(jié)構(gòu)標(biāo)準(zhǔn)化是處理大數(shù)據(jù)的基礎(chǔ),數(shù)據(jù)結(jié)構(gòu)不標(biāo)準(zhǔn)會(huì)導(dǎo)致數(shù)據(jù)處理非常困難。
9、數(shù)據(jù)的累加性
數(shù)據(jù)的累加性:是指“使數(shù)據(jù)可以(猶如圖書那樣)不經(jīng)任何處理即可累加在一起”。
針對(duì)的問題:當(dāng)前的關(guān)系數(shù)據(jù)庫系統(tǒng)已產(chǎn)生了很多數(shù)據(jù),然而這些數(shù)據(jù)都不能累加成大數(shù)據(jù)。
數(shù)據(jù)優(yōu)化方法九:數(shù)據(jù)的累加性可通過“數(shù)據(jù)的唯一性、數(shù)據(jù)的歸屬性、數(shù)據(jù)的識(shí)別性、數(shù)據(jù)的獨(dú)立性、數(shù)據(jù)的完整性、數(shù)據(jù)的規(guī)范性、數(shù)據(jù)與系統(tǒng)的耦合性、數(shù)據(jù)結(jié)構(gòu)的統(tǒng)一性”來實(shí)現(xiàn)的,也可以說只有同時(shí)擁有這些屬性的數(shù)據(jù)才具有累加性。
傳統(tǒng)的寫在紙上的信息具有可累加性,圖書館就是眾多圖書之和,檔案館就是眾多檔案之和。數(shù)據(jù)若具有累加性,那么,廣州市政府各部門的數(shù)據(jù)全部以鏡像方式集中存貯到云平臺(tái)之后就等于建立了廣州市大數(shù)據(jù),全國97.8萬家醫(yī)療機(jī)構(gòu)的所有數(shù)據(jù)全部以鏡像的方式上傳到國家醫(yī)療大數(shù)據(jù)中心就等于建成了國家醫(yī)療大數(shù)據(jù)。可惜的是,當(dāng)前的各種信息系統(tǒng)中的數(shù)據(jù)不具有累加性。
10、數(shù)據(jù)的移植性
數(shù)據(jù)的移植性:“無論把數(shù)據(jù)移植到任何環(huán)境中,數(shù)據(jù)都能保持原有含義不變,能讓各種信息系統(tǒng)識(shí)別,能讓用戶識(shí)別”,這樣的數(shù)據(jù)才具有移植性。
針對(duì)的問題:用關(guān)系數(shù)據(jù)庫所建立的信息系統(tǒng)難以互聯(lián)互通,即一個(gè)系統(tǒng)中數(shù)據(jù)不能移植到另一個(gè)系統(tǒng)中。
數(shù)據(jù)優(yōu)化方法十:數(shù)據(jù)的移植性是通過“數(shù)據(jù)的唯一性、數(shù)據(jù)的歸屬性、數(shù)據(jù)的識(shí)別性、數(shù)據(jù)的獨(dú)立性、數(shù)據(jù)的完整性、數(shù)據(jù)的規(guī)范性、數(shù)據(jù)與系統(tǒng)的耦合性、數(shù)據(jù)結(jié)構(gòu)的統(tǒng)一性”來實(shí)現(xiàn)的,也可以說只有同時(shí)具有這些屬性的數(shù)據(jù)才具有移植性。
數(shù)據(jù)的移植性關(guān)系到信息系統(tǒng)的互聯(lián)互通。具有移植性的數(shù)據(jù)才能任意地在各個(gè)系統(tǒng)之間互聯(lián)互通。數(shù)據(jù)的移植性與數(shù)據(jù)的累加性是一樣的,具有移植性的數(shù)據(jù)也具有累加性,只是數(shù)據(jù)的移植性是用來體現(xiàn)數(shù)據(jù)是否可以在各個(gè)系統(tǒng)之間互聯(lián)互通,數(shù)據(jù)的累加性指的是能否把眾多的小數(shù)據(jù)累加成大數(shù)據(jù)。
11、數(shù)據(jù)的時(shí)間性
數(shù)據(jù)的時(shí)間性:大數(shù)據(jù)中的每一個(gè)數(shù)據(jù)都應(yīng)有相應(yīng)的時(shí)間。
數(shù)據(jù)優(yōu)化方法十一:為每一個(gè)數(shù)據(jù)增加時(shí)間戳。
12、數(shù)據(jù)的真實(shí)性
數(shù)據(jù)的真實(shí)性:小數(shù)據(jù)猶如自己記帳而產(chǎn)生的數(shù)據(jù),大數(shù)據(jù)猶如不同單位之間的資金來往而產(chǎn)生的數(shù)據(jù),因此大數(shù)據(jù)的真實(shí)性就是非常重要的。
數(shù)據(jù)優(yōu)化方法十二:必須把數(shù)據(jù)防偽、數(shù)據(jù)防篡改當(dāng)作重要工作,可通過第三方認(rèn)證、第三方公證、第三方數(shù)據(jù)備案的方法使數(shù)據(jù)的真實(shí)性得到保證。
轉(zhuǎn)載于:https://blog.51cto.com/1484085/1977927
總結(jié)
以上是生活随笔為你收集整理的专利:结构化大数据通信协议的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: zabbixproxy安装
- 下一篇: WRC 2017最值得关注的专题论坛之一