ucinet数据集格式
Datasets數(shù)據(jù)集下載
http://archive.ics.uci.edu/ml/datasets.html
在ucinet6數(shù)據(jù)組中有三件重要的事需要記住。
第一,數(shù)據(jù)是矩陣的集合。不管你把你的數(shù)據(jù)理解為圖像,關(guān)系、超圖還是其他的,在ucinet6中,你的數(shù)據(jù)就是矩陣集合。這并不是意味著ucinet不能讀取不是矩陣格式的數(shù)據(jù),而是說在程序系統(tǒng)中,他們都是被看作為矩陣的。網(wǎng)絡(luò)分析人員一般把他們的數(shù)據(jù)理解為圖,圖就是一系列的節(jié)點(diǎn)和一系列連接這些點(diǎn)的線。圖的信息可以用鄰接矩陣表示,在鄰接矩陣中給定元素X(i,j)的值為1代表節(jié)點(diǎn)i和j是連接著的,0代表這兩者不是連接著的。
以下是用矩陣代表網(wǎng)絡(luò)的一個(gè)示例:
在這個(gè)網(wǎng)絡(luò)中,參與者A和參與者B,D和E有聯(lián)系,但和C以及他自己沒有聯(lián)系。參與者B和參與者A,C有聯(lián)系,參與者C和參與者B,E有聯(lián)系,參與者D只和A有聯(lián)系,參與者E和參與者A,C有聯(lián)系。
有向圖是一系列點(diǎn)和連接這些點(diǎn)的圓弧(或者是箭頭、有頭尾的線)的集合。他們被用來表示節(jié)點(diǎn)間的不必是相互的關(guān)系,比如“愛上”或者“是……的老板”。有向圖中的信息可以被記錄為單模鄰接矩陣(并不必須是對稱的),在其中,如果i被連接到j(luò)則X(i,j)=1,否則X(i,j)=0.注意X(i,j)可以等于X(j,i),但這不是必須得。
賦值圖可以用一個(gè)長方形單模矩陣表示,在其中X(i,j)給出了從i到j(luò)的連接的值,可以代表關(guān)系的強(qiáng)度,道路的長度,狀態(tài)轉(zhuǎn)換的可能性,聯(lián)系的頻繁性等。
超圖是一系列節(jié)點(diǎn)的子集的集合。子集在概念上就像可能有兩個(gè)末端的邊界/連接。在超圖可以用2模矩陣表示,在其中,假如i在子網(wǎng)j中,則Y(i,j)=1,否則Y(i,j)=0.。Ucinet中包含的矩陣可以有任何形狀或者尺寸,而且并非都代表網(wǎng)絡(luò)。比如,以下三個(gè)數(shù)字集合就都是矩陣。
Matrix#1: 1 3 2 5 1 5 7 2 1 2 7 2 2 4 5 2 9 6 5 1 Matrix#2: 1 3 8 9 2 3 5 1.7 Matrix#3: 3.1415
?
注意第二個(gè)矩陣有8列1行。第3個(gè)矩陣是1行1列。古怪的形狀并不是問題。重要的是每一行包括了同樣數(shù)目的列數(shù),反之亦然。
Ucinet數(shù)據(jù)表的一個(gè)重要特征是他們可能包括了一個(gè)以上的矩陣,雖然每個(gè)矩陣的行列必然反映同一個(gè)物體。這使得你可以把一系列有關(guān)的網(wǎng)絡(luò)數(shù)據(jù)放在同一個(gè)文件中。比如,你可能有一系列的家庭作為節(jié)點(diǎn),并如此度量家庭間的關(guān)系:“嫁給了……中的一人”和“與……中的一人做生意”。這對于應(yīng)用有一個(gè)或多個(gè)社會關(guān)系作為輸入的網(wǎng)絡(luò)技術(shù)非有用,比如大部分的位置方法(positionalmethods),(比如CONCOR,REGE).甚至把多種關(guān)系應(yīng)用在沒有多種關(guān)系的技術(shù)里面也會很有用,比如中心法(centralitymeasures)。在ucinet中,無論什么時(shí)候有可能,一個(gè)引入使用多關(guān)系
無效的技術(shù)的程序會基于每種關(guān)系挨個(gè)運(yùn)行。比如在包含數(shù)百個(gè)隨機(jī)網(wǎng)絡(luò)的數(shù)據(jù)組中運(yùn)行中心法時(shí),程序會為文件中的每個(gè)網(wǎng)絡(luò)計(jì)算和保存方法。結(jié)果可用于統(tǒng)計(jì)分析。
使用多矩陣數(shù)據(jù)組的另一種方法被引入到Tools>MatrixAlgebra(矩陣代數(shù)學(xué))程序中。在此,程序把多矩陣數(shù)據(jù)組視為單個(gè)由行列級組成的3路矩陣,并允許用戶同時(shí)在三個(gè)維度運(yùn)行操作。
第二件重要的事情是理解ucinet數(shù)據(jù)組并不是文本文件。因此你不能使用文字處理軟件來修改。只有ucinet(以及其他來自于AnalyticTechnologies的軟件)可以讀寫他們。這會有所不便,但是這可以提升性能。當(dāng)然,ucinet也提供了把文本文件轉(zhuǎn)換為ucinet數(shù)據(jù)組的方法(參見Import命令),反之亦然(參見Export)。在這個(gè)方面ucinet和SYSTAT,SAS,SPSS,GRADAP以及其他致命的分析軟件想象。
第三件重要的事是單個(gè)ucinet數(shù)據(jù)組實(shí)際上由兩個(gè)文件組成。一個(gè)(后綴名為.##D)包括了實(shí)際數(shù)據(jù),另一個(gè)(后綴名.##H)包含了數(shù)據(jù)的信息。當(dāng)參考ucinet數(shù)據(jù)組的時(shí)候,你只能參考##H文件(或者同時(shí)只是忽略后綴名)。你應(yīng)該正確使用文件名:像“sampson”或“sampson.##h”。文件名中可以包括空格,可以數(shù)字符號打頭。然而,有時(shí)候你需要使用括號擴(kuò)住有空格的文件名。UCINETIV 數(shù)據(jù)組在ucinet6.0中兼容并且無需轉(zhuǎn)換。
導(dǎo)入數(shù)據(jù)
在使用ucinet做任何分析之前,必須先創(chuàng)建ucinet數(shù)據(jù)組。典型地,網(wǎng)絡(luò)數(shù)據(jù)從問卷調(diào)查中或者書籍和采訪中的數(shù)據(jù)表中來。在這兩種情況下材料載體是紙張,你需要將對應(yīng)數(shù)據(jù)輸入到計(jì)算機(jī)文件中。最好最通用的方法是使用文件編輯器或者你喜歡的文字處理軟件把數(shù)據(jù)保存為ASCII文件。
在本章中將會介紹輸入數(shù)據(jù)的幾種格式。一旦數(shù)據(jù)保存在了計(jì)算機(jī)磁盤中,你可以使用Data>Import/Export>Import命令來將這些數(shù)據(jù)裝換為ucinet6.0的數(shù)據(jù)組。使用過SYSTAT等統(tǒng)計(jì)軟件的用戶對這一部肯定不陌生。在SYSTAT中,你可以使用DATA命令來讀取ASCII文件、創(chuàng)建SYSTAT系統(tǒng)文件,讀取SPSS和SAS程序文件,雖然他們不需要像SYSTAT和UCINET6.0一樣需要永久的系統(tǒng)文件。
Import可以處理許多格式的ASCII數(shù)據(jù)。最普遍RAW,DL,EXCEL和UCINET3.0(ucinet6.0和UCINETIV 使用相同的數(shù)據(jù)格式所以不需要導(dǎo)入)。RAW文件只包含數(shù)字,比如一個(gè)由問題答案數(shù)字編碼組成的變量矩陣。DL文件包括了和RAW一樣的文件,另外還包括了數(shù)據(jù)的信息,比如行列的數(shù)目,變量的名字,研究的名字,以及其他。Ucinet3文件與DL文件相似,但是在數(shù)據(jù)信息方面有更多的限制。EXCEL則是標(biāo)準(zhǔn)的EXCEL數(shù)據(jù)表文件,這些文件格式將會在下面的部分詳細(xì)討論。
如果你通過抓取輸入數(shù)據(jù),我們強(qiáng)烈建議你是用DL格式(你可以在任何時(shí)候通過Export把數(shù)據(jù)輸出為其他格式。)這種格式在接受數(shù)據(jù)方面是最可靠的。
無論你導(dǎo)入的文件格式是怎樣的,輸出總是一樣的:即一個(gè)可以被應(yīng)用于任何數(shù)值程序輸入的ucinet6.0數(shù)據(jù)組。但是,必須注意,在保存數(shù)據(jù)方面你只有幾種選擇:Byte(字節(jié)),Smallint(短整型),和Real(實(shí)數(shù)). 當(dāng)從ASCII文件中導(dǎo)入數(shù)據(jù)時(shí),可以選擇三種之一。除非你有很大的數(shù)據(jù)量,否則默認(rèn)的Real(實(shí)數(shù))應(yīng)該是最好的選擇。
Real(實(shí)數(shù))數(shù)據(jù)格式是最強(qiáng)大的,可以包括從-1E36t到+1E36當(dāng)中的值,他們也能包含缺失值,這些值在內(nèi)部被存為1E38.,Real型的缺點(diǎn)是每個(gè)值需要4個(gè)字節(jié)存儲,這會使得文件偏大,比如,一個(gè)150*150的矩陣需要176kb的磁盤空間(譯者說,現(xiàn)在看來好小)。
Smallint(短整型)的每個(gè)值需要兩個(gè)字節(jié)的存儲空間,但只能代表從-32000到+32000之間的數(shù),不允許缺失值。
Byte(比特)型是最節(jié)省的,每個(gè)值只需要1個(gè)字節(jié),可以表示0到255之間的數(shù),沒有缺失值。
如果你需要缺失值,則必須使用Real型,當(dāng)然,大部分網(wǎng)絡(luò)分析技術(shù)不允許缺失值,只有少數(shù)ucinet子程序知道如何處理他們,不支持缺失值的程序自動把其轉(zhuǎn)化為0或者其他合理值。
在選擇數(shù)據(jù)型的時(shí)候,了解選型對存儲空間的影響很重要,但是這對程序處理時(shí)所需要的內(nèi)存空間并沒有影響。不管數(shù)據(jù)時(shí)如何存儲在磁盤中的,類似于MIDS之類的用來處理Real型數(shù)值的程序都是將其看做Real型。類似的,像Clique之類只處理整數(shù)的程序會在讀入內(nèi)存中時(shí)自動將Real型的數(shù)據(jù)轉(zhuǎn)換為整數(shù)。關(guān)于缺失值需要注意一點(diǎn):所有的大于1E37的值都被認(rèn)為是缺失值,包括在ASCII數(shù)據(jù)文件中的非數(shù)字符號,比如,以下的矩陣中存在3個(gè)缺失值(1E38/na/a3??):
?
與SYSTAT不同,ucinet6.0把一個(gè)單獨(dú)的句號(loneperiod)看做0,而不是缺失,如果你要導(dǎo)入包含了缺失值的SYSTAT數(shù)據(jù),你應(yīng)該用文本編輯器改變所有的單獨(dú)句號,比如使用'NA'.
3.1RawFiletype
Raw文件全都由數(shù)字構(gòu)成,以矩陣形式輸入。以下就是一個(gè)raw文件的例子:0 1 1 0 1 0 1 1 1 1 0 0 0 1 0 0
程序通過讀取第一行有幾個(gè)數(shù)來確定有幾列,通過計(jì)數(shù)來確定有多少行。雖然這種文件很方便,但我們并不推薦使用,一個(gè)原因是電腦不會檢查數(shù)據(jù)。如果第一行正好丟失了一個(gè)數(shù)字,程序就讀不懂這個(gè)文件了,程序會認(rèn)定該文件中的矩陣列數(shù)比實(shí)際列數(shù)少1,另一個(gè)原因是在數(shù)據(jù)文件中你不能把矩陣中的一行的數(shù)據(jù)擴(kuò)散為多個(gè)記錄。而且,你沒法使用標(biāo)簽來辨別節(jié)點(diǎn)。
3.2ExcelFiletype
目前ucinet支持的excel版本是4.0,5.0和7.0(office97)(這個(gè)東東是指導(dǎo)手冊上說的,實(shí)際操作……)。如果你想使用其他版本的excel,那你必須在保存數(shù)據(jù)(SAVEAS)時(shí)將他們保存為支持的格式。注意excel最多只支持255列,所以不能被用來建立大型的網(wǎng)絡(luò)數(shù)據(jù)表。3.3DLFiletype
典型的DL文件由一系列的數(shù)字以及一系列的描述數(shù)據(jù)的關(guān)鍵詞,這些關(guān)鍵詞被稱為meta-data。當(dāng)然,DL文件也可以只有meta-data和一個(gè)指向存儲實(shí)際數(shù)據(jù)所在文件的指針。3.4FullMatrixFormat全矩陣
一個(gè)有四個(gè)參與者的DL文件如下:dl n=4format=fullmatrix data: 0 1 1 0 1 0 1 1 1 1 0 0 0 1 0 0
關(guān)鍵詞“dl”說明這是DL文件類型,必須是文件的第一個(gè)詞。“n=4”意即矩陣是4行4列,等號也可以換為空格或者逗號,形如"n=4","n 4","n,4"。"format=fullmatrix" 說明數(shù)據(jù)是以一個(gè)普通的矩陣格式輸入的(這個(gè)值還可以使linkedlist,lowerhalfmatrix等)。因?yàn)槟J(rèn)的就是fullmatrix,所以這一短句可以省略。
“data”已經(jīng)沒有其他關(guān)于數(shù)據(jù)的信息了,以下的就是數(shù)據(jù)。關(guān)鍵詞的順序是很重要的,如果是"dl data: n=4",整個(gè)過程就毀了。雖然我們加入了一些其他關(guān)鍵詞,但是我們始終要保證dl放在第一位,然后是與矩陣維度有關(guān)的關(guān)鍵句,然后是其他關(guān)鍵詞句,最后是"data"。
標(biāo)點(diǎn)的注意事項(xiàng):一般情況下,冒號表示后面有內(nèi)容,比如數(shù)據(jù)集合或者標(biāo)簽集合。
分號或者回車表示短句的結(jié)束。
每個(gè)數(shù)據(jù)值之間必須用一個(gè)以上的空格或者回車符號間隔開。所有的非數(shù)字值,除了單獨(dú)的句號‘.’(loneperiods),都被認(rèn)為是缺失值。數(shù)據(jù)格式中行列不需要相等,只要所有的值按從左到右,從上到下的順序排列就行,示例如下:
?
3.5RectangularMatrices
長方形矩陣可以參照下面輸入dl nr=6,nc=4 data: 0 1 1 0 1 0 1 1 1 1 0 0 0 1 0 0 1 0 1 1 1 1 0 0
"nr=6"說明矩陣有6行,"nc=4"說明矩陣有4列
3.6Labels
DL文件可能也包含參與者標(biāo)簽,比如:dl n=4 labels: Sanders,Skvoretz,S.Smith,T.Smith data: 0 1 1 0 1 0 1 1 1 1 0 0 0 1 0 0
"labels:"表示以下四項(xiàng)是行列標(biāo)簽,標(biāo)簽名至多可有18個(gè)字符(當(dāng)longlabels 選項(xiàng)為off的情況下)或者255個(gè)字符(當(dāng)longlabels選項(xiàng)為on的時(shí)候),標(biāo)簽名可以由空格,逗號或者回車(或者兩者一起使用)來分開。標(biāo)簽內(nèi)不能存在空格,除非你用引號將其包住,比如"Tom Smith"。
"lable"這個(gè)詞之后必須跟有冒號。
標(biāo)簽可以被分開為行標(biāo)和列標(biāo),事實(shí)上,當(dāng)矩陣不是方形的時(shí)候這是必須的,比如:
dl nr=6,nc=4 col labels: hook,canyon,silence,rosencrantz data: 0 1 1 0 1 0 1 1 1 1 0 0 0 1 0 0 1 0 1 1 1 1 0 0
另一種輸入標(biāo)簽的方法是將其當(dāng)做數(shù)據(jù)矩陣的一部分:
dl nr=6,nc=4 row label sembedded col label sembedded data:Dian Norm Coach Sam Mon 0 1 1 0 Tue 1 0 1 1 Wed 1 1 0 0 Thu 0 1 0 0 Fri 1 0 1 1 Sat 1 1 0 0
"row labels embedded" 和"column labels embedded" 說明行標(biāo)和列標(biāo)都嵌入在數(shù)據(jù)中,也可以簡單用"labels embedded" 來表示行列表企鵝都在數(shù)據(jù)中。
3.7MultipleMatrices
有時(shí)在一個(gè)數(shù)據(jù)文件中存放幾個(gè)相關(guān)的矩陣會比較方便。比如,我們可以度量給定的一系列參與者的多種社會關(guān)系,以下展示如何操作:d ln = 4, nm = 2 labels: GroupA,GroupB,GroupC,GroupD matrix labels: Marriage,Business data: 0 1 0 1 1 0 0 0 0 0 1 0 1 0 0 1 0 1 1 1 1 0 0 0 1 0 0 1 1 0 1 0
"nm=2" 說明文件中包含了兩個(gè)矩陣。"matrix labels:"說明下兩個(gè)詞("marriage" 和"business")是每個(gè)矩陣的標(biāo)簽,大致說明了每個(gè)矩陣度量的社會聯(lián)系。
3.8ExternalDataFile
有時(shí)將數(shù)據(jù)從DL的描述文件中分開出來會顯得方便,這可以使得其他程序也可以讀取數(shù)據(jù)文件(比如SYSTAT,STRUCTURE,和NEGOPY)以及ucinet,以下是示例: dl n=16 labels: ACCIAIUOL,ALBIZZI,BARBADORI,BISCHERI,CASTELLAN,GINORI GUADAGNI,LAMBERTES,MEDICI,PAZZI,PERUZZI,PUCCI,RIDOLFI, SALVIATI,STROZZI,TORNABUON datafile C:\DATA\PADGM.DAT"datafile=c:\data\padgm.dat"說明了包含實(shí)際數(shù)據(jù)的文件,該文件只能包含數(shù)據(jù)。使用datafile命令的缺點(diǎn)在于必須跟蹤眾多的文件。
當(dāng)使用一個(gè)單獨(dú)的數(shù)據(jù)文件時(shí),ucinet檢查第一行,查看是否存在NEGOPY和STRUCTURE等所要求的FORTRAN格式聲明。假如存在,ucinet將從第二行開始讀取,否則,就從第一行開始讀取,這使得你可以在使用STRUCTURE和NEGOPY文件時(shí)中途改換為ucinet文件,只需確保文件中的每個(gè)值之間都有一個(gè)以上的空格。
3.9DiagonalAbsent
默認(rèn)情況下,程序認(rèn)為數(shù)據(jù)有一整個(gè)完整的矩陣組成,技術(shù)上我們稱之為"full matrixformat" ,可以通過如下所示方法明確之:dl n=4 format=fullmatrix data: 0 1 1 0 1 0 1 1 1 1 0 0 0 1 0 0
在方形矩陣的情況下,省略一些值有時(shí)候顯得更為方便,比如,可以省略掉對角線。
dl n=4 diagonal=absent labels: Sanders,Skvoretz S.Smith,T.Smith data:1 1 0 1 1 1 1 1 0 0 1 0
程序會自動以缺失值編碼填入空缺的位置中。
3.10LowerhalfandUpperhalfMatrices
一種做法是只輸入對稱矩陣的下半部分: d ln=4 format=lowerhalf diagonal=absent labels: Sanders,Skvoretz S.Smith,T.Smith data: 1 1 1 0 1 0Ucinet會自動把上半部分補(bǔ)齊,并以缺失值填入對角線。同樣,也可以輸入對癥矩陣的上半部分以關(guān)鍵詞"upperhalf" 代替"lowerhalf"即可。注意如果"diagonal absent" 語句被省略了,程序展示出缺失值(expect a diagonal value tobe present.)
d ln=4
format=lowerhalf
labels:
Sanders,Skvoretz
S.Smith,T.Smith
data:
2
1 2
1 1 2
0 1 0 2
3.11BlockmatrixFormat
另一種在建立模型矩陣時(shí)很有用的格式是“blockmatrix”(分塊矩陣)。在這種格式中,你可以輸入方向來創(chuàng)建數(shù)據(jù)而不是逐一輸入。比如要輸入如下矩陣:
2 1 1 1 1 0 0 0 0 0 1 2 1 1 1 0 0 0 0 0 1 1 2 1 1 0 0 0 0 0 1 1 1 2 1 0 0 0 0 0 1 1 1 1 2 0 0 0 0 0 0 0 0 0 0 2 1 1 1 1 0 0 0 0 0 1 2 1 1 1 0 0 0 0 0 1 1 2 1 1 0 0 0 0 0 1 1 1 2 1 0 0 0 0 0 1 1 1 1 2
使用blockmatrix格式你可以這樣創(chuàng)建:
dl n = 10 format=blockmatrix data: rows 1 to 10 cols 1 to 10 value = 0 rows 1 to 5 cols 1 to 5 value = 1 rows 5 6 7 8 9 10 cols 5 to 10 value = 1 diagonal 0 value = 2
在blockmatrix格式中,你區(qū)分出一系列單元,并給他們賦值。在示例中,前三行語句給所有單元賦0,次三行(忽略空格)給左上角的矩陣賦值為1,再后三行作用類似,
最后兩行將主對角線上的所有值賦為2.考慮一下另一個(gè)矩陣:
100 0 0 0 0 0 90 100 0 0 0 0 80 90 100 0 0 0 70 80 90 100 0 0 60 70 80 90 100 0 50 60 70 80 90 100
根據(jù)如下示例用blockmatrix格式輸入這個(gè)矩陣:
dl n=10 format=blockmatrix data: rows all cols all value 0 diag 0 val = 100 diag -1 val =90 diag -2 val=80 d -3 v = 70 d -4 v = 60 d -5 v = 50
3.12LinkedListFormats
網(wǎng)絡(luò)分析中的一系列重要格式就是被稱為linkedlist (鏈表)的格式,這種格式中參與者只保留數(shù)據(jù)之間實(shí)際發(fā)生的聯(lián)系,忽略那些不發(fā)生的聯(lián)系,這些格式的特別之處在于接受字符型數(shù)據(jù)。There are two basic types of linked list formats: "nodelists"and"edgelists".Each of these?types in turn has two variants,one for 1-mode data and one for 2-modedata.Only the?edgelists allow valued data.有兩種基本的鏈表格式類型:"nodelists" (節(jié)點(diǎn)列表)and"edgelists"(邊界列表)。這兩種類型各有兩種變式,一種用于單模數(shù)據(jù),另一種用于2模數(shù)據(jù),只有"edgelists"允許賦值數(shù)據(jù)。
總結(jié)
以上是生活随笔為你收集整理的ucinet数据集格式的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: vue路由传参两种方式;vue路由传参q
- 下一篇: bootstrap评分插件 Bootst