开头和结尾标记 在不同系统_文本标记的宝藏平台——Docusky
DocuSky是一個個人化的數位人文協作平臺,可以為研究者提供一些數位人文研究的服務。并且同馬庫斯、CBDB、Palladio有著兼容性,可以實現跨平臺操作,形成更全面的工作流程和功能。
北京大學工作坊教程視頻鏈接
圖源:北京大學數字人文工作坊簡報首先我們可以通過多種方式來獲取原始的文本,例如維基百科,網站爬蟲,資源下載,或者ocr。在我們得到這些文本之后,如果想對其中涉及的人物、地名、書名、時間等等多種類的詞進行分析時,往往需要進行詞性標注、替換等。舉個簡單的例子,《魔道祖師》中的魏無羨,名字叫魏嬰,號夷陵老祖,對話中也會被稱作魏公子,在我們進行文本分析的時候就要把所有指代一個人的詞都換成一個,例如魏無羨,以方便后面的統計詞頻、趨勢變化等工作。那么今天就以人名地名的提取為主要的目的,以國語版《海上花列傳》為例,來帶大家熟悉一下Docusky強大的建庫工作。
首先我們需要對txt或者word格式的文本進行一個結構化的工作,來整理成一個excel表:
建庫前的excel表當然,這些字段也可以根據需要進行替換。但是要注意的是,Filename這一字段一定要有,并且值唯一,不能有重復項。并且由于識別排序的問題,應該使用001、0001的計數方式,否則順序就會發生錯誤(血的教訓)。具體前面幾個0應該根據數據總條數調整,例如一共有1200個數據,那么編號就應該是0001-1200。
接下來,讓我們進入Docusky進行建庫工作。
工具界面工具界面分成了7大種類,可以根據需求進行選擇。因為建庫需要.xml文件,所以我們需要將我們的excel轉換成.xml文件。使用轉換文本格式標簽下的表格文本轉換工具。
選擇表格文本轉換工具(新版)網站上的說明傳入剛才的表格,點全選,再下一步。
文獻集名稱選擇資料表名稱就可以,唯一編號就選filename
欄位設置第一個和最后兩個不用填。這里可以將excel表里的每一列對應到數據庫中并在特定標簽下顯示。
這一步可以增加自定的欄位。可以滿足個性化的需求。之前在建excel的時候為每個事件都填寫了屬于什么類型的動作,所以這里可以增加動作欄位。
設置最主要的部分:內文在這里可以設置剛才沒有設置的正文部分。
到這里建庫基本結束,命名之后最好下載一份,并且點擊建庫到DocuSky上。在下面可以預覽,如果發現錯誤的話可以返回修改。
建庫需要一些時間。等待狀態為OK時說明建庫成功了。
雖然說建完了庫,但是我們的最終目標還沒達到。人名地名還沒標注。我們自己做了人名地名字典,需要按照格式再準備一個excel表:tagVal內填所有屬于人/地名的詞,Term填權威詞,即將前面的詞全部替換為一個詞。最后一項可以附上該人物在CBDB的鏈接,建庫之后可以點擊進入該人物庫中查看。這里暫且不填。
人地名字典示意填好之后,我們需要構建一個新的標記人地名稱字典的庫。
點擊標記與編輯標簽下的批次標記工具,進入界面需要加載兩個文件:一個是xml文件,另一個是剛才的人地名字典excel文件。點擊輸出,會得到一個CT-開頭的文件。
工作還沒有全部完成,繼續來到建庫與重整標簽,選擇詮釋資料管理工具。
選擇剛才CT開頭的xml文件,
后分類顯示順序可以調整其在自訂后分類顯示的順序。比如我們把complication_name調成1,在數據庫中目錄就會第一個顯示。
下拉會出現這一欄,可以在自定展示標題處寫上自己比較好分辨的名稱。我們可以寫成人名和地名。
最后會輸出一個以-M結尾的文件。我們點開自己的資料庫:
命名后點瀏覽,上傳剛才的xml文件即可。至此所有建庫工作全部結束。
接下來可以看一下成果:
數據庫一覽人地名都被標記了。還可以點擊右上角的Tag,進行詞云、篩選等多種操作。在想查看的人物前面打勾,再進行篩選/過濾等等操作,就可以只看他出場的章節。
Tag分析點第一個云的標簽,可以用詞云的方式顯示:
《海上花》詞云圖此外還可以用詞綴工具查看與特定詞相連的詞。比如我們想看洪善卿的后兩個出現過什么字,我們可以設置如下的檢索式:
洪善卿后兩個字的檢索結果這個功能可以幫我們詞與詞之間潛在的語義關系。
那么建庫完成了,我們從哪獲取數據來進行下一就要用到詞匯分析工具:到本地開展下一步分析呢?我們再次從首頁的探勘與分析標簽頁下找到標記與詞匯分析工具。
我們直接來到corpus,因為是直接從docusky我們自己的庫中被標注好的文本進行分析,所以步驟相對簡單。當然也可以直接傳入一個未被標注的文檔和一個希望查看詞頻的文檔進行標記并進行詞頻統計。步驟是相似的。
點擊method2里面的藍色按鈕傳入文件,就直接跳到Analysis一欄,因為我們直接用的庫里的文件,所以點擊右面的選項卡,把人名地名都勾選上點擊run。
分析結果可以看到分析結果導出方式有3種,我們分別來看看:
第一種:基本詞頻
基本詞頻文件基本提供了TF(詞頻)IDF(逆向文件頻率),兩者乘積可以看這個詞在文本中的重要程度。
再來看第二個:
以文件來分類的結果以及第三個:
以term來分類的結果前者是以每個filename做一行,把這句話里面的地名、人名分別提了出來。后者是以每個term做一行,其實就相當于前者的拆分。使用者可以根據需求自行判斷。
本次的分享就到這里,來看看通過平臺實現的結果:
人地共現網絡總結
以上是生活随笔為你收集整理的开头和结尾标记 在不同系统_文本标记的宝藏平台——Docusky的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 大师兄科研网vasp_【回顾】第三临床学
- 下一篇: python 数值运算 m op n_p