统计“3_人民日报语料”文本中的字符数和词数,把文件分别保存为 ansi, UTF8,UTF16,unicode 格式
生活随笔
收集整理的這篇文章主要介紹了
统计“3_人民日报语料”文本中的字符数和词数,把文件分别保存为 ansi, UTF8,UTF16,unicode 格式
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
統計“3_人民日報語料”文本中的字符數和詞數,把文件分別保存為 ansi, UTF8,UTF16,unicode 格式;
首先,統計文件的字符數,有兩種方法。第一種是將文件復制到word中,word自動統計;第二種是在python中,將文本內容讀取到字符串中,去除換行符和空格,字符串的長度就是字符的數目。然后統計文件中的單詞數目,因為所給文件已經做好了分詞處理,因此將文本讀取到字符串中,用python中的split()函數將字符串轉換成list,這樣list的長度就是單詞的數目。最后要做的是將文件轉換成不同的編碼,可以采用記事本、notepad++、sublime text等軟件進行處理。1.統計“3_人民日報語料”文本中的字符數
方法一:將文字復制到word文檔中,word自動統計文本字符數:
方法二 python處理
#coding=utf-8 try:file_read = open("3.txt","r") #打開人民日報語料s = file_read.read().decode("UTF-8-SIG") #將文件讀取到變量s中,并將其轉換為unicode編碼s = s.replace('\n', '') #除去其中的換行符s = s.replace('\r', '') #除去其中的換行符s = s.replace(" ", '') #除去其中的空格file_read.close() #關閉文件print "The total number of characters is "+str(len(s)) #輸出結果 字符串s的長度就是總共的字符數 except Exception, e:print e.message2.統計“3_人民日報語料”文本中的詞數
python處理 #coding=utf-8 try:file_read = open('3.txt') #打開文件s = file_read.read().decode("UTF-8-SIG") #讀取文件s = s.split()#因為語料已經做好了分詞,所以只需split()即可print "Total number of words is "+str(len(s)) #list s 的長度就是字數 except Exception, e:print e.message3.把文件分別保存為 ansi, UTF8,UTF16,unicode 格式;
(1)UTF16或UTF8
sublime
(2)ansi或utf8
notepad++
(3)unicode或ansi或utf8
記事本
(4)UTF16
python
#coding=utf-8 import codecs import chardet file_name = '3.txt' file_utf_16_name = '3_utf_16.txt' try:file_read = open(file_name) #打開文件file_utf_16 = codecs.open(file_utf_16_name, mode='w', encoding='utf-16') #創建要寫入UTF-16編碼的文件,此處要調用codecs包text = file_read.read() #讀取文件內容file_utf_16.write(text.decode("UTF-8-SIG")) #將轉換成unicode的內容寫入文件file_read.close() #關閉文件file_utf_16.close() #關閉文件fs = open(file_utf_16_name, 'r')check = chardet.detect(fs.read()) #以上兩行是對utf-16編碼的文件的驗證print 'the encoding of '+file_utf_16_name+' is ' + check.get('encoding') #輸出結果 except Exception, e:print e.message與50位技術專家面對面20年技術見證,附贈技術全景圖
總結
以上是生活随笔為你收集整理的统计“3_人民日报语料”文本中的字符数和词数,把文件分别保存为 ansi, UTF8,UTF16,unicode 格式的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: java 枚举类 enum
- 下一篇: 去掉“3_人民日报语料”中每行前边的数字