當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

统计“3_人民日报语料”文本中的字符数和词数，把文件分别保存为 ansi， UTF8，UTF16，unicode 格式

發布時間：2025/3/19 编程问答 30 豆豆

生活随笔收集整理的這篇文章主要介紹了统计“3_人民日报语料”文本中的字符数和词数，把文件分别保存为 ansi， UTF8，UTF16，unicode 格式小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

統計“3_人民日報語料”文本中的字符數和詞數，把文件分別保存為 ansi， UTF8，UTF16，unicode 格式;

首先，統計文件的字符數，有兩種方法。第一種是將文件復制到word中，word自動統計；第二種是在python中，將文本內容讀取到字符串中，去除換行符和空格，字符串的長度就是字符的數目。然后統計文件中的單詞數目，因為所給文件已經做好了分詞處理，因此將文本讀取到字符串中，用python中的split()函數將字符串轉換成list，這樣list的長度就是單詞的數目。最后要做的是將文件轉換成不同的編碼，可以采用記事本、notepad++、sublime text等軟件進行處理。

1.統計“3_人民日報語料”文本中的字符數

方法一：將文字復制到word文檔中，word自動統計文本字符數:

方法二 python處理

#coding=utf-8 try:file_read = open("3.txt","r") #打開人民日報語料s = file_read.read().decode("UTF-8-SIG") #將文件讀取到變量s中，并將其轉換為unicode編碼s = s.replace('\n', '') #除去其中的換行符s = s.replace('\r', '') #除去其中的換行符s = s.replace(" ", '') #除去其中的空格file_read.close() #關閉文件print "The total number of characters is "+str(len(s)) #輸出結果字符串s的長度就是總共的字符數 except Exception, e:print e.message

2.統計“3_人民日報語料”文本中的詞數

python處理

#coding=utf-8 try:file_read = open('3.txt') #打開文件s = file_read.read().decode("UTF-8-SIG") #讀取文件s = s.split()#因為語料已經做好了分詞，所以只需split（）即可print "Total number of words is "+str(len(s)) #list s 的長度就是字數 except Exception, e:print e.message

3.把文件分別保存為 ansi， UTF8，UTF16，unicode 格式;

（1）UTF16或UTF8

sublime

（2）ansi或utf8

notepad++

（3）unicode或ansi或utf8

記事本

（4）UTF16

python

#coding=utf-8 import codecs import chardet file_name = '3.txt' file_utf_16_name = '3_utf_16.txt' try:file_read = open(file_name) #打開文件file_utf_16 = codecs.open(file_utf_16_name, mode='w', encoding='utf-16') #創建要寫入UTF-16編碼的文件，此處要調用codecs包text = file_read.read() #讀取文件內容file_utf_16.write(text.decode("UTF-8-SIG")) #將轉換成unicode的內容寫入文件file_read.close() #關閉文件file_utf_16.close() #關閉文件fs = open(file_utf_16_name, 'r')check = chardet.detect(fs.read()) #以上兩行是對utf-16編碼的文件的驗證print 'the encoding of '+file_utf_16_name+' is ' + check.get('encoding') #輸出結果 except Exception, e:print e.message
與50位技術專家面對面20年技術見證，附贈技術全景圖

總結

以上是生活随笔為你收集整理的统计“3_人民日报语料”文本中的字符数和词数，把文件分别保存为 ansi， UTF8，UTF16，unicode 格式的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： java 枚举类 enum
下一篇：去掉“3_人民日报语料”中每行前边的数字