python提取文章中的中文数字
生活随笔
收集整理的這篇文章主要介紹了
python提取文章中的中文数字
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
新建mytest.txt
添加內容:
或多或少的好好讀書電鋸驚魂20202 和水電費后是否會時候1212沒收到風10.12海大富的是粉紅色的和辦法的1244525.000會發生的粉紅色的合法化好0.01給對方會感受到發給還是干活0001還打飛機大嫁風尚蝴蝶結個房間小電風扇豆腐干很多事123,450,000.000好盛大黑色的十一萬八千四百三十二的還好丁世德11萬2200海大富會閃爍二十萬零三
python代碼如下:
# _*_coding:utf-8 _*_ import sys import re reload(sys) sys.setdefaultencoding('utf8') def numberChange(path):f = open(path,'r')s = f.read()for i in ["utf8","gb2312"]:try:data = s.decode(i)breakexcept:pass# 匹配中的 ‘u’不可少number = re.compile(ur'([一二三四五六七八九零十百千萬億]+|[0-9]+[,]*[0-9]+.[0-9]+)')pattern = re.compile(number)all = pattern.findall(data)for i in all:print '*'print i# 打印的內容# 20202# 1212# 10.12# 1244525.000# 0001# 123, 450, 000# 十一萬八千四百三十二# 11# 萬2200# 二十萬零三f.close() if __name__=='__main__':path='./mytest.txt'numberChange(path)代碼運行結果:
*
20202
*
1212
*
10.12
*
1244525.000
*
0001
*
123,450,000
*
十一萬八千四百三十二
*
11萬2200
*
二十萬零三
Process finished with exit code 0
總結
以上是生活随笔為你收集整理的python提取文章中的中文数字的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python中urllib.quote出
- 下一篇: 更新被拒绝,因为远程仓库包含您本地尚不存