python怎么读单词和古文_Python 实现文言文词频统计
前言
本文旨在對開發過程中出現的若干問題作記錄。因為開發本身過程大多采用參考代碼,不完全原始開發,因此不涉及具體的python語法記錄,只對搭建環境及需求分析作統一的記述。
需求描述
目的
旨在開發一個詞頻統計工具。統計某個文件夾下所有的.txt,.docx,.doc文件中出現的所有單個字出現的次數。
區別于現代文和英文(現代文設計組詞分詞,英文則是根據空格區分單詞),文言文的基本釋義是一字一義。因此,我們的統計可以適用于遍歷所有的漢字,然后作統計。
選用 python 的目的
本次的需求實際上是一個桌面端應用的開發。當前能夠使用的桌面端開發工具有許多。
Windows 平臺下的桌面端仍然是微軟提供的 MFC 開發,采用 C++語言
Mac 平臺下和iOS 相同,采用Objective-C 或 Swift配合Xcode IDE
本次的工具旨在開發一款跨平臺的桌面端應用(在Windows, MacOSX)下通用。目前我個人已知的跨平臺開發庫除了Python相關的庫外,就是JavaScript世界中的幾個跨院庫:Electron等。
跨平臺開發本質上意味著犧牲一部分的性能以及包大小。簡單來說就是各個平臺本身有一套根據自身硬件性能和平臺 api 特性設計的開發方案。跨平臺的開發工具先用自身的開發邏輯實現了所有的業務,最后通過解釋器生成原生使用的機器語言。
簡單的解釋,好比你帶了一個翻譯出國旅行。雖然也可以算得上暢行無阻,但是交流起來畢竟隔了一層。
本次的需求本身而言并不復雜,選用python的原因主要還是因為他的簡單易用性。而electron,還需要熟悉更多額外的內容。
設計思路
文言文統計流程圖
開發環境及搭建
python環境 —— python 2.7
Windows需要額外安裝,下載這個鏈接中的Windows x86-64 MSI installer,安裝時記得勾選最后一個add python.exe to Path(這一步是添加python 到環境變量,如果不勾選,回頭還要手動作,很麻煩)
圖片
mac 下因為自帶了python 2.7不需要額外安裝
python IDE 這沒啥好說的,就是使用JetBrains他們家的Pycharm.
這里額外說明一下,用過pycharm的同學可以直接跳過。
Pycharm的優點在于:
良好的包管理工具 —— 開發者不需要像很多教程中提到的,使用命令行進行pip的手動安裝,直接搜索庫中已有的第三方庫。直接可視化操作。
默認安裝了虛擬環境 —— 安裝虛擬環境的目的:通常地,創建一個python項目,如果有用到第三方庫,我們都是直接安裝在本地目錄下。
這樣造成的一個結果就是,每當我新建一個工程,也許都存在一個不相干的共享的python庫在其中。
虛擬環境的搭建,旨在針對每一個新建的python工程,都有一個干凈的python庫在其中。下面是在pycharm中建立虛擬環境 virtualEnv(virtual environment)
示意圖1
示意圖2
使用到的第三方庫:
xlwt 生成/寫入excel文件的庫
python-docx 讀取Word文檔的第三方庫
zhon 處理漢字標點符號
langconv 處理簡繁體轉化
Tkinter 這個是python自帶的桌面GUI 開發工具,比較輕量級。最后的效果大概如下
mac 端的視圖
遇到的問題
業務邏輯上的問題
除了上面提到的程序上的問題外,業務本身還存在幾個開發過程中需要解決的痛點。這里一一羅列:
標點符號 —— 我們統計詞頻的時候,需要做的事就是“掐頭去尾”,即,遍歷每一行的字符串內容,去掉其中的所有標點符號(包括中英文),然后作下一步操作
簡繁轉化 —— 簡體字和繁體字并不是一一對應的關系。比如繁體字的"麵條"和“面對”,對應簡體字都是“面”,繁轉簡還好說,簡轉繁的時候,究竟對應哪個面,也許就不得而知了。
目前的做法是統一轉化成簡體。但是一些特殊情況也會出問題,比如“乾隆”和“乾坤”,轉成簡體字,會變成“干隆”和“干坤”。
之前使用的簡繁轉換庫叫做opencc,之后發現打包后運行時,會報轉化失敗的錯誤。故而改用一個引入源碼的庫langconv.py
讀取 .txt和.docx/.doc的區別
Word相對于記事本,是支持富文本的。因此在文件的讀取上也有很多的不同。這里專門使用了一個python的Word讀取庫叫做python-docx作讀取操作。
開發中遇到的問題
不同平臺下的若干問題
打包問題 —— 使用什么打包工具
網上有很多的文章,提到了windows 平臺使用py2exe等等的庫,mac 平臺使用py2app.實際情況是,這些庫都不盡如人意,存在許許多多的問題。不是打包失敗,就是打包成功后運行失敗,且無法定位問題。
閑話少敘,這里使用的是叫做Pyinstaller的打包工具。
這里也有一個小坑:首次安裝pyinstaller后,在虛擬環境中執行終端的打包指令是會報無法識別pyinstaller的。這時候必須要將整個pycharm重啟。當看到終端指令前面出現(venv)的字樣,才能執行。
示意圖3
打包mac 下的 app,那么要在 mac 下運行。打包 Windows 的.exe 文件,那么工程必須運行在 Windows 下。也就是說,我在 A 平臺的時候,不能打包 B 平臺下的包。這個其實也蠻麻煩的,等于我在兩個平臺都要安裝一遍程序。
* 打開文件/文件夾,mac 和 windows 下的命令不同,代碼要做兼容
完成統計后,我們理想的狀態是打開生成的`excel`和它所在的文件夾。
* mac 底下用的是`open ./desExcel.xls`,
* windows 底下的命令是`./desExcel.xls`
針對這點,需要作區別處理完成兼容
調試過程中可以正常使用,打包后無法運行。—— 涉及打包后如何定位問題
在mac平臺,打包后在dist文件夾下會生成兩個文件,一個是.app,一個是一個終端文件,直接拖曳進入終端后可以執行,且會出現打印日志,方便定位運行失敗問題。
示意圖4
異常處理 —— 對于Word會生成隱藏的臨時文件,當臨時文件為空時,python中的讀取會報錯。
這里可以使用try except語法忽略空文件。因為涉及語法,不贅述。
以上。
總結
以上是生活随笔為你收集整理的python怎么读单词和古文_Python 实现文言文词频统计的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 天刀找不到服务器,《天涯明月刀手游》好友
- 下一篇: swift 打包sdk_在封装SDK中S