深蓝词库转换2.0发布——支持仓颉、注音、五笔、郑码、二笔等
經(jīng)過了2個多月的改進,終于深藍詞庫轉(zhuǎn)換2.0版正式與大家見面了。在1.9版本中增加了對Rime拼音輸入法的支持,也得到了網(wǎng)友的反饋,所以在2.0版本中增加了幾個新功能:
一、支持多種編碼的Rime輸入法。
Rime輸入法是一款跨平臺的輸入法框架,在Windows下叫小狼毫,Linux下叫中州韻,Mac下叫鼠須管。這個輸入法框架異常強大,支持各種常用的輸入法,而且還可以通過簡單的配置自定義輸入法。深藍詞庫轉(zhuǎn)換在1.9版本中增加了對Rime拼音輸入法的支持,現(xiàn)在在2.0中進行了增強,除了拼音外,還能夠?qū)雽?dǎo)出五筆、注音、倉頡和其他輸入法編碼。
例如要將一個QQ拼音的分類詞庫轉(zhuǎn)換成Rime的五筆詞庫,那么在深藍詞庫轉(zhuǎn)換中選擇qpyd格式的詞庫源,目標輸入法選擇“Rime中州韻”,系統(tǒng)彈出輸入法類型選擇窗口,在下拉框中選擇“五筆”并確定:
然后單擊“轉(zhuǎn)換按鈕”即可完成詞庫的轉(zhuǎn)換,將轉(zhuǎn)換結(jié)果保存到硬盤上。
接下來到Rime輸入法中(以小狼毫為例),選擇“用戶詞典管理”選項,打開詞典管理窗口,選中左側(cè)的wubi86,然后單擊“導(dǎo)入文本碼表”即可完成詞庫的導(dǎo)入。
用同樣的方法,可以導(dǎo)入注音(與地球拼音使用同一個詞庫,terra_pinyin),倉頡(cangjie5)。當(dāng)然還有明月拼音(luna_pinyin)。
特別要感謝Rime輸入法的作者佛振的指點,才能完成對倉頡輸入法詞庫的生成,在倉頡輸入法中對一個詞進行編碼相當(dāng)特別,不像鄭碼、五筆的編碼那么簡單。
二、支持多種編碼的小小輸入法。
小小輸入法也是Rime輸入法一樣是一個通用的輸入法框架,可以支持多個平臺(Windows、Linux等),多個輸入法編碼。之前1.9版已經(jīng)支持小小輸入法的拼音,在2.0版中進行了增強,能夠支持:五筆、鄭碼、二筆、拼音和其他編碼。
比如要將一個搜狗細胞詞庫轉(zhuǎn)換為小小輸入法的鄭碼詞庫,那么可以在深藍詞庫轉(zhuǎn)換中選擇該scel細胞詞庫作為源,目標詞庫選擇“小小輸入法”,系統(tǒng)會彈出一個編碼類型選擇窗口,在下拉列表中選擇“鄭碼”,然后單擊確定按鈕:
單擊“轉(zhuǎn)換”按鈕即可將詞庫轉(zhuǎn)換為鄭碼格式,然后保存到硬盤上。
接下來將保存的詞庫文件復(fù)制到小小輸入法的安裝目錄mb文件夾下。然后在小小輸入法的屬性設(shè)置窗口中,左側(cè)選擇“鄭碼”,右側(cè)分詞庫中輸入該詞庫的路徑。
單擊“確定”按鈕,回到小小輸入法,在鄭碼模式下,我們輸入鄭碼便能夠匹配我們導(dǎo)入的詞庫,如圖所示:
同樣的方法,可以將五筆、二筆、拼音導(dǎo)入到小小輸入法中。
三、增加了對靈格斯ld2詞典格式的支持和英語詞庫支持。
關(guān)于英語詞庫,在很久很久以前就有人提出過該需求,但是由于沒有辦法解析英語詞庫,所以一直擱淺,直到最近終于參考了網(wǎng)友的ld2解析辦法(http://code.google.com/p/dict4cn/),終于在深藍詞庫轉(zhuǎn)換中實現(xiàn)了對靈格斯ld2詞典格式的解析,能夠以此為源,導(dǎo)出其詞條作為能夠支持英文輸入法的詞庫。這個功能對于需要輸入專業(yè)英文的用戶很有用,比如醫(yī)學(xué)、金融、化工、法律等等都有專業(yè)的英文詞典,這些詞在輸入法中很難自動聯(lián)想出來,現(xiàn)在只需要下載一本專業(yè)的英語詞典,然后通過深藍詞庫轉(zhuǎn)換導(dǎo)入到能夠支持英語詞庫的輸入法中,便可在該輸入法中快速錄入英文。調(diào)查了下英文輸入法的支持,結(jié)果如下:
- 搜狗拼音輸入法雖然在打2次英文詞后會記錄下來,但是在導(dǎo)出的用戶詞庫中沒有英文詞庫。
- 百度PC輸入法支持英文詞庫的導(dǎo)出,在詞庫最下面,使用“英語單詞Tab詞頻”的格式。
- 百度手機輸入法支持獨立的英文詞庫導(dǎo)入導(dǎo)出,命名為en2.txt,使用“英語單詞Tab詞頻”的格式。
- QQ拼音輸入法支持單獨對英文詞庫的導(dǎo)出,使用“英文單詞,詞頻”的格式。
- 谷歌輸入法不支持英文詞庫導(dǎo)出。
我們以QQ拼音輸入法為例,在靈格斯官方網(wǎng)站下載一個英漢醫(yī)學(xué)大詞典,然后運行深藍詞庫轉(zhuǎn)換,將詞庫源選擇“靈格斯ld2”,系統(tǒng)將會彈出ld2編碼設(shè)置窗口,選擇該詞典的編碼,對于一般英漢詞典,估計是UTF-8格式,如果接下來導(dǎo)出的是亂碼,那么說明編碼格式不對,需要重新選擇,重新導(dǎo)一次,還是不對的話就再換一種編碼。
單擊“確定”按鈕,然后選擇目標詞庫為“QQ拼音英文”。然后點擊“高級設(shè)置”的“詞條過濾設(shè)置”選項,在設(shè)置窗口中去掉“過濾包含英文的詞”,如果想導(dǎo)出詞組的話,那么還要取消“過濾包含空格的詞”,然后單擊確定。
然后單擊“轉(zhuǎn)換”按鈕即可將靈格斯詞庫轉(zhuǎn)換為QQ拼音的英文詞庫格式,保存到硬盤上。
然后到QQ拼音輸入法的詞庫設(shè)置界面,單擊英文用戶詞庫下的“導(dǎo)入”按鈕,選擇我們轉(zhuǎn)換而來的詞庫文件,即可將靈格斯詞庫導(dǎo)入到QQ拼音中。
四、增加了簡繁體轉(zhuǎn)換功能。
這個功能主要是為使用繁體中文輸入法的用戶(臺灣、香港等)而準備的。比如在Rime輸入法中,默認是繁體中文的詞庫,如果導(dǎo)入的詞庫是簡體中文,那么Rime會認為這是2條不同的詞條。所以在導(dǎo)入時需要將簡體轉(zhuǎn)換為繁體。另外還有就是倉頡、五筆等字型輸入法,繁體和簡體是完全不同的編碼,不能等同。
以Rime為例,要導(dǎo)入一個繁體版的倉頡編碼。那么選中源詞庫和目標詞庫,然后在高級設(shè)置的“簡繁體轉(zhuǎn)換設(shè)置”選項中,選擇“轉(zhuǎn)為繁體”。轉(zhuǎn)換組件分為系統(tǒng)默認組件和Office組件。
設(shè)置后單擊確定按鈕,回到主界面,單擊“轉(zhuǎn)換”按鈕,即可將源詞庫轉(zhuǎn)換為繁體中文的倉頡碼。
而如果沒有設(shè)置轉(zhuǎn)換為繁體,系統(tǒng)將會以源詞庫的字生成倉頡碼,可以看到,簡體和繁體倉頡碼是不同的:
雖然深藍詞庫轉(zhuǎn)換能夠支持簡繁體轉(zhuǎn)換,但是這不是其強項,而且也只是調(diào)用外部接口而已,所以術(shù)業(yè)有專攻,如果需要更精確的簡繁體轉(zhuǎn)換,可以使用
TextPro?OpenCC?
這些工具進行專業(yè)的轉(zhuǎn)換。
五、增加了對雅虎奇摩輸入法的支持。
雅虎奇摩輸入法是一款繁體中文輸入中比較常用的輸入法軟件。雅虎開發(fā),現(xiàn)在已經(jīng)開源。網(wǎng)站:http://tw.media.yahoo.com/keykey/
這款輸入法支持多種輸入編碼,比如:注音、倉頡、簡易等。但是其詞庫管理中,只支持注音詞庫的導(dǎo)入導(dǎo)出。深藍詞庫轉(zhuǎn)換可以將各種輸入法詞庫轉(zhuǎn)換為雅虎輸入法的格式,導(dǎo)入到其中。
以搜狗細胞詞庫導(dǎo)入雅虎奇摩輸入法為例,下載一個搜狗細胞詞庫scel文件,在深藍詞庫轉(zhuǎn)換中選擇該scel文件作為源,目標詞庫設(shè)置為雅虎奇摩。單擊轉(zhuǎn)換按鈕,將詞庫轉(zhuǎn)換為注音格式的詞庫,并保存到硬盤上。
?
打開雅虎奇摩輸入法的偏好設(shè)置窗口,在詞匯選項卡中單擊“導(dǎo)入自訂詞數(shù)據(jù)庫”按鈕即可將我們的詞庫導(dǎo)入其中。我們也可以單擊“啟動詞匯編輯程式”按鈕,進入詞匯編輯工具,再單擊文件菜單的數(shù)據(jù)庫導(dǎo)入選項,導(dǎo)入我們保存的詞庫文件。
導(dǎo)入成功后,便可在雅虎奇摩輸入法中輸入我們導(dǎo)入的詞匯。
六、增加了對倉頡平臺輸入法的支持。
倉頡平臺輸入法是一款基于小小輸入法進行開發(fā)的輸入法。在倉頡之友可以下載,也提供詳細的幫助。深藍詞庫轉(zhuǎn)換支持倉頡五的編碼。使用其他詞庫可以轉(zhuǎn)換為倉頡平臺的詞庫。對于倉頡平臺的詞庫設(shè)置方法與小小輸入法非常類似,首先需要將詞庫轉(zhuǎn)換為倉頡平臺的詞庫保存到硬盤。
接下來將轉(zhuǎn)換的詞庫文件復(fù)制到C:\cjsys\yong\mb,然后在倉頡輸入法的設(shè)置窗口中,切換到五倉世紀選項卡,為分詞庫添加我們的分詞庫文件路徑。
添加后即可在倉頡平臺中輸入我們導(dǎo)入的詞匯。
七、增強了對各五筆和鄭碼輸入法的支持。
在之前的版本中,雖然名義上支持五筆輸入法和鄭碼輸入法,但是實際上是只取其中的漢字,直接忽略編碼,所以各種拼音輸入法不支持導(dǎo)出為帶編碼的五筆或鄭碼詞庫。在新版的深藍詞庫轉(zhuǎn)換中,可以為每個詞生成五筆編碼,鄭碼編碼。
所以在2.0版本中,可以選擇:極點五筆、極點鄭碼、小鴨五筆等作為目標數(shù)據(jù)庫,將各種源詞庫導(dǎo)入其中。
八、增強自定義規(guī)則的功能。
自定義規(guī)則功能允許用戶指定外部的編碼文件,指定詞語的編碼生成規(guī)則,詞語、編碼、詞頻的排序、分隔符等。
比如我們有一個自定義的編碼表,該表中給出了每個漢字的編碼,一字一碼,Tab分割。然后想對一堆詞語進行編碼,于是操作如下:
在深藍詞庫轉(zhuǎn)換中選擇源詞庫和其輸入法。在目標詞庫中選擇“自定義”,系統(tǒng)將彈出自定義詞庫編碼窗口,再單擊右上角匹配規(guī)則設(shè)置按鈕,設(shè)置匹配規(guī)則如下:
是說我們導(dǎo)出的詞庫文件,編碼不是拼音編碼,不包含詞頻,先顯示編碼,后顯示漢字,之間用空格隔開。對于2字詞,3字詞和4字及以上的詞,編碼規(guī)則為各個字取一部分。下面的文本框中給出了預(yù)覽效果。
然后回到自定義詞庫編碼窗口,選擇一個編碼文件,這里我們選中行列30輸入法的Mapping表作為編碼文件。單擊測試編碼按鈕可以看到在行列30輸入法下的編碼樣子。
單擊確定回到主窗口,單擊轉(zhuǎn)換按鈕便可實現(xiàn)將指定的源詞庫轉(zhuǎn)換為自定義詞庫。
?
九、詞庫列表增加百度拼音PC版
百度拼音PC版本身支持搜狗、谷歌等輸入法的詞庫格式,所以一直沒有將其添加到深藍詞庫轉(zhuǎn)換的輸入法列表中。這樣會讓用戶覺得是不是不支持百度PC輸入法,所以為了避免用戶誤會,在輸入法詞庫列表中增加了“百度拼音”。
十、重構(gòu)代碼,增強基本功能與命令行功能。
在源詞庫列表中,去掉了觸寶輸入法的選項,因為觸寶修改了備份文件的格式,而且不支持文本文件詞庫的導(dǎo)入導(dǎo)出,所有現(xiàn)在暫時沒辦法支持觸寶輸入法。期待著觸寶對詞庫導(dǎo)入導(dǎo)出功能的增強。
本來主窗口有2個按鈕,一個負責(zé)“轉(zhuǎn)換”,轉(zhuǎn)換完成后詢問用戶是否保存轉(zhuǎn)換結(jié)果。另一個“導(dǎo)出”按鈕其實就是將下面文本框的內(nèi)容保存到硬盤。由于支持的詞庫格式更多,各種格式不一,在文本框中進行編輯再保存就沒有那么必要了。所以取消了這個按鈕。使用一個更大的“轉(zhuǎn)換”按鈕代替,使得操作更簡單。
從一個只支持拼音詞庫的工具到能夠支持多種輸入編碼,多種格式解析的工具,其內(nèi)部代碼也必須進行了大量的調(diào)整,使得整個工具能夠更易擴展,更強大。由于要支持倉頡、五筆、鄭碼、二筆等等輸入編碼的生成,所有必須在內(nèi)部維護每個漢字與編碼的Mapping表,所有也就使得該軟件體積變大了不少。
另外,增加的輸入法也需要更多的設(shè)置窗口,更強大的自定義功能,使得其內(nèi)部變得復(fù)雜了很多,最近幾天在寫自定義編碼的實現(xiàn)時,感覺腦子都要被攪糊了。所以必須要花更多的時間來維護代碼的結(jié)構(gòu),不斷重構(gòu)代碼,保持代碼的清晰易讀。
還有一點在開發(fā)上的改變就是將源代碼從GoogleCode遷移到了GitHub。使用Git不是很熟悉,不過堅信這個會比原來SVN更好。
最后再重申一下,“深藍詞庫轉(zhuǎn)換”是一款完全免費的、開源的軟件(項目網(wǎng)站:http://code.google.com/p/imewlconverter/)。經(jīng)過了2年堅持不懈的更新,終于發(fā)展到了2.0版本,希望能夠幫助更多的朋友,提高大家的打字效率,為生活帶來便利。另外還有一些高級用戶,解析大量的詞庫用于研究(分詞、輸入法等),制作更精確的詞庫等。如果大家覺得該工具給你帶來了便利,希望表示感謝,可以打開捐贈頁面(http://imewlconverter.googlecode.com/svn/wiki/donate.html )進行小額捐贈,也希望大家多提需求和建議,深藍詞庫轉(zhuǎn)換會繼續(xù)更新,變得更好。
【深藍詞庫轉(zhuǎn)換2.0下載地址】?
http://imewlconverter.googlecode.com/files/imewlconverter_2_0.zip
?
總結(jié)
以上是生活随笔為你收集整理的深蓝词库转换2.0发布——支持仓颉、注音、五笔、郑码、二笔等的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【不误正业】win10透明任务栏,任务栏
- 下一篇: 线程中如何使用对象_多线程中如何使用gd