藏文印刷体: 乌金体,又称有头体
藏文印刷體: 烏金體,又稱有頭體
摘要:
- (1) 藏文屬于拼音文字,基本字符由30個輔音字母和4個元音字符組成,其組成的現(xiàn)代藏文音節(jié)字?jǐn)?shù)為592,包含572個藏文字丁。
- (2)OCR 系統(tǒng) 通常以字丁為單位進(jìn)行識別,根據(jù)部分論文的不完全統(tǒng)計1000份圖片文檔覆蓋的字丁數(shù)大概為100個左右,
因此,保守估計,全面覆蓋字丁數(shù),至少需要6000張文檔標(biāo)注。 - (3)藏文標(biāo)注時容易出現(xiàn)輸入編碼不統(tǒng)一的現(xiàn)象,需要在標(biāo)注前提前統(tǒng)一。
1. 基本組成單元
1.1 基礎(chǔ)字符 character
藏文屬于拼音文字,由30個輔音字母,和4個元音字符組成。 這些字符按照一定的拼寫規(guī)則構(gòu)成了藏文的音節(jié)字。1.2 增加字符
為了滿足語言翻譯或者語言發(fā)展變化的實際需要,輔音和元音在原有基礎(chǔ)上有所增加,增加后的輔音字符達(dá)到41個,元音字符達(dá)到15個- 增加的方式:
(1) 反寫
(2)組合
(3)添加輔助符號
1.3.其他字符
除了上述字符外還包括:數(shù)字符號,標(biāo)點符號,變音符號,篇章符,敬重符,吟詠示意符,吟誦會意符,占星符合裝飾符。2. 藏文的音節(jié)字 syllable
每個音節(jié)必須包含一個基字,基字可帶前置、上置、下置、后置和再后置字母。現(xiàn)代藏文音節(jié)字的總個數(shù)為592,藏文字丁總數(shù)為572 (一個音節(jié)字按照中間縫隙切開,則該字符分成了 4個字丁)
OCR系統(tǒng),多以字丁為單位。
3. 書寫形式:
書寫形式分印刷體的有頭字和手寫體的無頭字兩種;
還有一種從無頭字衍化而成了草書,它連筆較多,與有頭字差別較大。行款自左向右橫書,使用專門的標(biāo)點符號
很多字母連寫,中間會加入很多音節(jié)點,類似英文里的空格。
4. 藏文識別的難點:
- (1) 藏文具有很多相似字符, 很多基礎(chǔ)輔音字符差異很小,帶來識別難度,需要增加標(biāo)注數(shù)據(jù)。
- (2) 藏文獨特的疊字書寫方式,使得藏文結(jié)構(gòu)的解析比較復(fù)雜,可以以字丁為單位涵蓋所有疊字結(jié)構(gòu),
根據(jù)部分論文統(tǒng)計,1000份圖片文檔覆蓋的字丁數(shù)大概為100多個,因此,保守估計,全面覆蓋字丁數(shù),至少需要6000張文檔標(biāo)注。 - (3) 關(guān)于藏文識別的字符編碼問題,可能會出現(xiàn)同形不同碼現(xiàn)象(因此在標(biāo)注時需要統(tǒng)一編碼)
同形不同碼:由于藏文新增組合字符,不同的人在輸入時習(xí)慣不同,可能有人以整體編碼形式輸入,有人以原始字符組合輸入,導(dǎo)致字符編碼不同。
5. 關(guān)于工程需要解決的基礎(chǔ)問題:
- (1) 輸入法的選擇?
- (2) 如何獲取藏文字丁?
藏文編碼字符集的擴充集在linux 上的實現(xiàn), 中科院軟件所 https://www.weibo.com/ttarticle/p/show?id=2309404314230789669491
參考文獻(xiàn)
[1] 龍從軍等, 中科院軟件所,藏文編碼字符集標(biāo)準(zhǔn)應(yīng)用中的問題及對策
[2] 王維蘭等, 藏文識別中相似字丁的區(qū)分研究
[3] 李永忠等,藏文印刷體字符識別技術(shù)研究
[4] Rowinski Z, Keutzer K. Namsel: An Optical Character Recognition System for Tibetan Text[J]. Himalayan Linguistics, 2016, 15(1).
相關(guān)網(wǎng)站:
[1] 藏語雙語網(wǎng) http://www.zanghansy.com/xzy/
[2] 藏語語言文字 http://mzw.qinghai.gov.cn/jjwhjy/wh/cc4b0e43_d93a_4b5c_89eb_ee5104cbf692.aspx
寫自定義目錄標(biāo)題)
總結(jié)
以上是生活随笔為你收集整理的藏文印刷体: 乌金体,又称有头体的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: rgba通道转rgb,将RGBA颜色转换
- 下一篇: EffectiveJava3翻译 中英