當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

藏文印刷体：乌金体，又称有头体

發(fā)布時間：2023/12/14 编程问答 47 豆豆

生活随笔收集整理的這篇文章主要介紹了藏文印刷体：乌金体，又称有头体小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

藏文印刷體：烏金體，又稱有頭體

摘要：

（1）藏文屬于拼音文字，基本字符由30個輔音字母和4個元音字符組成，其組成的現(xiàn)代藏文音節(jié)字?jǐn)?shù)為592，包含572個藏文字丁。
（2）OCR 系統(tǒng) 通常以字丁為單位進(jìn)行識別，根據(jù)部分論文的不完全統(tǒng)計1000份圖片文檔覆蓋的字丁數(shù)大概為100個左右，
因此，保守估計，全面覆蓋字丁數(shù)，至少需要6000張文檔標(biāo)注。
（3）藏文標(biāo)注時容易出現(xiàn)輸入編碼不統(tǒng)一的現(xiàn)象，需要在標(biāo)注前提前統(tǒng)一。

1. 基本組成單元

1.1 基礎(chǔ)字符 character

藏文屬于拼音文字，由30個輔音字母，和4個元音字符組成。這些字符按照一定的拼寫規(guī)則構(gòu)成了藏文的音節(jié)字。

1.2 增加字符

為了滿足語言翻譯或者語言發(fā)展變化的實際需要，輔音和元音在原有基礎(chǔ)上有所增加，增加后的輔音字符達(dá)到41個，元音字符達(dá)到15個

增加的方式：
（1）反寫
（2）組合
（3）添加輔助符號

1.3.其他字符

除了上述字符外還包括：數(shù)字符號，標(biāo)點符號，變音符號，篇章符，敬重符，吟詠示意符，吟誦會意符，占星符合裝飾符。

2. 藏文的音節(jié)字 syllable

每個音節(jié)必須包含一個基字，基字可帶前置、上置、下置、后置和再后置字母。

現(xiàn)代藏文音節(jié)字的總個數(shù)為592，藏文字丁總數(shù)為572 （一個音節(jié)字按照中間縫隙切開，則該字符分成了 4個字丁）
OCR系統(tǒng)，多以字丁為單位。

3. 書寫形式：

書寫形式分印刷體的有頭字和手寫體的無頭字兩種；
還有一種從無頭字衍化而成了草書，它連筆較多，與有頭字差別較大。行款自左向右橫書，使用專門的標(biāo)點符號
很多字母連寫，中間會加入很多音節(jié)點，類似英文里的空格。

4. 藏文識別的難點：

（1）藏文具有很多相似字符, 很多基礎(chǔ)輔音字符差異很小，帶來識別難度，需要增加標(biāo)注數(shù)據(jù)。
（2）藏文獨特的疊字書寫方式，使得藏文結(jié)構(gòu)的解析比較復(fù)雜，可以以字丁為單位涵蓋所有疊字結(jié)構(gòu)，
根據(jù)部分論文統(tǒng)計，1000份圖片文檔覆蓋的字丁數(shù)大概為100多個，因此，保守估計，全面覆蓋字丁數(shù)，至少需要6000張文檔標(biāo)注。
（3）關(guān)于藏文識別的字符編碼問題，可能會出現(xiàn)同形不同碼現(xiàn)象（因此在標(biāo)注時需要統(tǒng)一編碼）
同形不同碼：由于藏文新增組合字符，不同的人在輸入時習(xí)慣不同，可能有人以整體編碼形式輸入，有人以原始字符組合輸入，導(dǎo)致字符編碼不同。

5. 關(guān)于工程需要解決的基礎(chǔ)問題：

（1）輸入法的選擇？
（2）如何獲取藏文字丁？
藏文編碼字符集的擴充集在linux 上的實現(xiàn)，中科院軟件所 https://www.weibo.com/ttarticle/p/show?id=2309404314230789669491

參考文獻(xiàn)

[1] 龍從軍等，中科院軟件所，藏文編碼字符集標(biāo)準(zhǔn)應(yīng)用中的問題及對策
[2] 王維蘭等，藏文識別中相似字丁的區(qū)分研究
[3] 李永忠等，藏文印刷體字符識別技術(shù)研究
[4] Rowinski Z, Keutzer K. Namsel: An Optical Character Recognition System for Tibetan Text[J]. Himalayan Linguistics, 2016, 15(1).

總結(jié)

以上是生活随笔為你收集整理的藏文印刷体：乌金体，又称有头体的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： rgba通道转rgb,将RGBA颜色转换
下一篇： EffectiveJava3翻译中英