文本分析-全角字符串与半角字符串的转换
生活随笔
收集整理的這篇文章主要介紹了
文本分析-全角字符串与半角字符串的转换
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
最近在做文本分析與挖掘時,涉及到了全角字符串與半角字符串的轉換問題。在文本處理的相關問題上,半角和全角字符通常是數據預處理的必要過程,在此做個學習總結。
全角指的是一個字符占2個標準字符的位置(例如中國漢字)。
半角指的是占1個標準字符的位置(例如普通的字符a)。
全角字符包含兩類字符:
除了空格外,有規律的字符在半角和全角之間的差值為65248,因此我們可以直接在全角數值上減去65248即可得到半角數值。
例如,全角字符串“0 0 5 2 7 8 2 5 C B D”轉換為半角字符串的結果是“00527825CBD”。
注意:
并不是所有的全角字符都能被轉換為半角字符,例如漢字是全角字符,占2個字符的位置,但它無法被轉換;只有英文字母、數字鍵、符號鍵等才能可以做全角和半角之間的轉換。
總結
以上是生活随笔為你收集整理的文本分析-全角字符串与半角字符串的转换的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 百度地图-根据经纬度定位示例-百度地图单
- 下一篇: mpeg4 码流格式及判断关键帧