UTF 编码
?UTF?是英文 Unicode Transformation Format 的縮寫,意為把 Unicode 字符轉換為某種格式。
優勢:節省存儲空間,自動糾錯性能好、利于傳輸、擴展性強;
劣勢:主要是由于字符的編碼字節數不固定導致不利于程序內部處理,比如導致正則表達式檢索的復雜度大為增加;而UTF-32這樣的等長碼元序列(即等寬碼元序列)的編碼方式就比較適合程序處理,當然,缺點是比較耗費存儲空間。
UTF-8 和 UTF-16 被廣泛使用
UTF-8?使用一至四個字節為每個字符編碼,其中 Unicode BMP 平面的漢字采用三個字節編碼,輔助平面的漢字采用四個字節編碼。因為 UTF-8 是可變長度的編碼方式,相對于 Unicode 編碼可以減少存儲占用的空間,所以被廣泛使用。
UTF-16?使用二或四個字節為每個字符編碼,其中 Unicode BMP 平面的漢字采用兩個字節編碼,輔助平面的漢字采用四個字節編碼。UTF-16 編碼有大尾序和小尾序之別,即 UTF-16BE 和 UTF-16LE,在編碼前會放置一個 U+FEFF 或 U+FFFE(UTF-16BE 以 FEFF 代表,UTF-16LE 以 FFFE 代表),其中 U+FEFF 字符在 Unicode 中代表的意義是 ZERO WIDTH NO-BREAK SPACE,顧名思義,它是個沒有寬度也沒有斷字的空白。
總結
- 上一篇: ker矩阵是什么意思_深入理解旋转矩阵和
- 下一篇: 致敬贝叶斯以及自己对贝叶斯的一些见解