文计笔记 4 字符编码与数制
0?計算機為什么采用二進制?
1)易于物理實現 ? ?
電路的導通(1)與截至(0);
電壓的高(1)與低(0)
2)機器可靠性高 ? ?
3)抗干擾能力強
4)運算簡單 能勝任數值運算,也可方便進行邏輯運算
1 ? 真 ?True; ? ? ? ?
0 ? 假 ?False
1 二進制
1.1 二進制補碼
正數:直接二進制轉換
負數:取反加一
1.2 十進制小數轉二進制
1.2.1 推廣到X進制
2 字符的編碼
2.1?ASCII
ASCII(American Standard Code for Information Interchange)美國國家標準信息交換碼,現已成為國際通用的字符標準代碼。
標準ASCII 碼采用7位二進制進行編碼,最多可以表示 2^7=128 個字符和符號。每個字符和符號用1個字節來表示,字節的最高位為0。
2.1.1 擴展ASCII
標準ASCII 碼最多只能表示 128個字符和符號。擴展 ASCII 碼采用 8 位二進制數,可對 256 個字母及符號進行編碼。
0~127 與標準 ASCII 碼相同,128~255 用來表示希臘字母(如ā、?)、數學符號(如≥、∑)等。
2.2 漢字的編碼
ASCII編碼很好地解決了英文等語言的字符問題,但是對漢語卻沒有解決。漢字有上萬個,常用的也有幾千個, 8位(256)或者7位(128)的編碼空間遠遠不能滿足需要。因此在計算機中表示漢字,需要采用另外的編碼方案。
2.2.1 GB碼
國標碼(GB2312)是指我國于1981年公布的國家標準《信息交換用漢字編碼字符集-基本集》。
其中包含了6763個漢字,分作兩級。
一級為常用字,包括3755個漢字,按漢語拼音字母的順序排列;
二級漢字共 3008 個,按漢字部首筆劃的順序排列。
每個漢字用兩個字節的二進制數編碼,每個字節的最高位為1,其余7位作為編碼使用,理論上最多可編碼2^14=16384個字符。
2.2.2 GBK
采用雙字節編碼,僅要求漢字第一個字節的最高位為1,理論上最多可編碼2^15個字符,共收錄漢字21886個。
2.2.3?GB18030
采用單字節、雙字節和四字節三種方式對字符編碼,包含了多種少數民族語言的文字。
GB、 GBK、GB18030是向下兼容的,同一個符號在三種方案中的編碼方式是相同的。
2.2.4?BIG-5碼(繁體字)
臺灣于1984年提出的漢字編碼方案,通行于臺灣、香港、澳門、新加坡等地區。
BIG-5 和 GB 碼是不兼容的,需要經過編碼轉換。
2.3?Unicode
為滿足跨語言信息處理的需要,解決不同語言不同編碼標準的鴻溝。
Unicode 為每種語言的每個字符設定一個統一并且惟一的編碼,以統一高效地處理世界上的各種語言。
常用的Unicode 編碼規范是 UTF-8 和 UTF-16
3 字符的輸出
每個字符必須表示為二進制代碼并存儲在計算機內的字形庫中,這稱為字形碼
3.1?點陣式字形
將字形描述為點的矩陣,點有黑白兩色,用不同的二進制位來表示。放大時呈鋸齒狀。
3.2?矢量字形
用多條直線或曲線描述字形的輪廓。計算機中常用的是矢量字形。
總結
以上是生活随笔為你收集整理的文计笔记 4 字符编码与数制的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 文计笔记 3: 软件系统
- 下一篇: 文巾解题 12. 整数转罗马数字