为什么size_t重要?为什么不直接用unigned long int 代替?以及size_t、ptrdiff_t、socklen_t数据类型
背景:
我們先來看一張基本數據類型在各個平臺中字節長度表:
根據上表,我們可以看到指針的字節長度:
- 16 bit系統中,占用2字節(arduino nano)
- 64 bit系統中,占用8字節(vc64/ios模擬器)
- 32 bit系統中,占用4字節(除了上述3個系統外)
這種與機器類型相關的數據類型,我們可以稱為機器相關數據類型
問: 現在有個需求,我需要跨平臺的使用統一數據類型來表示指針地址范圍,我該如何辦?
答: 兩種方式:
-
typedef long long int64;
使用最大字節長度的數據類型來容納各個平臺下的地址數據 -
使用c/c++預先定義的機器相關數據類型:?size_t/ptrdiff_t
使用size_t可能會提高代碼的可移植性、有效性或者可讀性,或許同時提高這三者
size_t的取值range是目標平臺下最大可能的數組尺寸
在標準C庫中的許多函數使用的參數或者返回值都是表示的用字節表示的對象大小,比如說malloc(n) 函數的參數n指明了需要申請的空間大小,還有memcpy(s1, s2, n)的最后一個參數,表明需要復制的內存大小,strlen(s)函數的返回值表明了以’\0’結尾的字符串的長度(不包括’\0’),其返回值并不是該字符串的實際長度,因為要去掉’\0’。
或許你會認為這些參數或者返回值應該被申明為int類型(或者long或者unsigned),但是事實上并不是。C標準中將他們定義為size_t。標準中記載malloc的申明應該出現在,定義為:
memcpy和strlen的申明應該出現在中:
void *memcpy(void *s1, void const *s2, size_t n); size_t strlen(char const *s);size_t還經常出現在C++標準庫中,此外,C++庫中經常會使用一個相似的類型size_type,用的可能比size_t還要多。
據我所知,大部分的C和C++程序員害怕這些庫使用size_t,因為他們不知道size_t代表什么或者為什么這些庫需要使用它,歸根結底,原因在于他們什么時候什么地方需要用到它。
可移植性問題
早期的C語言(由Brian Kernighan 和 Dennis Ritchie 在The C Programming Language書中所寫,Prentice-Hall, 1978)并沒有提供size_t類型,C標準委員會為了解決移植性問題將size_t引入,舉例如下:
讓我們來寫一個可移植的標準memcpy函數,我們將會看到一些不同的申明和它們在不同平臺不同大小的地址空間上編譯下的情況。
回憶memcpy(s1, s2, n)函數,它將s2指向地址開始的n個字節拷貝到s2指向的地址,返回s1,這個函數可以拷貝任何數據類型,所以參數和返回值的類型應該為可以指向任何類型的void*,同時,源地址不應該被改變,所以第二個參數s2類型應該為const void*,這些都不是問題。
真正的問題在于我們如何申明第三個參數,它代表了源對象的大小,我相信大部分程序員都會選擇int:
使用int類型在大部分情況下都是可以的,但是并不是所有情況下都可以。int是有符號的,它可以表示負數,但是,大小不可能是負數。所以我們可以使用unsigned int代替它讓第三個參數表示的范圍更大。
在大部分機器上,unsigned int的最大值要比int的最大值大兩倍,比如說再也給16位的機器上,unsigned int的最大值為65535,int的最大值為32767。
盡管int類型的大小依賴于C編譯器的實現,但是在給定的平臺上int對象的大小和unsigned int對象的大小是一樣的。因此,使用unsigned int修飾第三個參數的代價與int是相同的:
這樣似乎沒有問題了,unsigned int可以表示最大類型的對象大小了,這種情況只有在整形和指針類型具有相同大小的情況下,比如說在IP16中,整形和指針都占2個字節(16位),而在IP32上面,整形和指針都占4個字節(32位)。(參見下面C數據模型表示法)
C數據模型表示法
最近,我偶然發現幾篇文章,他們使用簡明的標記來表述不同目標平臺下c語言數據的實現。我還沒有找到這個標記的來源,正式的語法,甚至連名字都沒有,但他似乎很簡單,即使沒有正規的定義也可以很容易使用起來。這些標記的一邊形式形如:
I nI L nL LL nLL P nP。 ??
其中每個大寫字母(或成對出現)代表一個C的數據類型,每一個對應的n是這個類型包含的位數。I代表int,L代表long,LL代表long long,以及P代表指針(指向數據,而不是函數)。每個字母和數字都是可選的。 ??
例如,I16P32架構支持16位int和32位指針類型,沒有指明是否支持long或者long long。如果兩個連續的類型具有相同的大小,通常省略第一個數字。例如,你可以將I16L32P32寫為I16LP32,這是一個支持16位int,32位long,和32位指針的架構。 ?
標記通常把字母分類在一起,所以可以按照其對應的數字升序排列。例如,IL32LL64P32表示支持32位int,32位long,64位long long和32位指針的架構;然而,通常寫作ILP32LL64。 ?
不幸的是,這種memcpy的申明在I16LP32架構上(整形是16-bit 長整形和指針類型時32-bits)顯得不夠用了,比如說摩托羅拉第一代處理器68000,在這種情況下,處理器可能拷貝的數據大于65535個字節,但是這個函數第三個參數n不能處理這么大的數據。
什么?你說很容易就可以改正?只需要把memcpy的第三個參數的類型修改一下:
你可以在I16LP32目標架構上使用這個函數了,它可以處理更大的數據。而且在IP16和IP32平臺上效果也還行,說明它確實給出了memcpy的一種移植性較好的申明。但是,在IP16平臺上相比于使用unsigned int,你使用unsigned long可能會使你的代碼運行效率大打折扣(代碼量變大而且運行變慢)。
在標準C中規定,長整形(無論無符號或者有符號)至少占用32位,因此在IP16平臺上支持標準C的話,那么它一定是IP16L32 平臺。這些平臺通常使用一對16位的字來實現32位的長整形。在這種情況下,移動一個長整形需要兩條機器指令,每條移動一個16位的塊。事實上,這個平臺上的大部分的32位操作都需要至上兩條指令。
因此,以可移植性為名將memcpy的第三個參數申明為unsigned long而降低某些平臺的性能是我們所不希望看到的。使用size_t可以有效避免這種情況。
size_t類型是一個類型定義,通常將一些無符號的整形定義為size_t,比如說unsigned int或者unsigned long,甚至unsigned long long。每一個標準C實現應該選擇足夠大的無符號整形來代表該平臺上最大可能出現的對象大小。
使用size_t
size_t的定義在<stddef.h>, <stdio.h>, <stdlib.h>, <string.h>, <time.h>和<wchar.h>這些標準C頭文件中,也出現在相應的C++頭文件,?等等中,你應該在你的頭文件中至少包含一個這樣的頭文件在使用size_t之前。
? ? ? ?包含以上任何C頭文件(由C或C++編譯的程序)表明將size_t作為全局關鍵字。包含以上任何C++頭文件(當你只能在C++中做某種操作時)表明將size_t作為std命名空間的成員。
? ? ? ?根據定義,size_t是sizeof關鍵字(注:sizeof是關鍵字,并非運算符)運算結果的類型。所以,應當通過適當的方式聲明n來完成賦值:
n = sizeof(thing);考慮到可移植性和程序效率,n應該被申明為size_t類型。類似的,下面的foo函數的參數也應當被申明為sizeof:
foo(sizeof(thing)); 參數中帶有size_t的函數通常會含有局部變量用來對數組的大小或者索引進行計算,在這種情況下,size_t是個不錯的選擇。?
適當地使用size_t還會使你的代碼變得如同自帶文檔。當你看到一個對象聲明為size_t類型,你馬上就知道它代表字節大小或數組索引,而不是錯誤代碼或者是一個普通的算術值。?
?
size_t、ptrdiff_t、socklen_t數據類型在不同平臺的大小
1. size_t/ptrdiff_t:
printf("size_t bytes = %d\n" ,sizeof(size_t)); printf("ptrdiff_t bytes = %d\n" ,sizeof(ptrdiff_t));-
的確如此,size_t/ptrdiff_t數據類型是和機器相關的。其sizeof字節長度和指針字節長度是一致的。
-
size_t/ptrdiff_t之間的區別如下(以windows定義為例,其他系統一樣):
size_t 是無符號(unsigned)整數,而ptrdiff_t是有符號整數
-
size_t更適合表達指針地址值。指針地址取值范圍 = size_t取值范圍。
-
ptrdiff_t從字面意思就能知道: 兩個指針地址(無正負)的差(有正負)
我們知道,指針之間具有加減操作,表示指針的移動
void printChineseStringPtrdiff() {char str[] = "隨風而行之青衫磊落險峰行";char *pstart = str;char *pend = str + strlen(str);ptrdiff_t difp = pend - pstart;printf("%d\n", difp); }上述代碼在vc32/64中輸出24,提出兩個問題:
2. socklen_t:
- windows下定義在頭文件:#include<ws2tcpip.h>中
- ios/linux定義在頭文件: #include <sys/socket.h>中
- android ndk中,定義為__socklen_t而不是socklen_t
- socklen_t必須要和當前機器的int類型具有一致的字節長度,根據上面幾張圖,不管是32/64位系統,socklen_t都是4byte
? ? ? ? ?數據類型”socklen_t”和int應該具有相同的長度,否則就會破壞 BSD套接字層的填充。POSIX開始的時候用的是size_t, LinusTorvalds(他希望有更多的人,但顯然不是很多) 努力向他們解釋使用size_t是完全錯誤的,因為在64位結構中 size_t和int的長度是不一樣的,而這個參數的長度必須和int一致,因為這是BSD套接字接口標準。最終POSIX的那幫家伙找到了解決的辦法,那就是創造了一個新的類型”socklen_t”。Linus Torvalds說這是由于他們發現了自己的錯誤但又不好意思向大家伙兒承認,所以另外創造了一個新的數據類型 。
?
?
參考文章:
Why size_t matters
About size_t and ptrdiff_t
簡書-隨風而行之青衫磊落險峰行
總結
以上是生活随笔為你收集整理的为什么size_t重要?为什么不直接用unigned long int 代替?以及size_t、ptrdiff_t、socklen_t数据类型的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Boost基础篇——安装
- 下一篇: 大学计算机基础完整性约束,大一大学计算机