Simple Dynamic Strings(SDS)源码解析和使用说明一
? ? ? ? SDS是Redis源碼中一個獨立的字符串管理庫。它是由Redis作者Antirez設計和維護的。一開始,SDS只是Antirez為日常開發而實現的一套字符串庫,它被使用在Redis、Disque和Hiredis等作者維護的項目中。但是作者覺得這塊功能還是比較獨立的,應該讓其成為一個獨立的庫去被使用。于是就開發了第二版的SDS。本文我們要討論的SDS就會是基于這個版本的。(轉載請指明出于breaksoftware的csdn博客)
結構
?? ? ? 一般來說,如果我們要設計一個字符串,可能會使用到結構。其中至少要保存一個指向字符串內容的指針,比如
struct string_demo {char* data_ptr;
};
? ? ? ? 如果我們考慮到strlen計算會隨著字符串長度增長而耗費更多時間時,可能還需要給結構體增加一個字符串長度字段
struct string_demo {size_t data_len;char* data_ptr;
};
? ? ? ? 如果還要考慮到字符串對象的使用安全性,我們可能還需要給該結構增加一個引用計數
struct string_demo {int refrence;size_t data_len;char* data_ptr;
};
? ? ? ? 對于這樣的字符串結構體對象,我們在使用時往往需要使用指針方式才能引用到相應的成員變量。比如我們要使用C語言中strlen計算字符串長度,則需要如下操作
string_demo_ptr->data_len = strlen(string_demo_ptr->data_ptr);
? ? ? ? 或者我們就需要開發出一套針對我們設計的字符串結構的計算方法
size_t calc_string_demo_len(string_demo* ptr) {……
}
? ? ? ? 但是無論哪種方式,這種設計都導致C語言中字符串操作函數不能直接操作我們的字符串結構體對象。但SDS庫則通過巧妙的設計讓我們可以直接使用這些函數操作SDS字符串。我們看下它的定義
typedef char *sds;
? ? ? ? SDS字符串sds只是char*的別名,它并沒有使用結構體去表示這個對象。這樣我們就可以從語法層面保證調用C語言中字符串方法不會報錯。然而通過這種寫法,我們應該可以想到,sds所指向的內存空間保存就是字符串的內容,且和C語言中字符串內容的格式存在兼容性(沒說一致性,因為SDS字符可以存儲null,后面我們會做說明)。這樣才可以讓諸如strlen之類的方法正確執行。
? ? ? ? 但是,如果SDS字符串結構僅僅如此,那就沒有必要通過一篇博文去解釋了。SDS字符其實也存在我們上述猜想中的結構,只是它沒有讓保存字符串內容的指針和結構體混為一體,但是在內存分布上是連續的。這個怎么理解呢?我認為Antirez在設計SDS時,是希望實現一套兼容C語言字符串只讀性操作方法(不修改字符串內容)的結構。這樣的話就要保證結構是一個char*型的指針,且內容指向字符串內容。但是為了可以更加高效的獲取字符串長度以及輔助其他操作,則需要保存這個字符串額外的信息。這些信息總不能在內存中使用(字符串指針地址,額外信息)這樣的map結構存儲,因為通過指針地址查找額外信息的過程會降低整體效率,且這種割裂式的分布也不利于對象的整體管理。那么就讓它的額外信息分布在其內容附近。于是就有分布在內容前還是內容后這兩種選擇。我們先來探討分布在內容后,這樣的設計會導致每個SDS字符串必須以NULL結尾,這會限制住SDS的承載能力。而且每次要取額外信息都要計算字符串結尾位置,這種計算會隨著字符串變長而消耗更多時間。所以這種方案不可取。那么只剩下放在內容前這種方案了,SDS的確也是這么設計的。
+--------+-------------------------------+-----------+
| Header | Binary safe C alike string... | Null term |
+--------+-------------------------------+-----------+|`-> Pointer returned to the user.
? ? ? ? 有一點我們之前沒有注意,SDS字符串最后要以NULL字符結尾。這樣的設計可以預防用戶設置的字符串內容溢出。
? ? ? ? 我們看下Header部分是什么樣的結構
struct __attribute__ ((__packed__)) sdshdr5 {unsigned char flags; /* 3 lsb of type, and 5 msb of string length */char buf[];
};
struct __attribute__ ((__packed__)) sdshdr8 {uint8_t len; /* used */uint8_t alloc; /* excluding the header and null terminator */unsigned char flags; /* 3 lsb of type, 5 unused bits */char buf[];
};
struct __attribute__ ((__packed__)) sdshdr16 {uint16_t len; /* used */uint16_t alloc; /* excluding the header and null terminator */unsigned char flags; /* 3 lsb of type, 5 unused bits */char buf[];
};
struct __attribute__ ((__packed__)) sdshdr32 {uint32_t len; /* used */uint32_t alloc; /* excluding the header and null terminator */unsigned char flags; /* 3 lsb of type, 5 unused bits */char buf[];
};
struct __attribute__ ((__packed__)) sdshdr64 {uint64_t len; /* used */uint64_t alloc; /* excluding the header and null terminator */unsigned char flags; /* 3 lsb of type, 5 unused bits */char buf[];
};
? ? ? ? 除了sdshdr5之外,其他結構都是相似的。我們先看看sdshdr,它只有flags和buf成員,其中flag空間被充分利用,其第三位保存了SDS字符串的類型:
#define SDS_TYPE_5 0
#define SDS_TYPE_8 1
#define SDS_TYPE_16 2
#define SDS_TYPE_32 3
#define SDS_TYPE_64 4
? ? ? ? 高5位則保存了字符串的長度,那么可見sdshdr5對應的SDS_TYPE_5類型字符串只能保存原串長度小于等于2^5=32個。
? ? ? ? 我們再看下結構相對統一的其他頭結構。由于不同類型的SDS字符串是為了保存不同長度的內容,所以它們主要區別是成員的類型不同。第一個成員變量len記錄的是為buf分配的內存空間已使用的長度;第二個成員變量alloc記錄的是為buf分配的內存空間的總長度,當然這長度不包括SDS字符串頭和結尾NULL。第三個字符flags只是在第三位保存了SDS字符串類型,而剩下的高五位則沒有使用。
? ? ? ? 由于SDS字符串結構的設計,在我們需要訪問頭中成員變量時,需要通過sds指針向前回溯一個頭結構體的長度,然后通過這個地址去訪問。至于回溯多長,則要視該SDS字符串的類型而定,而這個信息就保存在sds指針前一個unsigned char長度的空間中——即flags。以獲取SDS字符串內容的長度為例:
#define SDS_HDR(T,s) ((struct sdshdr##T *)((s)-(sizeof(struct sdshdr##T))))
#define SDS_TYPE_5_LEN(f) ((f)>>SDS_TYPE_BITS)static inline size_t sdslen(const sds s) {unsigned char flags = s[-1];switch(flags&SDS_TYPE_MASK) {case SDS_TYPE_5:return SDS_TYPE_5_LEN(flags);case SDS_TYPE_8:return SDS_HDR(8,s)->len;case SDS_TYPE_16:return SDS_HDR(16,s)->len;case SDS_TYPE_32:return SDS_HDR(32,s)->len;case SDS_TYPE_64:return SDS_HDR(64,s)->len;}return 0;
}
? ? ? ? SDS_HDR宏在代碼中出現非常多,因為通過它我們可以找到并轉換SDS字符串頭結構地址。
創建SDS字符串
? ? ? ? 我們可以通過下面四個方法進行SDS字符串的創建
sds sdsnewlen(const void *init, size_t initlen);
sds sdsnew(const char *init);
sds sdsempty(void);
sds sdsdup(const sds s);
? ? ? ? sdsnew方法要求傳入一個NULL結尾的字符串內存地址,其底層調用的是sdsnewlen方法:
sds sdsnew(const char *init) {size_t initlen = (init == NULL) ? 0 : strlen(init);return sdsnewlen(init, initlen);
}
? ? ? ??sdsempty方法創建了一個空的SDS字符串,其底層也是調用了sdsnewlen:
sds sdsempty(void) {return sdsnewlen("",0);
}
? ? ? ??sdsdup方法用于復制一個SDS字符串對象,其底層還是使用sdsnewlen去實現的:
sds sdsdup(const sds s) {return sdsnewlen(s, sdslen(s));
}
? ? ? ? 現在我們重點關注下sdsnewlen方法的實現。
? ? ? ? 首先,我們需要通過傳入的長度確定創建什么類型的SDS字符串
sds sdsnewlen(const void *init, size_t initlen) {void *sh;sds s;char type = sdsReqType(initlen);/* Empty strings are usually created in order to append. Use type 8* since type 5 is not good at this. */if (type == SDS_TYPE_5 && initlen == 0) type = SDS_TYPE_8;
? ? ? ? 我們看下選擇類型的原則:
static inline char sdsReqType(size_t string_size) {if (string_size < 1<<5)return SDS_TYPE_5;if (string_size < 1<<8)return SDS_TYPE_8;if (string_size < 1<<16)return SDS_TYPE_16;if (string_size < 1ll<<32)return SDS_TYPE_32;return SDS_TYPE_64;
}
? ? ? ? 如果要求創建一個空串,作者認為一般創建的空串,在未來都是用于填充數據的。所以此時創建一個承載內容長度小于32的類型是不合適的,于是采用SDS_TYPE_8類型。那么只有在字符串內容在1到32之間的情況下才會創建SDS_TYPE_5類型的字符串。
? ? ? ? 接下來要計算相應類型的頭長度,并且根據頭長度、字符串長度等申請一段空間
int hdrlen = sdsHdrSize(type);unsigned char *fp; /* flags pointer. */sh = s_malloc(hdrlen+initlen+1);
? ? ? ? 計算長度時最后加上是因為SDS字符串的整體結構要求以NULL結尾。
? ? ? ? 如果要創建的是空串,則要將申請的內存都置空
if (!init)memset(sh, 0, hdrlen+initlen+1);if (sh == NULL) return NULL;
? ? ? ? 下一步,我們需要獲取sds地址和SDS字符串頭地址
s = (char*)sh+hdrlen;fp = ((unsigned char*)s)-1;
? ? ? ? 然后根據類型,我們需要向SDS字符串頭結構中填寫相應值,我們只看下SDS_TYPE_5和SDS_TYPE_8的設置
switch(type) {case SDS_TYPE_5: {*fp = type | (initlen << SDS_TYPE_BITS);break;}case SDS_TYPE_8: {SDS_HDR_VAR(8,s);sh->len = initlen;sh->alloc = initlen;*fp = type;break;}
? ? ? ? 可以見得,在最初創建SDS字符串時,alloc大小和len大小是一樣的。它們產生差別是在之后介紹的字符串連接時。
? ? ? ? 最后我們根據需要創建的字符串是否有內容而將相關數據復制到內存中,并讓內存最后一位為NULL
}if (initlen && init)memcpy(s, init, initlen);s[initlen] = '\0';return s;
}
? ? ? ? 我們看下這些方法的使用樣例
sds mystring = sdsnew("Hello World!");
printf("%s\n", mystring);
sdsfree(mystring);output> Hello World!
char buf[3];
sds mystring;buf[0] = 'A';
buf[1] = 'B';
buf[2] = 'C';
mystring = sdsnewlen(buf,3);
printf("%s of len %d\n", mystring, (int) sdslen(mystring));output> ABC of len 3
sds mystring = sdsempty();
printf("%d\n", (int) sdslen(mystring));output> 0
sds s1, s2;s1 = sdsnew("Hello");
s2 = sdsdup(s1);
printf("%s %s\n", s1, s2);output> Hello Hello
獲取SDS字符串長度
? ? ? ? 可以通過下面的方法獲取SDS字符串的長度
size_t sdslen(const sds s);
? ? ? ? 在之前,我們已經看了該函數的實現了。它只是返回SDS字符串頭中的len字段值。這樣設計有兩個好處:
- 相較于C語言中strlen,sdslen計算SDS字符串的長度的時間是固定的。我們知道strlen通過遍歷內存,一直找到NULL才能計算出字符串長度。而SDS字符串長度在被改變時已經被計算好了,它被保存在字符串頭結構中,這樣每次獲取時只要通過固定的地址偏移便可以拿到。
- 它是二進制安全的。因為不依賴于NULL計算長度,所以NULL字符不再那么特殊了。SDS字符串中可以包含若干個NULL。
? ? ? ? 但是有個東西需要注意下。雖然我們可以使用C語言中的只讀性方法訪問SDS字符串,但是由于SDS字符串內容中可以包含NULL,而C語言中字符串以NULL結尾,則會在混用時遇到一些的現象,如:
sds s = sdsnewlen("A\0\0B",4);
printf("%d\n", (int) sdslen(s));output> 4
釋放字符串
? ? ? ? 由于SDS字符串的所有空間都是在堆上分配的,所以在不使用時我們需要釋放它。
void sdsfree(sds s);
? ? ? ? 我們看下其實現
void sdsfree(sds s) {if (s == NULL) return;s_free((char*)s-sdsHdrSize(s[-1]));
}
? ? ? ? 該函數一開始時判斷了傳入的是不是NULL,所以我們在調用sdsfree前就不需要判斷入參是否為空了。然后通過一系列位移計算出SDS字符串頭的起始地址,它就是之前在sdsnewlen中通過malloc在堆上分配的空間地址,于是我們要使用free方法釋放它。
? ? ? ? 在之前我們介紹過,創建的空SDS字符串其實也是占用了一定的堆上空間,所以對空SDS字符串也要使用sdsfree去釋放,否則會造成內存泄漏。最后我們看下使用的方法:
if (string) sdsfree(string); /* Not needed. */
sdsfree(string); /* Same effect but simpler. */
總結
以上是生活随笔為你收集整理的Simple Dynamic Strings(SDS)源码解析和使用说明一的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 跨平台PHP调试器设计及使用方法——拾遗
- 下一篇: Simple Dynamic Strin