繼上一篇文章Java集合框架綜述后,今天正式開始分析具體集合類的代碼,首先以既熟悉又陌生的HashMap開始。
簽名(signature)
public ? class ?HashMap<K,V>? extends ?AbstractMap<K,V>? implements ?Map<K,V>,?Cloneable,?Serializable?
可以看到HashMap繼承了
比較有意思的是,HashMap同時繼承了抽象類AbstractMap與接口Map,因為抽象類AbstractMap的簽名為
public ? abstract ? class ?AbstractMap<K,V>? implements ?Map<K,V>?
Stack Overfloooow 上解釋到:
在語法層面繼承接口Map是多余的,這么做僅僅是為了讓閱讀代碼的人明確知道HashMap是屬于Map體系的,起到了文檔的作用
AbstractMap相當于個輔助類,Map的一些操作這里面已經提供了默認實現,后面具體的子類如果沒有特殊行為,可直接使用AbstractMap提供的實現。
Cloneable 接口
<code>It 's?evil,?don' t?use?it.?</code>?
Cloneable這個接口設計的非常不好,最致命的一點是它里面竟然沒有clone方法,也就是說我們自己寫的類完全可以實現這個接口的同時不重寫clone方法。
關于Cloneable的不足,大家可以去看看《Effective Java》一書的作者給出的理由,在所給鏈接的文章里,Josh Bloch也會講如何實現深拷貝比較好,我這里就不在贅述了。
Map 接口
在Eclipse中的outline面板可以看到Map接口里面包含以下成員方法與內部類:
Map_field_method
可以看到,這里的成員方法不外乎是“增刪改查”,這也反映了我們編寫程序時,一定是以“數據”為導向的。
在上篇文章講了Map雖然并不是Collection,但是它提供了三種“集合視角”(collection views),與下面三個方法一一對應:
Set<K> keySet(),提供key的集合視角
Collection<V> values(),提供value的集合視角
Set<Map.Entry<K, V>> entrySet(),提供key-value序對的集合視角,這里用內部類Map.Entry表示序對
AbstractMap抽象類
AbstractMap對Map中的方法提供了一個基本實現,減少了實現Map接口的工作量。
舉例來說:
如果要實現個不可變(unmodifiable)的map,那么只需繼承AbstractMap,然后實現其entrySet方法,這個方法返回的set不支持add與remove,同時這個set的迭代器(iterator)不支持remove操作即可。
相反,如果要實現個可變(modifiable)的map,首先繼承AbstractMap,然后重寫(override)AbstractMap的put方法,同時實現entrySet所返回set的迭代器的remove方法即可。
設計理念(design concept)
哈希表(hash table)
HashMap是一種基于哈希表(hash table)實現的map,哈希表(也叫關聯數組)一種通用的數據結構,大多數的現代語言都原生支持,其概念也比較簡單:key經過hash函數作用后得到一個槽(buckets或slots)的索引(index),槽中保存著我們想要獲取的值,如下圖所示
hash table demo
很容易想到,一些不同的key經過同一hash函數后可能產生相同的索引,也就是產生了沖突,這是在所難免的。 所以利用哈希表這種數據結構實現具體類時,需要:
設計個好的hash函數,使沖突盡可能的減少
其次是需要解決發生沖突后如何處理。
后面會重點介紹HashMap是如何解決這兩個問題的。
HashMap的一些特點
線程非安全,并且允許key與value都為null值,HashTable與之相反,為線程安全,key與value都不允許null值。
不保證其內部元素的順序,而且隨著時間的推移,同一元素的位置也可能改變(resize的情況)
put、get操作的時間復雜度為O(1)。
遍歷其集合視角的時間復雜度與其容量(capacity,槽的個數)和現有元素的大小(entry的個數)成正比,所以如果遍歷的性能要求很高, 不要把capactiy設置的過高或把平衡因子(load factor,當entry數大于capacity*loadFactor時,會進行resize,reside會導致key進行rehash)設置的過 低。
由于HashMap是線程非安全的,這也就是意味著如果多個線程同時對一hashmap的集合試圖做迭代時有結構的上改變(添加、刪除entry,只改變entry的value的值不算結構改變),那么會報ConcurrentModificationException,專業術語叫fail-fast,盡早報錯對于多線程程序來說是很有必要的。
Map m = Collections.synchronizedMap(new HashMap(...));?通過這種方式可以得到一個線程安全的map。
源碼剖析
首先從構造函數開始講,HashMap遵循集合框架的約束,提供了一個參數為空的構造函數與有一個參數且參數類型為Map的構造函數。除此之外,還提供了兩個構造函數,用于設置HashMap的容量(capacity)與平衡因子(loadFactor)。
public ?HashMap( int ?initialCapacity,? float ?loadFactor)?{? ????if ?(initialCapacity?<? 0 )? ????????throw ? new ?IllegalArgumentException( "Illegal?initial?capacity:?" ?+? ???????????????????????????????????????????initialCapacity);? ????if ?(initialCapacity?>?MAXIMUM_CAPACITY)? ????????initialCapacity?=?MAXIMUM_CAPACITY;? ????if ?(loadFactor?<=? 0 ?||?Float.isNaN(loadFactor))? ????????throw ? new ?IllegalArgumentException( "Illegal?load?factor:?" ?+? ???????????????????????????????????????????loadFactor);? ????this .loadFactor?=?loadFactor;? ????threshold?=?initialCapacity;? ????init();? }? public ?HashMap( int ?initialCapacity)?{? ????this (initialCapacity,?DEFAULT_LOAD_FACTOR);? }? public ?HashMap()?{? ????this (DEFAULT_INITIAL_CAPACITY,?DEFAULT_LOAD_FACTOR);? }? ? 從代碼上可以看到,容量與平衡因子都有個默認值,并且容量有個最大值? ? ? ? ? static ? final ? int ?DEFAULT_INITIAL_CAPACITY?=? 1 ?<<? 4 ;? ? ? ? ? ? ? static ? final ? int ?MAXIMUM_CAPACITY?=? 1 ?<<? 30 ;? ? ? ? static ? final ? float ?DEFAULT_LOAD_FACTOR?=? 0 .75f;?
可以看到,默認的平衡因子為0.75,這是權衡了時間復雜度與空間復雜度之后的最好取值(JDK說是最好的),過高的因子會降低存儲空間但是查找(lookup,包括HashMap中的put與get方法)的時間就會增加。
這里比較奇怪的是問題:容量必須為2的指數倍(默認為16),這是為什么呢?解答這個問題,需要了解HashMap中哈希函數的設計原理。
哈希函數的設計原理
? ? ? ? ? ? ? final ? int ?hash(Object?k)?{? ?????int ?h?=?hashSeed;? ?????if ?( 0 ?!=?h?&&?k? instanceof ?String)?{? ?????????return ?sun.misc.Hashing.stringHash32((String)?k);? ?????}? ?????h?^=?k.hashCode();? ?????? ?????? ?????? ?????h?^=?(h?>>>?20 )?^?(h?>>>? 12 );? ?????return ?h?^?(h?>>>? 7 )?^?(h?>>>? 4 );? }? ? ? ? static ? int ?indexFor( int ?h,? int ?length)?{? ?????? ?????return ?h?&?(length- 1 );? }?
看到這么多位操作,是不是覺得暈頭轉向了呢,還是搞清楚原理就行了,畢竟位操作速度是很快的,不能因為不好理解就不用了。
網上說這個問題的也比較多,我這里根據自己的理解,盡量做到通俗易懂。
在哈希表容量(也就是buckets或slots大小)為length的情況下,為了使每個key都能在沖突最小的情況下映射到[0,length)(注意是左閉右開區間)的索引(index)內,一般有兩種做法:
讓length為素數,然后用hashCode(key) mod length的方法得到索引
讓length為2的指數倍,然后用hashCode(key) & (length-1)的方法得到索引
HashTable 用的是方法1,HashMap用的是方法2。
因為本篇主題講的是HashMap,所以關于方法1為什么要用素數,我這里不想過多介紹,大家可以看這里。
重點說說方法2的情況,方法2其實也比較好理解:
因為length為2的指數倍,所以length-1所對應的二進制位都為1,然后在與hashCode(key)做與運算,即可得到[0,length)內的索引
但是這里有個問題,如果hashCode(key)的大于length的值,而且hashCode(key)的二進制位的低位變化不大,那么沖突就會很多,舉個例子:
Java中對象的哈希值都32位整數,而HashMap默認大小為16,那么有兩個對象那么的哈希值分別為:0xABAB0000與0xBABA0000,它們的后幾位都是一樣,那么與16異或后得到結果應該也是一樣的,也就是產生了沖突。
造成沖突的原因關鍵在于16限制了只能用低位來計算,高位直接舍棄了,所以我們需要額外的哈希函數而不只是簡單的對象的hashCode方法了。
具體來說,就是HashMap中hash函數干的事了
首先有個隨機的hashSeed,來降低沖突發生的幾率
然后如果是字符串,用了sun.misc.Hashing.stringHash32((String) k);來獲取索引值
最后,通過一系列無符號右移操作,來把高位與低位進行異或操作,來降低沖突發生的幾率
右移的偏移量20,12,7,4是怎么來的呢?因為Java中對象的哈希值都是32位的,所以這幾個數應該就是把高位與低位做異或運算,至于這幾個數是如何選取的,就不清楚了,網上搜了半天也沒統一且讓人信服的說法,大家可以參考下面幾個鏈接:
http://stackoverflow.com/questions/7922019/openjdks-rehashing-mechanism/7922219#7922219
http://stackoverflow.com/questions/9335169/understanding-strange-java-hash-function/9336103#9336103
http://stackoverflow.com/questions/14453163/can-anybody-explain-how-java-design-hashmaps-hash-function/14479945#14479945
HashMap.Entry
HashMap中存放的是HashMap.Entry對象,它繼承自Map.Entry,其比較重要的是構造函數
static ? class ?Entry<K,V>? implements ?Map.Entry<K,V>?{? ????final ?K?key;? ????V?value;? ????Entry<K,V>?next;? ????int ?hash;? ????Entry(int ?h,?K?k,?V?v,?Entry<K,V>?n)?{? ????????value?=?v;? ????????next?=?n;? ????????key?=?k;? ????????hash?=?h;? ????}? ????? ????public ? final ? int ?hashCode()?{? ????????? ????????return ?Objects.hashCode(getKey())?^?Objects.hashCode(getValue());? ????}? ????? ? ? ? ? ????void ?recordAccess(HashMap<K,V>?m)?{? ????}? ????? ? ? ? ????void ?recordRemoval(HashMap<K,V>?m)?{? ????}? }?
可以看到,Entry實現了單向鏈表的功能,用next成員變量來級連起來。
介紹完Entry對象,下面要說一個比較重要的成員變量
/** * The table, resized as necessary. Length MUST Always be a power of two. */ //HashMap內部維護了一個為數組類型的Entry變量table,用來保存添加進來的Entry對象 transient Entry<K,V>[] table = (Entry<K,V>[]) EMPTY_TABLE;
你也許會疑問,Entry不是單向鏈表嘛,怎么這里又需要個數組類型的table呢?
我翻了下之前的算法書,其實這是解決沖突的一個方式:鏈地址法(開散列法),效果如下:
鏈地址法處理沖突得到的散列表
就是相同索引值的Entry,會以單向鏈表的形式存在
鏈地址法的可視化
網上找到個很好的網站,用來可視化各種常見的算法,很棒。瞬間覺得國外大學比國內的強不知多少倍。
下面的鏈接可以模仿哈希表采用鏈地址法解決沖突,大家可以自己去玩玩
get操作
get操作相比put操作簡單,所以先介紹get操作
public ?V?get(Object?key)?{? ????? ????if ?(key?==? null )? ????????return ?getForNullKey();? ????Entry<K,V>?entry?=?getEntry(key);? ????return ? null ?==?entry??? null ?:?entry.getValue();? }? private ?V?getForNullKey()?{? ????if ?(size?==? 0 )?{? ????????return ? null ;? ????}? ????? ????? ????for ?(Entry<K,V>?e?=?table[ 0 ];?e?!=? null ;?e?=?e.next)?{? ????????if ?(e.key?==? null )? ????????????return ?e.value;? ????}? ????return ? null ;? }? final ?Entry<K,V>?getEntry(Object?key)?{? ????if ?(size?==? 0 )?{? ????????return ? null ;? ????}? ????int ?hash?=?(key?==? null )??? 0 ?:?hash(key);? ????? ????? ????for ?(Entry<K,V>?e?=?table[indexFor(hash,?table.length)];? ?????????e?!=?null ;? ?????????e?=?e.next)?{? ????????Object?k;? ????????if ?(e.hash?==?hash?&&? ????????????((k?=?e.key)?==?key?||?(key?!=?null ?&&?key.equals(k))))? ????????????return ?e;? ????}? ????return ? null ;? }?
put操作(含update操作)
因為put操作有可能需要對HashMap進行resize,所以實現略復雜些
private ? void ?inflateTable( int ?toSize)?{? ????? ????? ????int ?capacity?=?roundUpToPowerOf2(toSize);? ????? ????threshold?=?(int )?Math.min(capacity?*?loadFactor,?MAXIMUM_CAPACITY?+? 1 );? ????table?=?new ?Entry[capacity];? ????initHashSeedAsNeeded(capacity);? }? ? ? ? ? ? public ?V?put(K?key,?V?value)?{? ????if ?(table?==?EMPTY_TABLE)?{? ????????inflateTable(threshold);? ????}? ????if ?(key?==? null )? ????????return ?putForNullKey(value);? ????int ?hash?=?hash(key);? ????int ?i?=?indexFor(hash,?table.length);? ????? ????? ????for ?(Entry<K,V>?e?=?table[i];?e?!=? null ;?e?=?e.next)?{? ????????Object?k;? ????????? ????????? ????????if ?(e.hash?==?hash?&&?((k?=?e.key)?==?key?||?key.equals(k)))?{? ????????????V?oldValue?=?e.value;? ????????????e.value?=?value;? ????????????e.recordAccess(this );? ????????????return ?oldValue;? ????????}? ????}? ????? ????modCount++;? ????addEntry(hash,?key,?value,?i);? ????return ? null ;? }? void ?addEntry( int ?hash,?K?key,?V?value,? int ?bucketIndex)?{? ????? ????if ?((size?>=?threshold)?&&?( null ?!=?table[bucketIndex]))?{? ????????? ????????resize(2 ?*?table.length);? ????????hash?=?(null ?!=?key)???hash(key)?:? 0 ;? ????????bucketIndex?=?indexFor(hash,?table.length);? ????}? ????createEntry(hash,?key,?value,?bucketIndex);? }? void ?createEntry( int ?hash,?K?key,?V?value,? int ?bucketIndex)?{? ????? ????Entry<K,V>?e?=?table[bucketIndex];? ????? ????? ????? ????table[bucketIndex]?=?new ?Entry<>(hash,?key,?value,?e);? ????size++;? }? ? void ?resize( int ?newCapacity)?{? ????Entry[]?oldTable?=?table;? ????int ?oldCapacity?=?oldTable.length;? ????? ????if ?(oldCapacity?==?MAXIMUM_CAPACITY)?{? ????????threshold?=?Integer.MAX_VALUE;? ????????return ;? ????}? ????Entry[]?newTable?=?new ?Entry[newCapacity];? ????? ????transfer(newTable,?initHashSeedAsNeeded(newCapacity));? ????table?=?newTable;? ????threshold?=?(int )Math.min(newCapacity?*?loadFactor,?MAXIMUM_CAPACITY?+? 1 );? }? ? ? ? void ?transfer(Entry[]?newTable,? boolean ?rehash)?{? ????int ?newCapacity?=?newTable.length;? ????? ????for ?(Entry<K,V>?e?:?table)?{? ????????while ( null ?!=?e)?{? ????????????Entry<K,V>?next?=?e.next;? ????????????if ?(rehash)?{? ????????????????e.hash?=?null ?==?e.key??? 0 ?:?hash(e.key);? ????????????}? ????????????int ?i?=?indexFor(e.hash,?newCapacity);? ????????????e.next?=?newTable[i];? ????????????? ????????????? ????????????newTable[i]?=?e;? ????????????e?=?next;? ????????}? ????}? }? ? ? ? ? final ? boolean ?initHashSeedAsNeeded( int ?capacity)?{? ????boolean ?currentAltHashing?=?hashSeed?!=? 0 ;? ????boolean ?useAltHashing?=?sun.misc.VM.isBooted()?&&? ????????????(capacity?>=?Holder.ALTERNATIVE_HASHING_THRESHOLD);? ????? ????? ????? ????boolean ?switching?=?currentAltHashing?^?useAltHashing;? ????if ?(switching)?{? ????????hashSeed?=?useAltHashing? ??????????????sun.misc.Hashing.randomHashSeed(this )? ????????????:?0 ;? ????}? ????return ?switching;? }?
remove操作
public ?V?remove(Object?key)?{? ????Entry<K,V>?e?=?removeEntryForKey(key);? ????? ????return ?(e?==? null ??? null ?:?e.value);? }? final ?Entry<K,V>?removeEntryForKey(Object?key)?{? ????if ?(size?==? 0 )?{? ????????return ? null ;? ????}? ????int ?hash?=?(key?==? null )??? 0 ?:?hash(key);? ????int ?i?=?indexFor(hash,?table.length);? ????? ????? ????Entry<K,V>?prev?=?table[i];? ????Entry<K,V>?e?=?prev;? ????? ????while ?(e?!=? null )?{? ????????Entry<K,V>?next?=?e.next;? ????????Object?k;? ????????if ?(e.hash?==?hash?&&? ????????????((k?=?e.key)?==?key?||?(key?!=?null ?&&?key.equals(k))))?{? ????????????modCount++;? ????????????size--;? ????????????if ?(prev?==?e)? ? ????????????????table[i]?=?next;? ????????????else ? ????????????????prev.next?=?next;? ????????????e.recordRemoval(this );? ????????????return ?e;? ????????}? ????????prev?=?e;? ????????e?=?next;? ????}? ????return ?e;? }?
到現在為止,HashMap的增刪改查都介紹完了。 一般而言,認為HashMap的這四種操作時間復雜度為O(1),因為它hash函數性質較好,保證了沖突發生的幾率較小。
HashMap的序列化
介紹到這里,基本上算是把HashMap中一些核心的點講完了,但還有個比較嚴重的問題:保存Entry的table數組為transient的,也就是說在進行序列化時,并不會包含該成員,這是為什么呢?
transient Entry<K,V>[] table = (Entry<K,V>[]) EMPTY_TABLE;
為了解答這個問題,我們需要明確下面事實:
我們可以試想下面的場景:
我們在機器A上算出對象A的哈希值與索引,然后把它插入到HashMap中,然后把該HashMap序列化后,在機器B上重新算對象的哈希值與索引,這與機器A上算出的是不一樣的,所以我們在機器B上get對象A時,會得到錯誤的結果。
所以說,當序列化一個HashMap對象時,保存Entry的table是不需要序列化進來的,因為它在另一臺機器上是錯誤的。
因為這個原因,HashMap重現了writeObject與readObject?方法
private ? void ?writeObject(java.io.ObjectOutputStream?s)? ????throws ?IOException? {? ????? ????s.defaultWriteObject();? ? ????? ????if ?(table==EMPTY_TABLE)?{? ????????s.writeInt(roundUpToPowerOf2(threshold));? ????}?else ?{? ???????s.writeInt(table.length);? ????}? ? ????? ????s.writeInt(size);? ? ????? ????if ?(size?>? 0 )?{? ????????for (Map.Entry<K,V>?e?:?entrySet0())?{? ????????????s.writeObject(e.getKey());? ????????????s.writeObject(e.getValue());? ????????}? ????}? }? ? private ? static ? final ? long ?serialVersionUID?=?362498820763181265L;? ? private ? void ?readObject(java.io.ObjectInputStream?s)? ?????throws ?IOException,?ClassNotFoundException? {? ????? ????s.defaultReadObject();? ????if ?(loadFactor?<=? 0 ?||?Float.isNaN(loadFactor))?{? ????????throw ? new ?InvalidObjectException( "Illegal?load?factor:?" ?+? ???????????????????????????????????????????loadFactor);? ????}? ? ????? ????table?=?(Entry<K,V>[])?EMPTY_TABLE;? ? ????? ????s.readInt();?? ? ????? ????int ?mappings?=?s.readInt();? ????if ?(mappings?<? 0 )? ????????throw ? new ?InvalidObjectException( "Illegal?mappings?count:?" ?+? ???????????????????????????????????????????mappings);? ? ????? ????int ?capacity?=?( int )?Math.min(? ????????????????mappings?*?Math.min(1 ?/?loadFactor,? 4 .0f),? ????????????????? ????????????????HashMap.MAXIMUM_CAPACITY);? ? ????? ????if ?(mappings?>? 0 )?{? ????????inflateTable(capacity);? ????}?else ?{? ????????threshold?=?capacity;? ????}? ? ????init();??? ? ????? ????for ?( int ?i?=? 0 ;?i?<?mappings;?i++)?{? ????????K?key?=?(K)?s.readObject();? ????????V?value?=?(V)?s.readObject();? ????????putForCreate(key,?value);? ????}? }? private ? void ?putForCreate(K?key,?V?value)?{? ????int ?hash?=? null ?==?key??? 0 ?:?hash(key);? ????int ?i?=?indexFor(hash,?table.length);? ? ????? ? ? ? ? ????for ?(Entry<K,V>?e?=?table[i];?e?!=? null ;?e?=?e.next)?{? ????????Object?k;? ????????if ?(e.hash?==?hash?&&? ????????????((k?=?e.key)?==?key?||?(key?!=?null ?&&?key.equals(k))))?{? ????????????e.value?=?value;? ????????????return ;? ????????}? ????}? ? ????createEntry(hash,?key,?value,?i);? }?
簡單來說,在序列化時,針對Entry的key與value分別單獨序列化,當反序列化時,再單獨處理即可。
總結
在總結完HashMap后,發現這里面一些核心的東西,像哈希表的沖突解決,都是算法課上學到,不過由于“年代久遠”,已經忘得差不多了,我覺得忘
一方面是由于時間久不用
另一方面是由于本身沒理解好
平時多去思考,這樣在遇到一些性能問題時也好排查。
還有一點就是我們在分析某些具體類或方法時,不要花太多時間一些細枝末節的邊界條件上,這樣很得不償失,倒不是說這么邊界條件不重要,程序的bug往往就是邊界條件沒考慮周全導致的。
只是說我們可以在理解了這個類或方法的總體思路后,再來分析這些邊界條件。
如果一開始就分析,那真是丈二和尚——摸不著頭腦了,隨著對它工作原理的加深,才有可能理解這些邊界條件的場景。
from:?http://developer.51cto.com/art/201509/491119.htm
總結
以上是生活随笔 為你收集整理的Java集合框架之 Java HashMap 源码解析 的全部內容,希望文章能夠幫你解決所遇到的問題。
如果覺得生活随笔 網站內容還不錯,歡迎將生活随笔 推薦給好友。