理解HashMap
以前學習HahsMap都是粗略的了解一下,能夠用就行了。這次對HahsMap的源代碼看了幾遍,對此有一定的理解,就我的理解我總結出如下幾點。但在此之前,我們先說下HahsMap的結構,簡單來說:HahsMap其實是一個數組和鏈表的結合體。?
第一、首先對HahsMap的初始容量(也即DEFAULT_INITIAL_CAPACITY)來說個事,看下面的代碼吧:?
Java代碼?? public?class?TestHashMap?{?? ????public?static?void?main(String[]?args)?{?? ????????HashMap<Integer,?Integer>?hm1=new?HashMap<Integer,?Integer>();?? ????????HashMap<Integer,?Integer>?hm2=new?HashMap<Integer,?Integer>(1024<<7);?? ????????long?time1=System.currentTimeMillis();???? ????????for(int?i=0;i<100000;i++){?? ????????????hm1.put(i,?i);?? ????????}?? ????????long?time2=System.currentTimeMillis();???? ????????long?time3=System.currentTimeMillis();???? ????????for(int?i=0;i<100000;i++){?? ????????????hm2.put(i,?i);?? ????????}?? ????????long?time4=System.currentTimeMillis();??? ????????System.out.println("默認初始容量8所用時間為:"+(time2-time1));?? ????????System.out.println("定義初始容量131072所用時間為:"+(time4-time3));?? ????}?? }??
程序運行的結果為:默認初始容量8所用時間為:94?
?????????????? 定義初始容量131072所用時間為:47?
可以看出,第二種方法所用時間基本上是前面的一半,這是為什么呢?其實,HashMap的rehash是一個非常消耗性能的操作,rehash的次數越多,所消耗的時間也就越長。當插入100000個元素時,使用初始容量rehash的次數會很多,而根據(100000)/0.75=133333(0.75是HashMap的默認裝填因子),也即是說第二種方法只要rehash一次即可,所以消耗的時間會大大減少。?
第二、HashMap的裝填因子,按如上代碼,我們稍做修改,把定義的hm1和hm2修改成如下:?
Java代碼?? HashMap<Integer,?Integer>?hm1=new?HashMap<Integer,?Integer>(1024<<7,1);?? ????????HashMap<Integer,?Integer>?hm2=new?HashMap<Integer,?Integer>(1024<<7);??
在此運行,結果為:定義裝填因子為1所用時間為:47?
?????????????? 默認裝填因子為0.75所用時間為:62?
在這里,我們循環插入100000個數據,但根據HashMap中的hash()函數,基本呈均勻分布,這樣,沒有什么沖突,那當然是裝滿更好,插入的效率會提高。但并不是裝填因子越大越好,因為我們并不知道插入的數據是不是接近于均勻分布,如果不是的話,那么沖突會很大,查詢的效率就會降低,裝填因子太小也不好,因為這樣會很浪費空間。所以HashMap默認的裝填因子取了個折中的數0.75。?
小結下:裝填因子衡量的是一個散列表的空間使用程度,裝填因子越大表示散列表的裝填程度越高,反之越小。我們知道對一個鏈表法的散列表來說,查詢一個元素的平均時間為O(1+a),因此,如果裝填因子越大,對空間的利用更充分,然而查詢效率就會降低;如果裝填因子過小,那么散列表的數據就過于稀疏,對空間造成嚴重的浪費。?
總結下:如果你知道所要插入的數據的個數N,那么你可以定義HashMap的容量大小為:N/0.75,有因為HashMap的容量必須是2的冪次方,找一個接近的即可;如果你還知道其近似一個均勻分布的話,那么裝填因子也可以自己定義,接近于1會更效率。 《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀
第一、首先對HahsMap的初始容量(也即DEFAULT_INITIAL_CAPACITY)來說個事,看下面的代碼吧:?
Java代碼??
程序運行的結果為:默認初始容量8所用時間為:94?
?????????????? 定義初始容量131072所用時間為:47?
可以看出,第二種方法所用時間基本上是前面的一半,這是為什么呢?其實,HashMap的rehash是一個非常消耗性能的操作,rehash的次數越多,所消耗的時間也就越長。當插入100000個元素時,使用初始容量rehash的次數會很多,而根據(100000)/0.75=133333(0.75是HashMap的默認裝填因子),也即是說第二種方法只要rehash一次即可,所以消耗的時間會大大減少。?
第二、HashMap的裝填因子,按如上代碼,我們稍做修改,把定義的hm1和hm2修改成如下:?
Java代碼??
?????????????? 默認裝填因子為0.75所用時間為:62?
在這里,我們循環插入100000個數據,但根據HashMap中的hash()函數,基本呈均勻分布,這樣,沒有什么沖突,那當然是裝滿更好,插入的效率會提高。但并不是裝填因子越大越好,因為我們并不知道插入的數據是不是接近于均勻分布,如果不是的話,那么沖突會很大,查詢的效率就會降低,裝填因子太小也不好,因為這樣會很浪費空間。所以HashMap默認的裝填因子取了個折中的數0.75。?
小結下:裝填因子衡量的是一個散列表的空間使用程度,裝填因子越大表示散列表的裝填程度越高,反之越小。我們知道對一個鏈表法的散列表來說,查詢一個元素的平均時間為O(1+a),因此,如果裝填因子越大,對空間的利用更充分,然而查詢效率就會降低;如果裝填因子過小,那么散列表的數據就過于稀疏,對空間造成嚴重的浪費。?
總結下:如果你知道所要插入的數據的個數N,那么你可以定義HashMap的容量大小為:N/0.75,有因為HashMap的容量必須是2的冪次方,找一個接近的即可;如果你還知道其近似一個均勻分布的話,那么裝填因子也可以自己定義,接近于1會更效率。 《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀
總結
- 上一篇: Latent dirichlet all
- 下一篇: 基本文本聚类方法