CiteSpace关键词时区图含义详细解析与注意事项
圖片
CiteSpace有一個亮點就是將時間因素加入到了知識圖譜的繪制之中。先劃分時間段,然后再合并起來一起分析,如關鍵詞時區圖,有些文章將其命名為主題演化圖,其實不太合適,該圖本質呈現的是關鍵詞的一種演化關系,而不是主題的演化。
主題演化應該是主題間的關系,如TE軟件所做出的科學主題演化圖,或者利用ST軟件分時間區間做的戰略坐標(主題類型的劃分),見下圖。
本文主要講解一下CiteSpace繪制的關鍵詞時區圖,即關鍵詞的時區圖是怎么生成的,其他高級圖譜以后再講。
上圖的數據集時間區間是1998-2018
圖片
圓圈
圖中的每一個圓圈代表一個關鍵詞,該關鍵詞是在分析的數據集中首次出現的年份【注意:是此數據集中首次出現,并不是關于此主題的所有數據中】。
關鍵詞一旦出現,將固定在首次出現的年份,盡管之后論文里仍會出現該關鍵詞,圖中將不再顯示,只會在最早出現的年份顯示。
如果后來的年份又出現了該關鍵詞,那么該關鍵詞會在首次出現的位置頻次加1,出現幾次,頻次就增加幾次。所以就可以解釋為什么1998年,文獻量很少,而關鍵詞“數據管理”和“高校圖書館”圓圈這么大的原因了。
因為,之后論文關鍵詞中出現的“數據管理”和“高校圖書館”均在1998年進行了累加。
此種方法合不合理呢?
如果一個關鍵詞在1998年出現一次,之后幾年沒出現,而在2012年出現了80次,那么軟件會把該關鍵詞歸到1998年,顯然結果是不合理的,因為存在異常情況。當然,既然是異常,現實情況出現幾率不是很大。
該圖顯示的僅僅是目標領域關鍵詞首次出現的時間和從整體視角來看的研究熱點(研究熱點通過關鍵詞頻次顯示,但是CiteSpace統計的頻次是閾值裁剪后的頻次,并不是總頻次,見推文:CiteSpace關鍵詞共現圖譜含義詳細解析與注意事項)。
該圖無法反映這些熱點(關鍵詞)的大致年份分布,如果需要反映研究熱點的平均年份分布此時CiteSpace就無能為力了,需要借助COOC或VOSviewer軟件進行圖譜繪制,其中COOC也可以繪制時區圖,具體見下文。
圖片
線條
圓圈代表著關鍵詞,線條代表著關鍵詞之間的聯系。但在該圖中線條存在的意義并不大,不是我們分析的重點。
這里的線條就是關鍵詞之間的共現關系。
例如1998年的“數據管理”和2008年的“科學數據管理”同時出現在了2008年的某一篇論文中,那么“數據管理”和“科學數據管理”之間便存在一條聯系,這條線從1998年連到了2008年。
連線表示兩關鍵出現在同一篇或多篇文章中。
總結:
時區圖中的每個時間段均是該時間段的所有新出現的關鍵詞,如果與前期關鍵詞共同出現在同一篇文章中將會用線聯系起來,前期關鍵詞頻次加1,圓圈變大,從而生成此圖。該圖確實能夠從整體上反映研究路徑的變化,但如果想要更全面的反映路徑變化還需要結合關鍵詞加權時區圖、逐年關注度變化、逐年增長率變化和時間加權研究熱點變化等圖。當然我們也可以逐年統計關鍵詞的變化趨勢,來反映研究熱點的變化,如SE軟件繪制的關鍵詞演進圖。
圖片
圖片
圖片
圖片
圖片
存在的問題1
CieSpace繪制的時區圖有一個問題,就是每個時間區間展示的關鍵詞數不能太多,否則圖就會很亂,比如本文開頭我們做的圖,雖然看著挺不錯的,但是每個時間區間所展示的關鍵詞數有限(PS.這張圖竟被很多人盜用,用于他們的宣傳),特別是最新出現的關鍵詞由于頻次相對較低,無法在圖中顯示出來,使我們無法挖掘出最新的前沿。
上文說了,在時區圖中線條存在的意義并不大,不是我們分析的重點。所以我們可以利用COOC軟件的時區圖功能進行繪制,雖然COOC做出的時區圖沒有CiteSpace好看,但其展示的每年關鍵詞數以及最前沿關鍵詞方面優于CiteSpace,見下圖。
圖片
該圖也是關鍵詞時區圖,但是其可以全面反映更多的關鍵詞以及最新關鍵詞,而不僅僅是那些高頻關鍵詞。
圖片
存在的問題2
這里還存在一個十分嚴重的問題,很多CiteSpace新手甚至老手都不知道,導致已經發表的很多論文存在問題。即利用不清洗的數據直接作圖會導致關鍵詞首次出現時間錯誤。
因為隨著網絡首發的推廣,很多最新的論文缺失年份信息,而CiteSpace會把缺失年份的論文默認設置為1900年,導致出錯。
下面,我們先來了解下網絡首發出版模式。網絡首發出版模式對文獻計量的影響不容低估!
什么時網絡首發?
網絡首發論文被認定為正式出版論文。經編輯部和《中國學術期刊(光盤版)》電子雜志社審核,可在中國知網提前在線發布。案例圖如下:
圖片
網絡首發的好處?
發表時間不受紙刊限制,出版容量也突破了傳統紙刊的束縛。便于研究成果快速傳播和使用。
網絡首發對文獻計量的影響?
【1】重復問題
有時知網里同一篇文章會同時出現【網絡首發】和【非網絡首發】兩條題錄,導致在做文獻計量分析時重復統計,而現有軟件沒法去重。
【2】時間問題
網絡首發題錄信息里沒有時間,導致做文獻計量時出現錯誤,而現有軟件沒法解決。COOC軟件除外。
做文獻計量分析時,以上兩個問題一定要注意,否則會出現嚴重錯誤。比如,由于網絡首發缺失時間,CiteSpace軟件會將2022年網絡首發的文獻默認設置為1900年,而Vosviewer在做時間關鍵詞分析時也不會考慮這種問題。另外,上述軟件均沒法進行去重。
而很多文獻計量的文章(包括已經發表的文章)經常不注意以上兩點,不知道自己做的其實是錯誤的分析。
針對上述兩個問題的解決方案:
(1)利用COOC最新版軟件去重
(2)利用COOC最新版軟件提取,補充時間即可。
最后且最重要的:
做文獻計量數據預處理階段的5大問題,見推文:CiteSpace關鍵詞共現圖譜含義詳細解析與注意事項
以后再做文獻計量所用的軟件應該是COOC+CiteSpace或者COOC+VOSviewer。如果你想做出更好看的網絡圖譜,還需要結合NSS軟件。如果你有一些文本型數據,但是想用CiteSpace、VOSviewer等軟件作圖,那么你還需要結合TM文本挖掘軟件。
總結
以上是生活随笔為你收集整理的CiteSpace关键词时区图含义详细解析与注意事项的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 基于51单片机的数字电子时钟
- 下一篇: 数字电子技术——复试常见问题