开源开放 | 开源大学在线实践数据集及知识图谱MOOPer(CCKS2021)
OpenKG地址:http://openkg.cn/dataset/mooper
頭歌平臺:https://www.educoder.net/ch/rest
開放許可協議:CC BY-SA 4.0 (署名相似共享)
貢獻者:湖南智擎科技有限公司(黃井泉),國防科技大學(劉坤佳 曾維新 廖勁智 趙翔 唐九陽 戴傲)
1. MOOPer介紹
MOOPer是一個大型在線開放實踐數據集,由國防科技大學信息系統工程重點實驗室貢獻。MOOPer來源于大規模開放在線實踐(Massive Open Online Practice,MOOP)這一概念,包含了2018-2019年間頭歌平臺(https://www.educoder.net)用戶在線實踐數據,其中用戶與實踐項目的輔助信息以知識圖譜形式組織。
MOOPer數據集主要分為兩個部分:交互數據與知識圖譜。交互數據包含253萬實踐練習數據、2160萬系統反饋數據以及1.5萬論壇討論數據。知識圖譜包含11類實體,10類關系。MOOPer數據集結構如圖1所示。
圖1. MOOPer數據集結構
2. MOOPer構建
2.1?交互數據采集
用戶與學習材料的交互被分為三組:用戶行為、用戶反饋和系統反饋。
用戶行為:專注于實踐練習的過程——用戶答題正誤情況,嘗試次數,以及是否參考了答案等等。詳盡的交互記錄將最大程度再現用戶交互過程,從而為進一步研究提供了更全面的信息。值得注意的是,所有記錄都是匿名的,以保護用戶的隱私。
用戶反饋:提供用戶對交互過的實踐練習的評分。顯示了用戶對不同難度和問題類型的學習材料的偏好。此外,還提供了他們在論壇中的討論內容。閑聊內容可以用來調查他們的學習狀況和學習滿意度,而問答討論則反映了他們在知識掌握上的“盲點”。此外,用戶在論壇的活躍度也是推測其心理狀態和學習方式的重要指標。
系統反饋:提供系統對用戶提交結果反饋——他們的代碼是否有語法錯誤,提交代碼的編譯結果,實際輸出和預期輸出之間的差異等等。此類信息可以用于了解用戶的學習能力和知識掌握情況。
2.2?知識圖譜構建
豐富的輔助信息在實際任務中對于提升模型性能非常有用。MOOPer提供了豐富的實體、關系與屬性信息,包括實踐項目的介紹說明和具體內容等。知識圖譜的結構如圖1左圖所示。?
學習資源之間存在自然的層次結構。一門課程可能包括幾個章節和實踐項目, 而一個實踐項目由幾個關卡組成,每個關卡又涵蓋了不同的知識點。此外,不同課程可能會共享同樣的實踐項目,不同的關卡可能共享相同的知識點。這些相互引用進一步將層次結構擴展到圖。
3. MOOPer規模和用途
MOOPer提供豐富的交互數據和全面的輔助信息,不僅可以支持多種任務,還為后續對不同領域的任務和模型進行融合提供了數據支持。
Dropout Prediction 輟學預測。根據學生的早期在課程學習中的行為數據預測其放棄該門課程的可能性。
Knowledge Tracing 知識追蹤。根據學生過去的答題情況對學生的知識掌握情況進行建模,從而得到學生當前知識狀態表示的一種技術。
Recommendation 學習材料推薦。根據用戶的交互記錄對用戶喜好進行個性化建模,為其推薦感興趣的學習材料(如課程、章節、知識點、實訓、關卡等)。
Intelligent Tutoring 智能導學評估。建模學習者知識狀態,模擬人類的1v1教學為用戶提供學習指導。
??除此之外,由于MOOPer提供豐富的輔助信息知識圖譜,因此可以支持不同任務的融合。可行的思路之一是將知識圖譜表示學習與上述任務進行結合,例如可以將知識圖譜嵌入(Knowledge Graph Embedding,KGE)、圖神經網絡(Graph Neural Network,GNN)、圖卷積神經網絡(Graph Convolution Graph)等算法與教育數據結合,使用輔助信息提升模型效果。
4. 結語與致謝
我們提出了MOOPer,一個以實踐為中心的數據集,專注于在線學習中的實踐過程,其中豐富的輔助信息被組織為知識圖譜形式。靈活的數據組織形式使其可以支持教育領域多種數據挖掘任務,并且促進了這些任務與知識圖譜研究的最新成果融合。
?
?
OpenKG
OpenKG(中文開放知識圖譜)旨在推動以中文為核心的知識圖譜數據的開放、互聯及眾包,并促進知識圖譜算法、工具及平臺的開源開放。
點擊閱讀原文,進入 OpenKG 網站。
總結
以上是生活随笔為你收集整理的开源开放 | 开源大学在线实践数据集及知识图谱MOOPer(CCKS2021)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: mikechen谈技术人成长的三大原则
- 下一篇: 论文浅尝 | 机器阅读理解中常识知识的显