如何使用云原生数据湖,助力线上教育行业逐步智能化
簡介:?阿里云基于對象存儲OSS構建的數據湖解決方案,幫助企業有效消除數據孤島的現象,讓數據的價值真正被利用起來。
行業綜述
線下教育行業因疫情受挫,線上教育卻逆勢增長
隨著90年代互聯網的引入,在線教育產品也依托于互聯網誕生。隨著互聯網技術的發展,在線教育產品也開始了出現新的模式。在線教育從最初單純的文字形式,開始往圖片、音頻方面開始發展。加上這幾年直播技術的發展和人工智能等技術在在線教育的應用,在線教育成為今年疫情影響下,為數不多能實現逆勢增長的行業。
由于疫情的影響,教育行業根據中央疫情防控工作部署,直接暫停各類線下授課,不舉辦任何形式的聚集性培訓活動。在此期間各類線下培訓機構遭受重創,某知名線下教育機構上半年營收同期降低30%,凈虧損將近1億。
和線下教育不同的是,線上教育行業整體呈現逆勢增長的態勢,根據數據顯示,2020年中國在線教育用戶規模預計將達到3.51億人,預計市場規模將達到4858億元。同時由于疫情的影響,三月份在線教育市場滲透率更是高達85%,增長率是2019年的5倍以上。
行業發展方向
在線教育向數據化發展,行業逐步智能化
教育在線化也進一步促進了數據化的發展,內容作為教育企業的核心資產,無論是數據化程度還是數據化規模都不斷提升;同時用戶使用時長的提升,又為教育AI提供了大量源數據。據統計今年3月份在線教育用戶日均在線時長,超過200萬天。如此海量的數據為行業的智能化發展提供了良好的土壤,推動了教學內容、課程營銷、師資管理、質量評估等智能分析的發展。
面臨的痛點
行業飛速發展,數據處理成難題
行業飛速發展,用戶大量涌入,數據暴增,這就對企業在業務與數據多樣性方向帶來了挑戰。
首先由于在線教育行業的特殊性,業務量會隨著學校是否放假而產生波動,基本呈現“春秋高、寒暑低”的季節性規律。同時由于此次疫情事件,讓整個行業重新認識到突發性業務的威力,因此如何更平滑地應對業務波動,對企業來說仍然是一個非常重要的挑戰。
其次大量用戶涌入平臺,勢必會帶來大量的用戶行為數據,數據的增加自然會帶來存儲成本的增長。但數據是有價值的,利用好數據,將會為企業帶來更多的客戶以及更高的轉化。因此如何將這部分數據沉默成本與數據的價值相平衡,對企業來說也是一個巨大的挑戰。
另外在線教育往往會涵蓋多個細分領域,經常會包括學前教育、K12、語言類、職業類、高等教育等。教育機構往往會涉及到多應用、多教學場景,從而產生繁多的數據,因此如何應對多類型的數據存儲,對于平臺方來說也是一個不小的挑戰。
教育行業數據湖解決方案
構建統一的在線教育數據湖,讓數據的價值真正得到利用
基于以上問題,我們可以構建一個統一的在線教育數據湖。阿里云基于對象存儲OSS構建的數據湖解決方案,幫助企業有效消除數據孤島的現象,讓數據的價值真正被利用起來。
首先阿里云基于云存儲構建的數據湖天然具有很好的彈性伸縮能力,特別是在阿里云的節點及規模優勢基礎之上,能夠輕松應對業務指數級的擴容需求,平滑應對業務各類型波動及峰值。
其次,阿里云對象存儲OSS支持標準、低頻、歸檔三種存儲類型,覆蓋熱、溫、冷的數據場景,結合生命周期管理功能,可以自動實現對數據的冷熱分層,很好實現對數據存儲的成本的管理。
在此基礎上,DLA提供的彈性計算能力,Serverless SQL(Presto)和Serverless Spark雙計算引擎,快速搭建業務分析系統,并且幫助用戶輕松應對波峰波谷的壓力,最大限度降本增效。
最后在應對豐富的數據類型上,面向教學場景的教學資源數據、教學過程數據、教學評價數據、教學行為數據;面向結構化或非結構化數據;面向音視頻數據、各應用數據、日志數據等,都可以通過基于OSS的數據湖沉淀,并進行統一的存儲。
最佳實踐
客戶介紹:
該客戶需要可發內容資訊APP,為用戶提供感興趣、有價值的個性化內容,致力于讓用戶的閱讀更有價值,因此個性化推薦就成為其產品重要的核心能力。
遇到的問題:
1、隨著業務多年的發展,存儲數據量規模已經達到百PB左右,數據在產生階段會有比較密集的訪問,隨著時間的增長,數據的訪問會逐漸趨冷,多年累積的冷數據已經對集群容量產生了極大壓力
2、客戶原計劃通過擴大集群規模,去支撐冷數據的持續增長,但隨著數據規模持續增加,讓集群擴容難度大幅度提升。另一方面,擴容的服務器的計算資源利用率較低,無法形成資源的充分利用
數據湖解決方案
1、數據湖解決方案,可為用戶提供數據冷熱分層的功能,積累的冷數據被統一遷移到阿里云對象存儲OSS,新產生的熱數據保存在HDFS集群,熱數據經過一段時間逐漸趨冷后,就會定期遷移到對象存儲OSS進行冷處理
2、阿里云對象存儲OSS對于Hadoop生態的支持特性,原有計算任務只需簡單調整訪問地址就可以按照原有方式運行,讓計算任務能夠平滑遷移到數據湖運行。對于存儲到OSS冷數據,客戶通過OSS Lifecycle機制,定期將一部分冷數據進一步深度轉化為OSS歸檔類型,持續優化冷數據存儲成本,達到降本增效
達到的效果
1、OSS提供業內最豐富的API接口,幫助客戶將海量數據從其他從各個不同數據源輕松遷移到OSS
2、客戶在OSS的基礎上,還采用阿里云的日志服務,一站式解決日志采集、處理、查詢、投遞的各種難題,甚至還可以通過混合云存儲陣列打通云上線下數據的一體化
3、數據湖消除了客戶之前存在的數據孤島現象,支持各種計算引擎的直接對接,存儲與計算解耦合的架構,能夠更容易使用彈性計算和serverless化的云服務,讓數據分析和訪問無處不在
?
?
原文鏈接
本文為阿里云原創內容,未經允許不得轉載。
總結
以上是生活随笔為你收集整理的如何使用云原生数据湖,助力线上教育行业逐步智能化的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 高精地图技术专栏 | 基于空间连续性的异
- 下一篇: 你女朋友在买买买时,程序员小哥在干嘛?