Spark技能成长,CSDN就go了!
2016中國Spark技術峰會最早發起時間可以歸結到2015年底,那時恰逢Reynold Xin(辛湜,Databricks聯合創始人兼Apache Spark首席架構師)回國在CSDN參辦的BDTC 2015(中國大數據技術大會,今年會在12月左右舉辦)上進行主題演講。當時Reynold的時間很緊,我們只能約好在他演講結束后進行交流,而令人意想不到的是,在Reynold分享結束后,十多個人圍了上來,Spark實在太熱了。因此,我們只能推后了Spark峰會的交流時間,另約了晚上。
在晚上見面時,Reynold首先就透露了這個信息,“對于峰會的目標,應該是通過優質內容聚集起一波Sparker,讓大家可以充分的交流”,因此應該滿足兩個需求:第一,內容要干;其次,社區用戶的聚會。對于第一個需求,過去兩屆的峰會已經證明了一切,而在2016中國Spark技術峰會上,在Reynold和七牛云技術總監陳超的嚴格把關下,不僅有3位Apache Spark Committer Ram Sriharsha、連城、范文臣為大家解析Spark 2.0,來自Intel、Hortonworks、Elastic、騰訊、新浪微博、Admaster、MediaV等國內外機構的9位專家將帶來最新的Spark實踐分享,詳情可以看筆者之前的峰會解析,也可以前往峰會官網。而對于第二個需求,首先CSDN一直是一個面向開發者的社區,其次CSDN更是各個技術發燒友的殿堂,尤其是Sparker,因此除下峰會這個Sparker Party之外,我們還為對Spark感興趣的同學提供了一條從小兵到專家的成長之路。
Spark零基礎入門——約每周一節
本系列課程由綠城集團數據中心平臺架構師、數據開發主管周志湖講述,共分為兩個部分,Scala入門知識與Spark入門知識,總計20節左右。其中Scala部分共9節,已經結束,視頻回顧可以查看這里Spark零基礎入門之Scala;Spark入門部分已經進入到第二期,報名和往期錄像可以點擊這里Spark零基礎入門之Spark。
Spark線上峰會——每周一位大牛,統一報名入口,持續添加===》點擊傳送
入門之外,從本周起,CSDN每周都會為大家準備一場Spark技能提升課程,講課嘉賓來自國內外知名大數據公司的資深實踐者,也是對因為種種原因無法到現場同學的一種彌補,下面看詳細內容。
1.TalkingData研發副總裁閻志濤:Spark在TalkingData移動大數據平臺的實踐——4月27日
議題簡介: 2013年9月份,TalkingData開始嘗試使用Spark解決數據挖掘性能問題。隨著對Spark的逐漸了解,TalkingData開始將Spark應用到整個移動大數據平臺的建設中。在移動大數據平臺中,ETL過程、計算過程、數據挖掘、交互式數據提取等等都依賴于Spark。在這里,我將要介紹我們使用Spark的狀況、平臺架構、以及一些實踐經驗。當然也包括一些總結的最佳實踐。統一報名入口,持續添加===》點擊傳送
2.樂視云計算資深數據工程師祝海林:Spark Streaming 常見的坑——5月5日
祝海林,現就職于樂視云計算,資深數據工程師。從事大數據平臺架構相關工作,現專注在機器學習/數據查詢分析領域。對Spark/ES較為熟悉,業余時間喜歡研究通用資源管理相關課題
議題簡介:正在實踐的一些Spark Streaming使用場景;Streaming一些常見的bug,以及一些feature的改進;Spark Streaming reciver的一些探討;自研的Spark Streaming開發框架介紹:完全配置化、支持熱加載,只關注邏輯處理、無需關注Spark Streaming初始化、checkpoint等,集成spark sql的支持。
3.AdMaster架構師劉喆:基于 Spark Streaming 的實時處理研究——5月10日
劉喆(Zhe Liu)2013年加入AdMaster,現任架構師。主要負責數據處理的全流程技術支持, 高性能和高可用的分布式架構設計, DSL 語言抽象, Hadoop/HBase/Storm/Spark等大數據平臺優化。2010年碩士畢業后, 劉喆在百度就職, 負責當時全球規模最大的 hadoop 平臺的運維開發工作. 2011年底加入人民搜索, 代理運維總監。近 7 年的大學生活和近 5 年的工作經歷中, 劉喆一直在追求簡單直接,關注于數據挖掘/大數據/DSL/系統架構, 對分布式計算/分布式架構和程序語言情有獨鐘, 曾多次被51CTO/spark 峰會/into100峰會等邀請為嘉賓分享Hadoop/spark/開源軟件等相關經驗。
議題簡介:基于 Spark Streaming 的實時處理研究,分享主要涉及以下內容:實時系統構架設計、開源組件選擇、邏輯開發注意事項、Spark Streaming 的適用性和坑、AdMaster 的實際應用案例。
4.GrowingIO田毅:Spark多數據源處理——5月12日
田毅,目前在數據分析服務公司GrowingIO數據平臺部門工作,Spark社區的Contributor,北京Spark Meetup組織者,2010年開始在電信領域實踐應用hadoop,2013年開始關注Spark,從Shark開始向社區貢獻代碼。目前主要的研究方向是使用Spark搭建企業級的數據計算分析平臺。
議題簡介:隨著數據量的不斷增加,企業越來越重視大數據處理的成本問題,越來越多的公司開始結合自己的業務特點,試用不同的存儲方式來滿足不同的應用場景。
但是數據的計算和分析往往要放在一起才能更加高效和靈活。
本次分享主要介紹一下如何通過Spark的DataSource API快速的讀寫外部數據源中的數據,并結合一些具體場景來分析和解釋使用DataSource API的好處以及需要注意的問題,提綱如下:為什么需要多種數據源、Spark多數據源的實現機制、幾個常用的數據源簡介、GrowingIO使用案例。
5.黃忠:基于Spark的特征平臺打造——5月19日
黃忠,目前主要從事數據挖掘及大數據平臺等相關工作,Spark技術實踐和研究者,多次擔任Spark線下公開課講師,曾參與云平臺,分布式爬蟲,推薦系統等項目。樂于學習和分享,業余維護個人原創公眾號sparking。
議題簡介: 主要介紹特征平臺的設計,實現和應用,并分析實現過程中的技術細節和Spark相關問題。
機器學習的應用越來越廣泛,互聯網企業不論大小,都要滿足用戶的訴求,不論是個性化的推薦,還是精準的廣告,又或者是滿意的搜索,都離不開機器學習。特征平臺給各類機器學習工程師提供了數據的入口,這里以用戶特征為例,介紹了用戶特征平臺的數據來源,特征提取,特征處理,特征合并,特征轉換等,特征提取主要通過MR的任務按天、月、年完成調度,特征處理、合并、轉換等則主要是通過Spark任務完成,特征是以配置文件的方式添加和刪除。
6.Hortonworks技術專家梁堰波:深入理解Spark MLlib——5月26日
梁堰波,Hortonworks技術專家,曾明略數據技術合伙人,更早的時候還曾就職于France Telecom、美團、Yahoo!等企業。梁堰波是Spark活躍貢獻者,主要聚焦Spark ML/MLlib和SparkR項目,精通統計和機器學習算法在類似Spark這樣分布式系統上的實現。
7.Alluxio活躍貢獻者顧榮:開源大數據存儲系統Alluxio(原Tachyon)的原理分析與案例簡介——6月2日
顧榮,南京大學計算機系博士生,Alluxio項目核心開發者。完成了Alluxio很多功能/性能增強的工作,并主持實現性能測試框架和社區中文文檔等。顧榮曾在微軟亞洲研究院、英特爾、百度、星環科技從事大數據系統相關的研發工作
議題簡介: Alluxio(原名Tachyon)是以內存為中心的虛擬的分布式存儲系統。它統一了數據訪問方式,構建了計算框架和存儲系統的橋梁。它以內存為中心的架構使得數據的訪問速度比常規方案快幾個數量級。Alluxio是伯克利大數據分析軟件棧中的存儲層軟件, 也是 Fedora發行版的一部分。自今年2月發布1.0版本的過去三年以來,全球已有超過50個組織機構的 200多貢獻者參與到項目開發。在分享中,我將介紹Alluxio的演變歷程以及1.0版本的新特性和工作原理,以及一些使用案例。
8. 亞信數據橘云大數據平臺技術經理王庚:分布式資源管理系統的前世今生,深入剖析YARN資源調度架構——6月9日
王庚,目前就職于亞信數據,擔任橘云大數據平臺技術經理。西北工業大學碩士,曾經就職于騰訊,從事網絡負載均衡,數據中心系統的研發工作;之后加入IBM Platform Computing,從事大數據產品Platform Symphony的研發工作。
議題簡介: Hadoop項目發展至今,經歷了第一代MapReduce作業調度與資源管理緊耦合,到第二代Hadoop解耦了資源管理模塊YARN,從而作為資源調度器支持多種類型作業(包括新一代大數據引擎Spark)。YARN因為統一的資源管理,靈活可插拔的資源調度器以及支持多維度的資源定義等特性,使之成為大數據社區最活躍的組件之一。此次主題將會介紹分布式資源管理的發展歷程,介紹Hadoop YARN功能模塊以及架構,以及亞信數據對于YARN的資源管理優化實踐——Jaguar項目。
Spark知識庫——你身邊的技術百科全書
CSDN知識庫致力于以可視化方式展示各技術領域的整體架構,并依據每個領域的分支脈絡提供該領域最優質的精華學習資源。學習資源經特邀編輯一一審核、精心挑選,呈現給廣大技術開發者,以期為開發者提供工作學習中的案頭手冊,解決日常技術困惑,實現自我提升。Sparker看這里。
CSDN在線問答——下周開始持續一周
微信群“CSDN Spark聚集地”匯聚了全國頂尖的Spark技術專家,入群請加微信號zhongyineng。PS,一群已滿。
未完待續,更多精彩內容只在www.csdn.net。
2016年5月13日-15日,由CSDN重磅打造的2016中國云計算技術大會(CCTC 2016)將于5月13日-15日在北京舉辦,今年大會特設“中國Spark技術峰會”、“Container技術峰會”、“OpenStack技術峰會”、“大數據核心技術與應用實戰峰會”四大技術主題峰會,以及“云計算核心技術架構”、“云計算平臺構建與實踐”等專場技術論壇。大會講師陣容囊括Intel、微軟、IBM、AWS、Hortonworks、Databricks、Elastic、百度、阿里、騰訊、華為、樂視、京東、小米、微博、迅雷、國家電網、中國移動、長安汽車、廣發證券、民生銀行、國家超級計算廣州中心等60+頂級技術講師,CCTC必將是中國云計算技術開發者的頂級盛會。目前會議門票限時7折(截止至4月29日24點),詳情訪問CCTC 2016官網。
總結
以上是生活随笔為你收集整理的Spark技能成长,CSDN就go了!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 开机动画,水滴波纹
- 下一篇: 常用工具 [ubuntu 图像编辑软件]