SparkSQL和Hadoop(面向数据科学家和大数据分析师)
了解HDFS命令、Hadoop、Spark SQL、SQL查詢、ETL和數據分析| Spark Hadoop集群虛擬機|完全解決的問題
你會學到什么
作為本課程的一部分,學生將獲得在Spark Hadoop環境中工作的實踐經驗,該環境是免費且可下載的。
學生將有機會在沙箱環境中使用Hadoop集群上的Spark解決數據工程和數據分析問題
發布HDFS命令。
將存儲在HDFS的一組給定格式的數據值轉換為新的數據值或新的數據格式,并將其寫入HDFS。
從HDFS加載數據用于Spark應用&使用Spark將結果寫回HDFS。
以各種文件格式讀寫文件。
使用Spark API對數據執行標準的提取、轉換、加載(ETL)過程。
使用metastore表作為Spark應用程序的輸入源或輸出接收器。
在Spark中應用查詢數據集的基礎知識。
使用Spark過濾數據。
編寫計算聚合統計信息的查詢。
使用Spark連接不同的數據集。
產生分級或分類的數據。
流派:電子學習| MP4 |視頻:h264,1280×720 |音頻:AAC,44.1 KHz
語言:英語+中英文字幕(根據原英文字幕機譯更準確)|大小解壓后:8..37GB 含課程文件 |時長:5h 37m
課程獲取:SparkSQL和Hadoop(面向數據科學家和大數據分析師)_云橋網絡
?
Spark SQL & Hadoop (For Data Scientists & Big Data Analysts)
描述
Apache Spark是目前最流行的大數據處理系統之一。
許多希望在本地存儲數據的組織繼續使用Apache Hadoop。Hadoop允許這些組織高效地存儲從千兆字節到千兆字節的大數據集。
隨著數據科學、大數據分析和數據工程職位空缺數量的持續增長,對具備Spark和Hadoop技術知識的個人填補這些空缺的需求也將持續增長。
本課程專為希望利用Hadoop和Apache Spark的力量來理解大數據的數據科學家、大數據分析師和數據工程師設計。
本課程將幫助那些希望交互式分析大數據或開始編寫生產應用程序的人準備數據,以便在Hadoop環境中使用火花SQL進行進一步分析。
該課程也非常適合希望接觸Spark & Hadoop的大學生和應屆畢業生,或者只想在使用Spark-SQL的大數據環境中應用自己的SQL技能的任何人。
本課程旨在簡明扼要,并為學生提供必要和足夠的理論,足以讓他們能夠使用Hadoop & Spark,而不會陷入太多關于RDDs等舊的低級APIs的理論。
在解決本課程中包含的問題時,學生將開始發展這些技能&處理生產環境中出現的真實場景所需的信心。
?
(一)這門課程的問題不到30個。這些包括hdfs命令、基本數據工程任務和數據分析。
全面解決所有問題。
(c)還包括Verulam Blue虛擬機,這是一個已經安裝了spark Hadoop集群的環境,以便您可以練習解決問題。
該虛擬機包含一個Spark Hadoop環境,該環境允許學生讀寫Hadoop文件系統中的數據,并將元存儲表存儲在Hive元存儲上。
學生解決問題所需的所有數據集都已經加載到HDFS上,所以學生不需要做任何額外的工作。
虛擬機還安裝了阿帕奇齊柏林飛艇。這是一款專門針對Spark的筆記本,類似于Python的Jupyter筆記本。
本課程將允許學生在實踐過程中獲得在Spark Hadoop環境中工作的實踐經驗
將存儲在HDFS的一組給定格式的數據值轉換為新的數據值或新的數據格式,并將其寫入HDFS。
從HDFS加載數據用于Spark應用&使用Spark將結果寫回HDFS。
以各種文件格式讀寫文件。
使用Spark API對數據執行標準的提取、轉換、加載(ETL)過程。
使用metastore表作為Spark應用程序的輸入源或輸出接收器。
在Spark中應用查詢數據集的基礎知識。
使用Spark過濾數據。
編寫計算聚合統計信息的查詢。
使用Spark連接不同的數據集。
產生分級或分類的數據。
?
這門課是給誰的
本課程專為希望利用Hadoop和Apache Spark的力量來理解大數據的數據科學家、大數據分析師和數據工程師設計。
這門課程也非常適合大學生和剛畢業的學生,他們渴望在一家希望填補大數據相關職位的公司找到工作,或者任何只想在使用Spark-SQL的大數據環境中應用他們的SQL技能的人。
希望進入數據工程領域的軟件工程師和開發人員也會發現本課程很有幫助。
總結
以上是生活随笔為你收集整理的SparkSQL和Hadoop(面向数据科学家和大数据分析师)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Autocad 3D 完全学习教程
- 下一篇: Unity与C#创建一个3D平台游戏 L