刚入职场的菜鸟,这些大数据知识点,你必须掌握了!
?
一、Hadoop入門
1、常用端口號(hào)
hadoop3.x
-
HDFS NameNode 內(nèi)部通常端口:8020/9000/9820
-
HDFS NameNode 對(duì)用戶的查詢端口:9870
-
Yarn查看任務(wù)運(yùn)行情況的:8088
-
歷史服務(wù)器:19888
hadoop2.x
-
HDFS NameNode 內(nèi)部通常端口:8020/9000
-
HDFS NameNode 對(duì)用戶的查詢端口:50070
-
Yarn查看任務(wù)運(yùn)行情況的:8088
-
歷史服務(wù)器:19888
2、常用的配置文件
-
3.x core-site.xml ?hdfs-site.xml ?yarn-site.xml ?mapred-site.xml workers
-
2.x core-site.xml ?hdfs-site.xml ?yarn-site.xml ?mapred-site.xml slaves
二、HDFS
- 1、HDFS文件塊大小(面試重點(diǎn))
-
硬盤讀寫速度
-
在企業(yè)中 ?一般128m(中小公司) ??256m (大公司)
-
-
2、HDFS的Shell操作(開發(fā)重點(diǎn))
-
3、HDFS的讀寫流程(面試重點(diǎn))
三、Map Reduce
1、InputFormat
-
1)默認(rèn)的是TextInputformat ?kv ?key偏移量,v :一行內(nèi)容
-
2)處理小文件CombineTextInputFormat 把多個(gè)文件合并到一起統(tǒng)一切片
2、Mapper
-
setup()初始化; ?map()用戶的業(yè)務(wù)邏輯; clearup() 關(guān)閉資源;
3、分區(qū)
-
默認(rèn)分區(qū)HashPartitioner ,默認(rèn)按照key的hash值%numreducetask個(gè)數(shù)
-
自定義分區(qū)
4、排序
-
1)部分排序 ?每個(gè)輸出的文件內(nèi)部有序。
-
2)全排序: ?一個(gè)reduce ,對(duì)所有數(shù)據(jù)大排序。
-
3)二次排序: ?自定義排序范疇, 實(shí)現(xiàn) writableCompare接口, 重寫compareTo方法
5、Combiner
前提:不影響最終的業(yè)務(wù)邏輯(求和 沒問題 ??求平均值) ????????
提前聚合map ?=> 解決數(shù)據(jù)傾斜的一個(gè)方法
6、Reducer
-
用戶的業(yè)務(wù)邏輯;
-
setup()初始化;
-
reduce()用戶的業(yè)務(wù)邏輯;
-
clearup() 關(guān)閉資源;
7、OutputFormat
-
1)默認(rèn)TextOutputFormat ?按行輸出到文件
-
2)自定義
四、Yarn
-
1、Yarn的工作機(jī)制(面試題)
- 2、Yarn的調(diào)度器
-
1)FIFO/容量/公平
-
2)apache 默認(rèn)調(diào)度器 ?容量; CDH默認(rèn)調(diào)度器 公平
-
3)公平/容量默認(rèn)一個(gè)default ,需要?jiǎng)?chuàng)建多隊(duì)列
-
4)中小企業(yè):hive ?spark flink ?mr
-
5)中大企業(yè):業(yè)務(wù)模塊:登錄/注冊(cè)/購物車/營銷
-
6)好處:解耦 ?降低風(fēng)險(xiǎn) ?11.11 ?6.18 ?降級(jí)使用
- 7)每個(gè)調(diào)度器特點(diǎn):
-
相同點(diǎn):支持多隊(duì)列,可以借資源,支持多用戶
- 不同點(diǎn):
-
容量調(diào)度器:優(yōu)先滿足先進(jìn)來的任務(wù)執(zhí)行;
-
公平調(diào)度器,在隊(duì)列里面的任務(wù)公平享有隊(duì)列資源
-
-
- 8)生產(chǎn)環(huán)境怎么選:
-
中小企業(yè),對(duì)并發(fā)度要求不高,選擇容量
-
中大企業(yè),對(duì)并發(fā)度要求比較高,選擇公平。
-
-
添加公眾號(hào)「信息技術(shù)智庫」:
🍅 硬核資料:20G,8大類資料,關(guān)注即可領(lǐng)取(PPT模板、簡歷模板、技術(shù)資料)
🍅 技術(shù)互助:技術(shù)群大佬指點(diǎn)迷津,你的問題可能不是問題,求資源在群里喊一聲。
🍅 面試題庫:由各個(gè)技術(shù)群小伙伴們共同投稿,熱乎的大廠面試真題,持續(xù)更新中。
🍅 知識(shí)體系:含編程語言、算法、大數(shù)據(jù)生態(tài)圈組件(Mysql、Hive、Spark、Flink)、數(shù)據(jù)倉庫、前端等。
👇👇送書抽獎(jiǎng)丨技術(shù)互助丨粉絲福利👇👇
總結(jié)
以上是生活随笔為你收集整理的刚入职场的菜鸟,这些大数据知识点,你必须掌握了!的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 空间域图像增强
- 下一篇: ㊙️【教你用python挣零花钱】自动化