當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

刚入职场的菜鸟，这些大数据知识点，你必须掌握了！

發(fā)布時(shí)間：2024/7/23 编程问答 38 豆豆

生活随笔收集整理的這篇文章主要介紹了刚入职场的菜鸟，这些大数据知识点，你必须掌握了！小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

一、Hadoop入門

1、常用端口號(hào)

hadoop3.x

HDFS NameNode 內(nèi)部通常端口：8020/9000/9820
HDFS NameNode 對(duì)用戶的查詢端口：9870
Yarn查看任務(wù)運(yùn)行情況的：8088
歷史服務(wù)器：19888

hadoop2.x

HDFS NameNode 內(nèi)部通常端口：8020/9000
HDFS NameNode 對(duì)用戶的查詢端口：50070
Yarn查看任務(wù)運(yùn)行情況的：8088
歷史服務(wù)器：19888

2、常用的配置文件

3.x core-site.xml ?hdfs-site.xml ?yarn-site.xml ?mapred-site.xml workers
2.x core-site.xml ?hdfs-site.xml ?yarn-site.xml ?mapred-site.xml slaves

二、HDFS

1、HDFS文件塊大小（面試重點(diǎn)）
- 硬盤讀寫速度
- 在企業(yè)中 ?一般128m（中小公司） ??256m （大公司）
2、HDFS的Shell操作（開發(fā)重點(diǎn)）
3、HDFS的讀寫流程（面試重點(diǎn)）

三、Map Reduce

1、InputFormat

1）默認(rèn)的是TextInputformat ?kv ?key偏移量，v :一行內(nèi)容
2）處理小文件CombineTextInputFormat 把多個(gè)文件合并到一起統(tǒng)一切片

2、Mapper

setup()初始化； ?map()用戶的業(yè)務(wù)邏輯； clearup() 關(guān)閉資源；

3、分區(qū)

默認(rèn)分區(qū)HashPartitioner ，默認(rèn)按照key的hash值%numreducetask個(gè)數(shù)
自定義分區(qū)

4、排序

1）部分排序 ?每個(gè)輸出的文件內(nèi)部有序。
2）全排序： ?一個(gè)reduce ,對(duì)所有數(shù)據(jù)大排序。
3）二次排序： ?自定義排序范疇，實(shí)現(xiàn) writableCompare接口，重寫compareTo方法

5、Combiner

前提：不影響最終的業(yè)務(wù)邏輯（求和沒問題 ??求平均值） ????????

提前聚合map ?=> 解決數(shù)據(jù)傾斜的一個(gè)方法

6、Reducer

用戶的業(yè)務(wù)邏輯；
setup()初始化；
reduce()用戶的業(yè)務(wù)邏輯；
clearup() 關(guān)閉資源；

7、OutputFormat

1）默認(rèn)TextOutputFormat ?按行輸出到文件
2）自定義

四、Yarn

1、Yarn的工作機(jī)制（面試題）
2、Yarn的調(diào)度器
- 1）FIFO/容量/公平
- 2）apache 默認(rèn)調(diào)度器 ?容量； CDH默認(rèn)調(diào)度器公平
- 3）公平/容量默認(rèn)一個(gè)default ，需要?jiǎng)?chuàng)建多隊(duì)列
- 4）中小企業(yè)：hive ?spark flink ?mr
- 5）中大企業(yè)：業(yè)務(wù)模塊：登錄/注冊(cè)/購物車/營銷
- 6）好處：解耦 ?降低風(fēng)險(xiǎn) ?11.11 ?6.18 ?降級(jí)使用
- 7）每個(gè)調(diào)度器特點(diǎn)：
  - 相同點(diǎn)：支持多隊(duì)列，可以借資源，支持多用戶
  - 不同點(diǎn)：
    - 容量調(diào)度器：優(yōu)先滿足先進(jìn)來的任務(wù)執(zhí)行；
    - 公平調(diào)度器，在隊(duì)列里面的任務(wù)公平享有隊(duì)列資源
- 8）生產(chǎn)環(huán)境怎么選：
  - 中小企業(yè)，對(duì)并發(fā)度要求不高，選擇容量
  - 中大企業(yè)，對(duì)并發(fā)度要求比較高，選擇公平。

添加公眾號(hào)「信息技術(shù)智庫」：

🍅 硬核資料：20G，8大類資料，關(guān)注即可領(lǐng)取（PPT模板、簡歷模板、技術(shù)資料）
🍅 技術(shù)互助：技術(shù)群大佬指點(diǎn)迷津，你的問題可能不是問題，求資源在群里喊一聲。
🍅 面試題庫：由各個(gè)技術(shù)群小伙伴們共同投稿，熱乎的大廠面試真題，持續(xù)更新中。
🍅 知識(shí)體系：含編程語言、算法、大數(shù)據(jù)生態(tài)圈組件（Mysql、Hive、Spark、Flink）、數(shù)據(jù)倉庫、前端等。

👇👇送書抽獎(jiǎng)丨技術(shù)互助丨粉絲福利👇👇

總結(jié)

以上是生活随笔為你收集整理的刚入职场的菜鸟，这些大数据知识点，你必须掌握了！的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：空间域图像增强
下一篇：㊙️【教你用python挣零花钱】自动化