當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

大剑无锋之大数据面试题第一套（选择题）

發布時間：2024/2/28 编程问答 45 豆豆

生活随笔收集整理的這篇文章主要介紹了大剑无锋之大数据面试题第一套（选择题）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Spark 的四大組件下面哪個不是 (D )

A.Spark Streaming? ? B. Mlib?

C Graphx? ? D.Spark R

下面哪個端口不是 spark 自帶服務的端口 (C )

A.8080 B.4040 C.8090 D.18080

備注：8080：spark集群web ui端口，4040：sparkjob監控端口，18080：jobhistory端口

spark 1.4 版本的最大變化 (B )

A spark sql Release 版本??B .引入 Spark R?

C DataFrame D.支持動態資源分配

Spark Job 默認的調度模式 (A )

A FIFO? ?B FAIR? ?

C 無? ?D 運行時指定

哪個不是本地模式運行的個條件 ( D)

A spark.localExecution.enabled=true??

B 顯式指定本地運行

C finalStage 無父 Stage

D partition默認值

下面哪個不是 RDD 的特點 (C )

A. 可分區? ?B 可序列化? ?C 可修改? ?D 可持久化

關于廣播變量，下面哪個是錯誤的 (D )

A 任何函數調用? ? B 是只讀的??

C 存儲在各個節點? ? D 存儲在磁盤或 HDFS

關于累加器，下面哪個是錯誤的 (D )

A 支持加法 B 支持數值類型?

C 可并行 D 不支持自定義類型

Spark 支持的分布式部署方式中哪個是錯誤的 (D )

A standalone B spark on mesos??

C spark on YARN D Spark on local

Stage 的 Task 的數量由什么決定 (A )

A Partition B Job C Stage D TaskScheduler

下面哪個操作是窄依賴 (B )

A join B filter?

C group D sort

下面哪個操作肯定是寬依賴 (C )

A map B flatMap?

C reduceByKey D sample

spark 的 master 和 worker 通過什么方式進行通信的？ (D )

A http B nio C netty D Akka

默認的存儲級別 (A )

A MEMORY_ONLY B MEMORY_ONLY_SER

C MEMORY_AND_DISK D MEMORY_AND_DISK_SER

spark.deploy.recoveryMode 不支持那種 (D )

A.ZooKeeper B. FileSystem?

D NONE D Hadoop

下列哪個不是 RDD 的緩存方法 (C )

A persist() B Cache()?

C Memory()

Task 運行在下來哪里個選項中 Executor 上的工作單元 (C )

A Driver program B. spark master?

C.worker node D Cluster manager

hive 的元數據存儲在 derby 和 MySQL 中有什么區別 (B )

A.沒區別 B.多會話

C.支持網絡環境 D數據庫的區別

DataFrame 和 RDD 最大的區別 (B )

A.科學統計支持 B.多了 schema?

C.存儲方式不一樣 D.外部數據源支持

Master 的 ElectedLeader 事件后做了哪些操作 (D )

A. 通知 driver B.通知 worker?

C.注冊 application D.直接 ALIVE

下面哪個程序負責 HDFS 數據存儲。

a)NameNode ?b)Jobtracker ?c)Datanode d)secondaryNameNode e)tasktracker

答案 C datanode

HDfS 中的 block 默認保存幾份？

a)3 份 b)2 份 c)1 份 d)不確定

答案 A 默認 3 份

下列哪個程序通常與 NameNode 在一個節點啟動？

a)SecondaryNameNode b)DataNode c)TaskTracker d)Jobtracker

答案 D

Hadoop 作者

a)Martin Fowler b)Kent Beck c)Doug cutting

答案 C Doug cutting

HDFS 默認 Block Size

a)32MB ?b)64MB c)128MB

答案：B

下列哪項通常是集群的最主要瓶頸

a)CPU ??b)網絡 c)磁盤 IO ?d)內存

答案：C 磁盤

首先集群的目的是為了節省成本，用廉價的 pc 機，取代小型機及大型機。小型機和大型機有什么特點？

1.cpu 處理能力強

2.內存夠大，所以集群的瓶頸不可能是 a 和 d

3.如果是互聯網有瓶頸，可以讓集群搭建內網。每次寫入數據都要通過網絡（集群是內網），然后還要寫入 3 份數據，所以 IO 就會打折扣。

關于 SecondaryNameNode 哪項是正確的？

a)它是 NameNode 的熱備 ????b)它對內存沒有要求

c)它的目的是幫助 NameNode 合并編輯日志，減少 NameNode 啟動時間

d)SecondaryNameNode 應與 NameNode 部署到一個節點

答案 C。

下列哪項可以作為集群的管理？

a)Puppet b)Pdsh c)Cloudera Manager d)Zookeeper

答案 ABD

具體可查看什么是 Zookeeper，Zookeeper 的作用是什么，在 Hadoop 及 hbase 中具體作用是什么。

Client 端上傳文件的時候下列哪項正確

a)數據經過 NameNode 傳遞給 DataNode

b)Client 端將文件切分為 Block，依次上傳

c)Client 只上傳數據到一臺 DataNode，然后由 NameNode 負責 Block 復制工作

答案 B

分析：Client 向 NameNode 發起文件寫入的請求。NameNode 根據文件大小和文件塊配置情況，返回給 Client 它所管理部分 DataNode 的信息。Client 將文件劃分為多個 Block，根據 DataNode 的地址信息，按順序寫入到每一個DataNode 塊中。具體查看HDFS 體系結構簡介及優缺點。

下列哪個是 Hadoop 運行的模式

a)單機版 b)偽分布式 c)分布式

答案 ABC 單機版,偽分布式只是學習用的。

超強干貨來襲云風專訪：近40年碼齡，通宵達旦的技術人生

總結

以上是生活随笔為你收集整理的大剑无锋之大数据面试题第一套（选择题）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：人生最美妙与最残忍的事情是同一件，那就是
下一篇： Flink 在小红书推荐系统中的应用