大剑无锋之大数据面试题第一套(选择题)
Spark 的四大組件下面哪個不是 (D )
A.Spark Streaming? ? B. Mlib?
C Graphx? ? D.Spark R
下面哪個端口不是 spark 自帶服務的端口 (C )
A.8080 B.4040 C.8090 D.18080
備注:8080:spark集群web ui端口,4040:sparkjob監控端口,18080:jobhistory端口
spark 1.4 版本的最大變化 (B )
A spark sql Release 版本??B .引入 Spark R?
C DataFrame D.支持動態資源分配
Spark Job 默認的調度模式 (A )
A FIFO? ?B FAIR? ?
C 無? ?D 運行時指定
哪個不是本地模式運行的個條件 ( D)
A spark.localExecution.enabled=true??
B 顯式指定本地運行
C finalStage 無父 Stage
D partition默認值
下面哪個不是 RDD 的特點 (C )
A. 可分區? ?B 可序列化? ?C 可修改? ?D 可持久化
關于廣播變量,下面哪個是錯誤的 (D )
A 任何函數調用? ? B 是只讀的??
C 存儲在各個節點? ? D 存儲在磁盤或 HDFS
關于累加器,下面哪個是錯誤的 (D )
A 支持加法 B 支持數值類型?
C 可并行 D 不支持自定義類型
Spark 支持的分布式部署方式中哪個是錯誤的 (D )
A standalone B spark on mesos??
C spark on YARN D Spark on local
Stage 的 Task 的數量由什么決定 (A )
A Partition B Job C Stage D TaskScheduler
下面哪個操作是窄依賴 (B )
A join B filter?
C group D sort
下面哪個操作肯定是寬依賴 (C )
A map B flatMap?
C reduceByKey D sample
?
spark 的 master 和 worker 通過什么方式進行通信的? (D )
A http B nio C netty D Akka
默認的存儲級別 (A )
A MEMORY_ONLY B MEMORY_ONLY_SER
C MEMORY_AND_DISK D MEMORY_AND_DISK_SER
spark.deploy.recoveryMode 不支持那種 (D )
A.ZooKeeper B. FileSystem?
D NONE D Hadoop
下列哪個不是 RDD 的緩存方法 (C )
A persist() B Cache()?
C Memory()
Task 運行在下來哪里個選項中 Executor 上的工作單元 (C )
A Driver program B. spark master?
C.worker node D Cluster manager
hive 的元數據存儲在 derby 和 MySQL 中有什么區別 (B )
A.沒區別 B.多會話
C.支持網絡環境 D數據庫的區別
DataFrame 和 RDD 最大的區別 (B )
A.科學統計支持 B.多了 schema?
C.存儲方式不一樣 D.外部數據源支持
Master 的 ElectedLeader 事件后做了哪些操作 (D )
A. 通知 driver B.通知 worker?
C.注冊 application D.直接 ALIVE
下面哪個程序負責 HDFS 數據存儲。
a)NameNode ?b)Jobtracker ?c)Datanode d)secondaryNameNode e)tasktracker
答案 C datanode
HDfS 中的 block 默認保存幾份?
a)3 份 b)2 份 c)1 份 d)不確定
答案 A 默認 3 份
下列哪個程序通常與 NameNode 在一個節點啟動?
a)SecondaryNameNode b)DataNode c)TaskTracker d)Jobtracker
答案 D
Hadoop 作者
a)Martin Fowler b)Kent Beck c)Doug cutting
答案 C Doug cutting
HDFS 默認 Block Size
a)32MB ?b)64MB c)128MB
答案:B
下列哪項通常是集群的最主要瓶頸
a)CPU ??b)網絡 c)磁盤 IO ?d)內存
答案:C 磁盤
首先集群的目的是為了節省成本,用廉價的 pc 機,取代小型機及大型機。小型機和大型機有什么特點?
1.cpu 處理能力強
2.內存夠大,所以集群的瓶頸不可能是 a 和 d
3.如果是互聯網有瓶頸,可以讓集群搭建內網。每次寫入數據都要通過網絡(集群是內網),然后還要寫入 3 份數據,所以 IO 就會打折扣。
關于 SecondaryNameNode 哪項是正確的?
a)它是 NameNode 的熱備 ????b)它對內存沒有要求
c)它的目的是幫助 NameNode 合并編輯日志,減少 NameNode 啟動時間
d)SecondaryNameNode 應與 NameNode 部署到一個節點
答案 C。
下列哪項可以作為集群的管理?
a)Puppet b)Pdsh c)Cloudera Manager d)Zookeeper
答案 ABD
具體可查看什么是 Zookeeper,Zookeeper 的作用是什么,在 Hadoop 及 hbase 中具體作用是什么。
Client 端上傳文件的時候下列哪項正確
a)數據經過 NameNode 傳遞給 DataNode
b)Client 端將文件切分為 Block,依次上傳
c)Client 只上傳數據到一臺 DataNode,然后由 NameNode 負責 Block 復制工作
答案 B
分析:Client 向 NameNode 發起文件寫入的請求。NameNode 根據文件大小和文件塊配置情況,返回給 Client 它所管理部分 DataNode 的信息。Client 將文件劃分為多個 Block,根據 DataNode 的地址信息,按順序寫入到每一個DataNode 塊中。具體查看HDFS 體系結構簡介及優缺點。
下列哪個是 Hadoop 運行的模式
a)單機版 b)偽分布式 c)分布式
答案 ABC 單機版,偽分布式只是學習用的。
超強干貨來襲 云風專訪:近40年碼齡,通宵達旦的技術人生總結
以上是生活随笔為你收集整理的大剑无锋之大数据面试题第一套(选择题)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 人生最美妙与最残忍的事情是同一件,那就是
- 下一篇: Flink 在小红书推荐系统中的应用