Hadoop 面试题之Hbase
?
Hadoop 面試題之九
?
16.Hbase 的rowkey 怎么創建比較好?列族怎么創建比較好?
答:
19.Hbase 內部是什么機制?
答:
?
73.hbase 寫數據的原理是什么?
答:
75.hbase宕機如何處理?
答:
144. 如果讓你設計,你覺得一個分布式文件系統應該如何設計,考慮哪方面內容;
每天百億數據入hbase,如何保證數據的存儲正確和在規定的時間里全部錄入完畢,
不殘留數據。
答:
149.hbase過濾器實現原則。
答:
?
164.介紹一下hbase過濾器。
答:
?
167.hbase集群安裝注意事項。
答:
?
319.Hbase 在進行模型設計時重點在什么地方?一張表中定義多少個Column Family
最合適?為什么?
答:
?
320.如何提高HBase客戶端的讀寫性能?請舉例說明。
答:
?
?
353.我們的hbase 大概在公司業務中(主要是網上商城)大概都有幾個表,幾個表族,大概都存什么樣的數據?
答:
354.hbase的并發問題? storm 問題
答:
394.你們用HBASE 存儲什么數據?
答:
407.Hbase的體系結構和搭建步驟、shell命令與JavaApi、hbase作為Mapreduce
的輸入輸出源、高級Javaapi、工作原理(重點是combine和split原理)、行健設計原則、性能優化?
答:
414.現在我們要對oracle 和hbase中的某些表進行更新,你是怎么操作?
提示:disable ‘表名’
alter ’表名’,name=>列名’,versions =>3
enable ‘表名’
答:
?
415.hbase 接受數據,如果短時間導入數量過多的話就會被鎖,該怎么辦?集群數16臺,高可用性的環境。
參考:
通過調用Htable.setAutoFlush(false)方法可以將htable寫客戶端的自動flush關閉,這樣可以批量寫入到數據到hbase。而不是有一條put 就執行一次更新,只有當put填滿客戶端寫緩存時,才實際向Hbase 服務端發起請求。默認情況下auto flush 是開啟的。
答:
?
419.怎樣將mysql的數據導入到hbase中?不能使用sqoop,速度太慢了
提示:
A、一種可以加快批量寫入速度的方法是通過預先創建一些空的regions,這樣當數據寫入hbase時,會按照region分區情況,在集群內做數據的負載均衡。
B、hbase 里面有這樣一個hfileoutputformat類,他的實現可以將數據轉換成hfile格式,通過new一個這個類,進行相關配置,這樣會在Hdfs下面產生一個文件,這個時候利用hbase提供的jruby的loadtable.rb腳本就可以進行批量導入。
?
433.介紹一下Hbase過濾器
參考::http://blog.sina.com.cn/s/blog_ae33b83901017km4.html
?
435.談談Hbase集群安裝注意事項?
提示:需要注意的地方是zookeeper的配置,這與hbase-env.sh 文件相關,文集中hbase_managers_zk環境變量用來設置是使用hbase 默認自帶的zookeeper 還是使用隊里的zookeeper。HBASE_MANGES_ZK=false 時,使用獨立的。true是使用默認自帶的。
某個節點的hregionserver啟動失敗,這是由于這3個節點的系統時間不一致相差超過集群的檢查時間30s。
?
477.簡述HBase的瓶頸
提示:HBase的瓶頸就是硬傳輸速度,Hbase 的操作,它可以往數據里面 insert,也可以update一些數據,但update 的實際上也是insert,只是插入一個新的時間戳的一行,delete數據,也是insert,只是insert一行帶有delete標記的一行。hbase的所有操作都是追加插入操作。hbase是一種日志集數據庫。它的存儲方式,像是日志文件一樣。它是批量大量的往硬盤中寫,通常都是以文件形式的讀寫。這個讀寫速度,就取決于硬盤與機器之間的傳輸有多快。而oracle的瓶頸是硬盤尋到時間。它經常的操作時隨機讀寫。要update一個數據,先要在硬盤中找到這個block,然后把它讀入內存,在內存中的緩存中修改,過段時間再回寫回去。由于你尋找的block不通,這就存在一個隨機的讀。硬盤的尋道時間主要由轉速來決定。而尋道時間,技術基本沒有改變,這就形成了尋道時間瓶頸。
?
491.HBase如果只向一個RegionServer寫入數據,有什么優點?
?
答:
?
494.HBase一行數據如何存儲?
?
501.hbase的存儲原理
?
545.hbase協處理器?
?
421.怎么知道hbase表里哪些做索引?哪些沒有做索引?
提示:
有且僅有一個:rowkey,所以hbase得快速查找建立在rowkey的基礎的,而不能像一般的關系型數據庫那樣建立多個索引來達到多條件查找的效果。
24.Hbase過濾器實現原則
?
----------------------------------------------------------------have done-------------------------------------------------------------
60.描述Hbase搭建過程
1.首先需要hadoop運行環境
2.其次需要zookeeper
3.復制Hadoop的core-site.xml,hdfs-site.xml
4.配置
?
?
?
351.hbase 怎么給web前臺提供接口來訪問(Htable 可以提供對htable的訪問,但是怎么查詢同一條記錄的多個版本數據?)
答:用javaapi 搞定,查詢? 多個版本需要指定timestamp
轉載于:https://www.cnblogs.com/chaoren399/p/4714814.html
總結
以上是生活随笔為你收集整理的Hadoop 面试题之Hbase的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Jenkins自动化部署容器
- 下一篇: 关于MVC的信息