Hadoop工具如何形成SAP Hana的大数据平台
自2008年以來(lái),SAP Hana一直是領(lǐng)先的數(shù)據(jù)庫(kù)管理系統(tǒng)之一。它比許多其他數(shù)據(jù)庫(kù)管理解決方案能夠更有效地處理數(shù)據(jù),主要是因?yàn)樗梢允褂靡恍┳钕冗M(jìn)的Hadoop工具。沒(méi)有Hadoop,大多數(shù)SAP Hana數(shù)據(jù)庫(kù)將是相對(duì)無(wú)用的。訪問(wèn)大多數(shù)數(shù)據(jù)集將是困難的,特別是在它們存儲(chǔ)原始數(shù)據(jù)的時(shí)候。
為什么Hadoop是SAP Hana的骨干
邁克爾·考克斯和戴維·埃爾斯沃斯在1997年發(fā)表的“數(shù)據(jù)可視化應(yīng)用控制需求調(diào)查”一文中提出了大數(shù)據(jù)這一術(shù)語(yǔ)。然而,大數(shù)據(jù)的應(yīng)用直到最近才變得真正可行。
這個(gè)問(wèn)題與存儲(chǔ)容量無(wú)關(guān)。云計(jì)算的進(jìn)步地指數(shù)級(jí)增加了人們存儲(chǔ)數(shù)據(jù)的能力。然而,在存儲(chǔ)數(shù)據(jù)后,訪問(wèn)數(shù)據(jù)是另一個(gè)問(wèn)題。大多數(shù)數(shù)據(jù)提取工具可以從存儲(chǔ)數(shù)TB數(shù)據(jù)的數(shù)據(jù)陣列中獲取。據(jù)數(shù)據(jù)科學(xué)中心稱,它將一些應(yīng)用的數(shù)據(jù)可訪問(wèn)性提高了109%。
許多數(shù)據(jù)已經(jīng)以非結(jié)構(gòu)化格式存儲(chǔ),這可能難以提取,開(kāi)發(fā)Hadoop來(lái)使流程更容易。
一些SAP Hana解決方案允許用戶存儲(chǔ)高達(dá)4.6TB的數(shù)據(jù)。然而,數(shù)據(jù)通常以不同的文件類型存儲(chǔ),這些文件類型很難以一致的格式提取和組織。Hadoop使得這個(gè)過(guò)程更加簡(jiǎn)單容易。
SAP Hana如何與Hadoop集成
將SAP Hana與Hadoop集成可以使訪問(wèn)遠(yuǎn)程數(shù)據(jù)集群變得更加容易。但是,設(shè)置是一個(gè)耗時(shí)的過(guò)程。第一步是設(shè)置和安裝集群。框架可以通過(guò)幾種方式構(gòu)建:
? 內(nèi)部部署群集本地集群模型是處理需要少于50個(gè)節(jié)點(diǎn)的特定位置的項(xiàng)目的理想選擇。
??基于云計(jì)算的群集。如果用戶需要在大型地理位置進(jìn)行協(xié)調(diào),或者需要超過(guò)50個(gè)節(jié)點(diǎn),那么基于云計(jì)算的群集就會(huì)更好。
??確定正確的群集后,用戶將需要?jiǎng)?chuàng)建一個(gè)測(cè)試環(huán)境。Cloudera Director是其中一個(gè)更好的模型。
??執(zhí)行幾個(gè)測(cè)試模擬后,用戶可以使用Hadoop來(lái)訪問(wèn)SAPHana智能數(shù)據(jù)。
使用Hadoop與SAP Hana有什么好處?
SAP Hana管理員使用Hadoop有很多原因。許多人選擇在HANA上使用SAPUI5,因?yàn)樗哂刑厥獾腍adoop基礎(chǔ)設(shè)施。
成本效益
據(jù)戴爾EMC公司介紹,成本效益是整合Hadoop和SAP Hana的主要原因之一。其成本節(jié)省取決于存儲(chǔ)的數(shù)據(jù)量,而不管數(shù)據(jù)是否是結(jié)構(gòu)化的,非結(jié)構(gòu)化,還是半結(jié)構(gòu)化的。
“VMAX所有閃存陣列通常由各種存儲(chǔ)組,SAP ANA生產(chǎn)和非生產(chǎn)數(shù)據(jù)庫(kù)以及非SAP Hana工作負(fù)載組成,每個(gè)都具有自己的存儲(chǔ)弦CR。因此,整個(gè)系統(tǒng)CR是各種底層存儲(chǔ)組比率的組合。通過(guò)工作負(fù)載的正常組合,您可以看到大約2:1的系統(tǒng)CR。該比例可能會(huì)更高或更低,具體取決于工作負(fù)載組合。當(dāng)內(nèi)聯(lián)壓縮與其他VMAXAllFlash節(jié)省空間的功能(如虛擬配置,零空間回收和節(jié)省空間的快照)相結(jié)合時(shí),可實(shí)現(xiàn)4:1的總體效率。
快速響應(yīng)時(shí)間
響應(yīng)時(shí)間,可擴(kuò)展性和可靠性之間存在權(quán)衡。Hadoop優(yōu)先考慮快速響應(yīng)時(shí)間,因此它是管理員需要緊急訪問(wèn)數(shù)據(jù)的應(yīng)用程序的理想選擇。對(duì)于可擴(kuò)展性更為關(guān)注的應(yīng)用程序,Hadoop可能不太可取。
用戶將需要首先概述其優(yōu)先級(jí)。然而,由于大多數(shù)SAP Hana用戶的優(yōu)先權(quán)是大多數(shù)權(quán)宜之計(jì),因此Hadoop通常是他們的解決方案。
批處理和挖掘原始數(shù)據(jù)
使用更原始的大數(shù)據(jù)提取工具難以獲取原始數(shù)據(jù)。Hadoop使它更容易,這是SAP ana應(yīng)用程序中廣泛使用的主要原因之一。
實(shí)體Hadoop框架是SAP ana應(yīng)用程序的關(guān)鍵
當(dāng)用戶設(shè)置SAP Hana數(shù)據(jù)環(huán)境時(shí),幾乎總是需要將其與Hadoop進(jìn)行集成。否則訪問(wèn)非結(jié)構(gòu)化數(shù)據(jù)將是非常困難的。
原文發(fā)布時(shí)間為:2017年7月24日
本文來(lái)自云棲社區(qū)合作伙伴至頂網(wǎng),了解相關(guān)信息可以關(guān)注至頂網(wǎng)。
總結(jié)
以上是生活随笔為你收集整理的Hadoop工具如何形成SAP Hana的大数据平台的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 蓝色巨人的硬件业务:存储营收或将下滑
- 下一篇: 删除git仓库中的文件(从所有历史中清除