阿里云李飞飞:传统数据库步履蹒跚,未来的机会在哪里?
簡介: 日前,阿里云云原生數(shù)據(jù)庫PolarDB和云原生數(shù)據(jù)倉庫AnalyticDB在印度正式上線,當(dāng)?shù)刂腎T媒體YourStory對阿里云智能數(shù)據(jù)庫事業(yè)部總負責(zé)人李飛飛博士進行了專訪。
在采訪中李飛飛表示,隨著計算和數(shù)據(jù)上云的趨勢快速發(fā)展,傳統(tǒng)數(shù)據(jù)庫步履蹣跚,云原生數(shù)據(jù)庫和數(shù)據(jù)倉庫利用云原生技術(shù)最大化的發(fā)揮池化的計算和存儲資源彈性將是未來。同時隨著AI技術(shù)的不斷深入使用,數(shù)據(jù)庫也將會越來越智能化,阿里云的目標(biāo)是實現(xiàn)數(shù)據(jù)庫的完全自動化和智能化。
“李飛飛,現(xiàn)任阿里巴巴集團副總裁、高級研究員,阿里云智能數(shù)據(jù)庫事業(yè)部總負責(zé)人。美國計算機協(xié)會ACM杰出科學(xué)家,加入阿里巴巴之前為美國猶他大學(xué)計算機系終身教授。研究成果多次獲得了IEEE ICDE、ACM SIGMOD最佳論文獎等重要學(xué)術(shù)獎項。他也是中國計算機協(xié)會CCF大數(shù)據(jù)專家委員會副主任、數(shù)據(jù)庫專業(yè)委員會常委。
以下是采訪實錄:
01、YourStory:數(shù)據(jù)庫技術(shù)正在發(fā)生哪些變化,這項技術(shù)的發(fā)展方向是什么?
李飛飛:數(shù)據(jù)庫是一項成熟的技術(shù),已經(jīng)存在了40年,尤其是關(guān)系型數(shù)據(jù)庫。隨著計算和數(shù)據(jù)上云的趨勢快速發(fā)展,計算和存儲資源池化帶來了系統(tǒng)設(shè)計的顛覆,傳統(tǒng)數(shù)據(jù)庫步履蹣跚。那么什么樣的數(shù)據(jù)庫可以在科技世界中不斷進化獲得快速發(fā)展呢?
云計算為數(shù)據(jù)庫技術(shù)提供了很多機會,目前已經(jīng)有多家云原生數(shù)據(jù)庫公司可以與 Oracle 等公司競爭。云原生數(shù)據(jù)庫將是未來。云計算的本質(zhì)是存儲和計算等資源的虛擬化和池化。這些資源被池化,并以IaaS服務(wù)對外出售。這對系統(tǒng)設(shè)計是個本質(zhì)性的變革,因為系統(tǒng)的本質(zhì)就是如何安全、可靠、高效的使用有限的系統(tǒng)資源。隨著資源池化,云原生架構(gòu)可以提供更好的彈性,并且易于靈活擴展。這也是新的云原生方向的初創(chuàng)公司激增的原因。
以前你要承受固定成本和綁定資源,但是今天你能夠以靈活成本的方式使用資源池。如果你的應(yīng)用在云上,你不但可實現(xiàn)高可用,并且停機時間為零。
現(xiàn)在說回云原生數(shù)據(jù)庫。存儲、網(wǎng)絡(luò)和存儲虛擬化是推動云計算起飛的第一個顛覆性技術(shù),推動了早期云計算IaaS層的蓬勃發(fā)展。技術(shù)顛覆是一層一層發(fā)生的,在那之后平臺層(PaaS)發(fā)生了許多變化,帶來了2015年前后云原生數(shù)據(jù)庫架構(gòu)與算法的出現(xiàn)。
在傳統(tǒng)數(shù)據(jù)庫中,資源(存儲和計算)是捆綁在一起,無法利用池化資源的強大潛力。阿里云的云原生數(shù)據(jù)庫PolarDB,實現(xiàn)了靈活的存儲計算分離。這有利于公司和企業(yè)用戶彈性的進行存儲和計算資源的獨立擴縮容。比如,你可以通過一個按鈕,自動化管理你的資源,包括 CPU 和存儲等。在阿里巴巴,我們使用DAS (Database Autonomy Service)來實現(xiàn)auto scaling形式的自動執(zhí)行和監(jiān)視工作負載,而不需要人員干預(yù)。它是隨需應(yīng)變,富有彈性的,而這意味著企業(yè)可以節(jié)省成本、提升效率。
除此之外,傳統(tǒng)的OLAP數(shù)據(jù)庫系統(tǒng)正在快速的向新一代的云原生數(shù)據(jù)倉庫演變,對海量數(shù)據(jù)提供實時在線的交互式分析服務(wù)。
由數(shù)據(jù)庫系統(tǒng)演變而來的離線計算大數(shù)據(jù)系統(tǒng)也在和數(shù)據(jù)庫系統(tǒng)發(fā)生快速的融合,數(shù)據(jù)庫系統(tǒng)和大數(shù)據(jù)技術(shù)的融合交匯會進一步深入發(fā)展。利用上面提到的云原生架構(gòu)來提供serverless、 存計分離、彈性高可用、高并發(fā)的在線交互式分析和計算是新一代云原生數(shù)倉的發(fā)展方向。阿里云的AnalyticDB (ADB) 正是基于這些原理來設(shè)計和實現(xiàn)的,提供對大數(shù)據(jù)進行高效的在線交互式分析。同時,因為基于數(shù)據(jù)庫系統(tǒng)的體系設(shè)計,ADB同時還具備了支持高并寫入和ACID保證。
展望未來, OLTP和OLAP系統(tǒng)都會向著持續(xù)提升HTAP能力的方向去發(fā)展,與此同時,結(jié)合shared-nothing的分布式架構(gòu)和shared-storage/shared-everything的云原生架構(gòu)會發(fā)生融合,利用云原生+分布式能力來提供下一代企業(yè)級數(shù)據(jù)庫系統(tǒng)。
02、YourStory:什么是NewSQL?
李飛飛:在行話和術(shù)語之外,我先從技術(shù)上解釋這一點,并談?wù)剛鹘y(tǒng)的面向非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)存儲和關(guān)系型數(shù)據(jù)庫管理系統(tǒng)的關(guān)系。
以前,對面向結(jié)構(gòu)化數(shù)據(jù)而設(shè)計的關(guān)系型數(shù)據(jù)庫很重要的要求是需要確保原子性、一致性、隔離性、持久性 (ACID)。這意味在數(shù)據(jù)變更時,要保障一致性。為了確保性能穩(wěn)定運行并提供隔離性,系統(tǒng)設(shè)計需要支持高吞吐量的工作負載并同時確保數(shù)據(jù)一致性和持久性。
谷歌在10多年前改變了這一切。他們相信,這種模式不能與產(chǎn)生大量數(shù)據(jù)的新應(yīng)用一起工作。世界需要的是數(shù)據(jù)庫系統(tǒng)的可用性,而不僅僅是保證持久性、一致性、原子性。現(xiàn)代企業(yè)需要一個高度可擴展的數(shù)據(jù)庫系統(tǒng)來適應(yīng)海量數(shù)據(jù)處理,尤其是面對非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),而不是那些僅僅提供結(jié)構(gòu)化數(shù)據(jù)處理并保證ACID特性的數(shù)據(jù)庫。
10多年前面對這樣的應(yīng)用要求,以Google為代表的互聯(lián)網(wǎng)公司率先利用了部分犧牲ACID保證來換取分布式解決方案進行橫向擴展。Google的三大馬車隨之應(yīng)運而生:GFS (google file system), Google Big Table, Google MapReduce, 這也是所有大數(shù)據(jù)系統(tǒng)發(fā)展的源頭。
這也是為什么會出現(xiàn)Hadoop 這樣大數(shù)據(jù)處理系統(tǒng)的原因。這些系統(tǒng)大約在 10多年前問世,利用傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)技術(shù)和基于BSP模型的并行計算模型,但是放棄了ACID的保障,使用集群資源處理大量數(shù)據(jù), 用戶可以從 100 個節(jié)點擴展到 1000 個節(jié)點,滿足了像流量激增的電商企業(yè)一樣應(yīng)用需求。
與此同時,非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)的海量存儲和處理也蓬勃發(fā)展,衍生出來了豐富的NoSQL生態(tài)體系。隨著近些年數(shù)據(jù)處理技術(shù)的不斷發(fā)展,企業(yè)級應(yīng)用對同時滿足分布式水平拓展和一定程度上滿足ACID保障有越來越強烈的需求,這就催生了 NewSQL 系統(tǒng),簡單來說就是把NoSQL系統(tǒng)和大數(shù)據(jù)處理技術(shù)與傳統(tǒng)的面向結(jié)構(gòu)化數(shù)據(jù)的關(guān)系型數(shù)據(jù)庫系統(tǒng)技術(shù)進行結(jié)合,提供面對多源異構(gòu)數(shù)據(jù)進行分布式存儲、水平拓展并行處理、多模查詢和分析、并提供一定程度的ACID保障。
阿里云NoSQL系統(tǒng)提供了業(yè)界領(lǐng)先的NoSQL技術(shù)并快速的提升其NewSQL能力,提供面向多源異構(gòu)非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)的海量存儲和多模處理。
例如我們的Tair緩存系統(tǒng)(企業(yè)級Redis),多年支持雙11,提供持久化緩存和熱點打散能力;我們的Lindorm系統(tǒng)提供企業(yè)級HBase能力,為海量數(shù)據(jù)的冷存儲和高效處理提供一站式解決方案;我們的TSDB面向海量時序時空和監(jiān)控數(shù)據(jù)提供AIoT的處理能力。與此同時,我們也與提供NewSQL技術(shù)的業(yè)界伙伴例如文檔型數(shù)據(jù)庫MongoDB建立了戰(zhàn)略型合作伙伴關(guān)系。
03、YourStory:是否有面向數(shù)據(jù)科學(xué)家的產(chǎn)品?
李飛飛:我們的Data Lake Analytics"數(shù)據(jù)湖分析"產(chǎn)品,提供一個統(tǒng)一的交互式分析和計算接口來統(tǒng)一傳統(tǒng)和云基礎(chǔ)設(shè)施上的所有數(shù)據(jù)。
Data Lake Analytics可以將關(guān)系數(shù)據(jù)庫、NoSQL/NewSQL 數(shù)據(jù)庫、文件系統(tǒng)、OSS存儲系統(tǒng)等各種數(shù)據(jù)組織成為一個數(shù)據(jù)湖,并創(chuàng)建交互式分析和批量處理功能。Data Lake Analytics實現(xiàn)了結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)結(jié)合的大規(guī)模處理。這有助于數(shù)據(jù)科學(xué)家使用AI和ML 算法一起處理結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。
除此之外,面向多源異構(gòu)數(shù)據(jù)庫實例的管理和開發(fā)流程管理,我們提供了DMS (Data Management Service), 數(shù)據(jù)管理DMS是基于阿里巴巴集團十余年的數(shù)據(jù)庫服務(wù)平臺的云版本,提供免安裝、免運維、即開即用、多種數(shù)據(jù)庫類型與多種環(huán)境統(tǒng)一的web數(shù)據(jù)庫管理終端;可以為企業(yè)用戶快速復(fù)制搭建與阿里集團同等安全、高效、規(guī)范的數(shù)據(jù)庫DevOps研發(fā)流程解決方案。
阿里云還有一款叫DataWorks的產(chǎn)品,提供了大數(shù)據(jù)OS能力、并以all in one box的方式提供專業(yè)高效、安全可靠的一站式大數(shù)據(jù)智能云研發(fā)平臺。同時能滿足用戶對數(shù)據(jù)治理、質(zhì)量管理需求,賦予用戶對外提供數(shù)據(jù)服務(wù)的能力。利用這些工具和產(chǎn)品,數(shù)據(jù)科學(xué)家的工作效率得到提高,因為他們不必花費太多時間去處理底層數(shù)據(jù)。
04、YourStory:AI對于你們而言意味著什么?
李飛飛:云計算改變了一切,因為它推動了數(shù)據(jù)的增長。但是我們離真正的AI還很遠。
我們今天開始使用深度神經(jīng)網(wǎng)絡(luò),但是他們需要大規(guī)模數(shù)據(jù)才能真正有用。目前基于深度學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)的AI 是一個黑盒子,離真正的通用人工智能還非常遙遠,但是應(yīng)用在特定場景下這些AI 技術(shù)已經(jīng)奏效。利用海量標(biāo)注數(shù)據(jù)和訓(xùn)練,它在模式識別、計算機視覺和語音識別等方向取得了一些進展?,F(xiàn)在,它也將影響數(shù)據(jù)庫行業(yè)。
阿里云推出的自治數(shù)據(jù)庫服務(wù)就是基于這個思路和技術(shù)路線,我們的路線圖是使數(shù)據(jù)庫的管控運維盡可能的自動化和智能化,同時也將AI和ML技術(shù)應(yīng)用于數(shù)據(jù)庫內(nèi)核,提升數(shù)據(jù)庫內(nèi)核的智能化程度來處理復(fù)雜的查詢優(yōu)化、內(nèi)存管理等任務(wù)。自治數(shù)據(jù)庫的復(fù)雜性將不斷提升,因為客戶對于數(shù)據(jù)庫的使用存在很大的差別,這使得整個進程的自動化變得有些困難。
但是,我們可以將 AI 用于常見的一些應(yīng)用場景。例如,我們可以利用機器學(xué)習(xí)技術(shù)來自動適應(yīng)系統(tǒng)的工作負載,改進數(shù)據(jù)庫系統(tǒng)的資源分配和參數(shù)設(shè)置來提升系統(tǒng)延遲和吞吐,并使用機器學(xué)習(xí)算法來進行在線實時監(jiān)控確保數(shù)據(jù)庫安全且運行良好。
05、YourStory:工程師加入阿里巴巴時必須關(guān)注哪些未來的技術(shù)?
李飛飛:除了我上面提到的這些點之外,數(shù)據(jù)庫安全也是我們非常關(guān)注的話題。
我們正在建設(shè)LedgerDB將區(qū)塊鏈技術(shù)與數(shù)據(jù)庫系統(tǒng)進行集成,這可以同步并驗證數(shù)據(jù)和日志的完整性并提供不可篡改性。螞蟻金服和我們的云上客戶正使用區(qū)塊鏈技術(shù)跟蹤銀行和商戶之間的交易的完整性。利用安全硬件技術(shù),我們推出了全加密數(shù)據(jù)庫系統(tǒng),可以確保用戶數(shù)據(jù)在數(shù)據(jù)庫系統(tǒng)從傳輸?shù)酱鎯Φ絻?nèi)核處理全程加密,進行無解密處理、計算、和分析,這樣就能確保即使在最壞情況下數(shù)據(jù)庫系統(tǒng)遭到內(nèi)部破壞性攻擊,敏感數(shù)據(jù)也不會被泄露。
除此之外,DMS企業(yè)版提供高效保障數(shù)據(jù)安全研發(fā)流程和運維流程管理,在保障數(shù)據(jù)庫系統(tǒng)安全的同時提升研發(fā)效率。
我們擁有強大和豐富的生態(tài)系統(tǒng), 開發(fā)人員不必擔(dān)心他們了解哪種計算機語言、使用了哪個生態(tài)的數(shù)據(jù)庫系統(tǒng), 阿里云數(shù)據(jù)庫都提供了強有力的支持, 因為我們永遠不會在封閉的技術(shù)和生態(tài)體系中構(gòu)建我們的系統(tǒng)。如果你是數(shù)據(jù)庫或者是數(shù)據(jù)工程師,你不必學(xué)習(xí)所有的新事物,但是你一定要具備和保持學(xué)習(xí)新事物的能力和好奇心。
總結(jié)
以上是生活随笔為你收集整理的阿里云李飞飞:传统数据库步履蹒跚,未来的机会在哪里?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 亿级搜索系统的基石,如何保障实时数据质量
- 下一篇: 阿里云全球发布5大举措!