MaxCompute2.0 助力众安保险快速成长
摘要:2017云棲大會阿里云大數(shù)據(jù)計(jì)算服務(wù)(MaxCompute)專場,眾安保險數(shù)據(jù)總監(jiān)王超群帶來MaxCompute助力眾安保險方面的演講。本文主要從MaxCompute優(yōu)勢開始談起,進(jìn)而談及大數(shù)據(jù)能夠?yàn)楣具\(yùn)營帶來的好處,最后重點(diǎn)分析了眾安保險的數(shù)據(jù)平臺建設(shè),包括任務(wù)調(diào)度、元數(shù)據(jù)和數(shù)據(jù)質(zhì)量監(jiān)控等。
?
以下是精彩內(nèi)容整理:
眾安保險作為國內(nèi)第一家互聯(lián)網(wǎng)公司,我們從創(chuàng)立之初計(jì)算平臺就使用MaxCompute。
?
為什么會選擇MaxCompute?
成立之初我們也在自建平臺和MaxCompute上作出了選擇,我們主要從五方面考慮:健壯性、與應(yīng)用系統(tǒng)交互、擴(kuò)展性、強(qiáng)數(shù)據(jù)安全和低成本。
健壯性:7*24的服務(wù)能力、異常恢復(fù)時長;
與應(yīng)用系統(tǒng)交互:數(shù)據(jù)源的獲取與數(shù)據(jù)輸出效率和成本;
擴(kuò)展性:當(dāng)數(shù)據(jù)成倍增長時,計(jì)算能力彈性;
數(shù)據(jù)安全:數(shù)據(jù)異常攻擊防護(hù),提供多層沙箱防護(hù)及權(quán)限體系;
成本:自建成本和MaxCompute成本對比。
首先,2013年能夠提供完整能力的計(jì)算平臺并不是很多,MaxCompute孵化于阿里金融的生產(chǎn)系統(tǒng)驗(yàn)證后對外輸出,支持5000臺以上的計(jì)算能力,滿足我們對彈性和擴(kuò)展性的要求;其次,我們對阿里云專業(yè)能力的信任,可以看到阿里云在國內(nèi)的計(jì)算份額遙遙領(lǐng)先;最后,MaxCompute不僅僅是一個計(jì)算平臺,它還提供了分析和挖掘工具的能力支持,提供可用的IDE(DataWorks、Studio)開發(fā)工具,這會降低我們最初加工開發(fā)過程中的開發(fā)成本。
?
大數(shù)據(jù)能給公司運(yùn)營帶來哪些顛覆?
云計(jì)算和大數(shù)據(jù)整體生態(tài)鏈的發(fā)展如圖,國內(nèi)云計(jì)算年增長率超60%,AWS新增功能數(shù)可觀,云計(jì)算正日益接近生活,從hadoop誕生以來,十年間產(chǎn)品豐富性大大增加,生態(tài)圈越來越大。
?
大數(shù)據(jù)不僅僅在于它的工具、平臺和生態(tài)圈,更在于它能夠賦能于人、場景,通過賦能支持生態(tài)發(fā)展,阿里每天都有上萬人在使用MaxCompute在工作,大數(shù)據(jù)是對人賦能創(chuàng)造的新職業(yè),反過來從業(yè)者也會反饋大數(shù)據(jù),豐富大數(shù)據(jù)的場景,在十年的發(fā)展中,人和資源的投入也在反饋結(jié)果,同時還有資本的良性回報繼續(xù)投入大數(shù)據(jù)行業(yè),形成閉環(huán)。
?
?
眾安是一家以保險為核心的公司,我們提供跨生態(tài)的連接,與各個子行業(yè)進(jìn)行跨生態(tài)合作,包括電商、3C、汽車等,這些產(chǎn)品打通了各個生態(tài)伙伴同時也會增加我們對用戶的接觸,通過與300多個生態(tài)伙伴的合作,我們積累了大量用戶數(shù)據(jù)及信息。最終,我們希望眾安既能服務(wù)這些生態(tài),又能通過數(shù)據(jù)積累、客戶積累、品牌積累來做大做強(qiáng)眾安自己的開放平臺。
截至到2016年底,我們服務(wù)的用戶為4.92億,保單數(shù)72億,為中國互聯(lián)網(wǎng)的新生代提供了第一張保單。其中,30歲以下人群大約占比50%,說明眾安保險代表這新的生活理念方式,而且這群人群有著充足的資產(chǎn)生產(chǎn)能力,他們對保險的認(rèn)可度和意識是更高的,他們是將來的消費(fèi)主力。
?
眾安保險的數(shù)據(jù)平臺建設(shè)
每串?dāng)?shù)字后面都是公司全體員工努力的結(jié)果,那么,基于MaxCompute數(shù)據(jù)平臺做了哪些事情呢?怎樣支撐業(yè)務(wù)快速發(fā)展?
?
?
數(shù)據(jù)平臺分為平臺工具、數(shù)據(jù)監(jiān)控和數(shù)據(jù)服務(wù)。數(shù)據(jù)本身是有多源異構(gòu)數(shù)據(jù),數(shù)據(jù)價值體現(xiàn)在于它的流動性和開放性,只有把數(shù)據(jù)經(jīng)過加工、質(zhì)檢提供到用戶手中,才能產(chǎn)生價值。平臺工具包括MaxCompute、數(shù)據(jù)同步、任務(wù)調(diào)度和計(jì)算存儲管理;數(shù)據(jù)監(jiān)控有預(yù)警系統(tǒng)、元數(shù)據(jù)、血緣關(guān)系和數(shù)據(jù)質(zhì)量;數(shù)據(jù)服務(wù)包括數(shù)據(jù)門戶、自助取數(shù)和服務(wù)API。
?
任務(wù)調(diào)度系統(tǒng)
?
?
任務(wù)調(diào)度本質(zhì)上是要完成數(shù)據(jù)加工工作流的狀態(tài),數(shù)據(jù)加工是一個多鏈路的過程,如何保證數(shù)據(jù)順序的正確性,我們支持日、周、月等不同周期調(diào)度,支持分組優(yōu)先級,支持小時任務(wù),支持自定義時間調(diào)度,日任務(wù)量超1W。
任務(wù)調(diào)度是一個有向圖,每一個節(jié)點(diǎn)都可以看到來源數(shù)據(jù)是非常多的,紅色數(shù)據(jù)代表出錯狀態(tài),藍(lán)色代表成功,綠色代表正在運(yùn)行,黃色是存在的狀態(tài)。不同任務(wù)加工來源于很多的數(shù)據(jù)源,就會給我們帶來困惑,如果信息出現(xiàn)錯誤,那么到底是自身任務(wù)出錯還是上游數(shù)據(jù)源結(jié)果引來的問題呢?那么,怎么讓開發(fā)更快的定位問題,減輕開發(fā)成本,提供統(tǒng)一口徑?我們通過元數(shù)據(jù)來解決。
?
元數(shù)據(jù)
?
?
數(shù)據(jù)包括打通數(shù)據(jù)和數(shù)據(jù)間關(guān)系,利于模型優(yōu)化和異常定位,打通數(shù)據(jù)與人之間的關(guān)系,利于成本優(yōu)化。數(shù)據(jù)關(guān)系包括數(shù)據(jù)字典信息、血緣信息、存儲和產(chǎn)出信息、表責(zé)任人信息和業(yè)務(wù)元數(shù)據(jù)信息,推動存儲計(jì)算優(yōu)化來降低MaxCompute使用成本。
左圖為數(shù)據(jù)間的基本信息,還有數(shù)據(jù)產(chǎn)出信息、血緣關(guān)系;右圖展示表的來源,輸出會影響下一輪哪些表,獲取信息以后,我們會把數(shù)據(jù)和數(shù)據(jù)之間打通,人和數(shù)據(jù)之間打通。
?
?
存儲優(yōu)化后成本下降了30%,通過存儲計(jì)算優(yōu)化降低無效存儲,計(jì)算效率會提升。
?
數(shù)據(jù)質(zhì)量監(jiān)控
?
數(shù)據(jù)質(zhì)量監(jiān)控通過切片方式嵌入到任務(wù)自身執(zhí)行狀態(tài)中,執(zhí)行任務(wù)的自處理,自己判定自己的狀態(tài),基于規(guī)則與模板驗(yàn)證數(shù)據(jù)的準(zhǔn)確性,只有Ok才會被下游使用,這樣避免了數(shù)據(jù)污染,自身暴露錯誤不依賴于下游。它的特點(diǎn)是利用MaxCompute的統(tǒng)計(jì)項(xiàng)收集功能,規(guī)則是統(tǒng)計(jì)項(xiàng)規(guī)則,包含表和字段級別,模板為規(guī)則+周期+統(tǒng)計(jì)函數(shù)的整合,把事后監(jiān)控變?yōu)槭轮斜O(jiān)控,支持用戶自定義,覆蓋重點(diǎn)任務(wù),覆蓋率30%。
?
數(shù)據(jù)服務(wù)與安全
在消費(fèi)時,我們會去考慮哪些東西呢?數(shù)據(jù)是要開放和流通的,在開放和流通中我們還要小心什么?數(shù)據(jù)泄露和安全都會導(dǎo)致公司的災(zāi)難。
?
在技術(shù)上,我們基于ACL與角色管理,賦予不同等級,我們做了表和字段級別的權(quán)限等級控制,建立敏感信息掩碼、涉密信息的加密審批流程,開放與安全,基于技術(shù)控制和流程控制,各種角色需要數(shù)據(jù)。開放基礎(chǔ)是安全控制,開放關(guān)鍵在流程管理,我們在開放與安全間做平衡。
?
在數(shù)據(jù)平臺的建設(shè)中,要保持可用、易用、適用三個階段,需要經(jīng)歷多次迭代升級系統(tǒng)。數(shù)據(jù)即服務(wù),要滿足用戶不同的數(shù)據(jù)需求,數(shù)據(jù)是基礎(chǔ)設(shè)施,每家公司都面臨數(shù)據(jù)平臺的搭建和使用。
?
MaxCompute生態(tài)的豐富,資源與工具的共享,對挖掘算法的深入及支持都可強(qiáng)大到滿足我們的使用需求,我們可以有更多時間去接觸用戶,為用戶創(chuàng)造價值。MaxCompute成本也在逐步下降。未來,希望MaxCompute提供更多種模式支持,包括UDF\資源庫如IP庫,包括挖掘的python算法包、人工智能平臺支持。
?
?
MaxCompute招聘信息:DT時代,與堅(jiān)持夢想者同行!
?
阿里巴巴大數(shù)據(jù)-玩家社區(qū)?https://yq.aliyun.com/teams/6/
---阿里大數(shù)據(jù)博文,問答,社群,實(shí)踐,有朋自遠(yuǎn)方來,不亦說乎……
本文為阿里云原創(chuàng)內(nèi)容,未經(jīng)允許不得轉(zhuǎn)載。
云棲號 - 上云就看云棲號
總結(jié)
以上是生活随笔為你收集整理的MaxCompute2.0 助力众安保险快速成长的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 基于弹性计算的AI推理
- 下一篇: 疫情攻坚战“分秒必争” 宜搭免费开放疫情