云原生人物志|Pulsar翟佳:社区的信任最重要
云原生已無處不在,《云原生人物志》是CSDN重磅推出的系列原創采訪,我們關注云原生中每一個技術人、公司的身影。知微見著,窺見云原生價值與趨勢。
編輯 | 宋 慧
出品 | CSDN云計算
頭圖 | 付費下載于視覺中國
本期我們采訪了 Apache 頂級項目 Pulsar 的 PMC、 StreamNative 公司聯合創始人兼 CTO 翟佳,聽聽他的開源與云原生創業歷程。順便祝讀者朋友們春節快樂。
關于技術人
CSDN: 請先介紹一下您的技術經歷?
翟佳:大家好,我是翟佳,目前是 StreamNative 公司聯合創始人兼 CTO,也是 2 個 Apache 軟件基金會頂級項目 Apache BookKeeper 和 Apache Pulsar 的 PMC 成員。
從畢業之后,我一直堅持在同一個技術方向。在中科院計算所研究生階段,我的主要工作是存儲、文件系統的開發。畢業之后,加入 EMC 接著做文件系統和分布式的設計和開發,EMC 期間有幸接觸和使用到 Apache BookKeeper。BookKeeper 是一個基于 WriteAheadLog 的低延遲、高性能、強一致性的分布式存儲引擎。我所負責的 EMC 項目就是在容器環境之上,將 BookKeeper 作為流存儲的基礎,提供給 Flink 等計算引擎使用。BookKeeper 是基于 WriteAheadLog 的簡單抽象,但是豐富的應用場景給了我很大觸動。所以,在離開 EMC 之后,仍繼續從事基于 BookKeeper 的 Apache Pulsar 的設計和開發。 在持續參與并貢獻 Apache BookKeeper 和 Apache Pulsar 2 個開源項目過程中,我逐漸成為 Apache BookKeeper 和 Apache Pulsar 的項目管理委員會成員。近年來,除了專注技術之外,我也在社區做開源布道、推廣的工作,期望讓更多開發者了解 BookKeeper 和 Pulsar 的優勢與特性。
CSDN:最近在關注哪些領域技術和趨勢?
翟佳:除了開源社區,流存儲、流計算、批流融合、云原生等是我長期以來一直關注的方向。
關于Pulsar、云原生
CSDN:您如何看待云原生在中國的發展?
翟佳:云原生的概念最早是在 2014 年誕生,后來 2015 年 Linux 基金會成立了 CNCF 來推動云原生的發展。在計算機的發展歷程中,從大型機到小型機,再到分布式集群和云計算,是一個逐漸提高計算效率和降低應用開發、運維難度的一個過程。云原生帶來的是計算資源的池化、資源的生態化和資源的標準化。越來越多的人也逐漸認可:云原生是云計算未來的發展方向。
我國是全球最大的單一市場,有超前的大數據與互聯網場景及需求,這是促進云原生技術發展的動力,也為國內云原生技術的發展與繁榮帶來巨大的機會。
CSDN:在云原生領域,Pulsar 是什么角色?
翟佳:Apache Pulsar 于 2016 年由雅虎開源,并在 2018 年 9 月畢業成為 Apache 基金會的頂級項目。隨著社區用戶不斷增多,Pulsar 的功能和生態在不斷豐富與完善,現在也正是 Pulsar 的快速增長時期。
Apache Pulsar 從 2012 年開始設計時就前瞻性地采用了存儲計算分離、分層分片的云原生架構,極大減輕了用戶在消息系統中遇到的擴展和運維的困難;并且它采用專門為消息和流設計的存儲系統,為重要場景提供了可靠的讀寫服務質量和一致性保障——這也是我們說 Apache Pulsar 是云原生分布式消息平臺的理由。
Pulsar 定位于云原生生態中的消息平臺。Pulsar 社區現在有不少工作是讓用戶更方便地借助云原生的優勢,在云環境中把 Pulsar 用作消息服務的基礎。
CSDN:如何平衡社區版本和商業版本?你認為最大的困難是什么?
翟佳:開源社區是 StreamNative 發展的基礎,所以我們團隊現在從事的與 Pulsar 所有相關工作全部開源,不存在開源社區版本和商業版本的區別。在 Apache Pulsar 發布新版本時,StreamNative 都會將團隊內部新的提交(Pull Request)合并回 Apache Pulsar 項目中,StreamNative 公司和社區用戶用的是同一份代碼。StreamNative 作為 Apache Pulsar 社區的維護者,為企業提供最專業的基于 Apache Pulsar 的公有云、私有云和混合云等場景下的托管和運維服務。
談到困難與挑戰,不同階段我們遇到不同的挑戰。在社區初始階段,Pulsar 開源之時已在 Yahoo! 內部大規模穩定運行很長時間,它具備架構、數據讀寫服務質量等諸多功能特性,我們需要讓大家知道 Pulsar 這些優秀的地方,需要讓大家認識到 Pulsar 可以解決的痛點。比如,其他傳統消息隊列場景中系統的橫向擴展性,流場景中系統的運維復雜度等問題。在該階段,社區從 0 到 1 ,Pulsar 的功能和基礎已經具備,需要做社區推廣工作。
現階段,Pulsar 已經吸引了眾多重磅企業和團隊用戶,解決了大家在業務場景中遇到的諸多痛點,這帶來一定的示范效應,吸引到越來越多的用戶進入社區,也給 Apache Pulsar 帶來了更多的應用場景和功能需求。在該階段,做好社區推廣的同時,還要考慮應該如何梳理出社區用戶的共性需求以不斷豐富 Pulsar 的功能和場景,考慮如何持續維護社區的健康發展等等問題。
CSDN:全球與中國用戶使用Pulsar,有哪些案例和故事可以分享?
翟佳:這一點是我們很樂意與大家分享的地方。伴隨著 StreamNative 與社區的共同努力,目前 Apache Pulsar 落地場景越來越多,也看到越來越多重磅案例出現。
智聯招聘作為國內 Apache Pulsar 最早落地案例給了我們很大鼓舞。智聯招聘內部面臨 RabbitMQ 的擴展性問題,想要尋求一種消息服務,期待同時滿足擴展、數據讀寫服務質量兩方面的需求來作為內部的消息總線,但是調研過很多項目與產品都不能滿足團隊需求。后來,他們先調研到 Apache BookKeeper,發現 BookKeeper 可以提供很好的擴展性和數據服務讀寫質量,準備基于 BookKeeper 之上添加消息功能的實現。偶然的機會讓他們發現了 Pulsar,一下感覺到這就是他們想要做的東西。當時有“知音相遇恨晚”的感覺,我們強烈感受到智聯招聘團隊對 Apache Pulsar 的渴望和熱愛,我們也為 Pulsar 能夠解決用戶的痛點感到激動。于是一拍即合,開始了 Apache Pulsar 在智聯招聘的落地旅程。雖然 RabbitMQ 當時承接智聯招聘的線上系統,但是從 RabbitMQ 遷移到 Pulsar,從灰度、上線到全部替換 RabbitMQ 整個過程特別迅猛。
對消息的兩個場景,線上業務典型案例是騰訊計費平臺,線下數據分析典型案例是短視頻應用 BIGO:
騰訊計費平臺不單對系統擴容有要求,同時也對數據服務質量要求嚴苛,騰訊計費平臺利用 Apache Pulsar 處理日均 100億+ 交易請求,日均消費 10T+ 數據,承載了騰訊集團每日數億收入大盤,托管賬戶總量達 300 多億;
BIGO 的案例是大家在 Stream 場景中經常遇到的集群運維這一痛點。BIGO 借助 Apache Pulsar 與大數據生態系統的良好融合構建了實時推薦和分析系統,助力業務快速發展,降低了原來 Kafka 集群運維成本與難度,特別是擴容縮容的人力成本。
除此之外,我們還有很多部署并使用 Pulsar “歷史已久” 的公司。作為用戶中的先驅者,例如國外的 Yahoo!Japan、Splunk,國內的 EMQ、中國電信等都是 Pulsar 的老用戶。Pulsar 幫助 Splunk 將成本降低了 1.5 - 2 倍,延遲降低了 5 - 50 倍,運營成本降低 2 - 3 倍;在 Yahoo! 的部署中,Pulsar 支持同等規模的業務量,還在保證更高數據服務質量的情況下,消耗只有 Kafka 的一半的實際硬件資源成本。以上幾個公司不但在內部擴大 Pulsar 的使用場景,而且不斷為 Pulsar 貢獻新功能、為社區分享經驗。
在今年 11 月底,我們舉辦了 Apache Pulsar 首屆亞洲峰會。在峰會中有很多來自社區的場景案例,諸如物聯網、證券交易與金融科技、電信計費、互聯網直播、在線教育、即時零售與物流配送、電子商務、人工智能等等行業,落地場景越來越豐富,目前正呈現出爆發趨勢。
Apache Pulsar 自身的云原生架構設計、專用的消息存儲引擎以及跨地域復制和多租戶等眾多的企業級特性,吸引越來越多的用戶落地 Apache Pulsar。我們在與社區用戶的合作過程中發現大家都有相似的經歷:在快速增長業務的壓力面前,已有的系統面臨著諸多技術痛點,包括系統的擴展、數據服務質量等。改造現有系統極大耗費了人力與精力卻收益慎微,在轉向 Pulsar 的過程中,越來越體會到 Pulsar 的優勢,認識到 Pulsar 新的能力和價值,在用戶的使用規模、使用場景都突破了當時的規劃。
關于開源
CSDN:Pulsar 現在已經是非常知名的項目了,在 Apache 軟件基金會孵化期間的收獲是什么?
翟佳:Pulsar 在 2016 年由 Yahoo 開源,后面捐贈給 Apache 軟件基金會進入孵化器孵化,并在 2018 年畢業成為頂級項目。在 Apache 基金會孵化期間,主要目標之一就是遵循 Apache 軟件基金會成熟的機制與流程使 Pulsar 在項目、社區等層面更好地實踐“Apache之道”,打好項目與社區快速發展、健康多元的基礎。Apache 軟件基金會的品牌影響力也為 Pulsar 帶來了一些幫助。
在 Apache 軟件基金會項目孵化期間,新項目主要會接受「Apache 之道」(Apache Way)的輔導,以及與 Apache 基礎設施融合、Apache 軟件協議的合規等等事項。關于「Apache 之道」,主要包括如下原則:贏得權威、同儕社區、公開溝通、共識決策、項目自治、獨立自主、社區勝于代碼。其中「社區勝于代碼」這一條應該是被 Apache 社區引用最廣泛的一條,對 Apache 軟件基金會項目來說,一個健康的社區比高質量的代碼具有更高優先級,擁有強大的社區可以修復糾正代碼層面的問題,這也是 Pulsar 努力構建持續活躍社區的原因所在。
CSDN:Pulsar 作為下一代云原生消息和流平臺,在云原生方面有哪些優勢和具體支持?
翟佳:我從四個方面來談談 Pulsar 在云原生方面的優勢與支持情況。
在資源池化方面,Apache Pulsar 由于存儲計算分離以及節點對等的架構,可以支持千級節點規模的服務集群和存儲集群。單一大集群的能力結合 Pulsar 原生的多租戶管理,可以讓管理者把 Pulsar 作為一個大規模的消息服務資源池,消費者按需消費。
在資源生態化方面,Pulsar 對 Topic 在邏輯分區之上進行物理分片的存儲模式,在存儲層很自然地做分層處理。這樣在云上和云上的存儲資源很好的整合,利用分層的存儲架構,為批、流計算構建了統一的存儲基礎。
在輕量級計算方面,Pulsar Functions 的設計和無服務器架構(Serverless)的理念相匹配,同時借助云上的資源調度和管理工具,可以為用戶提供便捷、直接的輕量級函數式計算服務。
同時,Pulsar 提供了各種 connector 方便用戶連接其他大數據生態,讓用戶在云上更加便捷地使用 Pulsar 來作為基礎消息服務。
CSDN:如何保持 Pulsar 社區的活躍度?有什么好的方法分享?
翟佳:保持 Pulsar 社區的活躍與健康成長,是個長期命題。不同階段有不同的任務和要解決的問題,目前 Pulsar 社區內部的互動相當活躍,接近形成了一個積極互助、自運轉的社區。一個活躍的社區,最根本是項目本身功能和特性真正為社區用戶帶來方便、創造價值、解決大家痛點,否則即使投入再多資源也只能是徒有其表、虛假繁榮。
在方法上,首先公司要認識到和社區之間相輔相成的重要關系。只有公司全力投入社區才能帶來社區的信任;有了對社區的信任,用戶才會緊緊擁抱社區、不斷參與貢獻、提出改進;這樣公司才能和社區一起不斷往前發展。
在技術方面,Pulsar 一直保持版本的快速更新,持續開發與其他開源系統的集成生態,并在社區貢獻者的幫助下開發新功能新特性;在社區方面,除了 StreamNative 團隊成員,更多的還是眾多熱愛 Pulsar 的社區成員的參與,很多成員都有對 Pulsar 的線上開發經歷,在部署和應用方面擁有豐富的經驗,并且很樂意和他人探討、解決問題。
StreamNative 組織各種活動促進社區的交流與成長:疫情前的線下 Meetup, 疫情期間的線上峰會、社區開發者會議等等。我們近期發起了面向 Apache Pulsar 社區的“社區大使計劃”,意在發現、挖掘更多社區愿意貢獻的小伙伴,共建更美好的 Pulsar 社區;在文檔方面,我們一直在挖掘代表性的用戶案例并持續跟進,為社區小伙伴提供參考。我們也一直在補充、完善、改進 Pulsar 技術文檔,并鼓勵更多貢獻者參與文檔的建設,讓用戶的操作、問題破解都有據可依。
關于創業
CSDN:為什么選擇創業?
翟佳:我和大多數技術人的理想和信念是一樣的,相信技術的力量和價值。即使過了“萬眾創新、大眾創業”的激情年代,我和團隊伙伴們仍然選擇相信“技術改變世界”。
我們 StreamNative 創始團隊成員從 Pulsar 和 BookKeeper 項目誕生之初就投入其中,有著近十年的積累。在 Pulsar 和 BookKeeper 歷經 Yahoo、Twitter 線上長期的磨礪和迭代的過程中,我們親身見證經歷了 3000+ 節點規模的 Pulsar 存儲集群開發、搭建和運維。我們明確體會到 Pulsar 在架構和功能方面的優勢,以及與“云原生”方向的契合和一致性。
在眾多客戶場景的落地案例中,我們看到開發者對 Pulsar 的架構和產品的認可,也使我們堅信 Pulsar 誕生的初衷能夠實現,能夠解決用戶在消息這個場景中的各種痛點。
外加近年來開源商業化模式不斷成熟,在 Spark、MongoDB、ElasticSearch、TiDB 等開源項目背后都有商業公司在崛起,我們認為 Pulsar 和 StreamNative 有同樣的機會。
CSDN:現在 StreamNative 有多少人?研發占比多少?研發團隊的技術文化是什么?
翟佳:我們有中美兩個團隊,現在有越來越多的優秀小伙伴加入進來。目前團隊規模超過35人,其中工程師占比 80% 左右。和比較成熟穩定的團隊相比,我們仍處在快速發育階段。
公司以 OKR 為衡量標準,支持彈性辦公、全員遠程辦公,國內小伙伴分布在北京、上海、杭州、天津等地,大家日常借助 Slack、GitHub、Zoom 及 Google 等優秀的線上協作工具進行溝通與協作,提倡異步溝通,追求溝通與解決問題的最高效率。團隊小伙伴都有著豐富的軟件開發與開源項目貢獻經歷,自驅力比較強,大家對開源精神、敏捷文化和結果導向都高度認同,研發團隊是扁平的典型的工程師文化。
CSDN:2021年,對 Pulsar 和 StreamNative 的計劃有哪些?
翟佳:我們對 2021 年充滿了期待。在 Apache Pulsar 社區與生態方面:
- 我們計劃在 2021 年第一季度迎來 Pulsar 2.8.0 大版本的發布,屆時將有更多重磅功能推出;也聯合社區貢獻者不斷增加更多功能特性,增強與其他開源大數據生態系統的融合;
- 我們將繼續在全球豐富 Pulsar 社區年度峰會舉辦的地區,隨著疫情的改善我們也將組織國內更多城市的 Pulsar 線下活動,并積極與其他開源社區互動;
- 我們將持續構建健康、多元和具有活力的 Pulsar 社區,增強社區內部的互動。通過大使計劃、社區開發者會議等更多的形式增強社區的活力,讓更多的貢獻者通過多樣的形式參與 Pulsar 的構建;
- 我們將投入更多精力在 Pulsar 中文社區的建設與完善上,并不斷改善并加強多種語言的 Pulsar 文檔建設;
- 隨著越來越多用戶對 Pulsar 的關注,我們會提供更多的 Workshop 和培訓,引領大家開始脈動之旅。
在對 StreamNative 計劃中,我們將繼續完善 StreamNative 的云產品,支持將 Pulsar 部署在更多的國內外云服務廠商,以及私有云混合云的環境中,優化產品體驗,并繼續保持與社區的全力投入,促進 Pulsar 社區發展。除此之外,隨著眾多歐美付費客戶的增多,團隊的規模也在不斷壯大,我們正在吸納各方面人才,也歡迎更多志同道合的小伙伴加入我們。
往期報道:
“寒武紀大爆發”之后的云原生,2021年走向何處?
梁勝:做開源項目的貢獻者沒有意義
華為云CTO張宇昕:云原生已經進入深水區
APISIX 溫銘:開源的本質是要拿開發者的杠桿
總結
以上是生活随笔為你收集整理的云原生人物志|Pulsar翟佳:社区的信任最重要的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 央视315曝光SDK事件,应用开发者如何
- 下一篇: 我们为什么需要云原生?看完这一篇就够了