佰腾科技:专利大数据的云上裂变之路
公司簡介
我們江蘇佰騰科技有限公司是一家從事專利信息應用、專利咨詢服務的企業,是國內知名的知識產權服務公司,以佰騰網和專利巴巴為網絡平臺,面向國內外用戶提供知識產權、科技創新整體解決方案。2014年起,我們公司積極推進互聯網轉型,實施“互聯網+專利”計劃,開發了國內首家專利電商平臺—專利巴巴,通過專利巴巴項目的實施,使公司轉型為知識產權領域內的互聯網公司,并采用B2B、O2O線上線下相結合的模式為客戶提供全方位的、全流程的知識產權一體化服務。
業務痛點
- 急需大數據的處理能力。
- 上百項數據維度的高效存儲和高效處理是我們公司目前急需解決的問題。提升了大數據的處理能力,才能加快專利信息應用的步伐、滿足客戶更多的需求。
- 現在的數據維度比較多,處理環節非常多,需要實現數據處理流程的自動化編排。
- 數據平臺的可擴展問題。
我們公司的專利巴巴產品架構中幾十個組件都要維護,每有一個客戶需求都需要做組件,需要解決數據平臺的擴展性,以便快速支撐各種需求的應用。
解決方案
圖 1.?專利巴巴業務架構
- 數據處理能力:
- 使用MaxCompute平臺代替數據庫。我們上云之前的原始數據處理和數據維度分析都使用了數據庫集群,現在將這兩部分放入了MaxCompute,大幅提升整個數據存儲和處理的效率。
- 通過使用MaxCompute的任務平臺,來編排處理任務。數據都存在MaxCompute表里,因此可以定義MaxCompute函數,訪問表里的內容,并進行相應處理。Shell任務對原始數據進行數據包拆解,拆包后把數據放到MaxCompute,然后通過SQL任務對數據維度進行拆解和分析,這時會用到定義的MaxCompute函數,最后還可以調用一個Shell任務,對數據維度索引,供上層應用使用。
- 數據應用需求:
- 平臺架構分層化設計。按照專利大數據的處理流程和職責明確做了設計,核心是數據維度數據庫。
- 數據獲取層:負責從數據源拉取數據,檢驗數據的完整性。
- 數據處理層:對原始數據進行數據維度的挖掘。
- 數據應用層:對數據維度進行各類索引以便應用。
- 數據服務層:負責對外提供統一的數據服務接口,保障服務質量。
- 數據管控層:負責對整個數據平臺進行運行監控。
- 數據維度規范化處理。我們對于數據維度做了大量的規范性要求:
- 為每個數據維度明確其應用目標。
- 明確數據維度的數據樣式規范。
- 明確數據維度的質量標準。
- 數據維度規范化應用。
- 引擎組件:各類引擎組件用不同的方式對數據維度進行編碼索引,并提供各種特性的數據應用功能。
- 模型系統:對引擎組件的能力進行編排,實現可重用的數據分析能力,提高數據分析應用的復雜度。
- 平臺架構分層化設計。按照專利大數據的處理流程和職責明確做了設計,核心是數據維度數據庫。
上云價值
- 數據的測算之前基于RDS的數據存儲,一個維度的數據處理需要2-3天,現在處理時間縮短到3-6個小時,整個性能提升非常之大;而且,在大量數據處理時,很多時候是處理到80%的時候才會發現數據處理有問題,若處理時間過長,當發現問題時會一切重新開始,浪費的時間非常長。所以在這個場景下,MaxCompute的性能非常可靠。
- 上云之后的大數據處理流程比之前的流程簡單很多。所有數據處理流程都實現了自動化編排,一鍵式處理就可以完全編排,非常高效。
相關產品
- 大數據計算服務 · MaxCompute
MaxCompute(原ODPS)是一項大數據計算服務,它能提供快速、完全托管的PB級數據倉庫解決方案,使您可以經濟并高效的分析處理海量數據。
更多關于阿里云MaxCompute的介紹,參見MaxCompute產品詳情頁。
- 云服務器ECS
云服務器(Elastic Compute Service,簡稱ECS)是阿里云提供的性能卓越、穩定可靠、彈性擴展的IaaS(Infrastructure as a Service)級別云計算服務。云服務器ECS免去了您采購IT硬件的前期準備,讓您像使用水、電、天然氣等公共資源一樣便捷、高效地使用服務器,實現計算資源的即開即用和彈性伸縮。阿里云ECS持續提供創新型服務器,解決多種業務需求,助力您的業務發展。
更多關于云服務器ECS的介紹,參見云服務器ECS產品詳情頁。
- 云數據庫RDS MySQL版
MySQL 是全球最受歡迎的開源數據庫之一,作為開源軟件組合 LAMP(Linux + Apache + MySQL + Perl/PHP/Python)中的重要一環,廣泛應用于各類應用場景。
更多關于云數據庫RDS MySQL版的介紹,參見云數據庫RDS MySQL版產品詳情頁。
- 數據傳輸服務DTS
數據傳輸服務(Data Transmission Service) DTS支持關系型數據庫、NoSQL、大數據(OLAP)等數據源間的數據傳輸。它是一種集數據遷移、數據訂閱及數據實時同步于一體的數據傳輸服務。
更多關于數據傳輸服務DTS的介紹,參見數據傳輸服務DTS產品詳情頁。
- 對象存儲OSS
阿里云對象存儲服務(Object Storage Service,簡稱 OSS),是阿里云提供的海量、安全、低成本、高可靠的云存儲服務。其數據設計持久性不低于 99.9999999999%(12 個 9),服務設計可用性(或業務連續性)不低于 99.995%。
更多關于對象存儲OSS的介紹,參見對象存儲OSS產品詳情頁。
原文鏈接
本文為云棲社區原創內容,未經允許不得轉載。
總結
以上是生活随笔為你收集整理的佰腾科技:专利大数据的云上裂变之路的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 因“智”而治,数据库自动驾驶时代大门即将
- 下一篇: 神结合!一招玩转K8s和微服务治理