SDCC 2016数据库峰会(深圳站)学习笔记
本文主要查閱了SDCC 2016數據庫峰會(深圳站)PPT合集后的學習筆記,在此記錄。下面的幾個標題是各個PPT的文件標題。
01 金融大數據技術與實戰-平安科技-王健宗
- 背景
3月15日,持續七天的圍棋“人機世界大戰” 落下帷幕,谷歌的人工智能機器人 AlphaGo 以4:1大比分戰勝圍棋世界冠軍李世乭九段。此戰成名的智能機器人AlphaGo利用“策略網絡(Policy Network)” 和“值網絡(Value Network)” 兩大核心深度神經網絡,分析棋盤局面,在可控計算量的范圍內判斷每步下子策略的優劣。
- 問題的提出
人工智能下一個進軍和顛覆是金融界?智能投顧,是虛擬機器人基于投資者自身的理財需求,通過算法和產品來完成以往人工提供的理財顧問服務。用戶無需掌握太多市場和金融產品知識就可以使用該服務?;谌斯ぶ悄懿季纸鹑诖髷祿?#xff0c;具體形式如下:
相關的概念
深度學習技術(擅長對非結構化數據處理)
卷積神經網絡(CNN)是人工神經網絡的一種,已成為當前語音分析和圖像識別領域的研究熱點。它的權值共享網絡結構使之更類似于生物神經網絡,降低了網絡模型的復雜度,減少了權值的數量。
基于卷積神經網絡的深度學習技術:包括卷積層(特征提取)和降采樣層??捎糜趫D像識別(字符識別、物體識別)和語音識別等。利用圖像的空間聯系是局部的,我們使每個神經元只感受局部的圖像區域,然后在更高層中,將這些感受不同局部的神經元綜合起來就可以得到全局的信息。
異構運算體系( HSA) 在計算任務并行性類型基礎上, 將具有相同類型的代碼段劃分到同一子任務中, 然后根據不同并行性類型將各子任務分配到最適合執行它的計算資源上加以執行, 達到使計算任務總的執行時間為最小。
異構計算采用GPU計算,因為GPU具有更強的計算力和更高的帶寬。相比于CPU,GPU更多的晶體管都用來做計算而不是做cache和flow control。
深度學習在金融場景中的應用
智能推薦(用戶推薦反饋分析、基于深度學習的推薦系統設計、面向高凈值客戶的精準推薦)
風險控制(金融產品用戶欺詐行為模式檢測、虛假信息智能過濾、基于用戶信用特征的信用評分體系)
智能問答(智能問答機器人的語料庫構建、基于深度學習的NLP技術應用、自動問答智能模型搭建)
社交大數據與LBS服務( 個體及群體用戶金融行為分析、群體的金融同質性及影響力分析、面向社交群體的LBS服務)
眾包
定義:一種分布式的問題解決和生產模式。 問題以公開招標的方式傳播給未知的決方案提供者群體。用戶(指眾包里的“眾” )典型地組成在線社區并提交方案。這些最好的方案最后由最先提出問題的一方(眾包人, crowdsourcer)所有,并且群“眾”中勝出的個人時會被獎勵。(此定義來源于“維基百科”)
主要的眾包平臺:亞馬遜Mturk (AMT)、CrowdFlower、Captricity、微差事、DesignCrowd、豬八戒網等。
- 亞馬遜Mturk (AMT),具有面向全球,擁有龐大的用戶群,任務形式自由多樣等優勢。但是Worker市場水平參差, 準入門檻較低。
- CrowdFlower,具有專注數據分析細分領域,提供完善的數據眾包服務優勢。但是服務更新較慢。
- Captricity,針對手寫、掃描、打印等多種文本提供識別功能,融合了機器學習技術,提升了眾包結果的準確性。但是市場規模仍然較小。
- 微差事,借助穩固的市場和移動眾包的核心獲得迅速發展,任務形式簡單易用, 獲得年輕群體的青睞。但是任務發布總量較小。
02-丁奇-SDCC-數據庫系統化實戰(數據庫運維幸福感提升實戰)
人物介紹:阿里丁奇 RDS 數據庫內核組、 MySQL/PG 源碼&運維團隊 SQLServer 運維團隊
(上海/杭州)
可靠性
- 說說備份
- 一主一備夠嗎——誤操作
- 定時備份夠嗎——恢復到任意時間點需求
- 備份對不對——備份驗證問題
- 恢復過程對不對——新備庫驗證
- 主備一致性問題
- 備庫跟主庫一致嗎——如何驗證、如何修復
- 無法按片修復的時候怎么辦——主庫備份、備庫重做
可用性
- 備庫運行可靠性
- 備庫是否正常工作、延遲及解決
- apply 線程的各種錯誤(1062/1032、myisam表crash, 需要repair、relay解析錯誤、找不到主庫對應binlog)
- 連接閃斷問題背景(機器維護/版本升級 總要切換)
- 連接保持解決方案(引入proxy、連接保持、事務外切換)
- 自建庫解決方案(應用做異常重連重試、教育開發!)
- 雪崩問題背景(剛剛誰說的重試?一個超時重試引發的血案)
- 自建庫解決方案(監控+kill)
- 源碼解決方法(select max_statement_time=1000 ….)
- ……
穩定性
- 資源隔離(進程間資源隔離、線程間資源隔離、只讀庫方案)
- 基本監控及基本判斷
可診斷性(鏈路監控、審計日志、審計日志的實現方式)
03-張翼-攜程實時計算平臺實踐分享 Base
人物介紹: 攜程的大數據平臺負責人,關注大數據架構領域的發展, 對Hadoop,HIVE, HBASE, Spark, Storm等有所研究,致力于大數據架構和業務場景的結合和落地,通過數據產生業務價值。
04-馬如悅-palo-201604
Palo:MPP-based Interactive SQL Data Warehousing
- Online Data Serving、
- Palo:大規模并行分析型數據庫(OLAP)
- TDB:分布式事務型數據庫(NewSQL)
- SimpleDB:高性能(實時+批量) KV數據庫
- Elasticsearch:文本型數據查詢和分析數據庫
05-雷海林-mysql備份原理與在TDSQL中的實踐
人物介紹:騰訊 / TEG / 計費平臺部。2007年加入騰訊公司,10年以上的Linux后臺Server開發經驗,之前重點負責高一致性分布式Cache系統的設計開發(HOLD平臺),目前是TDSQL的技術負責人。
備份的意義和基本原理
主要用來做數據恢復(錯誤的SQL業務/數據庫本身的Bug/黑客攻擊/審計或者測試,回檔到指定時間點/DBA睡覺踏實)
備份的基本原理-多引擎的結構。MySQL-server層包括binlog、innodb、其他引擎如MyISAM等、表結構.frm文件
- 備份的基本原理-如何獲取數據
- 核心是一致性全量數據+BINLOG位置
- 離線備份
- 停機
- 鎖表,FLUSH TABLES WITH READ LOCK
- 在線熱備份
- 邏輯備份,select獲取一致性數據+BINLOG位置
- 物理備份,拷貝一致性數據文件+BINLOG位置
mysqldump分析
FTWRL鎖的分析
邏輯復制的性能優化
xtrabackup原理分析
方案對比和選型建議
TDSQL目前采用的備份方案
總結
根據查閱這些PPT,發現數據庫系統包含很多內容,圍繞可靠性、可用性、穩定性和可診斷性的目標展開。對于各個企業的數據庫相關大牛的分享,他們介紹了如何保證數據庫系統的性能以及實現更強大的功能的數據庫技術。
總結
以上是生活随笔為你收集整理的SDCC 2016数据库峰会(深圳站)学习笔记的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 微软 Edge 109 用户反馈本次更新
- 下一篇: 单日对弈最高 3170 万次,国际象棋机