mysql 万亿数据_sql-server – 哪个数据库可以处理数十亿/数万亿条记录的存储?...
我們正在研究開發(fā)一種捕獲和分析netflow數(shù)據(jù)的工具,我們收集了大量的數(shù)據(jù).每天我們捕獲大約14億個(gè)流記錄,這些記錄在json格式中看起來(lái)像這樣:
{
"tcp_flags": "0","src_as": "54321","nexthop": "1.2.3.4","unix_secs": "1352234521","src_mask": "23","tos": "0","prot": "6","input": "105","doctets": "186","engine_type": "0","exaddr": "2.3.4.5","engine_id": "2","srcaddr": "9.8.7.6","dst_as": "12345","unix_nsecs": "752265174","sysuptime": "2943529544","dst_mask": "24","dstport": "80","last": "2943523241","srcport": "52672","dpkts": "4","output": "111","dstaddr": "6.5.4.3","first": "2943517993"
}
我們希望能夠?qū)?shù)據(jù)集進(jìn)行快速搜索(少于10秒),最有可能在很短的時(shí)間內(nèi)(10 – 30分鐘間隔).我們還希望索引大部分?jǐn)?shù)據(jù)點(diǎn),以便我們可以快速搜索每個(gè)數(shù)據(jù)點(diǎn).我們還希望在執(zhí)行搜索時(shí)獲得最新的數(shù)據(jù)視圖.留在開源世界會(huì)很棒,但我們并不反對(duì)為這個(gè)項(xiàng)目尋找專有解決方案.
這個(gè)想法是保留大約一個(gè)月的數(shù)據(jù),這將是約432億條記錄.粗略估計(jì)每條記錄將包含大約480字節(jié)的數(shù)據(jù),相當(dāng)于一個(gè)月內(nèi)大約18.7太字節(jié)的數(shù)據(jù),可能是索引的三倍.最終,我們希望增加此系統(tǒng)的容量來(lái)存儲(chǔ)數(shù)萬(wàn)億條記錄.
我們(非常基本上)已經(jīng)對(duì)這個(gè)項(xiàng)目的候選人進(jìn)行了評(píng)估,但是每個(gè)人都提出了自己的挑戰(zhàn).使用couchbase時(shí),索引是按時(shí)間間隔完成的,而不是在插入數(shù)據(jù)期間,因此視圖不是最新的,cassandra的二級(jí)索引在返回結(jié)果時(shí)效率不高,因?yàn)樗鼈兺ǔP枰獟呙枵麄€(gè)集群以獲得結(jié)果,而mongodb看起來(lái)很有希望但是由于它是主/從/分片,因此看起來(lái)更難以擴(kuò)展.我們計(jì)劃評(píng)估的其他一些候選者是elasticsearch,MysqL(不確定這是否適用),以及一些面向列的關(guān)系數(shù)據(jù)庫(kù).任何建議或現(xiàn)實(shí)世界的經(jīng)驗(yàn)將不勝感激.
總結(jié)
以上是生活随笔為你收集整理的mysql 万亿数据_sql-server – 哪个数据库可以处理数十亿/数万亿条记录的存储?...的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: mysql dba失业_DBA要失业了?
- 下一篇: mysql什么格式转换_MySQL日期格