[解密] DNA存储技术究竟牛在哪里?
? ? ? 針對未來存儲密度市場,前期在文章“50TB ExaDrive SSD投入商用”和“HP憶阻器內存和IBM原子磁盤”中,分別介紹了大容量SSD、憶阻SCM和原子存儲技術,但今天給大家普及的是另外一種前衛技術——DNA存儲技。
? ? ? DNA存儲則能提供極大密度,是未來大容量存儲較理想的介質,也是下一代冷存儲的替代品。從原理上來講,DNA存儲是通過DNA中G、T、A和C 4種堿基代表二進制數據(0、1、2和3),理論上1克DNA可存455EB數據。DNA存儲的讀取技術則是采用DNA測序技術實現,DNA測序技術發展迅速,性能每次可達960Gb,成本也很低,性價比已經接近商用;目前的難題在于DNA存儲的寫性能,當前寫性能每天只能達到Mb量級,極高寫成本使得離商用還有很長的路要走。
? ? ? 由于DNA存儲還有很多技術難題需要攻克,DNA存儲目前還是原型概念驗證階段,主要是學術研究機構在從事,至少還需要5年時間才可能有DNA存儲商業產品應用,但從長期投入來看,微軟等廠商覺得是很有投入價值的,這很可能是未來存儲介質市場的切入點,DNA芯片技術、芯片電路設計和測序合成技術結合將可能是繼原子存儲、SCM介質之后的下一個存儲技術熱點。
?
? ? ? DNA存儲是將二進制文件通過編碼映射成DNA里A、T、G和C堿基序列,按序列順序通過人工合成技術形成長鏈DNA來保存數據的方法成為DNA存儲技術,數據寫入即人工合成DNA,數據讀取即DNA測序,數據拷貝即DNA復制,利用DNA中堿基序列編碼存儲二進制數據具體實例如下所示。
?
? ? ? DNA存儲從架構上講,主要包括類似于存儲控制器的編解碼器、數據讀取寫入設備和數據存儲設備,從技術成熟度上講,DNA技術可以支持開發DNA存儲原型,但在成本和自動化等方面還面臨技術的挑戰。
編解碼器(存儲控制器)完成二進制轉換為DNA堿基序列(堿基對A,T,G和C可對應0,1,2和3),對誤碼進行誤碼糾正、文件索引的方法對效率影響大。
寫入設備(寫磁頭)通過DNA合成含有A、T、G和C的DNA數據鏈保存數據,人工合成DNA。當前DNA合成技術已經可以按程序任意組合在DNA鏈條上加入堿基,使得DNA寫入成為可能。
存放設備(磁盤柜)實現DNA存放,單個細胞核23對染色體含30億對堿基可存12Gb數據,1克DNA可存儲EB級數據。
讀取設備(讀磁頭)?實現DNA存儲的讀取,基于DNA測序(Sequencing)技術,目前最常用的測序方法是桑格測序法(Sangar)。
? ? ? Sanger測序的原理是將測序DNA進行大量復制(PCR),將DNA分裝不同試管中,分別加入有剪切作用的染過色的雙脫氧核苷酸ddNTP,反復PCR循環讓DNA復制,當遇到ddNTP復制斷裂,形成長短不一的DNA單鏈,加電出現電泳現象,短鏈DNA游速快,長鏈游速慢,形成長短排序,激光照相,形成排序光譜。
?
? ? ? DNA存儲優勢是顯然意見的,密度理論上1克DNA可存儲455EB數據量,DNA存儲時間也很長,在干冷條件下,可保持100萬年以上,常溫下可保持2000年以上,常溫保存能耗很低,基本不需要電力。但是技術挑戰也與之并存,存儲密度受到編碼效率、備份數量、分類索引等方面的制約,通常比理論密度低。
?
? ? ? DNA存儲編糾錯挑戰:?編碼糾錯的原則是避免重復,重復導致讀錯概率大,最常用的方法是加入驗證信息。在解決誤碼問題上,微軟采用了三進制編碼原理,在4個堿基中,其中一個堿基用作前一位指示,后三位用作0,1,2編碼。
?
? ? ? DNA存儲編索引挑戰:?目前比較流行的一種DNA存儲索引方法叫KV方式,針對文件,以Key-Value的方法形成Key值,將Key值形成文件頭DNA索引和地址,再將文件內容和索引合成DNA。
?
? ? ? DNA存儲寫入合成挑戰:?DNA合成過程是控制4種堿基分別加入DNA合成片段中,將片段鏈接合成較大的片段的過程。DNA合成依然較困難,小片段合成可以在實驗室,但是大規模合成需要專門基因合成服務公司才能完成(如GeneArt,Twist Biosicence)。
?
? ? ? DNA存儲拷貝技術:?DNA復制通常采用成熟的PCR方法,該方法在1983年發明。大致過程是先將DNA雙鏈加熱分開,加入聚合酶、DNA引物和堿基,DNA單鏈開始產生雙鏈實現DNA的復制。
?
? ? ? 關于DNA存儲的技術研究和應用前景十分廣闊,當前主流方向聚焦在密度、保存時間、低能耗等優點,DNA存儲的存取技術(合成和測序技術)得到了快速發展,如果能很好地解決成本性能問題,那么在未來,會極大限度加速DNA存儲取代現有存儲的可能性和進程。
? ? ? DNA存儲在歸檔場景具備占地小、能耗低、密度大的特點,美國國家圖書館、維基百科、Google有意愿將資料備份在DNA存儲上;在軍事用途應用中,可以通過人體攜帶DNA數據,有了DNA存儲技術,我們人體就是“云硬盤”。在個人應用中,未來個人可以隨身攜帶超大容量的DNA USB數據盤。
? ? ? 但歸根結底,DNA存儲商用很大程度依賴DNA合成技術和測序技術的發展,當前測序技術發展較快如Pacbio、Illumina等公司,DNA合成技術發展慢,需要較大的理論和技術突破才可能,在另一方面,這也可能導致未來商用的不確定性。
?
? ? ? DNA存儲技術如其他技術發展,DNA存儲技術的發展也離不開所處的生態環境,目前值得關注的生態圈領域主要包括,DNA芯片、DNA合成技術、DNA測序等。
? ? ? DNA芯片主要包括Affymetrix、Illumina和Affymetrix公司,Affymetrix利用基因芯片,通過原位合成法,大規模生產DNA探針。Illumina和Affymetrix合作開發DNA探針芯片由于測序。DNA合成包括美國IDT美國、德國GeneART、中國華大基因和提供DNA合成服務的Twist公司和微軟合作。
? ? ? DNA存儲至今已有很多成功嘗試,哈弗大學George Church?在2012年首次650KB數據寫進DNA存儲;EMBL歐洲生物信息實驗室2013年將20MB數據寫進DNA存儲;這些都是科研機構的嘗試,但在2016年7月,微軟研究院和華盛頓大學2016年發布DNA存儲原型論文,并在同年7月將200MB的數據放入一段DNA中,引發極大關注,微軟發布DNA存儲原型,并決定推進其商用。
? ? ? 這次試驗打破之前20MB的最高紀錄,發布了新的Error-Correcting Code,適合DNA讀寫錯誤的糾正,同時對DNA數據可以隨機讀取。試驗的成功促使微軟加速推進DNA存儲商業應用的研究。
>>>推薦閱讀
昨天的存儲戰場留下什么值得回憶?
NAND Flash是如何生產出來的?
溫馨提示:
請搜索“ICT_Architect”或“掃一掃”二維碼關注公眾號,點擊原文鏈接獲取更多技術資料。
點擊原文鏈接獲取技術資料
總結
以上是生活随笔為你收集整理的[解密] DNA存储技术究竟牛在哪里?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: mkdir函数
- 下一篇: 存储新纪元:在DNA存储海量信息,商业化