當(dāng)前位置：首頁 > 编程资源 > 综合教程 >内容正文

综合教程

你身体里的DNA 能存下整个宇宙的数据

發(fā)布時(shí)間：2023/12/13 综合教程 34 生活家

生活随笔收集整理的這篇文章主要介紹了你身体里的DNA 能存下整个宇宙的数据小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

恐龍滅絕6000多萬年后，科學(xué)家們獲得了一塊有史前蚊子的琥珀，從蚊子血中獲得了恐龍的基因，從而讓遙遠(yuǎn)的生物復(fù)活。

講這個(gè)故事的《侏羅紀(jì)公園》，至今仍位列全球電影票房前十。這個(gè)系列故事的原理很簡(jiǎn)單：DNA存儲(chǔ)了恐龍的生物信息，科技讓它重新表達(dá)。

現(xiàn)在，用DNA想象另一個(gè)故事：在宇宙長(zhǎng)河中，“人類世紀(jì)”也寂滅了。另外一種智慧生物出現(xiàn)，TA們?nèi)ヌ骄窟h(yuǎn)古的“人類文明”。有什么會(huì)承載人類文明的記憶？氣溫異變，地球上的龐大數(shù)據(jù)中心徒留遺跡。

凍土中有一份DNA，它很輕，只有1公斤，看起來是一些被封裝在膠囊里的白色粉末。讀取后，里面卻記載了地球上曾有的巨量信息。視頻、文字、代碼展現(xiàn)了人類歷史進(jìn)程中的無數(shù)發(fā)明和文藝作品。

于是那個(gè)遙遠(yuǎn)文明的痕跡在宇宙間再次展開。

這是另一個(gè)科幻設(shè)定了。背后的技術(shù)正是目前被關(guān)注的一個(gè)前沿方向：DNA存儲(chǔ)信息。

在大自然里，DNA負(fù)責(zé)存儲(chǔ)遺傳信息。單個(gè)人體細(xì)胞的平均直徑是5到200微米，這其中的DNA可以包含一個(gè)人全部的遺傳信息：30億對(duì)堿基。

那為什么不能用堿基存儲(chǔ)別的信息？這個(gè)科幻般的設(shè)想，正在走出實(shí)驗(yàn)室，被當(dāng)作信息存儲(chǔ)的未來方案。

本來是生物學(xué)家想解決生物學(xué)發(fā)展的問題。

11年前，一群生物信息學(xué)家在德國的一家酒店里討論“數(shù)據(jù)存儲(chǔ)問題”。NickGoldman也在其中，那是他在歐洲生物信息所（EBI）擔(dān)任高級(jí)科學(xué)家的第二年。

大規(guī)模的基因組測(cè)序正在進(jìn)行，隨之產(chǎn)生的數(shù)據(jù)規(guī)模快速增長(zhǎng)。存儲(chǔ)、壓縮這些數(shù)據(jù)是個(gè)麻煩事，現(xiàn)有的技術(shù)方案看起來不太行。

生物學(xué)家們陷入了沮喪。

NickGoldman拿著存儲(chǔ)了莎士比亞所有十四行詩、一張照片和“我有一個(gè)夢(mèng)想”演講片段的DNA｜來源：EBI

有人靈光乍現(xiàn)：是什么東西阻止了我們用DNA來儲(chǔ)數(shù)據(jù)呢？

看起來是一句玩笑話，但是生物學(xué)家們意識(shí)到了這不僅僅是個(gè)玩笑，他們拿起手邊的餐巾紙，用圓珠筆認(rèn)真計(jì)算起可行性。

DNA存儲(chǔ)遺傳信息的原理并不復(fù)雜，它由四種核苷酸A、T、G、C組成，彼此兩兩對(duì)應(yīng)，組成雙螺旋結(jié)構(gòu)。核苷酸的序列，記錄了遺傳信息。

在數(shù)字世界，所有的信息本質(zhì)上是0和1組成的數(shù)據(jù)串。想要DNA存儲(chǔ)數(shù)字信息，簡(jiǎn)單理解，原就是將0和1的編碼序列轉(zhuǎn)換成核苷酸的序列。DNA存儲(chǔ)的優(yōu)勢(shì)在于密度大，大約在你眼前逗號(hào)這么大小，1立方毫米的DNA，就可以容納9TB（1TB=1024GB）的信息。

用DNA存儲(chǔ)數(shù)據(jù)，也并不是完全新的想法，之前就有科學(xué)家嘗試過。不過屬于科學(xué)和藝術(shù)的先鋒跨界實(shí)驗(yàn)。

1988年，藝術(shù)家Joe Davis和哈佛大學(xué)的研究員，將一副名為“小維納斯”（Micro Venus）的圖案存儲(chǔ)到DNA短鏈中。

存儲(chǔ)進(jìn)DNA的小維納斯（microvenus）圖片來源：相關(guān)論文

在那次酒店討論的2年之后，2013年，Goldman團(tuán)隊(duì)發(fā)表了研究成果。這次，他們存儲(chǔ)了5種不同格式的文件，一共有0.75MB。為了確保信息讀取不出錯(cuò)，科學(xué)家存儲(chǔ)的時(shí)候，每份信息按照四倍冗余的量來存儲(chǔ)。

五個(gè)文件分別是：

－ 154首莎士比亞的14行詩（ASCII編碼格式）

－提出DNA雙螺旋結(jié)構(gòu)的論文（PDF版）

－一張照片（JPEG格式）

－馬丁·路德金“我有一個(gè)夢(mèng)想”演講其中26秒片段（MP3格式）

－一串霍夫曼密碼

這些年，DNA存儲(chǔ)容量的上線不斷被突破。2019年，美國一家創(chuàng)業(yè)公司Catalog在DNA中存儲(chǔ)了16GB的維基百科。這個(gè)公司表示自己正在建設(shè)世界上第一個(gè)基于DNA的大規(guī)模數(shù)字?jǐn)?shù)據(jù)存儲(chǔ)和計(jì)算平臺(tái)。

在一些生物學(xué)家看來，用DNA來存儲(chǔ)是一件非常“順滑”的事。“大自然的編碼語言非常類似于我們?cè)谟?jì)算機(jī)領(lǐng)域使用的二進(jìn)制語言。在硬盤上我們使用0和1來代表數(shù)據(jù)，而DNA中，我們擁有4種形式的核苷酸，A、C、T和G”。在瑞士聯(lián)邦理工學(xué)院的生物學(xué)家RobertGrass說。

方案可以很簡(jiǎn)單。比如：A對(duì)應(yīng)00，C對(duì)應(yīng)01，G對(duì)應(yīng)10，T對(duì)應(yīng)11。然后再按照所需要的核苷酸序列，像串珠子一樣，把核苷酸們串成一串。（這就是DNA合成）需要讀取信息的時(shí)候，再運(yùn)用基因測(cè)序技術(shù)，把這一串核苷酸序列讀取出來，再翻譯成0和1的字符串。這個(gè)流程就是編碼—DNA合成—測(cè)序—解碼。

這個(gè)聽起來像是“把大象裝進(jìn)冰箱”的流程，操作起來需要考慮的問題還有很多。不然科學(xué)家就不必一直研究新的編碼方案了。

在自然界存在的DNA中，A和T，C與G兩兩配對(duì)，在一條DNA中，CG與AT的存在比例基本均勻，為50%左右。如果C和G的含量過高，可能會(huì)讓DNA鏈產(chǎn)生一些復(fù)雜的物理結(jié)構(gòu)。這就會(huì)讓DNA測(cè)序（解碼）變得復(fù)雜。

DNA存儲(chǔ)的步驟｜來源：DNADataStorageAlliance

目前人工合成DNA的單鏈的長(zhǎng)度一般不超過100個(gè)堿基，極限在300個(gè)堿基左右。而在自然界的DNA動(dòng)輒有幾千個(gè)堿基對(duì)。

也就是說，雖然DNA的存儲(chǔ)能力很強(qiáng)，但它們不得不以很多條短鏈的方式存在。如果存儲(chǔ)的信息量比較大，這些DNA短鏈就像一本散裝的書。它可以存儲(chǔ)很多信息，存在形式卻是一張張標(biāo)著頁碼的紙。

當(dāng)然，可以將一條條DNA短鏈拼接成長(zhǎng)鏈。這就意味著增加了一道工序。在測(cè)序的過程中，又需要把長(zhǎng)鏈打斷成短鏈。這是因?yàn)槟壳凹夹g(shù)還不能一次性讀取長(zhǎng)鏈。

在測(cè)序的過程中，也存在錯(cuò)誤率。盡管目前的錯(cuò)誤率已經(jīng)低至10^-3數(shù)量級(jí)，比起商業(yè)硬盤的讀寫錯(cuò)誤率，仍相差至少9個(gè)數(shù)量級(jí)。

正確率受到合成和測(cè)序這兩項(xiàng)技術(shù)的影響，科學(xué)家想到設(shè)計(jì)編碼方案來避免：在編碼中增加糾錯(cuò)機(jī)制。這樣，哪怕堿基合成和測(cè)序中出現(xiàn)了錯(cuò)誤，依舊能夠保證被存儲(chǔ)進(jìn)DNA的內(nèi)容能夠被正確讀取出來。

DNA存儲(chǔ)也正在嘗試走出實(shí)驗(yàn)室。

2020年10月，微軟、西部數(shù)據(jù)和基因測(cè)序巨頭Illumina、DNA合成初創(chuàng)公司Twist Bioscience等聯(lián)合成立了DNA數(shù)據(jù)存儲(chǔ)聯(lián)盟。

這是世界上第一個(gè)該領(lǐng)域的學(xué)術(shù)和產(chǎn)業(yè)鏈聯(lián)盟。這個(gè)聯(lián)盟希望制定技術(shù)和格式標(biāo)準(zhǔn)，最終建立一個(gè)可以通用的商業(yè)系統(tǒng)。

微軟研究院在2015年就成立DNA存儲(chǔ)的項(xiàng)目，并聘請(qǐng)了華盛頓大學(xué)的計(jì)算機(jī)科學(xué)與工程學(xué)院的副教授KarinStrauss擔(dān)任高級(jí)首席研究經(jīng)理（Senior Principal Research Manager）。

2013年，她和同事去英國EBI訪問，了解到Goldman和同事們關(guān)于DNA存儲(chǔ)的研究，就對(duì)這個(gè)方向產(chǎn)生了很大的興趣。Strauss說：“DNA的密度、穩(wěn)定性和成熟度讓我們興奮。”

在他們的研究中，想開發(fā)的是另一個(gè)功能：隨機(jī)讀取。常見的DNA測(cè)序技術(shù)中，必須要將所有的堿基串一次性讀取完，才能夠獲得信息。要么不讀取，要么全讀。如果只想要數(shù)據(jù)中的某一個(gè)小片段，就會(huì)非常麻煩。

2016年，他們發(fā)表了一項(xiàng)研究，可以在DNA已經(jīng)存儲(chǔ)的信息中搜索到指定的圖像，定位后，用酶來復(fù)制所需的DNA片段，然后只需讀取這一小段即可。

KarinStrauss（右）和兩位研究合作者｜來源：csenews

要讓DNA存儲(chǔ)離商用更進(jìn)一步，還需要解決合成速度和成本。現(xiàn)在合成速度是每秒存儲(chǔ)上千個(gè)字節(jié)（KB），成熟的云存儲(chǔ)方案已經(jīng)有每秒千兆字節(jié)（GB）以上。

這意味著，編寫DNA的速度還需要提升6個(gè)數(shù)量級(jí)。如何讓提升數(shù)據(jù)處理量？就像并行計(jì)算能夠提升數(shù)據(jù)處理速度，科學(xué)家希望DNA在合成時(shí)也可以并行多條，同時(shí)處理。

2021年，微軟開發(fā)出首個(gè)納米級(jí)DNA存儲(chǔ)器，能夠在每個(gè)平方厘米的區(qū)域上，同時(shí)合成25X106（2650）條堿基序列。這個(gè)新的技術(shù)把原來同時(shí)合成堿基序列的數(shù)字從個(gè)位提升到了千位。這個(gè)吞吐量，讓DNA合成速度變成了每秒兆字節(jié)（MB）。

新的方法讓DNA合成的陣列數(shù)量大大增加｜來源：微軟研究院

更大的吞吐量，也就意味著更低的成本。現(xiàn)在DNA存儲(chǔ)的成本是每萬億字節(jié)（TB）8億美元。而磁帶存儲(chǔ)成本已經(jīng)降到了每萬億字節(jié)16美元以下。這樣比起來似乎毫無競(jìng)爭(zhēng)力。但現(xiàn)實(shí)生活中的大型數(shù)據(jù)中心的維護(hù)成本極高，還要定期更新硬件；DNA存儲(chǔ)密度大、體積小、可以長(zhǎng)時(shí)間不變質(zhì)的優(yōu)勢(shì)就變成了降維打擊。

所以量大、讀取頻率低的“冷數(shù)據(jù)”，被認(rèn)為是DNA存儲(chǔ)最近的應(yīng)用場(chǎng)景。TwistBioscience最近在一份市場(chǎng)報(bào)告中強(qiáng)調(diào)，這種技術(shù)能夠幫助科技企業(yè)在“大規(guī)模、低功耗”情況下更有效地部署。

另外一些樂觀的科學(xué)家，更相信技術(shù)的進(jìn)步。

自2003年人類基因組計(jì)劃完成以來，測(cè)序成本降低了200萬倍。2016年時(shí)，面對(duì)每秒千字節(jié)的速度，Goldman說：“（讀寫的速度提升）6個(gè)數(shù)量級(jí)對(duì)基因組學(xué)來說沒什么大不了的。你只需要再等一會(huì)兒。”

那這“一會(huì)兒”是多久呢？這個(gè)領(lǐng)域似乎到了臨門一腳，仍在等待突破。

總結(jié)

以上是生活随笔為你收集整理的你身体里的DNA 能存下整个宇宙的数据的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：美团无人机上海试运行：咖啡3分钟送到
下一篇：直播：七夕晚会来了节目单公布王心凌/