當(dāng)前位置:首頁 > 科普?qǐng)@地
海量數(shù)據(jù)的存儲(chǔ)讓科學(xué)家們頭疼不已,但大自然卻以一種意想不到的方式巧妙解決了這個(gè)問題。
對(duì)Nick Goldman來說,用DNA編碼數(shù)據(jù)的想法一開始只是個(gè)玩笑。
2011年2月16日,星期三,Goldman在德國的一家酒店與一些生物信息學(xué)家討論海量的基因組以及其它數(shù)據(jù)的存儲(chǔ)問題。當(dāng)時(shí),科學(xué)家們對(duì)傳統(tǒng)計(jì)算技術(shù)的成本和局限性感到沮喪,他們開玩笑地提起了一些科幻式的替代方案。現(xiàn)任歐洲生物信息研究所(European Bioinformatics Institute, EBI)組長的Goldman表示,他們想,是什么東西阻止了我們用DNA來儲(chǔ)數(shù)據(jù)呢?
笑聲戛然而止。Goldman指出,這就是靈感閃現(xiàn)的瞬間。跟讀取速度在毫秒級(jí)的硅芯片相比,DNA讀取和寫入的速度太慢——編碼數(shù)據(jù)需要幾個(gè)小時(shí),用測序儀器讀取又需要好幾個(gè)小時(shí)。但DNA的突出優(yōu)點(diǎn)是,人類基因組這么多數(shù)據(jù),都能存儲(chǔ)在肉眼不可見的小細(xì)胞里。從信息存儲(chǔ)的密度上來講,DNA完勝硅芯片,尤其適合做長期歸檔。
據(jù)Goldman回憶,他們用圓珠筆在餐巾紙上做筆記,認(rèn)真考慮DNA存儲(chǔ)技術(shù)會(huì)遇到的問題。研究人員最擔(dān)心的是,DNA合成和測序的錯(cuò)誤很高,每100個(gè)核苷酸中就可能有1個(gè)出錯(cuò)。這對(duì)大規(guī)模數(shù)據(jù)存儲(chǔ)來說極其不可靠——除非能找到可行的錯(cuò)誤校正方案。能不能用堿基對(duì)來編碼數(shù)據(jù),同時(shí)找到校正錯(cuò)誤的方法?Goldman表示,經(jīng)過一個(gè)晚上的討論,他們認(rèn)為這是可行的。
Goldman和他在EBI的同事Ewan Birney開始在實(shí)驗(yàn)室中實(shí)施這個(gè)想法,兩年后他們宣布成功使用DNA編碼五個(gè)文件,包括Shakespeare的十四行詩(sonnet)和Martin Luther King的“我有一個(gè)夢(mèng)想(I have a dream)”演講中的一段。當(dāng)時(shí),哈佛大學(xué)(Harvard University)的生物學(xué)家George Church等人已發(fā)表文章,使用DNA 編碼數(shù)據(jù)。但Goldman編碼的文件大小達(dá)到739個(gè)堿基(kB),是一段時(shí)間里DNA編碼的最大文件。直到2016年7月,微軟和華盛頓大學(xué)(University of Washington)取得了突破性的進(jìn)步,成功編碼了長達(dá)200兆字節(jié)(MB)的數(shù)據(jù)。
最新的實(shí)驗(yàn)表明,基因組學(xué)以外的其它領(lǐng)域也對(duì)DNA存儲(chǔ)深感興趣:全世界都面臨著數(shù)據(jù)過載問題。從天文圖片到雜志文章,再到Y(jié)ouTube視頻,2020年全球數(shù)字檔案館的存儲(chǔ)量將達(dá)到44千兆字節(jié)(GB),相比于2013年,增加了10倍。到2040年,如果即時(shí)訪問的東西都存儲(chǔ)下來的話,預(yù)期數(shù)據(jù)量將會(huì)是閃存芯片中內(nèi)存條容量的10到100倍。
這就是為什么很少人訪問的永久檔案會(huì)以老式的磁帶方式存儲(chǔ)。磁帶的信息密度遠(yuǎn)高于硅芯片,但讀取速度也相對(duì)慢很多。然而,美國高級(jí)情報(bào)研究計(jì)劃局(IARPA)的David Markowitz指出,磁帶存儲(chǔ)方法是不可持續(xù)的。他說,建立一個(gè)擁有10億GB的數(shù)據(jù)中心是可行的。但這樣的一個(gè)中心的建設(shè)和維護(hù)需要10年以上的努力,花費(fèi)10億美元,以及數(shù)百兆瓦的電力?!胺肿訑?shù)據(jù)存儲(chǔ)則不需要這么復(fù)雜的設(shè)施,同時(shí)可將成本降低千百倍?!比绻畔⒋鎯?chǔ)的密度可以像大腸桿菌的基因一樣密集,那么全世界的數(shù)據(jù)都只需要一千克DNA。
實(shí)現(xiàn)這個(gè)目標(biāo)十分困難,科學(xué)家們需要克服一系列障礙:如何可靠地使用DNA編碼信息?如何只檢索用戶所需要的信息?如何降低核酸成本,加快合成速度?
但是,科學(xué)家們也在加快研究的步伐。由一個(gè)芯片制造公司組成的財(cái)團(tuán)支持的Semiconductor Research Corporation(SRC)公司就支持DNA存儲(chǔ)的研發(fā)工作。Goldman和Birney拿到了英國政府撥款,用于研發(fā)下一代DNA存儲(chǔ)方法,并計(jì)劃成立一個(gè)公司專門從事詞類研究。今年4月,IARPA和SRC舉辦了一場學(xué)術(shù)界和產(chǎn)業(yè)界研究者的研討會(huì),指導(dǎo)DNA存儲(chǔ)研發(fā)。
SRC主任和首席科學(xué)家Victor Zhirnov指出,十年來,他們一直在尋找硅芯片以外的存儲(chǔ)方式。硅芯片很難替代。但是,DNA——最強(qiáng)的候選人之一,“看起來有可能做到”。
1988年,與哈佛大學(xué)(Harvard University)的研究者合作時(shí),藝術(shù)家Joe Davis首次把0和1的電子數(shù)據(jù)和DNA的四個(gè)堿基一一對(duì)應(yīng)。他們插入到大腸桿菌(E.coli)基因中的DNA序列,僅編碼了35字節(jié)的數(shù)據(jù)。他們把5×7像素、古日耳曼代表著生命和女性的符文的圖片編碼到DNA中。原圖片中,暗像素點(diǎn)對(duì)應(yīng)的是1,亮像素點(diǎn)對(duì)應(yīng)0。
今天,Davis隸屬于Church實(shí)驗(yàn)室。Church實(shí)驗(yàn)室從2011年開始研究DNA數(shù)據(jù)存儲(chǔ)。這個(gè)研究小組希望能降低合成DNA的成本,就像基因組學(xué)降低了測序的成本一樣。2011年11月,Church、加州大學(xué)(University of California)的Sri Kosuri以及約翰霍普金斯大學(xué)(Johns Hopkins University)的遺傳學(xué)家Yuan Gao開始進(jìn)行概念證明實(shí)驗(yàn)。研究小組使用許多短的DNA序列,編碼了長為659 kb的Church合著的一本書中的一段。每個(gè)序列中有一段標(biāo)明的是序列片段的順序。二進(jìn)制的0可以用腺嘌呤或胞嘧啶編碼,二進(jìn)制的1可用鳥嘌呤胸腺嘧啶表示。這種靈活性有助于避免設(shè)計(jì)序列的閱讀問題——在包含大量含鳥嘌呤和胞嘧啶,或重復(fù)序列,或與另一端序列粘附在一起的區(qū)域都容易出現(xiàn)閱讀問題。從嚴(yán)格意義上來講,Davis 等人并沒有錯(cuò)誤校正,而是依賴于每個(gè)序列都有多條重復(fù)來進(jìn)行校驗(yàn)。測序后Church等人發(fā)現(xiàn)了22個(gè)錯(cuò)誤。這對(duì)于可靠的數(shù)據(jù)存儲(chǔ)是遠(yuǎn)遠(yuǎn)不及格的。
與此同時(shí),在EBI,Godman等人也使用DNA序列來編碼739-kB的數(shù)據(jù),包括圖像、ASCII文本、音頻文件和Watson、Crick的DNA雙螺旋結(jié)構(gòu)的PDF版本。為了避免重復(fù)堿基和其它誤差源,EBI團(tuán)隊(duì)使用了一種更復(fù)雜的方案(圖:制造DNA內(nèi)存)。他們的方法并不使用二進(jìn)制的0和1,而是使用0、1和2進(jìn)行編碼數(shù)據(jù)。他們讓堿基輪流代表0、1和2,從而避免讀取時(shí)遇到問題。他們把序列分割成25個(gè)堿基為單位的片段,以便于查錯(cuò)和相互比較。
即便如此,合成出來的序列中還是有2個(gè)25個(gè)堿基段的丟失。巧合的是,丟失的恰恰是Watson和Crick的文件部分。然而,這些結(jié)果堅(jiān)定了Godman的信念:DNA具有成為耗能低、廉價(jià)和長期數(shù)據(jù)存儲(chǔ)手段的潛力。至于DNA存儲(chǔ)期的長度,他指出,2013年科學(xué)家們解析了封存在凍土里、70萬年前的馬骨頭的DNA。在數(shù)據(jù)中心,沒人相信放了3年的硬盤的可靠性。磁帶放了10年,也不再可靠。一旦可以用DNA編碼數(shù)據(jù),你可以用DNA來做安全備份,然后把DNA放在洞里。想用的時(shí)候,再拿出來。
2013年,華盛頓大學(xué)(University of Washington)的計(jì)算機(jī)科學(xué)家Luis Ceze和微軟研發(fā)中心(Microsoft Research)的Karin Strauss聽了Goldman的研究報(bào)告之后,對(duì)DNA數(shù)據(jù)存儲(chǔ)非常感興趣。Strauss指出,DNA的高密度、穩(wěn)定性和成熟度讓他們很興奮。
Strauss還指出,一回到華盛頓,她和Ceze就開始和華盛頓大學(xué)(University of Washington)的Georg Seelig合作進(jìn)行這方面的研發(fā)。他們關(guān)注的是另一個(gè)DNA存儲(chǔ)的主要缺點(diǎn)——一個(gè)比易出錯(cuò)更大的問題。使用標(biāo)準(zhǔn)測序方法,檢索任何一個(gè)數(shù)據(jù),需要檢測所有數(shù)據(jù):每一段DNA序列都必須被讀取。這將比傳統(tǒng)的計(jì)算機(jī)內(nèi)存更麻煩,因?yàn)閭鹘y(tǒng)的計(jì)算機(jī)內(nèi)存允許隨機(jī)存?。褐蛔x取用戶需要的數(shù)據(jù)。
4月初,該小組在亞特蘭大格魯吉亞舉行的一個(gè)會(huì)議上給出了解決方案。研究人員開始從DNA檔案庫中提取微小樣本。然后他們就用聚合酶鏈反應(yīng)(PCR)把目標(biāo)序列復(fù)制多份拷貝。序列復(fù)制讓測序速度更快、成本更低,而且比之前的方法更準(zhǔn)確。該小組還設(shè)計(jì)了一個(gè)替代的糾錯(cuò)方案,該方案會(huì)讓EBI數(shù)據(jù)編碼的密度增加一倍,而且還能保證可靠性。
作為示范,微軟—華盛頓大學(xué)的研究人員存儲(chǔ)了151 kB的圖像(其中一些使用EBI編碼方法,一些使用新方法)。他們使用EBI方法讀取了三個(gè)圖像——貓、悉尼歌劇院和卡通猴,結(jié)果出現(xiàn)了一個(gè)需要手動(dòng)修改的讀取錯(cuò)誤。他們使用新方法讀取了悉尼歌劇院圖像,沒有出現(xiàn)任何錯(cuò)誤。
伊利諾伊大學(xué)(University of Illinois)烏爾瓦納–香檳分校的計(jì)算機(jī)科學(xué)家Olgica Milenkovic等人已經(jīng)開發(fā)了一種隨機(jī)訪問的方法,讓他們能重寫數(shù)據(jù)。這種方法以長段DNA序列來存儲(chǔ)數(shù)據(jù),序列的兩端都有地址序列。研究人員采用PCR或CRISPR-Cas9技術(shù),根據(jù)這些地址選擇、擴(kuò)增和使用序列。
地址序列需要避免妨礙閱讀的序列,還需要與其它地址序列有足夠大的差別,以防止出現(xiàn)混淆。另外一方面,研究人員還需避免分子折疊問題,因?yàn)槿绻蛄心芟嗷プR(shí)別,那么兩條序列就會(huì)結(jié)合在一起。Milenkovic指出,起初,他們用計(jì)算機(jī)來設(shè)計(jì)這些序列,因?yàn)橐纤羞@些要求非常困難。她的團(tuán)隊(duì)現(xiàn)在使用數(shù)學(xué)公式取代了這個(gè)勞動(dòng)密集型的過程,大大縮短了設(shè)計(jì)編碼方案的時(shí)間。
Kosuri則表示,DNA數(shù)據(jù)存儲(chǔ)的其它挑戰(zhàn)包括尺度和序列合成速度。這也是他對(duì)DNA存儲(chǔ)并不樂觀的理由。據(jù)他回憶,在哈佛大學(xué)(Harvard University)早期實(shí)驗(yàn)時(shí),他們只能編碼700 kB的數(shù)據(jù)。即使DNA編碼的數(shù)據(jù)增加1000倍,也才700 MB,也就是一張CD的容量。如果要解決現(xiàn)在的數(shù)據(jù)過載問題,至少需要拍字節(jié)(PB)的容量。Kosuri認(rèn)為,這不是不可能的,但要知道,存儲(chǔ)量增加了上百萬倍。
Markowitz也同意,這不是一件容易的事。他指出,目前主流的合成方法是30多年來的老方法,即添加一個(gè)堿基需要400秒。如果繼續(xù)使用這種方法,必須同時(shí)合成數(shù)十億條序列,才能達(dá)到數(shù)據(jù)存儲(chǔ)的速度。目前最多能同時(shí)合成幾萬條序列。
一個(gè)密切相關(guān)的因素是DNA合成的成本。EBI開展的DNA編碼實(shí)驗(yàn)花費(fèi)了12,660美元,其中98%的費(fèi)用花在了DNA合成上。測序費(fèi)用只占2%,這還要感謝2003年人類基因組計(jì)劃的完成,測序成本降低了200萬倍。盡管有這樣的先例,Kosuri并不相信,DNA合成也能出現(xiàn)這樣的成本陡降。他指出,70億人的測序市場大大激發(fā)了研究者們的熱情,但目前還沒有70億人的全基因組市場。但他承認(rèn),Church等人6月提出的人類基因組編寫計(jì)劃(Human Genome Project-Write, HGP-write)可能導(dǎo)致DNA合成成本的降低。如果得到資助,該計(jì)劃將合成人類全基因組:包含32億個(gè)核苷酸的23個(gè)染色體對(duì)。但Kosuri表示,即使HGP-wirte項(xiàng)目成功,人類基因組只包含0.75 GB的信息,與實(shí)際的數(shù)據(jù)存儲(chǔ)挑戰(zhàn)完全不能相比。
然而,Zhirnov非常樂觀。他認(rèn)為,綜合成本可以比現(xiàn)在低幾個(gè)數(shù)量級(jí)?,F(xiàn)在DNA合成成本高得離譜。
4月,微軟研究中心從Twiste Biosciences公司(一家從事DNA合成的初創(chuàng)公司)訂購了1000萬條序列。這一舉動(dòng)可能會(huì)大大鼓勵(lì)DNA合成市場。Strauss等人指出,他們一直在使用序列來推動(dòng)隨機(jī)存取存儲(chǔ)方法步入0.2 GB時(shí)代。細(xì)節(jié)仍未公布,但據(jù)說,檔案包括超過100種語言的人權(quán)宣言(Declaration of Human Rights)、古登堡計(jì)劃(Project Guttenberg)的前100本書和一個(gè)種子庫。盡管這相對(duì)于HGP-write小很多,但比現(xiàn)在的存儲(chǔ)容量提升了250倍。
她指出,是時(shí)候提高我們處理大量DNA的能力了,看看能取得哪些突破。事實(shí)上,他們現(xiàn)在就已經(jīng)突破了很多問題了。
Godman有信心,他認(rèn)為這還只是冰山一角。Godman表示,他們的估計(jì)是需要100,000倍的改進(jìn),但他們認(rèn)為這是可能的。雖然過去的技術(shù)進(jìn)步并不能保證未來,但每年或每兩年就會(huì)有新的讀取技術(shù)出現(xiàn)。在基因組學(xué),6個(gè)數(shù)量級(jí)并不是什么大問題。我們需要做的只是等待。
原文檢索:
Andy Extance. (2016) How DNA could store all the world’s data.Nature, 537(1038):22-24.
張潔/編譯
說明:圖文均轉(zhuǎn)自《生命奧秘》。