首頁(yè) > 新聞 > 專家觀點(diǎn) >

NGS數(shù)據(jù)分析的便捷之路:云計(jì)算

2014-04-22 10:16:23   作者:   來(lái)源:生物通   評(píng)論:0  點(diǎn)擊:


  測(cè)序完成了?這真是個(gè)好消息。不過(guò)別高興地太早,更艱巨的工作在等著你呢。數(shù)據(jù)分析,也不是一項(xiàng)輕松的任務(wù)。

  單個(gè)人類基因組的原始數(shù)據(jù)集大約在幾百Gb的數(shù)量級(jí),而許多研究涉及數(shù)十個(gè)甚至數(shù)百個(gè)樣品。光是移動(dòng)這樣一個(gè)數(shù)據(jù)集,就明顯超過(guò)了一部臺(tái)式機(jī)或筆記本電腦的能力,更不用說(shuō)處理與分享了。

  對(duì)于這個(gè)問(wèn)題,傳統(tǒng)的解決方案是將存儲(chǔ)和計(jì)算分析的工作交給計(jì)算機(jī)集群,但這是許多研究人員無(wú)法企及的。如今,越來(lái)越多的研究人員選擇了另一條道路。他們利用Dropbox和Gmail的服務(wù),將他們的工作移至云端。

  云端新選擇

  也許有人想建立自己的計(jì)算機(jī)集群和存儲(chǔ)陣列,來(lái)處理自己的生物信息學(xué)數(shù)據(jù)。這并非不行,但既不簡(jiǎn)單,也不便宜。首先在于硬件本身,集群需要幾十臺(tái)至幾百臺(tái)計(jì)算機(jī)同時(shí)運(yùn)行。你還需要一個(gè)地方來(lái)存放這些計(jì)算機(jī),驅(qū)動(dòng)它們的軟件,連接它們的網(wǎng)絡(luò)設(shè)備以及運(yùn)行和冷卻的電力。

  據(jù)耶魯大學(xué)生物醫(yī)學(xué)信息學(xué)的Mark Gerstein教授估計(jì),每年運(yùn)行這樣一個(gè)集群的電費(fèi)大約在30,000至40,000美元。

  在集群運(yùn)行后,還需要維護(hù),這意味著硬件必須更換和升級(jí),軟件需要打補(bǔ)丁。你可能需要一位訓(xùn)練有素的IT人員來(lái)維護(hù)這一切。費(fèi)用又會(huì)迅速飆升。

  基于云計(jì)算的生物信息學(xué)平臺(tái)讓大多數(shù)問(wèn)題消失不見(jiàn)。Illumina公司企業(yè)信息學(xué)事業(yè)部主任Jordan Stockton表示:“獲取、安裝和編譯軟件就變得無(wú)關(guān)緊要。我們?yōu)槟切┎淮蛩慊驘o(wú)法雇用IT人員的人們提供技術(shù)。”

  在云計(jì)算環(huán)境中,用戶基本上是租用一個(gè)虛擬的集群。建立在大規(guī)模的云計(jì)算設(shè)施之上,如亞馬遜網(wǎng)絡(luò)服務(wù)或谷歌云平臺(tái),系統(tǒng)資源可按照需要擴(kuò)大或縮;用戶只需要為他們使用的CPU時(shí)間和存儲(chǔ)付費(fèi)。他們可上傳自己的數(shù)據(jù),或從其他的外部資源轉(zhuǎn)移過(guò)來(lái),包括公共和私人的數(shù)據(jù)庫(kù)。其他所有的因素,包括硬件維護(hù)、安全性、用戶訪問(wèn)等,都由服務(wù)供應(yīng)商來(lái)處理,這樣用戶就能專注于自己的工作。

  DNAnexus的CEO Dick Daly解釋說(shuō):“云計(jì)算的優(yōu)勢(shì)在于它完全可變的容量。這就像水;你可以填滿一個(gè)游泳池,也可以只要一杯。你不用在前期決定你需要多少基礎(chǔ)設(shè)施。”

  云計(jì)算平臺(tái)

  然而,云端的工作也不容易。它需要特殊的計(jì)算知識(shí)來(lái)利用這種云環(huán)境中提供的計(jì)算和存儲(chǔ)資源。商業(yè)化及免費(fèi)的系統(tǒng)可簡(jiǎn)化這一任務(wù)。

  與許多系統(tǒng)一樣,DNAnexus在亞馬遜云平臺(tái)上運(yùn)行。Daly解釋道,這既是一個(gè)平臺(tái),也是一種服務(wù)。用戶可通過(guò)命令行界面運(yùn)行他們想要的任何生物信息學(xué)工具,也可在用戶友好的界面上嘗試預(yù)先定義的流程,如定位和變異檢出。“你可以上傳任何類型的文件,并以你想要的任何方式分析它,”Daly說(shuō);旧,如果你能夠在計(jì)算機(jī)上讓軟件運(yùn)行,那么它也能在云端運(yùn)行,不過(guò)可能需要一些優(yōu)化。用戶還可以在安全的平臺(tái)上與同事共享這些數(shù)據(jù)和流程。

  Illumina的BaseSpace?信息學(xué)平臺(tái)也是建立在亞馬遜的云端。BaseSpace接受Illumina測(cè)序儀的數(shù)據(jù),并以用戶友好的界面提供一系列分析工具,包括基因組瀏覽器、比對(duì)工具和變異檢出工具。

  Illumina將BaseSpace比喻成“蘋果商店”,同時(shí)提供Illumina和第三方的工具。據(jù)Stockton介紹,該公司目前有25款app,包括DNASTAR的SeqMan NGen,用于細(xì)菌的de novo組裝;Illumina的BWA/GATK,用于比對(duì)和變異檢出;以及Broad研究院的IGV(Integrative Genomics Viewer)。目前,BaseSpace存儲(chǔ)是免費(fèi)的,不過(guò)Illumina已宣布了定價(jià)的時(shí)間表,其中第一個(gè)TB免費(fèi),之后是1 TB每月250美元,或10 TB每月1500美元。App是免費(fèi)或收費(fèi)的,其費(fèi)用按每次運(yùn)行或每個(gè)數(shù)據(jù)量來(lái)評(píng)估。

  了解BaseSpace平臺(tái)的更多信息

  CloudBioLinux也在亞馬遜上運(yùn)行,而且是免費(fèi)和開(kāi)源的,不過(guò)用戶要承擔(dān)使用費(fèi)。它是個(gè)定制的亞馬遜機(jī)器映像(AMI),預(yù)裝了生物信息學(xué)工具。“目標(biāo)是讓一些人能以最小的開(kāi)銷進(jìn)行生物信息學(xué)工作,”哈佛大學(xué)公共衛(wèi)生學(xué)院的研究科學(xué)家Brad Chapman解釋道,他為項(xiàng)目開(kāi)發(fā)做出了貢獻(xiàn)。不過(guò)他也提到,CloudBioLinux是一個(gè)適用于高級(jí)用戶的工具。“它是針對(duì)開(kāi)發(fā)人員和生物信息學(xué)家的,而不是生物學(xué)家。”

  現(xiàn)實(shí)狀況

  據(jù)Gerstein介紹,基于云計(jì)算的信息學(xué)反映了新一代測(cè)序市場(chǎng)的現(xiàn)實(shí)。幾年前,測(cè)序相對(duì)昂貴,而分析相對(duì)便宜。但隨著測(cè)序成本大幅下降,數(shù)據(jù)集已激增,信息學(xué)費(fèi)用也急劇上升。對(duì)于許多研究人員而言,將工作交給專家比在本地建立計(jì)算機(jī)集群要更簡(jiǎn)單、更便宜。

  不過(guò)Gerstein也認(rèn)為,云端是把雙刃劍。云供應(yīng)商通常提供一個(gè)更為安全的環(huán)境,而不是科研的IT資源。這些數(shù)據(jù)可從任何地方訪問(wèn),而無(wú)需移動(dòng)。但上傳數(shù)據(jù)到異地的服務(wù)器有其自身的困難,包括喪失對(duì)數(shù)據(jù)的物理控制、隱私,以及數(shù)據(jù)丟失和被竊的可能性。

  最終,每個(gè)實(shí)驗(yàn)室和研究機(jī)構(gòu)都必須自行決定選擇哪種解決方案。但至少有一點(diǎn)是明確的。多虧有了云計(jì)算,高性能的生物信息學(xué)不再是有錢人的專利。你也行,輕點(diǎn)鼠標(biāo)即可。

分享到: 收藏

專題