中文字幕无码久久精品,13—14同岁无码A片,99热门精品一区二区三区无码,菠萝菠萝蜜在线观看视频高清1

 首頁 > 新聞 > 專家觀點 >

NGS數(shù)據(jù)分析的便捷之路:云計算

2014-04-22 10:16:23   作者:   來源:生物通   評論:0  點擊:


  測序完成了?這真是個好消息。不過別高興地太早,更艱巨的工作在等著你呢。數(shù)據(jù)分析,也不是一項輕松的任務。

  單個人類基因組的原始數(shù)據(jù)集大約在幾百Gb的數(shù)量級,而許多研究涉及數(shù)十個甚至數(shù)百個樣品。光是移動這樣一個數(shù)據(jù)集,就明顯超過了一部臺式機或筆記本電腦的能力,更不用說處理與分享了。

  對于這個問題,傳統(tǒng)的解決方案是將存儲和計算分析的工作交給計算機集群,但這是許多研究人員無法企及的。如今,越來越多的研究人員選擇了另一條道路。他們利用Dropbox和Gmail的服務,將他們的工作移至云端。

  云端新選擇

  也許有人想建立自己的計算機集群和存儲陣列,來處理自己的生物信息學數(shù)據(jù)。這并非不行,但既不簡單,也不便宜。首先在于硬件本身,集群需要幾十臺至幾百臺計算機同時運行。你還需要一個地方來存放這些計算機,驅動它們的軟件,連接它們的網絡設備以及運行和冷卻的電力。

  據(jù)耶魯大學生物醫(yī)學信息學的Mark Gerstein教授估計,每年運行這樣一個集群的電費大約在30,000至40,000美元。

  在集群運行后,還需要維護,這意味著硬件必須更換和升級,軟件需要打補丁。你可能需要一位訓練有素的IT人員來維護這一切。費用又會迅速飆升。

  基于云計算的生物信息學平臺讓大多數(shù)問題消失不見。Illumina公司企業(yè)信息學事業(yè)部主任Jordan Stockton表示:“獲取、安裝和編譯軟件就變得無關緊要。我們?yōu)槟切┎淮蛩慊驘o法雇用IT人員的人們提供技術。”

  在云計算環(huán)境中,用戶基本上是租用一個虛擬的集群。建立在大規(guī)模的云計算設施之上,如亞馬遜網絡服務或谷歌云平臺,系統(tǒng)資源可按照需要擴大或縮。挥脩糁恍枰獮樗麄兪褂玫腃PU時間和存儲付費。他們可上傳自己的數(shù)據(jù),或從其他的外部資源轉移過來,包括公共和私人的數(shù)據(jù)庫。其他所有的因素,包括硬件維護、安全性、用戶訪問等,都由服務供應商來處理,這樣用戶就能專注于自己的工作。

  DNAnexus的CEO Dick Daly解釋說:“云計算的優(yōu)勢在于它完全可變的容量。這就像水;你可以填滿一個游泳池,也可以只要一杯。你不用在前期決定你需要多少基礎設施。”

  云計算平臺

  然而,云端的工作也不容易。它需要特殊的計算知識來利用這種云環(huán)境中提供的計算和存儲資源。商業(yè)化及免費的系統(tǒng)可簡化這一任務。

  與許多系統(tǒng)一樣,DNAnexus在亞馬遜云平臺上運行。Daly解釋道,這既是一個平臺,也是一種服務。用戶可通過命令行界面運行他們想要的任何生物信息學工具,也可在用戶友好的界面上嘗試預先定義的流程,如定位和變異檢出。“你可以上傳任何類型的文件,并以你想要的任何方式分析它,”Daly說;旧,如果你能夠在計算機上讓軟件運行,那么它也能在云端運行,不過可能需要一些優(yōu)化。用戶還可以在安全的平臺上與同事共享這些數(shù)據(jù)和流程。

  Illumina的BaseSpace?信息學平臺也是建立在亞馬遜的云端。BaseSpace接受Illumina測序儀的數(shù)據(jù),并以用戶友好的界面提供一系列分析工具,包括基因組瀏覽器、比對工具和變異檢出工具。

  Illumina將BaseSpace比喻成“蘋果商店”,同時提供Illumina和第三方的工具。據(jù)Stockton介紹,該公司目前有25款app,包括DNASTAR的SeqMan NGen,用于細菌的de novo組裝;Illumina的BWA/GATK,用于比對和變異檢出;以及Broad研究院的IGV(Integrative Genomics Viewer)。目前,BaseSpace存儲是免費的,不過Illumina已宣布了定價的時間表,其中第一個TB免費,之后是1 TB每月250美元,或10 TB每月1500美元。App是免費或收費的,其費用按每次運行或每個數(shù)據(jù)量來評估。

  了解BaseSpace平臺的更多信息

  CloudBioLinux也在亞馬遜上運行,而且是免費和開源的,不過用戶要承擔使用費。它是個定制的亞馬遜機器映像(AMI),預裝了生物信息學工具。“目標是讓一些人能以最小的開銷進行生物信息學工作,”哈佛大學公共衛(wèi)生學院的研究科學家Brad Chapman解釋道,他為項目開發(fā)做出了貢獻。不過他也提到,CloudBioLinux是一個適用于高級用戶的工具。“它是針對開發(fā)人員和生物信息學家的,而不是生物學家。”

  現(xiàn)實狀況

  據(jù)Gerstein介紹,基于云計算的信息學反映了新一代測序市場的現(xiàn)實。幾年前,測序相對昂貴,而分析相對便宜。但隨著測序成本大幅下降,數(shù)據(jù)集已激增,信息學費用也急劇上升。對于許多研究人員而言,將工作交給專家比在本地建立計算機集群要更簡單、更便宜。

  不過Gerstein也認為,云端是把雙刃劍。云供應商通常提供一個更為安全的環(huán)境,而不是科研的IT資源。這些數(shù)據(jù)可從任何地方訪問,而無需移動。但上傳數(shù)據(jù)到異地的服務器有其自身的困難,包括喪失對數(shù)據(jù)的物理控制、隱私,以及數(shù)據(jù)丟失和被竊的可能性。

  最終,每個實驗室和研究機構都必須自行決定選擇哪種解決方案。但至少有一點是明確的。多虧有了云計算,高性能的生物信息學不再是有錢人的專利。你也行,輕點鼠標即可。

分享到: 收藏

專題