基因?qū)W正在改變?nèi)祟惖奈磥恚槍z傳出生缺陷的產(chǎn)前檢測,腫瘤基因檢測,病毒和細菌的基因研究等,通過基因測序都能找出“元兇”。
所以,基因測序產(chǎn)業(yè)正迎來一個發(fā)展的大時代,相關數(shù)據(jù)統(tǒng)計,基因測序從2007-2013年復合增長率為33.53%,全球的市場規(guī)模2007年只有800萬美元,而2018年將達到約117億美元,說明基因測序的市場已經(jīng)逐漸成熟。
如今,基因測序技術已被列為國家重點發(fā)展產(chǎn)業(yè)。據(jù)研究,每年的基因測序分析增長會在30%以上,數(shù)據(jù)量也將是越來越多,如何傳輸,保存和管理海量的基因數(shù)據(jù)是一個非常棘手的問題所以,HPC正被廣泛應用于基因測序行業(yè)。
年輕的諾禾致源,怎么做到領跑基因測序行業(yè)
基因測序行業(yè)是一個風口上的行業(yè),也充斥著大量的新老玩家,但同時基因測序又是一個嚴謹?shù)男袠I(yè),只有抱著科學合理的出發(fā)點,在不斷試錯,探索前進,才能最終勝出。諾禾致源顯然正沿著這樣一條路在前行著。
在國內(nèi)基因測序領域,諾禾致源是一個標志性的企業(yè)。作為目前國內(nèi)基因測序領域的佼佼者,諾禾致源的業(yè)務覆蓋科技服務、腫瘤基因檢測及遺傳檢測三大領域,為全球研究型大學、科研院所、醫(yī)院、醫(yī)藥研發(fā)企業(yè)、農(nóng)業(yè)企業(yè)等提供基因測序、質(zhì)譜分析和生物信息技術支持等服務。
成立于2011年3月的諾禾致源最初以科技服務為主。2012 年,諾禾致源開始拓展腫瘤基因檢測服務。發(fā)展至今,諾禾致源業(yè)務已經(jīng)覆蓋科技服務、腫瘤基因檢測及遺傳檢測三大領域。
實際上,基因測序行業(yè)是一個知識密集型的產(chǎn)業(yè),衡量的標準有兩個,一是對基因?qū)W術的貢獻度,二是先進基因測序儀的擁有量。
那么首先,在基因?qū)W術的貢獻度方面。截止2018年6月,諾禾致源與項目伙伴合作發(fā)表SCI文章總計330余篇,累積影響因子大于2120;目前已取得軟件著作權(quán)115項,自主研發(fā)專利49項。
其次,目前諾禾致源已在全球運行25臺NovaSeq、20臺PacBio Sequel、30臺HiSeq X、11臺HiSeq 2000/2500/4000、4臺MiSeq、4臺NextSeq 500、6臺Life Ion Proton(DA8600)、2臺S5XL和5套Q Exactive™ HF-X等最先進的基因測序儀,建立了亞洲通量規(guī)模最大的基因測序平臺,將實現(xiàn)每年280,000人全基因組測序的超高通量。同時,全國首家引入Q Exactive™ HF-X高端質(zhì)譜平臺,打造最先進的生物質(zhì)譜中心,為客戶提供全面、深入的多組學解決方案。
除了這兩個關鍵點之外,諾禾致源的生態(tài)建設也已非常完善,合作伙伴遍布全球,包括超過1920家科研院所和高校、720余家醫(yī)院、1430余家醫(yī)藥和農(nóng)業(yè)企業(yè)等。諾禾致源的企業(yè)夢想是成為全球領先的基因組學產(chǎn)品和服務提供者。
算法和數(shù)據(jù)之后,計算的三大瓶頸如何打破?
基因測序最核心的資產(chǎn)就是基因測序儀產(chǎn)生的龐大數(shù)據(jù)量,所以隨著基因測序的通量越來越大,行業(yè)產(chǎn)出的數(shù)據(jù)也越來越多,相對而言對存儲、計算平臺的能力也提出更高要求。
所謂高通量基因測序,是通過測序技術解析生物DNA分析排序特征,包括序列圖譜構(gòu)建,序列比對,變異檢測等高性能計算。尤其在人類健康研究中,需要了解海量蛋白質(zhì)的結(jié)構(gòu),功能,相互作用以及與各種人類疾病之間的關系,尋求各種治療和預防方法,包括藥物治療。基于生物大分子結(jié)構(gòu)及小分子結(jié)構(gòu)的藥物設計等等。
所以在生物信息學的處理過程中會用到大量的軟件,例如面向序列組裝的SOAPDenovo,ALLPATHS-LG,F(xiàn)alcon, Trinity等;面向序列對比:BWA, Blast, bowtie2等;面向序列分析: CLUSTAL,HMMER等;面向進化樹分析:PHYLIP,TreeBest, MrBayes等。
同時生物算法正逐漸成熟,生物數(shù)據(jù)通量也急劇提升,這必然會帶來對分析軟件和流程的全面優(yōu)化,所以計算力成為了精準醫(yī)療行業(yè)面臨的最大瓶頸。對諾禾致源來說,對HPC的需求也遇到很多挑戰(zhàn)。
第一,數(shù)據(jù)量巨大。正因為基因測序儀產(chǎn)生的數(shù)據(jù)量是非常巨大的,這就要求在HPC系統(tǒng)中必須配置海量存儲,滿足測序數(shù)據(jù)的存放。
第二,內(nèi)存的需求大。在序列對比或者拼接階段,需要一次性將海量數(shù)據(jù)載入到內(nèi)存中并且加以處理,如果內(nèi)存不夠或者性能不優(yōu),很可能無法進行對比或者下一步的計算等工作,因此,我們建議對于生物信息學應用環(huán)境,需要配置胖節(jié)點或者大內(nèi)存節(jié)點,滿足數(shù)據(jù)載入和分析,充分提高工作效率。
第三,計算量大。對于不同生物信息學程序而言,基于不同算法的對于CPU的要求也不盡相同,但是總體計算量都十分巨大,有的支持并行,有的軟件在單節(jié)點內(nèi)進行計算,總而言之,與其他高性能計算應用相似,生物信息學類的計算也為CPU密集型的。
很明顯,如果有HPC的長期穩(wěn)定的支持,將會助力諾禾致源對未來的發(fā)展,在多方考察之后,諾禾致源選擇了聯(lián)想HPC成為服務商。聯(lián)想是如何滿足諾禾致源的需求的呢?
用H PC 筑底, 諾禾致源 背后的聯(lián)想之力
聯(lián)想作為國內(nèi)HPC的領軍者,首先對諾禾致源的問題做了縝密的需求分析。聯(lián)想認為:生物信息學類計算的核心內(nèi)容是內(nèi)存密集型,存儲密集型,結(jié)合聯(lián)想多年來的經(jīng)驗,為諾禾致源提供了針對化專業(yè)化的解決方案。
主要解決諾禾致源對高性能、內(nèi)存、存儲和穩(wěn)定性的四大問題。
首先,對于高性能計算而言,一方面是浮點處理性能,另一方面為CPU本身的綜合性能,聯(lián)想結(jié)合生物信息學行業(yè)的特點,推薦使用Intel處理器,不僅實現(xiàn)了較高的處理性能,并且在能效比,內(nèi)存支持,以及CPU本身的架構(gòu)上Intel都有很大的優(yōu)勢。
其次,在生物信息學應用中,先期數(shù)據(jù)的載入對于內(nèi)存容量的要求越來越高,聯(lián)想采用大內(nèi)存服務器四路或者八路胖節(jié)點,可以在單節(jié)點中配置最高達2TB內(nèi)存,充分達到應用的實際需求。
其三,海量存儲系統(tǒng)是生物信息學計算的先決條件。聯(lián)想不僅可以提供了專業(yè)級的直連存儲,更有通過專有的存儲節(jié)點構(gòu)建并行文件系統(tǒng)或者是分布式存儲系統(tǒng),接入以太網(wǎng),甚至40GB/56GB的Infiniband網(wǎng)絡,總體容量可達到PB級,除此之外還考慮到用戶的數(shù)據(jù)安全,數(shù)據(jù)備份等,從根本上解決了生物信息學的數(shù)據(jù)存儲難題。
最后,一套高穩(wěn)定性的系統(tǒng)能夠使我們的生物信息學應用更加方便快捷,同時也能夠高效率的處理數(shù)據(jù),保證業(yè)務不中斷,聯(lián)想通過統(tǒng)一的集群監(jiān)控管理,作業(yè)調(diào)度,結(jié)合聯(lián)想高性能的服務器,從各個方面保證了整套系統(tǒng)的穩(wěn)定性,大大提高了用戶的使用穩(wěn)定性和減少了故障率,為用戶提高生產(chǎn)力提供持續(xù)不間斷的支持。
據(jù)了解,聯(lián)想提供的高性能運算系統(tǒng),提供了將近200萬億次計算能力,配置超過10PB的存儲空間。本套集群很好的承載了諾禾致源華東地區(qū)的業(yè)務,有效的改善公司在華東計算資源不夠的限制。
如今諾禾致源已經(jīng)擁有全球領先的高性能計算平臺,數(shù)據(jù)中心運算能力已提升至1727T flops,總內(nèi)存410TB,總存儲60.2PB,有效地支撐著生命科學研究和醫(yī)療健康兩大領域?qū)Υ髷?shù)據(jù)分析和存儲的需求。在通過高性能計算探索基因?qū)W的未來之路上,聯(lián)想HPC始終是諾禾致源最值得信任的技術服務商。
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!