當(dāng)前位置：首頁 > 科學(xué)研究 > 新聞動態(tài)

最強升級！NovelBrain云平臺更新至V4.0版本，做懂科研的生信云平臺！ 時間：2019-04-08

烈冰NovelBrain®云平臺自上線以來，接受了眾多科研團隊的全方位、多層次的平臺功能和安全測試，同時也在烈冰內(nèi)部的真實工作環(huán)境中不斷經(jīng)受考驗，期間經(jīng)過兩次慎重的系統(tǒng)更新，平臺成功從V1.0升級到V3.0，在網(wǎng)絡(luò)圖繪制、彈性結(jié)果報告和人重分析加速等各方面給用戶帶來驚喜體驗。同時，我們也在更嚴苛的壓力測試中不斷對系統(tǒng)進行改進，做懂科研的生信云平臺。

為進一步提升平臺的用戶體驗，打造行業(yè)一流的生信自動化大數(shù)據(jù)分析系統(tǒng)，烈冰隆重推出NovelBrain®云平臺的全新升級版本V4.0，升級內(nèi)容包括分析工具更新和pipeline優(yōu)化、系統(tǒng)底層架構(gòu)的優(yōu)化、組學(xué)研究的全面加速、生物數(shù)據(jù)的壓縮存儲以及數(shù)據(jù)庫的完備和管理升級，全方位保證您的數(shù)據(jù)安全和分析效率，助力您的科學(xué)研究。

1、分析工具豐富和pipeline優(yōu)化

NovelBrain云計算系統(tǒng)可以幫助快速準(zhǔn)確地進行各組學(xué)分析，包括人類重測序、基因組測序、全轉(zhuǎn)錄組測序、miRNA測序、表觀遺傳測序、微生物測序等幾乎全部二代測序類型。事實上如果出現(xiàn)新的測序技術(shù)或工具，烈冰會第一時間將其添加至NovelBrain平臺，進行分析測試并用于實際生產(chǎn)。

豐富的分析工具和標(biāo)準(zhǔn)流程化的pipeline是進行數(shù)據(jù)分析的“物質(zhì)基礎(chǔ)”，NovelBrain V4.0對新開發(fā)的分析工具進行了整合，并進一步優(yōu)化了多組學(xué)分析流程：

（1）分析工具全新整合

NovelBrain在作為烈冰生產(chǎn)系統(tǒng)的過程中，不斷地上線并積累各類數(shù)據(jù)分析工具，截止V4.0版本已包含400多個分析工具，其中很多分析工具譬如RnaSeqMap，一個工具就包含了hisat2、star、mapsplice、tophat這4個分析軟件。因此實際整合軟件數(shù)量1000+，不僅包含二代測序分析軟件，還覆蓋GWAS相關(guān)、motif預(yù)測、基因注釋等多個生物信息領(lǐng)域。

NovelBrain本次升級新增了Diamond、fq2fa、fa2fq、seqSample、seq2tab、multiBamSummary、gff2tab、sedBy2List、tsv2csv、csv2tsv、SpeciesIndex_miRNA、sRNADetect、sRNATarget、cuffqaunt_cuffnorm、map_stat等新開發(fā)的分析工具，極大地拓展了數(shù)據(jù)分析的可能性，滿足不同需求層次生信分析人員的要求，高效實現(xiàn)自助式數(shù)據(jù)分析，輕松探索發(fā)現(xiàn)數(shù)據(jù)意義。

隨著生物信息的發(fā)展，烈冰也在不斷向系統(tǒng)添加更多的工具。而已上線的工具，在使用過程中也對某些參數(shù)的使用場景理解更為深刻，從而不斷得到優(yōu)化。

（2）pipeline優(yōu)化

豐富的工具只是保證數(shù)據(jù)分析可進行的第一步，想要漂亮的分析數(shù)據(jù)，還需要完善pipeline支持。譬如DnaSeqMap、FastqFilter這兩個工具，其在人類重測序分析和在miRNA分析中的參數(shù)設(shè)置都是不一樣的，因此NovelBrain V4.0不僅對不同Pipeline中工具的參數(shù)都針對性地進行了優(yōu)化，對不同的分析流程還加入了經(jīng)過實際生產(chǎn)甚至實驗驗證的調(diào)優(yōu)。

例如在有參轉(zhuǎn)錄組分析的pipeline中添加了lncRNA檢測和分析，從而獲得更豐富的轉(zhuǎn)錄組數(shù)據(jù)，便于后續(xù)的聯(lián)合分析，對數(shù)據(jù)進行深度挖掘：

LncRNA的基因富集分析和靶向分析

Liu et al., Nat Commun, 2016/ Miao X et al., Sci Rep, 2016

同時，NovelBrain V4.0還在無參轉(zhuǎn)錄組pipeline中添加了基因預(yù)測和序列分步聚類，使各樣品中表達豐度較低的轉(zhuǎn)錄本組裝得更完整，準(zhǔn)確發(fā)現(xiàn)潛在的功能基因，為下一步研究提供方向。

另外，V4.0針對性地對人類全基因組/外顯子組 pipeline中的GATK-Best-Practice部分工具參數(shù)進行了調(diào)整，增加了FreeBayes對最后結(jié)果的校正，使流程化分析更智能，全方位保證數(shù)據(jù)質(zhì)量。

圖片來源：GitHub

（https://github.com/chapmanb/bcbb/blob/master/posts/cancer_validation.org）

2、系統(tǒng)底層架構(gòu)優(yōu)化

云計算系統(tǒng)是一個復(fù)雜的分布式系統(tǒng)，新上線的系統(tǒng)在設(shè)計編碼之初很難完整地覆蓋到各種異常場景。因此在長時間高負載運行時，總是會出現(xiàn)各種各樣的異常錯誤，從而影響數(shù)據(jù)的安全和分析結(jié)果的準(zhǔn)確度。

NovelBrain云計算系統(tǒng)一方面在編碼上有嚴格的規(guī)范，要求測試代碼的覆蓋度超過70%，同時烈冰也從2013年起，就將NovelBrain作為自己的生產(chǎn)系統(tǒng)實際用于二代測序數(shù)據(jù)的分析，目前日均分析500GB，峰值數(shù)TB以上的測序數(shù)據(jù)，系統(tǒng)自然地處于長期的壓力環(huán)境下，很多問題會及時暴露并得到修正。

在長期的生產(chǎn)環(huán)境壓力運行狀態(tài)下，我們解決和優(yōu)化了大量的問題，如：

（1）任務(wù)異常crash自動重跑

很多工具在運行時會異常crash，包括jvm虛擬機崩潰、系統(tǒng)異常崩潰、機器宕機等多種情況，這些情況不僅會導(dǎo)致數(shù)據(jù)丟失，對數(shù)據(jù)安全造成威脅，同時還需要人工檢查crash的原因，增加運行成本。針對這種情況，NovelBrain技術(shù)團隊在 V4.0版本新增運行任務(wù)實時監(jiān)控功能，如果偵測到異常crash，則會將任務(wù)重新投遞并運行，節(jié)省時間和人力。同時，對于因參數(shù)設(shè)置原因?qū)е碌娜蝿?wù)出錯，系統(tǒng)會將其與異常crash有效區(qū)分，記錄至數(shù)據(jù)庫并供生信工程師查閱，及時發(fā)現(xiàn)錯誤并糾正。

（2）運行內(nèi)存超出預(yù)設(shè)引起的crash

部分工具在運行時，請求的內(nèi)存大小會超過虛擬機預(yù)設(shè)的內(nèi)存。根據(jù)一般的linux機制，系統(tǒng)會將這種超出內(nèi)存使用范圍的進程殺死，而這會引起結(jié)果異常并很難判斷哪個步驟出現(xiàn)問題，因此在NovelBrain V4.0中我們關(guān)閉了這個設(shè)定，并重新配置了虛擬機，不允許進程使用超過虛擬機設(shè)置的內(nèi)存，從而避免進程被殺死。

（3）Hadoop-Yarn容器數(shù)量計數(shù)問題

一般一個任務(wù)投遞時會啟動多個容器并行計算，而Hadoop-Yarn無法保證每個容器能順利跑上，同時由于反饋機制的缺失，任務(wù)投遞者只有在項目運行結(jié)束后，才知道某些樣本并沒有得到處理，從而浪費了很多時間來進行“掃尾”。NovelBrain V4.0中，系統(tǒng)可自行定義計數(shù)器來對成功運行的容器進行計數(shù)，實時顯示成功運行的樣本個數(shù)，保證不會漏掉分析樣本。

（4）任務(wù)監(jiān)控修正

實時監(jiān)控分析任務(wù)的cpu/內(nèi)存使用是一個非常重要的內(nèi)容。分析任務(wù)的時長從數(shù)分鐘到數(shù)天不等，因此監(jiān)控的時間間隔則很有考究，頻率過低則無法有效監(jiān)控到短時間任務(wù)的信息，頻率過高則長時間任務(wù)會獲取太多無意義的信息，白白浪費數(shù)據(jù)庫空間。NovelBrain V4.0采用了冪次降低策略，隨著時間增加，降低采樣頻率。同時還配合拐點采樣策略，即如果監(jiān)控到cpu/內(nèi)存的異常變化，則會將該時間點的信息存入數(shù)據(jù)庫。在保證數(shù)據(jù)量合適的同時，也不會漏掉異常點。

以上列舉了部分在長時間的高負載生產(chǎn)環(huán)境中出現(xiàn)的問題，以及NovelBrain V4.0的修正策略。正是這些持續(xù)不斷的修正，才是NovelBrain可以真正應(yīng)用于生產(chǎn)，可以穩(wěn)定運行的關(guān)鍵保證。

3、全組學(xué)研究分布式加速

NovelBrain是一個天然的分布式系統(tǒng)，在NovelBrain上投遞的task/pipeline，總是會自動分配到多臺低負載的機器上進行并行計算，大幅度縮短數(shù)據(jù)分析的時間。同時系統(tǒng)還可以設(shè)定某個工具的總并發(fā)數(shù)，保證多個大型項目同時在集群上分析時，不會互相搶資源。如一個100臺服務(wù)器的集群，兩個用戶均投遞了300個樣本的基因組分析，那么每個用戶可以將并發(fā)數(shù)限制為40，這樣雙方不會互相搶占資源，系統(tǒng)甚至還可以預(yù)留足夠資源用于其他用戶的分析。

之前的V3.0版本NovelBrain針對性地對人類重測序進行了優(yōu)化和加速，4小時即可完成單樣本的分析，打破了人重分析的瓶頸。V4.0更是將該該技術(shù)應(yīng)用于所有組學(xué)研究，實現(xiàn)全組學(xué)的測序分析加速，有效提升數(shù)據(jù)分析效率。

此外，對于并行計算的任務(wù)，NovelBrain也有完善的監(jiān)控系統(tǒng)對每一個容器的cpu內(nèi)存進行監(jiān)控，同時將運行的命令和日志自動存檔，方便未來給第三方機構(gòu)重現(xiàn)結(jié)果。

4、數(shù)據(jù)壓縮存儲

隨著二代測序數(shù)據(jù)量的上升，數(shù)據(jù)壓縮刻不容緩。以公有云為例，傳統(tǒng)壓縮和計算的費用比約為7:1-8:1，也就是說每1萬的計算費用需要7-8萬的數(shù)據(jù)存儲費用。目前對于數(shù)據(jù)壓縮有很多方法，如對fastq進行壓縮，使用磁帶機或公有云進行冷備等。NovelBrain認為數(shù)據(jù)壓縮存儲是一個系統(tǒng)化工程，需要多個方案協(xié)同配合才能獲得最佳的存儲效果。

因此NovelBrain V4.0提出了數(shù)據(jù)壓縮存儲的一體化解決方案，包含以下四個方面：

（1）原始數(shù)據(jù)fastq文件的高效壓縮

數(shù)據(jù)上傳完畢后，NovelBrain V4.0即自動使用開源軟件對fastq文件進行壓縮，可以獲得比fastq.gz小非常多的無損原始數(shù)據(jù)，分析時自動解壓縮并進行分析。

（2）數(shù)據(jù)歸檔化存儲

NovelBrain V4.0在數(shù)據(jù)分析完畢之后，即可自動對原始數(shù)據(jù)進行歸檔存儲，大幅度降低存儲的費用。

（3）中間分析結(jié)果批量刪除

二代測序分析過程中會產(chǎn)生大量的中間結(jié)果，如GATK-Best-Practice會產(chǎn)生Realign，Remove PCR duplicate等多個bam文件，這些中間結(jié)果非常占存儲空間。NovelBrain V4.0中的所有分析結(jié)果都在數(shù)據(jù)庫中存檔，因此可以細粒度的進行中間結(jié)果的刪除。

（4）結(jié)果文件可重現(xiàn)

經(jīng)常會有客戶或reviewer詢問或查詢中間結(jié)果，因此只有結(jié)果文件可重現(xiàn)，我們才能放心的刪除中間結(jié)果。NovelBrain V4.0對線上的工具做了一些調(diào)整，包括工具參數(shù)的增減或修改，軟件版本的更新，和運行腳本的調(diào)整等，對分析工具進行版本控制，保證分析結(jié)果可重現(xiàn)。

結(jié)合以上多個步驟，NovelBrain可以大幅度降低數(shù)據(jù)存儲的成本，真正做到數(shù)據(jù)存儲的高效和成本控制。

5、完備數(shù)據(jù)庫和可擴展的物種管理

對于分析使用到多個物種的大型實驗室和公司，在做比對或注釋分析時總是個麻煩事情，一方面需要對不同物種、不同版本的索引進行管理，另一方面在分析時還需要指定冗長的物種文件夾路徑。

早在2013年，NovelBrain就開始使用數(shù)據(jù)庫來記錄物種版本、Annotation、GO、Pathway等信息，在數(shù)據(jù)庫管理方面經(jīng)驗豐富；2014年，NovelBrain即開發(fā)了完備的物種管理系統(tǒng)，并對其不斷優(yōu)化；2016年開發(fā)了新版的物種管理系統(tǒng)。當(dāng)前的NovelBrainV4.0更是對物種管理系統(tǒng)進行了全面升級，包括自定義的索引工具，可以自由上線包括bwa、bowtie在內(nèi)的多種對染色體建索引的工具，也支持一鍵對新上傳的物種建索引。同時V4.0也支持上傳自定義的miRNA文件、GO/Pathway、Blast文件等，方便用戶導(dǎo)入自己的注釋信息。在數(shù)據(jù)分析時，分析工程師僅需要簡單選擇物種、版本、數(shù)據(jù)庫這三項，系統(tǒng)會自動將數(shù)據(jù)庫中的索引路徑、注釋信息等對接到分析工具中，快速簡單的進行數(shù)據(jù)分析。

經(jīng)過此次升級，NovelBrain®云平臺V4.0成為業(yè)內(nèi)更懂用戶、更適合科研、更便捷、更高效的生物醫(yī)療云平臺之一，實現(xiàn)了NovelBrain的里程碑式飛躍。本次V4.0版本升級，會第一時間更新到老用戶的平臺上，歡迎各位老師進行壓力測試，并向我們提出寶貴的意見和建議。烈冰安全穩(wěn)定可靠的運維體系，為NovelBrain的熱愛者保駕護航，讓每一個普通人都可以自己分析自己的數(shù)據(jù)，輕松了解自己數(shù)據(jù)的價值，并賦予數(shù)據(jù)生物學(xué)意義。

烈冰于2010年成立至今，身經(jīng)百戰(zhàn)，數(shù)百篇文獻支持。9年間歷經(jīng)海量數(shù)據(jù)檢驗，已為600+國內(nèi)外機構(gòu)服務(wù)5000+項目，業(yè)務(wù)領(lǐng)域覆蓋科研機構(gòu)，大型藥廠，醫(yī)院，檢驗機構(gòu)等。從烈冰助力首篇circRNA研究文章（Sci Rep. 2016 Mar 2;6:22572.）到人類血液外泌體長鏈RNA數(shù)據(jù)庫exoRBase（www.exoRBase.org），從基于Ion Proton測序儀的第一篇轉(zhuǎn)錄組文獻（BMC Med Genomics. 2014 Aug 9;7:49）到第一篇高分轉(zhuǎn)錄組文獻（Nature. 2016 Feb 4;530(7588):98-102），NovelBrain云計算平臺身經(jīng)百戰(zhàn)，不懼考驗，獻身科研！

上一篇：烈冰助力|| COMPASS核心亞基ASH2L通過調(diào)控Wnt信號通路影響大腦皮層發(fā)育下一篇：烈冰助力 ▏通過微量細胞的RNA-Seq和甲基化分析揭示早期雌性生殖細胞的分子特征

波多野结衣AV高清一区二区三区|日韩精品久久久久网站|99re免费视频国产在线播放|国产手机在线αⅴ片无码观看|