谷歌希望憑借人類基因組云端服務(wù)Google Genomics在基因組研究市場(chǎng)占有一席之地,如今,公司正忙于用最好的工具來填滿這個(gè)工具箱。
Google Genomics是谷歌2013年推出的一項(xiàng)云端服務(wù),幫助大學(xué)實(shí)驗(yàn)室和醫(yī)院等機(jī)構(gòu)將患者或科研對(duì)象的生物基因儲(chǔ)存到云端上,推進(jìn)人類基因組信息的存儲(chǔ)、對(duì)比和分析。
Google Genomics和基因數(shù)據(jù)創(chuàng)業(yè)公司Tute Genomics日前宣布,Tute Genomics將把其海量基因信息數(shù)據(jù)庫放到Google Genomics平臺(tái)上以便于查詢。Google Genomics托管的其他基因數(shù)據(jù)庫還包括1000 Genomes Project、Illumina Platinum Genomes和MSSNG Database for Autism Researchers等。
Google Genomics工程主管、Google+項(xiàng)目前工程主管大衛(wèi)?格雷澤(David Glazer)曾表示,搜索不是搜索關(guān)鍵字,研究人員可以搜索基因組的特定片段及基因組序列,從而找到具有共同變異的基因組片段。
Google Genomics產(chǎn)品經(jīng)理喬納森?秉海姆(Jonathan Bingham)表示,為了區(qū)分自己不僅僅是一個(gè)數(shù)據(jù)存儲(chǔ)平臺(tái),Google Genomics還將利用谷歌的搜索工具和計(jì)算設(shè)施來處理和分析基因數(shù)據(jù)。
用戶在Google Genomics上存儲(chǔ)數(shù)據(jù)后,還可以共享給任何想共享的人。此外,Google Genomics還支持基因組數(shù)據(jù)的處理,包括變異調(diào)用、三級(jí)結(jié)構(gòu)分析(tertiary analysis)和群組對(duì)比等。
Google Genomics除了存儲(chǔ)數(shù)據(jù),還提供數(shù)據(jù)分析服務(wù)。秉海姆稱:“Google Genomics建立在Google Cloud云平臺(tái)之上,我們需要解決的一個(gè)問題是可存儲(chǔ)性。此外,還要便于研究人員進(jìn)行分析,在速度和靈活性方面要有保證。”
秉海姆還稱,BigQuery就是Google Cloud平臺(tái)上的一個(gè)云數(shù)據(jù)分析引擎,之前已被證明對(duì)于基因組數(shù)據(jù)分析大有幫助。BigQuery是谷歌推出的一項(xiàng)Web服務(wù),允許開發(fā)者使用谷歌架構(gòu)運(yùn)行SQL語句對(duì)超級(jí)大數(shù)據(jù)庫進(jìn)行分析,TB級(jí)數(shù)據(jù)十幾秒便可返回結(jié)果。
“向BigQuery加載數(shù)據(jù)后,如來自特定父母群體的基因變異數(shù)據(jù),用戶就可以對(duì)一些問題進(jìn)行查詢,如等位基因頻率、全基因組關(guān)聯(lián)、與表型性狀或藥物治療的關(guān)聯(lián)等,幾秒鐘便可返回結(jié)果�!�
但BigQuery是針對(duì)無結(jié)構(gòu)數(shù)據(jù)(unstructured data)進(jìn)行設(shè)計(jì)的,因此Google Genomics團(tuán)隊(duì)還對(duì)BigQuery引擎進(jìn)行了調(diào)整,使之適應(yīng)基因組數(shù)據(jù)。
秉海姆表示,此次與Tute Genomics合作后,將允許用戶通過BigQuery進(jìn)行更深層的數(shù)據(jù)挖掘。 “人們已經(jīng)意識(shí)到,Google Genomics和BigQuery的結(jié)合允許人們利用基因變異和之前的相關(guān)知識(shí)做一些十分有意義的事情。如果你之前做過基因測(cè)序研究,或者有了新的人類基因組,可以加入到Tute Genomics數(shù)據(jù)庫中,然后咨詢一些問題。例如,如果我給患者做了基因測(cè)序,如何能知道他們的變異?哪些與疾病的關(guān)聯(lián)度最高?如何知道他們對(duì)藥物的反應(yīng)?”
這項(xiàng)服務(wù)的成本和速度分別是:88 GB的人類基因組變異信息加入到Tute Genomics數(shù)據(jù)庫僅30秒鐘,費(fèi)用不到1美元。
Tute Genomics基因數(shù)據(jù)庫是一個(gè)“注釋型”數(shù)據(jù)庫,對(duì)許多基因變異進(jìn)行了解讀,所使用的標(biāo)準(zhǔn)包括SIFT、PolyPhen2、PhyloP、GERP++、MutationTaster、MutationAssessor、FATHMM、MetaLR和MetaSVM等。同時(shí),Tute Genomics數(shù)據(jù)庫也整合了自身的預(yù)測(cè)系統(tǒng),可預(yù)測(cè)單核苷酸多態(tài)性(SNP)或插入缺失標(biāo)記(InDel)是否與孟德爾表型(Mendelian phenotypes)相關(guān)。
Tute Genomics數(shù)據(jù)庫還整合了公眾數(shù)據(jù),如來自1000 Genomes Project和NHLBI ESP-6500等基因組項(xiàng)目的數(shù)據(jù)。此外,Tute Genomics數(shù)據(jù)庫還包含了來自NCBI的ClinVar數(shù)據(jù)庫的臨床注釋。Tute Genomics首席科學(xué)官(CSO)大衛(wèi)?米特曼(David Mittelman)稱,Tute Genomics基因數(shù)據(jù)庫是其他基因變異數(shù)據(jù)庫的補(bǔ)充。
谷歌與Tute Genomics的合作始于去年。當(dāng)時(shí),Tute Genomics CEO雷德?羅比遜(Reid Robison)與谷歌Google Genomics工程主管格雷澤在一次會(huì)議上相遇,發(fā)現(xiàn)兩家公司的產(chǎn)品很適于合作。
米特曼說:“我們對(duì)Google Genomics感到很興奮,它不僅允許你存儲(chǔ)基因數(shù)據(jù),還能對(duì)其進(jìn)行分析。在Tute Genomics,我們的工作重心集中在整個(gè)注釋層面,但基因變異的背后又意味著什么呢?如何與我們當(dāng)前的已知內(nèi)容結(jié)合起來呢?就是搜索引擎的任務(wù)了�!�
今年2月底,谷歌加入了全球基因組學(xué)與健康聯(lián)盟(Global Alliance for Genomics and Health),旨在推進(jìn)基因組和臨床數(shù)據(jù)的安全和有效共享。對(duì)于谷歌這種做法,米特曼表示支持。
米特曼說:“如果你擁有一個(gè)知名品牌,招募了一群優(yōu)秀的工程師,正在制定一個(gè)開放標(biāo)準(zhǔn),這些就是成功的關(guān)鍵要素。如果想白手起家,從頭打造自己的體驗(yàn),或者與毫無經(jīng)驗(yàn)的人合作,那意義不大�!�
米特曼認(rèn)為,當(dāng)前的基因組社區(qū)仍在探索研究與合作的方向,但他對(duì)谷歌正在打造的社區(qū)印象深刻。米特曼說:“人們不只是想把數(shù)據(jù)上傳到云端,他們還想進(jìn)行適當(dāng)?shù)幕?dòng)。谷歌的該戰(zhàn)略就是測(cè)試市場(chǎng)的好方法,看看人們是否愿互動(dòng)。如果人們能夠積極互動(dòng),我相信將催生出更多創(chuàng)新。”
Google Genomics產(chǎn)品經(jīng)理秉海姆稱,除了Tute Genomics,谷歌還對(duì)與其他更多平臺(tái)合作持開放態(tài)度。
Tute Genomics首席科學(xué)官米特曼說:“我們將繼續(xù)在Google Cloud平臺(tái)上為我們的數(shù)據(jù)庫打造一系列新工具和功能。這只是我們合作的開始,未來數(shù)月還會(huì)進(jìn)行更深入地整合。”