一種功能類似于谷歌搜索的計算工具已經證明了它的前景——可以廉價且容易地搜索生物序列數據。開發該工具的瑞士團隊表示,在一項原理驗證研究中,他們利用該工具成功索引了10%世界已知DNA、RNA和蛋白質序列,同樣的方法也可以用于完成其余部分。
日前,該進展在預印本平臺bioRxiv上公布。這款名為MetaGraph的計算工具,可以將公開的序列數據組織并壓縮為可搜索的格式,就像互聯網搜索引擎對網頁及其內容所做的那樣。由此產生的索引可供下載,也可通過門戶網站獲得,用戶可以掃描包含數萬億對堿基對和數十億個氨基酸的序列。
沒有參與該工作的美國馬里蘭大學的計算生物學家Rob Patro說,這項研究“是一項巨大成就,是對所有公開的測序數據進行索引這一重大挑戰的里程碑。”這樣的資源可以助力無數領域的研究,從鑒定新病毒到揭示與疾病相關的RNA序列。雖然MetaGraph并不是唯一一個旨在實現這一目標的項目,但該團隊已經創建了迄今最大的索引,并且使用成本相對較低。
Patro指出,目前,存儲DNA、RNA和蛋白質序列數據的存儲庫呈指數級增長。序列讀取檔案(SRA)是一個由美國國立衛生研究院國家生物技術信息中心(NCBI)及其合作者運營的基因數據庫,包含了來自人類和其他動物、植物和細菌等生物體的超過5萬億個堿基對(50 PB堿基)。
目前的生物信息學工具無法同時掃描這么多數據,尤其是對于那些尚未組裝成基因組的序列,研究人員必須縮小序列集合的范圍。一些研究小組希望通過將較大數據庫中的序列壓縮成更有組織的數據結構或索引來解決這個問題,以便在可下載文件或在線門戶中輕松搜索。
2020年,瑞士蘇黎世聯邦理工學院的生物信息學家AndréKahles和計算機科學家Gunnar R?tsch及其同事展示了MetaGraph的早期版本。該團隊使用稱為德布魯因圖的數學結構表示序列之間的重疊,從SRA中索引了100多萬條記錄,總計約3 PB。
現在,該團隊利用MetaGraph的改進版本索引來自SRA和其他數據庫的5個pb堿基,包括來自微生物、真菌、植物、人類和人類腸道微生物組的序列。新發布的工具可以將幾十太字節的數據壓縮到大約10gb——小到足以在一臺個人電腦上運行。構建初始索引是很困難且昂貴的,所有SRA都要花費數十萬美元,但現在用戶可以比現有技術更便宜地查詢數據集。
英國諾丁漢特倫特大學的生物信息學家和微生物學家Lesley Hoyles說,這項工作“非常令人興奮”。隨著數據存儲庫的規模不斷膨脹,“任何可以減少計算存儲和能源成本的東西……對全世界的研究人員來說都是一個巨大優勢。”Hoyles說,這種方法可以減少低收入和中等收入國家的科學家進行基因組研究的障礙。“工作可以在便宜的筆記本電腦上輕松完成。”
無獨有偶,其他研究小組也在取得進展。去年,法國巴斯德研究所從歐洲研究委員會獲得了200萬歐元,啟動了IndexThePlanet項目,對SRA中的所有數據進行編目。NCBI的研究人員正在開發索引工具Pebblescout。“目前這是一個非常活躍的領域。”英國巴斯大學的計算生物學家Zamin Iqbal說。他曾參與“所有細菌”項目,該項目旨在收集細菌序列數據,使其更容易搜索。
Patro認為,由于受MetaGraph索引大小的限制,其在一些特別大的任務上可能比其他工具慢,比如同時從一個樣本中查找數百萬個序列。他補充說,目前還不清楚如何最好地用新的序列數據更新索引。還有一個挑戰是為項目提供資金,以及隨之而來的所有計算成本。事實上,該工具最終是否被廣泛采用,將部分取決于“如何解決社會和行政方面的問題,即如何使用如此大量的資源”。
Kahles和R?tsch對此表示贊同,他們希望這項工作能激勵其他團體,以及NCBI或SRA等更大的組織的參與,并幫助索引剩余90%的序列數據,供研究人員使用。
近日,西北農林科技大學玉米生物學與遺傳育種團隊聯合華中農業大學玉米團隊在《植物生理學研究》發表論文。研究初步揭示了ZmGBF1-ZmATG8c模塊通過自噬途徑調控玉米耐熱性的分子機制。隨著全球氣溫持續......
記者21日從國家乳業技術創新中心獲悉,該中心技術研發團隊成功研制出奶牛種用胚胎基因組遺傳評估芯片和“高產、抗病、長生產期”功能強化基因組預測芯片。該系列基因芯片具有完全自主知識產權,填補了我國基因芯片......
國際期刊《內分泌學前沿》日前刊登的一項新研究揭示,一種特殊基因對腸道吸收維生素D及其后續代謝過程至關重要,阻斷或抑制該基因能夠選擇性抑制癌細胞生長。這一發現在癌癥治療等精準醫學領域具有廣闊應用前景。維......
記者從安徽農業大學獲悉,該校王曉波教授團隊聯合中國農業科學院作物科學研究所邱麗娟、李英慧研究員團隊,解析了關鍵基因對大豆種子油脂和蛋白比例(油蛋比)的調控機制,為高油或高蛋白大豆品種選育提供了新方向。......
茶樹是以收獲新梢為主的葉用經濟作物,茶芽大小不僅直接影響鮮葉的產量和品質,還與茶類適制性密切相關。解析茶樹芽大小的遺傳調控機制,有助于改良茶樹品種、提高茶葉產量。近日,中國農業科學院茶葉研究所種質資源......
玉米作為全球重要的糧食、飼料和工業原料作物,其高產對保障糧食安全至關重要。近日,東北農業大玉米遺傳育種團隊完成的研究在《農業科學學報(英文)》(JournalofIntegrativeAgricult......
水稻作為起源于熱帶或亞熱帶的糧食作物,其生長發育對低溫脅迫敏感。伴隨全球氣候變化加劇,極端低溫事件發生頻率顯著上升,發掘耐冷基因并解析分子機制,有利于水稻高產穩產遺傳改良。目前,利用自然群體挖掘的水稻......
東南亞人群基因組計劃概念圖。受訪者供圖東南亞是全球最重要的人類演化區域之一。該地區人群擁有極高的遺傳多樣性,但基因組學研究卻長期缺失,制約了人類環境適應性進化與疾病遺傳機制的深度解析,因而被稱為全球人......
近日,中國農業科學院油料所(以下簡稱油料所)油料基因工程與轉基因安全評價創新團隊發布了油菜害蟲西北斑芫菁染色體水平高質量基因組數據,明確該害蟲含10條染色體和11687個蛋白編碼基因,為研發害蟲綠色防......
經過20多年的努力,科研人員成功地對6種現存猿類的基因組進行了完整測序,為研究人類進化提供了近距離視角,這被英國《自然》雜志稱為“遺傳學的一個里程碑”。123名來自多個國家和地區的科研人員組成的團隊9......