2016年12月,國際學術期刊《核酸研究》(Nucleic Acids Research)發表了中國科學院北京生命科學研究院計算基因組學實驗室趙方慶團隊題為The combination of direct and paired link graphs can boost repetitive genome assembly 的最新研究成果。該研究基于序列重疊部分構建了contig的直接連接信息圖,并在其配對連接信息的幫助下,解決了由短片段重復序列造成的基因組拼接碎片化問題,在保證準確性的前提下延伸了序列的長度,獲得了更完整、間隙更少的基因組序列。
一直以來,重復序列都是基因組拼接的主要限制因素,而富含短片段重復序列區域的組裝更是難以跨越的障礙。這部分序列的缺失會導致基因斷裂,使某些關鍵遺傳信息在后續的研究分析中被遺漏。此前的序列組裝算法僅僅使用配對連接信息,忽視了contig本身的連接關系,不僅使算法難度增加,而且拼接結果也存在間隙序列多、錯誤連接多等問題。特別是對于短片段重復序列,歷來的組裝算法都選擇直接丟棄,使得短片段重復序列富集區域無法有效拼接。
針對這種情況,趙方慶團隊開發了基于直接連接信息的基因組組裝算法inGAP-sf。該方法根據德布魯因圖的特征,基于contig的重疊部分構建了直接連接信息圖,在配對連接信息的監督下拓撲路徑,并對這些路徑進行整合,同時引入了貝葉斯模型用于去除錯誤路徑,從而得到高質量的拼接結果。通過在多個模擬數據和真實測序數據上的測試,inGAP-sf的結果與其他方法得到的拼接序列相比,連續性、準確性、完整性都有明顯的提高。該研究使用的拼接策略極大程度地完善了已有序列組裝算法的不足,為序列拼接提供了新的思路。inGAP-sf已發布在https://sourceforge.net/projects/ingap-sf,供相關研究人員使用。
該工作由趙方慶課題組的史文聿和冀培豐共同完成,并得到國家自然科學基金委和科技部重點研發計劃的經費支持。
inGAP-sf算法流程
橡膠樹是天然橡膠的主要來源。“橡膠樹育種面臨的主要困難在于周期長和效率低,通過常規育種方法將多抗、高產性狀聚合往往需要30~40年。”中國熱帶農業科學院橡膠研究所研究員程漢告訴《中國科學報》。然而,目......
記者宋喜群、馮帆從山東農業大學獲悉,該校農學院教授孔令讓研究團隊首次組裝了小麥遠緣雜交常用物種中間偃麥草和鵝觀草染色體水平的高質量基因組序列,解析了二者基因組結構差異與獨立多倍化演化路徑,對兩者攜帶的......
近日,中國農業科學院煙草研究所煙草功能基因組創新團隊發現煙草分枝發育“開關基因”,預示著未來作物株型調控有了新靶點。相關研究成果發表在《植物生物技術》(PlantBiotechnologyJourna......
薇甘菊作為全球十大最具危害的惡性入侵雜草之一,以其驚人的繁殖速度和強大的環境適應性,在亞洲、太平洋地區及中國華南地區造成嚴重生態破壞。然而,其基因組層面的適應性進化機制長期未被系統解析,制約了科學防控......
近日,中國科學院大連化學物理研究所研究員周雍進團隊與上海交通大學副教授魯洪中合作,在酵母系統生物學研究中取得新進展。研究團隊通過整合分析全球1807株釀酒酵母菌株的基因組與生態位數據,構建了高覆蓋度的......
近日,中國農業科學院農業基因組研究所農業基因編輯技術創新團隊深入解析了中亞野豬種群在跨越歐亞大陸百萬年的遷徙歷程中適應環境的獨特遺傳密碼,為理解大型哺乳動物如何應對環境變化提供了全新視角。相關研究成果......
人類基因組中超98%的遺傳變異位于非編碼區,這些變異通過調控染色質可及性、三維構象、剪接加工等多種分子機制影響基因表達,最終導致疾病發生。由于調控機制的復雜性和細胞類型特異性,目前解讀非編碼變異的分子......
近日,中國科學院生物物理研究所徐濤研究組和何順民研究組在《基因組、蛋白質組與生物信息學報》雜志發表論文。兩位科學家牽頭的“女媧”中國人群基因組計劃旨在構建中國人群的全基因組數據資源,支撐中國人群的疾病......
中外團隊歷時10年,在東南亞人群基因組研究領域取得里程碑式突破。北京時間14日晚,“東南亞人群基因組計劃”首期成果發表在國際期刊《自然》上,東南亞人群的遺傳演化之謎被揭開。論文通訊作者之一、中國科學院......
東南亞是全球最重要的人類演化區域之一。該地區人群擁有極高的遺傳多樣性,但基因組學研究長期缺失,制約了人類環境適應性進化與疾病遺傳機制的深度解析,因而被稱為全球人類基因組研究“最后一塊拼圖”。中國科學院......