中國科學院昆明植物研究所
location
當前位置:首頁 > 新聞動態 > 頭條新聞
left
新聞動態
頭條新聞

細胞器基因組組裝利器——GetOrganelle正式在線發表

文章来源:中國西南野生生物種質資源庫  |  发布时间:2020-09-12  |  作者:金建军  |  浏览次数:  |  【打印】 【關閉

 

  真核生物細胞器基因組主要包括線粒體和質體(包括葉綠體、白色體等)所包含的全部DNA分子,是細胞質遺傳的主要載體。在動植物和真菌的單個細胞內,往往有多個(甚至成千上萬個)細胞器基因組單元的拷貝,這使得利用低覆蓋度的全基因組測序數據組裝得到完整的細胞器基因組成爲可能。隨著DNA高通量測序技術的發展,測序成本急劇下降,低覆蓋度的全基因組測序數據得以大規模産生,如何快速、准確地組裝細胞器基因組對後續生物學問題的研究至關重要。細胞器基因組序列在研究真核生物系統發育、譜系地理、雜交和物種鑒定等方面具有重要價值。1986Shinozaki等破解煙草葉綠體基因組以來,特別是近年來二代測序技術的快速發展,質體系統發育基因組已成爲解析植物系統發育關系不可或缺的重要手段之一。 

  中國科學院昆明植物研究所植物多样性与基因组学大团队李德铢研究组和伊廷双研究组多年来关注基于植物质体基因组的系统发育、基因组结构演化和DNA条形码研究,逐步发展了基于质体基因组数据分析的一套完善的研究体系,并取得了一系列重要进展(Ma et al., 2014. Systematic BiologyZhang et al., 2017. New PhytologistLi et al., 2019. Nature PlantsZhang et al., 2020. Systematic Biology)。该团队重视质体基因组分析方法的开发和应用,已开发一个全新的质体基因组注释软件PGA (Qu et al., 2019, Plant Methods)並得到廣泛應用,並成爲ESI高引用和熱點論文。 

  近來针对已有细胞器基因组组装软件组装流程存在的低效率、低成功率、低准确度,以及需要大量人工介入等问题,该团队联合中國科學院西双版纳热带植物园和美国宾州州立大学合作团队开发了一套全新的细胞器基因组组装工具GetOrganelle,实现了大规模细胞器基因组快速、准确地组装。GetOrganelle的核心流程包括:1)通过“种子”序列获得部分目标相关reads,2)延伸reads获得所有目标相关reads,3)对reads进行从头组装得到组装图形,4)过滤组装图形,5)识别细胞器组分并自动导出所有可能的细胞器基因组结构(图1)。GetOrganelle在“baiting and iterative mapping”的基础上提出了大大提高延伸效率的reads预分群算法;提出了适用于细胞器基因组的估算contigs拷贝数的算法,该算法能综合组装图信息和测序深度信息(图2)。基于50个植物物种的公开reads数据集的测试显示,在计算资源消耗略高的情况下,GetOrganelle的默认参数的完整成环率(78%)远高于目前使用最广泛的工具NOVOPlasty的最好参数的结果(16%);而资源消耗接近甚至更低的情况下,GetOrganelle仍然能保持远高于NOVOPlasty的成环率。并且NOVOPlasty在K=23和K=31的情况下约20%~25%的假阳性率(错误结果谎称完整成环)(图3)。在不同参数的测试下,GetOrganelle的结果一致性优于NOVOPlasty。Read mapping进一步显示,GetOrganelle的结果准确性不仅高于NOVOPlasty,也高于基于相同reads数据的已发表结果(图4),并发现了部分已发表结果的明显组装错误。在56个动物数据和50个真菌数据测试中,GetOrganelle也获得了比NOVOPlasty更高的线粒体基因召回率。值得一提的是,在Freudenthal et al. (2020) 針對主流葉綠體基因組組裝工具(包括chloroExtractor、Fast-Plast、GetOrganelle、IOGA、NOVOPlasty、org.ASM等)的基准檢測文章中,GetOrganelle也獲得了遠高于其他工具的成環率和准確性,並被推薦作爲默認(組裝工具)選項。 

  2020年9月10日,该研究成果以 “GetOrganelle: a fast and versatile toolkit for accurate de novo assembly of organelle genomes”为题正式在线发表于国际遗传学/生物技术权威期刊Genome Biology杂志上(https://doi.org/10.1186/s13059-020-02154-5)。 昆明植物研究所金建军博士和西双版纳热带植物园郁文彬博士为该论文的并列第一作者,李德铢研究员和伊廷双研究员为通讯作者。该研究得到中國科學院战略性先导科技专项(XDB31000000)、国家自然基金重点国际(地区)合作研究项目(No.31720103903)、中國科學院大科学装置开放研究项目(2017-LSFGBOWS-02)和中國西南野生生物種質資源庫“交叉合作团队”项目的资助。  

  GetOrganelle的源代碼于2016年4月在GitHub第一次上線。2018年5月,報道GetOrganelle的第一版預印稿在bioRxiv上線。2020年3月,GetOrganelle快裝版在Bioconda上線。截止發稿前,GetOrganelle的預印稿在谷歌學術搜索(Google Scholar)中已被引用超過230次。此外,GetOrganelle的動物meta-mitogenomics測試版已經上線,利用三代測序數據進行組裝的功能正在開發中,該工具的擴展新功能值得期待。 

 

图1. GetOrganelle的工作流程图 

 

圖2. GetOrganelle的contigs拷貝數估算及基因組結構導出算法示例 

  

圖3. GetOrganelle和NOVOPlasty分別在50個公開植物數據上的四組不同參數的測試結果 

  

图4. 基于Read mapping用50种植物的公开数据,评估并比较GetOrganelle组装质量、NOVOPlasty组装质量的和已发表的质体基因组的组装质量,统计三者在组装质量上最好(最多reads数、最高深度或者最低错误率)的样本个数。 

(責任編輯:李雪)

中國科學院昆明植物研究所

版权所有 Copyright © 2002-2025 中科院昆明植物研究所,All Rights Reserved 【滇ICP備05000394號】
地址:中国云南省昆明市蓝黑路132号  邮政编码:650201    點擊這裏聯系我們  手機版  

原本山川 极名草木