泛基因组(Pan-genome)是一个物种内所有基因组信息的总和。泛基因组相比单一参考基因组,包括了更多的遗传多样性,可以有效降低参考基因组偏差对遗传变异检测的影响。目前水稻、玉米、小麦、大麦、大豆和番茄等作物均构建了泛基因组,并体现出其在功能基因研究、育种改良等领域中的重要价值。但是,目前对泛基因组的下游遗传学分析,大多延续单个参考基因组时的分析框架。因此,如何充分利用泛基因组的优势解决重要的生物学问题,促进植物遗传育种研究,仍然需要更多的创新探索。
年6月8日,中国农业科学院深圳农业基因组研究所(以下称“基因组所”)黄三文团队在Nature上发表了背靠背文章Genomeevolutionanddiversityofwildandcultivatedpotatoes和Graphpangenomecapturesmissingheritabilityandempowerstomatobreeding,为实现泛基因组在作物育种的应用提供了新的解决方案。
研究一:野生与栽培马铃薯的基因组进化与多样性
黄三文团队联合国内外优势单位发起了“优薯计划”,用基因组学和合成生物学指导马铃薯产业的绿色革命,即用二倍体替代四倍体,并用杂交种子替代薯块,变革马铃薯的育种和繁殖方式。该团队先后打破马铃薯自交不亲和(NaturePlant,),解析了自交衰退的遗传基础(NatureGenetics,),发现杂合马铃薯基因组中有害突变的嵌合分布模式(NatureGenetics,),培育了第一代高纯合度自交系材料(Cell,,详见BioArt报道:里程碑式突破!专家点评Cell丨黄三文团队“优薯计划”实现0到1突破——第一代通过基因组设计的杂交马铃薯问世)。在此基础上,为了充分利用二倍体资源中的优异性状以加快杂交马铃薯育种以及探究马铃薯无性繁殖方式对马铃薯基因组的影响以及薯块形成的遗传演化机制,研究人员构建了高质量的二倍体马铃薯泛基因组图谱。
研究人员分析了具代表性的44份二倍体马铃薯种质的基因组,包括农家品种、野生种,另外挑选了马铃薯姊妹类群-类马铃薯组(SectionEtuberosum)的两个种(图1-1)。分析发现马铃薯与近源物种番茄和Etuberosum之间以及马铃薯类群内部存在广泛的不完全谱系分选和物种间杂交的现象,反映马铃薯类群复杂的演化历史。
图1-1.结薯种与不结薯种表型。左图为不结薯材料Etuberosum,右图为结薯材料马铃薯。Etuberosum和马铃薯都会产生地下分枝,Etuberosum的地下分枝向上生长发育成新的植株;而马铃薯的匍匐茎向下生长,并且在匍匐茎顶端膨大形成薯块。
由于抗病基因(R基因)在基因组中串联分布的特性,导致其基因结构注释困难。基于高质量的基因组组装,研究人员开发一套R基因注释流程,并发现马铃薯中R基因拷贝数相比于番茄和Etuberosum存在明显扩张。与种子繁殖植物相比,无性繁殖的马铃薯更容易受到病原菌的侵染,推测这可能促使了R基因数量的扩张以应对病原菌对薯块的侵染。类似的,研究人员发现无性繁殖的甘薯野生种基因组中抗病基因的拷贝数相比于有性生殖的牵牛花显著扩张,进一步印证了这一推测。
通过马铃薯、番茄和Etuberosum的多组学比较分析,研究人员鉴定到一个可能在薯块发育过程中发挥关键作用的TCP转录因子。通过Knockout实验证明,该基因在薯块发育的起始时期发挥关键作用,命名为薯块身份基因IdentityofTuber1(IT1);其突变体匍匐茎顶端无法正常膨大形成薯块,转而发育成了侧枝;IT1与结薯移动信号因子SP6A存在蛋白直接互作,不结薯种Etuberosum虽然有IT1却在SP6A上有突变。(图1-2)。
图1-2.通过多组学比较分析鉴定马铃薯薯块身份基因IT1。a).多组学手段鉴定到个薯块发育相关候选基因。b).IT1基因附近的保守非编码序列。tepCNS:番茄、Etuberosum、马铃薯共有的保守非编码序列得分,pCNS:马铃薯特有的保守非编码序列得分。c).IT1在不同材料、不同组织中的表达量热图。d).野生型与it1敲除突变型的表型。e).野生型与it1突变型材料在薯块起始发育过程中的表型比较。f).酵母双杂验证IT1与SP6A的互作。g).马铃薯与Etuberosum中的SP6A蛋白结构域示意图。
研究人员鉴定到了,个高质量的结构变异,并且首次构建了栽培和近缘野生马铃薯的大片段倒位图谱。其中,马铃薯3号染色体5.8Mb倒位事件与控制块茎中类胡萝卜素积累基因紧密连锁,并且在自交后代中该区域重组率显著降低,该现象为自交系的改良和去除潜在的连锁累赘提供了重要思路。
审稿人评价该研究解析了马铃薯和姊妹类群之间的进化关系,并且对块茎进化提出见解,更重要的是发现了与农艺性状紧密关联的结构变异。这项研究展示了基于广泛选材的“马铃薯组”和“类马铃薯组”泛基因组学的力量,能为其他作物泛基因组研究提供参考方法。
研究二:利用图泛基因组找回丢失的遗传力和促进番茄育种
在番茄研究中,该团队利用图泛基因组解决重要遗传学问题,找回“丢失的遗传力”,为解析生物复杂性状的遗传机制和番茄育种提供了新思路。
“遗传力丢失”(Missingheritability)是一个重要的数量遗传学问题,即通过遗传标记估计的遗传力以及通过全基因组关联分析(GWAS)发现的所有相关基因所贡献的遗传力总和均低于实际的遗传力。找回这些“丢失的遗传力”,将有助于理解复杂性状的遗传机制,为相关的育种工作提供理论支持。传统二代短片段测序虽然可以对长度较小的变异(SNPs和InDels)进行鉴定,但对复杂结构变异(SVs)的检测能力较差,无法全面评估遗传变异对遗传力的具体影响。因此,如何尽可能准确地鉴定全部遗传标记是克服该问题的重要前提。研究人员通过利用图泛基因组(graphpangenome)技术解决了该难题。
图(graph)是数学和计算机科学中一种常见的数据结构。利用该数据结构整合泛基因组(pangenome),可以减少单一基因组带来的参考基因组偏差问题,提高了遗传变异的检测能力。利用番茄的转录组及代谢组数据,研究人员从遗传标记的不完全连锁,等位基因异质性和位点异质性三个方面找回“丢失的遗传力”(图2-1)。
图2-1.番茄图泛基因组研究流程。a)基因组数据;b)图泛基因组;c)表型数据;d).不完全连锁;e)等位基因异质性;f)位点异质性。研究人员利用高准确率的三代测序技术组装了骨架基因组SL5.0和31份具有代表性的材料,鉴定出相关的遗传变异(SNPs,InDels和SVs),再整合已公布的结构变异和短片段测序检测的变异,最终构建了来自个番茄基因组的图泛基因组并用于后续研究。
研究分析表明,SVs是最主要的遗传力来源。利用单一参考基因组对SVs的检测能力有限,而仅与SVs存在完全连锁的SNPs/InDels比例较低,因此利用图泛基因组的遗传变异,可以解决标记不完全连锁的问题,可将估计的遗传力提高24%,展现了图泛基因组在找回“丢失的遗传力”上的重要作用。
进一步,研究人员尝试利用图泛基因组的遗传变异提高GWAS的检测能力。研究人员发现,如果结合多位点模型,将有可能解决由于遗传异质性导致的GWAS检测能力下降的问题。以基因表达为例,在基因上游调控区域的不同变异都有可能导致基因表达的改变(又称为等位基因异质性,allelicheterogeneity)。基于图泛基因组的结构变异,并结合多位点模型,分析发现1,个基因表达可能受到两个或者两个以上的SVs的调控,而单位点的混合线性模型只能鉴定出其中的个基因表达的cis-eQTL。
不同的基因的突变也有可能产生相同的表型(位点异质性,locusheterogeneity)。研究人员借助共表达调控网络,首先找到最有可能影响复杂性状的基因模块,然后将对应模块内基因上下游的全部SVs进行关联分析,从而解决了位点异质性带来的检测能力下降问题。以类黄酮为例(共38种代谢物),研究人员发现一个基因模块9个基因周围的16个SVs,可能参与调控其中31种类黄酮类代谢物,展现出比传统关联分析更强的检测能力。
最后,为了展示找回的遗传力在育种中的实际作用,研究人员以影响番茄产量和糖度的重要代谢物可溶性固形物(SSC)为例,采用上述分析方法,共鉴定出了2个潜在的与SSC含量高度相关的SVs,可以用于未来的分子标记辅助选择。另外,理论上,当利用遗传标记估计的遗传力提高时,也可以提高基因组选择(GS)的效率。通过对影响番茄风味的33种代谢物进行分析发现,利用全部的SVs作为分子标记对GS的效果最佳。研究人员进一步精心选择出一个不超过2.1万SVs的数据集,发现如果利用该数据集设计育种芯片,GS的准确率可能超过利用全部的SNPs。因此,该研究为基于SVs设计分子标记提供了理论支撑。
审稿人评价该研究是目前为止最系统的图泛基因组相关研究,将可能成为基因组分析和基因组辅助育种领域的标准和基础;使用新的方法对等位基因异质性和位点异质性的研究特别有趣;促进基因组研究和全基因组关联分析从SNPs转向可能具有更重要作用的结构变异。
黄三文研究员为两篇论文的通讯作者,基因组所博士生唐蝶、博士后贾玉鑫、中国农业科学院蔬菜花卉研究所助理研究员张金喆和基因组所与荷兰瓦赫宁根大学联合培养博士生李宏博为马铃薯文章的共同第一作者。基因组所副研究员周姚,博士生张智洋和科研助理鲍志贵为番茄文章的共同第一作者。
原文链接: