石竹科古全基因组复制与冷适应间的联系

前提:石竹科(香石竹科)经历了多次向寒冷气候的转变和垫状植物适应的趋同,表明它们可能为寒冷适应研究提供自然系统。先前的研究表明,假定的古代全基因组重复(WGD)与石竹目向寒冷气候的生态位转变有关。在这里,我们在探索石竹科中发现的这些变化之一可能涉及的基因组变化。

方法:我们构建了一个数据集,将26个新生成的转录组与45个已发表的转录组结合起来,其中包括7个属的11种垫状植物物种。利用这个数据集,我们推断了石竹科的过去的系统发育,并将古代WGD和基因重复映射到系统发育上。我们还检查了与气候变化相关的基因重复富集的功能群。

结果:ASTRAL拓扑结构与目前家庭内部关系的共识基本一致。我们推断出该家族中有15个假定的古代WGD,其中有8个之前尚未发表。先前的研究发现,最古老的古代WGD(约64.4-5670万年前)WGD1与气候向寒冷的转变有关。与泛素化相关的基因区域在WGD1后保留的基因重复中以及由Colobanthus和Eremogone中的垫状植物集中保留的基因重复中过多呈现,以及其他功能注释。

结论:古WGD诱导的基因家族扩张可能导致石竹科向寒冷气候生态位的转变。转录组数据是帮助揭示植物深层进化模式异质性的重要资源。

关键词:趋同进化,垫状植物,基因复制,基因本体论,古多倍体,系统发育组学,系统发育,多倍体,转录组

引言

被子植物可能起源于中温热带森林(Feild等,2004;Chaboureau等,2014;Willis和McElwain,2014)。自新生代开始以来,目前在高纬度和高海拔地区普遍存在的寒冷(即冰冻)生物群落变得越来越普遍(Willis和McElwain,2014)。过去6600万年的变冷和干燥趋势(Myr)导致被子植物谱系反复适应寒冷气候(Willis和McElwain,2014;Zanne等,2014;Folk等,2020)。大量研究揭示了植物冷适应背后的分子、生理和形态变化。这些修饰的一些众所周知的例子是防止霜冻损害的渗透物合成、生活史改变和垫状形成表型(Chinnusamy等人,2004年;Beck等人,2007年;Preston和Sandve,2013年;Zanne等人,2013年,2014;Körner,2016;Folk等,2020)。然而,关于这些修改的潜在宏观进化推动因素仍然存在疑问。

古代全基因组重复(WGD)在被子植物的进化史上很常见,并且是性状创新和气候生态位转变的重要贡献者(Soltis等人,2009;teBeest等人,2012;Moghe和Shiu,2014;Brockington等人,2015;Smith等人,2018b;Baniaga等人,2020;Wu等人,2020)。据推测,基因拷贝数的增加会增加适应的潜力(Ohno,1970;Zhang,2003)。尽管如此,古WGD与被子植物的寒冷适应之间的联系,无论是因果关系还是相关关系,仍然是一个活跃的研究领域(Wu等人,2020;Zhang等人,2020)。

在过去15年中,基因组规模数据的涌入使植物学家能够从功能和分子角度以及系统发育角度进一步研究复杂的深度进化问题。例如,基因组和转录组数据已被用来推断古代WGD的系统发育位置(Jiao等人,2011;Walker等人,2017;Yang等人,2018;Wang等人,2019;Wu等人,2020)。来自基因组和转录组数据集的基因家族进化模式提供了有关性状进化的分子变化信息(Brockington等人,2015;Walker等人,2018b;Wang等人,2019;Wu等人,2020)。转录组数据生成长重叠群,使基于系统发育的方法能够区分旁系同源物。这些数据集提供的数以万计的基因座可以改进系统发育重建,更重要的是,可以研究基因树冲突、基因重复和丢失及其潜在的非生物和生物原因(Shen等,2017;Walker等人,2018a;Wang等人,2019)。

石竹科(香石竹科)包含101属3300个目前公认的物种,估计树冠年龄约为ca.80Myr(Magallón等人,2015年;POWO,2022年)。该家族的成员具有不同的花形态,通常具有爪状和边缘花瓣。有几个物种在园艺上很受欢迎(例如石竹属物种)。直到最近,三个亚科指甲草亚科(Paronychioideae)、繁缕亚科(Alsinoideae)和石竹亚科(Caryophylloideae)仍被传统上认可(例如,Bittrich,1993)。对整个科的分子采样显示,这些亚科不是单系的,这导致Harbaugh等人。(2010)提出石竹科内部的关系更准确地反映为11个大群。这种一致性得到了后续研究的支持(例如,Greenberg和Donoghue,2011;Sadeghian等人,2015)。虽然该科的大部分多样性存在于11个大群中,但第12个大群Thylacospermeae被提议根据形态学和系统发育证据将囊种草属的两个物种从Eremogoneae大群中分离出来(Pusalkar,2015)。然而,对该大群的系统发育位置的支持仍然不明确(Xu等人,2019)。

石竹科大多数种类分布在北半球干燥寒冷的地区。值得注意的是,石竹科是唯一分布遍及七大洲的双子叶植物科。石竹科包括一年生植物、多年生草本植物和多年生木本植物(亚灌木)。大多数亚灌木由草本茎和木质基部组成,但也有一些例外,大部分是木质的,例如垫状植物。垫状植物生长形式具有球形形状,可以保留热量和水分(Aubert等人,2014年),并且与北极高山气候有关,平均生长季节温度低于10°C(Körner,2011年;Boucher等人,2016;Birkeland等人,2020)。垫状习性在开花植物中至少独立起源115次,垫状谱系在系统发育上成群体,表明这种适应的潜在生理先决条件(Boucher等,2016)。

石竹科非常适合研究寒冷气候变化与古代WGD之间的联系。Smith等人。(2018b)推断了古代WGD与石竹目中年平均气温(MAT)较低的转变之间的关联,其中之一是在石竹科内。此外,香石竹科多次向北极高山生物群系转变(Harbaugh等人,2010年;Greenberg和Donoghue,2011年),并在101个属中的20个属中包含164个垫状形成物种(Aubert等人,2014年;Boucher)等人,2016)。该生长形式在家族内独立进化了大约16次,表现出显着的形态和生理趋同。石竹科还富含基因组重复事件,之前的系统发育研究检测到了11个假定事件(Frajman等,2018;Yang等,2018;Eroğlu等,2020)。进一步研究该进化枝的分子进化对于更深入地了解基因组复制和冷适应之间的联系很有价值。

这项研究将26个石竹科新生成的转录组与45个之前发表的转录组结合起来。该数据集包括11种垫状植物物种,代表垫状生长形式的至少7个独立起源。我们利用这些数据从基因组角度探讨了石竹科向寒冷气候的转变与古代WGD之间的假设关联(Smith等,2018b)。我们的目标是(1)重建石竹科内的主干关系并检查基因树冲突,(2)识别假定的古代WGD和基因重复,以及(3)探索基因重复、向寒冷气候的转变和相关生命形式之间的关系变化。由于无法区分从头组装的转录组数据中相似的基因拷贝,因此我们使用“古代WGD”来指代显示组装旁系同源数量显着增加的较旧的重复事件。

材料与方法

分类单元采样和转录组生成

我们对59个内群石竹科物种的转录组进行了采样,代表101个属中的34个和12个大群中的11个(不包括袋囊植物科),其中包括7个属中的11个形成垫状的物种。我们将蓼科(Polygonaceae)、水卷耳科(Montiaceae)、玛瑙果科(Achatocarpaceae)和苋科(Amaranthaceae)的12个物种纳入外类群。然后,我们将物种名称与世界维管植物清单(WCVP数据集于2022年2月下载;POWO,2022)进行交叉引用,以确保分类学的准确性。此外,目前公认的名称为Arenaria globiflora(Fenzl)Wall(ex Edgew. & Hook.f.)球花福禄草(Hernández‐Ledesma等人,2015年;Sadeghian等人,2015年),这不是WCVP数据集中公认的学名。在71个组装的转录组中,我们从之前的研究中获得了45个(Walker等人,2018b),并使用Yang等人的系统转录组学程序新测序了26个。(2017)。GENEWIZ(美国新泽西州南普莱恩菲尔德)制备文库并对RNA进行测序。我们根据说明,使用Illumina的NEBNext Ultra RNA文库制备试剂盒(NEB,伊普斯威奇,马萨诸塞州,美国)使用经过Poly-A选择(非链)的总RNA进行文库制备。在Illumina HiSeq上的三个泳道上进行多重测序。4000平台,用于具有单个索引的150-bp双端读取。转录组数据集的详细信息可以在附录S1和Walker等人的附录中找到。(2018)。

系统转录组数据集组装

接下来,我们使用Trinityv2.5.1进行清理和过滤的读数进行从头转录组组装(Grabherr等人,2011)。我们使用Transratev1.0.3(Smith‐Unna等人,2016)来评估每个组装的质量并删除低质量的转录本。我们使用Yang和Smith(2013)描述的基于BLAST的方法检测并去除嵌合体。随后,我们通过使用Salmonv0.9.1(Patro等人,2017)将读数映射到组件,并使用Corsetv1.09(Davidson和Oshlack,2014)。然后,我们在拟南芥(L.)Heynh高质量蛋白质组的定制Blast数据库的指导下,使用TransDecoder v5.3.0(Haas,2018)从过滤的转录本中推断开放阅读框。和Beta vulgaris L.(Dohm等,2012)。

我们使用每个转录组的编码序列(CDS)输出文件进行同源搜索,并利用cd-hitest v4.8.1(Fu等人,2012)(-c0.99-n10-r0表示正链)来减少冗余在每个CDS数据集中。我们使用最大目标为1000的所有BLASTN v2.12.0来识别初始同源性。我们通过命中分数0.4过滤BLASTN输出,并使用MCL v14-137(VanDongen,2000)和膨胀值2聚类过滤命中然后,我们使用MAFFT v7.149b比对少于1000个序列的同源群体,设置为“‐genafpair‐maxiterate1000”(Katoh和Standley,2013),并使用RAxML8.2.12(Stamatakis,2014)推断最大似然基因树。与快速引导搜索。我们使用Pastav.1.8.2(Mirarab等人,2015)将具有1000个或更多序列的群体进行比对,并使用fasttree v2.1.7(Price等人,2010)进行基因树推断。

同系物清除和修剪

我们通过一个程序消除了组装和同源性推断中的潜在错误,该程序涉及删除指定长度(绝对截止)的虚假分支以及比固定值长且长度至少比姐妹分支长10倍(相对长度)的分支。每轮的具体截止值如下所述。我们删除了替代剪接位点、同种型和系统发育上无信息的旁系同源物,保留了仅包含单个分类单元的进化枝上最丰富的字符尖端。我们将由比指定长度长的分支连接的进化枝分成两个同源树,这表明错误识别或远程同源性。我们执行了四轮这些程序,检查每次通过后剩余的同系物的数量,以确定清除程序何时不再清除同系物。

在第一轮中,我们使用相对尖端截止值0.4和绝对尖端截止值0.5修剪了70,220个同源树。然后,我们根据连接分支的每个碱基对1.0替换(subs)来分离进化枝。对于第2轮,我们使用mafft v7.490(Katoh和Standley,2013)重新比对与第一轮产生的69,322个分支相对应的fasta序列,设置为“—auto–maxiterate1000”,并清理了比对占用率至少10%使用phyxv1.2程序pxclsq(Brown等人,2017)。我们使用IQtreev1.6.12以及进化和伽马率变化的GTR模型推断最大似然同系树。接下来,我们使用0.3的相对尖端截止值和0.5的绝对尖端截止值修剪同源树,并基于1.0subs/bp的分支长度和两侧的四个分类群分离进化枝。结果是68,153个同源树用于下游分析。我们在第3轮中执行了与第2轮相同的程序;然而,我们在修剪绝对和相对分支长度后掩盖了单系尖端。第三轮产生了68,113个同源树,然后我们按照与第三轮相同的程序进行了第四轮清理。

系统发育和冲突推理

我们使用根树(RT)程序提取直向同源物,该程序专为大量基因重复而设计(Yang和Smith,2014)。提取过程产生了9051个直向同源树用于下游分析。我们将蓼科的五个物种指定为外类群。基于这些外群,直系同源识别程序切出并扎根直系同源树。因此,生成的直系同源树不包含指定的外群。我们使用Prank v.170427和默认设置重新对齐直向同源序列(Löytynoja,2014)。我们使用phyx v1.2程序pxclsq(Brown等人,2017)从比对中删除了所有占用率低于30%的列。9051个直向同源序列中有8个不可用于系统发育分析,因为它们包含的可变位点(简约信息位点)不足。我们使用9043个剩余的清理比对来推断直系同源基因树,使用IQtree中实现的最大似然,以及GTR G进化模型和1000个超快引导(UFBoot)重复(Hoang等人,2018)。然后,我们利用ASTRALv.5.7.8(Zhang等人,2018)从生成的基因树中推断出基于合并的最大支持系统发育。

为了推断出过去的的系统发育,我们使用50个直系同源比对的超级矩阵重新估计了ASTRAL树的分支长度,而不是包括所有提取的直系同源。我们通过SortaDatev2选择了50个最佳直向同源物(Smith等人,2018a)。所选择的直向同源基因具有最高的分类单元采样、最一致的根尖距离以及与数据集中的ASTRAL拓扑冲突最小,因此它们是最适合用于分歧时间估计的基因。接下来,我们使用RaxML-NGv1.2.0GTR G模型(Kozlov等人,2019)重新估计了ASTRAL拓扑的分支长度,其中包含50个直系同源物的级联超矩阵。我们还使用最好的20、30和40个直向同源物测试了分支长度重新估计的敏感性,发现这些分析中分支长度没有显着差异。因此,仅使用50个直系同源物进行分支长度估计不应对约会结果产生任何偏差。

我们使用在treePL中实现的惩罚可能性来进行约会(Smith和O'Meara,2012)。我们使用了一种坎帕尼亚晚期的多刺花粉化石(Stover和Partridge,1973)来限制石竹科的最小树冠年龄(72.1Myr)和来自Magallón等人的95%HPD最大年龄(88.56Myr)。(2015)作为族群的最高冠龄。此外,我们还纳入了始新世中晚期花序化石(Jordan和Macphail,2003),以限制繁缕亚科和石竹亚科之间的分裂,其最小年龄为33.9Myr。这种分裂是目前公认的七个大群的最近共同祖先(MRCA):独尾草科、蝇子草科、石竹科、石蚕亚科、雪灵芝科、箭竹科和繁缕族。我们将节点的最大约束设置为石竹科植物的最小树冠年龄(72.1Myr)。treePL仅在估计日期超出范围时才使用约束。因此,尽管石竹花的最小年龄可能比指定的节点年轻得多,但它不会使估计年龄偏向更年轻的年龄。此外,treePL仅提供日期的点估计,因此我们进行了引导分析来推断不确定性。我们使用RaxML-NGv1.2.0为50个直向同源物生成了1000个引导超级矩阵比对(Kozlov等人,2019)。然后,我们以与原始超级矩阵相同的方式对1000个引导程序重复进行分支长度重新估计和约会。我们将1000棵过去的的树总结为节点年龄的置信区间。

我们通过检查直向同源树、比对和冲突分析结果来检查污染和错位的分类群,并决定从研究中删除三个新测序的样本。Spergula arvensis L.的样本被放置在ASTRAL拓扑中的Silene中,而不是放置在Sperguleae中;Silene davidii(Franch.)Oxelman & Lidén的样本在直系同源基因树中经常被归入石竹属,通常是香石竹的姐妹。从基因树和比对来看,我们无法确定基因树的来源文库制备/测序或基因渗入过程中污染之间的冲突。尽管探索潜在基因渗入的可能性(Frost等人,2024)很有趣,但这超出了本研究的范围,并且之前没有支持这两个物种存在基因渗入的可能性。

古代全基因组重复(WGD)、基因重复和基因功能

之前的研究(Yang等人,2015;Tiley等人,2018)表明,转录组分析恢复了大约三分之一支持古代WGD节点的基因,类似于从全基因组测序数据中恢复的比例,并成功恢复了所有古代WGD。从全基因组测序中恢复的全基因组测序(WGD)。我们根据基因重复升高的系统发育位置、Ks(旁系同源基因对之间的同义距离)分布的峰值以及已发表的染色体计数推断出假定的古代WGD。由于古代WGD是从转录组数据推断出来的,因此我们将它们定义为重复事件,这些事件产生大量旁系同源物,可以与从头组装的转录组数据区分开来。我们按照Yang等人的研究为每个物种生成了Ks图。(2015)对于Ks分布,对多重替换进行Nei-Gojobori校正。我们从4137个根基因谱系树中识别出基因重复事件,并使用PhyPartsv0.0.1将它们映射到ASTRAL系统发育上(Smith等人,2015)。此外,我们还从染色体计数数据库v1.66(Rice等人,2014年)中收集了染色体计数(中位数)。在数据库中,中位单倍体染色体计数通常是物种中报道最多的数量,因此这些计数最能代表整个物种的染色体数量。我们通过ksrates v1.1.3比较密切相关物种的旁系同源和直系同源Ks分布,确认了新发现的古代WGD的系统发育位置(Sensalari等人,2022)。

根据Ks峰值和估计的基因重复数量,在绘制ASTRAL树上两个相邻节点之间的WGD1系统发育位置时存在模糊性。因此,我们使用GRAMPA v1.4.0(Thomas等人,2017)和4137个有根基因家谱测试了WGD1是否是异源多倍体事件。GRAMPA是一种基于简约的方法,用于识别系统发育中的多倍体事件及其亲本谱系。

气候生态位和生命形式分类

Zanne等人。(2014)将冷冻暴露定义为在物种分布的任何地方都具有冷冻温度,即bio6值<0°C。对于石竹科这样一个只有约100%的分支的冷定界来说过于严格。1%的严格热带物种(POWO,2022)。此外,具有相同生命形式的植物具有广泛的气候分布(Woodward等人,2004)。因此,我们将“冷冻暴露”定义为在其分布中平均bio6值低于0°C;其他的则为冷冻未暴露的。如果物种分布的平均GST值低于10°C,我们还将物种描述为北极高山物种(Körner等人,2011;Birkeland等人,2020)。

对于北极高山生物群落,温度被发现与降水呈正相关(Boucher等人,2016)。然而,我们在采样物种中没有观察到温度(CHELSA bio6)与降水(CHELSA bio12)的模式,这可能是由于采样比例较低。因此,我们没有包括北极高山物种的降水定义。

我们从世界维管植物名录(POWO,2022)中下载了每个接受的石竹科物种的生命形式和生物群落信息。我们还从WCVP获取了每个气候类别中可接受的物种数量。生命形式类别采用Raunkiaer(1934)系统,我们按照Humphreys等人的方法将Raunkiaer生命形式分为三个常用类别:一年生植物、多年生草本植物和多年生木本植物。(2019)。我们从Aubert等人最新的垫状植物文献中获得了垫状生命形式数据。(2014)。所有形成垫状的植物都是多年生木本植物,但我们将它们列为第四种生命形式类别,以强调它们在本研究中的重要性。

结果

石竹科的系统发育关系和冲突

通过ASTRAL恢复的系统发育关系(图1)与最近对该科的系统学研究基本一致(Sadeghian等人,2015;Madhani等人,2018;Arabi等人,2022)。由于直系同源树中缺少分类单元,每个直系同源可能不提供有关特定节点的信息。9043个直向同源物中大约有三分之一包含至少30个物种,因此大多数直向同源物对于ASTRAL树中的一小部分节点来说是信息性的。图1中饼图的大小与向相应节点提供信息的基因树的数量成正比。这些数字的范围从1093到4403。我们在图S1(附录S2)的饼图中包含了对每个节点没有信息的基因树的数量,它基本上显示了与图1相同的信息。

根据我们当前的物种采样,这里代表的11个大群被恢复为具有最高局部后支持度的单系群。球花福禄草的位置与Sadeghian等人的rps16系统发育一致。(2015)。我们跟随Sadeghian等人。(2015)不认为它是埃雷莫戈涅亚科的成员。然而,我们的分类单元抽样不允许测试球花福禄草是否与Eremogonaeae分离。Corrigioleae、Paronychieae、Polycarpaeae和Sperguleae在该科内以良好支持的早期分化等级被发现。除Paronychia和Polycarpaaee外,这四个大群的基因树冲突较低。虽然多果科中两个节点的冲突基因树比例较高,但这些节点的冲突基因树的实际数量相对较低。

对于其余大群,与树的其他部分相比,冲突程度有所升高,不仅沿着主干(特别是节点2和4-7),而且在Eremogone、Sileneae、Caryophylleae和Cerastium内(图1)。这些加剧的冲突并不包含占主导地位的冲突关系(附录S2)。对于骨干节点2和4-7,冲突伴随着较短的内部分支长度。对于Eremogone、Sileneae、Caryophylleae和Cerastium来说,冲突都是来自于内部关系的重新安排。

基因重复和古代全基因组重复(WGD)

本研究中检测到的许多古代WGD都是某一物种独有的,因此很难确定年代(图2)。尽管可以在严格时钟假设的情况下从Ks图估计古代WGD的年龄,但由于石竹科有多种生活史和世代时间,它被认为是不可靠的(Clark和Donoghue,2017)。通过Ks图检测到的古代WGD足够古老,旁系同源物已显着分化,并在从头组装过程中单独组装。核心真双子叶植物基因组三倍体的Ks峰(〜117Mya,Jiao等人,2012)在旁系同源对之间每个同义位点具有约2.0个同义替换(Ks);WGD1的峰值(64.42–56.69Mya)的Ks峰值约为0.5(附录S3:图S2)。其余的古代WGD的Ks峰值约为0.02至0.2。

图1 ASTRAL拓扑结构,其中分子分支长度是根据50个直向同源超矩阵估算的。饼图的大小与对应节点提供信息的基因树的数量成正比。饼图的颜色切片代表与拓扑一致(蓝色)和冲突(黄色)的直向同源基因树的比例。所有节点的ASTRAL局部后支持均为1。灰色方块中的数字是正文中使用的节点号。灰色的分类单元表示外群。内部群体的相应大群标记在右侧。

GRAMPA结果对于WGD1的性质仍然没有定论——是同源多倍体、异源多倍体还是三倍体事件(附录S4:图S5)。基因谱系树的异质性和缺失数据可能是GRAMPA为WGD1提供不明确结果的原因(附录S5:图S6)。单标记树(节点3处无多倍体)是最简约的协调(简约分数=385905;附录S4:图S5),这与Ks图中节点3处多倍体事件的有力证据相反(附录S3:图S2和S3)。第二个最简约的协调(简约得分=386241)将WGD1呈现为异源多倍体事件,Sperguleae作为另一个亲本谱系,而第六个最简约的协调(简约得分=390963)将WGD1呈现为同源多倍体事件。因此,GRAMPA结果支持WGD1更有可能是豆异倍体事件而不是同源多倍体,因为同源多倍体的简约得分要高得多。

图2 使用treePL从ASTRAL系统发育推断出的已注明日期的树(仅在组内)。尖端树枝和尖端标签根据气候进行着色:未暴露于冰冻(黑色)、暴露于冰冻(绿松石色)和北极高山(蓝色)。所有古代WGD都被标记为恒星。支持推论的Ks图包含在附录S3中。Yang等人发表的七个古代WGD。(2018)有黑色轮廓。古代WGD沿分支的相对位置并不表明事件发生的时间。具有超过100个基因重复的节点标记有基因重复的数量。灰色方块中的数字是正文中使用的节点号。尖端标签旁边列出了染色体计数数据库v1.66(Rice等人,2014)中的染色体计数(中位数)。有些物种没有染色体计数。

将基因组变化与气候变化和垫状生命形式联系起来

在本次分析中包含的57种石竹科植物中,有20种被鉴定为未受冻暴露,其余为受冻暴露(图3)。在37个暴露于冰冻环境的物种中,有14个属于北极高山物种。没有未受冻的北极高山物种。所有11种形成垫状的物种均被鉴定为暴露于冰冻环境的物种或北极高山物种。所有北极高山物种都是草本或木本多年生植物(包括垫状形式)。本研究中采样的大多数耐寒类群属于石竹科最古老的WGD(WGD1)的七个大群。所有11种垫状植物也都是这七个大群的成员。然而,在这项研究中,较年轻的古代WGD和北极高山谱系之间没有明显的共现现象。为了充分解决这个问题,需要进行更多和更广泛的抽样。

图3 采样物种的年代树和生命形式多样性。(A)使用treePL从ASTRAL系统发育推断出的已注明日期的树(仅在组内)。尖端分支和尖端类群根据气候进行着色。尖端分类群之前的方块根据生命形式着色。手稿中引用的日期标记在节点旁边。误差线(灰色)是根据自举直系同源比对、RaxML-NG的分支长度重新估计以及TreePL的约会来计算的。Smith等人推断出WGD1(恒星)的位置以及向较低年平均温度(MAT)的转变。(2018b)已标记。(B)四种Silene物种样本的生命形式多样性:Silene conica L.、Silene andicola Gillies exHook & Arn.、Silene vulgaris(Moench)Garcke和Sileneacaulis(L.)Jacq。

WGD1与气候生态位的转变同时发生(Smith等人,2018b),因此我们更仔细地观察了重复事件后保留的基因重复。鉴于保留在节点1和3处的重复基因具有相似的GOterm(生物过程)组成,并且WGD1被推定为异源多倍体,我们可以合理地假设这些重复都与WGD1相关。因此,我们将这些重复项合并到GO术语分析中。在节点1和节点3复制的931个基因中,有21个基因被标记为GO术语对寒冷的反应(表1)。在考虑错误发现率(FDR)(一种纠正假阳性结果的保守方法)时,PANTHER过度代表性测试没有出现统计显着结果。然而,根据原始P值,54个GO生物过程被过度代表。表2列出了排名前列的正富集过程;完整列表见附录S6(表S1)。大多数过度表达的过程涉及磷酸化、泛素化和囊泡介导的运输。

ASTRAL系统发育中只有两个进化枝主要由北极高山垫状物种组成,并且在进化枝的冠节点处有大量基因重复:Eremogone和Colobanthus(图2,节点10和15)。这两个分支共享Colobanthus的829个重复基因中的68个,以及Eremogone的187个重复基因。同样,基于FDR没有显着结果,但基于原始P值,有61个GO生物过程被过度代表。排名前30的进程如表3所示;完整列表见附录S6(表S2)。过多的过程涉及碳水化合物稳态、泛素化和毛状体形态发生。

我们以基因家族群体作为参考而不是参考基因组进行基因过度表达测试,因为从转录组获得的基因家族往往是大基因家族并且连续表达(Yang等人,2015)。为了评估潜在的偏差,我们对以番茄为参考基因组的基因家族群体进行了PANTHER过度表达测试,根据FDR校正,约1700个GO生物过程明显过度表达(附录S6:表S3)。基本的生物过程,例如各种器官发育和代谢过程,在基因家族中被过度代表。如果我们不使用基因家族作为测试的背景参考,他们就会对重复基因的功能分析产生偏差。支持性地,一组类似的器官发育过程被证明与WGD1相关的重复基因以番茄作为参考基因列表(附录S6:表S4)。

讨论

解释石竹科中假定的古代全基因组重复(WGD)的性质

从Ks图推断出的古代WGD位置祖先节点处检测到的基因重复数量过多,表明存在异源多倍体事件(Yang等人,2018)。对于WGD1,同一节点(节点3,图2)有982个重复(744个基因),在最近的祖先节点(节点1,图2)有624个重复(574个基因)。因此,WGD1可能是与Sperguleae大群的祖先或未采样的谱系杂交的结果。我们检查了基因重复的基因家谱,以探索WGD1的性质(例如,同源多倍体、异源多倍体或三倍体;附录S5:图S6)。大多数在节点1显示重复的基因家谱仅在一个旁系同源分支中具有Sperguleae,表明异源多倍体。大多数在节点3处显示重复的基因家谱不涉及旁系同源物中的Sperguleae,这支持同源多倍体。此外,一些基因家谱显示在一个旁系同源物中存在Sperguleae的基因三倍体,但数量太低,无法自信地支持WGD1的基因组三倍体。所有这些基因家族都有不同程度的缺失基因拷贝。

鉴于基因谱系树的异质性,GRAMPA无法确定WGD1的性质也就不足为奇了。根据GRAMPA的说法,最简约的结果是没有多倍体(得分=385905),这与来自Ks和基因重复分析的古代WGD的有力证据相悖。这个结果可能是因为GRAMPA是为基因组测序数据而设计的,对缺失数据很敏感(Thomas等人,2017)。尽管异源多倍体(分数=386241)似乎比同源多倍体(分数=390963)要简洁得多,但GRAMPA并未将多倍体排在第一位,这一事实使得亲本谱系测试没有结论。由于节点1和3之间的分支长度相对于其年龄而言较短,种间Ks峰值与种内Ks峰值很大程度上重叠(数据未显示)。因此,用Ks峰推断异源多倍体也是不可行的。需要对石竹科进行更多基因组采样并改进推断异源多倍体的方法,才能自信地得出WGD1的起源和性质。

同源多倍体应该与同一节点上许多基因树推断的重复相对应(Yang等人,2018)。与这种对应关系的偏差可能是由无信息的基因树、干扰、不完整的谱系排序、小规模基因重复的积累、异源多倍体或二倍化导致的基因丢失引起的(Yang等人,2015;Li等人,2021)。除了WGD1之外,本研究中还存在其他此类偏差。节点8-14和16-17的基因重复数量均有所增加,这与同一节点的古代WGD不相符(图2)。除节点8之外的所有这些节点都是WGD1的后代谱系,因此没有相应Ks峰值的基因重复数量增加可能是由于系统发育不确定性、差异基因丢失或干扰。节点9、10、14、16和17在系统发育的相邻节点处具有古老的WGD,因此它们也可能是由无信息的基因树、不完整的谱系排序、异源多倍体或干扰引起的。Yang等人。(2018)推断WGD15(在节点17的Schiedea子节点上)是一种异源多倍体事件,其中一个亲本谱系与Honckenya peploides(L.)Ehrh密切相关。以及一种未抽样的父母血统。因此,节点17处的基因重复可能反映异源多倍体。对于节点8,Paronychia中除了WGD2(Ks~0.1)之外,还可能存在古老的WGD。然而,染色体计数信息不足,Paronychia jamessii和P. drummondii中的Ks峰不明确。

表1 WGD1后保留的重复基因的完整列表用基因本体(GO)生物过程响应冷进行注释。列出了用于推断GO术语的拟南芥ID。我们从UniProt数据库Release2023_03(Bateman等人,2023)中获得了基因名称和蛋白质功能。我们使用该数据库确定了蛋白质所涉及的耐冷相关过程。

表2  与WGD1相关的重复基因的前30个正富集GO生物过程,按P值排序,以基因家族群体作为参考基因列表。FDR=错误发现率。完整列表见表S1(附录S6)。

WGD1与石竹科中高水平的基因树冲突同时发生

一些生物过程可能会导致基因树冲突,例如不完全谱系排序(ILS)、基因重复和丢失、水平基因转移和杂交(Maddison,1997;Degnan和Rosenberg,2009)。多倍体导致基因重复大量涌入,其中许多在二倍化过程中丢失(Li等人,2021)。因此,古代WGD可能是系统发育分析中基因树冲突的重要来源。我们的冲突结果与这一说法一致,因为大多数包含升高的基因树冲突的二分是WGD1的后代谱系(图1)。这些二分可分为WGD1之后不久衍生的二分(节点2和4-7)以及家族中最近多样化的分支(Eremogone、Sileneae、Caryophylleae和Cerastium)。

与之前的系统发育研究相比,节点2和4-7中的冲突伴随着这些二分之间的不一致(Harbaugh等人,2010;Greenberg和Donoghue,2011;Sadeghian等人,2015;Walker等人,2018;Yang等人,2018)。基于一些标记的系统发育显示,对连接WGD1七个下降大群(Eremogonae、Sileneae、Caryophylleae、Alsineae、Arenarieae、Sagineae和Sclerantheae)的节点支持度较低。转录组研究没有探索系统发育关系或解决不一致问题。对于七个大群之间的关系没有达成共识。然而,早期分歧的大群(Corrigioleae、Paronychieae、Polycarpaeae和Sperguleae)之间的关系在所有研究中都是一致的。

尽管ASTRAL拓扑中的所有节点都具有最高的局部后支撑,但分隔骨干节点2和4-7的分支长度相对较短,冲突程度较高(图1)。WGD1和骨干节点的冲突之间存在两个潜在的联系。首先,如前所述,高度冲突可能是由二倍化导致的差异基因丢失引起的(Degnan和Rosenberg,2009;Li等人,2021)。WGD1增加的基因组内容经历了广泛的损失或沉默,这可以通过具有较短Ks峰值的较深的古代WGD来证明(附录S3:图S2),与下降的进化枝相比,主干中信息基因树的数量较少(图1),以及示例基因家谱中缺失的旁系同源拷贝(附录S5)。其次,即使有大量数据,较短的分支长度也无法提供很少的信息来解决关系。基因组数据中信息的缺乏可能是由于谱系在短时间内迅速分化造成的,增加了因ILS等原因而发生冲突的可能性(Sanderson和Shaffer,2002年;Felsenstein,2004年;Suh等人,2015年))。假设古代WGD通过增加基因组大小和适应潜力或有助于生殖隔离的二倍化来促进物种形成(Soltis等人,2009;Mandáková和Lysak,2018)。

WGD1下降分支的冲突加剧也可能归因于二倍化和差异基因丢失。Eremogone、Sileneae、Caryophylleae和Cerastium中的冲突都来自于进化枝内谱系的重新排列(附录S2)。虽然这些冲突可能是由ILS引起的,但有必要考虑差异基因丢失的影响,因为WGD1的几个后代分支具有高度的基因树冲突。

尽管大量数据使系统发育重建变得复杂,但它除了解决分歧的系统发育关系之外,还提供了石竹科进化史的更全面的图景。鉴于多倍体事件在开花植物中的常见程度,我们的结果强调了基因组数据对于被子植物系统发育组学的重要性(Clark和Donoghue,2018)。随着更多基因组的测序,将有机会更好地了解相关关系。

北极-高山谱系的基因家族扩展和趋同进化

古代WGD通常与性状创新和气候变化相关(teBeest等,2012;Moghe和Shiu,2014;Brockington等,2015;Smith等,2018b;Baniaga等,2020;Wu等.,2020)。古代WGD促进性状创新的机制之一是基因家族扩展(Brockington等人,2015;Wang等人,2019;Jablonski,2022)。

Smith等人。(2018b)使用GenBank中基于桑格测序的标记增加采样,测试了石竹目的气候变化,并推断出在与WGD1对应的节点处气候变冷(较低的年平均温度)(图3)。尽管史密斯等人。(2018b)仅对27%的石竹科物种进行了采样,在统计世界维管植物名录(WCVP)数据集中所有接受的石竹科物种时,向寒冷气候的转变与WGD1之间的关系也得到了支持(POWO,2022)。在转变之前,四个早期分化大群(Corrigioleae、Paronychieae、Polycarpaeae和Sperguleae)的490个物种中有143个物种(约29%)出现在温带或亚北极亚高山生物群落中,包括24个垫状物种。转变后,七个最近分化的大群中的2810个物种中有2270个(约81%)出现在温带或亚北极亚高山栖息地,其中140个是垫状物种。

表3 Colobanthus和Eremogone集中保留的重复基因的前30个过度代表性的GO生物过程,按P值排序,以基因家族群体作为参考基因列表。完整列表见表S2(附录S6)。

随着转录组采样的增加,我们进一步探索了与WGD1相关的基因,以深入了解寒冷的气候变化。由于转录组数据集提供了有关蛋白质编码序列和基因重复的全基因组证据,因此它们是检查与古代WGD相关的基因重复的特定功能的强大工具。尽管WGD1后发生了广泛的基因丢失,但其现存的一些后代物种仍然保留了大量的基因重复(图2)。我们检查了与WGD1相关的基因重复的基因本体(GO)术语,并进行了基因过度表达测试。

过度代表性测试经常被忽视的一个方面是用于比较的参考基因。从转录组数据集中提取的基因家族群体已经在特定的生物过程中得到丰富(Yang等人,2015)。我们用来推断基因重复的基因家族中,各种器官发育和代谢过程的比例过高(附录S6:表S3)。因此,我们使用基因家族作为基因过度表达测试的参考基因列表;否则,结果可能会偏向于基因家族中富集的生物过程(附录S6:表S4)。

在WGD1后保留的931个重复基因中,有21个与GO对寒冷的反应相关(表1)。在冷胁迫期间,拟南芥中这些基因的基因表达水平发生了变化。一些基因参与应激期间膜的稳定和转录(ACBP1:Du等人,2010;STA1:Lee等人,2006;RPL23AB;Degenhardt和Bonham-Smith,2008;KAS2:Carlsson等人,2002);有些参与调节冷应激信号传导和冷反应基因表达(MSI4/FVE:Kim等人,2004;MPK6:Teige等人,2004;HOS15:Zhu等人,2008;RH38:Gong等人,2002;ENO2/LOS2:Lee等人,2002年;AHK3:Jeon等人,2010年;MED14:Hemsley等人,2014年)。然而,在WGD1后保留的基因中,对寒冷的反应并不是一个被过度代表的GO生物过程,尽管由于耐冷分子研究的数量,迄今为止该标签下的基因数量可能有限。

磷酸化、泛素化和囊泡介导的转运是与WGD1相关的主要过度表达的GO生物过程,以基因家族群体作为参考基因列表(表2;附录S6:表S1)。蛋白质磷酸化参与耐冷信号通路调节(Praat等人,2021),而泛素-蛋白酶体系统在植物对环境胁迫的响应中发挥着关键作用(XuandXu,2019)。还值得注意的是,磷酸化、泛素化和囊泡介导的运输都是参与蛋白质调节的过程,这可能是对低温的反应(Chinnusamy等人,2004年;Beck等人,2007年;Preston和Sandve,2013年)Janmohammadi等人,2015)。然而,蛋白质调节并不是针对寒冷气候的特定相应反应,并且这些GO生物过程仅在没有错误发现率(FDR)校正的情况下才具有统计显着性(附录S6:表S1)。这些基因和生物学过程值得进一步探索,但不能作为基因家族扩张对石竹科寒冷适应影响的有力证据。

虽然WGD1导致保留的基因重复可能有助于后代谱系的耐冷性,但Colobanthus和Eremogone共有66个重复基因,这些基因在碳水化合物稳态、毛状体发育和泛素化方面表现过度(表3;附录S6:表S2)。Colobanthus和Eremogone的每个冠节点上的基因重复率都很高,分别为829个基因中的1062个重复和187个基因中的203个重复(图2中的节点10和15),并且两者在我们的分类采样中都主要是北极高山垫状植物。支持基因树拓扑Colobanthus和Eremogone物种聚集在68个重复基因上,而不是保留同源基因重复。

缓冲表型是冷适应植物的一种特殊的生活史策略(Aubert等人,2014)。碳水化合物的积累支持细胞水合作用、膜稳定性和其他细胞功能,是一种常见的对寒冷的反应(Beck等人,2007年;Preston和Sandve,2013年;Folk等人,2020年)。尽管毛状体可以帮助保持热量和水分(Wang等人,2021)并且常见于北极高山植物中,但垫状植物通过其球形和光滑的表面来保持温度和水分,并且通常没有明显的毛状体(Boucher等人,2016;Lee,2020)。因此,有趣的是,毛状体发育过程在这里被过度代表,因为Colobanthus和Eremogone的垫状植物样本没有大量的毛。如前所述,泛素化参与蛋白质调节,并可能有助于植物对冷胁迫的反应(Xu和Xu,2019)。由于这些GO生物过程仅在没有FDR校正的情况下具有统计显着性(附录S6:表S2),因此它们可以作为未来分子研究的候选者,但它们并没有为垫状植物适应的分子机制提供直接证据。

古WGD1作为石竹科潜在宏观进化推动者

WGD1与石竹科的气候生态位变化相关(Smith等人,2018b)。WGD1大概发生在大约。64.4–56.7Mya(图3)在新生代早期气候大幅变冷期间(Willis和McElwain,2014)。我们的结果表明,WGD1后保留的许多基因重复与冷适应有潜在联系,与冷适应和向寒冷气候转变的独立实例相一致。同样,吴等人。(2020)发现了相同的模式,即接近K-Pg边界的古代WGD在后代谱系中保留了与耐冷性相关的基因重复。虽然重复和适应之间的直接联系超出了本研究的范围,但进一步的研究可以帮助确定WGD1后保留的候选基因是否有助于后代谱系的冷适应。

WGD1之后,谱系分化为七个大群,这些大群占该科现存物种多样性的85%。根据我们的结果,WGD1可能是一个关键的推动者,使其后代能够进入新生代早期不断扩大的寒冷气候生态位,并有助于谱系的多样化。

总结

我们的结果为假定的古代全基因组复制(WGD1)提供了证据,随后石竹科主要谱系的多样化适应了新生代早期新出现的寒冷环境。我们的研究表明,与冷适应潜在相关的基因在WGD1后优先保留,并集中保留在与最近的北极高山垫状植物谱系相关的额外基因重复中。这些结果为古代WGD与向寒冷气候转变之间的潜在联系提供了证据。WGD1诱导的基因家族扩张和差异基因丢失使系统发育重建变得复杂,但这些基因组变化也提供了有关石竹科进化史上生物过程的证据。虽然需要进一步的研究来更好地了解这些基因组事件与耐寒性进化之间的联系,但我们的分析对与耐寒性和北极高山环境中标志性垫状植物相关的分子进化产生了重要的见解。

期刊:American Journal of Botany

文章标题:The link between ancient whole‐genome duplications and cold adaptations in the Caryophyllaceae

作者信息:Keyi Feng,Joseph F. Walker,Hannah E. Marx,Ya Yang,Samuel F. Brockington,Michael J. Moore,Richard K. Rabeler,Stephen A. Smith

THE END
0.高中作文素材分析:身陷囹圄而能最终成才,一方面要有坚强的信念和毅力,另一方面,也有对生命的渴望和对艺术的执著。 话题:"永不放弃""信念与毅力" 六、海伦·凯勒--残疾人的骄傲 美国盲聋女作家、教育家海伦·凯勒一岁半时因病丧失了视觉和听力,这对于一般人来说是不可想象、不可忍受的痛苦。然而海伦并没有向命运屈服。在老jvzq<84yyy4vpsx0eqs0|~tygp5hcxjqpm{wx|gp1814<5834792>72a9896>;60jznn
1.4植物生理学背诵(1).docx2、植物的抗寒性和植物的抗旱性3、抗性机理逆境:不利于植物生长发育的各种不良的环境因素的总称,包括高温、低温、干旱、水涝、盐碱、病虫、大气污染等永久萎焉:土壤中已无植物可以利用的水,蒸腾作用的降低也不能够使水分亏缺消除,表现出不可恢复的萎焉。jvzquC41o0hpqt63:0ipo8mvon532;:133661>7444:52:82356237xjvo
2.专题01从宇宙看地球(百题精选)(期末真题汇编,云南专用)高一地理上学期①③ B.②③ C.①④ D.②④8.下列关于图示生物开始繁盛时期的描述对应正确的是( )A.甲-是重要的铁矿成矿期 B.乙-出现了蓝藻的大爆发C.丙-陆上分布最广泛的植物是被子植物 D.丁-喜马拉雅山脉在此时期形成(24-25高一上·云南玉溪·)某地理兴趣小组在昆明筇竹寺进行地质考察时看到岩层中有丰富的三叶虫化石jvzquC41yy}/|}m0eun1|thv1;59@=;554ivvq