16S rRNA OTU标准聚类阈值(97%)过时了?

admin 32 2025-01-18 编辑

16S rRNA OTU标准聚类阈值(97%)过时了?

 

16S rRNA普遍应用于环境微生物多样性分析,OTU是微生物多样性分析中的一个基本概念,在得到质控后的数据后,我们要做的第一件事情就是进行OTU的聚类。目前OTU的聚类方法与软件有很多种,这些方法都会用97%的相似性对序列进行种水平的聚类,然而97%的阈值是在1994年基于当时少量的16S rRNA序列提出的,是否适用于当前大量的16S rRNA数据呢?

 

近期Bioinformatics上发表的文章 Updating the 97% identity threshold for 16S ribosomal RNA OTUs 对这个问题展开了一系列研究,通过使用mothur软件中5种代表性的聚类算法和4种评估聚类质量的指标对不同聚类阈值的聚类结果进行比较,结果表明16S全长和V4区的理论最优聚类阈值接近99%和100%,下面就具体看看作者的做了哪些工作。

 

数据集构建:目前常用的16S rRNAs数据库包括SILVA、RDP和Greengenes,这些数据库中的大多数序列来自于环境样品的PCR扩增,其物质注释信息存在假阳性预测。因此,为了能够准确的评估聚类质量,作者自己构建了一个高质量的16S全长数据库,过程如下:(1)从GenBank数据库中下载所有标记为完成图(Complete)的原核生物的基因组序列,使用SEARCH_16S软件提取16S rRNA基因序列;(2)为了确保基因组内部16S rRNA的变异能够被准确的评估,如果16S序列中存在任何的模糊碱基或者简并碱基,该基因组中的16S序列都将被丢弃;最终得到一个来自于2512个物种的6240个基因组共16741条16S全长序列的数据库.由于某些物种如大肠杆菌、沙门氏菌存在多个基因组,为了减少分类偏差,作者从每个物种随机挑选一个基因组构建了HiQFL_1数据库,同时为了研究V4的最优聚类阈值,根据V4的通用引物(F:GTGCCAGCMGCCGCGGTAA,R:GGACTACHVGGGTWTCTAAT)提取V4区序列构建了HiQV4和HiQV4_1数据集。

 

聚类方法与最优阈值:本文中使用mothur作为聚类软件。为了比较不同聚类方法的优劣性,作者使用了5中聚类算法(NN:nearest-neighbor;AN:average-neighbor;FN:furthest-neighbor;OC:OptiClust;AGC:abundance-sorted greedy clustering),具体可以参考mothur中聚类方法。另外作者使用了4种评估聚类质量的方法(RR,NMI,Bij,MCCsp),前三种方法的取值范围是[0,1],值越大说明OTU与物种之间一一对应的比例越高,聚类算法的准确性越高;MCCsp 取值范围是[-1,1],值越高说明聚类算法的准确性越高。同时为了寻找最优聚类阈值,聚类阈值以0.1%为步长,从96%到100%依次使用上述聚类算法进行OTU的聚类,并对聚类结果进行准确性评估。四个数据库使用不同聚类方法得到的最优阈值如下表。结果发现,虽然没有绝对最优的聚类算法,但是最优的聚类阈值均远远大于97%。

由于部分物种的16S rRNA序列的相似性大于97%,使用一个固定的阈值不能够准确的识别物种信息。为了任意描述两条序列在不同的相似性阈值下来自于同一物种的概率,作者定义了同种概率(Conspecific probability,Pcs),分别从构建的4个数据库中随机抽取两条序列,使用mothur软件进行比对,通过多次抽取计算得到在不进行聚类的情况下4个数据库中序列相似性与同种概率之间的关系。结果如下图,表明4种数据库的同种概率存在差异,说明同种概率受到基因片段的大小和数据中物种的组成和丰度分布的影响。

Mothur比对缺陷:考虑到mothur中序列比对算法是基于NAST(Nearest Alignment Space Termination)策略,这种方法会引入错配。因此作者比较mothur和CLUSTALW两种方法的差异,比较结果如下图,从图中可以看出mothur在理论上低估了序列的相似性,表明本文中计算得到的理论最优相似性阈值可能低于同种方法下其他软件的计算结果。

本文在使用不同聚类阈值和聚类算法进行OTU聚类的同时,使用多种聚类质量评估方法对聚类效果进行评估,结果表明不同的聚类算法没有本质上的优越性;对于给定的聚类算法和数据集,不同的评估方法在不同的阈值下都能被被最大化,表明单个聚类质量评估方法不能准确地量化聚类准确性。通过对4中不同数据集的比较,发现最优聚类阈值不仅受到聚类算法的影响,还受到数据集中物种组成和丰度的影响,基于实际情况下环境样品中物种组成和丰度的复杂多变,目前不能预测优化后阈值对真实数据的准确性。尽管如此,作者认为标准聚类阈值97%远远低于各种算法的理论最优阈值并且需要调整到至少99%。另外作者最后提出了ZOTU(zero-radius OTU,相似性阈值100%),认为其在可重复性、再现性和综合性方面的改进足以取代97%的OTU成为标记基因并且可以提升菌株水平鉴定的能力。

本文中主要使用了mothur软件进行聚类,然而目前常见的OTU的聚类方法有很多,比如cd-hit,uclust,uparse,blast等,另外我们常见的测序区域还有v1-v3、v3-v4、v4+v5等,这些算法和区域的理论最优阈值是多少呢?感兴趣的小伙伴可以根据作者提供的数据集尝试一下哦。

欢迎关注

提供生信问题解决方案服务

TCGA | 小工具 | 数据库 |组装| 注释 |   基因家族  |  Pvalue

基因预测  |bestorf |  sci | NAR | 在线工具 | 生存分析 | 热图

 生信不死 | 初学者 | circRNA | 一箭画心| 十二生肖 | circos

 舞台|基因组 | 黄金测序 | 套路 | 杂谈组装 |  进化 | 测序简史

16S rRNA OTU标准聚类阈值(97%)过时了?

上一篇: 质粒构建工具推荐,实验室必备的分子克隆利器
下一篇: Ancient human faeces reveal gut microbes of the past
相关文章