Skip to content

16s rRNA Metagenomics 研究

Mark Renton 更新于: 2020-09-14


1. 原核生物16s宏基因组介绍

宏基因组 ( Metagenome)(也称微生物环境基因组 Microbial Environmental Genome, 或元基因组) 。是由 Handelsman 等 1998 年提出的新名词, 其定义为“the genomes of the total microbiota found in nature” , 即生境中全部微小生物遗传物质的总和。它包含了可培养的和未可培养的微生物的基因, 目前主要指环境样品中的细菌和真菌的基因组总和。而所谓宏基因组学 (或元基因组学, metagenomics) 就是一种以环境样品中的微生群物体基因组为研究对象, 以功能基因筛选和/或测序分析为研究手段, 以微生物多样性、 种群结构、 进化关系、 功能活性、 相互协作关系及与环境之间的关系为研究目的的新的微生物研究方法。

如何估计宏基因组样本中的物种组成及丰度?

宏基因组中的物种分类,一般用OTU (operational taxonomic unit), 即可操作物种单元,来表示。在典型情况下,原核生物的OTU使用16S rDNA来衡量,真核生物的OUT使用18s rDNA来衡量。但选择16S/18S rDNA鉴定物种,存在以下几个问题:

  1. rDNA之间的平行转移来干扰rDNA鉴定的可靠性。
  2. 在单个细菌中,16r DNA可能存在序列不同的几个拷贝,干扰估计OTU数目的准确性。

所以,其他备选的标记基因,比如单拷贝的看家基因被推荐用来作为菌种鉴定的标记。

如何衡量样本中物种的多样性?

为了估算测序的物种的比例,通常用rarefaction curse来表示。

宏基因组如何做De Novo拼接?

由于宏基因组测序的覆盖率通常是不完全的,所以组装所需要的序列并不是很完整。并且组装的时候,可能会把来自不同分类单元(OTU)的序列组装在一起,产生嵌合体基因组。Phrap,Forge,Arachne,JAZZ和Celera Assembler等可用来组装由sanger法产生的宏基因组序列。这些算法大部分都利用mate-pair信息来参与组装。这些算法用顶点来代表每条read,互相重叠的read之间用边连起来,它们的组装问题可以转换成“哈密尔顿路径”搜索问题,即找到一条路径走过所有顶点,且每个顶点只走一次。

如何进行菌群间差异分析?

有几种基于序列特征的比较,包括样品间GC含量的比较,微生物基因组大小的比较,系统发育关系树的比较和功能组分的比较。许多比较分析都用到了关联统计学的方法,通常假设有几种元数据影响观测到的宏基因组群体的组分。主成分分析(PCA)和非度量多维标度(NM-MDS)用来图形化展示数据并揭示有哪些因素最影响数据。 有几种进行宏基因组比较分析的软件。第一个是MEGAN,可以比较两个或几个标准化后的样品的GC含量。第二种是MG-RAST,提供了一种比较功能和基于序列的分析来上传样本。第三种是CAMERA,提供了BLAST接口让客户可以比对40多种现有的宏基因组数据。

如何预测编码基因?

目前发现编码基因的方法有两种。一种是基于BLAST比对的方法,这种方法通过比对已有的数据库,可以发现宏基因组数据中有哪些已知基因的同源基因的存在,但缺陷是找不到哪些和已经基因没有同源关系的新基因。第二方法是重新预测基因的方法,这些方法大部分是基于有指导学习和统计模式识别的方法,包括隐马尔科夫模型。GeneMark.hmm就是基于单密码子频率的非均一马尔科夫模型来预测基因的软件,当这些软件用到宏基因组数据上时,这些软件通常无法确定部分的ORF,即使这些 ORF是真实基因的一部分。

2. 16s rRNA 测序数据分析

2.1 PCA 分析

PCA 分析(Principal Component Analysis),即主成分分析,是一种对数据进行简化分析的技术,这种方法可以有效的找出数据中最“主要”的元素和结构,去除噪音和冗余,将原有的复杂数据降维,揭示隐藏在复杂数据背后的简单结构。其优点是简单且无参数限制。通过分析不同样品OTU(97%相似性)组成可以反映样品间的差异和距离,PCA 运用方差分解,将多组数据的差异反映在二维坐标图上,坐标轴取能够最大反映方差值的两个特征值。如样品组成越相似,反映在PCA 图中的距离越近。不同环境间的样品可能表现出分散和聚集的分布情况,PCA 结果中对样品差异性解释度最高的两个或三个成分可以用于对假设因素进行验证。 软件:使用97%相似度的OTU,PC-ORD或是CANOCO作图。

PCA 结果图示中坐标轴百分比解释:如果PC1值为50%,则表示x轴的差异可以解释全面分析结果的50%。不同颜色或形状的点代表不同环境或条件下的样本组,横、纵坐标轴的刻度是相对距离,无实际意义。PC1、PC2 分别代表对于两组样本微生物组成发生偏移的疑似影响因素,需要结合样本特征信息归纳总结,例如C组(黄色)和D组(蓝色)样品在PC1轴的方向上分离开来,则可分析为PC1是导致C组和D组分开(可以是两个地点或酸碱不同)的主要因素,同时验证了这个因素有较高的可能性影响了样品的组成。

3. 分析实践

流程

  1. 剪切序列
  2. FastQC 质控 + SeqQA 统计
  3. Pandaseq 双向测序数据拼接
  4. UCHIME 移除复制序列
  5. UCHIME 移除嵌合体序列
  6. CREST/RDP Classifier 查询非嵌合体序列,生成物种分配比例
  7. 生成物种各分类层级的结果

所需安装软件

  • sickle
  • usearch
  • Pandaseq
  • FastQC
  • CREST/RDP Classifier