Bracken¶

Mark Renton 更新于: 2020-09-14

Kraken是用于分类宏基因组测序数据的非常快速，准确的程序。它需要一组读数，重叠群或其他DNA序列，并为每一个分配一个分类标签（物种，属等）。去年我们发现有些人直接使用Kraken进行丰量估计 - 估计样本中物种的相对比例 - 并基于假设Kraken的输出可以用于这种方式发表论文。但是，这是不正确的。如果您给Kraken一套宏基因组阅读器进行分类，它将为每个阅读分配最具体的标签。但是很多时候，这些标签并不属于物种层面。例如，如果150bp的读数与两个不同的物种完全相同，Kraken将把它分配给它们的最低共同祖先（LCA），它可能属于等级或更高。对于含有两个或更多高度相似物种的样品，这意味着物种特异性读数的数量可能远远少于预期。（我们应该注意到，Kraken经常在应变级别指定读取。）

为了解决这个问题，我们开发了Bracken：用KrakEN分类后的贝叶斯重估丰度。 Bracken使用贝叶斯算法和Kraken分类结果来估计宏基因组样本的物种水平或属水平丰度。这个新工具在我们的PeerJ论文或Bracken软件网站中有详细描述。

Bracken将Kraken的输出转化为物种丰度的估计。这在同一样品中出现高度相似的物种时特别有用。例如，牛分枝杆菌和结核分枝杆菌的基因组是99.95％相同的。因此，Kraken将这些物种的绝大多数读数分类为分枝杆菌属（因为它们是无法区分的）。但是，特定样本中的一些读段通常来自基因组的独特（或物种特异性）部分。 Bracken使用这些信息，加上关于姊妹物种之间相似性的信息，将属性级别的读数“下推”到物种级别。如果您有兴趣了解样本中每种分枝杆菌种类的存在情况，可以使用Kraken，然后使用Bracken来估算每种物种的相对丰度。