Bracken¶
更新于: 2020-09-14
Kraken是用于分类宏基因组测序数据的非常快速,准确的程序。它需要一组读数,重叠群或其他DNA序列,并为每一个分配一个分类标签(物种,属等)。去年我们发现有些人直接使用Kraken进行丰量估计 - 估计样本中物种的相对比例 - 并基于假设Kraken的输出可以用于这种方式发表论文。但是,这是不正确的。如果您给Kraken一套宏基因组阅读器进行分类,它将为每个阅读分配最具体的标签。但是很多时候,这些标签并不属于物种层面。例如,如果150bp的读数与两个不同的物种完全相同,Kraken将把它分配给它们的最低共同祖先(LCA),它可能属于等级或更高。对于含有两个或更多高度相似物种的样品,这意味着物种特异性读数的数量可能远远少于预期。 (我们应该注意到,Kraken经常在应变级别指定读取。)
为了解决这个问题,我们开发了Bracken:用KrakEN分类后的贝叶斯重估丰度。 Bracken使用贝叶斯算法和Kraken分类结果来估计宏基因组样本的物种水平或属水平丰度。这个新工具在我们的PeerJ论文或Bracken软件网站中有详细描述。
Bracken将Kraken的输出转化为物种丰度的估计。这在同一样品中出现高度相似的物种时特别有用。例如,牛分枝杆菌和结核分枝杆菌的基因组是99.95%相同的。因此,Kraken将这些物种的绝大多数读数分类为分枝杆菌属(因为它们是无法区分的)。但是,特定样本中的一些读段通常来自基因组的独特(或物种特异性)部分。 Bracken使用这些信息,加上关于姊妹物种之间相似性的信息,将属性级别的读数“下推”到物种级别。如果您有兴趣了解样本中每种分枝杆菌种类的存在情况,可以使用Kraken,然后使用Bracken来估算每种物种的相对丰度。