MLST¶
更新于: 2020-09-14
传统的 MLST 分析方法采用对样本进行 PCR 扩增后进行 Sanger 测序、拼接、比对后,获得等位基因序列,根据碱基差异分配序号,再根据相应的序号组合确定 ST 型別。常用的工具有bigsDB,Bionumerics等。
随着 NGS 技术应用与微生物基因组测序,越来越多的细菌基因组被测序生成草图。几乎所有的数据都可以覆盖 MLST 涉及的管家基因,因此你可以直接通过基因组上管家基因的序列来分析获得其ST型別。
MLST 是由 @Torsten Seemann 用 perl 开发的实现从fasta序列获取MLST型別的工具。
1. 安装¶
# mlst 工具在 bioconda 有安装包,可以直接通过 conda 安装
$ conda create -n mlst
$ conda activate mlst
(mlst)$ conda install mlst
2. 使用¶
MLST 支持 .fa
,.fasta
,.gb
,.gbk
,.fna
以及这些格式的gz压缩包格式的文件。不加参数可以对所有物种数据库进行扫描,加上参数--scheme
可以对指定物种进行扫描。
# 直接扫描 fasta 数据,软件会对序列位点进行判断,选择合适的物种数据库
(mlst)$ mlst mygenome.fasta
# 支持 multiple fasta 格式
(mlst)$ mlst scaffolds.fasta
# 支持多文件格式
(mlst)$ mlst data/*
# 查看可以扫描的物种
(mlst)$ mlst --list
# 使用 listera monocytogenes 物种数据库扫描
(mlst)$ mlst --scheme lmonocytogenes data/*
# 将结果保存
(mlst)$ mlst --scheme senterica fna/*.fna > mlst.result
更新数据库:MLST数据库随着新添加的数据而不断更新,使用bigsdb建立的MLST数据库可以很方便的更新allele序列和菌株数据。mlst工具也提供了自动化脚本工具更新数据库。
# 更新pubmlst数据库
(mlst)$ cd $CONDA_PREFIX/scripts
(mlst)$ ./mlst-download_pub_mlst | bash
(mlst)$ mv ../db/pubmlst ../db/pubmlst.old
(mlst)$ mv pubmlst ../db
# 更新blast数据库
(mlst)$ ./mlst-make_blast_db
3. 应用举例¶
对 NCBI genome 数据库中 bacillus cereus 的 Assembly 进行扫描获取 MLST 数据。
# edirect 抓取 FTP 链接,awk补全下载路径,用 wget 工具批量下载(设置相应参数避免进入下载假死状态)
$ esearch -db assembly -query "Bacillus cereus[ORGN] AND latest[SB]" | \
> efetch -format docsum | \
> xtract -pattern DocumentSummary -element FtpPath_RefSeq | \
> awk -F"/" '{print $0"/"$NF"_genomic.fna.gz"}' | \
> xargs wget --no-passive-ftp --limit-rate=200k
# mlst 扫描
(mlst)$ mlst --scheme bcereus *.fna.gz > ../bcereus-mlst-result.txt
(mlst)$ cat ../bcereus-mlst-result.txt
4. 其他¶
与MLST分析的相关操作
# 对沙门菌某个序列位点进行多重序列比对并构建进化树
(mlst)$ cd $CONDA_PREFI/db/pubmlst/senterica
# 多重序列比对,大部分位点的序列长度一致的,可以省略比对这一步。
# 但个别位点存在插入与缺失碱基的需要比对后构建进化树
$ mafft aroC.tfa > aroC.maf
# 构建进化树
$ raxmlHPC-PTHREADS-AVX2 -f a -x 12345 -p 12345 -m GTRGAMMA -#500 -s aroC.maf -n aroC -T 40
# 将所有ST位点序列连锁构建进化树
(mlst)$ cd $CONDA_PREFI/db/pubmlst/senterica
$ awk -F'\t' '{if(NR>1) \
> system("seqkit grep -w 0 -p aroC_"$2" aroC.tfa | tail -1 >> ST_"$1); \
> system("seqkit grep -w 0 -p dnaN_"$3" dnaN.tfa | tail -1 >> ST_"$1); \
> system("seqkit grep -w 0 -p hemD_"$4" hemD.tfa | tail -1 >> ST_"$1); \
> system("seqkit grep -w 0 -p hisD_"$5" hisD.tfa | tail -1 >> ST_"$1); \
> system("seqkit grep -w 0 -p purE_"$6" purE.tfa | tail -1 >> ST_"$1); \
> system("seqkit grep -w 0 -p sucA_"$7" sucA.tfa | tail -1 >> ST_"$1); \
> system("seqkit grep -w 0 -p thrA_"$8" thrA.tfa | tail -1 >> ST_"$1)}' \
> senterica.txt
# 去除\n,添加序列名称
$ for i in ST_*; do sed -i ':a;N;s/\n//;ta' $i; sed -i '1i\>'$i'' $i; done
# 形成单个fasta文件
$ for i in ST_*; do cat $i >> ST.fna; done
# 构建进化树
$ mafft ST.fna > ST.maf
$ raxmlHPC-PTHREADS-AVX2 -f a -x 12345 -p 12345 -m GTRGAMMA -#1000 -s ST.maf -n ST -T 40
# 所有位点的dN/dS分析
# 基于MLST位点的种群结构分析