BPGA¶
更新于: 2020-09-14
[BPGA][] 是由印度 CSIR-Indian Institute of Chemical Biology 研究人员开发的用于细菌 Pangenome 分析工具流。
[BPGA][] 依赖第三方软件,用 [USEARCH][] 构建聚类,用 [Muscle][] 进行多重序列比对。用 [gnuplot][] 和 [ghostscript][] 生成结果图片或pdf文件。
由于 [BPGA][] 通过 Usearch 构建 cluster,因此需要用户自行申请或购买 usearch。
1. 安装¶
# 假设已经安装好 usearch
$ wget https://sourceforge.net/projects/bpgatool/files/BPGA-1.3-linux-x86_64-0-0-0.tar.gz
$ tar zxf BPGA-1.3-linux-x86_64-0-0-0.tar.gz -C ~/app/BPGA
$ cd ~/app/BPGA
2. 使用¶
输入数据
- .faa 蛋白质序列文件
- .pep .fsa HMP蛋白数据文件
- .gbk/gb Genbank蛋白质序列文件
使用方法
BPGA 采用了类似phylip式的交互式运行方式。
运行程序后,会进入菜单选择界面,一般可以分2步走:
- 按 1 选择输入文件格式
- 按 2 进入 Pangenome 分析
按 0 退回上一级菜单
结果文件
生成的数据包括根目录下的文件和 Results、Sequences 和 Supporting_files 3个子文件夹内结果文件
根目录下文件:
结果文件 | 数据内容 |
---|---|
cog.udb | |
gi_name | 各个基因组基因的 gi 名称 |
INPUT_all.ffn | 各个基因组的编码基因核酸序列 |
INPUT_all.seq | 各个基因组的编码基因氨基酸序列 |
kegg1.udb | |
kegg2.udb | |
list | 基因组文件列表 |
Results文件夹内主要包含分析结果生成的图:
结果文件 | 数据内容 |
---|---|
COG_DISTRIBUTION_DETAILS.pdf | core, accessory, unique 3种类型基因在COGS各个分类中的分布比值 |
COG_DISTRIBUTION.pdf | core, accessory, unique 3种类型基因在COGS中总的分布比值 |
Core_Pan_Dot_Plot.pdf | pangenome 和 coregenome 点阵趋势图 |
Core_Pan_Plot.pdf | pangenome 和 coregenome boxplot趋势图 |
curve.xls | pangenome 和 coregenome 基因数计算公式和物种的基因估计值,文本格式 |
Default_Core_Pan_Plot.pdf | pangenome 和 coregenome 趋势图 |
Histogram.pdf | 各个分析菌株所含基因家族的直方图分布 |
KEGG_DISTRIBUTION_DETAILS.pdf | pdf 格式的 KEGG 详细分类基因的 core, accessory 和 uniq genes 数量分布 |
KEGG_DISTRIBUTION.pdf | pdf 格式的 KEGG 主要分类基因的 core, accessory 和 uniq genes 数量分布 |
New_Genes_Plot.pdf | 分析菌株所含 New genes 数量分布 |
Pan_phylogeny.pdf | pdf 格式的分析菌株提供发生树图 |
Pan_phylogeny.svg | svg 格式的分析菌株系统发生树图 |
stats.xls | 所有分析菌株含有的 core, accessory, unique 和 exclusively absent 基因。虽然后缀为.xls,文本格式 |
Sequences 文件夹内包含:
结果文件 | 数据内容 |
---|---|
accessory_seq.txt | accessory 基因的序列 |
core_genes_with_atypical_GC_content.txt | 进行了 atypical GC 分析后产生, core 基因的序列 |
core_seq.txt | uniq 基因的序列 |
exclusively_absent_seq.txt | exclusively absent 基因的序列 |
REPSEQ_ACCESSORY.txt | |
REPSEQ_CORE.txt | |
REPSEQ_UNIQUE.txt | |
unique_genes_with_atypical_GC_content.txt | 进行了 atypical GC 分析后产生, uniq 基因的序列 |
unique_seq.txt | uniq 基因的序列 |
Supporting_files 文件夹包含:
结果文件 | 数据内容 |
---|---|
ACCESSORY_COG_hits3.txt | |
ACCESSORY_kegg_hits3.txt | |
Cog_Category1.txt | |
CORE_COG_hits3.txt | |
core_default.txt | |
core_genome.txt | |
CORE_kegg_hits3.txt | |
DATASET.xls | |
histogram.txt | |
kegg_accessory_id.txt | |
kegg_accessory_out.txt | |
kegg_core_id.txt | |
kegg_core_out.txt | |
Kegg_count_details1.txt | |
kegg_histogram1.txt | |
kegg_unique_id.txt | |
kegg_unique_out.txt | |
list | |
Major_Cog_Category1.txt | |
matrix.txt | |
new_genes_count.txt | |
pan_default.txt | |
pan_genome.txt | |
PAN_PHYLOGENY_MOD.nwk | |
PAN_PHYLOGENY_MOD.ph | |
PAN_PHYLOGENY.ph | |
plots_default.plt | |
plots.plt | |
u_clusters.txt | |
UNIQUE_COG_hits3.txt | |
UNIQUE_kegg_hits3.txt |