Skip to content

← 命令参考

gmlst typing

用于按已知方案或 scheme-free 流程对 FASTA、FASTQ 样本进行分型。

mlst

对样本执行经典 MLST 分型。

用法

gmlst typing mlst [OPTIONS] SAMPLES...

选项

选项 说明 默认值
-s, --scheme TEXT 指定 MLST 方案名称,例如 saureus_1ecoli_1 必填
-b, --backend [blastn\|kma\|minimap2\|nucmer] 选择比对后端。 blastn
--min-id FLOAT 最小百分比 identity。 95.0
--min-cov FLOAT 最小 allele 覆盖度,范围 0 到 1。 0.95
--min-depth FLOAT 最小 read depth,仅用于 FASTQ。 10.0
--format [tsv\|json\|pretty] 输出格式。 tsv
-o, --output PATH 把结果写入文件。
--cache-dir PATH 覆盖缓存目录。
--force-reindex 重建后端索引。 关闭
--no-header 不输出 TSV 表头。 关闭
-t, --threads INTEGER 后端使用的线程数。 1
--max-workers INTEGER 样本级并行 worker 数。 1
--count-same-copy 统计同 allele 的 multicopy 命中,目前主要用于 blastn,并显示 1,1 这类记法。 关闭
-q, --quiet 仅保留错误输出。 关闭
--novel-allele 把 novel allele 序列写入 {locus}_novel.fasta 关闭
--novel-profile 把 novel ST profile 写入 profiles_novel.txt,需要同时启用 --novel-allele 关闭
--data-dir, --output-dir PATH novel allele 和 profile 输出目录。 当前目录

示例

gmlst typing mlst -s saureus_1 sample.fasta
gmlst typing mlst -s saureus_1 -b minimap2 sample_R1.fastq.gz sample_R2.fastq.gz
gmlst typing mlst -s saureus_1 --format json samples/*.fasta -o results.json

注意事项

  • mlst 会自动识别常见的双端 FASTQ 命名模式,例如 _R1/_R2_1/_2.1/.2,并把它们作为 paired-end 输入传给支持的后端。
  • 支持 .fastq.fq.gz 变体。
  • JSON 输出包含每个位点的结构化调用信息,适合后续 novel 数据提取。

cgmlst

对大型 cgMLST 或 wgMLST 方案执行分型。

用法

gmlst typing cgmlst [OPTIONS] SAMPLES...

选项

选项 说明 默认值
-s, --scheme TEXT 指定 cgMLST 或 wgMLST 方案名称,例如 vparahaemolyticus_3 必填
-b, --backend [blastn\|kma\|minimap2\|nucmer] 选择比对后端。 minimap2
--cgmlst-mode [standard\|chew-fast\|chew-ultrafast\|chew-bsr\|chew-balanced] 选择 cgMLST 工作流模式。 standard
--min-id FLOAT 最小百分比 identity。 95.0
--min-cov FLOAT 最小 allele 覆盖度,范围 0 到 1。 0.95
--min-depth FLOAT 最小 read depth,仅用于 FASTQ。 10.0
--format [tsv\|json\|pretty] 输出格式。 tsv
-o, --output PATH 把结果写入文件。
--cache-dir PATH 覆盖缓存目录。
--force-reindex 重建后端索引。 关闭
--no-header 不输出 TSV 表头。 关闭
-t, --threads INTEGER 后端使用的线程数。 1
--max-workers INTEGER 样本级并行 worker 数。 1
--count-same-copy 统计同 allele 的 multicopy 命中,目前主要用于 blastn 关闭
-q, --quiet 仅保留错误输出。 关闭
--prefilter-k INTEGER cgMLST 组装预过滤使用的 k-mer 长度。 31
--prefilter-top-n INTEGER 预过滤阶段每个位点保留的 Top N 候选数。 20
--prefilter-min-loci-fraction FLOAT 信任预过滤结果所需的最小位点比例。 0.3
--no-prefilter 关闭 cgMLST 组装预过滤,改用完整位点索引路径。 关闭
--novel-allele 把 novel allele 序列写入 {locus}_novel.fasta 关闭
--novel-profile 把 novel ST profile 写入 profiles_novel.txt,需要同时启用 --novel-allele 关闭
--data-dir, --output-dir PATH novel allele 和 profile 输出目录。 当前目录
--cds-coordinates-out PATH 把预测到的 CDS 坐标导出为 TSV,便于和 chewBBACA 结果对照。
--call-policy [default\|chewbbaca] 指定输出分类策略。 default
--chew-cds-gate / --no-chew-cds-gate --call-policy chewbbaca 下,是否要求证据先通过预测 CDS gate。 启用

cgMLST 模式

模式 说明 适合场景
standard 保守的基线行为,不强制启用 chew 风格覆盖。 需要稳定、通用设置时先从这里开始
chew-fast 启用 exact-hash、minimap2 哈希预过滤、缺失位点 minimap2 精修,以及面向低置信度位点的定向 blastn 回退。 日常 FASTA 组装分型
chew-ultrafast 基于 chew-fast,进一步偏向速度,使用代表序列主比对、严格救援和第二遍定向补救。 大批量样本,最看重吞吐量
chew-bsr chew-fast 基础上加入 protein 级 exact-hash 预判。 需要额外 protein 证据时
chew-balanced 启用 exact-hash、minimap2 哈希预过滤,以及面向低置信度位点的定向 blastn 回退。 在速度和复核能力之间求平衡

环境变量

变量 说明 默认值
GMLST_MINIMAP2_FASTA_SPEED_PROFILE 控制 minimap2 FASTA 速度档位,可选 defaultfastultrafast default
GMLST_CGMLST_MINIMAP2_ULTRA_SECOND_PASS_MAX_LOCI 控制 chew-ultrafast 第二遍的位点预算,可设为 adaptive 或整数。 adaptive
GMLST_CGMLST_FASTQ_KMA_AUTO_THREADS 对 FASTQ cgMLST 自动提升 KMA 每样本线程数。设为 1 可关闭。 8
GMLST_CGMLST_KMA_FASTQ_MEM_MODE 为 FASTQ cgMLST 启用 KMA -mem_mode 1
GMLST_CGMLST_KMA_FASTQ_MEM_CONFIRM_MAX_LOCI -mem_mode 后最多对多少个 closest 位点执行严格 KMA 复查。 64
GMLST_CGMLST_PREFILTER_MAX_LOCI 预过滤自动跳过阈值。设为 0 表示总是尝试预过滤。 3000
GMLST_CGMLST_EXACT_HASH_PREFILTER 启用 chew 风格 DNA exact-match 预判。 0
GMLST_CGMLST_MINIMAP2_HASH_PREFILTER 启用 minimap2 FASTA 的实验性 hash-first 预过滤。 0
GMLST_CGMLST_CDS_PREDICTION_MODE 控制 Pyrodigal CDS 模式,可选 singlemeta single
GMLST_CGMLST_CDS_TRAINING_FILE 指定固定的 Pyrodigal 训练文件路径。 未设置
GMLST_CGMLST_CDS_CLOSED_ENDS 控制 Pyrodigal closed-end 预测行为。 0
GMLST_CGMLST_CDS_COORDINATES_OUT 全局导出预测 CDS 坐标 TSV。 未设置
GMLST_CGMLST_MINIMAP2_HASH_REFINE_MAX_LOCI 控制二次精修阶段允许进入的缺失位点上限。 0
GMLST_CGMLST_EVIDENCE_FALLBACK_BACKEND 为低置信度位点启用定向回退后端,可选 noneblastnkmanucmer none
GMLST_CGMLST_EVIDENCE_FALLBACK_MAX_LOCI 限制进入回退确认阶段的位点数量。设为 0 表示不限。 300
GMLST_MINIMAP2_KMER_ENGINE 控制 minimap2 的 k-mer 支持打分引擎,可选 pythonkmcauto python
GMLST_TMPDIR 覆盖临时文件目录。 系统临时目录

示例

gmlst typing cgmlst -s vparahaemolyticus_3 sample.fna
gmlst typing cgmlst -s vparahaemolyticus_3 --cgmlst-mode chew-fast sample.fna
gmlst typing cgmlst -s vparahaemolyticus_3 --prefilter-k 31 --prefilter-top-n 20 sample.fna
gmlst typing cgmlst -s vparahaemolyticus_3 --call-policy chewbbaca --cds-coordinates-out cds.tsv sample.fna

注意事项

  • typing cgmlst 的默认后端是 minimap2
  • 对 FASTQ 输入,CLI 会把请求的 -b minimap2 自动切换到 -b kma,并把 --cgmlst-mode 当作兼容层选项处理,因为 chew 风格优化主要面向 FASTA 组装输入。
  • --call-policy chewbbaca 仅支持 FASTA 组装输入,默认启用 --chew-cds-gate
  • 对大型 cgMLST 方案,使用 -b kma 或默认 minimap2 时通常建议显式提高 -t

tgmlst

执行 scheme-free typing,用于在没有预选公共方案时直接从样本中发现 allele 和 profile。

用法

gmlst typing tgmlst [OPTIONS] SAMPLES...

选项

选项 说明 默认值
--format [tsv\|json\|pretty] 输出格式。 tsv
-o, --output PATH 把结果写入文件。
--no-header 不输出 TSV 表头。 关闭
-q, --quiet 仅保留错误输出。 关闭
--hash-strategy [safe\|fast\|ultra\|strict\|blast] 选择 allele 识别使用的哈希策略。 safe
--save-scheme PATH 把发现到的 scheme-free 方案写成 JSON。
--load-scheme PATH 在分型前加载已有的 scheme-free 方案 JSON。
--stats 输出 scheme-free 流程的时间和计数统计。 关闭
--max-workers INTEGER 覆盖 scheme-free 流程的样本级并行数。
-t, --threads INTEGER 控制 tgMLST 中 MMseqs 聚类线程数。
--assemble-timeout FLOAT 覆盖 scheme-free 组装阶段超时时间,单位为秒。
--error-report PATH 把每个样本的 scheme-free 错误写入 JSON。
--fail-on-error 只要任一样本失败就返回非零退出码。 关闭
--summary-report PATH 把本次 scheme-free 运行摘要写入 JSON。

示例

gmlst typing tgmlst sample.fna --stats
gmlst typing tgmlst sample.fna --save-scheme tgmlst_scheme.json
gmlst typing tgmlst another_sample.fna --load-scheme tgmlst_scheme.json --format json

注意事项

  • tgmlst 是 scheme-free 流程,不要求你预先下载或指定公共方案。
  • 如果你希望后续复用这次发现出的结果,可以使用 --save-scheme 导出 JSON,再用 --load-scheme 继续分析其他样本。
  • JSON 输出适合后续自动化处理,--summary-report--error-report 适合批处理审计。