gmlst typing¶

用于按已知方案或 scheme-free 流程对 FASTA、FASTQ 样本进行分型。

mlst¶

对样本执行经典 MLST 分型。

用法¶

gmlst typing mlst [OPTIONS] SAMPLES...

选项¶

选项	说明	默认值
`-s, --scheme TEXT`	指定 MLST 方案名称，例如 `saureus_1`、`ecoli_1`。	必填
`-b, --backend [blastn\\|kma\\|minimap2\\|nucmer]`	选择比对后端。	`blastn`
`--min-id FLOAT`	最小百分比 identity。	`95.0`
`--min-cov FLOAT`	最小 allele 覆盖度，范围 0 到 1。	`0.95`
`--min-depth FLOAT`	最小 read depth，仅用于 FASTQ。	`10.0`
`--format [tsv\\|json\\|pretty]`	输出格式。	`tsv`
`-o, --output PATH`	把结果写入文件。	无
`--cache-dir PATH`	覆盖缓存目录。	无
`--force-reindex`	重建后端索引。	关闭
`--no-header`	不输出 TSV 表头。	关闭
`-t, --threads INTEGER`	后端使用的线程数。	`1`
`--max-workers INTEGER`	样本级并行 worker 数。	`1`
`--count-same-copy`	统计同 allele 的 multicopy 命中，目前主要用于 `blastn`，并显示 `1,1` 这类记法。	关闭
`-q, --quiet`	仅保留错误输出。	关闭
`--novel-allele`	把 novel allele 序列写入 `{locus}_novel.fasta`。	关闭
`--novel-profile`	把 novel ST profile 写入 `profiles_novel.txt`，需要同时启用 `--novel-allele`。	关闭
`--data-dir, --output-dir PATH`	novel allele 和 profile 输出目录。	当前目录

示例¶

gmlst typing mlst -s saureus_1 sample.fasta
gmlst typing mlst -s saureus_1 -b minimap2 sample_R1.fastq.gz sample_R2.fastq.gz
gmlst typing mlst -s saureus_1 --format json samples/*.fasta -o results.json

注意事项¶

mlst 会自动识别常见的双端 FASTQ 命名模式，例如 _R1/_R2、_1/_2、.1/.2，并把它们作为 paired-end 输入传给支持的后端。
支持 .fastq、.fq 和 .gz 变体。
JSON 输出包含每个位点的结构化调用信息，适合后续 novel 数据提取。

cgmlst¶

对大型 cgMLST 或 wgMLST 方案执行分型。

用法¶

gmlst typing cgmlst [OPTIONS] SAMPLES...

选项¶

选项	说明	默认值
`-s, --scheme TEXT`	指定 cgMLST 或 wgMLST 方案名称，例如 `vparahaemolyticus_3`。	必填
`-b, --backend [blastn\\|kma\\|minimap2\\|nucmer]`	选择比对后端。	`minimap2`
`--cgmlst-mode [standard\\|chew-fast\\|chew-ultrafast\\|chew-bsr\\|chew-balanced]`	选择 cgMLST 工作流模式。	`standard`
`--min-id FLOAT`	最小百分比 identity。	`95.0`
`--min-cov FLOAT`	最小 allele 覆盖度，范围 0 到 1。	`0.95`
`--min-depth FLOAT`	最小 read depth，仅用于 FASTQ。	`10.0`
`--format [tsv\\|json\\|pretty]`	输出格式。	`tsv`
`-o, --output PATH`	把结果写入文件。	无
`--cache-dir PATH`	覆盖缓存目录。	无
`--force-reindex`	重建后端索引。	关闭
`--no-header`	不输出 TSV 表头。	关闭
`-t, --threads INTEGER`	后端使用的线程数。	`1`
`--max-workers INTEGER`	样本级并行 worker 数。	`1`
`--count-same-copy`	统计同 allele 的 multicopy 命中，目前主要用于 `blastn`。	关闭
`-q, --quiet`	仅保留错误输出。	关闭
`--prefilter-k INTEGER`	cgMLST 组装预过滤使用的 k-mer 长度。	`31`
`--prefilter-top-n INTEGER`	预过滤阶段每个位点保留的 Top N 候选数。	`20`
`--prefilter-min-loci-fraction FLOAT`	信任预过滤结果所需的最小位点比例。	`0.3`
`--no-prefilter`	关闭 cgMLST 组装预过滤，改用完整位点索引路径。	关闭
`--novel-allele`	把 novel allele 序列写入 `{locus}_novel.fasta`。	关闭
`--novel-profile`	把 novel ST profile 写入 `profiles_novel.txt`，需要同时启用 `--novel-allele`。	关闭
`--data-dir, --output-dir PATH`	novel allele 和 profile 输出目录。	当前目录
`--cds-coordinates-out PATH`	把预测到的 CDS 坐标导出为 TSV，便于和 chewBBACA 结果对照。	无
`--call-policy [default\\|chewbbaca]`	指定输出分类策略。	`default`
`--chew-cds-gate / --no-chew-cds-gate`	在 `--call-policy chewbbaca` 下，是否要求证据先通过预测 CDS gate。	启用

cgMLST 模式¶

模式	说明	适合场景
`standard`	保守的基线行为，不强制启用 chew 风格覆盖。	需要稳定、通用设置时先从这里开始
`chew-fast`	启用 exact-hash、minimap2 哈希预过滤、缺失位点 minimap2 精修，以及面向低置信度位点的定向 `blastn` 回退。	日常 FASTA 组装分型
`chew-ultrafast`	基于 `chew-fast`，进一步偏向速度，使用代表序列主比对、严格救援和第二遍定向补救。	大批量样本，最看重吞吐量
`chew-bsr`	在 `chew-fast` 基础上加入 protein 级 exact-hash 预判。	需要额外 protein 证据时
`chew-balanced`	启用 exact-hash、minimap2 哈希预过滤，以及面向低置信度位点的定向 `blastn` 回退。	在速度和复核能力之间求平衡

环境变量¶

变量	说明	默认值
`GMLST_MINIMAP2_FASTA_SPEED_PROFILE`	控制 minimap2 FASTA 速度档位，可选 `default`、`fast`、`ultrafast`。	`default`
`GMLST_CGMLST_MINIMAP2_ULTRA_SECOND_PASS_MAX_LOCI`	控制 `chew-ultrafast` 第二遍的位点预算，可设为 `adaptive` 或整数。	`adaptive`
`GMLST_CGMLST_FASTQ_KMA_AUTO_THREADS`	对 FASTQ cgMLST 自动提升 KMA 每样本线程数。设为 `1` 可关闭。	`8`
`GMLST_CGMLST_KMA_FASTQ_MEM_MODE`	为 FASTQ cgMLST 启用 KMA `-mem_mode`。	`1`
`GMLST_CGMLST_KMA_FASTQ_MEM_CONFIRM_MAX_LOCI`	`-mem_mode` 后最多对多少个 `closest` 位点执行严格 KMA 复查。	`64`
`GMLST_CGMLST_PREFILTER_MAX_LOCI`	预过滤自动跳过阈值。设为 `0` 表示总是尝试预过滤。	`3000`
`GMLST_CGMLST_EXACT_HASH_PREFILTER`	启用 chew 风格 DNA exact-match 预判。	`0`
`GMLST_CGMLST_MINIMAP2_HASH_PREFILTER`	启用 minimap2 FASTA 的实验性 hash-first 预过滤。	`0`
`GMLST_CGMLST_CDS_PREDICTION_MODE`	控制 Pyrodigal CDS 模式，可选 `single` 或 `meta`。	`single`
`GMLST_CGMLST_CDS_TRAINING_FILE`	指定固定的 Pyrodigal 训练文件路径。	未设置
`GMLST_CGMLST_CDS_CLOSED_ENDS`	控制 Pyrodigal closed-end 预测行为。	`0`
`GMLST_CGMLST_CDS_COORDINATES_OUT`	全局导出预测 CDS 坐标 TSV。	未设置
`GMLST_CGMLST_MINIMAP2_HASH_REFINE_MAX_LOCI`	控制二次精修阶段允许进入的缺失位点上限。	`0`
`GMLST_CGMLST_EVIDENCE_FALLBACK_BACKEND`	为低置信度位点启用定向回退后端，可选 `none`、`blastn`、`kma`、`nucmer`。	`none`
`GMLST_CGMLST_EVIDENCE_FALLBACK_MAX_LOCI`	限制进入回退确认阶段的位点数量。设为 `0` 表示不限。	`300`
`GMLST_MINIMAP2_KMER_ENGINE`	控制 minimap2 的 k-mer 支持打分引擎，可选 `python`、`kmc`、`auto`。	`python`
`GMLST_TMPDIR`	覆盖临时文件目录。	系统临时目录

示例¶

gmlst typing cgmlst -s vparahaemolyticus_3 sample.fna
gmlst typing cgmlst -s vparahaemolyticus_3 --cgmlst-mode chew-fast sample.fna
gmlst typing cgmlst -s vparahaemolyticus_3 --prefilter-k 31 --prefilter-top-n 20 sample.fna
gmlst typing cgmlst -s vparahaemolyticus_3 --call-policy chewbbaca --cds-coordinates-out cds.tsv sample.fna

注意事项¶

typing cgmlst 的默认后端是 minimap2。
对 FASTQ 输入，CLI 会把请求的 -b minimap2 自动切换到 -b kma，并把 --cgmlst-mode 当作兼容层选项处理，因为 chew 风格优化主要面向 FASTA 组装输入。
--call-policy chewbbaca 仅支持 FASTA 组装输入，默认启用 --chew-cds-gate。
对大型 cgMLST 方案，使用 -b kma 或默认 minimap2 时通常建议显式提高 -t。

tgmlst¶

执行 scheme-free typing，用于在没有预选公共方案时直接从样本中发现 allele 和 profile。

用法¶

gmlst typing tgmlst [OPTIONS] SAMPLES...

选项¶

选项	说明	默认值
`--format [tsv\\|json\\|pretty]`	输出格式。	`tsv`
`-o, --output PATH`	把结果写入文件。	无
`--no-header`	不输出 TSV 表头。	关闭
`-q, --quiet`	仅保留错误输出。	关闭
`--hash-strategy [safe\\|fast\\|ultra\\|strict\\|blast]`	选择 allele 识别使用的哈希策略。	`safe`
`--save-scheme PATH`	把发现到的 scheme-free 方案写成 JSON。	无
`--load-scheme PATH`	在分型前加载已有的 scheme-free 方案 JSON。	无
`--stats`	输出 scheme-free 流程的时间和计数统计。	关闭
`--max-workers INTEGER`	覆盖 scheme-free 流程的样本级并行数。	无
`-t, --threads INTEGER`	控制 tgMLST 中 MMseqs 聚类线程数。	无
`--assemble-timeout FLOAT`	覆盖 scheme-free 组装阶段超时时间，单位为秒。	无
`--error-report PATH`	把每个样本的 scheme-free 错误写入 JSON。	无
`--fail-on-error`	只要任一样本失败就返回非零退出码。	关闭
`--summary-report PATH`	把本次 scheme-free 运行摘要写入 JSON。	无

示例¶

gmlst typing tgmlst sample.fna --stats
gmlst typing tgmlst sample.fna --save-scheme tgmlst_scheme.json
gmlst typing tgmlst another_sample.fna --load-scheme tgmlst_scheme.json --format json

注意事项¶

tgmlst 是 scheme-free 流程，不要求你预先下载或指定公共方案。
如果你希望后续复用这次发现出的结果，可以使用 --save-scheme 导出 JSON，再用 --load-scheme 继续分析其他样本。
JSON 输出适合后续自动化处理，--summary-report 和 --error-report 适合批处理审计。