三分钟学会!基因组分析工具包——GATK安装和使用!
基因组分析工具包(Genome Analysis Toolkit, GATK "Gee-ay-tee-kay" (/dʒi•eɪ•ti•keɪ/) ) 是生物信息学领域广泛使用的开源软件,主要用于二代测序数据的变异检测(如SNP、Indel)和数据分析。
之前也为大家介绍过GATK 工具是如何从基因变异检测一步步助力精准医疗的。感兴趣的小伙伴可以看看这篇文章哦!【推荐】GATK工具:从基因变异检测到精准医疗
本文将分步骤介绍GATK的安装方法及基础使用流程,帮助新手快速入门。
01
1. 系统要求
○ 操作系统:Linux/macOS(推荐),Windows需通过WSL或Docker运行。
○ 内存:至少8GB(全基因组分析建议32GB以上)。
○ Java环境:GATK4基于Java开发,最新版需安装Java 17。
2. 依赖工具(可选但推荐)
○ 数据预处理工具:BWA(序列比对)、Samtools(SAM/BAM文件处理)。
○ Python 3:部分脚本需Python支持。
02
方法1:通过Conda安装(推荐)
根据自己的运行环境,选择安装miniconda,
方法2:手动安装
1. 下载GATK4:
○ 访问官网 GATK下载页面,选择最新版本(如 gatk-4.6.1.0.zip)。
03
下面给出了基础的使用说明,如果想了解更多的细节,可以通过查看gatk帮助文档或者访问GATK官网。
网址:https://gatk.broadinstitute.org/hc/en-us/categories/360002310591
● 帮助文档获取
○ 获取帮助:./gatk --help gatk
○ 获取所有可用工具:./gatk list
○ 获取特定工具帮助文档:./gatk ToolName --help
● 传递JVM(Java虚拟机)参数
○ 通过 --java-options 直接传递JVM参数: ./gatk --java-options "<JVM参数>" <GATK命令及参数>
○ 比如调整内存分配
○ 多参数组合
以下以**体细胞突变检测(Somatic SNV/Indel)**为例,展示典型分析步骤:
1. 数据预处理
步骤1:比对与排序
步骤2:标记重复序列
2. 变异检测
步骤3:调用变异(以Mutect2为例)
步骤4:过滤低质量变异
参考:
https://github.com/broadinstitute/gatk
https://gatk.broadinstitute.org/hc/en-us/articles/360036194592-Getting-started-with-GATK4
— 完 —
点这里👇关注我,记得标星哦~