当前位置：首页 > 文章资讯 > 资讯详情

序列相似性搜索必备神器——BLAST，下载及使用教程！

文章来源: https://mp.weixin.qq.com/s/yCZXDmP6U7xkPPqpaFVg0Q

点击蓝字，关注我们

BLAST介绍

BLAST（Basic Local Alignment Search Tool）是由美国国立生物技术信息中心(NCBI)开发的一个基于序列相似性的数据库搜索程序，用于在蛋白质或 DNA 数据库中进行相似性搜索，是目前最常用的数据库搜索程序。

BLAST由Altschul等人于1990年提出，自 1997 年发布以来，BLAST 经过多次升级，功能与性能不断优化。BLAST 程序能够快速比对查询序列与公开数据库中的序列，并计算相似性得分，以进行统计分析。序列数据必须为FASTA格式。

常见的序列比对工具共有5种：

BLASTP	将蛋白质序列比对至蛋白质数据库
BLASTN	将核酸序列比对至核酸数据库
BLASTX	将核酸序列翻译后比对至蛋白质数据库
TBLASTN	将蛋白质序列比对至翻译成蛋白库的核酸数据库
TBLASTX	将翻译成蛋白序列的核酸序列比对至翻译为蛋白库的核酸数据库

下面我们就一起来看看如何在windows上下载和使用Blast序列比对程序吧！

BLAST下载

下载本地blast软件包

本地BLAST下载链接https://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/

首先选择相应的下载安装包

下载完成后打开链接，自定义安装路径，点击Install安装，blast会自动将你所选择的安装路径的bin文件添加至用户环境变量。

检查环境变量：

1. win+R快捷键打开Windows系统运行窗口；

2. 输入sysdm.cpl，点击确定后弹出系统属性窗口；

3. 依次选择高级——环境变量，弹出环境变量窗口；

4. 选择用户变量里变量名为Path这行编辑，检查是否已添加blast环境变量。

若没有添加进去，在编辑环境变量窗口点击新建，找到blast软件包的安装位置，将如图所示bin文件路径复制过去，点击确定，blast运行环境配置完毕。

下载建库所需基因组序列

方式一：NCBI官网下载

若只下载RefSeq参考序列，选择genome分类输入物种或菌株名检索下载序列即可；

若想获取多个版本的基因组组装（Assembly）序列，点击对应的基因组名称，如“R64”，即可下载所有染色体的数据

方式二：ftp下载

NCBI：https://ftp.ncbi.nlm.nih.gov/genomes/refseq/

在该路径下选择感兴趣的物种对应的界分类，比如需要下载人类hg38基因组序列，选择vertebrate_mammalian进入下一级页面，找到Homo sapiens点进去，一般来说选择/latest_assembly_versions文件夹，点击直接开始下载最新参考序列https://ftp.ncbi.nlm.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.40_GRCh38.p14/

BLAST使用

在进行序列比对前，需要根据下载的基因组数据构建本地比对数据库，一般通过makeblastbd命名完成。

makeblastdb命令

fna为核酸序列fasta格式后缀名，faa为氨基酸序列fasta格式后缀名

比对算法	输入序列格式	比对序列格式	默认字长大小	默认匹配/错配得分	默认得分矩阵	默认空位/延伸罚分
blastn	fna	fna	-word_size 11	-reward 2 -penalty -3	/	-gapopen 5 -gapextend 2
blastp	faa	faa	-word_size 6	/	-matrix BLOSUM62	-gapopen 11 -gapextend 1
blastx	fna	faa	-word_size 6	/	-matrix BLOSUM62	-gapopen 11 -gapextend 1
tblastn	faa	fna	-word_size 6	/	-matrix BLOSUM62	-gapopen 11 -gapextend 1
tblastx	fna	fna	-word_size 3	/	-matrix BLOSUM62	/

1. blastn：是将给定的核酸序列与核酸数据库中的序列进行比对；

2. blastp：是使用蛋白质序列与蛋白质数据库中的序列进行比对。作用：可以寻找较远源地序列；

3. blastx：将给定的核酸序列按照六种阅读框架将其翻译成蛋白质与蛋白质数据库中的序列进行比对。作用：对分析新序列和EST很有用；

4. tblastn：将给定的氨基酸序列与核酸数据库中的序列（双链）按不同的阅读框进行比对。作用：对于寻找数据库中序列没有标注的新编码区很有用；

5. tblastx：只在特殊情况下使用，它将DNA被检索的序列和核酸序列数据库中的序列按不同的阅读框全部翻译成蛋白质序列，然后进行蛋白质序列比对。

blast比对命令

比对报告格式 -outfmt [0-18]。BLAST的-outfmt选项提供个性化的选择。一共有18个选择，默认是0

参考：https://www.ncbi.nlm.nih.gov/books/NBK279684/，可以根据自己的需求选择不同的输出格式，格式说明如下：

输出格式编号	对应含义
0（默认）	pairwise
1	query-anchored showing identities
2	query-anchored no identities
3	flat query-anchored, show identities
4	flat query-anchored, no identities
5	XML Blast output
6	tabular
7	tabular with comment lines
8	Text ASN.1
9	Binary ASN.1
10	Comma-separated values
11	BLAST archive format (ASN.1)
12	Seqalign (JSON)
13	Multiple-file BLAST JSON
14	Multiple-file BLAST XML2
15	Single-file BLAST JSON
16	Single-file BLAST XML2
17	Sequence Alignment/Map (SAM)
18	Organism Report