快捷搜索: 王者荣耀 脱发

利用PfamScan寻找同源基因家族


Pfam是一个蛋白家族数据库,其中Pfam-A是手工确定的高质量的蛋白家族,Pfam-B是自动注释的,是对A的补充。目前已更新到34.0,下载地址为ftp://ftp.ebi.ac.uk/pub/databases/Pfam/releases/,任选一版本即可,需要两个文件, Pfam-A.hmm.gzPfam-A.hmm.dat.gz

hmmer的安装

由于Pfam-A需要进行二进制的转换,方便运算,所以需要用到hmmer软件。 安装过程如下:

$ wget http://eddylab.org/software/hmmer/hmmer.tar.gz
$ tar zxvf hmmer.tar.gz
$ cd hmmer-3.3
$ ./configure --prefix=`pwd`
$ make
$ make install

安装完成后,最好把hmmer的bin目录添加到PATH中去,方便pfam_scan.pl的调用。

    Pfam文件的转化:
$ hmmpress Pfam-A.hmm
    hmmer也可以直接鉴定pfam
$ hmmscan -o out.txt --tblout out.tbl  -E 1e-5 Pfam-A.hmm query.fa

Pfam_scan的使用

    Pfam_scan.pl的安装特别简单,直接下载解压即可。
$ wget ftp://ftp.ebi.ac.uk/pub/databases/Pfam/Tools/PfamScan.tar.gz
$ gunzip PfamScan.tar.gz
    安装完成后PfamScan目录下主要有三个文件ChangeLog, pfam_scan.pl,README以及一个文件夹Bio(主要存放需要的模块),可以直接使用pfam_scan.pl脚本即可运行(其需要调用hmmer的hmmscan),其参数如下: 一般情况下,我们只需要用到三个参数: -fasta 需要检索的蛋白序列的fasta文件; -dir 存放Pfam-A数据库的目录; -outfile 需要输出的文件名字。 命令如下:
$ perl pfam_scan.pl -fasta query.fa -dir ~/pfam-A -outfile out.pfam

在最终的输出结果里面,我们一般可以通过两种方式去检索自己所需要的基因:

  1. 已知蛋白的PF编号,如红框1;
  2. 已知蛋白的名字,如红框2.
经验分享 程序员 微信小程序 职场和发展