Glimmer3安装与使用

2011/10/051 4,499

一、软件介绍

Glimmer是一款寻找原核生物基因的预测软件，从1.0版本到现在的3.0版本，预测的准确度和速度都已经提高了很多，并且是一个免费开源的软件必须在Linux或者Mac OSX系统上才能使用。

二、软件安装

网址: http://cbcb.umd.edu/software/glimmer/
下载网址:http://www.cbcb.umd.edu/software/glimmer/glimmer302.tar.gz
1. 解压软件包
gunzip –c glimmer302.tar.gz | tar xf - 或 tar xzf glimmer302.tar.gz
2. 编译
cd glimmer302
cd src
make
3. 编译完成后可在glimmer302/bin下看到编译完后的程序, 可将程序拷贝到/usr/local/bin或者 ~/bin/中

三、运行Glimmer

运行Glimmer分为2步，首先，调用ICM的编码序列的概率模型必须被构建，这由”build-icm”通过训练序列完成。这些训练序列有以下3种来源：
1. 基因组中的已知基因，例如通过相似性搜索标识的。
2. 通过”long-orfs”在基因组上找到的序列较长而且彼此之间没有重叠的ORFs。
3. 来自高相似物种的基因。
一旦概率模型被建立，”glimmer3”自身运行去分析序列和做基因预测。”glimmer3”有一系列不同的能影响它的预测结果的选项。其中-b选项有一个为描述基因的核糖体结合位点的位置权重矩阵（PWM），可用这个选项提高启始位点预测的正确性。
为了获得glimmer的最佳结果，来自于同一基因组预先被预测的基因的最大可能的训练集将被使用。如果基因通过同源比对是已知的，那这些基因能被使用。如果只有少量这样的基因是有用的，那么这些基因可以与通过”long-orfs”得到的基因合起来做为训练集。如果你在一个小的基因组片段上运行Glimmer，可用它的进化上最近的基因组来得到训练集。
脚本程序
在scripts目录中有几个C-shell的脚本对于运行GLIMMER3是很有用的。每个脚本的开头指定GLIMMER执行目录和Awk脚本的目录。用户需根据自己的安装路径修改开始行的set glimmerpath 和 set awkpath。

g3-from-scratch.csh

使用long-orfs找到训练基因接着运行glimmer3。如果需要改变glimmer3选项可修改set glimmeropts。运行：g3-from-scratch.csh genom.seq run1
genom.seq 是需预测基因的fasta格式的基因组序列， run1是输出文件的前缀。这个脚本将运行下列运行行:
long-orfs -n -t 1.15 genom.seq run1.longorfs
extract -t genom.seq run1.longorfs > run1.train
build-icm -r run1.icm < run1.train
glimmer3 -o50 -g110 -t30 genom.seq run1.icm run1

g3-from-training.csh

使用一系列基因位置去抽提训练集，接着运行glimmer3. 这个脚本使用elph（www.tigr.org/software/ELPH）由位置清单列表中的起启位点的上游区域建立一个PWM。它也使用训练集中的第一个密码子来评估在基因组中的起始密码子的分布。运行：g3-from-training.csh genom.seq train.coords run2
genom.seq 是需预测基因的fasta格式的基因组序列，train.coords是训练序列的位置， run2是输出文件的前缀.
这个脚本将运行下列命令行:
extract -t genom.seq train.coords > run2.train
build-icm -r run2.icm < run2.train upstream-coords.awk 25 0 train.coords | extract genom.seq - > run2.upstream
elph run2.upstream LEN=6 | get-motif-counts.awk > run2.motif
set startuse = ‘start-codon-distrib -3 genom.seq train.coords‘
glimmer3 -o50 -g110 -t30 -b run2.motif -P $startuse genom.seq run2.icm run2

g3-inerated.csh

结合了前两个脚本。它使用第一次预测到的结果为第二次运行建立训练集。第二次运行的原因是第一次运行的结果会将比来自long-orfs的结果的更高的起始位点的正确性。运行：g3-iterated.csh genom.seq run3
genom.seq 是需预测基因的fasta格式的基因组序列， run1是输出文件的前缀。
这个脚本将运行下列命令行:
long-orfs -n -t 1.15 genom.seq run3.longorfs
extract -t genom.seq run3.longorfs > run3.train
build-icm -r run3.icm < run3.train glimmer3 -o50 -g110 -t30 genom.seq run3.icm run3.run1 tail +2 run3.run1.predict > run3.coords
upstream-coords.awk 25 0 run3.coords | extract genom.seq - > run3.upstream
elph run3.upstream LEN=6 | get-motif-counts.awk > run3.motif
set startuse = ‘start-codon-distrib -3 genom.seq run3.coords‘
glimmer3 -o50 -g110 -t30 -b run3.motif -P $startuse genom.seq run3.icm run3

四、运行实例

在sample-run目录中有测试数据 tpall.fna (Treponema pallidum) 和 tpall.nh
g3-from-scratch.csh tpall.fna from-scratch
g3-from-training.csh tpall.fna tpall.nh from-training
g3-iterated.csh tpall.fna iterated