载体屏蔽Crossmatch

2012/07/04评论2,431

简介

Phil Green 和 Brent Ewing 开发的 phrap 软件包的一部分，用于比对两套 DNA 序列，如：可以用来找出序列中的载体序列，并产生屏蔽了载体的序列；也可以用于 cDNA 和 cosmid 的比对等。和 blastn 相比速度较慢但敏感度较高（因其允许 gap 存在）

下载

包含在 Phrap 软件包中，Mail to phg@u.washington.edu

安装

1、上传 phrap 的压缩包到本地 linux/unix 运算服务器；

2、解压缩：

gzip –d phrap.tar.gz tar –xvf phrap.tar

3、编译源程序：

在命令行键入 make，如果数据集多于 64,000 条序列，或者序列中含有长于 64,000 bp 的序列，则需要使用 cross_match.manyreads或cross_match.longreads，这两个程序编译命令为 make manyreads。

使用

命令行：

cross_match seq_file1 seq_file2 -minmatch 10 -minscore 20 -screen > screen.out

输入

标准 FASTA 格式的序列文件

参数

option name & default value

1. 比对分值控制参数

2. Banded search

3. 比对筛选

4. 输入相关参数

-default_qual 15 当没有质量文件存在时，设定的每个碱基的质量值，默认为 15

5. 输出相关参数

6. 其他

-indexwordsize 10 用于索引的字符数，此参数影响运行时间和内存使用

输出

1. *.log files，程序运行日志

2. *.screen 文件,被屏蔽了相应序列后的序列文件，FASTA 格式。(此文件仅当使用-screen 参数时输出)。

3. 标准屏幕输出，可重定向到文件，如>screen.out，然后输入more screen.out 查看

4. matching entries (first file).

Query 序列（第一个输入文件）和 subject 序列（第二个输入文件）比对的情况，如果只有一个输入文件，则是这个文件中任意两个序列的比对情况。比对情况通过命令行的-minscore 和–masklevel 参数控制, 另外也受比对分值和 band search 的参数控制。报告按 query 序列顺序输出，例如:

440

2.38

1.39

0.79

hh44a1.s1

536

(0)

C00311

(3084)

8277

7771

对各列阐述如下:

440 = smith-waterman 比对分值
2.38 = 比对部分的替换百分比
1.39 = 比对部分的删除百分比
0.79 = 比对部分的插入百分比
hh44a1.s1 = 第一个输入序列的名称
33 = 第一个输入序列比对起始位点
536 = 第一个输入序列比对终止位点
(0) = no. of bases in 1st sequence past the ending position of match
(so 0 means that the match extended all the way to the end of the 1st sequence)
C 00311: 和输入序列 00311 的互补链比对上
(3084): 第二个输入序列（互补链）比对开始前共有 3084 个碱基
8277= 第一个输入序列比对起始位点
7771 =第一个输入序列比对起始位点
* indicates that there is a higher-scoring match whose domain partly includes the domain of this match.

Qual	algn	cum	rcum	(%)	unalgn	X	N	sub	del	ins	total	(%)	cum	rcum	(%)
56	1315	1315	1920	-100	0	0	0	1	0	0	1	0.08	1	4	0.21

Qual 质量值
Algn 第一个输入序列这个质量值的碱基数
Cum 在 SWAT 比对中比上的碱基数
Rcum 累计比对上的碱基数（包含这个质量即更高的质量）
Unalgn 没有被包含进来的比对部分碱基数
每种类型的不一致的数目（sub 替换、del 删除、ins 插入）
cum(%)差异的总数和百分比
rcum(%)累计差异数和百分比

简介

下载

安装

使用

输入

参数

输出

发表评论