直系同源的基因通常具有相似的生物学功能,所以我们在进行一个未知序列的功能的鉴定的时候,其实质在找功能已知的同源基因。功能基因组的研究过程中,对于两个或者多个物种的同源基因进行鉴定,是功能基因鉴定、比较基因组、功能基因分类、pathway预测等待的基础。
基因相似性、一致性与同源性
- 同源性是序列同源或者不同源的一种论断,而一致性和相似性是一种描述序列相关性的量;
- 如果两条序列有一个共同的进化祖先,那么他们就是同源的,不存在同源性的程度问题,要么同源,要么不同源;
- 同源蛋白总是在三维结构上有显著的相似性;
- 两条蛋白即使没有统计上显著的一致性,其也可能是同源的;
- 两条蛋白质是否同源的最强的证据来自于结构研究和进化分析;
- 一致性(identity)表示了两个序列相同的程度;
- 两条序列的相似性百分比(percent similarity)是相等于相似匹配之和;
- 一般的一致性比相似性更有用些,因为相似性的衡量依赖于如何定义两个氨基酸残基是如何相似的;
- 双序列的比对是排列两条序列以达到最大程度相同的过程,其目的是衡量两个分子的相似性和同源的可能性;
确定两个蛋白是否同源的问题检查单
- 期望值是否显著?
- 两个蛋白质是否有近似的大小?
- 是否具有共同的模体或信号序列?
- 多序列比对的融合性?
- 是否具有相似的分子特性?
- 是否具有相似的三维结构?
- 双向blast比对结构是否一致?
- 是否具有相似的生物学功能?
直系同源与旁系同源
- 同源的蛋白质可以分为直系同源与旁系同源,当同源是基因复制的结果,两份拷贝在一个物种的历史上是平行演化的,这样的基因被称为旁系同源基因。当同源是物种形成的结果,基因的历史反映了物种的历史,被称为直系同源;
- 直系同源是不同物种内的同源序列,他们是来自于物种形成时的共同祖先基因;
- 通常认为直系同源的序列具有相似的生物学功能;
直系同源与旁系同源的区分
判断直系同源还是旁系同源主要依据最大似然法构建的基因系统发育树。 系统发育树可以显示出基因家族演化的历史,比如基因从一个共同的祖先中分化的。基因树同物种树进行比对,是否有内部的节点,将是区别复制事件与物种分化事件的依据。如果只是简单的只有唯一的直系同源基因,这样的验证非常容易区别。但是大多数情况都是一对多或者多对多的关系。比如斑马鱼与哺乳动物的同源基因比较中这种情况非常多,在果蝇与哺乳动物或者蠕虫与哺乳动物的同源基因预测中,这中情况更为明显。
鉴定直系同源基因的方法,分为7步:
- 从Ensemble下载要比对物种的所有基因的蛋白质序列,如果一个基因有多个转录本,只取最长的;
- 使用WUBlastp+SmithWaterman,每个基因同所有的基因进行比对,也就是将所有物种的基因当做一个库,用这个库和其本身进行比对;
- 基于BRH与BSR的值,为这些基因建立关系图;
- 将有关联的分为一组,相当于一个基因家族;
- 对于每一组,将蛋白质序列用MUSCLE进行多重比对;
- 对比好的每一组,使用多重比对结果中蛋白质对应的CDS序列,使用NJTREE构建系统发育树;
- 针对每个基因树,推断每两个基因是直系同源还是旁系同源:
Orthologues : 两个基因之间的根节点是一个物种形成事件,直系同源的几种情况
- ortholog_one2one 一对一
- ortholog_one2many 一对多
- ortholog_many2many 多对多
- apparent_ortholog_one2one (is a special case, see below) 明显的一对一
Paralogues : 祖先节点是一个复制事件,旁系同源的集中情况:
- within_species_paralog 物种内的
- between_species_paralog 物种间的
简单的基因同源性的门槛(基于Blastp比对的)
- identity >30%;
- e-value <1e-10;
- score>200
- overlap >60%
同源基因数据库
- HomoloGene - http://www.ncbi.nlm.nih.gov/homologene
- inparanoid7 - http://inparanoid.sbc.su.se/cgi-bin/index.cgi
- OrthoCluster - http://genome.sfu.ca/orthoclusterdb/
- OrthoMCL - http://www.orthomcl.org/cgi-bin/OrthoMclWeb.cgi (谢谢 boya888 推荐 )
原文来自:博耘生物(http://boyun.sh.cn/bio/?p=1849)
1F
我想知道这里所提到的,简单的基因同源性的门槛有没有文献支持。
谢谢
B1
@ xiaofeilong 目前我做过同源基因鉴定的相关工作,但是使用标准与这个不一样。这个标准与两个物种之间的进化亲缘关系的距离有关。
B2
@ ybzhao 你好,这位朋友,真的很感谢你。
那么我想问的是向您刚提到的这个标准与两个物种之间的进化亲缘关系的距离具体有什么可以参照的标准吗?
比如,现在我想鉴定的物种包括低等的藻类、苔藓、蕨类到被子植物。
希望您可以提点宝贵意见。 谢谢
B3
@ xiaofeilong 您好,确实很抱歉,目前我主要是做原核生物这一块。目前我采用的标准是,如果用核酸序列进行比对判断依据是identity>=70%,coverage>=70%,如果是用蛋白序列的话identity>=50%,coverage>=50%,有很多做细菌基因组相关工作用的就是这个标准,有很多文献可以引用支持。至于您所讲的这三个,我目前还没做过真核基因组的数据,所以不太清楚一般做真核用的标准,非常抱歉,您可以搜一下相关的文献,这样最后写论文的时候也是有依据的。
B4
@ ybzhao 您好!能方便请教一下您提到的coverage>=50%中的coverage是什么意思么?谢谢~
2F
举个例子来说明coverage:例如蛋白A长度100,B的长度120,在比对的时候A的6-90与B的6-95比对上了,那么A的coverage是(90-6+1)/100=85%,B的coverage是(95-6+1)/120=75%。
3F
新手,学习之。。。
4F
谢谢ybzhao详尽的介绍! :razz:
orthoMCL能否加进来?
B1
@ boya888 谢谢推荐 ,已经更新了O(∩_∩)O~
orthoMCL这个软件我三年前用过,感觉使用起来很不方便,需要安装mysql。可能对mysql的使用不太熟悉。
现在用的比较多的是inparanoid与multiparanoid。
其实运用了MCL 这个算法的软件还是比较多的,之前还用过MSOAR
B2
@ ybzhao 能不能给我发一份inparanoid软件,我在网站上总是注册不到下不了,谢谢,这是我的邮箱360226919@qq.com
5F
ybzhao,你好!看了这个感觉非常有帮助,我还是新手,有几个问题并不是很清楚,我想先弄明白基因层面上的这方面问题。
首先一致性和相似性有什么差别?
还有一点就是直系同源和旁系同源,旁系同源的意思是不是一个基因在不同的物种中通过进化慢慢改变,然后还有很大的相似性?话说直系同源是基因有共同的祖先,那是限定直系同源的两个基因必须是同一物种吗?要是不限定在同一物种的话我倒是觉着和直系同源差不多呦!我理解的可能很有问题,有点想不明白
B1
@ bioaggressor 最近我正在读关于鉴定直系同源基因的相关论文,近期会写一篇文章来与大家分享一下关于直系同源、旁系同源的区别。
6F
你好,我是新手,有很多问题不明白,希望能得到一些宝贵的指点。
1、如果我有几个相关物种的氨基酸序列,怎样找它们之间的直系同源基因?
2、我知道inparanoid可以找两个物种间的直系同源基因,它能不能找多个物种间的直系同源基因?怎么找?