生物信息学教程系列
第六章
6 基因组序列信息分析
DNA序列自身编码特征的分析是基因组信息学研究的基础,特别是随着大规模测序的日益增加,它的每一个环节都与信息分析紧密相关。从测序仪的光密度采样与分析、碱基读出、载体标识与去除、拼接、填补序列间隙、到重复序列标识、读框预测和基因标注的每一步都是紧密依赖基因组信息学的软件和数据库。特别是拼接和填补序列间隙更需要把实验设计和信息分析时刻联系在一起。
基因组不仅是基因的简单排列,更重要的是它有其特有的组织结构和信息结构,这种结构是在长期的演化过程中产生的,也是基因发挥其功能所必须的。利用国际EST 数据库 (dbEST) 和各实验室测定的相应数据,经过大规模并行计算识别并预测新基因,新SNPs以及各种功能位点,如剪接与可变剪接位点等。
到1998年底在人类的约10万个基因中有3万多个已被发现,尚有约7万个未被发现。由于新基因带来的显著经济效益和社会效益,它们成为了各国科学家当前争夺的热点。EST序列 (Expressed Sequence Tags) 到1999年12月已搜集了约200万条,它大约覆盖了人类基因的 90%,因此如何利用这些信息发现新基因成了近几年的重要研究课题。同时1998年国际上又开展了以EST为主发现新SNPs的研究。因此利用EST数据库发现新基因、新SNPs以及各种功能位点是近几年的重要研究方向。
虽然对约占人类基因组 95%的非编码区的作用人们还不清楚,但从生物进化的观点看来,这部分序列必定具有重要的生物功能。普遍的认识是,它们与基因在四维时空的表达调控有关。寻找这些区域的编码特征,信息调节与表达规律是未来相当长时间内的热点,是取得重要成果的源泉。
在不同物种、不同进化水平的生物的相关基因之间进行比较分析,是基因研究的重要手段。目前,模式生物全基因组序列数据越来越多,因此,基因的比较研究,也必须从基因的比较,上升到对不同进化水平的生物在全基因组水平上的比较研究。这样的研究将更有效地揭示基因在生命系统中的地位和作用,解释整个生命系统的组成和作用方式。
6.1 基因组序列分析工具
1. Wisconsin软件包(GCG)
Genetics Computer Group公司开发的Wisconsin软件包,是一组综合性的序列分析程序,使用公用的核酸和蛋白质数据库。SeqLab是其图形用户界面(GUI),通过它可以使用所有Wisconsin软件包中的程序及其支持的数据库。此外,它还提供了一个环境用于创建、显示、编辑和注释序列。SeqLab也可以被扩展使其可以包括其它公用或非公用的程序和数据库。
Wisconsin软件包由120多个独立的程序组成,每个程序进行一项单一的分析任务。包括所有程序的完整目录以及详细的描述可以在Wisconsin软件包的程序使用文档中找到。GCG支持两种核酸数据库(GenBank数据库, 简化版的EMBL核酸序列数据库)和三种蛋白质数据库(PIR,SWISS-PROT, SP-TrEMBL)。这些数据库既有GCG格式的(供大多数Wisconsin软件包程序使用),也有BLAST格式的(供BLAST数据库搜索程序使用)。同时还提供了用于LookUp程序以及数据库参考搜索的索引。
关于GCG,Wisconsin软件包,支持的平台以及硬件需求的一般性信息可以在GCG的主页以及Wisconsin软件包的用户手册中找到。GCG主页提供了更新信息以及Wisconsin软件包程序的完整列表。
SeqLab中可以使用多个序列分析程序的特性使用户可以应用这些程序顺序地回答相关问题或在对输入序列进行编辑后重复某项分析。而可以同时访问公用数据库和本机序列的优点使用户可以在一个分析中使用其中任意一种而不用先进行转换或格式化的工作。SeqLab可以解决的序列分析问题:
(1)在两条mRNA中寻找开放阅读框架,翻译并对比RNA与蛋白质序列
对两条相关的mRNA进行测序的用户可能希望寻找开放阅读框架(ORF)、翻译以及进行核酸与氨基酸序列间的两两对比。
把序列加入SeqLab Editor中,从Functions菜单中选中Map选项运行Map程序。Map输出文件包含了限制性酶切图和6种可能的翻译框架的ORF的显示。这些ORF的起始和终止位置可进行标记并选为SeqLab Editor中序列显示的范围,然后可用Edit菜单的Translate操作进行翻译。翻译结果自动出现在SeqLab Editor中。
两条相关的核酸或蛋白质序列可用Gap程序或BestFit程序进行对比。Gap程序寻找两条序列间的全局最优对比结果。适用于两条待比对的序列是进化相关的情况。BestFit程序寻找两条序列的局部最优对比结果,它适用于两条序列不是进化相关而是功能相关的情况。
(2)通过参考搜索寻找数据库中的相关条目并进行对比
研究一个特征序列家族成员的用户可能希望寻找这个家族中的其它成员并建立它们的多序列对比。
从Functions菜单中选取LookUp程序。LookUp在数据库条目的参考信息部分搜索描述词并建立匹配条目的列表。在参考部分的Definiton, Author, Keyword和Organism域中搜索描述词并在词之间使用“and”(&)、“or”(|)以及“but not”(!)布尔表达式。例如,在SWISS-PROT条目的Description域搜索“lactate & dehydrogenase & h & chain”将产生一个输出文件,其中列出了乳酸脱氢酶 H 链(lactate dehydrogenase H chain)条目。这个输出文件可以从Output Manager窗口中加以显示,然后与用户的序列一起添加到SeqLab Editor中。
要创建所有这些序列的多序列对比,只要根据序列名称选中这些序列并从Functions菜单中运行PileUp程序。由PileUp产生的多序列文件也列在Output Manager窗口中并可以直接添加到SeqLab Editor中。推荐采用这一步的原因在于数据库条目的特征表格(Features table)信息可与对比结果一起被包括进来。必要时对比结果是可以被编辑的,并且如果数据库条目有相似的特征,这些特征可被附加给用户序列。
(3)用查询序列搜索数据库,将找到的条目与查询序列进行对比并产生进化系统树
克隆并测序一个未知功能基因的用户可能希望在一个数据库中搜索相似的序列。如果搜索到了,用户可能进一步希望创建与查询序列最相似的序列的多序列对比并产生数据的种系图。
往SeqLab Editor中添加一个查询序列并从Functions菜单中选取FASTA程序。FASTA程序在数据库中搜索与查询序列相似的序列。输出文件可从Output Manager窗口中加以显示并直接添加到SeqLab Editor中。在这个输出文件中数据库条目与查询序列局部相似性最好的区域被加以标记。如果要显示的话,每个数据库条目只有这种区域可以显示在SeqLab Editor中。不要的条目可以从SeqLab Editor中一起被删除。
从Functions菜单中选中PileUp程序创建这些序列的多序列对比。输出可从Output Manager窗口中加以显示并添加到SeqLab Editor中更新已经存在的未对比序列。必要时可对这一对比结果进行编辑,并且数据库条目的有用的特征表格信息也可以添加给查询序列。
从Functions菜单中选取PaupSearch程序,程序提供了一个PAUP(进化系统简约性分析(Phylogenetic Analysis Using Parsimony))中树搜索方式的GCG接口。PaupDisplay程序为PAUP中的树操作,鉴定以及显示方式提供了一个GCG接口。
(4)拼接交叠序列片段产生一连续序列,寻找并翻译这一序列的编码区域并在数据库中搜索相似序列
克隆了一个基因,把它分解克隆为一组有交叠的序列片段并进行了测序的用户可能希望把这些序列片段重新组装为一条连续的序列。一旦contig拼接完成,用户可能希望在序列中寻找阅读框架,翻译并在数据库中搜索相似序列。
Fragment Assmbly System的程序可用于拼接交叠序列片段。GelStart程序创建一个项目。GelEnter程序把序列片段复制到项目中。GelMerge程序寻找片段之间的交叠并把它们拼接成contig。GelAssemble程序是一个编辑器,可用于编辑这些连续的部分并解决片段之间的冲突问题。所有这些程序都可以从Functions菜单中选取。一旦拼接完成,最终构成此contig的连续序列可以被保存为一个序列文件并添加到SeqLab Editor中。
使用Map、Frames、TestCode或Codon Preference程序可预测序列中的编码区(所有这些程序可以从Functions菜单中选中)。使用Edit菜单的Select Range功能选择这些程序预测的区域并使用Edit菜单中的翻译操作把它们翻译为蛋白质。这些提出的翻译区域也可以作为核酸共有序列的特征被加入。
选取蛋白质序列然后选择Functions菜单中BLAST。BLAST程序在数据库中搜索与查询序列相似的条目,此程序既可以进行远程搜索也可以进行本机搜索。搜索结果可以从Output Manager窗口中加以显示。如果被搜索的是一个本机的数据库,结果文件可以加入SeqLab Editor或Main List窗口中,并允许对找到的序列进行进一步分析。
(5)对比相关的蛋白质序列,计算对比结果的共有序列,辨识序列中新的特征序列模式,在数据库中搜索包含此模式的序列或在对比结果的共有序列中搜索已知的蛋白质模式
辨识了一组相关序列的用户可能希望对其进行对比并计算对比结果的共有序列。如果可以在对比结果中找到保守模式,用户可能希望在数据库中搜索包含这种模式的其它序列。用户可能还希望在计算出的共有序列搜索已知的蛋白质模式。
选取待对比的序列,从Functions菜单中选取PileUp程序创建多序列对比,PileUp程序的输出文件可从Output Manager窗口中加以显示并添加到SeqLab Editor中。用户可以对对比结果的某个区域重新加以对比并以此替换原有的对比结果。只要选取一个区域并重新运行PileUp即可。从PileUp Options窗口中选取"realign a portion of an existing alignment(重新对比一个已存在的对比结果的一部分)",这可能有利于选择一个替代评分矩阵或不同的创建和扩展处罚。新的输出文件将包含最初的对比结果以及替换原始对比结果的重新对比的区域。
用Edit菜单中Consensus操作计算对比结果的共有序列。如果保守模式可被辨识,从Functions菜单中选取FindPatterns选项。从共有序列中剪切下此特征序列模式并把它粘贴到FindPatterns模式选择器中,并在数据库中搜索包含这一模式的序列。
此外,运行Motif程序可在共有序列中搜索已知的蛋白质模式。Motif在蛋白质序列中搜索在PROSITE,蛋白质位点和模式的PROSITE字典中已知的蛋白质模式。如果辨识出一个Motif,则给所有序列增加一个特征,并标出它的位置。图4.9显示了一个蛋白质序列的匹配、一个共有序列以及Motif搜索的结果。
(6)使用Profile进行相似性搜索并对比相关序列
序列分析的一个新的扩展领域是Profile技术。一个profile是一个位置特定的评分矩阵,它包含了一个序列对比结果中每个位置的所有残基信息。这一点与共有序列不同,共有序列中只包含每个位置的保守残基的信息。Profile做好后可用于搜索数据库、数据库划分或在一个集合中搜索与原始对比结果中的序列相似的序列。它也可以用于把一条单独的序列与一个对比结果进行对比。
使用ProfileMake程序可创建一个序列对比结果的profile。使用ProfileSearch程序可用profile对数据库进行搜索,ProfileSegment程序可以显示搜索结果。使用ProfileGap程序可将一个序列与profile进行对比。ProfileMake, ProfileSearch, ProfileSegments以及ProfileGap程序都可以从Functions菜单中启动。
GCG的主页 http://www.gcg.com
2. ACEDB
ACEDB是一种被广泛应用的管理和提供基因组数据的工具组,适用于许多动物和植物的基因组计划。该软件是免费的,并且可运行在Unix和Macintosh OS系统下,Windows版本马上就会推出。数据库以丰富的图形界面提供信息,包括有具体显示的基因图谱,物理图谱,新陈代谢的途径和序列等。数据用流行的对象的形式进行组织,使用大家熟悉的类别如,相关的文献,基因,描述,和克隆的DNA等。可用于专用的数据分析以及许多永久性数据的采集,而且使用者不需要经过专门的计算机和数据库的训练就可以使用ACEDB。对于资源有限的计划,这往往是决定使用ACEDB的关键因素。
3.其它工具
不同的基因组测序中心都有其特有的一套序列管理分析方案及工具,并且在不断发展完善之中,具体细节可访问这些测序中心的网站了解。
6.2人类和鼠类公共物理图谱数据库的使用
1.物理图谱的类型
物理图谱有许多结构和形式。限制性图谱(restriction map),用于对小区域、如kb量级做精细结构制图,细胞遗传学图(cytogenetic map),用于对以104 kb为长度量级的区域制图。最常用的两种类型是STS含量图(STS content map)和放射性杂交图(radiation hybrid map),它们的分辨区域都大于1Mb,并且有能使用简易PCR中的定位标记物的优点。
在STS含量图中,STS标记物通过多聚酶链反应所监测,在反应中它与一个大的插入克隆基因库反应,如酵母人工染色体(TACs),细菌人工染色体(BACs)和粘粒等。如果两个或多个STS被发现是存在于同一个克隆之中,那么这些标记位点紧密相邻的机会就很高(不是100%,因为在制图过程中存在一些假象,如出现嵌合克隆体)。一段时期以来,根据STS含量图已经建立起一系列重叠群,如含有STS的重叠簇克隆。这样一张图的分辨率和覆盖度由一些因子决定,如STS的密度、克隆群体的大小、以及克隆文库的深度。通常STS含量图以长1Mb的插入YAC库为基础,分辨率为几百个bp。如果使用插入部分较小的克隆载体,图谱就会有一个更高的理论分辨率,但是覆盖基因组同样大小面积就需要更多的STS。虽然一般有可能从STS含量图上得到标记物的相对顺序,但是相邻标记物之间的距离还是无法精确测得。尽管如此,STS含量图还是有与克隆原相关的优点,并且可将其用于更进一步的研究,如次级克隆或DNA测序。到目前为止,STS含量图制图简单而使用最多的来源是巴黎的CEPH(centre dEtudes du Polymorphisme Humain)中的YAC库。它是一个10×覆盖率的文库,平均插入长度为~1Mb。
放射性杂交图(对片段DNA的断点作图。在此技术中,一个人体细胞系被致死性的gamma射线照射,染色体DNA分成片段。然后该细胞系与一个仓鼠细胞系融合而被救,并能繁殖几代。在这期间,人类细胞和仓鼠细胞的杂合体随机丢失其人类染色体片段。这样一百个或更多的杂合细胞系克隆体中,每一个都有不同数量的染色体片段,筛选生长后,就可以形成一套杂合组,供接下来的制图实验用了。
如果要在一个放射性杂交组中对一个STS作图,那就要将每种杂交组细胞系中的DNA进行STS的PCR操作。细胞系中如果含有该STS的染色体片段,那么就能得到一个正的PCR信号。在基因组中相邻很近的STS有相似的固位模式(retention pattern),因为放射性引起的断点落在它们中间的几率很小。相邻较远的STS固位模式相似性降低,相邻很远的STS的固位模式将会截然不同。与基因图谱所用方法类似,算法类的软件也能推出STS在放射性杂交图上的相对顺序,并通过断点落在其中间的可能性,用某一距离系统计算相邻标记物之间的距离。放射性杂交图还能提供一个标记物位于某一个特殊位点的可能值(优势对数值)。一个放射性杂交图的分辨率依赖于杂交体片断的大小,而这又依赖于人体细胞系所受的辐射量。一般对基因组大小作图的细胞系分辨率为~1M。
除STS含量图和放射性杂交图外还有几个方法可用于制作人类物理图谱。克隆图谱使用与STS含量图不同的技术来决定克隆体的接近程度。例如,CEPH YAC图谱法综合利用指纹法(fingerprinting)、间-Alu产物杂交法(inter-Alu product hybridization)和STS含量图法来制作一张重叠的YAC克隆体图谱。缺失和体细胞杂交图依赖于大型基因组重组(可以人工引进或由实验本身引起),从而将标记物放在由染色体断点所限定的bin?中。FISH图谱使用一个荧光信号来探测克隆体的间期DNA扩散时的杂交情况,从而以细胞遗传学图中一条带的位置定出克隆体的位置。
研究者捕捉致病基因时对转录序列图谱有特别的兴趣。这些序列是由已表达序列,和那些从已转化成STS并置于传统物理图谱的已知基因衍生而来的。近来一些制作大量EST的工程已经使制图实验室能够得到数以万计的单一表达序列。一旦一个致病位点被鉴定出来后,这些转录序列图谱就能明显加快对目标基因的研究速度。
YAC库可用于STS的排序,但其克隆体中的高嵌合率和高删除率使它们不能用于DNA测序。去年高分辨率、可用于测序的质粒和BAC图谱则发展很快。因为它们所需的克隆工艺水平很低。除了几个特例,如染色体19的Lawrence Livemore实验室质粒图外,其它图谱都还只处在初级阶段。
2.大型公用数据库中的基因组图谱
人类基因组物理图谱信息的主要来源是由NCBI和GDB提供的大型公用数据库。这些数据库提供各种图谱的来源,使研究者能够用一个多用户界面交互系统在图谱中进行比较。在一定程度下,这些数据库还能进行图谱的综合及分析。
(1)NCBI Entrez的染色体图谱
Entrez的基因组部分是最容易获得物理图谱信息的来源之一。此服务由NCBI所提供。Entrez试图以一种可理解的方式将几种遗传学图谱和物理图谱、DNA和蛋白序列信息、以及一个目录型引用数据库和三维晶体结构信息融合起来。因为它的内部连接多,而且界面简单,Entrez 可作为搜索图谱的一个起始点。
除人类基因组,Entrez还提供关于鼠类、果蝇、C.elegans、酵母以及一些原生动物的图谱。尽管可比较的(同线性)图仍不可获得,但它代表了现在最大和最完整的一套多生物体的图谱信息。
(2)GDB的浏览染色体图谱
另一种常见的人类物理图谱数据的来源是GDB。尽管GDB是基于当时基因图谱的重要性才构建起来的,但是最近几年来,GDB也已经进行了扩建重组,现在同样可以算是物理图谱数据的仓库。不象NCBI,GDB只限于人类图谱数据。它不含序列数据,也没有其它种类生物的信息。同NCBI一样,GDB可以由WWW上得到。GDB提供了一种全功能的对其数据库的查询式界面。
(3)来自个体来源的基因组图谱
尽管一级数据库,如Entrez和GDB是已发表的图谱的重要来源,但是它们还没有能替代原始数据的东西。有能力制作自己的物理图谱的实验室一般都有自己的网址,连向它们的图谱数据库。通过从这一渠道直接获取资料,我们可以看到制图实验室所使用的图的形式、下载原始数据、并且了解实验室制图时的协议。另外,一些图在出现于Entrez和GDB前经常被丢掉。Entrez和GDB数据库选择的表达方式,对那些希望将新的标记物定位于已知物理图谱上的研究者来说,只提供了最小的帮助。
(4)基因组的基因图谱
基因图谱是制作许多物理图谱时工作的基本骨架,也是许多制图项目的起点。有两种基因组范围的基因图谱可供选择。Genethon图含5264个多样性微卫星重复片断,间隔1.6cM。完整的数据库文件,以及图谱的PostScript方式图形表示,在Genethon的FTP站点上均可获得,这些图通过GDB也可以获得。
第二大基因图谱由人类连锁合作中心(Cooperative Human Linkage Center)制造,CHLC图由10775个标记物组成,大多数为微卫星重复片断,间隔3.7cM。
(5)人类基因组的转录物图
在1996年10月,Horno sapiens的一个全基因组转录物图由一个国际合作的研究实验室发表于Science上。这个图由~15000个不同的表达序列组成,由放射性杂交法定位,与Genethon基因图谱衍生的框架相近。通过对酵母人工染色体作STS含量法又增添了1000个表达序列。在这张图中,大约1/5的标记物有已知的或是假定的功能,而余下的代表了未知功能的表达序列。制成图的序列一般由UniGeneset衍生而来,它是一个由NCBI管理的公用重复ESTs数据库。
转录物图是通过将八家不同实验室的图谱数据综合而得到的。为协调制图方法的些微不同,表达序列被放在由Genethon基因图谱衍生的框架上。结果,该图的最大分辨率为~2cM。很多情况下,可以从各个实验室的数据库里得到针对某一部分数据更好的制图信息,特别是the Whitehead Institute和Stanford University的。
(6)浏览NCBI转录物图
转录物图可在两个网址上得到。数据的“亲本”站点为NCBI。在那儿可以找到含有全基因组转录物图的Science文章的全文,以及彩色的图象,但一般都只有装饰性的墙面图案。另外,也有搜索页可以让浏览者对特别感兴趣的基因进行查询,或是通过对功能未知,但其读码框与某已知功能的蛋白质相近的表达序列图谱进行搜索。
NCBI网址的一个限制就是它不能在低分辨率标记物分布柱形图上提供转录物图的图形。但是通过Mapview微程序就可以得到其图形显示。从GDB的首页,沿着What's New的链接,可找到全基因组转录物图(到本书出版时链接形式可能已有所不同)。同样,可以认为转录物图也是Entrez网将要制作的一部分。
(7)White head Institute提供的人类物理图谱
The Whitehead Intitute/MIT Center for Genome Research是两张基因组范围物理图谱的最初来源。其中一张是STS含量图,内含指定为YAC的10000多个标记物,以及一张含12000个左右标记物的放射性杂交图。Whitehead所用的G4杂交板(Genebridge 4 radiation hybrid panel)分辨率为~1Mbp,而以YAC为基础作的图分辨率大约为200kbp。这些图已经和Genethon基因图相结合,产生了一张合图,在平均150kb范围内有20000个STSs。Whitehead图上大约有一半的标记物是表达序列,它们在人类转录物图上也会出现。
WI(Whitehead Institute)图可通过网络从Whitehead Center for Genome Research的主页上得到。沿着“人类物理图项目”(Human Physical Mapping Project)的链接就可以得到感兴趣的图,这些图可通过几种方法浏览。选择一系列pop-up菜单可以产生所选染色体的图,选择选项按钮可以综合放射性杂交图、STS含量图和基因图。与Entrez一样,这些图不是固定不变的。点击一个STS或是重叠群,会弹出关于该图素详细信息的页面。图形式图谱在网址上可按GIF或Macintosh最初模式(PICT)下载。Whitehead网址上还提供了对图谱数据库进行查询的搜索页。这些搜索数据的链接可按名称、GenBank通道号、STS型号、染色体分配进行搜索。另外,Whitehead网页也可根据功能关键字搜索制图转录序列,并提供与NCBI中的主转录物图的链接。
Whitehead也为那些希望建立他们自己的STS 的研究者提供服务,并将之放在一个或多个图上,这些服务包括:
- 一个在线的引物选择程序,引物3
- 将一个STS放在STS/YAC含量图上的服务
- 将一个STS放在放射性杂交图上的服务
Whitehead图远未完善,对合图进行监督性测试就能显示出在基因图、放射性杂交图和STS/YAC图上的STSs位置间存在矛盾。这些矛盾表现在合图上仍存在交叉线。解释这些图的一个关键点在于理解这些图在可靠性与分辨率水平不一。基因图骨架在数十兆时能可靠地连接标记物,但在低于约2兆时就无法准确解决两个STS的顺序问题了。放射性杂交图能够测知约10Mb的连接,有效分辨率达~1Mb(更小的间隔也能排序,但是不可靠性逐步增加)。STS/YAC图可以测知两个相互间隔1Mb的STS的连接,估计分辨力达100~300kb。理解图谱时头脑中应有这些尺度上的差异。一般在1Mb的范围以下,STS/YAC图是说明顺序的图谱中最可靠的一种。
在STS含量图中,由于STS和YAC的不等分布,可靠性也会有地域差异。在YAC密集的区域(每一个STS有5个或更多的YAC),在排序信息的重要性上,图谱结果是相对更可靠的。在低密度区,图谱结果中就会有几种同时可能替代的STS顺序,并会附上数据。假定的错误的反面情况,如图12.8中,表示为图中的空白框。这一点也会严重降低图谱的准确性。最后,因为在所有YAC库中都存在嵌合现象的问题,双键(例如,一对STS同时与2个或更多YAC连接)比单键(STS只由1个YAC连接)更能可靠说明相邻关系。尽管只有在基因图或放射性杂交图中存在支持性数据时,图上才能构建单键信息,但单由两个STS相连形成的连接仍保留怀疑。这些元素在任何制图区域被详细检查的时候都应考虑在内。
下面的部分介绍如何在Whitehead图上,通过Whitehead网址安置新的STS。从STS设计和针对Whitehead和放射性杂交图进行制图开始。
设计一个STS,置于Whitehead上。
设计一个STS需要一个高质量的DNA序列,至少长达所需的PCR产物。为得到最好的结果,这些序列应不含重复元素和载体序列,并且质量相对高些。任何支持一个WWW浏览器的计算机系统都可以使用该程序,支持TCP/IP的网络连接也是必须的。
首先,将浏览器连到Whitehead Genome Center的主页。寻找并点击指向WWW Primer Picking的链接。接着出现一页,在其上方有一个很大的输入框。剪切原始序列并粘贴到该处,只用粘贴原始序列,不需用名称或其它标记词。这些碱基可以小写或大写,而白色空格可以忽略。
现在,向下滚动窗口,将PCR的条件调至需要值。那些关于盐浓度、温度和产物大小范围等的默认值均是WI所设定的。如果有必要的改变需输入时,按标有Pick Primers键返回一套引物处进行特定设定。这些引物现在在对感兴趣的序列的审查实验中用得上。通过放大基因组DNA中的一条特定带,可以对这些引物的能力进行经验性鉴定。引物的失败主要与引物扫描区域中的重复元素有关。相反,通过进行BLAST或FASTA搜索,再选择引物对,来对输入序列中的重复序列进行筛选则是比较明智的,如果STS成功地放大了一条特定带,它就可以与Whitehead STS/TAC含量图或放射性杂交图相联系,被制成图。
与Whitehead STS/YAC含量图联系对STS制图
一旦被制出后,一个STS就可以通过对CEPT mega-YAC库的扫描确定在STS/YAC含量图上的位置。而对含有超过30000个克隆,其中又有1200个排列、板块和柱池(row、plate和column pool)的YAC库进行搜索,实在是一件头疼的任务。可喜的是,几个生物技术公司已经提供了CEPH YAC的复本和(或)筛选系统,包括Research Genetics Corporation。Whitehead图就是仅从YAC库的后一部分构建起来的。这意味着库模块中位于709-972的范围仍需筛选。STS接着就可以用以下步骤放在图上了。
使浏览器连向Whitehead的主页,并点击标有Human Physical Mapping Project的链接以跳到该组织的物理制图页。从这儿,再找到并选择“Search for a YAC to its address”,接着出现一页,内有一系列pop-up菜单,能用于输入单个YAC的地址、或一个输入单个YAC名称的主题栏、或一个能粘贴一列YAC地址的大型区域。后者适用于将多个YAC用于研究的时候。在这个地方输入YAC列表,再使用“plate_row_column”形式,这里是用“_”号分离板块、排和列这三维(如709_A_1),也可输入多个YAC地址,用空格或carriage回车隔开。搜索过程输入格式并不固定,它也可识别多个YAC模式(包括709_a_1和709a1)。
当YAC表完成后,按Search键,得到一个表,列有各个YAC,其重叠群位置和染色体分配,以及附近STS的位置。这些STS位于放射性杂交图和(或)基因图上。
要理解该搜索结果,应该知道CEPH库中相当数量(40-50%)的克隆都是嵌合体,这意味着单个YAC可能存在于位于基因组不同部分的重叠群中。由于这个原因,需要找到多个YAC来证明单个STS分配到了某一特定重叠群中,或是从其它方法来证明(比如FISH,体细胞杂交制图,放射性杂交图制图数据)。
每张图对应输入的一个YAC地址,每个表包括已知YAC中的STS表,以及STS制图信息。对于每个STS,染色体分配、基因图位置和放射性杂交图位置只要已知就会给出。另外,STS所属的已命名的重叠群也列成表,这些表中大多数元素是超文字链接,选择合适的链接可以获得关于一个STS或一个重叠群更多的信息。由于历史原因,许多STS有两个重叠群。双链接重叠群(例如由成对YAC共有的重叠群)短一些,在构图的起始阶段中是可创造的更可靠的重叠群,它们可以被放心地忽略。单个重叠群长一些,在不同方式下也应承认其合理性。
(8)Whitehead放射性杂交图
STS也能被置于Whitehead放射性杂交图中,这比STS/YAC含量图的问题简单很多,因为在放射性杂交图上搜索一个STS只用93次PCR,而不是1000次。Whitehead放射性杂交图使用Genebridge 4 radiation hybrid panel。与CEPH YAC库一样,这些细胞谱系的DNA也可以从一些生物技术公司那儿得到。而有些公司还提供搜索服务。为得到最好的结果,PCR必须在与制作Whitehead图的相同条件下进行,并应在复制时进行。复制PCR间出现的不同结果说明应继续重复或以未知物对待。
首先,将杂交模板筛选结果重定为“rhv”格式,看上去如下:
sts_name1 001001011000001000000011010001101110011100101001211001110101010100101000
sts_name2 000001111000001000000011010000001110011100101001211001110101010100100000
每个数字代表每个放射性杂交细胞系的PCR结果:0说明PCR结果为负(无反应产物),1说明为正,2说明为“未知”或“未完成”。载体上数字的顺序是很重要的,必须与G4rhp中的正式顺序相对应。为找到该顺序,可沿(Whitehead物理图页上)标有“How the radiation hybrid maps were constructed”(如何构建放射性杂交图)的链接,再按下标有“G40”的链接。该顺序与它们由Research Genetics运输时包装的DNA顺序相同,所以它一般还不是结果。要增加可读性,可在载体内加入空格,用一个或多个空格、或Tab键就可以将STS名称与扫描数据分离开了。
从Whitehead物理图页上,按下标有“Place your own STSs on the genome framework map”(将你自己的STS放入基因组框架图中)的链接,再输入提示的合适的Email地址,并将PCR值粘贴至位于该页上的大型主题框。输入正确的Email地址很重要,否则制图结果将有可能被误解。
默认时,制图数据会以正文形式返回。为产生放在Whitehead图上的STS的图形,选择一个标有Mac PICT(针对Macintosh系统)或GIF(针对Windows和Uinx系统)的选项按钮。
当设置完成时,按下“提交”键。当数据已被转交或正在制图时,你会得到一个证明,在一小时内结果将会通过Email回执给你。
对于大量的筛选数据,如果用剪切和粘贴来向服务器提交这些文件就不太方便了。这时可以将数据以纯文本形式存在用户盘上,然后用RH制图页中的浏览键来定义并提交此文件给服务器,同样,Email地址也要手工输入。
对于~98%的提交的标记物,Whitehead放射性杂交图制图服务器都会找到特定的位置。如果安置成功,软件将会给一回执,包括该标记物的染色体分布和在染色体连接群中的位置、对标记物的表格式说明、和在Whitehead放射性杂交图上两侧标记物的存在时其数据情况。按要求将会得到一张Macintosh图或GIF格式图。这些图由Whitehead框架图组成,所提交STS的位置以红色标明。
如果发现标记物连接的染色体多于一个或是根本就没有连接,制图过程也可能失败。在前一种情况中,可以重新提交并设置高优势对数值,这样服务器将会认为其连接一个染色体,在后一种情况中,你可以试着利用放射性杂交图页上的一个pop-up菜单将限制性降低。如果一个标记物确实连向多个染色体,那么有可能用STS探测出重复序列。
(9)Stanford University放射性杂交图
Stanford Human Genome Center已经用G3制图板发展了一张基因组放射性杂交图。由于比G4板所用放射量更高,G3板的分辨率更高,但是代价是在探测长距离连接时限制很大。Stanford图一般在平均375kb的范围内存在~8000个STS,这些标记物中,3700个左右是表达序列,存在于NCBI转录物图中。同以往一样,在基因组很多部分中,Stanford图中的表达序列比“全包容”NCBI图中的准确性更高。
Stanford提供一个放射性杂交图制图服务器。如同Whitehead服务,这个服务器允许对从Research Genetics和其它业主处得到的G3板进行STS扫描。输入数据,服务器将会尝试将STS与Stanford图相连,并用Email返回结果。因为G3板不能探测长距离连接,在无其它图谱信息时,Stanford服务器只能将75%的STS定位在一条染色体上。但是如果要在可选区域内提供标记物的染色体分布。服务器就能够在一个低优势对数连接值时进行分析,并可对90%的情况作出分布图谱。
当使用PCR时,STS应对83G3板DNA扫描。为得到最好的结果,可使用Stanford的RH Protocol主页给出的PCR协议,每次分析结果都应该复制,并且复制品间有分析差异就应该重复或标为未知。
Stanford服务器返回的制图结果由一系列相应的标记物分布组成。对于每一个STS,服务器都会报告离其最近的基因标记物、染色体、和标记物到STS的距离,以centiray(cR)为单位。尽管对于制图结果并不提供图形显示,图谱信息还是可以用来与以上讨论的浏览图形结合来说明所提交STS相对于Stanford图上其它STS的位置。
要提交这一数据,连接Stanford的主页,并按下RH服务器的链接,然后是RH Server Web Submission。输入Email地址和提交号的区域已被说明。Email地址对于保证收到制图结果是很重要的。提交号是一个可选择栏,它会同结果一起回执给用户,并且用于帮助工作人员使结果组织化。如果STS的染色体分布已知,那么应输入到标有Chromosome Number的区域。这个信息会增加制图软件测出一个正确连接的能力。
现在,将筛选数据粘到大型正文栏中,并按提交键。制图结果一般在几分钟内通过Email回执。Stanford服务器以一系列相对基因标记物的位置返回制图结果。对于每个STS,服务器会报告离其最近的基因标记物、其所在染色体和STS到标记物的距离(以centirays为单位)。尽管并不提供制图结果的图形显示,制图信息仍可用于和以上标出了用户的STS相对Stanford图谱上的其它STS的位置的可浏览型图谱相结合。
(10)CEPH YAC图
1993年,巴黎的CEPH(Centre dÉtudes du Polymorphisme Humain),与Genethon合作,发表了人类基因组的第一张物理图谱。这张图由几套重叠YAC组成,形成连接邻近基因标记物的途径。YAC重叠可由几种技术鉴定,包括YAC指纹印迹法(YAC fingerprinting)、与inter-Alu PCR结果杂交法、荧光原位杂交(FISH)和STS含量图。尽管YAC克隆图大部分已被更方便的以STS为基础的图谱替代,对于要包括CEPH YAC库或以克隆为基础的反应物的制图项目还是有用的。
由于YAC库中的高嵌合率,在两个通过指纹法或inter-Alu PCR杂交法确定相互重叠的YAC之间,每一小步可能都很可能跨过基因组的一个物理距离。基于这一点,短距离比长距离更可靠,这一概念已植入CEPH的词条“level”中。一个1级(level)途径,由两个锚定STS组成,它们应至少有一个YAC直接连接。这类途径,与平面STS含量图中用于确定相邻关系的键或单键相类同。可以让研究者从一个STS跳到另一个,而无需跳过任何YAC/YAC连接点。相反,一个2级途径,由两个锚定STS组成,不直接由单个YAC连接,而是由inter-Alu PCR或指纹法确定在包含它们的两个或多个YAC间有一个重叠,所以2级途径需要跳过一个YAC/YAC连接点。3级途径需跳过2个。4级需跳过3个,等等。尽管每一种的可靠性尚未经验性证明,通过对一套CEPH数据的分析暗示4级或更高时可能不精确。而幸好CEPH途径中近90%的基于间距为3级的或更低。
从CEPH服务器得到YAC重叠
CEPH图可以在其单位的网址上在线获得。这里可找到的链接有YAC库信息,也有一系列图谱的后转录文件,用于制图的QuickMap软件,以及含原始图谱数据的文件。浏览CEPH图最好的作用方法为下载QuickMap文件,安装并利用它来观看数据文件。然而,由于QuickMap只在Sun工作站工作,这种方法已经不可行。CEPH也提供针对QuickMap的一种在线界面,在通过标有Infoclone的链接处可以获得。这时会弹出一页,可以提交一个STS、或一个基因标记物或一个YAC的名称。提交名称后会回执所有关于它的原始图谱数据。该文本是超链接,可以从一个YAC的单一inter-Alu PCR杂交跳至另一个。
要得到数据,将浏览器连到CEPH的网址上。这会弹出ECPH Genethon网页。现在找到并选择I链接,接下来的一页会要你在一个小文本栏中输入一个YAC或一个STS的名称。YAC应遵循简便的plate_row_column(板块_排_列)格式,如923_f_6。对于STS,可以用GDB分配的D-片断名(如果可得的话)或是实验室分配的研究名称。该文件只针对特定事例,所以输入AFM20ZE3不会得到正确的名为AFM220ZE3的STS。也应注意YAC地址中排的名称应小写。
按下Query(查询)键,如果该名称存在于CEPH数据库中,那么含相似信息的页面将会出现。第一部分包括一些关于STS的总体信息,如引物序列和基因图谱信息。第二部分给出STS的YAC搜索数据。该部分列表中的所有YAC通过直接PAC扫描均发现含有该STS,注释Alu-PCR probe(探针)说明这个YAC在inter-Alu PCR杂交实验中被选用为探针。第三部分包含与STS相邻的YAC的信息,它们与STS相隔一个inter-Alu PCR的距离。
为得到一个YAC上的制图信息,可在文本栏输入其名称并按下Query键,出现的界面将会给出YAC、FISH和STS含量图数据的尺寸信息,以及inter-Alu PCR和指纹印迹实验中衍生出的重叠信息。
每个YAC词条有几个编码与之相关。例如,在直接PCR扫描表中,c说明CEPH进行实验的无分歧结果,而E说明为单个已证明的YAC,来源于外在(非CEPH)实验室。在YAC/YAC重叠表中,a说明为一个A-PCR关系,而f说明为一个指纹印迹关系。完整的编码表从位于该页上的不同帮助链接中而得到。
CEPH YAC库的一个子集已由脉冲区凝胶电泳法限定了大小。如果可以得到它,就能得到YAC的大小。在某些情况下,可以找到多带,这是污染的结果,或是因为在YAC插入区和克隆生长时DNA的随机删除所造成的。这种情况下,多YAC的大小也会演示出来。
(11)特定人类染色体图谱
除基因组图谱外,许多个体染色体物理图谱也由研究实验室和基因组中心构建起来了。在很多情况下,这些图谱能比相应基因组范围图谱提供更详尽的信息。在GDB的来源页面上可得到一个最新的表。另一张表由NHGRI的网址保存。
3.鼠类图谱来源
现在对鼠类作物理图活动最多的地点是Whitehead Institute/MIT Center for Genome Research,而且一张murine STS/YAC含量图已经被构建起来了。这张图,最终将在24000个YAC上含有10000个STS。
MIT的物理图谱可以在Whitehead的主页上在线浏览。先按下Mouse Genetic and Physical Mapping Project(鼠类基因图和物理图制图项目)的链接,然后向下滚动到标有鼠类STS物理图谱的部分。这一部分与Whitehead人类物理图谱有相同的搜索项和用户界面,但是放射性杂交图数据还不可得。
在Whitehead网址上还可以得到基于6331个简单相邻长度多态性的鼠类物理图谱,以及这张图与Copeland/Jenkins限制性片断长度多态性图的整合。这些RFLP图,分辨率为1.1cM。分辨率更高的鼠类基因图正由European Collaborative Interspecific Mouse BackCros项目得到。该图最大的理论分辨率将会达0.3cM,并且可以在ECJMBC的主页上在线得到。到1997年5月已完成5条染色体。
The Mouse Genome Database(MGD)是由Bar Harbor的Jackson Laboratory维持的一个大型鼠类基因信息的公用数据库。尽管它基本上还是一个基因图库,MGD还是保留了很多物理图谱信息,包括细胞遗传图谱和synteny图,将来一旦得到数据就会加进去。MGD可在Jackson Laboratory的主页上得到。按下标有Mouse Genome Informatics的链接,然后是标有Mouse Genome Database的链接,可得到用于不同研究的一个起始网页。在所列选项中包括目录检索、基因和标记物符号检索、以及多态性检索。
CEPH YAC图 | |
CHLC图 | |
ECIMBC主页 | |
Entrez主页 | http://www.ncbi.nlm.nih.gov/Entrez/ |
Entrez全览页 | |
GDB主页 | http://gdbwww.gdb.org/ |
GDB来源页 | |
Genethon FTP站点 | |
I.M.A.G.E. Consortium | |
Jackson实验室 | http://www.jax.org/ |
NHGRI来源页 | http://www.nhgri.nih.gov/Data/ |
Science转录物图谱 | http://www.ncbi.nlm.nih.gov/Science96/ |
Stanford主页 | http://shgc.stanford.edu/ |
Stanford RH协议 | http://shgc.stanford.edu/Mapping/rh/procedure/ |
Whitehead主页 | http://www.genome.wi.mit.edu/ |
Whitehead FTP站点 |
C.elegans | ACEDB | http://probe.nalusda.gov:8300/other/ |
E.coli | University of Wisonsin | http://www.genetics.wisc.edu/ |
D.melanogaster | FlyBase | http://flybase.indiana.edu:82/ |
S.cerevisiae | SGD,Stanford |
6.3 全基因组比较
在不同物种、不同进化水平的生物的相关基因之间进行比较分析,是基因研究的重要手段。目前,我们有了越来越多的模式生物全基因组序列数据,因此,基因的比较研究,也必须从基因的比较,上升到对不同进化水平的生物在全基因组水平上的比较研究。这样的研究将更有效地揭示基因在生命系统中的地位和作用,解释整个生命系统的组成和作用方式。
对伴随人类基因组而完成的大量微生物完整基因组的信息分析,不仅将直接帮助破译人类遗传密码,其本身也可能解决重大的科学问题。因此,由完整基因组研究所导致的比较基因组学必将为后基因组研究开辟新的领域。
6.4 SNP的发现
人类基因组计划持续产生大量序列数据,清楚表明不同个体在整个基因组有许多点存在DNA序列的基本变异。最常见的变异发生在分散的单个核苷酸位置,即单核苷酸多态性(SNPs),估计发生频率大约每1000个核苷酸有1个。那么,没每1000个核苷酸,具有一个群体的基本频率的任何一个双拷贝染色体之间的在任一个位置平均核苷酸的一致性是不同的。SNPs是双等位基因多态性,即多原则上态性位点的核苷酸一致性通常在人类中倾向于二分之一的机率,而不是四核苷酸机率。
SNPs在人类遗传学研究中有重要意义。首先,一组SNPs发生在蛋白质编码区。特定的SNPs等位基因可被认为是人类遗传疾病的致病因子。在个体中筛选这类等位基因可以检查其对疾病的遗传易感性。其次,SNPs可作为遗传作图研究中的遗传标记,帮助定位和鉴定功能基因。推算3000个双等位SNP标记将足够进行人类全基因组作图;100,000或更多的SNPs能够在更大的群体中进行有效的遗传作图研究。因此,需要发展进行大量SNP分析的廉价高效技术,包括DNA芯片技术,MALDI-TOF质谱等。
SNPs是人类遗传多样性最丰富的形式,可用做复杂遗传性状作图。通过高通量的测序项目的得到的大量数据是丰富的大部分没接上的SNP来源。这里介绍一种认一DNA来源的遗传序列数据变异发现的整体途径。计划用迅速出现的基因组序列作为模板放置没有作图片段化的序列数据,并用碱基质量数值区别真正的等位基因变异与测序错误。