这是一篇介绍电子克隆技术和方法的文章,个人感觉很不错,多读这种文章,一方面可以把我们在教材上学到的知识连贯起来,融会贯通,真正成为自己的一部分,另一方面了解当代生物科学研究的方向和进展,可以以此为基础,选择自己感兴趣的方向继续钻研,同时也有可能会启发我们在教学和科研中的新方法新思路,或许偶尔会带来一些灵感。内容如下:
电子克隆法是近年来基于表达序列标签( expressed sequence tag, EST) 和基因组数据库发展起来的基因克隆新型技术, 其利用生物信息学知识和计算机技术对EST 或基因组数据库中进行同源性比较分析、整理拼接出新基因的编码序列, 确认完整后根据序列设计引物进行RT-PCR 验证获得全长基因。具有效率高、成本低、对实验条件要求低等特点。现以新基因全长cDNA 电子克隆与分析的步骤为顺序, 就生物信息学在其间的应用作一简单介绍。
一、 新基因全长cDNA 电子克隆的方法及生物信息学在其中的应用
1 基于EST 数据库的电子克隆
EST 是从cDNA 克隆中随机挑选出来进行一次性测序的结果, 一般长约200bp~500bp, 通常作为基因的标志。近年来EST 数据库容量扩增迅速, 基于EST 数据库由一个已知的基因利用生物信息学的方法进行功能基因的电子克隆已经成为目前最常用的基因克隆手段, 许多新基因就是通过EST 序列的拼接发现的。
基于EST 数据库的电子克隆大致步骤如下: 第一步, 选择其他物种尤其是亲缘关系较近的物种某基因全长cDNA 序列或EST 序列为查询探针或者以该物种某基因EST 为查询探针, 搜索EST 数据库进行Blast 比对, 得到许多EST 序列, 从中寻找感兴趣的EST( 标准的选择与可预计的同源基因的同源程度有关。通常为: 同源长度≥100bp, 同源性50%以上, 85%以下) 。第二步, 把感兴趣的EST 基于GenBank 中的非冗余数据库进行Blast 分析, 判断其是否是已知基因的一部分, 筛选出新颖的EST。第三步, 将筛选出的EST 在该物种的EST 数据库中进行搜索, 找到部分重叠的EST 进行拼接,经严格聚类分析, 尽量避免含有旁系同源基因, 拼接后产生的序列重叠群) , 相当于实验中的一部分cDNA 步移工作。第四步, 以新获得的重叠群为新的查询探针, 继续搜索EST 数据库, 直到没有新的EST 可供拼接为止。将拼接得到的序列对非冗余数据库进行搜索, 以证明这是一个全新的序列。这种策略也存在一定的局限性, 许多拷贝数较低的基因很难涵盖在EST 数据库中, 这些基因只能通过分析基因组序列才能被发现。
EST 序列的拼接是电子克隆中非常重要的环节, 用于EST 序列的拼接的软件有很多, 表1 列出了一些比较常用的拼接软件, 使用者可按具体情况选择不同的拼接软件以得到最好的结果。另外,还可以将序列提交到NCBI 的UniGene数据库上。NCBI 的Unigene 系统是GenBank 中的序列另外分离出来形成一个非冗余的基因簇。数据库中除包含已确定的基因以外, 还包括数以万计的表达序列标签, 每个簇包含惟一的非冗余的基因序列, 表达的组织类型和基因图谱位点。现在数据库中已经包括大量模式或重要生物的EST 序列, 其中人类、老鼠和水稻的序列最多。通过Unigene 系统可以很方便地进行序列的拼接得到新基因。
2 基于基因组数据库的电子克隆
人类基因组及其他许多模式、重要物种基因组测序工作的完成, 基于基因组序列的新基因预测软件的开发为我们利用生物信息学的方法克隆新基因带来了新的策略。近年来, 许多新基因就是通过分析基因组序列发现的。
基于基因组数据库的电子克隆大致步骤如下:第一步, 选择其他物种尤其是亲缘关系较近的物种某基因全长cDNA 序列或EST 序列为查询探针或者以该物种某基因EST 为查询探针, 基于GenBank中的非冗余数据库nr 进行Blast 分析, 从结果中筛选出同源性较高、含外显子的该物种基因组重叠群或BAC 克隆, 并通过超级链接得到其所在的基因组序列, 同时根据比对的结果对基因组序列可能造成的移码测序错误进行修正。第二步, 将这些外序列根据内含子和外显子的剪接特征“GU...AG”, 通过人工拼接, 或者通过基因预测软件预测, 得到可能的新基因序列。第三步, 把可能的新基因序列基于非冗余数据库做BLAST 分析, 检验其新颖性。第四步, 把筛选后的新基因序列提交到dbEST 数据库做BLAST 分析并延伸, 进一步确认其真实度。
用于基因预测的软件有很多, 国际上使用最广泛的有GenScan、GeneFinder 和FGENESH 等, 此外还有一些针对某一物种的专用基因预测软件, 如水稻基因预测软件RiceHMM、玉米基因预测软件SplicePredictor 和人类基因预测软件HumGene等。由于各种预测软件依据的原理不用, 得出的结果也有所差异, 使用者可同时利用几种预测软件的分析结果并结合自己的经验综合考虑, 确定最有可能的基因结构。实际操作中常常将上述两种方法结合起来使用, 使最后所得的序列更加准确。首先进行EST 序列的拼接, 无法拼接后再进行基因组比较和外显子预测, 以判断EST 拼接的完整性和正确性。
3 全长cDNA 的判断
运用以上方法得到的cDNA 序列还不能确定其为全长的cDNA 序列, 需要进行判断。直接从序列上可以从如下几个方面进行判断。
对于5′端:
( 1) 有同源全长基因的比较, 通过与其它生物已有的对应基因末端进行Blast 来判断。
( 2) 无同源基因的新基因,
I.判断编码框架是否完整,
a.在开放阅读框架的第一个ATG 上游有同框架的终止密码, 需要注意的是有时真正的翻译起始密码子并非是出现在mRNA 中的第一个ATG, 在有的真核细胞中, 在起始密码子ATG 的上游非编码区会有可能出现一到几个ATG, 这称为非编码的5′ATG。以这种5′ATG 并不是真是的起始密码子, 以其开始的开放阅读框常常很快遇到终止密码子。
b.无终止密码的则考虑有保守的Kozak序列;
Ⅱ.判断是否自转录起始点, 有资料表明, 在5′帽结构后一般都有一段富含嘧啶的区域, 另外如果cDNA5′序列与基因组序列中经S1 酶切保护的部分相同, 则可以确定得到的cDNA 是全长的。
对于3′端:
( 1) 有同源全长基因的比较, 方法同5′端;
( 2) 编码框架的下游有终止密码;
( 3) 有一个以上的polyA 加尾信号;
( 4) 无明显加尾信号的则也有polyA 尾。
同源全长基因的比较可以用Blast 比对或多重序列比对软件来实现, 首先搜索到其他物种( 以相似性比较高的物种为宜) 该基因全长cDNA 序列,再将这些序列做Blast 或多重比对, ClustalW是目前使用最广泛的多重比对软件, 使用者可以将序列提交到http://www.ebi.ac.uk/clustalw/进行在线分析, 或者下载该软件到本地进行比对。确定得到的cDNA 序列为全长的cDNA 序列还只是在计算机上的“虚拟克隆”, 最终还必须通过RT-RCR、序列测定和Northern 杂交等方法进行实验验证, 以保证序列的准确性。
二 生物信息学在新基因全长cDNA 电子克隆和序列分析中的应用
生物信息学对新基因序列的分析也有很大的指导作用, 可以对该序列及其所编码的蛋白质进行结构和功能的详细分析, 能为使用者节约大量的时间。表2 列出了一些常用的分析软件及网址。
三、讨论与展望
综上主要介绍了基于Internet 网上生物信息资源新基因全长cDNA 的电子克隆策略, 对于那些需要经常进行序列分析, 或者分析规模较大的实验室, 我们可以构建本地的生物信息学数据分析平台, 把一些重复性的、可程序化的过程直接交由计算机完成, 用户的主要精力就可转移到对分析结果进行后续分析及实验设计上, 能节约大量的人力和物力, 具体的构建方法可以查阅有关此方面的一系列论著。
生物信息技术的应用使新基因全长cDNA 克隆和分析的方法不断更新, 朝着快速、经济、准确的方向发展, 但鉴于生物大分子结构和功能的复杂性, 许多分析软件的输出结果存在较大的偏差, 因此利用生物信息学进行的" 虚拟" 克隆的结果尚需回到实验室进行验证。但是, 这种分析方法为实验研究提供了重要的线索, 对随后的研究起到了“事半功倍”的作用, 避免走弯路, 极大地提高了工作效率。可以相信随着基因组序列信息的日益丰富, 计算方法和数据库的不断完善, 生物信息学将在基因全长cDNA 克隆和分析中扮演更加重要的角色。