一项大型国际计划显示,与青少年在学校掌握的知识相比,人类基因组—— 一个人的遗传信息总和——包含有更多的蛋白质编码基因。当研究人员决定在上世纪90年代晚期对人类基因组进行测序时,他们专注于寻找那些用来确定全部生命所需蛋白质的传统基因。每个基因都被认为是一个DNA的离散片段;而其DNA碱基——作为DNA模块的一些众所周知的“字母”分子——的顺序被认为能够编码一个特定的蛋白质。但让这些破译人类基因组的科学家感到惊讶的是,他们发现,这些编码蛋白质的基因加起来还不到基因组的3%。这在数十亿的其他碱基中几乎是没有任何意义的。
然而如今一项由美国资助的项目“DNA元素百科全书”(ENCODE)发现,许多这样的碱基都在人类生物学中扮演着一个重要角色——例如,它们有助于确定一个基因何时开启和关闭。并且,这种调节决定了一个细胞如何成为肾脏细胞,而另一个细胞如何成为脑细胞。耶鲁大学生物信息学家Mark Gerstein表示:“与基因相比,基因组中的情况要复杂得多。”
而这个项目的真知灼见正在帮助研究人员了解遗传和疾病之间的联系。领导ENCODE分析的英国茵格斯顿欧洲生物信息学研究所的生物信息学家Ewan Birney表示:“我们正在以一种方式影响疾病研究,而这在以前将是很难实现的。”
这是“人类基因组计划”之后国际科学界在基因研究领域取得的又一重大进展。这两个计划之间也有承上启下的关系,在人类基因组计划基本完成的2003年,国际科学界创建了ENCODE计划。它也是一个大型国际合作项目,有多个国家和地区的32个研究机构参与。
作为ENCODE的一部分,32家机构对147个细胞类型进行了计算机分析、生物化学试验,以及测序研究,旨在搞清构成基因组的30亿个碱基中每个都在做些什么。参与ENCODE的442名科学家在9月5日出版的《自然》杂志上报告说,基因组中大约80%的基因在生物化学上都是活跃的,换句话说,它们都有某种确定的功能。这些DNA碱基有的作为影响基因活性的蛋白质着陆点,有的则能够转化为RNA链从而自行实施功能,例如基因调控。(RNA通常被认为是一种有助于合成蛋白质的中间信使分子,但ENCODE发现,许多RNA都是一种终极产物,且不用来合成蛋白质。)
ENCODE的研究结果正在改变科学家对基因的认识。它发现大约76%的基因组DNA都会被转录为一种或另一种RNA,这比研究人员之前的预测要多得多。这些DNA包括将近21000个蛋白质编码基因(研究人员一度曾估计人体有超过10万个这样的基因);与8800个小RNA分子及9600个长链非编码RNA分子有关的基因——每个至少有200个碱基的长度;被划为假基因的11224个DNA链——现在知道这些“死亡”基因在某些细胞类型或个体中真的很活跃。此外,尝试确定这些基因的起点和末端,以及编码区域,揭示了基因能够部分重叠,并且具有多个起点和末端。
这项计划在人们的DNA中发现了400万个位点,它们的作用相当于控制基因活性的开关。这些开关距离被它们调控的基因或近或远,并作用于不同细胞类型的不同结合体上,从而赋予了每个细胞类型以独特的基因组身份。
ENCODE获得了迄今最详细的人类基因组分析数据,关于这项研究的论文有6篇发表在《自然》杂志上,还有24篇发表在《基因组研究》杂志及《基因组生物学》杂志上。两篇附加的论文则发表在9月5日的《科学》杂志网络版上。在一个数据库中,ENCODE已经创建了一张图谱用以展示所有不同碱基所扮演的角色。资助ENCODE的马里兰州贝塞斯达市国立人类基因组研究所的项目主管Elise Feingold表示:“它就像人类基因组的谷歌地图。”利用谷歌地图,一个人可以选择不同的视图来查看景观的不同方面。同样,在ENCODE图谱中,一个人也能够从染色体水平放大单个碱基,并且在查看这些碱基是否会产生RNA,或是否为DNA调控蛋白质的结合位点之间切换。
西雅图华盛顿大学的ENCODE研究人员John A. Stamatoyannopoulos认为,这项研究“将改变人们思考以及实际使用人类基因组的方式”。而并未参与ENCODE的加拿大多伦多大学的分子生物学家Mathieu Lupien表示:“ENCODE的数据是最根本的。”
来源:《中国科学报》 (2012-09-07 A2 国际)