2008年早期,美国国家卫生研究院NIH宣布了一项涉及1.9亿元,时间长达5年的表观遗传学项目,这一项目作为NIH“路线图计划”(RoadMap Initiative)的组成部分,总体目标包括几个方面,比如绘制正常人类细胞和组织表观遗传系列参考图谱,研发新型研究工具等。
今天这些努力开始初见成效,NIH共同基金与一些私人研究机构已经资助了68项表观遗传学项目,获得了52份表观遗传图谱(不同细胞类型DNA甲基化和组蛋白修饰图谱),在去年9月,相关研究人员发表了30篇论文,介绍了这些研究成果,也解析了相关的转录因子结合位点,染色质高级结构,转录区域,以及将近150个细胞系中的更多人类基因组以外的信息。
而且更重要的是,通过这些研究,我们获得了大量新型表观遗传学和表观基因组学的分析技术,令我们更清楚的了解了基因组水平上细胞内发生的事件。正如NIH共同基金办公室主任James Anderson所说的那样,这些才是花费上百万美元的真正收获。
由此Science杂志特以“Epigenomics: The New Technologies of Chromatin Analysis”为题,总结概况了这些技术,文章分为甲基化分析,组蛋白分析,以及分离分选技术。
紧抓“甲基化”
获得表观遗传学项目Epigenomics Program资助的一位研究人员,是来自加州大学圣地亚哥分校路德维希癌症研究所的华人科学家任兵(Bing Ren,音译),作为这一项目四大关键表观遗传学图谱研究中心之一的研究院首席研究员PI,任兵的研究方向为胚胎干细胞表观遗传学。自2008年以来,圣地亚哥表观遗传学中心已经资助了1570万美元,用于绘制人类胚胎干细胞和四种干细胞分化细胞类型的DNA甲基化图谱,以及20个组蛋白修饰的图谱。
任兵表示,表观遗传学项目的重要性“与人类基因组测序技术的重要性相当”,“有了人类基因组图谱,就有了了解人类发育的蓝图,但是如果没有一个详细的表观遗传学解析图谱,我们就无法解读这个蓝图。”
圣地亚哥表观遗传学中心主要是通过两项技术来实现其研究目的的,分别是染色质免疫沉淀-测序技术(ChIP-Seq),以及MethylC-Seq,前者采用了新一代DNA测序技术,分析基因组中特异性组蛋白修饰位点,后者则是一种检测5-甲基胞嘧啶(5-methylcytosine,5-mC)修饰位点的全基因组方法。
从根本上说,MethylC-Seq技术实际上就是Bisulfite Sequencing (BS-Seq)方法的优化版本,它所解决的问题在于:标准DNA测序方法无法将5mC和胞嘧啶区分开来,而当用亚硫酸氢钠处理DNA的时候,由于这种化合物能将未修饰过的胞嘧啶变成尿嘧啶,DNA测序仪上显示为胸腺嘧啶(T),因此比较处理后和未处理的样品,就能找到被甲基化修饰的碱基了。
早在十年前,就有研究人员利用重亚硫酸氢盐转化方法分析过甲基化,2008年Salk研究院的Joseph Ecker研究组在Illumina的 Genome Analyzer上更新了这种技术,这就是MethylC-Seq方法。
然而去年,两个研究组:洛克菲勒大学的Nathaniel Heintz,以及哈佛大学的Anjana Rao,分别独立发现了哺乳动物中一种之前未知的甲基化形式:5-羟甲基胞嘧啶(5-hydroxymethylcytosine,5-hmC)。
事实证明,重亚硫酸氢盐测序方法无法区分5-mC和5-hmC,这也就是说至少一些已报道位点可能是两者中的一种。
为此,NEB推出了一种分析试剂盒,EpiMark,这是市场上第一个定量5-hmC的PCR型分析,且操作简便,只需三步。它利用T4 β-葡萄糖基转移酶(T4-BGT)在5-hmC的羟基上添加葡萄糖,从而区分5-mC和5-hmC。当5-hmC出现在CCGG的背景下,这种修饰将一个可切割的MspI位点转化成不可切割的。
而且在2012年,研究人员也最终发现了解决这个难题的方法,首先来自英国的一组研究人员发明一种称为氧化重亚硫酸盐测序(oxBS-Seq)的方法,这种方法利用高钌酸钾将5-hmC氧化为5-fC。在用重亚硫酸盐处理后,5-fC(就像胞嘧啶)测序读取为T。同理,将标准重亚硫酸盐处理的DNA序列与oxBS-Seq DNA序列相比对就能够区分5-mC与5-hmC。
第二种方法则是通过任兵,芝加哥大学何川,以及埃默里大学的金鹏(音译)三位科学家合作完成,这种TAB-Seq(Tet-assisted bisulfite sequencing,Tet辅助重亚硫酸盐测序法)利用广泛认可的新一代DNA测序方法实现了对哺乳动物基因组所有5-hmC的精确定位。TAB-Seq利用TET蛋白的活性将5-mC氧化为5-caC。在用亚硫酸氢钠处理时,5-caC就像未修饰的胞嘧啶一样被转化为尿嘧啶。该方法先用beta-葡萄糖基转移酶将5-hmC糖基化保护起来。随后用TET处理DNA,使其他甲基化胞嘧啶转变为5-caC。最后再用重亚硫酸盐处理DNA。在测序过程中,所有胞嘧啶和5-甲基胞嘧啶都被读为T,而5-hmC仍然为C。将这一数据与标准重亚硫酸盐测序生成的数据相比,就能使研究人员确定哪个碱基包含何种修饰。
组蛋白分析
美国NIH表观遗传基因组学项目的另外一项资助给了北卡罗莱纳州大学医学院的Brian Strahl副教授,通过与其同事陈冼(Xian Chen,音译)的合作,Strahl发现了新型表观遗传标记。
“我们希望解决的问题之一,就是了解是否还有一些未被发现的组蛋白修饰新位点,”Strahl解释道,“这很重要,因为要真正理解表观基因组学,甚至表观遗传学,必须首先要了解组蛋白所有的修饰是如何开始的。”
换句话说,在不知道哪里出现了修饰的情况下,是无法绘制这些修饰的,这有两种情况:新位点的已知修饰,和新修饰类型。
为了找到这两种类型,许多研究人员采用了质谱的方法。比如,Strahl等人就利用了Bruker Daltonics公司的傅里叶变换离子回旋共振(FT-ICR)质谱仪,完成了top-down蛋白质组学分析,在酿酒酵母中发现了组蛋白H2B赖氨酸37出现了一个之前未被发现的修饰。
“我们发现了这个特殊的赖氨酸”,Strahl说,“但是不幸的是,我们无法将其与任何特殊生物学现象联系在一起,这只是一个新修饰而已”。
当然这并不是说这个修改不重要,“细胞花费了这么多ATP,在这个残基上加入了这样一个特定修饰,那肯定是有它的理由的”。
此外这项研究还显示有一种被称为UHRF1的蛋白参与了表观遗传学标签的维持。UHRF1是一种重要的表观遗传学调控因子,在确保DNA甲基化正确复制、调控异染色质功能和基因表达中发挥着重要的作用。
在另外一项研究中,科学家们还发现了一些全新的修饰:来自芝加哥大学的赵英明教授利用高通量质谱分析方法,在组蛋白上发现了几种新型翻译后修饰,包括2007年发现的赖氨酸丙酰化和丁酰化butyrylation,以及2011年发现的crotonylation,还有2012年发现的赖氨酸琥珀酰化succinylation和malonylation。
目前赵英明研究员也在中国科学院上海药物所任职,是目前世界上发现蛋白质新修饰最多的实验室。
赵英明研究组针对赖氨酸巴豆酰化crotonylation修饰的研究,实际上可以作为研究人员要分析计算机到底告诉了我们什么信息的一个范例,因为赵等在这项研究中所进行的认真分析使其获得了一项重要的发现,也发表了一篇Cell文章。
当时,赵英明研究组已经发现了赖氨酸的butyrylation修饰,为了能绘制出这些修饰位点,研究人员利用先进的Thermo Scientific的LTQ Orbitrap Velos系统,进行了深入研究。通常这种类型的研究,研究人员主要是依赖于计算机来筛选数据,并分析可能出现修饰的离子质量。这要是通过手工来完成,显然太费时费力了。但是由于计算机也会出现错误,因此这一研究组进行了两次检查。
当他们检查到频谱分配的时候,发现了一些数据不能完全匹配,他们并没有放过这个细节,由此发现了一种新修饰:巴豆酰化。
之后研究组成员利用一种自制的“pan-crotonyl”抗体,通过ChIP-seq追踪了基因组中这一标记的分布,发现了其与转录起始位点,增强子,激活基因有关,而且“也在减数分裂后雄性生殖细胞的基因表达重编程中扮演了重要角色”,他说。
蛋白分析方法
当然组蛋白修饰也是一种修饰,这就像基因组的路牌,而这种路牌标志是需要依附其它成分存在的。要添加和删除这些标志,首先要有蛋白,因此科学家们也需要了解这些蛋白的功能。
为了达到这个目的,来自洛克菲勒大学染色质生物学和表观遗传学实验室负责人C. David Allis带领其研究组进行了深入研究,他们通过筛选蛋白提取物,寻找能识别,添加或删除某个修饰的激活因素。Allis说,其关键在于:“分馏,分馏,分馏。”以此为指导,Alis说,其研究组找到了他们认为可以在组蛋白上添加巴豆酸的一个酶家族。
目前研究结果尚未公布,因此Alis没有透露太多信息,但他表示,“这一家族通过功能进行分类,其特征与目前已认可的乙酰赖氨酸有所不同,这令人十分兴奋。”
另外来自斯坦福大学的生物学副教授Gozani也获得了表观基因项目的资助,他采用了另外一种方法解析修饰过的组蛋白肽段,纯化候选蛋白。Gozani利用芯片进行分析,目前已包含了约100种肽段,近期他与纪念斯隆-凯特琳癌症中心的Dinshaw Patel研究组合作,发现了与DNA复制有关的一种蛋白——ORC1,这种蛋白能特异性与组蛋白H4上的二甲基赖氨酸-20结合。
现近已有许多表观基因组学研究方法能应用于这种蛋白的研究,但是这并不是说,这一领域已取得了技术上的成熟,来自宾夕法尼亚大学医学院表观遗传学项目组的Kenneth Zaret表示,类似ChIP-seq之类的“基本技术”,在对一些常见细胞系进行研究的时候效果最好,这些细胞系能提供出几十万甚至上百万的细胞用于研究,但当样品数量有限的时候,比如干细胞发育或胚胎发育过程中,这些技术就难以获得好的结果。因此Zaret认为目前所需的是,能将表观基因组技术用于少量细胞群研究的方法。
Zaret和康奈尔大学的一些研究人员,就开发出了这样的一种技术——SCAN (single chromatin analysis at the nanoscale) ,这是一种纳米流体技术,能同时检测1-10个核小体中的修饰基团变化,可以用于研究像是包含H3K27三甲基和单甲基DNA的某个核小体。
首先利用荧光激活细胞分选系统,分离细胞群,然后通过优化后的ChIP方法进行分析,在一项针对上千个小鼠干细胞祖细胞的九个转录沉默基因的研究中,Zaret等人发现了一种独特的“预模式(prepatterns www.cellservice.cn )”,能通过不同的方式定位不同的基因集。目前这一研究组正在将这种方法扩大到在基因组水平上。
未来通过这些方法将会获得更多数据,NIH Roadmap表观基因项目也会陆续获得更多的数据。