毫无以为,基因测序技术的发明以及发展,深刻地改变了人类对生命的认知和对生物技术改造自然的进程。本文意在较为简明地展示基因测序技术相关的背景,由于属于"科普向",因此如果存在任何不严谨之处望读者见谅。
1. 先有鸡还是先有蛋?
说到测序这门技术的祖师爷Sanger,可以算是一位奇人,是这个星球上为数不多(截至2021年)的获得过两次诺贝尔奖的大咖之一,也是唯一一位获得两次诺奖化学奖的科学家。
其第一获奖,是因为测定了胰岛素的序列;第二次获奖,则是因为发明了Sanger测序法用于测定DNA序列,因此一代测序,通常指的就是Sanger的链终止法。 虽然进化上的鸡蛋之争没有个定论,但是从科学发展史上来看,先有蛋白质测序,再有DNA测序是发展轨迹是确定的。最先做出来的是蛋白质序列,但不是说这个做起来容易,而是蛋白质长期以来被认定为生命活动的直接承担者,因此在早期生物科学中十分重要的位置。虽然在现在看来,DNA测序的难度相比蛋白序列的测定而言实,容易很多,但是由于蛋白序列的测定也为后面深入理解基因组序列的先决条件。
Sanger测序原理
Sanger测序又称随机链终止法。其原理基础是PCR(聚合酶链式反应),通过在PCR过程中添加随机终止碱基,让PCR过程链延申过程被随机终止,并释放荧光信号。从而获得模板链上特定位置的碱基具体是A、T、C、G中的哪一种。因此,理论上Sanger是可以处理任何长度的DNA序列,但是事实上,与所有基于PCR过程的发明一样,其实际应用中,最大的限制还是DNA聚合酶的活性问题。反应中使用的DNA聚合酶经过长时间反应,其催化能力和反应准确性都会大打折扣,因此在一代测序数据最后部分会出现信号减弱的情况。这也限制了限制了其读长只能在一个有限范围内。
由于其通量较小,因此在实际应用中,对其数据处理相对容易。其相关软件主要集中与展示和标记等功能上。
2. 模模糊糊看DNA
遗传学的遗产
在DNA测序之前,科学家还是做了不少事情的,比如确定了人类基因组的前基因组图谱,确定了一系列的遗传标记,比如:
- 通过染色技术,将染色体进行区域划分。
- 通过遗传学方法或家系分析,对基因之间的关联关系进行定位。
- 分子实验手段构架的基因组“物理图谱”比如基因、串联重复序列等等。
这个时期也可以算是遗传学的黄金时期,通过遗传实验或者家系分析得到了大量的与性状相关的标记和基因组上的定位,从而为今后的工作做出了重要的基础。人类基因组计划也是在这些基因组研究相关技术已经日臻成熟并得到广泛应用的前提下诞生的。
一开始人类基因组计划被成为“第二个阿波罗计划”,按预先设想的工作量,大致需要全世界科学家通力合作数十年才可以完成。但历史的发展往往出乎人们的预料…
基因芯片技术
基因芯片技术的技术原理是碱基互补配对(行话也叫“分子杂交”),其思路为在芯片材料上固定“印刷上”一系列探针,样本的核酸分子与芯片上的探针通过互补配对释放光信号,通过仪器捕获来表征其在样本中的存在。其应用领域也是非常广泛,从基因型的确定到RNA表达量,可谓只有科研人员不知道的,没有基因芯片不能做的。不仅如此,基于抗原-抗体的蛋白芯片由于其价格上的优势也是大样本量数据优质解决方案之一。
虽然在原理上来说,基因芯片只能产生有限的数据集,但是由于价格实在太有诱惑力,因此主流的做大样本梯队的遗传研究,首选绝对不是二代测序,而是基因芯片。但是其缺点也显而易见:其单次产生的数据信息,可供挖掘的深度,跟二代测序相比就十分有限。虽然目前也是各种算法往上怼,但是其准确性较二代测序来说…:)
不过怎奈人家便宜呢?
3. 二代测序技术
正在人类基因组计划如火如荼开展的过程中,一项新的技术被开发并且得到广泛应用,这就是二代测序技术(Next Generation Sequecing 简称NGS)。总体上讲,这是一类测序技术的总成。其包含的测序技术主要又以下集中:
Illumina 为代表的桥式PCR技术
通过反复重复PCR过程,片段在得到扩增的同时,不断是输出碱基对应的光信号。最终结果就是光信号被解析为碱基信息,进行保存,序列得到测定。桥式PCR由于其操作较为简易,因此在实际生产过程中十分容易推广,并且illumina公司在商业上的推广也十分成功,除了垄断仪器之外,相关的试剂盒开发的态度完全佛系地交给各大试剂公司,因此能形成整体生态系统。
另一方面illumina的异军突起也跟其生物信息学方面的应用相关。从最初的用于检测SNP信息开始,不断有新的算法和应用(如RNA-Seq、ChIP-Seq、甲基化测序等等)技术的加入,使得illumina为代表的桥式PCR技术已经基本霸占了二代测序这个名号了。
桥式PCR技术,其数据量大 实验相对简单的好处是显而易见的。比对如火如荼的肿瘤行业,突变的位点可能需要本身在样本中含量只有几个分子的拷贝,如果需要检测出来,没有足够的数据量(也就是覆盖该突变的reads)那是不可能的。而其数据准确性高也是可以在前加UMI(分子标签),进行单细胞定量的前提条件。
罗氏454的焦磷酸测序法
它在DNA聚合酶,三磷酸腺苷硫酸化酶,荧光素酶和三磷酸腺苷双磷酸酶4种酶的协同作用下,将焦磷酸转化为等量的荧光信号,通过荧光信号的高低实时检测待测序列,操作简便,可实现高通量,自动化测定,检测不需要电泳,不需要对样品标记和染色,结果准确可靠重复性好。其特点较桥式PCR为基础的测序数据而言,读长相对较长。然而根据我之前负责实验的同事的说法,这种测序方式对实验要求极高,因此对于样本量的需求较大。
当然,作为为二代测序打响第一枪的技术,焦硫酸测序技术随着罗氏公司关闭测序业务,也称为了历史。现在江湖上除了流传着454的传说,还有少量陈年数据…
4. 三代测序——两种方式
三代测序技术从大类上可以分为PacBio公司引导的,基于PCR技术的路线;和ONT公司未代表的,以新型纳米孔测序法为代表的两条技术路线。两类技术虽然在原理上相去甚远,但是重点还是在二代高通量的基础上,增加单条数据的读长。而相应的代价都是牺牲了数据质量和数据的精确性。
PacBio三代测序
PacBio公司在三代技术上,采用的是传统的PCR技术,其主要法宝是两个东西:
- SMRT芯片 是的,又是基因芯片,但是与一般基因芯片不同,其作用是把文库DNA分子固定到一个纳米孔之中。为反应提供良好的环境,并且让检测信号可以被检测到。下图为SMRT芯片的实物图
- DNA合成酶的超长活性 虽然在正式场合这个很少被提起,但是Pacbio的DNA合成酶显然跟日常买到的DNA合成酶存在区别…但是显然,Pacbio公司并没有将其如何改造酶公之于众的意思。大家大概知道有这么回事儿就好了。
ONT公司的纳米孔测序方法
与PacBio类似其基础也是纳米技术,而其最大的特点就是检测信号不再是光信号,而是电信号了。
小结
不同类型的测序方式产生的数据特点总结如下:
测序方式 | 特点 | 数据量 | 一般应用场景 |
---|---|---|---|
一代测序 | 单条序列读长长 序列准确性高 | 小 | 确定某片段序列,是分子实验室最常使用的手段之一 |
二代测序 | 读长短 准确性高 | 大 | 目前应用范围最广的测序技术,从个体基因型鉴定到RNA表达量确定 |
三代测序 | 读长长 准确性不高 | 大 | 目前主要应用于组装以及转录本鉴定等对读长要求的分析中 |