原文作者:陈巍学基因; 原文标题《PacBio单分子超长测序》部分图片PLoB有修改
测序原理:
1. 用4种荧光分别标记4种dNTP
2. 在测序芯片的底部做出许多用与入射光波长相应的小孔,特定的孔径保证了入射光在小孔中只以走很短的矩离。只够照到正好与酶在相互作用的荧光dNTP底物
3. 把聚合酶锚定在测序芯片的底部
4. 让DNA链与酶结合,进行测序
5. 测序时,荧光dNTP与酶+DNA模板型成复合物,短暂结合
6. 荧光dNTP被激光照射,发出荧光,荧光被检测到
7. 酶反应过程,一方面使链延伸,同时使dNTP上的荧光基团脱落
8. 聚合反应持续进行,测序同时持继进行
优点:
1. 测长很长,主力的测长可以达到8kb,见下图
2. 可以直接测出碱基修饰,当聚合酶遇到模板上甲基化的A、C等碱基时,聚合的速度明显变慢,并且光谱特征发生改变。这使直接测甲基化变得很容易,见下图:
3. 对GC含量的偏向性小,可以轻松读到高GC的区段,下图中的紫色曲线就是PacBio的覆盖度。从本质上说,是因为建库中没有PCR过程,所以也就没有因为PCR而引入的GC bias
4. 测序速度快,上机时,1秒钟测3个碱基。3个小时可以完成一个run。上机前的建库,1天完成,与Illumina或Ion Torrent的建库时间基本持平。所以,整体上,1天建库,1天上机,1天数据分析,3天可以走完一个完整流程
缺点:
1、碱基的错误率:还是很高,达到12~15%。
2、错误的类型:主要是额外插入碱基,同聚物(一串多个A、或C、或G、或T)区段尤其严重
3、错误的原因是:以读A碱基为例,软件判断是一个A,还是二个A,是通过时间长短来确定的。而聚合酶与dNTP结合的时间是呈指数递减分布的,也就是半衰分布。所以判断不准。当遇到同聚物时,软件就更算不准,插入碱基的可能性就会增加
4、错误的特点:随机错误
5、错误的修正:因为是随机错误,所以测序深度增加后,可以通过统计来修正错误。另外,可以用Illumina平台的高准确度序列来校正PacBio的序列
应用:
1、De novo,因为读长很长,所以在拼Contig时,成功率很高,可以拼出很长的Contig。并且可以轻松跨过重复序列、高GC序列。实际应用中,大家普遍用PacBio序列拼Contig,再用Illumina的序列来修正碱基
2、HLA分型,人体器官移植中,准确的HLA分型很重要。HLA是一个长片段,而且单体型对配型成功、移植成功有重要意义。现在医学上正在尝试用PacBio的序列来为HLA准确分型提供解决方案
3、甲基化研究。Bisulfite是目前最常用的C碱基的甲基化研究手段,但是操作很复杂、后续检测也不算方便。PacBio可以直接读出多种碱基修饰,包括A的甲基化、C的甲基化、C的羟甲基化等,所以PacBio在碱基修饰研究中,有着独特的优势
4、RNA可变剪接研究。分析RNA可变剪接的前提是一个读长序列要跨过可变剪接位点的两侧,而现有的别的测序方法,因为读长较短,所以对RNA可变剪接并不是很敏感。PacBio正好补上了这一块,所以有一些专家在用PacBio研究可变剪接
5、检测多个重复序列。有些疾病是因为一些重复序列的重复次数超过了正常的范围,如脆性X-gene病中高达750个CGG重复,以往这些序列是很难通过直接测序测清楚的,现在科学家可以用PacBio直接测这些区段了
未来的发展方向:
- 更长的读长
目前限制读长的因素是:A.文库发生切口,或者断掉,导致模板链从酶上脱落;B.酶在激光照射和荧光基因的作用下失活。
所以,未来要做更长的读长: A.建立更长、更完整的文库构建方法。B.或者采用合成效率更高的酶,让单位时间内可以合成更多的碱基;或者采用更耐激光、荧光基团侵袭的酶;或者采用更好的荧光基因,有更好的荧光效率,以减少入射的激光强度
- 更大的测序通量
目前的一个SMRT芯片约可以给出5万条有用的reads,并得到约0.4G的有效数据量。
目前,总共是15万个孔,酶落入孔中的分布呈泊松分布,约1/3的空孔,1/3的单个酶孔,1/3的多个酶孔;其中只有单个酶孔所产生的数据是有用数据
未来,PacBio会在增大每个SMRT芯片的通量(read数)上下功夫
文库形状:
PacBio的文库形状很有趣,是一个环,中间是测序插入片段,两端是发夹形的接头,见下图:
好处:
1、可以周而复始地测序,充分利用PacBio的读长
2、插入序列的正向链和反向链都可以被读到,起到自我校正作用
3、两端的已知接头序列,可以用作计数器,用于计算模板被周而复始地测了几次
国内服务费用:
1、建库,试剂约¥4000,外包公司的建库服务价格约为¥8000~10000
2、上机,SMRT测序芯片约¥4000,外包公司的服务价格约为¥6000~8000
国内有PacBio的机构:
1. 中科院北京基因组所
2. 医科院北京药植所
3. 上海南方基因中心(有公开服务)
4. 云南动物所
5. 武汉邓子新教授实验室
6. 天津生物芯片中心(有公开服务)
7. 北京海克威尔公司
国际上提供PacBio服务的机构:
1. Broad中心,一个SMRT run,卖$2500