二代测序的Barcode选择

2014/11/13来源：福禄随笔评论3,409

1 混合样本测序

现代测序仪的生产能力正在经历突飞猛进的提高，数据量远远大于单个样本测序所需，因此在很多情况下，需要把多个样本混合在一起测序，以充分发挥仪器的能力，节约测序成本。像外显子组测序、转录组测序、小RNA (miRNA)测序、lncRNA测序、ChIP测序等应用，每个样本所需的数据量通常都比较少，样本混合是普遍作法。以外显子组为例，捕获区域大约64 M，如果测序深度为200x的话，就是13 G数据，而HiSeq 2000一条通道(lane)的数据量为44 G左右，可以混合3个样本；以转录组为例，一个样本测序20 M片段(reads)可满足绝大多数研究所需，而HiSeq 2000一条通道的数据产量是220 M片段以上（paired-end测序。如果双端分别计算，则为440M），可以混合10个样本。

为了测序完成后能够区分混合样本中每个样本各自的测序数据（de-multiplexing），在构建文库(library)的时候就需要用不同的标签序列(index, 也叫barcode)对来自不同样本的文库分别进行标记。只有在文库上作了记号，测序数据才能相互区分。

Barcode组合的选择是一门技术活，有很多细节需要考虑。如果barcode组合不佳，会导致标签序列的测序质量下降，部分或者全部标签序列不能进行准确的碱基识别，从而导致部分数据无法归属到任何一个样本，成为所谓的undetermined数据，造成浪费。

2 如何判断barcode组合好不好

2.1 碱基平衡。好的barcode组合必须是“4种碱基达到平衡”的，或者说碱基复杂度高。碱基平衡的具体内容是指：a. 在一组barcode的每一个位置，同时存在A、G、C、T四种碱基，不缺少任何一种碱基；b. 这4种碱基的比例接近，最好各1/4，分别为25%左右，没有任何一种碱基特别多或者特别少。

2.2 激光平衡。受客观条件限制，主要是a.试剂盒提供的barcode种类有限，b.有些barcode已经被其他样本占用，导致可选的余地受限制，这就导致barcode组合经常无法达到理想的碱基平衡要求。退而求其次，要力保“红绿激光达到平衡”。在所有型号的Illumina测序仪中，A和C两种碱基共用一种激光，由波长660nm的红激光激发；G和T共用一种激光，由波长532 nm的绿激光激发。对于一组barcode的每一个位置，如果A＋C的总数与G＋T的总数相接近，可以在一定程度上弥补碱基不平衡的负面作用。

2.3 需要注意的是，激光平衡是次优选择，乃不得已而为之。激光平衡虽然可以在一定程度上提高barcode的测序质量，减少de-multiplexing出故障的可能性，但是并不是说，只要激光平衡了，测序数据的分离就一定不受影响。

2.4 如果barcode组合的碱基也不平衡，激光也不平衡，那就不能使用，de-multiplexing出问题的风险非常高。

3 Barcode组合举例

3.1 好的barcode组合

Illumina推荐的12重barcode组合详列如下。我们以它为例，具体分析什么叫碱基平衡。

编号标签序列

01 ATCACG

02 CGATGT

03 TTAGGC

04 TGACCA

05 ACAGTG

06 GCCAAT

07 CAGATC

08 ACTTGA

09 GATCAG

10 TAGCTT

11 GGCTAC

12 CTTGTA

以其中的第一个位置为例（纵列），A:G:C:T=3:3:3:3=1:1:1:1。实际上，该barcode组合每个位置的碱基比例都接近1:1（具体见下表），碱基平衡度接近完美。

位置	1st	2nd	3rd	4th	5th	6th
A	3	3	4	3	3	3
T	3	3	3	3	4	3
C	3	3	3	3	2	3
G	3	3	2	3	3	3

3.2 不好的barcode组合

下面这个barcode组合有一定缺陷。举例而言，第1个位置只有A和C两种碱基，A、C属于红激光，这会导致绿激光完全没有信号，碱基和激光都不平衡。

AGTTCC

ACTGAT

ACGAGC

ACTCCT

CAAAAG

CAACCA

CACCAG

4 Barcode碱基不平衡的后果

4.1 如果barcode组合的碱基组成不平衡，会导致测序进行到这些碱基时，软件对测序信号的处理出现障碍，不能准确地识别这些碱基(base-calling)，表现为QV值降低，%Q30曲线波动。

4.2 在这种情况下，运用生物信息软件对测序数据进行数据分离（de-multiplexing）出现困难，部分数据不能准确分离，成为无法识别的(undetermined)数据的一部分，造成undetermined数据增多，可分离的数据减少。

4.3 如果测序数据的总量很多，远大于全部样本数据量期望值的总和，则问题有可能不那么严重，全部或者大部分样本仍然可能分离到足够的数据量。

4.4 万一样本性质特殊，反应效率低；或者混合样本之间竞争和抑制严重，导致测序数据总量在期望值附近，余量很少；或者其中个别样本数据量特别少，这时如果undetermined数据比例过高，就会导致部分或者全部样本的数据量不够用。

4.5 混合样本补数据是一个非常麻烦的问题，成本极高。如果一组样本中只有个别样本需要补数据，由于文库是混合在一起的，其他样本也不得不跟着重测一次。这是困难之一。困难之二，如果数据缺口比较小，本来可以与其他样本混合，搭个便车，可是，进行第二次混合的时候，经常会遇到barcode冲突或者碱基不平衡，拼lane非常困难，往往要等很长时间，才有合适的机会。顺风车不好搭。

5 实验证明de-multiplexing成功，该barcode组合是否今后一定好用？

如果一个barcode组合碱基平衡，则无论样本怎么改变，该组合一定好用。

如果barcode组合的碱基组不平衡，即使以前的实验证明它好用，不等于今后一定好用。下一次测序效果可能好，也可能不好。

这是由于不同的项目，样本发生了变化，是不一样的，有可能导致两种后果：a. 数据总量在期望值附近，余地不够多，de-multiplexing后部分样本数据量不够；b. 如果新的样本本身也碱基不平衡，read 1测序质量很差，会影响到barcode和read 2的测序质量。当然，情况b的责任不在barcode，即使barcode好，数据还是不好。

6 补救措施

如果满足以下两个条件：

a. 混合样本的数据总量足够，只是由于barcode质量不好，导致de-multiplexing后部分或全部样本数据量不够；

b. 排除QV值低的barcode碱基后，其余质量好的barcode碱基仍然足够用来区分全部样本；

那么，可以通过改变de-multiplexing算法来为每个样本获得尽量多的数据。比如去掉信号识别模糊的碱基，或者增加mismatch碱基的数目，重新运行de-multiplexing程序。

7 样本少于4种，不可能碱基平衡，怎么办？

如果样本数少于4种，则barcode每一个位置的碱基最多只有3种，不可能做到碱基平衡，怎么办呢？这时一定要保证激光平衡。

Illumina提供了这种情况的解决方案，他们推荐的low-level pooling的barcode组合有3种，序列如下：

2重组合：

#6 GCCAAT

#12 CTTGTA

3重组合：

#4 TGACCA

#6 GCCAAT

#12 CTTGTA

6重组合：

#2 CGATGT

#4 TGACCA

#5 ACAGTG

#6 GCCAAT

#7 CAGATC

#12 CTTGTA

可以看出，这3种barcode组合包含有一个共同的内核：6号barcode和12号barcode。6号和12号组合是百分百激光平衡的，其每一个位置（纵列，即GC、CT、CT、AG、AT和TA）都分别属于不同的激光。

这等于告诉给我们：只要barcode组合中包含6号和12号，就能满足最基本的de-multiplexing要求，不至于颗粒无收。6号和12号是barcode组合的核心，在选择barcode时不可或缺。

附记：

对于碱基不平衡问题，难以获得官方资料。我们以上有关碱基不平衡对测序数据质量的影响的理解，符合该平台的二代测序原理，而且在大量测序实践中观察到这种现象是普遍存在的，我们所提出的对策是行之有效的。

发表评论