Cell Ranger 输出文件介绍

评论1,666

利用cell ranger分析scRNA-Seq数据后一般会得到这三个文件,

  • barcodes.tsv.gz  # 每个barcode代表一个cell
  • features.tsv.gz # 每个feature代表一个gene
  • matrix.mtx.gz # 这里面记录的是每个gene 的reads count,由于多数基因的reads count为0,因此次文件仅记录非0的细胞和基因。下面详细介绍这个文件。

matrix.mtx.gz文件是一个Matrix Market File Format格式文件,经过了gzip压缩的。(linux下可以通过gzip -d matrix.mtx.gz 命令得到matrix.mtx)

下面是Matrix Market File Format(MM)文件格式的说明

MM文件有四个部分

  1. Header line:包含一个标识符和四个文本域
  2. Comment lines:注释行 以%开头
  3. Size line:指定行数 列数 非零项个数
  4. Data lines:指定矩阵元素的位置和值
%%MatrixMarket matrix coordinate integer general # Header line
%metadata_json: {"software_version": "cellranger-7.0.0", "format_version": 2} # 注释
36601 11880 41113616 # 矩阵大小,其中36601是基因数,11880是细胞数,41113616是矩阵中非0的数,也是接下来的行数
31 1 1 # 第一个数字对应是features.tsv.gz中,第31行的基因,第二个数字对应的是barcodes.tsv.gz中第1行的细胞,第三个数字1表示的是reads count
95 1 1
168 1 2
171 1 1
195 1 1
209 1 2

 

发表评论

匿名网友