利用cell ranger分析scRNA-Seq数据后一般会得到这三个文件,
- barcodes.tsv.gz # 每个barcode代表一个cell
- features.tsv.gz # 每个feature代表一个gene
- matrix.mtx.gz # 这里面记录的是每个gene 的reads count,由于多数基因的reads count为0,因此次文件仅记录非0的细胞和基因。下面详细介绍这个文件。
matrix.mtx.gz文件是一个Matrix Market File Format格式文件,经过了gzip压缩的。(linux下可以通过gzip -d matrix.mtx.gz 命令得到matrix.mtx)
下面是Matrix Market File Format(MM)文件格式的说明
MM文件有四个部分
- Header line:包含一个标识符和四个文本域
- Comment lines:注释行 以%开头
- Size line:指定行数 列数 非零项个数
- Data lines:指定矩阵元素的位置和值
%%MatrixMarket matrix coordinate integer general # Header line %metadata_json: {"software_version": "cellranger-7.0.0", "format_version": 2} # 注释 36601 11880 41113616 # 矩阵大小,其中36601是基因数,11880是细胞数,41113616是矩阵中非0的数,也是接下来的行数 31 1 1 # 第一个数字对应是features.tsv.gz中,第31行的基因,第二个数字对应的是barcodes.tsv.gz中第1行的细胞,第三个数字1表示的是reads count 95 1 1 168 1 2 171 1 1 195 1 1 209 1 2