本文作为总结篇,将在这里对已经写过的几篇文章内容进行概括,可作为整个系列文章的目录,此外还有一些常见问题的解决方法。加上本篇目前一共写了5篇maftools相关文章,基本上按照整个官方文档使用TCGA-LUAD的数据都跑了一遍,并且加上了一些数据整理、重要参数的解释以及自己遇到的问题,应该可以说是目前最完整的中文资料了。其实maftools本身使用起来很简单,在读入数据之后,基本可视化和数据分析通过1~2行代码就能实现,参考官方文档的example足够了。我写得比较细、花的篇幅较多是因为自己也是初学肿瘤的数据分析,通过学习maftools这样功能丰富的分析工具可以更快速入门。
目录 & 主要内容
1. 《肿瘤变异数据分析和可视化工具maftools:安装和文件格式要求》
- maftools的简要介绍
- maftools的安装方法
- maftools对读入文件的一些要求
2. 《肿瘤变异数据分析和可视化工具maftools:突变数据下载和可视化》
- 突变数据(MAF文件)以及临床数据的下载和处理方法
- 突变数据的读入以及统计
- 如何使用maftools对突变数据进行可视化,包括:汇总统计图、瀑布图(oncoplot、oncostrip)、Lollipop图、Rainfall图、TMB的统计和可视化、VAF的可视化、突变基因词云
3. 《肿瘤变异数据分析和可视化工具maftools:突变的数据分析》
- 突变的互斥性(exclusive)和共现性(Co-occurrence)分析
- 预测癌症驱动基因
- pfam注释和统计
- 泛癌的比较分析
- 生存分析(KM曲线)
- 比较两个MAF文件(队列)
- 药物基因互作
- 致癌信号通路
- 肿瘤异质性和MATH score
- 突变特征分析
4. 《肿瘤变异数据分析和可视化工具maftools:CNV的可视化》
- CNV数据下载和处理
- 使用maftools读取GISTIC输出的CNV数据并统计
- CNV数据的可视化,包括:染色体图、气泡图、瀑布图、segment文件的可视化
常见问题
1. 安装的一些问题
(1)从Bioconductor还是GitHub安装
- 这款软件目前迭代速度很快,基本上每隔几天就会在GitHub上有更新,并且Bioconductor上版本比较落后,所以建议还是从GitHub安装。
(2)安装总是失败
- maftools安装起来还挺麻烦的,主要就是依赖包太多了。选择合适的源(比如地理位置离你最近的),失败就多试几次总是会成功的。
2. 数据读入报错 & 不知道如何处理数据
maftools内置了一些已经处理好的文件,如果数据读入报错或是不知道数据怎么处理,可以在R中找到这些文件的路径,然后仔细看看,对照修改自己的文件。比如:
> system.file('extdata', 'tcga_laml.maf.gz', package = 'maftools') ## [1] "/home/xiaofei/software/R-3.5.3/library/maftools/extdata/tcga_laml.maf.gz" > system.file("extdata", "TCGA.AB.3009.hg19.seg.txt", package = "maftools") ## [1] "/home/xiaofei/software/R-3.5.3/library/maftools/extdata/TCGA.AB.3009.hg19.seg.txt"
3. maftools中的BUG
maftools的BUG还挺多,但也在不断完善的过程中,如果遇到问题可以在maftools的GitHub中创建issue咨询作者,处理速度还挺快,也算是给开源社区做贡献。我目前遇到过的问题有:
- typo,不光是图和统计的表中,连帮助和文档里都有不少typo。所以分析结果要放到文章里的话,务必仔细检查几遍。
- 生成的图和官方文档的不一致,比如基因名没有斜体,没有背景的网格。最后发现可能是Bioconductor的版本太老,更新了GitHub最新版解决。
- 有些图直接通过X11显示有问题(我用的Xmanager)。直接输出文件正常。
- 图片中的字超出画布。可以生成矢量图(比如pdf)之后,再用Adobe Illustrator之类的软件进行调整。
- 有些参数可能完全不起作用,遇到这类问题可以直接输入函数名看下源代码,有的时候真的没有做处理。