简介
sequence logo图用来可视化一段序列某个位点的保守性,据根提供的序列组展示位点信息。这方面有很多在线小工具可以完成,这里使用R包ggseqlogo进行可视化。
安装
安装方式有两种
数据加载
ggseqlogo提供了测试数据ggseqlogo_sample
。
ggseqlogo_sample
数据集是一个列表,里面包含了三个数据集:
- seqs_dna:12种转录因子的结合位点序列
- pfms_dna:四种转录因子的位置频率矩阵
- seqs_aa:一组激动酶底物磷酸化位点序列
可视化
ggseqlogo提供了一个直接绘图的函数ggseqlogo()
,这是一个包装函数。下面命令结果同上面的。
输入格式
ggseqlogo支持以下几种类型数据输入:
下面是使用数据中的位置频率矩阵生成的seqlogo
方法
ggseqlogo通过method
选项支持两种序列标志生成方法:bits
和probability
。
序列类型
ggseqlogo支持氨基酸、DNA和RNA序列类型,默认情况下ggseqlogo会自动识别数据提供的序列类型,也可以通过seq_type
选项直接指定序列类型。
自定义字母
通过namespace
选项来定义自己想要的字母类型
配色
ggseqlogo可以使用col_scheme
参数来设置配色方案,具体可参考?list_col_schemes
自定义配色
ggseqlogo提供函数make_col_scheme
来自定义离散或者连续配色方案
离散配色
连续配色
同时绘制多个序列标志
ggseqlogo(seqs_dna, ncol = 4)
上述命令实际上等同于
自定义高度
通过创建矩阵可以生成每个标志的高度,还可以有负值高度
字体
可以通过font
参数来设置字体,具体可参考?list_fonts
注释
注释的话跟ggplot2是一样的
图形组合
将ggseqlogo生成的图形与ggplot2生成的图形组合在一起。
SessionInfo