图目录:
- 基本散点图;200 个正态分布的随机数
- point 散点图;200 个正态分布的随机数
- geom_point 散点图;200 个正态分布的随机数
- 基本折线图;10 个正态分布的随机数
- lines() 折线图;刹车速度与滑行距离的关系
- geom_line() 连接观测值;美国人口失业情况折线图
- barplot() 基本条形图;统计泊松分布随机数
- barplot() 堆栈式条形图;分年龄的人口信息被叠加在一起
- barplot() 按分类依次排列的条形图
- geom_bar() 基本条形图
- geom_bar() 堆栈式条形图
- geom_bar() 依次排列式条形图
- geom_bar() 比列式条形图
- polygon() 密度图
- polygon() 面积堆积图
- geom_area() 堆积面积图
- 密度估计图
- 两个核密度估计图
- geom_density() 核密度估计图
- 用 Graphics 函数画频率图
- geom_freqpoly() 频率图
- hist() 直方图
- geom_hist() 直方图
- boxplot() 箱线图
- geom_boxplot() 箱线图
- 错误的 error bar 箱线图
- 带 error bar 的箱线图
- vioplot() 提琴图
- geom_violin() 提琴图
- 添加箱线图信息的提琴图
- 添加均值和标准差信息的提琴图
- dotchart() 绘制 Cleveland 点图
- geom_dotplot() 绘制 Cleveland 点图
- 用 heatmap() 绘制热图
- geom_tile() 绘制热图
- pheatmap() 绘制热图
- 主成分分析图
- 基本层次聚类图
- dendrograms() 绘制层次聚类图
- plot.phylo() 绘制层次聚类图
- graphics 包里如何添加图片标题
- ggplot2 包里如何添加图片标题
- par() 函数 mfrow 设置多个图片同个画布
- layout() 设置多个图片同个画布
- cowlplot::ggdraw() 设置多个图片同 个画布
- gridExtra::grid.arrange() 设置多个图片同个画布
- barplot() 水平显示条形图
- coord_ ip() 水平显示直方图
- theme_grey() 背景
- theme_gray() 背景
- theme_bw() 背景
- theme_linedraw() 背景
- theme_light() 背景
- ggplot2 包里如何更改背景
- theme_classic() 背景
- theme_dark() 背景
- theme_void() 背景
- 去掉背景仅显示坐标轴
1 基本散点图;200 个正态分布的随机数
- 散点图用于研究两组个变量(x,y)在坐标平面上的关系。
# p 是point # rnorm(n, mean = 0, sd = 1) 生成随机正态分布的序列 plot(rnorm(200), rnorm(200), type="p")
2 point 散点图;200 个正态分布的随机数
# type = "n" 没有对角线的意思 plot(-4:4, -4:4, type = "n") points(rnorm(200), rnorm(200), col = "red")
3 geom_point 散点图;200 个正态分布的随机数
library(ggplot2) df <- data.frame(x=rnorm(200), y=rnorm(200)) ggplot(df, aes(x, y))+geom_point()
4 基本折线图;10 个正态分布的随机数
- 折线图用于显示随某个变量变化的数据。
# l 是line的意思 plot(1:10, rnorm(10), type="l")
5 lines() 折线图;刹车速度与滑行距离的关系
plot(cars, main = "Stopping Distance versus Speed")
#
lines(stats::lowess(cars))
6 geom_line() 连接观测值;美国人口失业情况折线图
ggplot(economics, aes(date, unemploy)) + geom_line()
7 barplot() 基本条形图;统计泊松分布随机数
- 条形图主要描述一组样本之间某个变量的差异情况。
# 生成 100 个服从泊松分布 λ = 5 的随机数,并对随机数做列联表统计,条形图展示了列联表统计的结果。 tN <- table(Ni <- stats::rpois(100, lambda = 5)) barplot(tN, col = rainbow(20))
8 barplot() 堆栈式条形图;分年龄的人口信息被叠加在一起
barplot(VADeaths)
9 barplot() 按分类依次排列的条形图
barplot(VADeaths, beside = TRUE, col = c("lightblue", "mistyrose", "lightcyan", "lavender", "cornsilk"), legend = rownames(VADeaths), ylim = c(0, 110)) title(main = "Death Rates in Virginia", font.main = 4)
10 geom_bar() 基本条形图
library(ggplot2) ggplot(mpg, aes(class))+geom_bar()
11 geom_bar() 堆栈式条形图
- melt函数对宽数据进行处理,得到长数据;
- identity 不调整位置
library(ggplot2) library(reshape) ggplot(data=melt(VADeaths), aes(x=X2, y=value, fill=X1)) + geom_bar(stat="identity")
12 geom_bar() 依次排列式条形图
- dodge 躲闪
ggplot(data=melt(VADeaths), aes(x=X2, y=value, fill=X1)) + geom_bar(stat="identity", position="dodge")
13 geom_bar() 比列式条形图
ggplot(data=melt(VADeaths), aes(x=X2, y=value, fill=X1)) + geom_bar(stat="identity", position="fill")
14 polygon() 密度图
- 面积图表示一个连续变量的变化程度,同时也展示了部分与整体之间的关系。
- 这次我们用个钻石相关的数据来做展示,这个数据集合包含了 54000 个钻石的 价格以及其他相关指标。
d <- density(diamonds[diamonds$cut=="Ideal",]$price) plot(d,main="",xlab = "Price") polygon(d, col="red",border = "red") d <- density(diamonds[diamonds$cut=="Premium",]$price) polygon(d, col="orange",border = "orange") d <- density(diamonds[diamonds$cut=="Good",]$price) polygon(d, col="black",border = "black") d <- density(diamonds[diamonds$cut=="Very Good",]$price) polygon(d, col="green",border = "green") d <- density(diamonds[diamonds$cut=="Fair",]$price) polygon(d, col="yellow",border ="yellow")
15 polygon() 面积堆积图
stackedPlot <- function(data, time=NULL, col=1:length(data), ...){ if (is.null(time)) time <- 1:length(data[[1]]); plot(0, 0, xlim = range(time), ylim = c(0,max(rowSums(data))), t="n", ...); for (i in length(data):1) { # Die Summe bis zu aktuellen Spalte prep.data <- rowSums(data[1:i]); # Das Polygon muss seinen ersten und letzten Punkt auf der Nulllinie haben prep.y <- c(0, prep.data, 0) prep.x <- c(time[1], time, time[length(time)]) polygon(prep.x, prep.y, col=col[i], border = NA); } } diamonds.data <- as.data.frame.matrix(t(table(diamonds$cut,diamonds$price))) stackedPlot(diamonds.data)
16 geom_area() 堆积面积图
ggplot(diamonds, aes(x = price, fill = cut))+ geom_area(stat = "bin")
17 密度估计图
- 取 200 个正态分布的随机数,画其密度估计图像。
set.seed(1234) rating <- rnorm(200) plot(density(rating))
18 两个核密度估计图
- 在一张画布上画两个密度图,直接叠加就可以。
set.seed(1234) rating <- rnorm(200) rating2 <- rnorm(200, mean=.8) plot(density(rating)) lines(density(rating2),col="red")
19 geom_density() 核密度估计图
ggplot(diamonds, aes(depth, colour = cut)) + geom_density()
20 用 Graphics 函数画频率图
- 频率图像同密度函数图像的区别是:前者统计出现的频数,后者统计概率密度函数。从图中直观的反应就是纵坐标的单位不一样。
- mtcats 数据是 1974 年 Motor Trend 杂志 所刊登的一组 32 不同种类的汽车耗油量和其他特征信息
myhist <- hist(mtcars$mpg,plot = FALSE) multiplier <- myhist$counts / myhist$density mydensity <- density(mtcars$mpg) mydensity$y <- mydensity$y * multiplier[1] plot(mydensity)
21 geom_freqpoly() 频率图
ggplot(diamonds, aes(price, colour = cut)) + geom_freqpoly(binwidth = 500)
22 hist() 直方图
- 直方图是一种对数据分布情况的图形表示,它的样子同条形图相似,但直方图是 用面积而并非单一的高度来表示数量(同分布相关的图,都是用面积来表示数量)。
- 我们用世界主要大陆地区的数据来做演示,islands 数据统计了主要大陆和岛屿的面积信息
hist(sqrt(islands), breaks = 12, col = "lightblue", border = "pink")
23 geom_hist() 直方图
ggplot(as.data.frame(islands), aes(sqrt(islands))) + geom_histogram()
24 boxplot() 箱线图
- 箱线图是利用数据中的五个统计量(从下往上依次是):最小值、第一四分位数、 中位数、第三四分位数与最大值来描述数据的一种方法,它也可以粗略地看出数据是否具有有对称性,分布的分散程度等信息,特别可以用于对几个样本的比较。
- 第一列是昆虫数量,第二列是喷 雾器种类。
boxplot(count ~ spray, data = InsectSprays, col = "lightgray")
25 geom_boxplot() 箱线图
ggplot(InsectSprays, aes(spray, count))+geom_boxplot()
26 错误的 error bar 箱线图
ggplot(InsectSprays, aes(spray, count))+ geom_boxplot()+ stat_boxplot(geom ='errorbar',width=0.5)
27 带 error bar 的箱线图
- 正确的绘图方法时先画 error bar,再画箱线图。(注意下面代码的顺序)
ggplot(InsectSprays, aes(spray, count))+ stat_boxplot(geom ='errorbar',width=0.5)+ geom_boxplot()
28 vioplot() 提琴图
- 提琴图展示了数据的密度估计情况,同箱线图类似。但是箱线图只是展示了分位 数的位置,而提琴图展示了任意位置的数据密度。
install.packages("vioplot") library(sm) library(vioplot) x1 <- mtcars$mpg[mtcars$cyl==4] x2 <- mtcars$mpg[mtcars$cyl==6] x3 <- mtcars$mpg[mtcars$cyl==8] vioplot(x1, x2, x3, names=c("4 cyl", "6 cyl", "8 cyl"),col="gold") title("Violin Plots of Miles Per Gallon")
29 geom_violin() 提琴图
ggplot(mtcars, aes(factor(cyl), mpg))+ geom_violin()
30 添加箱线图信息的提琴图
ggplot(mtcars, aes(factor(cyl), mpg))+ geom_violin()+ geom_boxplot(width=.1)
31 添加均值和标准差信息的提琴图
ggplot(mtcars, aes(factor(cyl), mpg))+ geom_violin()+ stat_summary(fun.data = mean_sdl, geom = "pointrange", color = "red", fun.args = list(mult = 1))
32 dotchart() 绘制 Cleveland 点图
- Cleveland 点图用于绘制有分类别的数据信息。
dotchart(mtcars$mpg,labels=row.names(mtcars),cex=.7, main="Gas Milage for Car Models", xlab="Miles Per Gallon")
33 geom_dotplot() 绘制 Cleveland 点图
ggplot(mtcars,aes(x = mpg,y = row.names(mtcars), fill =row.names(mtcars))) + geom_dotplot(binaxis = "y", stackgroups = TRUE, binwidth = 1, method = "histodot")
34 用 heatmap() 绘制热图
x <- as.matrix(mtcars) rc <- rainbow(nrow(x), start = 0, end = .3) cc <- rainbow(ncol(x), start = 0, end = .3) hv <- heatmap(x, col = cm.colors(256), scale = "column", RowSideColors = rc, ColSideColors = cc, margins = c(5,10), xlab = "specification variables", ylab = "Car Models", main = "Heatmap of Mtcars data")
35 geom_tile() 绘制热图
library(reshape2) library(ggplot2) dat <- matrix(rnorm(100, 3, 1), ncol=10) names(dat) <- paste("X", 1:10) dat2 <- melt(dat, id.var = "X1") ggplot(dat2, aes(as.factor(X1), X2, group=X2)) + geom_tile(aes(fill = value))+geom_text(aes(fill = dat2$value, label = round(dat2$value, 1))) + scale_fill_gradient(low = "white", high = "red")
36 pheatmap() 绘制热图
library(pheatmap) test = matrix(rnorm(200), 20, 10) test[1:10, seq(1, 10, 2)] = test[1:10, seq(1, 10, 2)] + 3 test[11:20, seq(2, 10, 2)] = test[11:20, seq(2, 10, 2)] + 2 test[15:20, seq(2, 10, 2)] = test[15:20, seq(2, 10, 2)] + 4 colnames(test) = paste("Test", 1:10, sep = "") rownames(test) = paste("Gene", 1:20, sep = "") # 设置每一列的注释 annotation_col = data.frame( CellType = factor(rep(c("CT1", "CT2"), 5)), Time = 1:5 ) rownames(annotation_col) = paste("Test", 1:10, sep = "") # 设置每一行的注释 annotation_row = data.frame( GeneClass = factor(rep(c("Path1", "Path2", "Path3"), c(10, 4, 6))) ) rownames(annotation_row) = paste("Gene", 1:20, sep = "") # 设置注释的颜色 ann_colors = list( Time = c("white", "firebrick"), CellType = c(CT1 = "#1B9E77", CT2 = "#D95F02"), GeneClass = c(Path1 = "#7570B3", Path2 = "#E7298A", Path3 = "#66A61E") ) pheatmap(test, annotation_col = annotation_col, annotation_row = annotation_row, annotation_colors = ann_colors)
37 主成分分析图
- 做 PCA 时我们通常会将前两个主成分展示到坐标平面上,以此来区分样本的差异性。这种图是基本统计图形的综合展示。
- 我们用 ggbiplot 包里的 wine 数据来做主成分分析,该数据记录了意大利同一 个地区的三种葡萄酒的化学成分和其他特征。
library(devtools) install_github("vqv/ggbiplot") library(plyr) library(ggbiplot) data("wine") wine.pca <- prcomp(wine, scale. = TRUE) ggbiplot(wine.pca, obs.scale = 1, var.scale = 1, groups = wine.class, ellipse = TRUE, circle = TRUE) + scale_color_discrete(name = '')
38 基本层次聚类图
- 层次聚类是聚类算法的一种,通过计算样本间的相似度来构造一棵聚类树。
- 我们采用美国暴力犯罪率来展示层次聚类,USArrests 包含每个州的三种犯罪 人员被逮捕的数量以及该州城市地区人口数量。
hc <- hclust(dist(USArrests), "ave") plot(hc)
39 dendrograms() 绘制层次聚类图
install.packages("ggdendro") library(ggdendro) hc <- hclust(dist(USArrests), "ave") hcdata <- dendro_data(hc) ggdendrogram(hcdata, rotate=TRUE, size=2) + labs(title="Dendrogram in ggplot2")
40 plot.phylo() 绘制层次聚类图
install.packages("ape") hc <- hclust(dist(USArrests), "ave") library(ape) plot(as.phylo(hc), type = "fan")
41 graphics 包里如何添加图片标题
- 在 graphics 包中添加标题用 main 参数,添加子标题用 sub 参数,添加 x 轴标签用 xlab 参数,添加 y 轴标签用 ylab 参数。
plot(table(rpois(100, 5)), type = "h", col = "red", lwd = 10, main = "rpois(100, lambda = 5)",sub="this is a sub title", xlab="x axis title",ylab="y axis title" )
42 ggplot2 包里如何添加图片标题
- 这里我们又用了一个新的示例数据 PlantGrowth,该数据展示了在一个试验中 控制不同的条件下植物的生长情况。
ggplot(PlantGrowth, aes(x=group, y=weight)) + geom_boxplot() + ggtitle("Plant growth with\ndifferent treatments")+ xlab("this is xlab")+ ylab("this is ylab")
43 par() 函数 mfrow 设置多个图片同个画布
attach(mtcars) par(mfrow=c(2,2)) plot(wt,mpg, main="Scatterplot of wt vs. mpg") plot(wt,disp, main="Scatterplot of wt vs disp") hist(wt, main="Histogram of wt") boxplot(wt, main="Boxplot of wt")
44 layout() 设置多个图片同个画布
attach(mtcars) layout(matrix(c(1,1,2,3), 2, 2, byrow = TRUE), widths=c(3,1), heights=c(1,2)) hist(wt) hist(mpg) hist(disp)
45 cowlplot::ggdraw() 设置多个图片同 个画布
library(cowplot) sp <- ggplot(mtcars, aes(x = mpg, y = hp, colour = factor(cyl)))+ geom_point(size=2.5) bp <- ggplot(diamonds, aes(clarity, fill = cut)) + geom_bar() + theme(axis.text.x = element_text(angle=90, vjust=0.5)) plot.iris <- ggplot(iris, aes(Sepal.Length, Sepal.Width)) + geom_point() + facet_grid(. ~ Species) + stat_smooth(method = "lm") + background_grid(major = 'y', minor = "none") + panel_border() plot_grid(sp, bp, labels=c("A", "B"), ncol = 2, nrow = 1) ggdraw() + draw_plot(plot.iris, 0, .5, 1, .5) + draw_plot(sp, 0, 0, .5, .5) + draw_plot(bp, .5, 0, .5, .5) + draw_plot_label(c("A", "B", "C"), c(0, 0, 0.5), c(1, 0.5, 0.5), size = 15)
46 gridExtra::grid.arrange() 设置多个图片同个画布
- 在这里我们使用一个维生素 D 对豚鼠牙齿生长的影响的数据(ToothGrowth), 该数据记录了维生素 D 含量同豚鼠牙齿长度的关系。
df <- ToothGrowth df$dose <- as.factor(df$dose) ## 计量同牙齿长度的箱线图 bp <- ggplot(df, aes(x=dose, y=len, color=dose)) + geom_boxplot() + theme(legend.position = "none") ## 计量同牙齿长度的 Cleveland 点图 dp <- ggplot(df, aes(x=dose, y=len, fill=dose)) + geom_dotplot(binaxis='y', stackdir='center')+ stat_summary(fun.data=mean_sdl, fun.args = list(mult=1), geom="pointrange", color="red")+ theme(legend.position = "none") ## 计量同牙齿长度的提琴图 vp <- ggplot(df, aes(x=dose, y=len)) + geom_violin()+ geom_boxplot(width=0.1) ## 计量同牙齿长度的散点图(jitter 抖动模式) sc <- ggplot(df, aes(x=dose, y=len, color=dose, shape=dose)) + geom_jitter(position=position_jitter(0.2))+ theme(legend.position = "none") + theme_gray() library(gridExtra) grid.arrange(bp, dp, vp, sc, ncol=2, nrow =2) ## Warning: Computation failed in `stat_summary()`: ## Hmisc package required for this function
47 barplot() 水平显示条形图
tN <- table(Ni <- stats::rpois(100, lambda = 5)) barplot(tN, col = rainbow(20), horiz=TRUE)
48 coord_ ip() 水平显示直方图
ggplot(PlantGrowth, aes(x=group, y=weight))+ geom_boxplot() + coord_flip()
49 theme_grey() 背景
ggplot(PlantGrowth, aes(x=group, y=weight, fill=group)) + geom_boxplot() + theme_grey()
50 theme_gray() 背景
ggplot(PlantGrowth, aes(x=group, y=weight, fill=group)) + geom_boxplot() + theme_gray()
51 theme_bw() 背景
ggplot(PlantGrowth, aes(x=group, y=weight, fill=group)) + geom_boxplot() + theme_bw()
52 theme_linedraw() 背景
ggplot(PlantGrowth, aes(x=group, y=weight, fill=group)) + geom_boxplot() + theme_linedraw()
53 theme_light() 背景
ggplot(PlantGrowth, aes(x=group, y=weight, fill=group)) + geom_boxplot() + theme_light()
54 ggplot2 包里如何更改背景
ggplot(PlantGrowth, aes(x=group, y=weight, fill=group)) + geom_boxplot() + theme_minimal()
55 theme_classic() 背景
ggplot(PlantGrowth, aes(x=group, y=weight, fill=group)) + geom_boxplot() + theme_classic()
56 theme_dark() 背景
ggplot(PlantGrowth, aes(x=group, y=weight, fill=group)) + geom_boxplot() + theme_dark()
57 theme_void() 背景
ggplot(PlantGrowth, aes(x=group, y=weight, fill=group)) + geom_boxplot() + theme_void()
58 去掉背景仅显示坐标轴
library(ggplot2) a <- seq(1,20) b <- a^0.25 df <- as.data.frame(cbind(a,b)) ggplot(df, aes(a, b)) + geom_point() + theme(axis.line.x = element_line(color = "black"), axis.line.y = element_line(color = "black"), panel.grid.major = element_blank(), panel.grid.minor = element_blank(), panel.border = element_blank(), panel.background = element_blank())