了解数据的分类和数据结构对于生物专业的学生来说是很枯燥的。但数据又是最基本的东西,没有数据,只能玩干瞪眼。怕枯燥的,这部分先粗略的看一遍,以后需要了再回来查询。 R语言是面向对象的。面向对象的理论一两...
ggplot2作图详解1:入门函数qplot
ggplot2的功能不用我们做广告,因为它的作者Hadley Wickham就说ggplot2是一个强大的作图工具,它可以让你不受现有图形类型的限制,创造出任何有助于解决你所遇到问题的图形。一点也不谦...
R语言:数据汇总/透视/提炼
汇总、透视、提炼、凝炼,对数据处理来说这些词的意思都差不多,R语言提供了很多函数处理这些事情,还有一些软件包也提供了非常方便的数据汇总功能,方法 不胜枚举。summary是获取数据概要最常用的函数,应...
简单使用DESeq2/EdgeR做差异分析
DESeq2和EdgeR都可用于做基因差异表达分析,主要也是用于RNA-Seq数据,同样也可以处理类似的ChIP-Seq,shRNA以及质谱数据。 这两个都属于R包,其相同点在于都是对count da...
怎样向NCBI提交基因序列
当克隆得到一个基因后,就需要对基因信息向NCBI提交,获得一个登录号,以后写文章就可以直接引用登录号,而不需要在文章中列出序列信息,这里主要介绍比较常见的提交DNA和cDNA信息。 1、打开NCBI的...
利用UCSC找序列的上下游基因
如果有一段序列,想找到其上下游基因,方法很多,发现用UCSC比较直观明了。 以下面这段人源序列为例,首先打开UCSC 的Blat界面,选择基因组为“Human”,版本选择最新的“Fed.2009(GR...
linux安装和使用NCBI剪接边界工具splign
splign是NCBI中一个比对cDNA和genome的一个工具,通过splign可以很方便的找到cDNA各个外显子。Windows下安装非常简单,下载后就可以直接用了,但linux版本下运行需要一些...
SAM文件格式介绍
在SAM输出的结果中每一行都包括十二项通过Tab分隔,从左到右分别是: 1 序列的名字 2 概括出一个合适的标记,各个数字分别代表 1 序列是一对序列中的一个 2 比对结果是一个pair-end比...
富集性分析
经常看到一些饼图,描述某些事物的组成,比如说有钱人的学历分布,然后我们可以看到高学历所占比例并不高,根据这个比例下结论通常是错的,这些比例说明不了问题,如果把各种学历在总体人口中的分布做为背景进行考虑...
通过bioconductor包来获取所有的芯片探针与gene的对应关系
现有的基因芯片种类不要太多了! 但是重要而且常用的芯片并不多! 一般分析芯片数据都需要把探针的ID切换成基因的ID,我一般喜欢用基因的entrez ID。一般有三种方法可以得到芯片探针与gene的对应...