汇总、透视、提炼、凝炼,对数据处理来说这些词的意思都差不多,R语言提供了很多函数处理这些事情,还有一些软件包也提供了非常方便的数据汇总功能,方法 不胜枚举。summary是获取数据概要最常用的函数,应...
简单使用DESeq2/EdgeR做差异分析
DESeq2和EdgeR都可用于做基因差异表达分析,主要也是用于RNA-Seq数据,同样也可以处理类似的ChIP-Seq,shRNA以及质谱数据。 这两个都属于R包,其相同点在于都是对count da...
怎样向NCBI提交基因序列
当克隆得到一个基因后,就需要对基因信息向NCBI提交,获得一个登录号,以后写文章就可以直接引用登录号,而不需要在文章中列出序列信息,这里主要介绍比较常见的提交DNA和cDNA信息。 1、打开NCBI的...
利用UCSC找序列的上下游基因
如果有一段序列,想找到其上下游基因,方法很多,发现用UCSC比较直观明了。 以下面这段人源序列为例,首先打开UCSC 的Blat界面,选择基因组为“Human”,版本选择最新的“Fed.2009(GR...
linux安装和使用NCBI剪接边界工具splign
splign是NCBI中一个比对cDNA和genome的一个工具,通过splign可以很方便的找到cDNA各个外显子。Windows下安装非常简单,下载后就可以直接用了,但linux版本下运行需要一些...
SAM文件格式介绍
在SAM输出的结果中每一行都包括十二项通过Tab分隔,从左到右分别是: 1 序列的名字 2 概括出一个合适的标记,各个数字分别代表 1 序列是一对序列中的一个 2 比对结果是一个pair-end比...
富集性分析
经常看到一些饼图,描述某些事物的组成,比如说有钱人的学历分布,然后我们可以看到高学历所占比例并不高,根据这个比例下结论通常是错的,这些比例说明不了问题,如果把各种学历在总体人口中的分布做为背景进行考虑...
通过bioconductor包来获取所有的芯片探针与gene的对应关系
现有的基因芯片种类不要太多了! 但是重要而且常用的芯片并不多! 一般分析芯片数据都需要把探针的ID切换成基因的ID,我一般喜欢用基因的entrez ID。一般有三种方法可以得到芯片探针与gene的对应...
芯片探针注释基因ID或者symbol,并对每个基因挑选最大表达量探针
在R里面实现这个功能其实非常简单,难的是很多packages经常会出现安装问题,更有的人压根不看芯片平台是什么,芯片对应的package是什么,就开始到处发问,自学能力实在是堪忧! 我前面有写目前所有...
常用的数据分析方法汇总
一、描述统计 描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。 集...