2 RNA-seq数据分析 mRNA-seq是目前最常用的高通量测序技术,一般的用法就是看看基因表达谱,寻找差异表达的基因。我和高通量测序数据分析结缘,也是因为RNA-seq。 一开始我对mRNA-s...
搞懂illumina nextera Tn5 和ATAC seq adaptor 序列
在准备NGS文库的时候,会有用到转座酶Tn5,Nextera DNA Library Preparation Kit ,比如ATAC-seq就有用到这个Tn5。转座酶携带有特定的序列称为转座子Tran...
本体论和功能分析
为什么需要本体论 作为一位大学统计棉花表皮毛的苦逼生物狗,深刻体会什么叫做经验,也就是人类模式识别能力的强大和不精确性。当时的导师教我如何根据表皮毛的长短和浓密进行基因型的判定,但是我一直纠结长和短,...
如何进行变异检测
什么是基因组变异 基因组变异是一个定义比较模糊的概念. 所谓的变异是相对于一个完美的“参考基因组”而言。但是其实完美的“参考基因组”并不存在,因为我们只是选择某一个物种里的其中似乎比较正常的个体进行测...
一个简单进行SNP分析的实战例子
从埃博拉数据中Call SNPs # 从多个样品中Call SNPS # 从埃博拉项目中获取多个数据集。 # Ouch! 数据是以另一个序列作为参考来比对的。 # 那我们准备一个新的参考序列吧,没别的...
利用samtools mpileup和bcftools进行SNP calling
运行samtools faidx和pileups 前期请先阅读《序列比对工具的对比》 # 我们现在有bwa.bam和bow.bam两个文件。 # Pileup的输出。wgsim模拟器生成的低质量rea...
安装和使用SRA toolkit
# 进入你的source目录。 #*原文为cd ~/srrc,应是笔误,这里更正为: cd ~/src # 下载 SRA toolkit (确保你的下载链接对应的软件版本是跟你的系统一致的。) #*建...
tfrecords 格式数据训练mnist
TFRecords是tensorflow存储数据的一种二进制文件,能更好的利用内存,更方便复制和移动,并且不需要单独的标签文件,类似于caffe中的LMDB和LvevelDB,极大的提高了IO吞吐。 ...
基于RNA-Seq的转录组数据分析入门介绍
基于RNA-Seq的转录组数据分析已经在研究中运用了近10来年了,现在一些杂志在发表论文的时候reviewers已经倾向于用RNA-Seq来替代RT-qPCR。对于生物信息专业“干实验”...
DREME原理和安装使用方法
写在前面 文献中常用的有DREME和HOMER,这次先搞定DREME,下次再写HOMER。 使用MEME套件中的DREME,用于鉴定meRIP-Seq数据中peak的motif。motif是序列中反复...