从埃博拉数据中Call SNPs # 从多个样品中Call SNPS # 从埃博拉项目中获取多个数据集。 # Ouch! 数据是以另一个序列作为参考来比对的。 # 那我们准备一个新的参考序列吧,没别的...
利用samtools mpileup和bcftools进行SNP calling
运行samtools faidx和pileups 前期请先阅读《序列比对工具的对比》 # 我们现在有bwa.bam和bow.bam两个文件。 # Pileup的输出。wgsim模拟器生成的低质量rea...
安装和使用SRA toolkit
# 进入你的source目录。 #*原文为cd ~/srrc,应是笔误,这里更正为: cd ~/src # 下载 SRA toolkit (确保你的下载链接对应的软件版本是跟你的系统一致的。) #*建...
tfrecords 格式数据训练mnist
TFRecords是tensorflow存储数据的一种二进制文件,能更好的利用内存,更方便复制和移动,并且不需要单独的标签文件,类似于caffe中的LMDB和LvevelDB,极大的提高了IO吞吐。 ...
基于RNA-Seq的转录组数据分析入门介绍
基于RNA-Seq的转录组数据分析已经在研究中运用了近10来年了,现在一些杂志在发表论文的时候reviewers已经倾向于用RNA-Seq来替代RT-qPCR。对于生物信息专业“干实验”...
DREME原理和安装使用方法
写在前面 文献中常用的有DREME和HOMER,这次先搞定DREME,下次再写HOMER。 使用MEME套件中的DREME,用于鉴定meRIP-Seq数据中peak的motif。motif是序列中反复...
深度学习中的数据增强、backbone、head、neck、损失函数(loss function)术语解释和汇总
backbone:主干网络,用来提取特征,常用Resnet、VGG等 head:获取网络输出,利用提取特征做出预测 neck:放在backbone和head之间,进一步提升特征的多样性及鲁棒性 bot...
差异表达基因时的Log2FC和FDR值的含义?
转录组分析差异表达基因时,结果中会出现Log2FC和FDR值,这两个是什么意思呢? log2FC中的FC即 fold change,表示两样品(组)间表达量的比值,对其取以2为底的对数之后即为log2...
理解ROC和AUC
ROC和AUC平时用的比较多,但是其真正的原理和计算过程却了解的不多,因此做个整理 照抄自网上的一个例子,加深下理解: 比方说在一个10000个人的数据集中,有100个人得了某种病症,你的任务是来预测...
深度学习数据集最常见的6大问题(附解决方案)
简介 如果您还没有听过,请告诉您一个事实,作为一名数据科学家,您应该始终站在一个角落跟你说:“你的结果与你的数据一样好。” 尝试通过提高模型能力来弥补糟糕的数据是许多人会犯的错误。这相当于你因为原来的...