1、创建 BioProject 号和 BioSample 号 对某一个物种进行了基因组测序,则申请 BioProject 和 BioSample 号各一个。 2、使用 tbl2asn 准备后缀为 .s...
总结:Bootstrap(自助法),Bagging,Boosting(提升)
前言 最近在理清一些很必要的也很基础的东西,记录一下,结合网上和文献,自己也有些易化使之更轻松理解,如有错误,请不吝赐教,多谢! Bootstrap(自助法 Bootstrap是一种抽样方法 核心思想...
如何批量下载指定的序列?
【絮语】 下载序列简单不过,无非就是联网NCBI主页,选择数据库后输入AC号或GI号后直接下载。但是如何大批量下载,而且下载的序列是指定的AC或GI的呢?实现这一目的通常办法是借助一些生物软件的检索功...
如何用SignalP预测信号肽
SignalP是目前应用最广泛的氨基酸序列信号肽在线预测工具。最新的版本是SignalP 4.1,预测方法基于多种人工神经网络算法,可预测细菌和真核生物氨基酸序列中的信号肽切割位点。 SignalP ...
生物信息分析过程中的常见文件的格式
刚接触生信分析的小白们这种尴尬的事情时有发生,为了帮助大家梳理这些剪不断理还乱的文件,本文以分析流程为主线,介绍各文件的格式以及有哪些常用命令来查看或处理它们。 1. 测序数据FASTQ文件 1)文件...
FASTQ格式解释和质量评估
FASTQ文件格式和命名 高通量测序之后用于下游分析的数据一般存储在FASTQ文件中。为了节省空间,又不影响下游使用,也一般用gzip压缩的格式。 单端测序每个文库只返回一个FASTQ文件,双端测序两...
计算OR值(odds ratio、比值比、优势比)
Odds ratio(OR)从字面上可看出,是两个odds的ratio,其用于: 在病例对照研究(case-control study)中,分析暴露风险因素与疾病(或者用药)的关联程度;主要是反映暴露...
GATK使用方法详解
一、使用GATK前须知事项: (1)对GATK的测试主要使用的是人类全基因组和外显子组的测序数据,而且全部是基于illumina数据格式,目前还没有提供其他格式文件(如Ion Torrent)或者实验...
预后研究与预测模型
临床研究中,对于疾病的预后研究的应用非常普遍,最负盛名如Framingham研究,开发了一系列的预测模型。本章我们就什么是医学预测模型、如何开发预测模型、如何做模型的验证,如何应用等问题做一些概要介绍...
将数据转换为正态分布
1、对数变换 即将原始数据X的对数值作为新的分布数据: X’=lgX 当原始数据中有小值及零时,亦可取X’=lg(X+1) 还可根据需要选用X’=lg(X+k)或X’=lg(k-X) 对数变换常用于(...