gff格式是Sanger研究所定义,是一种简单的、方便的对于DNA、RNA以及蛋白质序列的特征进行描述的一种数据格式,比如序列的那里到那里是基因,已经成为序列注释的通用格式,比如基因组的...
NCBI在线BLAST可利用的数据库简要说明
Peptide Sequence Databases蛋白序列的数据库 nr All non-redundant GenBank CDS translations + Ref...
序列以及序列比对中常见术语
有些你看着知道,其实让你说,又说不出多少;有些你以为自己知道,但你不知道自己仅仅了解了其中的一部分。许多概念,虽说只是一个词,但是其背后是一个专业的领域模型,每一个概念在不同的环境有着不同的故事,看见...
FastQ格式介绍
为了便于测序数据的发布和共享,高通量测序数据以FASTQ 格式来记录所测的碱基读段和质量分数.如下图 所示,FASTQ 格式以测序读段为单位存储,每条读段占4 行,其中第1 行和第3行由文件识别标志和...
454 GS FLX测序原理
454生命科学公司所研发的新一代测序平台基于光纤微流体技术和包裹了待测DNA片段的乳化液滴技术(炸药中的表面活性剂来维持乳液的热稳定性)。基于焦磷酸测序法的超高通量基因组测序系统——Genome Se...
Fasta格式说明
序列的Fasta格式是最经常看到的格式之一。下面简介说明一下什么是FASTA格式。 Fasta格式开始于一个标识符:">",然后是一行描述,下面是一行行的序列。每一行最好不要超过80个字母。 如...
UB-IUPAC碱基代码表
代码 英文含义 中文含义 G Guanine 鸟嘌啉 A Adenine 腺嘌啉 T (U) Thymine (Uracil) 胸腺嘧啶 (尿嘧啶) C Cytosine 胞嘧啶 R (A or G)...
泛基因组
2005年,Tettelin等人提出了微生物泛基因组概念(pan-genome,pan源自希腊语‘παν’,全部的意思),泛基因组即某一物种全部基因的总称,包括核心基因组(core genome),在...
RPKM简介
RNA-seq是透过次世代定序的技术来侦测基因表现量的方法,在衡量基因表现量时,若是单纯以map到的read数来计算基因的表现量,在统计上是一件相当不合理事,因为在随机抽样的情况下,序列较长的基因被抽...
基因组拼接中专业术语名词解释
Glossary terms in genome assembly RNA sequencing (RNA-seq). An experimental protocol that uses next-...