上传测序数据到GEO

2016/11/09来源：欧易生物评论7,595

首先向大家简单介绍下GEO数据库，它是为了共享基因表达数据而建立的一个在线数据库。很多文章发表都需要上传到GEO数据库，还不赶紧学习下，(*^__^*)。

如果要上传GEO数据库，首先要建立一个NCBI的账号，再建立一个GEO的账号。可以从https://www.ncbi.nlm.nih.gov/geo/的LogintoSubmit进入创建。

创建完成后，再点击Submission Guidelines进入GEO主页。

接下来，选择你要上传的数据类型，这里只介绍上传转录组测序数据。

点击High-throughput sequence submissions

上传总共需要3类文件，

1.Metadata spreadsheet（上传所需要填写的表格，比较麻烦，后面详细介绍）

2.Processed datafiles（基因表达量文件，也就是FPKM）

如下图所示。因为这里有Novel类基因（预测基因），所以需要提供：

Chromosome（染色体号）Strand（链的正负）start（起始位置）length（长度）。

如果没有Novel类基因，只需要提供A、B列即可。

3.Raw data files（原始的测序数据）

Metadata spreadsheet详细介绍

进入High-throughput sequence submissions页面后，下载Metadata spreadsheet，

1SERIES：跟文章相关的内容：标题，摘要，实验设计，参与者（根据自己情况填写）；

2SAMPLES：跟样本信息相关的内容：样本名称，物种，特征，及对应的表达值数据和原始数据；

3PROTOCOLS：样本的实验准备和文库构建的描述；

4DATAPROCESSINGPIPELINE:数据处理方面的描述，如数据预处理，数据比对，采用的基因组版本等；

5PROCESSEDDATAFILES:处理后数据名称，格式，及MD5码。即FPKM文件，其中file type一列可以统一写成abundance measurements。file checksum列即为MD5码（MD5码生成软件可以直接百度下载）。

6RAWFILES:原始数据名称，格式，MD5码，平台类型，测序读长及单双端信息；

7PAIRED-END EXPERIMENTS:如果是双端测序，还需要填写双端原始数据的名称，插入片段长度及插入长度的标准偏差。

到这里METADATA TEMPLATE算是填写完成了，接下来就可以进行上传数据啦！

首先需要下载Filezilla软件，然后在Filezilla中输入GEO地址：ftp-private.ncbi.hlm.nih.gov并登陆（用户名和密码可进入High-throughput sequence submissions页面中寻找，有

可能定期更新），即可连接GEO数据库进行上传了。

注：Filezilla软件的设置一定要根据下图重新设置，不然可能会一直中断

等待数据都上传完成后就可以写邮件告诉GEO数据上传完成了。邮件内容可以写成如下格式（仅供参考^_^）

Dear sir,

We had finished the raw data uploading.Please check according to the following information:

GEOaccount；你的GEO用户名

Path of the directory deposited;(存放数据的路径，例如/fasp/12345)

Public release date；例如2017/2/21（根据情况填写数据需要公开的日期）

Our data files were named as follows:

GX2_1.clean.fq.gz
GX2_2.clean.fq.gz
GX3_1.clean.fq.gz
GX3_2.clean.fq.gz
GX4_1.clean.fq.gz
GX4_2.clean.fq.gz
GX5_1.clean.fq.gz
GX5_2.clean.fq.gz
GX6_1.clean.fq.gz
GX6_2.clean.fq.gz

Our processed data files were named as follows:

GX2.txt,GX3.txt,GX4.txt,GX5.txt,GX6.txt

And METADATA TEMPLATE was named as: seq_template_v2.1.xls

最后，就大功告成啦，接下来两天内应该会收到邮件，如果上传成功就会给你GEO的登录号，不然也会告诉你哪里有错误，需要重新修改。

发表评论