GEO上传RNA-seq数据"指北"
来自好基友 Chaoli 的供稿支持!!!!
准备工作
点击进入 GEO 数据库上传高通量数据的入口。
首先登录GEO
点击右上角的Login
按钮,直接登录NCBI账户即可。
提交者信息
可以根据 Investigator
和 Submitter
,自定义区分 PI 和 提交人
带*
的选项为必填项,其他选项可以不填。
必要的个人信息、单位信息填写完毕后,点击Save
保存个人信息,点击New submission
开始提交任务。
选择要提交的数据类型
提交 RNA-seq 数据选择 Submit high-throughput sequencing
即可。
Tips:
- 如果提交的是人类的测序数据,注意遵守相关规定。
准备上传所需要的文件
上传RNA-seq测序数据,不仅需要上传 Raw data file
,与之对应的 Metadata spreadsheet
和 Processed data files
作为理解这份数据的关键档案也是必不可少的。
Tips:
- 如果只有 RNA-seq 数据,请左转上传 NCBI SRA 数据库。
Metadata spreadsheet
下载示例文档
打开下载的示例 xlsx 文档,我们会看到其中一共包含 7 个工作表。并在第一个 Checklist 工作表中列出了填表指示。
填写 2. Metadata Template
工作表
我们要上传的是 RNA-seq data,直接打开第四个工作表查看模板。
这里可以直接把 RNA-seq Example
工作表复制到 2.Metadata Template
工作表,然后照猫画虎,将自己的信息替换到模板中即可。
填写 3.MDS Check
工作表
一般 Raw data 文件都比较大,文件传输过程中可能会产生错误,所以我们还需要填写这些文件的MD5,以便核验文件的完整性。
填写完毕,Metadata spreadsheet 就准备好了,接下来是 Processed data files。
Processed data files
所谓 处理后的数据文件,对于 RNA-seq 数据来说,一般就是我们的基因表达矩阵了。
这里可以上传 未经标准化的 raw counts
,比如 featureCounts 输出的矩阵。
也可以上传 标注化处理之后的基因表达矩阵,比如 DESeq2 输出的矩阵。
Tips:
- GEO 不建议直接上传 bam、sam 等格式的比对文件,但如果确实需要可以 写邮件 申请。
Raw data files
一般是 RNA-seq fastq 格式的测序数据。
下载安装 FileZilla FTP 传输工具
工欲善其事,必先利其器。FileZilla 也是 GEO 推荐的 FTP 传输工具。
点击直接下载windows版 FileZilla v3.62.2 ,下载安装完完毕后备用。
OK,准备工作完成,接下来就可以开始上传数据了~
上传数据
FTP 传输文件
进入 传输文件页面 点击 Transfer Files
按钮
Tips:
- GEO 无法储存中断的上传任务,所以务必一次性将上传任务完成。
- 超过 1 Tb 的文件,请 邮件联系GEO。
创建个人上传空间
点击 Create personalized upload space
按钮,GEO 自动创建传输任务的远端空间。
等待几秒钟,刷新页面,既能看到远端空间的主机地址、用户名及密码。
传输文件
整理本地文件目录
在本地资源管理器中创建一个文件夹,将所有要上传的文件放入其中。建议使用具有可读性的英文作为文件名。
使用 FileZilla 传输文件
打开 FileZilla 软件,填入前面获取的主机、用户名及密码,连接到远端空间。
根据提示信息,找到远端文件目录,将本地创建的文件夹拖入远端目录中,完成文件上传。
知会 GEO 文件上传已完成
上传任务完成后,点击 Notify GEO
按钮,告知 GEO 本次上传任务以完成。
至此 GEO 数据库 RNA-seq 数据的上传就完成了~
RULE1: Stand up straight with your shoulders back. ——Jordan B. Peterson