NCBI数据集说明

张开发
2026/4/13 12:42:12 15 分钟阅读

分享文章

NCBI数据集说明
NCBI 就是National Center for Biotechnology Information美国 NIH 下面的国家生物技术信息中心。它的作用可以理解成一个大型生命科学/生物信息公共平台提供数据库、网页检索、下载、API 和命令行工具里面包含基因、基因组、变异、文献、表达数据等很多资源。你前面看的ClinVar就是 NCBI 旗下的一个数据库。ClinVar 自己说明数据既可以在网页上看也可以通过FTP 下载还可以通过API访问。先区分NCBI 不是一个单独“数据集”它更像一个“总平台”。里面常见的资源有ClinVar临床相关变异解释库。Gene / Genome / Taxonomy基因、基因组和物种分类信息。GEO基因表达和功能基因组学数据仓库。NCBI Datasets一个统一的下载入口和工具适合下载基因、基因组、序列、注释和元数据。下载链接位于https://www.ncbi.nlm.nih.gov/home/download/直接按照FTP的方式看一下有哪些数据https://ftp.ncbi.nlm.nih.gov/一、你做基因组/变异任务最常会用到的pub/这是最常见的公共发布目录。很多数据库真正给用户批量下载的文件都放在这里。比如你前面看的ClinVar VCF就是在pub/clinvar/...下面。它更像“公开发行区”。snp/和dbSNP相关主要是已知单核苷酸变异、小变异等。如果你想找常见变异资源这类目录很常见。根目录里它是独立入口。variation/这是更泛化的变异类资源目录。如果你找的是“变异相关但不一定就是 dbSNP/ClinVar 单一库”的内容可以看看这里。genbank/GenBank相关的序列数据。通常比 RefSeq 更“原始/更广”是 NCBI 经典序列资源之一。就是 NCBI 的公共核酸序列数据库收全球提交的 DNA/RNA 序列及其注释它更像原始大仓库refseq/RefSeq相关常用于参考序列、转录本、蛋白、注释等。如果你做基因、转录本、蛋白序列任务这个目录很重要。而 RefSeq 更像整理genbank后的标准参考版genomes/和基因组装、物种基因组数据相关。如果你要下载某个物种的 genome assembly、参考基因组、注释文件常会进这里。gene/和NCBI Gene数据相关。偏基因层面的整合信息。1000genomes/1000 Genomes Project 的数据区。如果你在找人群遗传变异数据这个目录就很有代表性。giab/GIAB通常指Genome in a Bottle这类高质量 benchmark/reference 样本资源。做变异检测 benchmark 时很常见。二、表达、测序原始数据相关geo/GEO数据目录。GEO 是表达谱、功能基因组学数据仓库找 RNA-seq、microarray、表观组学实验时经常会用。(NCBI FTP)sra/SRASequence Read Archive测序原始 reads 的大仓库。如果你要原始 FASTQ/BAM/测序运行数据常常会从这里对应到 SRA 资源。NCBI 官方下载页也专门给了 SRA download 参考。(NCBI FTP)epigenomics/表观基因组相关资源。(NCBI FTP)eqtl/eQTL 相关资源。你前面正好问过 eQTL这个目录名就很直白。(NCBI FTP)三、项目级元数据bioproject/BioProject数据。它更像项目层级的“总编号/总入口”把一个研究项目下的样本、测序、组学资源串起来。(NCBI FTP)biosample/BioSample数据。这是样本层级的元数据比如样本来自什么组织、什么个体、什么处理条件。(NCBI FTP)这两个经常一起出现BioProject项目级BioSample样本级四、文献、检索、结构、化学pubmed/PubMed 相关资源。偏文献。(NCBI FTP)blast/BLAST 相关数据库或支持文件。如果你做序列比对这类目录很常见。(NCBI FTP)mmdb/结构相关资源MMDB 是分子结构数据库方向。(NCBI FTP)pubchem/PubChem 化学分子资源。如果你做化学、小分子、药物信息这个目录会有用。(NCBI FTP)五、工具、格式、测试文件toolbox/一些下载/处理工具相关内容。(NCBI FTP)asn1-converters/、ncbi-asn1/和 NCBI 的 ASN.1 数据格式有关。一般普通用户不太常直接碰除非你在处理 NCBI 特定格式。(NCBI FTP)bigwig/bigWig 相关资源或示例区。(NCBI FTP)1GB、10GB这是测试下载用的大文件通常用于测速或验证下载链路不是生物学数据集。看文件名和大小就能判断出来。(NCBI FTP)README.ftp根目录说明文件。通常会介绍 FTP 使用方式或一些约定。(NCBI FTP)你现在最实用的理解方式你不用逐个记全部目录先记这几个就够了找 ClinVar / 公共发布文件→pub/找参考序列/转录本→refseq/找 GenBank 序列→genbank/找 genome assembly→genomes/找原始测序数据→sra/找表达数据→geo/找项目/样本元数据→bioproject/、biosample/找已知变异→snp/、variation/找 1000 Genomes→1000genomes/(NCBI FTP)对你当前方向最相关的是哪些你现在做基因组模型、变异、剪接这类任务通常最值得关注的是pub/因为 ClinVar 等常用公开文件常在这里refseq/拿参考转录本、蛋白、注释genomes//genbank/拿参考基因组和装配snp//variation/拿变异资源sra//geo/拿实验原始数据和表达数据1000genomes/、giab/拿 benchmark 或人群资源 (NCBI FTP)

更多文章