-

最全的单细胞数据库汇总!张泽民团队开发的数据库上榜

2023-03-20
单细胞测序的用途包括:①单细胞的多组学平行研究,同时分析单个细胞的基因组、转录组、表观组及蛋白组;②单个细胞的功能状态研究,以无偏差的方式推断和发现新的细胞类型;③构建细胞谱系的分化轨迹,创建细胞发育谱系的分子图谱。随着大数据生信分析和数据挖掘的发展,目前已经有越来越多地单细胞公共数据库涌现。本次主要分享单细胞数据,可以辅助我们发表生信论文,或者单细胞数据的预分析


01

Human cell atlas, HCA:https://data.humancellatlas.org/.
该数据库由当时在麻省理工学院的Aviv Regev博士和哈佛大学布罗德研究所的Wellcome Sanger研究所的Sarah Teichmann博士于2016年共同创立。Human cell atlas存储并提供由世界各地实验室提供的单细胞数据。任何人都可以提供、查找或访问数据。Human cell atlas正在改变对人类健康和疾病的理解,并将影响生物学和医学的几乎所有方面。

Human cell atlas旨在单细胞水平研究人体,使全球研究人员能够分析不同细胞类型发育和活动的分子机制,并发现不同细胞类型如何聚集在一起形成组织;还使研究人员能够系统地研究与不同疾病相关的生物变化,并了解与疾病相关的基因在我们体内的哪些细胞中活跃。更具体地说,①人类细胞图谱对人体中的所有细胞类型(如免疫细胞或脑细胞)和亚型进行分类,映射到相应组织和体内位置,并查看每个组织的结构;②识别、比较细胞的不同状态(如尚未遇到病原体的幼稚免疫细胞及其在遇到细菌后被激活的同类型免疫细胞,甚至不同的增殖状态比较);③追踪细胞发育轨迹,如从骨髓前体细胞到功能性红细胞;④揭示从发育至成年期间所涉及的细胞和过程。从而提供一个公开可用的、具有全球代表性的资源,使全世界的研究人员能够研究和了解健康和疾病。


02

Jingle Bells:http://jinglebells.bgu.ac.il/

Jingle Bells(铃儿响叮当)这首歌恐怕是最为人们熟悉的圣诞歌曲,此处被用于数据库名称。该数据库是一个用于从单细胞水平可视化分析RNA-Seq数据的标准化单细胞数据集库,根据文献研究对象将单细胞数据划分为免疫和非免疫类。




03

CancerSEA:http://biocc.hrbmu.edu.cn/CancerSEA/
CancerSEA是第一个旨在以单细胞水平全面解码肿瘤细胞不同功能状态的数据库,用途包括:
①提供肿瘤单细胞功能状态图谱,涉及25种肿瘤类型的41900个肿瘤单细胞的14种功能状态;
②查询基因(包括PCG 和 lncRNA)或感兴趣的基因列表与不同肿瘤类型相关的功能状态;
③以单细胞分辨率提供与功能状态高度相关的pCG/lncRNA库。

14种肿瘤相关功能状态可以当作14种表型,包括细胞干性、侵袭、转移、增殖、EMT、血管生成、凋亡、细胞周期、分化、DNA 损伤、 DNA 修复、缺氧、炎症和静止。通过表征每个肿瘤细胞的这些功能状态活动,CancerSEA提供了肿瘤单细胞功能状态的图谱,并将蛋白编码基因、PCG和lncRNA与单细胞水平的这些功能状态相关联,以促进对肿瘤机制的理解。


04

DISCO:https://www.immunesinglecell.org/
DISCO整合了来自4593个样本的超过1800万个细胞,涵盖107个组织、细胞系或类器官、158种疾病和20个平台,数据以模块化形式呈现。该数据库提供了三种在线工具,即Online FastIntegration、Online CELLiD和CellMapper,用于单细胞RNA-seq数据的集成、注释和投影到选定的图集中




05

PanglaoDB:https://panglaodb.se/index.html
PanglaoDB是一个用于探索小鼠和人类单细胞RNA测序结果分析的单细胞转录组数据库。其中包含超过1000个单细胞实验的预处理和预分析结果,涵盖大多数单细胞平台数据的分析流程,基于来自各种组织和器官超过400万个细胞。同时包含6000多个marker基因,是一个主要用于细胞分群注释的marker数据库。数据主要源于已经公开发表的单细胞转录组数据。




06

SC2disease:http://easybioai.com/sc2disease/
SC2disease数据库旨在为不同疾病的不同细胞类型提供全面和准确的基因表达谱分析。数据来源是2020年3月前使用scRNA-seq研究人类疾病的文献,记录了946481个条目,对应于341种细胞类型、29种组织和25种疾病,主要用来分析不同疾病中异常细胞和正常细胞的差异基因表达谱。疾病包括:乳腺癌、黑色素瘤、2型糖尿病、少突胶质细胞瘤、慢性粒细胞白血病、肝癌、肺癌、H3K27M胶质瘤、巴雷特食管、老年痴呆症、类风湿关节炎、自闭症谱系障碍、狼疮性肾炎、胰腺导管腺癌、多发性硬化症、髓母细胞瘤、星形细胞瘤、亨廷顿病、雷特综合征、年龄相关性黄斑变性、动脉粥样硬化和疱疹病毒感染。


07

CellMarkrer:http://bio-bigdata.hrbmu.edu.cn/CellMarker/
CellMarker旨在为人类和小鼠组织中的各种细胞类型提供全面而准确的细胞标记资源通过人工整理超过100000篇已发表论文,4124 个条目,包括细胞标记信息、组织类型、细胞类型、肿瘤信息和来源,收集了158个人体组织、亚组织中467个细胞类型的13,605个细胞标记物和81个小鼠组织、亚组织中389个细胞类型的9,148个细胞标记物,并存放在CellMarker中。主要用途包括:①浏览人和小鼠不同组织的不同细胞中的细胞标记;②在人和小鼠的任何感兴趣的组织中检索特定细胞类型的细胞标记;③通过生动的统计图表获取每种细胞类型中细胞标志物的流行情况;④下载人和小鼠不同组织不同细胞类型的细胞标志物。




08

scQuery:https://scquery.cs.cmu.edu/
该数据库展示了一个通过自动化管道来下载、处理和注释公开可用scRNA-seq数据集的方法,以实现大规模的监督表征。该数据集代表来自500多个不同scRNA-seq研究的表达实验,代表300种独特的细胞类型,以及总计近150K的表达谱。数据来源是GEO和ArrayExpress数据库中的scRNA-seq数据。可以上传数据进行单细胞分析,用于确定细胞类型、关键基因等




09

BloodSpot:http://servers.binf.ku.dk/bloodspot/
BloodSpot是一个提供健康和恶性造血中基因和基因特征的基因表达谱DE数据库,包含来自人类和小鼠的数据。除了显示集成表达式图的默认图谱外,还有两个额外的可视化级别可用;显示样本之间层次关系的交互式树,以及Kaplan-Meier生存图。该数据库被细分为几个可供浏览的数据集,是一个专门用于健康和血液病单细胞转录组分析的数据库




10

SCPortalen:http://single-cell.clst.riken.jp/
SCPortalen是日本人开发的一个单细胞测序数据库,旨在使在不同的环境中得到的单细胞测序数据具有可比性和可重用性,涵盖了人类和小鼠单细胞转录组学数据集,这些数据集可从INSDC网站公开获得。除了转录组学数据,SCPortalen还提供了对单细胞图像的访问权限。通过SCPortalen的Web界面,用户可以轻松搜索、分析和下载感兴趣的单细胞数据集




11

scRNASeqDB:https://bioinfo.uth.edu/scrnaseqdb/
scRNASeqDB包含从GEO收集的36个人类单细胞基因表达数据集,涉及来自174个细胞组的8910个细胞。此外,该数据库还提供了不同状态细胞基因表达的详细信息,以及一些特征,包括基因表达的热图和箱线图、基因相关矩阵、GO分析和通路注释。用户还可以将scRNASeq数据集提交到数据库进行分析。检索时,可以通过基因或者细胞来进行分析。




12

Single Cell Portal:https://singlecell.broadinstitute.org/single_cell
该数据库目前收录99个study中的340万种细胞,主要用于多个高度交互的可视化分析,了解细胞和细胞子集如何聚集。通过可视化细胞绘制并按元数据分组的基因表达,例如,通过不同测试或通过新细胞群来探索基因。发现基因在不同细胞簇上的表达,探索其在不同细胞群中的表达模式。此外,用户还可以下载数据、表达矩阵或FASTQ文件进行个性化分析。




13

SCDevDB:https://scdevdb.deepomics.org/
SCDevDB包含10个数据集,涵盖18413个单细胞和176个细胞组。根据数据资源号,这些细胞群被分为35个发育阶段,每个哺乳动物个体都是从全能受精卵发育而来的。哺乳动物的着床前发育是一个复杂的过程,包括从1细胞到2细胞、2细胞到4细胞、4细胞到8细胞、8细胞到16细胞以及16细胞到胚泡的一系列细胞分裂。几乎所有的人体组织都来自胚胎细胞,然后根据多细胞生物的发育过程构建发育树。SCDevDB是一个发育相关的单细胞数据库。




14

KIT:http://humphreyslab.com/SingleCell/
KIT是一个用于肾脏单细胞数据集的在线数据库,允许用户从小鼠或人肾和人肾类器官单细胞数据集中查询基因表达。文库是使用所示的细胞或细胞核以及InDrop、DropSeq或10X Chromium平台创建的。数据库涵盖健康成人肾脏-上皮细胞,人体排斥肾同种异体移植活检组织,健康成人肾脏组织,肾脏类器官,人类胎儿肾脏,人类糖尿病肾和人肾snRNA/ATAC-seq等组织器官的空间转录组数据。


15

VascularSingleCells:http://betsholtzlab.org/VascularSingleCells/database.html
该数据库是成年小鼠脑和肺血管和血管周围细胞的单细胞基因表达数据库,由Betsholtz Lab开发。Christer Betsholtz团队主要研究胚胎发育、成人健康和疾病中血管生成、血管通透性和其他血管功能的细胞和分子机制,主要关注微血管周细胞和血管周围成纤维细胞,这是围绕大脑血管的两组不同的细胞。他们还开发了其他针对小鼠脑组织单细胞测序的数据库。




16

Single Cell Expression Atlas:https://www.ebi.ac.uk/gxa/sc/home

单细胞表达图谱 (SCEA) 是一个以单细胞水平在不同条件下探索各种物种基因表达谱的数据库。SCEA积累、整理和重新分析来自多个物种和跨实验条件的可用原始单细胞测序数据,以使它们具有交叉可比性,并呈现在用户友好的界面中供公众使用。这使研究人员能够在从人类到酵母菌的不同物种的单个细胞水平上快速了解他们感兴趣的基因的表达模式。SCEA的目标是跟上快速发展的单细胞转录组学研究的步伐并广泛使用。




17

TISCH:http://tisch.comp-genomics.org/home/
TISCH数据库是专门用于肿瘤免疫浸润分析的单细胞数据库。数据来源明确,主要是GEO和ArrayExpress的数据,包括28种肿瘤类型,79个数据集,2045746个细胞,既有人类细胞,也有小鼠细胞;既有治疗的,也有未治疗的。因此,涵盖的单细胞类型比较全面。数据处理的流程包括数据收集、样本质控、数据前处理,数据集信息,数据集模块基因模块和数据下载





18

scTPA:http://sctpa.bio-data.cn/sctpa/
用于通路激活特征的单细胞转录组分析的网络工具scTPA用于分析人和小鼠中通路激活特征的单细胞基因表达。基于众所周知的生物通路或用户定义的通路,scTPA通过测量单个细胞的通路激活,进行聚类分析并识别细胞类型特异性激活通路,从而更好地了解通路中的细胞类型和状态取向的观点。




19

MCA:http://bis.zju.edu.cn/MCA/
MCA是使用单细胞RNA测序来确定小鼠主要器官的细胞类型组成的数据库。 网站由七个网页组成。主页描述了网站的功能,脑组织样本的每个组织和操作方式。MCA 2.0分析了从早期胚胎阶段到成熟成人阶段的七个生命阶段来自 >10 个小鼠组织的 >520,000 个单细胞(每个组织通常重复2-4个)。在全局视图中,完整小鼠组织分为95个主要集群。视图提供单个单元格级别的全局视图、标记列表为每个簇提供标记基因。此外,还可以进行差异分析、相关分析和聚类分析等。MCA涵盖了哺乳动物体内的各种主要细胞类型,并对每一种器官内的组织细胞亚型,基质细胞亚型,血管内皮细胞亚型,和免疫细胞亚型进行了详细的描述

HCL:https://db.cngb.org/HCL/,来自开发MCA的同一个团队。HCL包括人类50种组织的超过70万个细胞,划分为102个cluster,可以查询每种组织、每个cluster的marker基因。可以上传和下载数据自行分析。




20

Tabula Muris :https://tabula-muris.ds.czbiohub.org/
Tabula Muris是来自模式生物Mus musculus的单细胞转录组数据的概要,包含来自20个器官和组织的近100,000个细胞。这些数据允许直接和受控地比较组织间细胞类型中的基因表达,例如来自不同解剖位置的免疫细胞。来自SMART-Seq2 RNAseq文库的样本由单独FACS分选细胞制备,包括来自8只小鼠的20个组织的53760个细胞;来自使用10x Genomics平台制备并使用CellRanger处理的细胞,包含从422803个液滴库中收集的序列数据;可使用Seurat包轻松加载的 Robject 文件,包括每个组织的细胞的注释和聚类,由基于微流体液滴的测序文库或 FACS 分选细胞文库制备;t-SNE图展示每个组织Top10基因的表达。




21

SpatialDB:https://www.spatialomics.org/SpatialDB/
SpatialDB是第一个专门从已发表论文中整理空间转录组数据的公共数据库,旨在为组织中的空间基因表达谱提供全面而准确的资源。目前,SpatialDB包含由8种空间分辨转录组技术生成的24个数据集的详细信息,允许用户在线浏览所有 8 种技术的空间基因表达谱,并比较相同或不同技术生成的任意两个数据集的空间基因表达谱。SpatialDB提供了由SpatialDE和Trendsceek识别的空间可变 (SV) 基因,能提供空间分辨转录组图谱,包括人类、小鼠、果蝇、秀丽隐杆线虫和斑马鱼组织的数据集,用于快速检索特定组织中空间基因表达的分析,GO和KEGG富集分析。




22

iSyTE:https://research.bioinformatics.udel.edu/iSyTE/ppi/index.php
眼科研究界已经在不同阶段的野生型小鼠晶状体和来自表现晶状体缺陷或白内障的特定基因扰动小鼠突变体的晶状体组织上生成了数百个微阵列数据集。该数据库分析了使用标准 Affymetrix 和 Illumina 平台生成的所有晶状体微阵列基因表达数据集,并开发了iSyTE用于眼睛基因发现的集成系统工具。它允许有效访问和可视化这些分析的数据集,同时也促进各种下游分析,是一个于研究眼睛发育的单细胞数据库
iSyTE 使用户能够:(1) 优先考虑与晶状体发育和白内障相关的候选基因,(2) 获取与白内障/晶状体缺陷相关的转录组变化的信息,以及 (3) 分析新候选基因的表达并在先前定义的野生型和特定基因扰动小鼠突变晶状体中的基因表达。




23

DBTMEE:https://dbtmee.hgc.jp/
DBTMEE是一个小鼠早期胚胎转录组的数据库,通过超大规模全转录组分析建立基因表达谱。通过对超过1.5×10^5个MII 卵母细胞进行测序,以分析男性和女性基因组结构从受精到ZGA,到合子基因组依赖性细胞周期的转变。DBTMEE还包含其他公共资源,可以系统地了解从受精到ZGA的男性和女性基因组动态,可用于探索参与基因组激活程序的基因的遗传和表观遗传特征,特别是确定参与受精卵母细胞转录起始的潜在关键转录因子 (TF)。




24

CeDR Atlas:https://ngdc.cncb.ac.cn/cedr
CeDR是从单细胞水平对人类、小鼠和细胞系的组织细胞类型特异性药物反应分析的数据库。CeDR为细胞的药物反应谱提供了直接参考,不仅包括疾病细胞类型,还包括正常细胞类型。目前,CeDR囊括超过582个单细胞数据对象,140种表型和1250 种组织细胞组合类型,获得188,157个针对人类,42,660个针对小鼠,10,299个针对细胞系的细胞类型-药物关联(丰富的 p 值<0.05,相关 p 值<0.01)。用户可通过浏览和搜索药物、细胞类型、组织和疾病,还可以过滤和优先考虑与确切基因特征的关联。总体而言,CeDR 以细胞分辨率推断药物反应,并阐明联合治疗的设计和耐药性甚至药物副作用的识别。




25

Aging Atlas:https://ngdc.cncb.ac.cn/aging/index
Aging Atlas数据库旨在编译由一系列高通量组学技术创建的大型基因表达和调控数据集,并作为一系列生命科学研究人员的宝贵资源。数据库目前包括五个模块:转录组学、表观组学、单细胞转录组学、蛋白组学和药物基因组学。Aging Atlas提供用户友好的功能来探索与年龄相关的基因表达变化,并为来自衰老相关研究的原始多组学数据提供下载服务。但是针对该数据库的使用仍有待开发。




26

Gut Cell Atlas:https://www.gutcellatlas.org/
该数据库是一个肠道组织的单细胞测序数据库其中,时空肠细胞图谱,来自胎儿、儿科、成人供体和多达 11 个肠道区域的428K肠道细胞的完整单细胞RNA-seq数据集;胎儿和儿科细胞图谱,从受孕后6-11周的人类肠道发育中分离出的62,849个细胞的单细胞转录组。该数据包括来自双空肠、回肠和结肠的肠细胞;结肠免疫图谱,结肠作为屏障组织,代表了一种独特的免疫环境,免疫细胞对不同的微生物群落表现出耐受性,这些微生物群落统称为微生物组。结肠示意图已发表的研究表明,不仅结肠不同部位的免疫细胞之间存在差异,而且微生物组也发生了微妙的变化,结肠下方的细菌范围更广。



27

StemMapper:http://stemmapper.sysbiolab.eu/
StemMapper拥有超过798个小鼠和166个人类的干细胞转录组,数据主要从GEO收集,代表51种小鼠干细胞、祖细胞及其后代的表达谱和19种人类干细胞、祖细胞及其子代的表达谱。StemMapper的数据集通过严格地质量控制过滤,并基于每个类型的单个干细胞的基因特征的标准化。关于每个样品的详细信息,还可以自行下载数据查看。




28

ColorCells:https://rna.sysu.edu.cn/colorcells/
一个比较分析lncRNAs和miRNA在单细胞RNA-Seq数据中的表达、分类和功能的平台。ColorCells分析了5个物种的167913个scRNA-Seq数据。lncRNA的整合注释揭示了大量细胞特异性lncrRNA及其性质。




29

SPICA:https://spica.epfl.ch/projects
Swiss Portal for Immune Cell Analysis (SPICA) 是一个致力于探索和分析免疫细胞单细胞 RNA-seq 数据的网络资源与其他单细胞数据库相比,SPICA 拥有精心策划的细胞类型特异性参考图谱,这些参考图谱以高分辨率描述免疫细胞状态,并发布了在这些图谱背景下分析的单细胞数据集。此外,用户可以在现有图集的上下文中私下分析自己的数据。




30

GRNdb:http://www.grndb.com/
基因调控网络对于理解基因表达调控和表达异质性的机制至关重要。GRNdb是一个免费访问且用户友好的数据库,用于方便地探索和可视化由转录因子(TF)和下游靶基因形成的预测调控网络基于大规模 RNA-seq 数据以及已知的TF-各种人和小鼠条件的目标关系。GRNdb 中的所有规则都是根据组学数据预测的,而不是通过实验确定的。用户可以轻松搜索、浏览和下载单细胞或批量水平的各种条件的 TF-target 对和相应的基序,同时研究一系列基因的表达谱并分析基因之间的关联不同TCGA肿瘤的表达水平和患者的存活率。



31

CellPhoneDB:https://www.cellphonedb.org/
CellPhoneDB是一个公开的受体、配体及其相互作用的资料库亚基结构包括配体和受体,准确地代表异质复合物。这是至关重要的,因为细胞-细胞之间的通信依赖于多亚基蛋白复合体,这超越了大多数数据库和研究中使用的二进制表示。CellPhoneDB集成了与蜂窝通信有关的现有数据集和新的人工审查信息。CellPhoneDB利用来自以下数据库的信息:UniProt, Ensembl, PDB, IMEx联盟,IUPHAR。




32

scMetabolism:http://www.cancerdiversity.asia/scMetabolism/

scMetabolism旨在为拥有单细胞测序数据的用户提供便利。用户可以使用自己的scRNA-seq数据探索代谢活动,是由复旦大学附属中山医院开发的在线单细胞代谢数据库





33

CDCP:https://db.cngb.org/cdcp/
CDCP(细胞组学数据坐标平台共享和整合复杂的单细胞数据集,并提供单细胞分析工具和可视化服务,以方便研究人员访问和探索已发表的单细胞数据集。其中包括病毒数据库VThunter和HCL数据库。




34

THPA:https://www.proteinatlas.org/humanproteome/single+cell+type
THPA数据库单细胞部分,基于来自25个人体组织和外周血单个核细胞 (PBMCs)的单细胞RNA测序 (scRNAseq)数据,以及内部生成的显示相应空间蛋白表达模式的免疫组化切片。scRNAseq分析基于公开的全基因组表达数据,包含对应于15个不同细胞类型的444个单细胞类型簇中的所有蛋白编码基因。进行特异性和分布分类,以确定这些单细胞类型中升高的基因数量,以及分别在一个、几个或所有细胞类型中检测到的基因数量。每种细胞类型中表达的基因可以通过交互UMAP图和柱状图来探索,并与人体组织中相应的免疫组化染色相联系。




35

lungcancer:http://lung.cancer-pku.cn/index.php

通过单细胞测序对非小细胞肺癌中 T 细胞的全局表征,深层单细胞转录组数据以及完整的 T 细胞受体信息确定NSCLC浸润淋巴细胞的多维特征。这是张泽民教授团队开发的、专门用于非小细胞肺癌免疫分析的单细胞数据库。最终获得12598个基因和7183个细胞的注释。


文章来源:芒果师兄聊生信

-end-
进入单细胞行业交流群,请在后台回复 “进群”




share
Write a Review...