scBaseCount
AI-powered automated curation platform for 500M+ single-cell data.
Overview
WeChat科普推文 第17期 · 2026-05-22
话题: scBaseCount、数据策展、CELLxGENE、大规模单细胞数据管理
2017年10月,人类细胞图谱(Human Cell Atlas)项目发布第一批数据时,整个世界都为之兴奋——科学家们终于可以像地理大发现时代的探险家一样,系统性地绘制人体的每一个"细胞大陆"。但兴奋之中,没人预见到一个即将爆炸的问题:数据太多了,多到人类看不过来了。
七年后的今天,公共数据库中存储的单细胞转录组数据已突破 5 亿个细胞。如果把每个细胞的数据打印成一页纸,这叠纸的高度将超过 50 公里——差不多是六个珠穆朗玛峰垒在一起。更令人窒息的是,这些数据来自上千个实验室、数百种组织、几十个物种,每个实验室用自己的方式命名细胞类型、记录元数据、存储文件格式。换句话说,这 5 亿个细胞不是一座井然有序的图书馆,而更像一个巨大的数据沼泽——每个角落都有宝藏,但没人知道从哪里开始捞。
这就是单细胞大模型面临的一个几乎没人谈论、却比算法本身更难的问题:谁来打扫"房间"?
一、一座"巴别图书馆",和一本永远编不完的目录
想象你是世界上最大的图书馆的馆长。这座图书馆每天涌进数千本新书,但送书的出版社各有各的编码系统——有的用杜威十进制,有的自己发明了一套三位数编码,有的干脆没有编号,把书扔在门口就走了。你想训练一个 AI 来读懂所有藏书,但 AI 的第一个问题就是:"请问这些书的目录在哪里?"
单细胞数据的现实比这个比喻还要混乱十倍。
一个典型的单细胞 RNA 测序数据集包含数万到数十万个细胞,每个细胞有约两万个基因的表达值。但真正让数据管理者睡不着觉的不是数据量——而是元数据(metadata)的混乱。不同实验室对同一个细胞类型的命名可能完全不同:有人叫它"CD8+ T 细胞",有人写"T cell, CD8 positive",还有人直接标注"T_cell_1"。同一个"成纤维细胞"(fibroblast)可能在 50 个数据集中以 20 种不同的名字出现。更不用说实验条件、组织来源、测序平台、批次编号——这些关键信息经常缺失、错误、或者用一种只有原作者才能看懂的缩写记录。
Andreas Regev 在一次访谈中说过一句被广泛引用的话:"单细胞领域最大的瓶颈不是测序技术,而是我们整理自己数据的能力。"这话说得客气了。真实的情况是:如果没有自动化策展(curation),人类根本不可能整理完这些数据。
二、CELLxGENE:一个"AI 策展引擎"的诞生
2021年,陈-扎克伯格倡议(Chan Zuckerberg Initiative, CZI)推出了一个注定要改变游戏规则的项目——CELLxGENE,一个面向全球科学界的单细胞数据门户。它的目标听起来简单得近乎无聊:把所有公开的单细胞数据收集起来,统一格式、统一命名、统一标准,让任何人都能搜索、浏览和分析。
但"简单"背后,是一个堪比维基百科运营规模的策展工程。
CELLxGENE 团队面对的是这样的现状:截至 2025 年,平台上已经收录了来自超过 1500 个数据集 的 超过 5000 万个细胞(并且这个数字每月都在快速增长)。这些数据覆盖了人类、小鼠、斑马鱼、果蝇等几十个物种,横跨大脑、心脏、肺、肝、肾等数百种组织,涉及从胚胎发育到癌症进展的各种生物学情境。
人工策展?50 个训练有素的生物信息学家不吃不喝不睡,也要花上几年时间才能看完。答案只能是:让 AI 来策展。
三、AI 策展的"三步曲":清洗、对齐、标注
CELLxGENE 的自动策展 pipeline 可以类比为三个核心步骤,每一步背后都有机器学习的身影。
第一步:数据清洗(Quality Control)。就像图书馆收到新书后要先检查有没有缺页、破损,AI 策展的第一步是自动筛选掉不合格的细胞。哪些细胞不合格?死细胞(线粒体基因占比过高)、双细胞(两个细胞被误当成一个测了)、空液滴(液滴里根本没有细胞)——这些都是单细胞实验的常见伪迹。传统上,生信学家需要手动设置阈值来过滤;而 AI 策展系统通过学习数百万个已知"好细胞"和"坏细胞"的特征,可以自动做出比人工更一致的判断。
第二步:元数据对齐(Metadata Harmonization)。这是整个策展流程中最考验智慧的一步。AI 需要识别出"CD8+ T cell"和"T cell, CD8 positive"指的是同一个东西,然后映射到标准本体(ontology)——一个类似《生物学细胞类型大辞典》的层级体系。这一步用到的核心技术是自然语言处理和知识图谱对齐:AI 阅读原始元数据文本,理解其语义,再在标准本体树中找到最匹配的节点。听起来像机器翻译?本质上就是——只不过翻译的不是英语到中文,而是"百家争鸣的细胞命名方言"到"统一的生物学官方语言"。
第三步:细胞类型自动注释(Auto-Annotation)。即使元数据对齐了,许多数据集仍然缺乏细粒度的细胞类型标签——可能只有粗糙的"免疫细胞"标注,却不知道具体是 T 细胞、B 细胞还是 NK 细胞。这一步,AI 策展系统会直接阅读每个细胞的基因表达谱,利用参考数据集和预训练模型,自动推断出最可能的细胞身份。这恰恰是单细胞大模型(如 scGPT、Geneformer)大显身手的地方——它们经过数十亿次预训练后,对细胞"长相"的判断力已经远超传统标记基因方法。
四、数据飞轮:为什么策展越好,模型越强,策展又越好
这里出现了一个美妙的正反馈循环(数据飞轮)。
更大的策展数据集 → 训练出更强的单细胞大模型 → 更强的模型用于更精准的自动注释和更智能的质控 → 策展效率和质量进一步提升 → 更大更好的数据集……
这就是为什么 CELLxGENE 的策展工作不只是"打扫卫生",而是在构建整个单细胞 AI 生态的地基工程。scGPT 的预训练数据依赖它,Geneformer 的泛化能力因它而增强,每一个在 CELLxGENE 上跑 zero-shot 预测的研究者都在受益于这群"看不见的策展人"——他们中既有写 pipeline 的工程师,也有训练自动注释模型的 AI 科学家,还有维护本体论词典的生物信息学家。
一个鲜为人知的数字:CELLxGENE Census(策展数据的版本化快照)每一个版本发布时,都可以被直接导入任何单细胞大模型的训练 pipeline,无需额外处理。这不仅节省了每个实验室数周到数月的重复劳动,还从根本上保证了不同模型之间的可比性。
五、策展的尽头,还是人类
讲了这么多 AI 策展的强大之处,有一个底线必须守住:AI 策展永远不能完全替代人类策展。
自动注释系统可能把罕见的细胞亚群错误归类——尤其是在那些数据稀少的组织或物种中。元数据对齐算法可能误解了原本就模糊不清的标注。QC 过滤可能因为批次效应而过度清除了某些样本的数据。
CELLxGENE 的做法是"人机协同":AI 做 95% 的粗活,人类策展人处理剩下的 5%——审阅 AI 的判断、修正明显的错误、标注 AI 不确定的细胞类型。这种模式很像自动驾驶的 L3 级别:AI 在绝大多数路况下可以自己开,但关键时刻仍需要人类接管方向盘。
更意味深长的是,策展工作本身正在成为一门独立的学科。十年前,"数据策展"在生物学里几乎不算一个正经研究方向;如今,顶级期刊开始发表专门的策展方法论文章,CZI 和 EMBL-EBI 等机构组建了专职策展团队,甚至连 Nature 的编辑都在呼吁将策展贡献纳入科研评价体系。
六、站在 5 亿细胞上,望向 50 亿
回到开头那座"巴别图书馆"。现在的单细胞大模型就像一群 AI 学生,正在 CELLxGENE 策展团队搭建的"图书馆分类系统"中学习阅读细胞的语言。随着 Spatial Transcriptomics(空间转录组学)、Multi-omics(多组学)、Live-cell Imaging(活细胞成像)等新技术不断涌入,这座图书馆的藏书量将在未来五年内增长一个数量级——从 5 亿到 50 亿,甚至更多。
到那时,没有 AI 策展的支撑,单细胞大模型的梦想将只是一座空中楼阁。而有了它,我们或许真能实现 Aviv Regev 在 2017 年许下的那个愿望:"为每一个人类细胞创建一张维基百科页面。"
一句话总结:单细胞大模型的成功,不只取决于算法有多聪明,更取决于背后的数据地基打得有多扎实——AI 策展正是这座地基上最不起眼、却最不可替代的那块砖。