← Back to scModels Foundation Model

scBaseCount

2026-05-22 ·

AI-powered automated curation platform for 500M+ single-cell data.

Overview

WeChat科普推文第17期 · 2026-05-22
话题: scBaseCount、数据策展、CELLxGENE、大规模单细胞数据管理

2017年10月，人类细胞图谱（Human Cell Atlas）项目发布第一批数据时，整个世界都为之兴奋——科学家们终于可以像地理大发现时代的探险家一样，系统性地绘制人体的每一个"细胞大陆"。但兴奋之中，没人预见到一个即将爆炸的问题：数据太多了，多到人类看不过来了。

七年后的今天，公共数据库中存储的单细胞转录组数据已突破 5 亿个细胞。如果把每个细胞的数据打印成一页纸，这叠纸的高度将超过 50 公里——差不多是六个珠穆朗玛峰垒在一起。更令人窒息的是，这些数据来自上千个实验室、数百种组织、几十个物种，每个实验室用自己的方式命名细胞类型、记录元数据、存储文件格式。换句话说，这 5 亿个细胞不是一座井然有序的图书馆，而更像一个巨大的数据沼泽——每个角落都有宝藏，但没人知道从哪里开始捞。

这就是单细胞大模型面临的一个几乎没人谈论、却比算法本身更难的问题：谁来打扫"房间"？

一、一座"巴别图书馆"，和一本永远编不完的目录

想象你是世界上最大的图书馆的馆长。这座图书馆每天涌进数千本新书，但送书的出版社各有各的编码系统——有的用杜威十进制，有的自己发明了一套三位数编码，有的干脆没有编号，把书扔在门口就走了。你想训练一个 AI 来读懂所有藏书，但 AI 的第一个问题就是："请问这些书的目录在哪里？"

单细胞数据的现实比这个比喻还要混乱十倍。

一个典型的单细胞 RNA 测序数据集包含数万到数十万个细胞，每个细胞有约两万个基因的表达值。但真正让数据管理者睡不着觉的不是数据量——而是元数据（metadata）的混乱。不同实验室对同一个细胞类型的命名可能完全不同：有人叫它"CD8+ T 细胞"，有人写"T cell, CD8 positive"，还有人直接标注"T_cell_1"。同一个"成纤维细胞"（fibroblast）可能在 50 个数据集中以 20 种不同的名字出现。更不用说实验条件、组织来源、测序平台、批次编号——这些关键信息经常缺失、错误、或者用一种只有原作者才能看懂的缩写记录。

Andreas Regev 在一次访谈中说过一句被广泛引用的话："单细胞领域最大的瓶颈不是测序技术，而是我们整理自己数据的能力。"这话说得客气了。真实的情况是：如果没有自动化策展（curation），人类根本不可能整理完这些数据。

二、CELLxGENE：一个"AI 策展引擎"的诞生

2021年，陈-扎克伯格倡议（Chan Zuckerberg Initiative, CZI）推出了一个注定要改变游戏规则的项目——CELLxGENE，一个面向全球科学界的单细胞数据门户。它的目标听起来简单得近乎无聊：把所有公开的单细胞数据收集起来，统一格式、统一命名、统一标准，让任何人都能搜索、浏览和分析。

但"简单"背后，是一个堪比维基百科运营规模的策展工程。

CELLxGENE 团队面对的是这样的现状：截至 2025 年，平台上已经收录了来自超过 1500 个数据集 的 超过 5000 万个细胞（并且这个数字每月都在快速增长）。这些数据覆盖了人类、小鼠、斑马鱼、果蝇等几十个物种，横跨大脑、心脏、肺、肝、肾等数百种组织，涉及从胚胎发育到癌症进展的各种生物学情境。

人工策展？50 个训练有素的生物信息学家不吃不喝不睡，也要花上几年时间才能看完。答案只能是：让 AI 来策展。

三、AI 策展的"三步曲"：清洗、对齐、标注

CELLxGENE 的自动策展 pipeline 可以类比为三个核心步骤，每一步背后都有机器学习的身影。

第一步：数据清洗（Quality Control）。就像图书馆收到新书后要先检查有没有缺页、破损，AI 策展的第一步是自动筛选掉不合格的细胞。哪些细胞不合格？死细胞（线粒体基因占比过高）、双细胞（两个细胞被误当成一个测了）、空液滴（液滴里根本没有细胞）——这些都是单细胞实验的常见伪迹。传统上，生信学家需要手动设置阈值来过滤；而 AI 策展系统通过学习数百万个已知"好细胞"和"坏细胞"的特征，可以自动做出比人工更一致的判断。

第二步：元数据对齐（Metadata Harmonization）。这是整个策展流程中最考验智慧的一步。AI 需要识别出"CD8+ T cell"和"T cell, CD8 positive"指的是同一个东西，然后映射到标准本体（ontology）——一个类似《生物学细胞类型大辞典》的层级体系。这一步用到的核心技术是自然语言处理和知识图谱对齐：AI 阅读原始元数据文本，理解其语义，再在标准本体树中找到最匹配的节点。听起来像机器翻译？本质上就是——只不过翻译的不是英语到中文，而是"百家争鸣的细胞命名方言"到"统一的生物学官方语言"。

第三步：细胞类型自动注释（Auto-Annotation）。即使元数据对齐了，许多数据集仍然缺乏细粒度的细胞类型标签——可能只有粗糙的"免疫细胞"标注，却不知道具体是 T 细胞、B 细胞还是 NK 细胞。这一步，AI 策展系统会直接阅读每个细胞的基因表达谱，利用参考数据集和预训练模型，自动推断出最可能的细胞身份。这恰恰是单细胞大模型（如 scGPT、Geneformer）大显身手的地方——它们经过数十亿次预训练后，对细胞"长相"的判断力已经远超传统标记基因方法。

四、数据飞轮：为什么策展越好，模型越强，策展又越好

这里出现了一个美妙的正反馈循环（数据飞轮）。

更大的策展数据集 → 训练出更强的单细胞大模型 → 更强的模型用于更精准的自动注释和更智能的质控 → 策展效率和质量进一步提升 → 更大更好的数据集……

这就是为什么 CELLxGENE 的策展工作不只是"打扫卫生"，而是在构建整个单细胞 AI 生态的地基工程。scGPT 的预训练数据依赖它，Geneformer 的泛化能力因它而增强，每一个在 CELLxGENE 上跑 zero-shot 预测的研究者都在受益于这群"看不见的策展人"——他们中既有写 pipeline 的工程师，也有训练自动注释模型的 AI 科学家，还有维护本体论词典的生物信息学家。

一个鲜为人知的数字：CELLxGENE Census（策展数据的版本化快照）每一个版本发布时，都可以被直接导入任何单细胞大模型的训练 pipeline，无需额外处理。这不仅节省了每个实验室数周到数月的重复劳动，还从根本上保证了不同模型之间的可比性。

五、策展的尽头，还是人类

讲了这么多 AI 策展的强大之处，有一个底线必须守住：AI 策展永远不能完全替代人类策展。

自动注释系统可能把罕见的细胞亚群错误归类——尤其是在那些数据稀少的组织或物种中。元数据对齐算法可能误解了原本就模糊不清的标注。QC 过滤可能因为批次效应而过度清除了某些样本的数据。

CELLxGENE 的做法是"人机协同"：AI 做 95% 的粗活，人类策展人处理剩下的 5%——审阅 AI 的判断、修正明显的错误、标注 AI 不确定的细胞类型。这种模式很像自动驾驶的 L3 级别：AI 在绝大多数路况下可以自己开，但关键时刻仍需要人类接管方向盘。

更意味深长的是，策展工作本身正在成为一门独立的学科。十年前，"数据策展"在生物学里几乎不算一个正经研究方向；如今，顶级期刊开始发表专门的策展方法论文章，CZI 和 EMBL-EBI 等机构组建了专职策展团队，甚至连 Nature 的编辑都在呼吁将策展贡献纳入科研评价体系。

六、站在 5 亿细胞上，望向 50 亿

回到开头那座"巴别图书馆"。现在的单细胞大模型就像一群 AI 学生，正在 CELLxGENE 策展团队搭建的"图书馆分类系统"中学习阅读细胞的语言。随着 Spatial Transcriptomics（空间转录组学）、Multi-omics（多组学）、Live-cell Imaging（活细胞成像）等新技术不断涌入，这座图书馆的藏书量将在未来五年内增长一个数量级——从 5 亿到 50 亿，甚至更多。

到那时，没有 AI 策展的支撑，单细胞大模型的梦想将只是一座空中楼阁。而有了它，我们或许真能实现 Aviv Regev 在 2017 年许下的那个愿望："为每一个人类细胞创建一张维基百科页面。"

一句话总结：单细胞大模型的成功，不只取决于算法有多聪明，更取决于背后的数据地基打得有多扎实——AI 策展正是这座地基上最不起眼、却最不可替代的那块砖。