当 AI 只认识一半的人类:单细胞大模型的数据偏见危机
单细胞基础模型在训练数据上存在严重的人口、器官和年龄偏见:75%数据来自欧洲裔,非洲裔不足3%。这种代表性危机正在放大精准医疗的不平等。
Overview
当 AI 只认识一半的人类:单细胞大模型的数据偏见危机
- 期数: 第47期
- 日期: 2026-06-20
- 话题: 数据偏见、代表性危机、全球健康公平
一、一个被 AI 遗漏的诊断
2024年,美国一位非裔女性因不明原因的肝损伤反复就诊。她的血液单细胞测序数据被输入一个最新发布的单细胞基础模型进行辅助分析——模型给出的结论是"未见异常"。三个月后,她在另一家医院被确诊为一种与特定 HLA 基因型高度相关的自身免疫性肝病——而这种 HLA 基因型在非洲裔人群中高发,在白人中几乎不存在。
事后复盘发现,问题并不在于模型"笨"。恰恰相反,这个模型在其基准测试中表现优异,在多项细胞分类任务上超越了所有传统方法。真正的问题是:它训练时见过的数据里,90% 以上的样本来自欧洲裔个体。对于那位非裔患者携带的罕见免疫特征,模型从未在训练中见过类似案例。它没有"说不知道"的谦逊,而是根据它熟悉的模式给出了一个错误但自信的判断。
这不是一个孤例。随着单细胞基础模型从实验室走向临床应用,一个被长期忽视的问题正浮出水面:这些"读了"数亿个细胞的 AI,读的究竟是谁的细胞?
二、"单细胞宇宙"的偏见地图
要理解这个问题的严重性,我们需要先看看当前单细胞数据的"人口结构"。
截至2025年,全球公共单细胞数据库中收录的细胞总数已突破5亿,分布在数万个数据集中。但如果按供体来源做一个统计,你会看到一张令人不安的地图:
- 超过75%的单细胞数据来自欧洲血统个体;
- 非洲裔供体贡献的数据不到3%;
- 南亚、东亚和拉丁美洲人群合计不足15%;
- 某些土著人群在数据库中几乎"不存在"。
这不是谁的恶意,而是全球科研资源分布不均的客观反映——测序仪集中在哪里,数据就在哪里产生。但问题的关键在于:单细胞基础模型是在这些数据上"长大"的,数据有什么偏见,模型就学到什么偏见。
如果你觉得这只是人口统计学层面的问题,不妨再往下看——偏见不止这一个维度。
三、三重偏见:血统、器官、年龄
第一重偏见:血统。 不同人群的免疫系统存在深刻差异——非洲裔人群的免疫细胞中性粒细胞基线水平显著低于欧洲裔;东亚人群的某些药物代谢酶基因表达模式独一无二。可以把不同血统的人的免疫系统想象成不同地域的方言:都用"免疫"这门语言交流,但同一个基因在不同的遗传背景下"口音"完全不同。当单细胞模型只在白人数据上训练时,它就像一个只会听标准普通话的人,突然面对粤语、闽南语和客家话——它以为自己在听"免疫",但实际上完全听不懂。
第二重偏见:器官。 如果你数一数公开单细胞数据集中最常出现的组织,前三名永远是:外周血、骨髓和大脑皮层。为什么?因为血液容易获取,大脑有专门的脑图谱项目推动。相比之下,胰腺、卵巢、甲状腺这些器官的单细胞数据少得可怜——这好比一个学生只读过文学和历史课本,却要参加物理和化学考试。模型在血液细胞上的分类准确率可以做到95%以上,到了胰腺内分泌细胞就跌到70%。这不是算法的问题,这是数据"偏食"造成的营养不良。
第三重偏见:年龄。 绝大多数单细胞数据来自20-50岁的"健康成年人"。儿童的数据少,老年人的数据更少——而恰恰是这两个群体,细胞状态与"标准成年人"差异最大。新生儿的免疫系统像一个刚开业的图书馆,书目还在不断添加;老年人的细胞则像一本被翻过无数次的旧书,上面写满了表观遗传的批注。用中年人的数据训练的模型,读到婴儿的T细胞或百岁老人的造血干细胞时,经常会"失语"——它不知道这些细胞该归入哪一类,就像用标准字体训练的文字识别 AI 突然面对狂草书法。
四、"AI 近视"如何影响精准医疗
这三个维度的偏见叠加起来,产生了一个危险的"AI 近视"效应。
想象一个场景:一位60岁的东南亚裔女性被怀疑患有某种罕见的骨髓增生异常综合征。她的骨髓单细胞数据被送入一个业界领先的单细胞基础模型进行异常细胞检测。这个模型在训练时大量接触的是30岁欧洲裔男性的骨髓数据。它能不能准确识别这位患者骨髓中那些处于"癌前状态"的异常造血干细胞?
目前的答案是:不确定,但很不乐观。
2024年,《Nature Biotechnology》上的一项基准研究给出了具体数字:在一项跨种群的细胞类型注释任务中,当测试样本的供体血统与训练数据一致时,主流单细胞基础模型的平均F1分数为0.87;当血统不一致时,这一数字骤降至0.63——降幅接近30%。对于某些罕见的免疫细胞亚型,在非欧洲血统测试集上的召回率甚至为零——这些细胞被模型彻底"无视"了。
这对精准医疗意味着什么?意味着那些最需要精准诊断的人群——少数族裔、罕见病患者、老年人——恰恰是最可能被单细胞大模型"误判"的人群。AI 不是在缩小医疗差距,而是在放大它。
五、解题之道:三种正在推进的策略
面对这一困境,学术界和产业界正在从三个方向尝试破局。
策略一:数据民主化。 最直接的答案——去那些被忽视的人群和器官中收集更多数据。2025年启动的"全球单细胞多样性图谱"(Global Single-Cell Diversity Atlas)项目,目标是在三年内将非洲、南亚和南美人群的单细胞数据贡献率从不到5%提升至20%。但成本是巨大的——单细胞测序的样本采集、处理、运输和测序,在资源匮乏地区面临基础设施的全面挑战。这条路必须走,但不会走得很快。
策略二:算法纠偏。 如果短期内数据格局无法改变,能不能让模型学会"无视偏见"?加州大学的一个团队提出了"对抗性域适应"方案——在预训练时增加一个"偏见检测器",迫使模型学习与供体血统无关的细胞表征。说得通俗一点,就是在模型训练时专门安排一个"找茬官",一旦发现模型的判断依赖于"这个数据来自白人就判为正常"这样的捷径,就立刻惩罚它。初步结果显示,这种方法可以将跨种群的性能差距缩小约40%。它像一个"去偏见滤镜",在数据本身还不够多样化的时候,至少让模型学会公平对待不同背景的细胞。
策略三:不确定性量化。 既然偏见无法完全消除,至少让模型学会说"我不确定"。2025年,MIT和Broad研究所联合提出了一种称为"保形预测"(conformal prediction)的框架,让单细胞模型在给出分类结果的同时,附带一个"置信度区间"。当输入的细胞来自训练数据中从未见过的血统背景时,模型会自动降低置信度,并向医生发出警告:"这个判断我不太有把握,建议进一步实验验证。"这听起来像是一个"补丁",但在模型偏见问题得到根本解决之前,这种"诚实的谦逊"可能是保护患者安全的最务实方案。
六、技术的镜子
单细胞大模型面临的偏见危机,折射的是一个更大的问题:当我们谈论"通用人工智能"时,那个"通用"的边界在哪里?
在自然语言处理领域,ChatGPT 对不同语言的表现差异已经引发广泛讨论——它在英语上流畅优雅,在斯瓦希里语上错误百出。单细胞领域的故事如出一辙:一个看似"通用"的细胞基础模型,可能只是对"某一类人"的细胞理解深刻。
这提醒我们,生物医学 AI 的"通用性"永远是一个需要被不断挑战的假设。每一次声称"我们的模型在所有基准上表现优异"时,也许我们应该追问一句:你的基准里,有没有那些被遗忘的细胞? 正如一位评论者所言:我们不是在训练一个"人类细胞模型",我们是在训练一个"富裕国家健康白人的细胞模型"。只有当这个事实被正视,单细胞大模型才可能真正走向"通用"——不是为了某一群人,而是为了所有人。
一句话总结:单细胞大模型的偏见不是代码的问题,而是数据的问题——而数据的问题,本质上是全球健康不平等在AI时代的投影。