📖 知识科普

单细胞大模型领域的通俗科普推文,每周更新。

全部科普文章

52

在正常细胞「变坏」前一秒:单细胞大模型正在阅读癌变的第一段密码

单细胞基础模型如何在细胞发生癌变之前,从基因表达的细微漂移中捕捉恶性转化的最早信号。

达尔文画了一棵"树",AI 正在读懂树上的每一片叶子

单细胞大模型正在以单个细胞为精度重读进化——它自发学会跨物种识别同源细胞类型,让科学家首次能系统追溯六亿年细胞类型的起源、保守与创新。

当AI学会了细胞炼金术:单细胞大模型正在破解细胞重编程的终极密码

单细胞大模型如何通过阅读数千万个细胞的基因表达数据,学会预测细胞重编程所需的转录因子组合,从靠运气试错走向靠智能推理。

什么都不告诉它,还是先给一本"生物教科书"?——单细胞大模型训练策略的哲学之争

单细胞大模型训练中最激烈的哲学之争:是让AI从零开始纯数据驱动学习,还是先注入生物学先验知识?Sutton的"苦涩教训"在单细胞领域遭遇挑战。

"学新忘旧"的细胞AI:单细胞大模型的记忆危机

单细胞大模型面临灾难性遗忘困境:学了新物种、新组织就忘掉旧知识,持续学习成为细胞AI的下一个关键战场。

细胞们在"聊天"——单细胞大模型正在破译人体最繁忙的社交网络

单细胞大模型如何解码配体-受体互作,破译37万亿个细胞之间的通讯密码——从肿瘤微环境到阿尔茨海默病。

在细胞里寻找"不老泉":单细胞大模型正在破译衰老的密码

单细胞大模型正在将衰老研究从整体模糊判断带入逐细胞精确诊断的新时代,为抗衰老科学画出第一张高精度导航图。

告别天价GPU:单细胞大模型正在走进每一个普通实验室

知识蒸馏、量化压缩、LoRA微调和剪枝四大技术如何让单细胞大模型从GPU集群走进普通实验室,实现科学的民主化。

翻译细胞的"外语":单细胞大模型如何跨越模态的鸿沟

单细胞基础模型的新前沿:AI如何从一种组学数据推断另一种——用RNA预测染色质可及性和蛋白丰度,让"被杀死的细胞"在计算中继续活着。

当 AI 只认识一半的人类:单细胞大模型的数据偏见危机

单细胞基础模型在训练数据上存在严重的人口、器官和年龄偏见:75%数据来自欧洲裔,非洲裔不足3%。这种代表性危机正在放大精准医疗的不平等。

你的细胞,你的药:单细胞大模型正在把精准医疗从口号变成处方

单细胞大模型正在把精准医疗从对症下药升级为对细胞下药——不是根据你得了什么病来治,而是根据每一个细胞在说什么来治。

AI的细胞考试成绩单:满分,却被生物老师打了零分

单细胞大模型能背出满分成绩,但SAE解剖揭示它缺乏真正的因果调控逻辑

给AI一本生物学教科书:单细胞大模型的常识教育难题

单细胞大模型如何整合基因调控网络、通路数据库等结构化先验知识:从纯数据自学到知识增强预训练的三条路线。

教科书上查无此细胞:当单细胞大模型开始挑战生物学百年分类法

单细胞大模型凭直觉画出细胞宇宙全景地图,发现教科书上没有的新型细胞类型

ExPecto

仅凭DNA序列ab initio预测任意变异在218种组织中的表达效应——深度学习重新定义了从序列到疾病风险的计算边界

scVI

2018年,scVI用一个概率模型统一了单细胞数据分析的全部任务——并用深度生成模型重塑了整个领域的底层逻辑。VAE+ZINB+显式批次建模,里程碑式的"all-inclusive"方法。

scGen

首个用VAE+潜空间向量算术预测单细胞扰动响应的生成模型。2019年Nature Methods,690引用。跨细胞类型/物种外推扰动效应,Theis实验室单细胞AI版图奠基之作。

scArches

架构手术(architectural surgery)迁移学习策略:只微调adaptor新节点,参数量比全量整合少4-5个数量级,速度提升5-8倍,支持去中心化迭代图谱更新、跨模态蛋白填补、COVID-19疾病状态保留

CPA

组合扰动自编码器:将药物/基因扰动表示为可加和的潜空间嵌入向量,零样本预测未见药物组合和基因组合的转录组响应

scMoFormer

首个多Transformer单细胞多模态预测框架:细胞/基因/蛋白三线并行+图Transformer双分支(GNN先验知识+全局注意力)+GraphSAGE跨模态消息传递,NeurIPS 2022竞赛Kaggle银牌(24/1221,...

GEARS

GEARS(图增强基因激活与抑制模拟器)融合图神经网络与GO知识图谱,首次实现未见过的多基因组合扰动转录结果预测,遗传相互作用分类精度比已有方法提升40%。

CellPLM

颠覆性tokenization翻转(细胞→token,组织→sentence),空间转录组+高斯混合先验VAE,85M参数全面超越Geneformer/scGPT,推理速度500x

PINNACLE

几何深度学习三层注意力机制为蛋白质生成上下文感知表示,156种细胞类型×24个组织中394,760个蛋白嵌入,RA/IBD靶点优先排序超越context-free模型,68引用/51k访问(Nature Methods, 2024)

scTab

TabNet架构+特征注意力的跨组织细胞注释模型,2200万细胞/56组织/164细胞类型,宏观F1=0.83超越线性模型及scGPT,首次系统验证单细胞细胞注释的scaling law。

GeneCompass

中科院团队提出GeneCompass,一个知识引导的跨物种单细胞基础模型。在1.01亿个人和小鼠单细胞转录组上预训练,整合GRN、启动子序列、基因家族和共表达四类先验知识,通过12层Transformer和双重重构目标(基因ID+表达...

scLong

首个十亿参数全基因组单细胞基础模型:覆盖人类28,000个基因全自注意力+GO-GCN双路编码,48M细胞预训练,基因扰动/药物响应/GRN推断六任务全面超越Geneformer/scGPT

scimilarity

基于度量学习(triplet+MSE)的单细胞搜索引擎:在2340万细胞参考图谱中以50ms速度查找转录相似的细胞,已发现跨组织纤维化巨噬细胞轴心并完成in silico→in vitro验证闭环

一个西班牙人画了70年细胞,AI用70小时就看懂了全部:单细胞大模型正在解码人类最复杂的器官

WeChat科普推文 第38期 · 2026-06-11

免疫系统的罗塞塔石碑:单细胞大模型如何破译人体最复杂的防御密码

WeChat科普推文 第39期 · 2026-06-12

同一个细胞,五种读法:单细胞大模型背后的预训练哲学之争

WeChat科普推文 第40期 · 2026-06-13

给 AI 一张全是噪点的细胞照片,它能还原出生命的真相:扩散模型正在单细胞生物学中掀起一场静默革命

WeChat科普推文 第41期 · 2026-06-14

会认细胞、会做实验、还会画电路图:一个 AI 的三重身份

WeChat科普推文 第42期 · 2026-06-15

scMulan

清华大学提出首个自回归生成式单细胞基础模型,将细胞表达谱编码为c-sentence,用3.68亿参数GPT架构实现零样本细胞注释、批次整合和硅基扰动生成。

GenePT: Simple Foundation Model for Genes and Cells

LangCell

首个在预训练阶段对齐单细胞转录组与OBO Foundry知识文本的跨模态基础模型,零样本细胞身份识别准确率86.5%

Cell2Sentence

NicheCompass

图神经网络显式建模细胞通讯,每个embedding维度对应一条信号通路活动(Wnt/Notch/TGF-β等),将niche从"空间聚类"升级为"信号对话定量表征",840万细胞全脑空间图谱(Nature Genetics 2025,...

Zero-Shot: 教 AI 读懂 37 万亿个细胞:单细胞大模型入门指南

Zero-shot learning in single-cell foundation models.

Batch Effects: 批次效应:单细胞大模型最大的敌人

Understanding and mitigating batch effects in single-cell data.

Hallucinations: 当 AI 把红细胞认成神经元:单细胞大模型的"幻觉"危机

Hallucination and uncertainty in single-cell AI models.

跨越物种的"细胞语":为什么单细胞大模型能同时读懂人、小鼠和斑马鱼?

跨物种泛化、跨组织泛化、进化保守性、通用细胞语法

从"天书"到"宇宙":解码37万亿个细胞,AI正在完成人类基因组计划未竟的事业

细胞图谱、人类基因组计划、单细胞基础模型

Evaluation: 当大模型遇上细胞:谁来给 AI 考官打出公正的分数?

How to evaluate single-cell foundation models.

Chinese Teams: 在细胞的"语言"中寻找语法:中国团队的单细胞AI征途

Contributions from Chinese research teams in single-cell AI.

Contrastive Learning: 细胞界的"找不同"游戏:对比学习如何让AI在数十亿个细胞中自学成才

Contrastive learning approaches in single-cell models.

取代还是共生:单细胞大模型与传统生信分析的一场对话

单细胞大模型vs传统生信分析、共生模式、生信人不可替代性

scBaseCount

AI-powered automated curation platform for 500M+ single-cell data.

打开细胞AI的"黑箱":当单细胞大模型学会"解释"自己

可解释性、注意力机制、生物学验证

Zero-Shot: 你从未见过我,我为何能认出你?:单细胞大模型「零样本学习」的奥秘

Zero-shot learning in single-cell foundation models.

细胞真的在"说话"吗?——关于基因表达的语言隐喻,一场持续六十年的科学思辨

基因表达作为细胞语言、科学隐喻的边界

细胞里的"总开关"与"电路图":单细胞大模型正在解码基因的调控密码

基因调控网络推断、注意力机制解析调控关系

告别"死记硬背":Cell-JEPA 如何教会AI理解细胞的本质

Cell-JEPA、联合嵌入预测架构(JEPA)、潜空间学习、dropout鲁棒性