Google 发布专为加速 治疗性药物开发 而设计开源模型:TxGemma
它是由 Google DeepMind 的 Gemma 模型家族 微调而来,结合了语言理解、科学预测和多轮对话能力。
TxGemma 能够帮助研究人员完成从 药物筛选、毒性预测,到临床试验结果预测 的各类任务,从而大幅提升药物研发的速度和效率,降低失败率与成本。
TxGemma 经过专门训练,能够在整个药物发现过程中理解和预测治疗实体的特性。具体功能包括:
- 识别有前景的靶点:帮助研究人员找到潜在的治疗目标。
- 预测临床试验结果:提供关于药物效果和安全性的预测。
模型规模与功能
- 模型基础:基于 Gemma 2 开发并精调
- 训练数据:700 万条治疗性开发样本
TxGemma 提供了三种不同的模型规模,以满足不同的需求:
- 2B(20 亿参数)
- 9B(90 亿参数)
- 27B(270 亿参数)
每种规模的模型都包含以下版本:
- “预测”(Predict)版本:专注于特定任务,例如预测一个分子是否具有毒性。
- “聊天”(Chat)版本(仅适用于 9B 和 27B 规模):不仅能进行预测,还能解释推理过程、回答复杂问题并参与多轮对话。
性能亮点
- 最大的 27B 预测版本 在几乎所有任务上都表现出色,超越或匹配了之前的通用模型 Tx-LLM。
- 它还能与专为单一任务设计的模型竞争,显示出强大的通用性和适应性。
🛠️ TxGemma 的主要功能
1️⃣ 药物属性预测(TxGemma-Predict)
TxGemma 提供专为科学任务优化的“predict”模型,支持以下关键任务:
📊 模型规模版本:提供 2B、9B 和 27B 参数版本(越大性能越强)
2️⃣ 智能对话与推理(TxGemma-Chat)
TxGemma 还推出了“chat”版本(9B 和 27B),具备多轮对话和解释能力:
- 回答科学问题,如“这个分子为什么有毒?”
- 提供预测结果的结构化解释
- 适合研究人员交互式探索和科学讨论
3️⃣ 支持微调(Fine-tuning)
TxGemma 的一个重要优势是其灵活性。开发者可以使用专有数据对模型进行微调,以适应特定任务,例如:
- 预测临床试验中的不良事件。
- 提高特定药物属性的预测准确性。
官方提供示例 notebook,允许研究者将模型微调到自己的数据上,例如:
- 使用 TrialBench 数据预测临床试验中的副作用
- 定制专属领域模型以提升准确性
🧑🔬 适合高校实验室、药企、AI 生物科研人员使用。
4️⃣ 多步骤科研流程集成(Agentic-Tx 系统)
TxGemma 可以被集成到更复杂的系统中以解决研究难题。传统语言模型在需要最新外部知识或多步骤推理的任务中往往表现不佳。为了克服这一局限,Google 开发了 Agentic-Tx,这是一个以治疗研究为重点的代理系统,由 Gemini 2.0 Pro 提供支持。
- 特点:Agentic-Tx 配备了 18 种工具,能够处理复杂的化学和生物学任务。
- 成果:在需要大量推理的任务上取得了最先进的结果。
TxGemma 可作为核心模块,集成进 Google 的 Agentic-Tx 系统:
- 模拟完整的药物研发流程
- 支持跨平台信息整合(如 PubMed 检索 + 分子分析 + 推理)
- 解决需要多步骤、多信息源的复杂科研问题
🔬 工具类型:
- TxGemma 模型本体
- PubMed / Wikipedia / Web 搜索接口
- 分子结构分析工具
- 基因与蛋白质数据库工具
这种集成展示了 TxGemma 在解决多维度研究问题时的潜力。
Agentic-Tx 在 Humanity's Last Exam 和 ChemBench 等基准测试中,在推理密集型化学和生物学任务上取得了最先进的结果。
📈 性能表现
TxGemma-27B(predict 版):
- 在 66 项任务中性能优于其前身 Tx-LLM 的 45 项任务
- 对比各类 单任务特化模型:在 50 项任务中表现持平或更好(胜出 26 项)
- 总体表现强劲,具备通用性与专业性兼顾的能力
🚀 开源发布与使用方式
平台:
- 现在可以在 Google Vertex AI Model Garden 和
- Hugging Face 上访问 TxGemma
包含内容:
- 模型推理 demo
- 微调示例
- Agentic 多步骤推理流程 notebook
- 使用场景:药物研发、毒性评估、药理模拟、AI 生物研究等