Google Research 推出 TabFM:零样本表格数据基础模型,消除传统瓶颈,将集成至 BigQuery
研究领域探索探索我们众多研究重点领域可探索所有研究领域。应用人工智能与科学地球人工智能 (Earth AI)健康人工智能 (Health AI)科学人工智能 (Science AI)可持续性与危机应对 (Sustainability crisis resilience)基础机器学习与算法算法与理论 (Algorithms theory)信息检索 (Information retrieval)机器智能 (Machine intelligence)机器感知 (Machine perception)自然语言处理 (Natural language processing)人员、系统与量子人工智能人机交互与可视化 (Human-computer interaction and visualization)网络 (Networking)量子人工智能 (Quantum AI)负责任的人工智能 (Responsible AI)反滥用 (Anti abuse)软件工程 (Software engineering)软件系统 (Software systems)了解更多出版物项目资源利用构建协作生态系统数据集 访问高质量数据集加速你的研究。工具与服务 探索我们最新的人工智能模型和产品。开源 发现开源代码与社区协作。会议与活动职业发展途径携手塑造未来查看所有项目教师项目 通过与大学教师的有意义互动参与学术研究社区。学生项目 通过广泛的项目支持下一代研究人员。办公地点 在我们的全球办公室和研究实验室中找到你的位置。博客研究成果转化将发现转化为实际影响人员 我们的研究人员通过基础研究和应用研究推动计算机科学的进步。团队 协作小组攻克世界上最具挑战性的人工智能问题。Google ResearchGoogle AI 了解我们所有的人工智能Google DeepMind 探索人工智能的前沿Google Labs 尝试我们的人工智能实验其他相关内容研究资源会议与活动职业发展博客关于主页博客TabFM 介绍2026 年 6 月 30 日Google Research 研究科学家 Weihao Kong 和 Abhimanyu Das 推出了 TabFM。自推出 TimesFM 以来人们处理时间序列预测的方式发生了巨大转变如今将 零样本 逻辑引入表格数据领域。TabFM 是全新的表格数据基础模型旨在简化分类和回归工作流程。快速链接Hugging FaceGitHub分享在 Twitter 上分享在 Facebook 上分享在 LinkedIn 上分享通过电子邮件发送复制链接表格数据是企业数据基础设施核心为大量关键预测性机器学习应用提供支持表格回归和分类任务广泛存在。多年来有监督的基于树的算法如 AdaBoost、XGBoost 和 随机森林 在该领域占主导。然而部署传统模型存在显著瓶颈应用 XGBoost 模型到新数据集需大量手动工作数据科学家要进行超参数优化和特征工程。机器学习领域的进展尤其是大语言模型LLM的发展改变了处理新任务的方式LLM 通过 上下文学习ICL展示了零样本预测能力。如今推出的 TabFM 专门为表格数据分类和回归设计将表格预测视为 ICL 问题消除了手动模型训练、超参数调整 和复杂特征工程需求能让用户在一次前向传播中对未见过的表格生成高质量预测。TabFM 已在 Hugging Face 和 GitHub 仓库提供。工作原理传统机器学习范式依赖更新特定数据集分布的模型参数而 ICL 范式绕过此过程。TabFM 不进行传统训练阶段而是将整个数据集作为统一提示在推理时从上下文中学习解释列和行关系。将 ICL 应用于表格数据并非易事标准语言模型处理一维序列表格是二维且无序的。为处理表格结构并实现零样本预测TabFM 整合 TabPFN 和 TabICL 等架构优势采用三个关键机制交替行和列注意力原始表格通过多层注意力模块处理在列和行上交替应用注意力学习丰富表示捕捉复杂特征交互和依赖关系完成手动特征构建工作。行压缩上下文处理后每行的交叉注意力信息压缩成密集向量表示。上下文学习ICL专用 Transformer 对压缩嵌入序列操作对压缩行向量进行注意力计算降低计算成本确保预测高效。TabFM 模型架构。大规模合成数据训练构建基础模型通常用大容量神经网络在大量多样化数据上训练但表格机器学习缺乏高质量、多样化的开源表格数据集工业表格含专有模式和敏感信息无法用于预训练。合成表格可生成大规模数据是预训练基础模型的可行选择。TabFM 完全在数亿个合成数据集上训练这些数据集用结构因果模型SCM动态生成包含随机函数能捕捉现实世界表格数据的分布和特征关系使模型能泛化到未见过的现实世界表格。性能与基准测试为测试 TabFM 性能在 TabArena 上评估TabArena 根据一对一胜率计算 Elo 分数评估涵盖 38 个分类数据集和 13 个回归数据集样本数量 700 到 150,000 不等。对模型两种配置进行基准测试TabFM代表模型开箱即用能力一次前向传播生成预测无需调整或交叉验证。TabFM - Ensemble结合交叉特征和 SVD 特征提升性能用非负最小二乘法求解器计算 32 路集成最优权重分类任务还将 Platt 缩放 作为校准步骤。有关 TabArena 全面基准测试结果可访问 GitHub 页面。TabArena 分类上和回归下中前 10 名模型的 ELO 评分↑。(D) 默认(T E) 调优 集成。分数越高表示性能越好。结论TabFM 将表格预测定义为上下文学习问题利用混合注意力架构和大规模合成训练数据捕捉复杂特征交互消除传统瓶颈优于有监督算法将现代基础模型便利性引入表格机器学习工作流程让从业者一次前向传播生成准确预测。为方便使用TabFM 正集成到 Google BigQuery 中未来几周用户可在 BigQuery 中用简单 AI.PREDICT SQL 命令进行高级回归和分类无需机器学习专业知识。致谢本项目由 Erez Louidor Ilan、Taman Narayan、Shuxin Nie、Rajat Sen、Yichen Zhou、Joe Toth、Deqing Fu 和 Samet Oymak 共同完成感谢 Kimberly Schwede 设计图形。标签数据管理机器智能产品快速链接Hugging FaceGitHub分享在 Twitter 上分享在 Facebook 上分享在 LinkedIn 上分享通过电子邮件发送复制链接其他感兴趣的文章2026 年 6 月 26 日 使用冻结多令牌预测加速 Pixel 上的 Gemini Nano 模型 机器智能 移动系统 自然语言处理2026 年 6 月 25 日 使用线性弹性缓存优化云经济 算法与理论 数据管理2026 年 6 月 24 日 思考以回忆推理如何解锁大语言模型中的参数知识 生成式人工智能 机器智能 自然语言处理关注我们在 X 上关注我们在 LinkedIn 上关注我们在 YouTube 上关注我们在 GitHub 上关注我们探索我们的其他计划Google AI探索 Google AI 如何致力于丰富知识和解决复杂挑战产品构建研究责任社会影响关于Google Cloud为云计算、数据分析和机器学习提供高性能基础设施概述解决方案产品定价资源Google DeepMind我们的使命是负责任地构建人工智能造福人类模型研究科学关于Google Labs与 Google Labs 一起负责任地探索人工智能的未来关于实验保持联系Google关于 GoogleGoogle 产品隐私政策使用条款Cookie 管理控制