xAI再失华人大将:预训练负责人已离职,马斯克又留不住人了
克雷西 发自 凹非寺量子位 | 公众号 QbitAI刚刚xAI再失一名华人大将。就在今天预训练负责人庄钧堂官宣了自己已经离职的消息。此前庄钧堂已经在xAI工作了两年。这期间他主导了从Grok多个版本模型的预训练同时负责预训练Grok在X和Tesla上的语音模型及xAI企业API模型。虽然他在官宣前两个月就已离开但这波刚好赶上xAI不再独立运营后的新一轮离职潮。仅今天一天就有多名员工相继宣布离职。如此高密度的人员离职让人不禁感叹xAI到底是怎么了谁是庄钧堂2024年庄钧堂加入xAI。此后两年Grok多代模型的预训练都由他主导。Grok在X和Tesla上的语音模型xAI对外的企业API模型也都由他牵头预训练。在此之前他在OpenAI工作了两年。这期间他是GPT-4技术报告的联合作者还参与了GPT-4o和DALL-E 3的核心开发提出了GPT4-Turbo 128k算法并作为第一贡献者搭建了OpenAI的Embedding模型。这几件事分别对应着OpenAI在语言模型、多模态、图像生成和向量检索等方向上的关键节点产品。他的学术背景和这份工作履历放在一起有一定的反差。庄钧堂本科就读于清华大学但读的专业并非计算机而是工程物理还辅修了法律。他的硕博生涯是在耶鲁度过的硕士读的是统计学博士则是生物医学工程。读博期间庄郡堂的研究课题是判断自闭症患者的脑连接组中哪些连接异常与自闭症的诊断相关。在这个课题中他使用的工具是神经网络。在博士期间他提出了AdaBelief优化器其核心思路是根据模型对当前梯度的置信程度来自适应地调整步长。如果当前观测到的梯度方向与模型的预期偏差很大说明此刻的观测不可信应该迈小步如果梯度方向与预期接近说明信号可靠可以迈大步。这个设计触及了深度学习训练中一个长期存在的痛点——现有优化器对噪声梯度的处理过于粗糙。这篇论文在NeurIPS 2020拿到了Spotlight随后被PyTorch、TensorFlow、Google Flax、DeepMind Optax等主流框架相继收录成为研究者工具箱里的常备选项。马斯克留不住人就在庄钧堂宣布离职的同一天xAI还有多名员工相继发出了同样的消息。三天前马斯克刚刚宣布xAI不再作为独立公司运营并入SpaceX统一更名为“SpaceXAI”。这个消息发出后没多久离职的消息就接连来了。与此同时另一批人正在进场——Cursor的员工开始出现在xAI的办公室里由xAI现任研究负责人Aman Madaan主持联合会议。Cursor的到来目的之一就是解决马斯克一直以来“留不住人”的困境。从2024年中开始xAI的联创就在陆续离开SpaceX完成收购后密集爆发到今年3月底11位联创全部清零。Fast Company统计过去一年内xAI可查证的离职员工已超过80人。马斯克也在试图解决人事危机但专门挖来的人也是说走就走。今年3月马斯克把Mistral AI和Thinking Machines Lab联创Devendra Chaplot请来直接向他汇报但Debendra入职才一个月便离职了。马斯克承认xAI“没有建立在正确的基础上正在从头重建”。今年4月他转向外部与Cursor达成合作于是便有了Cursor员工进驻xAI办公室的一幕。Grok正常更新尽管马斯克在人事问题上屡遭滑铁卢但xAI的主要产品Grok也刚刚宣布了一波更新。新版增加了连接器功能支持接入邮件、日历、Notion等工具帮助用户提取邮件、整理日程。同时马斯克还下场驳斥了“Grok将死”的传闻。毕竟一边是团队不再独立运行另一边又刚刚把Colossus集群租给了Anthropic让人很难不遐想。但马斯克表示新的Grok模型正在Colossus 2集群上正常训练中也算是解开了Colossus出租的疑云。那就等着看看马斯克还能交出怎样的模型吧。参考链接[1]https://x.com/archanfel_anoth/status/2052878350868484361[2]https://x.com/elonmusk/status/2052269744120869106一键三连「点赞」「转发」「小心心」欢迎在评论区留下你的想法—完—5月20日我们将在北京金茂万丽酒店举办一年一度的中国AIGC产业峰会。首波嘉宾阵容已公布昆仑万维方汉、智谱吴玮杰、EverMind邓亚峰、风行在线易正朝、百度秒哒朱广翔、Fusion Fund张璐、香港大学黄超、MarsWave冯雷都来了了解详情请你和我们一起不再只是讨论AI的未来而是现在就用起来。 报名参会一键关注 点亮星标科技前沿进展每日见