36氪 · 站内详情

36氪独家|2026 年字节 AI 的四个关键命题

2026/6/4 14:06:37 · 模型更新 / 基础设施 / 研究

文|周鑫雨 编辑|张雨忻 杨轩 《智能涌现》从多个信源处独家获悉,2026 年,字节 AI 有四个重要的命题: 加大对世界模型训练的投入,年底前,模型 性能达到现阶段世界模型全球 SOTA(最佳)Google Genie 3 的水平。 视频模型继续保持领先地位, 探索“动态生成”...

来源
36氪
时间
2026/6/4 14:06:37
标签
模型更新 / 基础设施 / 研究
分类
AI 基础设施

正文

编辑|张雨忻 杨轩

《智能涌现》从多个信源处独家获悉,2026 年,字节 AI 有四个重要的命题:

加大对世界模型训练的投入,年底前,模型 性能达到现阶段世界模型全球 SOTA(最佳)Google Genie 3 的水平。

视频模型继续保持领先地位, 探索“动态生成”等新方向。

进一步打好 Coding 的地基, 做好 Coding 的 Dogfooding(数据回流、评测,形成飞轮),提升 Agent 能力。

豆包强化商业化能力, 重点场景是“办公”。

字节的未竟之地:世界模型

如今,字节的 AI 矩阵中,有让字节终于得以进入中国大模型第一梯队的 Seed 2.0,还有做到世界 SOTA 水平的 Seedance 2.0,另外在应用侧,豆包也形成了断层式领先—— 我们从多方了解到,2026 年春节过后,豆包 DAU 达到 2 亿 。

“没有明显短板。”一名大厂 AI 战略如此评价字节的 AI 业务矩阵。

但在一众模型中,唯独少了大模型研究下一阶段的关键:世界模型。

几名接近 Seed 团队人士告诉我们,字节是入场世界模型赛道较晚的玩家。 2024 年,刚从阿里加入字节的周畅,扛起了世界模型研究的大旗 。

但当时内部的判断是,世界模型路线和商业化场景还不明确,更重要的是打好视频模型的仗。

直到 2025 年,字节才在小范围内成立研究组,开始对世界模型中的 VLA(视觉-语言-动作模型)路线进行探索。带队人有两位:

一是字节 AI Lab 负责人李航——2025 年 4 月,AI Lab 整体(包含 Robotics 团队)并入了 Seed,目的之一是提升模型和应用(具身智能)之间的沟通效率——主要基于仿真数据进行世界模型训练。

另一位是 Seed 多模态研究员王文千,主要基于自然数据做训练。

来到 2026 年,吴永辉终于在 Seed 全员会上为世界模型设立了一个明确的目标: 2026 年底之前至少发布一版世界模型,性能对标目前的世界 SOTA(最佳)—— Google 在 2025 年 8 月发布的 Genie 3 。

但从目前的进度来看,追赶的速度不够。一位接近 Seed 人士告诉我们,吴永辉多次在 Seed 内部会直言字节世界模型和具身智能的效果不及预期。

另有 Seed 成员透露,根据内部评测,截至2026年初,字节世界模型的综合性能距离全球 SOTA 还存在 10% 的差距。

来源说明

本站展示来自正式来源同步的内容摘录与本地观察,不默认跳转外网;需要核验上下文时可查看来源记录。