36氪深度文章 · 站内详情

93 亿参数打爆 800 亿，这个开源模型把 Midjourney 短板给秒了

2026/6/5 10:42:15 · 模型更新 / 国内 AI

开源模型Ideogram 4.0解决AI生图写字难问题

正文

如果你用过 AI 生图，你应该经历过一种很微妙的崩溃。

你满怀期待地输入：“帮我做一张活动海报，标题写夏日大促全场五折。”几秒钟后，AI 给你吐出来一张图。构图完美，光影绝佳，配色高级得像某个4A公司花了二十万做出来的。

不是拼错了，就是缺胳膊少腿。要么干脆就是一串你认不出来的乱码。

笑死，这不是你运气不好。这是整个 AI 生图行业持续了三年多的集体尴尬：画啥像啥，写字就废。不管你用的是 Midjourney 还是 Stable Diffusion ，面对带文字的图，结果都差不多。

直到昨天，一家叫 Ideogram 的加拿大公司，扔出了一个 9.3B 参数的开源模型 Ideogram 4.0 。在文字渲染这个“行业绝症”上，它干了件让所有人大跌眼镜的事。

你可能会问，文字不就是一些笔画吗？画人脸比写字难多了吧？AI 人脸都能给你画得毛孔分明，为啥四个字母就搞不定？

这事还真不一样。

主流的 AI 生图模型，Stable Diffusion、Midjourney、DALL-E，它们的“大脑”分成两部分：一个负责理解文字，也就是文本编码器；一个负责画图，也就是图像生成器。中间靠“交叉注意力”来沟通。

翻译成人话就是：你写一段话，编码器把它翻译成“内部黑话”，然后传话给画画的那个部分。坏就坏在传话环节，信息是有损耗的。

打个比方。你让一个人看一张写着“ STOP ”的路牌照片，然后让他口头描述给另一个人去画。结果画出来的“ STOP ”可能变成“ SOTP ”。这就是传话损耗。

CLIP 和 T5 这些传统文本编码器，本质上是“看图说话”练出来的。它们擅长理解“这张图里有什么”，但不擅长理解“这个字长什么样”。一个字对它们来说，跟一片树叶的纹理没啥区别。都是图案。

所以 Midjourney 花了三年、七个大版本迭代，文字准确率依然只有 40% 左右。不是它不想做好，底层架构决定了这事它天然就不擅长。

但你猜 Ideogram 怎么做的？它说，我不传话了，我让文字和图像一起画。

先看一个反直觉的数据。

Ideogram 4.0 只有 93 亿参数。作为对比，FLUX.2 有 320 亿，腾讯的混元 Image 3.0 是 800 亿的参数的大模型。但文字渲染表现上，Ideogram 全面超越这两家。

本站展示来自正式来源同步的内容摘录与本地观察，不默认跳转外网；需要核验上下文时可查看来源记录。