36氪深度文章 · 站内详情
93 亿参数打爆 800 亿,这个开源模型把 Midjourney 短板给秒了
开源模型Ideogram 4.0解决AI生图写字难问题
- 来源
- 36氪深度文章
- 时间
- 2026/6/5 10:42:15
- 标签
- 模型更新 / 国内 AI
- 分类
- 国产模型与应用竞争
正文
如果你用过 AI 生图,你应该经历过一种很微妙的崩溃。
你满怀期待地输入:“帮我做一张活动海报,标题写夏日大促全场五折。”几秒钟后,AI 给你吐出来一张图。构图完美,光影绝佳,配色高级得像某个4A公司花了二十万做出来的。
但你把图放大一看,上面的字是这样的:“夏月大足,全土五析。”
不是拼错了,就是缺胳膊少腿。要么干脆就是一串你认不出来的乱码。
笑死,这不是你运气不好。这是整个 AI 生图行业持续了三年多的集体尴尬:画啥像啥,写字就废。不管你用的是 Midjourney 还是 Stable Diffusion ,面对带文字的图,结果都差不多。
直到昨天,一家叫 Ideogram 的加拿大公司,扔出了一个 9.3B 参数的开源模型 Ideogram 4.0 。在文字渲染这个“行业绝症”上,它干了件让所有人大跌眼镜的事。
画了三年,连个 STOP 都拼不对
你可能会问,文字不就是一些笔画吗?画人脸比写字难多了吧?AI 人脸都能给你画得毛孔分明,为啥四个字母就搞不定?
这事还真不一样。
主流的 AI 生图模型,Stable Diffusion、Midjourney、DALL-E,它们的“大脑”分成两部分:一个负责理解文字,也就是文本编码器;一个负责画图,也就是图像生成器。中间靠“交叉注意力”来沟通。
翻译成人话就是:你写一段话,编码器把它翻译成“内部黑话”,然后传话给画画的那个部分。坏就坏在传话环节,信息是有损耗的。
打个比方。你让一个人看一张写着“ STOP ”的路牌照片,然后让他口头描述给另一个人去画。结果画出来的“ STOP ”可能变成“ SOTP ”。这就是传话损耗。
CLIP 和 T5 这些传统文本编码器,本质上是“看图说话”练出来的。它们擅长理解“这张图里有什么”,但不擅长理解“这个字长什么样”。一个字对它们来说,跟一片树叶的纹理没啥区别。都是图案。
所以 Midjourney 花了三年、七个大版本迭代,文字准确率依然只有 40% 左右。不是它不想做好,底层架构决定了这事它天然就不擅长。
但你猜 Ideogram 怎么做的?它说,我不传话了,我让文字和图像一起画。
93 亿参数小个子,怎么打赢 800 亿巨无霸
先看一个反直觉的数据。
Ideogram 4.0 只有 93 亿参数。作为对比,FLUX.2 有 320 亿,腾讯的混元 Image 3.0 是 800 亿的参数的大模型。但文字渲染表现上,Ideogram 全面超越这两家。
来源说明
本站展示来自正式来源同步的内容摘录与本地观察,不默认跳转外网;需要核验上下文时可查看来源记录。