36氪深度文章 · 站内详情

93 亿参数打爆 800 亿,这个开源模型把 Midjourney 短板给秒了

2026/6/5 10:42:15 · 模型更新 / 国内 AI

开源模型Ideogram 4.0解决AI生图写字难问题

来源
36氪深度文章
时间
2026/6/5 10:42:15
标签
模型更新 / 国内 AI
分类
国产模型与应用竞争

正文

如果你用过 AI 生图,你应该经历过一种很微妙的崩溃。

你满怀期待地输入:“帮我做一张活动海报,标题写夏日大促全场五折。”几秒钟后,AI 给你吐出来一张图。构图完美,光影绝佳,配色高级得像某个4A公司花了二十万做出来的。

但你把图放大一看,上面的字是这样的:“夏月大足,全土五析。”

不是拼错了,就是缺胳膊少腿。要么干脆就是一串你认不出来的乱码。

笑死,这不是你运气不好。这是整个 AI 生图行业持续了三年多的集体尴尬:画啥像啥,写字就废。不管你用的是 Midjourney 还是 Stable Diffusion ,面对带文字的图,结果都差不多。

直到昨天,一家叫 Ideogram 的加拿大公司,扔出了一个 9.3B 参数的开源模型 Ideogram 4.0 。在文字渲染这个“行业绝症”上,它干了件让所有人大跌眼镜的事。

画了三年,连个 STOP 都拼不对

你可能会问,文字不就是一些笔画吗?画人脸比写字难多了吧?AI 人脸都能给你画得毛孔分明,为啥四个字母就搞不定?

这事还真不一样。

主流的 AI 生图模型,Stable Diffusion、Midjourney、DALL-E,它们的“大脑”分成两部分:一个负责理解文字,也就是文本编码器;一个负责画图,也就是图像生成器。中间靠“交叉注意力”来沟通。

翻译成人话就是:你写一段话,编码器把它翻译成“内部黑话”,然后传话给画画的那个部分。坏就坏在传话环节,信息是有损耗的。

打个比方。你让一个人看一张写着“ STOP ”的路牌照片,然后让他口头描述给另一个人去画。结果画出来的“ STOP ”可能变成“ SOTP ”。这就是传话损耗。

CLIP 和 T5 这些传统文本编码器,本质上是“看图说话”练出来的。它们擅长理解“这张图里有什么”,但不擅长理解“这个字长什么样”。一个字对它们来说,跟一片树叶的纹理没啥区别。都是图案。

所以 Midjourney 花了三年、七个大版本迭代,文字准确率依然只有 40% 左右。不是它不想做好,底层架构决定了这事它天然就不擅长。

但你猜 Ideogram 怎么做的?它说,我不传话了,我让文字和图像一起画。

93 亿参数小个子,怎么打赢 800 亿巨无霸

先看一个反直觉的数据。

Ideogram 4.0 只有 93 亿参数。作为对比,FLUX.2 有 320 亿,腾讯的混元 Image 3.0 是 800 亿的参数的大模型。但文字渲染表现上,Ideogram 全面超越这两家。

来源说明

本站展示来自正式来源同步的内容摘录与本地观察,不默认跳转外网;需要核验上下文时可查看来源记录。

93 亿参数打爆 800 亿,这个开源模型把 Midjourney 短板给秒了 · AI 资讯 · space