Krea 6 月 23 日发布 Krea 2 技术报告,披露这组图像生成基础模型的数据管线、训练流程、架构选择和文本/图像控制系统。
官方称,Krea 2 已进入 Artificial Analysis 文生图榜单前 10,并在独立实验室模型中排第 2。这个成绩能说明它具备竞争力,但不能推出“Krea 2 全面超过主流闭源模型”。报告本身也没有给出参数规模、训练算力或完整数据集数量。
我更在意的是另一个点:Krea 2 要解决的,好像不是“模型不会画”,而是“模型太会画成一种样子”。
现在很多图像模型的默认输出已经很稳。干净、锐利、结构正确、商业样张感强。问题也在这里。早期创意探索需要的是岔路,不是一张看起来已经定稿的图。
Krea 2 的主线:把默认审美重新拉宽
Krea 把 Krea 2 定位为面向 creative exploration 的 foundation models。这个说法很关键。它不是只追求一个 polished default,也不是把“更像成片”当成唯一目标。
这和当下图像模型的竞争口径有点错位。Midjourney、DALL·E、Adobe Firefly、Flux 这类模型已经把稳定性、结构感和提示词遵循推得很远。它们解决了很多“出不了图”的问题,也把用户抬到了一个更高的默认质量线上。
但创意工作里,默认质量不是全部。
广告视觉、概念设计、品牌内容团队在早期常常不缺一张漂亮图,缺的是多个方向。粗粝一点、低饱和一点、带运动感一点、像旧印刷品一点,都可能是有效风格。传统美学打分如果只奖励清晰、干净、锐利,模型最后学到的世界就会变窄。
Krea 2 的技术报告至少表明,它在刻意避开这条路。
| 维度 | Krea 2 报告中的做法 | 影响 |
|---|---|---|
| 模型定位 | 面向 creative exploration 的图像生成基础模型 | 不只优化单一默认成片感 |
| 数据目标 | 强调风格、领域和长尾概念覆盖 | 更适合做早期方向探索 |
| 预训练约束 | pretraining mix 明确不使用 AI 生成图像,并用自研分类器过滤合成图 | 减少合成图偏差,但清洗成本更高 |
| 训练流程 | 包含 pretraining、midtraining、SFT、preference optimization、RL 等阶段 | 从广覆盖逐步收敛到可控输出 |
| 控制能力 | prompt expander 与 style-reference system | 降低用户表达风格意图的门槛 |
这里要收住判断。Krea 2 不是拿一份报告证明自己“赢了”。它更像是在证明一条路线:图像模型的可靠性,不一定要靠牺牲风格分布来换。
数据和训练:不是只筛好图,而是保留可探索空间
Krea 对预训练数据的处理很有辨识度。报告里强调,模糊、低饱和、运动感、粗粝质感不一定是坏样本。有些时候,它们就是艺术选择。
这点对图像模型很重要。数据过滤不是中性动作。你删掉什么,模型就少学什么。你持续奖励什么,模型就会把什么当成默认答案。
报告称,Krea 2 的预训练覆盖 256px、512px、1024px 三个分辨率阶段。低分辨率阶段数据量达到十亿级。数据清理用到 CPU 过滤、哈希去重、自研分类器、SAE 特征标注等方法,用来处理重复、伪影和过度代表的概念。
到 midtraining 阶段,Krea 又用语义聚类、FAISS 层次 k-means、Wikipedia PageRank 相关方法检查长尾概念覆盖。
这些细节说明一件事:Krea 2 的训练管线不是只在末端调“好看”。它把风格覆盖和概念覆盖前置到了数据阶段。
但这条路有现实约束。
不用 AI 生成图像进入 pretraining mix,意味着它不能简单依赖合成数据和蒸馏来抄近路。广覆盖数据也更难清洗。坏标注、版权边界、地区偏差和文化偏差,都可能进入模型。报告没有给出足够信息证明这些问题已经被完全解决。
所以更准确的说法是:Krea 2 在押注“更干净的真实图像预训练 + 更宽的风格覆盖”。这条路线有价值,也更重。
控制系统:真正影响设计团队的是表达成本
Krea 2 的 prompt expander 和 style-reference system,瞄准的是一个真实断点:模型训练时看到的是长而密的图像描述,用户输入时往往只有一句短提示词,或者几张参考图。
比如“复古杂志感的海边广告”。这句话对人来说够用,对模型来说信息太稀。色彩、镜头、材质、年代感、构图、印刷质感,都没展开。
Krea 的 prompt expander 用开源 LLM 作为基础,经两阶段 SFT 和 RL 训练,把短提示词扩展成更完整的视觉描述。它要处理的是短提示词不足,不是替用户改创作意图。
style-reference system 则处理另一类问题:有些风格很难用语言说清。用户可以用一张或多张图注入风格和氛围,并控制强度与权重,同时减少内容泄漏。
这对两类人最直接。
| 对象 | 更现实的动作 | 仍要小心的点 |
|---|---|---|
| 关注图像模型路线的 AI 从业者 | 可以把 Krea 2 当作“数据覆盖 + 控制系统”路线样本,而不是只看榜单分数 | 报告未披露参数、算力和完整数据规模,不能据此判断训练效率上限 |
| 设计与内容团队 | 可以先用它做 moodboard、广告 KV、社媒素材和概念提案的风格探索 | 暂不宜只因报告就迁移主工作流,仍要看稳定性、版权流程、产品入口、价格/API 等信息 |
对设计团队来说,更实际的选择不是立刻换工具,而是延后采购或迁移判断,把 Krea 2 放进候选测试池。测试重点也不该只看“第一张图漂不漂亮”。
更该看三件事。
一是复杂商业需求中的一致性。比如同一品牌风格、同一主体、同一系列素材,能不能多轮保持稳定。
二是风格参考会不会压过内容控制。参考图很强时,模型容易把不该带走的主体、构图或元素也带走。
三是广覆盖数据路线的成本能不能跑得动。如果真实图像清洗、标注和长尾覆盖太重,它未必能在迭代速度上压过合成数据路线。
这才是 Krea 2 技术报告留下的真正问题。榜单前 10 是入场券。能不能帮创作者少被默认审美牵着走,才是它要交的答卷。
