GenCAD 项目页面在 2025 年 5 月 24 日公布了一种图像条件 CAD 生成方法:输入一张 CAD 图像,模型输出的不是一个普通 3D 外壳,而是一段参数化 CAD 命令历史,也就是 CAD program。
这段程序可以再交给几何内核,转换成 3D solid。反常点就在这里:它不是先追求“看起来像”,而是试图复原“怎么建出来”。
对工程设计、制造和 CAE 前处理来说,这个区别很要紧。一个网格模型能展示外观,但工程师真正需要的常常是可改尺寸、可追溯步骤、能继续进入下游流程的 CAD 历史。
它解决的不是外形,而是可编辑建模过程
很多图像到 3D 方法会选择 mesh、voxel 或 point cloud。原因很现实:数据更常见,视觉任务也更好处理。
但工程代价也在这里。网格能看,未必能改;点云能拟合形状,未必能表达拉伸、倒角、布尔运算这些建模意图。
GenCAD 把目标放在参数化命令序列上。问题就从“复原一个形状”,变成“复原一段建模历史”。
这更接近 CAD 的真实工作方式,也更难。CAD 里的 B-rep 数据结构复杂,拓扑关系、几何约束、命令顺序都会影响结果。不是多喂几张图片就能解决。
| 路线 | 优点 | 工程短板 | GenCAD 的位置 |
|---|---|---|---|
| Mesh / voxel / point cloud | 数据常见,适合视觉生成 | 精度和可编辑性弱 | 不作为最终目标 |
| 3D solid | 更接近工程对象 | 如果没有历史,修改仍受限 | 由 CAD program 转换得到 |
| CAD program / 命令历史 | 可编辑、可追溯 | 表征和训练更难 | 直接生成的核心对象 |
这也是我更在意 GenCAD 的原因。它的价值不在“又能从图生成 3D”,而在把生成式 AI 往 CAD 语言本身推了一步。
方法链路是四步:先压缩 CAD,再对齐图像
GenCAD 的核心架构可以拆成四段。
它先用自回归 Transformer 编码 CAD 命令序列,学习 CAD program 的潜在表示。接着用对比学习,把 CAD 命令潜空间和 CAD 图像潜空间对齐。
然后,潜空间扩散模型在图像条件下生成 CAD 命令的潜在表示。最终,解码器把潜变量还原成参数化 CAD 命令序列。
这条链路说明了一件事:直接从图片逐 token 生成 CAD 命令,风险很高。命令一错,后面的几何结果可能就崩。
先把复杂命令压到潜空间,再做图像-CAD 对齐和扩散生成,至少是在降低学习难度。它借用了近几年扩散模型处理跨模态生成的思路,但输出对象换成了可执行建模指令。
这里也要压住预期。GenCAD 不是成熟 CAD 软件的新功能,也不能直接替代 SolidWorks、Fusion、Onshape 这类专业工具。它目前更像一条研究路线:把图像生成从“视觉资产”拉向“工程建模历史”。
对工程团队的影响:可以评估,不该迁移
最该看这类工作的,是两类人。
一类是机械设计和逆向建模团队。他们会关心:草图、零件截图或概念形态,能不能减少重复建模时间。
另一类是 CAE 前处理、制造工艺和设计空间探索团队。他们关心的不是模型漂不漂亮,而是生成结果能不能被检查、修改、参数化迭代。
更具体一点,现阶段比较稳妥的动作不是采购替换,也不是团队迁移。更合理的是把它放进技术预研:看生成的 CAD program 能否被现有几何内核稳定执行,能否被工程师接手修改。
如果团队正在评估 AI 3D 工具,也不该只看渲染效果。要把评估表改一下:增加命令成功率、尺寸偏差、拓扑稳定性、历史树可读性这些指标。
目前还看不清的地方也很多。原文没有给出可工业部署的指标,也不能据此判断它能覆盖复杂装配体、自由曲面、企业模板、版本管理、制造公差和下游 CAE 约束。
这不是小问题。真实 CAD 流程里,模型不是一个孤立实体。它常常连着材料、工艺、标准件、命名规则和仿真网格要求。差之毫厘,谬以千里。
接下来最该观察三个变量:
- 生成命令在真实几何内核里的执行成功率。
- 复杂零件上的尺寸精度和拓扑稳定性。
- 生成历史能否被工程师自然接手,而不是只能看演示。
如果这些变量过不了关,GenCAD 仍会停在研究演示。若能稳住,它才可能进入设计辅助、逆向建模和方案探索的工具链。
