美团 LongCat 团队发布并开源了 LongCat-2.0。
官方给出的数字很大:1.6T 总参数,约 48B 每 token 激活参数,预训练数据超过 35T tokens,训练消耗数百万 accelerator-hours,并在超过 50K 颗 AI ASIC 上完成。
如果只看参数,这条新闻容易被归进“又一个万亿 MoE 模型”。但我更在意另一件事:美团把训练和部署都放在 AI ASIC superpods 上,并称完整训练过程中没有回滚,也没有不可恢复的 loss spike。
这才是反常点。
过去大模型基础设施的默认答案,几乎总会绕回 NVIDIA GPU、CUDA、通信库和成熟运维经验。LongCat-2.0 至少表明,另一套 AI ASIC 集群路线已经能支撑一次前沿规模训练和上线服务。至于它是不是更便宜、更稳、更适合大规模替换,目前还看不清。
LongCat-2.0 先看四个事实
LongCat-2.0 已在 GitHub 和 HuggingFace 开源,也提供 longcat.chat 在线试用与 API Access。官方把应用方向放在代码、Agentic workflow 和长上下文任务上,并称兼容 Claude Code、OpenClaw、Hermes 等工具链。
几个核心信息可以压成一张表:
| 维度 | LongCat-2.0 信息 | 我会怎么读 |
|---|---|---|
| 参数规模 | 1.6T 总参数,约 48B 每 token 激活参数 | 继续走 MoE:总量大,单次计算量可控 |
| 训练规模 | 超过 35T tokens,数百万 accelerator-hours,50K+ AI ASIC | 新闻价值不只在模型,也在集群训练验证 |
| 长上下文 | 1M context 训练与推理优化 | 目标更像代码仓库、长文档、Agent 长任务 |
| 发布形式 | GitHub、HuggingFace、在线试用、API Access | 不是只放论文和图表,开发者可以开始接入测试 |
官方页面展示了 LongCat-2.0 与 Gemini、GPT、Claude Opus 等模型在若干任务上的对照。但图中没有给出足够清晰的完整数值。
所以,把它写成“全面领先”并不严谨。
对开发者来说,更现实的测试不是看宣传图,而是把它接进 Claude Code 或类似工具:能不能稳定读完整仓库,能不能完成多步修改,长任务中断率高不高,API 延迟和费用能不能接受。
这会直接影响动作。做代码 Agent 的小团队,可以先把 LongCat-2.0 放进候选模型池,跑非核心任务。基础模型团队和企业平台团队,则更适合先做灰度评估,不宜因为一次发布就迁移生产链路。
架构变化服务长上下文和 Agent
LongCat-2.0 基于 LongCat-Flash 演进。官方强调的几个技术点是 LongCat Sparse Attention、N-gram Embedding、6D 并行,以及 1M context 的训练与推理优化。
LongCat Sparse Attention,简称 LSA,处理的是长上下文里的注意力效率问题。它引入 Streaming-aware Indexing、Cross-Layer Indexing 和 Hierarchical Indexing,目标是减少索引器的访存碎片、重复计算和候选空间。
这类优化听起来不如 benchmark 排名刺激,但对 Agent 更关键。
真实 Agent 任务不是单轮问答。它经常要读长日志、长网页、长代码库,还要多轮调用工具。上下文越长,注意力、KV-cache、显存和延迟的问题越早暴露。
N-gram Embedding 是另一条路线。LongCat-2.0 使用 5-gram 配置,其中包含 135B N-gram Embedding 参数。官方判断是,在 MoE 稀疏度已经接近 97% 的情况下,继续堆专家的收益,不如扩展 N-gram Embedding。
这个选择有工程意味。
MoE 的核心是“只激活一部分参数”。N-gram Embedding 则把更多模式记忆放到嵌入侧。它可能影响训练效果,也会影响大批量解码时的内存 I/O。换句话说,这不是单纯把参数表做大,而是在算力、显存访问和推理吞吐之间重新分账。
对模型工程团队,LongCat-2.0 最值得拆的是这几件事:LSA 在 1M context 下的实际收益,N-gram Embedding 对代码和长任务的增益,以及这些设计在 AI ASIC 上是否比通用 GPU 更容易跑满。
AI ASIC 是最大变量,但别急着写成替代 NVIDIA
官方称,LongCat-2.0 的训练和大规模部署基于 AI ASIC superpods。系统侧还包括确定性算子、数值可靠性、故障恢复、6D 并行、内存优化、Muon 优化器、KV-cache 分片和 PD 分离部署。
这部分比“模型又大了”更有行业含义。
大模型训练不是把芯片堆起来就能跑。难点在软件栈、通信、容错、调度、数值稳定和推理服务。一次训练如果跨过 50K+ AI ASIC,还能按官方说法避免回滚和不可恢复 loss spike,至少说明这套系统已经走过了很长一段工程路。
但边界也要写清楚。
AI ASIC 不等于国产芯片,也不能直接等于“完全替代 NVIDIA”。原文没有披露训练成本、推理价格、能耗、SLA、商业化客户,也没有第三方复现结论。现在能说的是:官方展示了 AI ASIC 大规模训练和部署能力;还不能说它已经具备 NVIDIA 生态同等的开发效率和总拥有成本。
两类人会最先受影响。
基础模型团队会延后一些单一路线判断。过去采购和训练方案可能默认围绕 NVIDIA GPU 展开,现在至少要多问一组问题:非 NVIDIA 集群的算子完备度如何,故障恢复是否成熟,长上下文推理成本能不能压下来。
企业技术决策者会多一个试点选项,但不该急着迁移核心链路。更稳的做法是:先把代码 Agent、知识库问答、长文档分析放到灰度任务里跑;等第三方评测、价格、可用性和 SLA 信息更清楚,再决定是否扩大接入。
接下来最该看三件事:
| 观察点 | 为什么重要 | 没有它会怎样 |
|---|---|---|
| 第三方基准与真实任务复测 | 验证官方能力叙述能否复现 | 只能把它当官方样本,不能当行业结论 |
| 1M context 的有效长度 | 长上下文不等于长任务稳定 | 代码库、Agent、多工具调用仍可能掉链子 |
| AI ASIC 推理价格、吞吐、可用性 | 决定企业是否真会迁移 | 没有成本账,采购只能观望 |
LongCat-2.0 的价值,不在于把所有答案一次给完。它更像把一个关键问题推到台前:大模型的竞争,已经不只是模型结构和训练数据,也包括谁能把一整套非主流 GPU 路线跑到足够大、足够稳、足够可用。
回到开头那组数字。1.6T 参数会被新的模型刷新,35T tokens 也会被更大的训练规模覆盖。更难被轻易覆盖的,是这次公开露出的工程账本:50K+ AI ASIC、数百万 accelerator-hours、训练和部署一起跑通。
这才是 LongCat-2.0 最值得盯住的地方。
