Allen AI 发布了 OlmoEarth v1.1。它不是一个通用大语言模型,而是面向遥感和卫星影像任务的基础模型家族。
这次最值得看的地方有点反常:v1.1 没有主打“更大”,也没有宣称全面超过 2025 年 11 月发布的 OlmoEarth v1。官方说法更收着:在混合研究基准和合作伙伴任务上基本维持 v1 表现,同时最高可把计算成本降低 3 倍。
也就是说,OlmoEarth v1.1 的价值不在刷新榜单,而在算账。
对要处理国家级、洲际乃至全球影像的团队来说,少一点计算开销,可能比多几个百分点的单项分数更有用。
从 v1 到 v1.1:遥感模型先卡在计算账本上
OlmoEarth 处理的是 Sentinel-2 等卫星影像。典型任务包括红树林变化监测、森林损失原因分类、农作物类型制图。
这些任务的难点不只是“识别准不准”。更麻烦的是面积。
在论文基准上跑一组实验,和在几十万平方公里上定期刷新地图,是两种工程。后者会持续产生数据导出、预处理、推理、后处理等成本。Allen AI 在原文中也提到,完整链路里计算是最大成本。
这就解释了 v1.1 的取向:它更像是在降低遥感基础模型的部署门槛,而不是再堆一个更大的模型。
| 项目 | OlmoEarth v1 | OlmoEarth v1.1 | 该怎么理解 |
|---|---|---|---|
| 发布时间 | 2025 年 11 月 | 后续发布的新模型家族 | 半年内重点转向效率 |
| 模型定位 | 遥感基础模型系列 | 遥感基础模型系列,含 Base、Tiny、Nano 权重 | 不是单一模型替换 |
| 官方性能表述 | 作为参照版本 | 基本维持 v1 表现,部分任务可能回退 | 不能写成全面超越 |
| 成本变化 | 原有 token 设计 | 最高计算成本降至约三分之一 | 不是所有任务固定省 3 倍 |
| 开放内容 | — | 权重、技术报告、训练代码公开 | 便于复现和二次开发 |
我更在意的是这张表里的最后两列。v1.1 的改动,直接指向开发者最现实的两件事:跑不跑得起,改不改得动。
技术变化:合并 Sentinel-2 多分辨率 token
v1.1 的核心变化在 token 设计。
Sentinel-2 影像包含 10 米、20 米、60 米三种空间分辨率的波段。此前一类做法,是按分辨率拆 token:每个空间 patch、每个时间步、每种分辨率都生成一个 token。
举个简单例子。若输入有两个时间步,一个 patch 就会产生 6 个 token:2 个时间步乘以 3 种分辨率。
v1.1 改为把三种分辨率合并到单一 token 表示中。这样一来,token 数约为原来的三分之一。
这里容易误读。不是“少掉三分之一”,而是合并后大约只剩原来的三分之一。
这件事重要,是因为 Transformer 的计算成本会随 token 序列长度近似二次增长。序列短一点,省下来的不只是线性成本。预训练、微调、推理都会受影响。
所以,v1.1 不是少看数据,而是改变数据进入模型的方式。
这条路线也不是没有代价。SatMAE、Galileo 等遥感模型采用过按分辨率拆 token 的方式,SatMAE 还显示这种做法能带来性能收益。CROMA 则更接近用单 token 处理多波段的思路。
拆得细,可能更容易保留跨波段信息。合得紧,计算账本更好看。
Allen AI 原文也承认,直接粗暴合并会伤性能。比如在 m-eurosat kNN 任务上,曾出现 10 个百分点下降。v1.1 真正做的事,是通过调整预训练方案,把 token 合并带来的损失尽量拉回来。
这也是我不把它看成“压缩版 v1”的原因。它更像一次受控的工程取舍:少一点 token 冗余,换更低的训练和部署成本。
谁会受影响:开发者先算迁移账,研究者先看变量
对遥感 AI 开发者,v1.1 最直接的动作不是立刻换模型,而是重新估算成本。
如果团队在做作物类型图、森林变化监测、灾害后影像分析,且任务覆盖范围大、刷新频率高,就可以把 Base、Tiny、Nano 放进现有流程里做对照。先测推理时长、显存占用和下游指标,再决定要不要迁移。
更现实一点,开发团队可能会延后采购更大 GPU,先试 v1.1 的小权重能不能压住成本。也可能只把 v1.1 用在大范围筛查,把更重的模型留给高价值区域复核。
对地理空间与环境监测研究者,v1.1 的价值在于对照更干净。
Allen AI 称 v1.1 与 v1 使用同一训练数据集。这让两代模型的差异更集中指向 token 设计和预训练调整,而不是数据规模、训练来源、模型参数一起变。
这类对照对研究很重要。否则一个模型变好或变差,很难判断是数据多了、模型大了,还是方法真的起作用。
但边界也要说清。
“最高 3 倍降本”不能机械理解成所有任务、所有硬件、所有流程都固定省 3 倍。真实系统里还有云存储、影像清洗、后处理、人工作业和质量审核。模型前向计算降下来,不等于项目总成本同步降到三分之一。
接下来更该看三件事:
- 不同下游任务的回退幅度有多大,尤其是小样本和细粒度分类任务;
- Base、Tiny、Nano 在真实部署中的性价比差异,是否足以改变团队选型;
- 合并多分辨率 token 的做法,能否迁移到更多传感器和多模态遥感数据。
如果这些问题回答不好,v1.1 更像一次务实的工程优化。若回答得好,它会说明一件事:遥感基础模型走向大范围应用,未必总靠变大,也可以靠把输入设计做得更省。
