The Verge 资深评测作者 Victoria Song 遇到的荒诞点很具体:她家那台约 5000 美元的 Eight Sleep Pod 4 Ultra 智能床,在一次晨间 AI 总结里,暗示她配偶饮酒直接减少了打鼾,还建议保持这个习惯。
Song 不是随手试了几晚的用户。她此前长期测试过这台设备,后来还自费买下评测机。也就是说,这不是一个“我随便吐槽智能家居”的段子,而是一个深度用户碰到的产品边界问题。
这里要先压住判断的尺度。不能据此说 Eight Sleep 官方长期建议用户喝酒,也不能把它写成医疗事故。更准确的说法是:当睡眠硬件开始用 AI 给行为建议,它就不再只是展示数据,而是在替用户解释健康。
问题也从这里开始。
AI 把一晚数据写成了因果
这次触发点是打鼾数据。
Eight Sleep 应用显示,Song 配偶当晚 Snore % 为 0%,比 7 日基线下降 100%。AI 总结把这个结果写成 directly caused by alcohol,还解释说酒精会放松喉部肌肉,从而减少气道阻塞和打鼾频率。
这句话听起来像健康建议。也正因为像,才危险。
常见医学资料通常给出相反提醒:睡前饮酒可能让人更快入睡,但会降低睡眠质量,并可能加重打鼾。酒精放松喉部肌肉,恰恰是很多资料建议睡前数小时避免饮酒的原因。
单晚数据最多说明“那一晚设备检测到的打鼾少了”。它不能证明饮酒是原因,更不该顺手推导出“继续这样做”。
| 看到的结果 | AI 给出的说法 | 更稳妥的理解 |
|---|---|---|
| Snore % 为 0% | 打鼾下降直接由饮酒造成 | 只能说明当晚检测到的打鼾减少 |
| 比 7 日基线下降 100% | 形成明确因果解释 | 样本太少,不足以排除姿势、疲劳、环境等变量 |
| 建议保持该习惯 | 把观察变成行为建议 | 涉及饮酒时,应避免鼓励性表达 |
| 夫妻睡眠排行榜 | 用分数和皇冠刺激比较 | 可能把休息变成压力来源 |
我更在意的是这个转折:健康硬件原本在做“记录”,AI 摘要却把记录加工成了“解释”。解释再往前一步,就是建议。
这一步不能轻。
排行榜让睡眠变成夫妻绩效
Eight Sleep 还新增了夫妻睡眠排行榜。
它会比较 sleep fitness score、睡眠时长和打鼾数据,再给赢家加皇冠。这个设计在运动软件里很常见。跑步、骑行、健身,用户本来就在追求目标和排名。
但睡眠不一样。
睡眠是恢复,不是比赛。尤其是在同一张床上,打鼾、翻身、温度偏好,本来就容易影响两个人的关系。产品再加一个排行榜,等于把本来该降噪的场景,变成每天早上的小型绩效复盘。
对普通消费者,动作很简单:如果你看重睡眠追踪,可以继续把它当趋势工具;但不要把单次 AI 总结当健康建议。涉及饮酒、呼吸、心率异常、用药这类内容,应该回到医生或更可靠的医学资料。
对正在考虑购买高价智能床的人,也可以更谨慎一点。5000 美元买的是温控、舒适度和长期数据,不该顺带买一套关不掉、说不清、还会制造焦虑的晨间评语。若产品不能明确关闭 AI 建议或排行榜,采购延后并不保守。
做 AI 健康功能的团队也该从这里拿到教训:用户不是反对数据,也不是反对摘要。用户反对的是把猜测写成结论,把结论包装成生活方式建议。
接下来只看三个边界
睡眠追踪当然有用。
Apple Watch、Garmin、Oura Ring 这类设备长期都在用心率、体温、活动量和睡眠阶段帮助用户看趋势。它们的基本克制,是少把单次波动写成诊断,少把相关性说成因果。
Eight Sleep 的特殊之处在于,它不只是戴在手上的传感器。它在床上,影响两个人整晚的温度、体验和休息。用户更容易把它的结论当成贴身建议,而不是一条普通通知。
接下来真正要看的,不是它会不会再说错一句话,而是产品机制有没有收住边界。
| 观察点 | 为什么重要 | 更合理的方向 |
|---|---|---|
| AI 总结能否关闭 | 用户应能拒绝健康建议 | 摘要、建议、排行榜分开开关 |
| 因果表达是否受限 | 单次数据不该写成确定原因 | 用“可能相关”“建议观察趋势”替代定论 |
| 高风险主题是否降级 | 饮酒、用药、呼吸问题更敏感 | 少给行为建议,多提示咨询专业意见 |
目前看不清 Eight Sleep 会怎么处理这类总结。可能是改提示词,可能是增加医学审校,也可能只是降低语气强度。没有更多证据前,不该替它补回应。
但底线可以说清:能记录打鼾,不等于能解释打鼾;能生成晨报,不等于有资格给生活方式开方。
回到开头那张 5000 美元的床。用户花这笔钱,是为了睡得更稳,不是为了醒来后被算法教育该不该喝酒,再和配偶争一个皇冠。
