## 具身智能数据迷局：巨头跑马圈地，却无人说清到底缺哪类数据
具身智能赛道的算力与算法之争尚未落幕，数据战已骤然升温。腾讯推出Tairos具身智能开放平台、京东上线数据交易平台并宣布发动60万人采集1000万小时数据、百度则推出具身智能数据超市，试图解决数据质量参差不齐、格式标准不一等行业痼疾。表面是数据资源的跑马圈地，实则指向一个更深层的命题：谁掌握数据连接与流动的规则，谁就在下一代智能体竞争中占据定义权。

然而热闹背后，数据短缺的核心矛盾至今语焉不详。去任何一场机器人论坛，几乎所有人都在喊数据不够，但追问到底缺什么数据，答案却莫衷一是。更值得警惕的是，近期荣耀机器人「闪电」以50分26秒完成21公里半马、打破人类男子纪录的消息刷屏网络，但仔细拆解会发现，这一成绩主要依赖0.95米大长腿、自研液冷系统、电机扭矩从420Nm提升至600Nm——本质是消费电子轻量化与结构设计能力的迁移，而非算法或AI能力的突破。同一套算法换一台机器人，大概率跑不出这个成绩。

这种混淆恰恰折射出具身智能数据困境的结构性根源：LLM之所以能跑通规模定律，是因为互联网文本本身是「闭环系统」——一句话同时包含意图、语义与隐含推理路径，模型只需不断从中提取规律。而具身智能没有这样的闭环。100万小时人类生活视频里没有机器人关节控制信息，1000万仿真场景往往缺少真实世界的噪声与长尾分布，遥操作积累的任务数据则难以泛化。跑步、干活、产线持续作业三种能力，对应三种截然不同的数据需求，而这个根本性区分尚未被行业真正厘清。「缺数据」喊了三年，但数据缺口究竟在何处，仍是一笔糊涂账。
---
- **Source**: 36氪最新 (RSSHub)
- **Sector**: The Lab
- **Tags**: 具身智能, 数据短缺, LLM规模定律, 人形机器人, 数据闭环
- **Credibility**: unverified
- **Published**: 2026-04-24 11:57:33
- **ID**: 76809
- **URL**: https://whisperx.ai/en/intel/76809