北大、银河通用等团队提出LDA-1B 模型，让“非标准”数据，成为机器人理解世界的关键

本文来自微信公众号： 42号电波，作者：兰博，编辑：James，原文标题：《北大、银河通用等团队提出 LDA-1B 模型，让「非标准」数据，成为机器人理解世界的关键》

过去一两年，机器人基础模型的进展，很大程度建立在行为克隆这条路径上。通过收集大量专家示范数据，模型可以在多个操作任务上达到可用水平，这一点已经在抓取、搬运等标准任务中得到验证。

不过当数据规模继续扩大，更具体的问题开始出现了，模型见过越来越多的动作，但仍然难以利用那些非标准的交互数据。这些数据中包含了物体如何运动、接触如何发生等关键信息，但在以行为克隆为主的训练范式下，往往被直接丢弃。

尽管一些工作尝试用统一世界模型（UWM）的思路去整合这些数据，希望通过动力学建模来吸收更多信息，但在实际落地中也遇到了一些限制，比如数据的使用方式比较粗糙，不同来源的数据难以协同。还有就是数据集本身高度碎片化，缺乏统一结构，很难支撑模型规模的进一步扩大。

在这样的背景下，北京大学、银河通用等团队提出了隐空间世界动作基础模型LDA-1B，重新审视了数据在训练中的作用，通过通用具身数据摄入机制，让不同质量、不同形式的数据参与到统一建模中，并在隐空间中联合学习动力学、策略与视觉预测。

另外，配合一个标准化的大规模数据集EI-30k，以及基于多模态扩散Transformer的建模方式，模型可以在10亿参数规模下实现稳定训练，并在多类操作任务中表现出了更高的泛化能力。

这种变化其实并不局限于具体性能的提升，重点在于模型到底该如何看待「数据」和「世界」。

LDA-1B的核心是什么？

当前许多主流的机器人基模，多数都建立在行为克隆框架上。其基本假设是只要收集足够多的专家示范，模型就可以学会对应的动作策略。

只不过这种范式天然对数据质量非常敏感，但是高质量的数据获取成本又很高，遥操作、精确标注、对齐动作空间，这些也让数据规模难以真正扩大，即使是引入仿真数据，也容易受到现实差异的影响。

而且还有大量的「非标准数据」在这个过程中容易被忽略，比如没有动作标注的人类第一视角视频、动作噪声较大的低质量轨迹、不同机器人本体之间不一致的数据。

此外，更深层的问题在于表征方式，很多方法直接在像素空间预测未来状态，这会让模型过度关注视觉细节，比如光照、纹理、背景变化，而非真正关键的物理变化。这种耦合容易让模型：

更容易「记住外观」，并非「理解因果」。

泛化能力受限，尤其是在长时序任务中。

对接触、力反馈等复杂交互建模不足。

在机器人的落地部署，这种局限则会让机器人的动作变得不稳定。

对于上述问题，LDA-1B提出的核心不是简单的结构改进，重点是一整套训练逻辑的重构。

首先是统一隐空间动力学建模。模型不直接在像素空间预测未来，而是在基于DINO特征构建的隐空间表示中学习状态演化。这种做法可以减少对外观信息的依赖，使模型更关注哪些变化是由动作引起的。

其次是通用数据摄取机制，将不同类型数据赋予不同功能：

高质量数据：同时用于策略学习与动力学建模。

低质量轨迹：主要用于学习动力学。

无动作标注的人类视频：用于视觉预测。

在这个过程中，数据不再被简单筛选，会被「分工使用」。

这种调整的关键在于把「数据质量」从一个过滤条件，变成了一个建模维度。模型不再要求所有数据都具备完整监督，而是允许不同监督信号共同参与训练。

相比较传统方式，LDA-1B这种转向动力学驱动的策略，也让机器人开始逐渐理解世界的物理状态。

一个框架，同时预测动作与未来状态

在具体设计上，LDA-1B采用了一个较为复杂但逻辑一致的架构。模型核心是一个多模态扩散Transformer，同时对动作序列和未来视觉潜变量进行去噪预测，让策略学习与状态预测在同一框架内完成。

联合优化目标：包括策略、前向动力学、逆动力学和视觉预测。

异步对齐机制：视觉与动作流在时间上并不严格同步，通过共享注意力层进行融合。

隐空间表示：使用结构化DINO特征，避免像素冗余。

其中一个细节在于，模型通过「动作条件注意力」学习关注区域。论文中展示，模型在注意力可视化中呈现出对接触区域和运动方向的关注倾向，而忽略背景干扰。

这类机制在机器人行为方面，可以让动作决策更依赖物理交互而非视觉显著性，并且在任务中保持稳定和连续性。

同时，即便模型规模在扩展，但训练还能保持稳定，这也与扩散建模和隐空间表征的结合有关。

不过LDA-1B之所以能够扩展到基础模型规模，并不只依赖模型结构本身，更重要的是其配套的数据组织与训练方式。对此，团队构建的具身交互数据集（EI-30k），在这一点上起到了基础性作用。

EI-30k数据集规模总计超过3万小时，涵盖真实机器人、仿真、带动作标注的人类示范以及无动作人类视频四类数据。这些数据在质量、标注完整性上差异明显，但并未被严格筛除，而是保留并附加质量标签，使模型能够在不同保真度数据上共同学习。

而为了解决异构数据难以协同的问题，所有数据被统一转换为LeRobot格式，并在动作层面对齐到共享坐标系。此外，在训练上，预训练阶段冻结VLM与DINO编码器，仅更新动力学与策略相关模块。

在这个基础上，模型通过轻量级后训练直接使用未筛选的遥操作数据进行适配，无需依赖高质量专家示范，从而降低数据成本并提升实际可部署性。

「低质」数据反而带来提升？

在具体的实验上，团队在仿真和真实世界中进行了验证，包括接触密集操作、灵巧操作、长时序任务等方面。

真实世界实验中，LDA-1B分别被部署在配备二指夹爪的Galbot G1、装上灵巧手的Galbot G1（22自由度）、以及搭载BrainCo灵巧手（10自由度）的宇树G1上。

少样本适应阶段的结果表明，在简单抓取和放置任务上，LDA-1B的成功率达到了80%到90%，展示出了一定的跨本体迁移能力。

在清理垃圾的任务中，相比于GR00T-N1.6和π0.5，LDA-1B达到了35%的成功率。

其中有一个值得特别关注的发现来自数据效率实验，论文在此处挑战了一个普遍共识：低质量数据通常是负担，甚至会降低模型性能。

团队在仿真中构建了一个混合质量数据集，包含专家轨迹和次优轨迹（含暂停、重试、低效动作等）。实验中，仅使用高质量数据时，基线模型达到基础性能；而当LDA-1B在相同混合数据上进行后训练，竟然通过利用「低质量」轨迹额外实现了10%的性能提升。

这也意味着那些在过去被视为累赘的所谓「低质量」数据，在新的框架下反而成为动力学学习的差异化燃料，可以训练出一个对真实世界不规则性适应性更强的模型。

总体来看，LDA-1B带来的启发，其实是在认知层面的范式校正，那就是机器人模型不一定要盲目追求完美数据。

如果模型只能依赖干净数据，那么规模扩展会始终受限。所以LDA的做法提供了一种不同路径，即优化对于数据的利用方式。

而且更深层的取舍出现在方法论层面，LDA选择的是统一世界动作模型路线，试图在一个大模型里同时承载策略、动力学和视觉预测。

另一条可能路径是模块化系统，分别训练世界模型和策略再耦合。两条路径谁能走向收敛，目前还没有定论，但LDA的结果至少表明，在异构数据规模化的利用上，统一方案展现出了竞争力。

但这种方法也存在着一定的边界，比如论文中提到依赖固定的DINO视觉特征，且主要采用第一视角相机视角，这也可能会限制模型对新视觉视角和多模态信号的泛化能力。

从方法论上看，这项工作其实更接近一种系统级设计，并不是单点优化。它着重调整了问题的拆解方式，让数据、模型和任务之间的关系更加一致。

所以在机器人领域正处在从「学习动作」转向「学习物理规律」的赛道上，LDA在隐空间动力学上的探索也给了行业一个相对明确的参考。

项目主页：https://pku-epic.github.io/LDA/

论文链接：https://arxiv.org/pdf/2602.12215

#北大银河通用等团队提出LDA1B #模型让非标准数据成为机器人理解世界的关键

北大、银河通用等团队提出LDA-1B 模型，让“非标准”数据，成为机器人理解世界的关键

现在看清了：AI不是平权，它是资本和劳动力的最后一战。越有钱跑得越快

证监会出手，中能粮科违规擅自到纳斯达克发行上市，被重罚，公司在美上市当天就被停牌

1140万元债务“压垮”昔日900亿市值巨头？华谊兄弟启动预重整，公司回应，8年亏超85亿元，市值只剩49亿，谁来接盘？

发表回复取消回复

中国歌唱家徐铭鸿将在符拉季高加索马林斯基剧院分院演出 – 2026年4月25日, 世界报道

EaseUS Data Recovery 2025 Portable + Activator [Patch] [x64] [100% Worked]

美国财长：美国对中国的稀土金属依赖将在4年内归零 – 2026年4月25日, 世界报道

现在看清了：AI不是平权，它是资本和劳动力的最后一战。越有钱跑得越快

印度教授：美欧单边主义削弱G20，金砖国家正崛起 – 2026年4月25日, 世界报道

中国歌唱家徐铭鸿将在符拉季高加索马林斯基剧院分院演出 – 2026年4月25日, 世界报道

Searching for the forgotten heroes of World War Two

‘Somebody threatened to burn the school down’

Trump-Putin: Your toolkit to help understand the story

Business booming for giant cargo planes

王毅分别会见阿联酋总统中国事务特使、日本国际贸易促进协会会长

联合国：袭击试图获取食物援助的加沙平民的行径“令人发指”

韩国总统李在明正式宣誓就职

俄侦查委员会：俄两座桥梁被炸系乌克兰所为

第五届“中菲相知奖”颁奖仪式在马尼拉成功举行

你感兴趣的其他新闻

中国歌唱家徐铭鸿将在符拉季高加索马林斯基剧院分院演出 – 2026年4月25日, 世界报道

EaseUS Data Recovery 2025 Portable + Activator [Patch] [x64] [100% Worked]

美国财长：美国对中国的稀土金属依赖将在4年内归零 – 2026年4月25日, 世界报道

现在看清了：AI不是平权，它是资本和劳动力的最后一战。越有钱跑得越快

印度教授：美欧单边主义削弱G20，金砖国家正崛起 – 2026年4月25日, 世界报道

最新文章

图库

阅读更多相关

发表回复 取消回复

你感兴趣的其他新闻

标签云

最新文章

图库

发表回复取消回复