摘要

从移动到灵巧操作,人形机器人在展现复杂的全身能力方面取得了显著进步。然而,目前大多数机器人学习数据集和基准测试主要聚焦于固定的机械臂,而现有的少数人形机器人数据集要么局限于固定环境,要么任务多样性有限,往往缺乏人机交互和下肢移动能力相关的数据。此外,针对基于学习的策略在人形机器人数据上进行基准测试的标准化评估平台也十分稀缺。

在本研究中,我们提出了 “人形机器人日常数据集(Humanoid Everyday)”—— 一个大规模、多样化的人形机器人操作数据集。该数据集的特点是任务种类丰富,涵盖灵巧物体操作、人机交互、移动 – 操作一体化动作等场景。借助高效的人工监督遥操作流程,该数据集整合了高质量的多模态传感数据(包括 RGB 图像、深度图像、激光雷达(LiDAR)和触觉输入)以及自然语言标注,包含 10.3k 条轨迹、超过 300 万帧数据,覆盖 7 个大类下的 260 项任务。

此外,我们在该数据集上对主流策略学习方法进行了分析,揭示了这些方法在不同任务类别中的优势与局限性。为实现标准化评估,我们还推出了一个基于云的评估平台,研究人员可在该平台的受控环境中无缝部署自己的策略,并获取性能反馈。

通过发布 “人形机器人日常数据集”,以及配套的策略学习分析结果和标准化云评估平台,我们旨在推动通用人形机器人操作领域的研究,为开发更具能力、更能融入现实场景的实体机器人智能体奠定基础。我们的数据集、数据采集代码和云评估网站已在项目官网公开:https://humanoideveryday.github.io

1 引言

近年来,人形机器人领域的进展大幅缩小了 “实体差距”(embodiment gap),使机器人能够完成跑步、跳舞以及复杂的全身动作等动态任务 [1,2,3,4]。然而,采集人形机器人操作数据集仍面临诸多挑战:需要在室内外多种环境中运行、执行范围广泛的任务,并且要通过双手协同、全身运动和以人为中心的交互来发挥人形机器人的形态优势。

现有数据集主要针对固定机械臂或带有简单抓手和轮式底座的移动平台 [5,6,7,8,9](详见 “数据集对比表”);即便像 “Humanoid Policy”[10] 这类以第一视角为核心的研究,也侧重于重复性任务,且移动相关的数据有限。这些局限性凸显了对多样化、交互式人形机器人操作数据集的需求 —— 该类数据集需涵盖人形机器人在不同环境和任务复杂度下的全范围类人能力。

除了缺乏多样化、交互式的数据集外,人形机器人操作领域的标准化评估方法也明显不足。尽管近年来深度学习方法在机器人操作任务中的性能不断提升 [11,12,13,14],但仍需一个统一的评估框架,以便在人形机器人任务场景下系统地比较这些方法。评估标准的缺失使得对不同策略进行公平、严格的比较变得困难,也限制了我们对 “何种因素能真正推动多样化场景下有效人形机器人操作” 的理解。

这些局限性共同引出了一个关键问题:一个有效的人形机器人操作数据集应具备哪些特征,才能填补当前在多样性、实体性和评估方面的空白,助力开发更智能的机器人智能体?

在本研究中,我们提出了 “人形机器人日常数据集(Humanoid Everyday)”—— 一个大规模数据集,涵盖 7 个类别下的 260 项任务(见图 2),记录了人形机器人在多样化环境中的全身移动、灵巧操作和丰富的人机交互过程。与此前范围有限或场景简单的数据集 [10,8,9] 不同,我们的数据集在多种环境中收集了更全面、更贴近人类日常的任务数据,并通过人工监督确保数据准确性。此外,我们对宇树(Unitree)官方遥操作脚本进行了技术重构,实现了不同模态数据的亚毫秒级同步。在 30Hz 的采样频率下,我们的采集流程能记录每个人形机器人任务片段的高分辨率传感数据和动作数据。每个任务均通过第一视角 RGB 视频、深度信息、激光雷达扫描、触觉和惯性测量单元(IMU)数据、关节姿态、关节动作以及自然语言任务描述进行记录。

除数据采集外,我们还在 “人形机器人日常数据集” 上对主流策略学习方法进行了分析,明确了这些方法在不同任务类别中的优势与局限性。这些分析为理解实体人形机器人操作的挑战提供了初步见解。为进一步支持科研社区,我们推出了一个基于云的评估平台:研究人员可上传自己的策略,在我们标准化的真实环境中执行,并获取详细的性能反馈。与现有聚焦于机械臂 [15] 或模拟智能体 [16] 的云评估系统不同,我们的平台是首个专为人形机器人设计的评估平台,旨在降低公平比较的门槛,促进人形机器人领域的协作进展。

综上,“人形机器人日常数据集” 与配套的评估系统为推动通用人形机器人操作研究提供了宝贵基础,助力开发更稳健、更具能力且更能融入现实场景的实体智能体。

本研究的贡献主要包括三方面:(1)一个大规模多模态人形机器人操作数据集,该数据集在多样化真实场景中采集,并采用优化的遥操作流程;(2)在 “人形机器人日常数据集” 上对主流策略学习方法的分析,揭示了这些方法在不同任务类别中的优势与局限性;(3)一个基于云的评估平台,为人形机器人操作领域的标准化、可复现和协作式研究提供支持。

2 相关工作

2.1 机器人操作数据集

近年来,机器人操作数据集在推动数据驱动的机器人策略学习方面发挥了重要作用。部分数据集聚焦于单一行为模式,例如推 [19,22,23]、抓 [24,25,26,27,28]、倒液体 [29,30] 等动作。也有研究提出了大规模多任务数据集,以提升在多样化操作场景和环境条件下的泛化能力,但这些数据集仍以机械臂平台为核心 [5,7,31]。

近年来,随着人形机器人的兴起,针对人形机器人的专用数据集开始出现。文献 [32,10,8] 利用动作捕捉数据或人工遥操作,在模拟环境或受限桌面场景中训练人形机器人智能体,重点关注简化的操作任务。文献 [33,9] 采集了真实世界中的人形机器人数据,通过上肢遥操作展示了多样化的操作技能。

尽管取得了这些进展,大多数现有数据集仍聚焦于机械臂操作或能力有限的人形机器人,往往缺乏多样化任务、复杂环境和全身功能相关的数据。与之相比,“人形机器人日常数据集” 记录了人形机器人在多种室内外场景中的全范围全身活动,为通用人形机器人策略开发提供了全面的资源。

2.2 人形机器人学习

近年来,研究人员探索了多种基于学习的策略在人形机器人上的应用。其中,许多研究利用强化学习和 “模拟到真实” 迁移技术,实现机器人的全身协调,以完成平衡和移动任务 [34,35,36,37,38,1];另有部分研究在强化学习训练流程中融入人类动作数据集,以简化 “模拟到真实” 的迁移过程 [2,39]。

除全身控制外,人形机器人操作学习也成为一个活跃的研究方向。许多方法首先通过虚拟现实(VR)应用程序进行遥操作,采集演示数据 [40,41,42,43],然后利用模仿学习和视觉 – 语言 – 动作(VLA)模型训练相应策略,使机器人能够高精度复现演示行为 [44,45,2,41,42,46,47,48,49]。

然而,现有方法本质上受限于所采集演示数据的多样性 —— 这些数据大多集中在少量任务或环境中。因此,鲜有研究能在多样化任务类别中对人形机器人策略进行系统评估。“人形机器人日常数据集” 具备所需的多样性和规模,可用于训练更稳健、泛化能力更强的操作策略;同时,我们对主流模仿学习方法的分析也为理解这些方法的优势与局限性提供了参考,有助于更高效地学习和执行复杂行为。

2.3 机器人策略评估

除了人形机器人数据集和训练方法的可用性外,对机器人策略进行公平评估对于衡量研究进展、确保不同系统和环境下的可复现性至关重要。文献 [50,51,44,52,53] 开发了基准测试套件和评估协议,在受控条件下的模拟系统中评估机器人性能。

除模拟评估外,在真实世界场景中直接评估策略也是一种常见做法。文献 [54,55,56] 提出了简单可复现的真实世界机器人设置,确保在相似环境下进行一致的策略推理和评估。AutoEval [15] 允许用户在相同的标准化设置下上传和部署不同的学习策略,进行自主评估。

然而,这些评估框架大多局限于机械臂平台,并未扩展到面临独特挑战的人形机器人领域。为填补这一空白,“人形机器人日常数据集” 推出了专为人形机器人设计的云评估平台。该平台支持在标准化的真实世界人形机器人系统上部署策略,为不同任务和用户提供一致的推理和评估环境,为人形机器人操作策略的基准测试提供支持。

3 人形机器人日常数据集(Humanoid Everyday Dataset)

为支持人形机器人在各类真实世界任务中的操作学习与评估,我们提出了 “人形机器人日常数据集”—— 一个大规模、高质量的数据集,由全身人形机器人采集,涵盖人机交互、移动 – 操作一体化等多样化任务。在 3.1 节中,我们将介绍硬件设置(包括用于数据采集的人形机器人平台和操作界面);3.2 节将概述我们的数据采集流程,并说明该方法如何提升整体效率;最后,3.3 节将介绍数据集的构成与结构。

3.1 环境设置

硬件设备

我们使用两台宇树(Unitree)人形机器人进行数据采集:

  • 29 自由度(DoF)的 G1 机器人,配备 7 自由度三指灵巧手(Dex3-1);
  • 27 自由度的 H1 机器人,配备 6 自由度 INSPIRE 手。

H1 和 G1 均搭载了英特尔实感(Intel RealSense)RGB-D 相机和 Livox 激光雷达系统。此外,G1 的 Dex3-1 手部配备了触觉传感器,进一步增强了数据集的多模态特性。

遥操作界面

操作人员佩戴 Apple Vision Pro 头显,通过头显底部的摄像头捕捉手腕和手指关键点。手指动作通过灵巧手重定向系统(dex-retargeting system)[57] 映射到机器人的灵巧手上,使机器人能够完成基本操作;手腕姿态则通过基于 Pinocchio 的逆运动学算法 [58] 转换为手臂关节指令,实现上肢的全范围遥操作。

3.2 高效可扩展的数据采集

我们提出了一种多进程遥操作流程,该流程基于宇树官方遥操作库进行重构,显著提升了大规模、高质量人形机器人数据的采集效率。我们的设计直观且稳健,支持低延迟、高频控制的遥操作,同时确保数据流的同步性和高质量。

与宇树官方遥操作脚本中的阻塞式同步设计不同,我们的数据采集流程采用多进程和异步 IO 读写方式,确保高频遥操作和高质量数据采集。具体而言,如图 3 (a) 所示,我们将 IO 数据、逆运动学(IK)计算和机器人关节控制解耦到不同进程中,通过共享内存缓冲区实现快速、低延迟的进程间通信。这种设计为逆运动学求解器分配了更多计算资源,使遥操作控制更流畅、频率更高。此外,数据记录和传感器处理在主流程进程内的并行线程中异步处理,确保数据采集无阻塞且时间对齐。

同时,我们提供了一个简洁的数据采集界面,隐藏了系统复杂性;将机器人的双目红外馈送流传输到 VR 头显,以提升操作人员的场景感知能力;并支持单次运行中进行多次记录,无需重启整个程序。

所有数据采集均在配备第 11 代英特尔 i7 CPU 的笔记本电脑上完成。如图 3 (b) 所示,与宇树官方遥操作系统相比,我们的流程将数据采集时间缩短了一半,控制延迟从 500 毫秒降至 2 毫秒。这些改进凸显了我们流程的高效性和可扩展性,能够快速、高质量地采集复杂人形机器人任务的数据。

图 3:数据采集流程

(a) 我们将数据流传输、数据写入、机器人控制和逆运动学计算分配到不同的进程和线程中,确保可靠高效的数据采集;

(b) 我们的流程大幅降低了控制延迟,提升了数据采集效率。

3.3 多样化的日常人形机器人任务集合

“人形机器人日常数据集” 是一个大规模、多样化的人形机器人操作任务集合,包含 7 个主要类别,具体如下(见图 4):

  • 基础操作(Basic Manipulation):物体的基本拾取 – 放置操作;
  • 可变形物体操作(Deformable Manipulation):与布料或其他可变形物体的交互;
  • 关节式操作(Articulated Manipulation):操作带铰链或关节结构的物体;
  • 工具使用(Tool Use):利用外部工具实现目标;
  • 高精度操作(High-Precision Manipulation):需要高精度完成的复杂任务;
  • 人机交互(Human-Robot Interaction):与人类的协作动作;
  • 移动 – 操作一体化(Loco-Manipulation):结合移动和操作的动作。

这些任务在室内外环境中执行,涉及与周围物体的复杂交互和动态场景。此外,部分任务需要下肢移动,进一步增加了数据集的多样性。环境背景的这种多样性丰富了采集到的数据,有助于开发能够适应不同真实世界场景的泛化策略。

“人形机器人日常数据集” 包含 260 项独特任务,每项任务有 40 个片段(episode),为训练提供了充足的数据。我们通过丰富的传感模态记录每个任务,全面呈现人形机器人的交互过程。每个片段包含 RGB 视频、深度图、激光雷达数据、触觉反馈和自然语言任务描述。这种多模态设计提供了更丰富的训练轨迹,有助于开发更具适应性和环境感知能力的人形机器人策略。

图 4:数据分布

“人形机器人日常数据集” 中任务和技能类别的分布情况。

4 人形机器人操作策略评估

为实现对人形机器人操作策略的系统、可复现评估,我们推出了一个专为人形机器人设计的基于云的评估平台,如图 5 所示。

我们的云评估平台支持在本地部署的人形机器人上进行远程策略部署,解决了真实世界策略推理中 “硬件访问瓶颈” 的问题。研究人员无需拥有人形机器人,即可在真实的人形机器人上测试自己的策略 —— 这一设计大幅降低了人形机器人操作学习研究的门槛,并实现了不同方法和用户间评估流程的标准化。

我们重构了 “人形机器人日常数据集” 中的部分任务环境,以支持真实、标准化的评估。研究人员若想在该数据集上评估其训练的策略,只需指定策略服务器的 IP 地址和端口,即可连接到平台。之后,我们的系统会将来自 G1 或 H1 机器人的实时视觉输入(RGB 图像和深度信息)和机器人状态信息传输给客户端。用户可在本地使用自己的策略进行推理,并将生成的动作指令发送回我们的服务器,这些指令会在真实的人形机器人上实时执行。此外,我们还将机器人的第一视角 RGB 图像、深度图像以及第三人称相机视角流式传输到网页界面,方便用户远程监控任务执行过程。

我们的评估平台框架支持高效的人形机器人策略部署。如图 6 所示,我们的在线评估系统在电池耗尽前可连续运行超过 100 分钟;仅因电机过热需要 3 次人工干预,其余时间系统均保持较高的评估效率。这种基于云的系统支持在 “人形机器人日常数据集” 上对人形机器人操作策略进行可复现、与硬件无关的评估。我们相信,该平台能为无法直接获取人形机器人硬件的研究人员提供实用解决方案,并为公平的基准测试和协作开发建立通用测试平台。

图 5:评估平台

“人形机器人日常数据集” 推出了基于云的评估平台,可在真实世界的人形机器人设置上进行评估。

图 6:人工干预下的每分钟评估步骤数

我们的评估系统在电池耗尽前可连续运行超过 100 分钟,仅因电机过热需要 3 次人工干预;其余时间系统均保持稳定的高评估效率。

任务类别任务DPDP3ACTOpenVLAπ₀-FASTπ₀.5GR00T N1.5
关节式操作旋转椅子100%90%100%70%100%100%100%
工具使用用橡皮擦擦拭桌面0%70%0%30%40%40%0%
基础操作将饺子玩具放入盘子30%20%70%30%60%30%80%
可变形物体操作在桌面上折叠毛巾0%20%0%40%20%40%50%
人机交互传递饺子玩具40%40%70%60%30%40%100%
移动 – 操作一体化走向并抓住门把手30%0%0%30%10%0%30%
高精度操作将玫瑰插入花瓶0%0%0%10%0%0%0%
平均值29%34%34%39%37%36%51%

表 2:模仿学习方法在 “人形机器人日常数据集” 上的成功率

图 7:实验设置

7 个任务类别的代表性推理任务。黄色区域表示任务执行区域(存在轻微差异),箭头表示机器人手臂的运动轨迹。对于每个任务,我们在 7 种不同策略下各进行 10 次试验。

5 实验

5.1 模仿学习策略的性能

为深入了解现有模仿学习方法在人形机器人操作场景中的表现,我们在 “人形机器人日常数据集” 上对多种策略进行了评估,包括扩散策略(Diffusion Policy, DP)[11]、3D 扩散策略(3D Diffusion Policy, DP3)[12]、基于 Transformer 的动作分块策略(Action Chunking with Transformers, ACT)[13]、OpenVLA [14]、π₀-FAST [59]、π₀.5 [60] 和 GR00T N1.5 [61]。我们在 30Hz 的人形机器人数据上训练这些策略,直至收敛。对于基于 VLA 的策略,我们采用两阶段微调策略:首先在完整的 “人形机器人日常数据集” 上进行微调,然后针对每个类别的任务特定数据进一步调整模型。

我们在 “人形机器人日常数据集” 的所有 7 个任务类别中进行了实验。每个任务的详细实验设置见图 7。表 2 展示了这些策略的实验结果 —— 每种策略在 7 个任务上各进行 10 次试验。

总体而言,由于我们数据集中动作空间的高维度(共 28 个自由度),所有端到端模仿策略在人形机器人操作任务中都面临挑战。其中,DP3 在大多数情况下性能优于 DP,我们推测这是因为 3D 点云观测对环境变化具有更强的鲁棒性。然而,在 “移动 – 操作一体化” 任务中(机器人需移动,且点云在帧间发生大幅变化),基于 3D 的输入不如 RGB 图像可靠,导致任务失败。另一方面,ACT 的整体性能较差,因为它未能有效整合视觉反馈,且容易过拟合到演示轨迹,机械地复现动作而无法适应场景变化。

相比之下,大型 VLA 模型在人形机器人操作任务中表现出更一致、更稳定的性能 —— 这得益于预训练先验知识提升了模型的泛化能力,尤其在需要精度和鲁棒性的 “可变形物体操作” 和 “移动 – 操作一体化” 任务中优势明显。OpenVLA 没有对动作空间进行压缩,因此在 30Hz 高频数据上训练时,往往无法生成有效的动作;将频率下采样到 2Hz 可缓解这一问题,但生成的动作流畅度会下降。π₀-FAST 采用基于离散余弦变换(DCT)的 tokenizer 进行动作压缩,但人形机器人的高维度动作无法被很好地表示,导致 token 数量过多、输出 token 错误,解码误差有时还会导致机器人在推理过程中停止运行。另一方面,尽管 π₀.5 生成的人形机器人动作比前两种模型更流畅,但它仍容易过拟合到轨迹,忽略视觉反馈。

值得注意的是,GR00T N1.5 总体性能最佳,这很大程度上得益于它在多个大规模人形机器人数据集上的广泛预训练 —— 这种预训练提供了强大的先验知识,非常适合我们多样化的操作任务。

尽管存在这些差异,所有模仿学习策略在最具挑战性的任务类别(如 “移动 – 操作一体化” 和 “高精度操作”)中都表现不佳。在 “将玫瑰插入花瓶” 任务中,几乎所有策略的成功率都为 0%:尽管许多策略能让机器人拿起玫瑰,但始终无法将纤细的花茎插入花瓶。这表明当前模型缺乏精细的视觉空间感知能力,也说明人形机器人平台上的模仿学习仍面临巨大挑战,同时也存在广阔的改进空间。

5.2 以 “人形机器人日常数据集” 为先验知识进行预训练

为验证 “人形机器人日常数据集” 能否作为大型视觉 – 语言 – 动作(VLA)模型的有效预训练先验,我们设计了一项消融实验,比较两种训练策略:(1)前一节介绍的两阶段微调流程;(2)不使用该数据集预训练,直接进行任务特定微调。

我们选择 “传递饺子玩具” 这一人机交互任务作为实验对象 —— 该任务代表了中等难度的操作场景,既需要协同能力,也需要对交互动态的鲁棒性,同时所有 VLA 模型都能在该任务上达到一定的成功率(非零)。

如图 8 所示,在进行任务特定微调前,先在 “人形机器人日常数据集” 上进行微调,始终能提升 VLA 模型的性能。这表明,接触多样化的人形机器人行为能为模型提供有用的先验知识,助力下游操作任务的学习。这一结果也说明,大规模、多样化的人形机器人数据能提升人形机器人操作的鲁棒性和稳定性。

图 8:基于 “人形机器人日常数据集” 预训练的消融实验

直接任务特定微调与基于 “人形机器人日常数据集” 的两阶段微调的性能对比。

6 讨论与结论

本研究提出了 “人形机器人日常数据集(Humanoid Everyday)”—— 一个大规模、多样化的人形机器人操作数据集,涵盖了人形机器人在各类日常场景中的全身移动、灵巧操作和丰富的人机交互。借助该数据集,我们对现有策略学习方法进行了分析,揭示了这些方法在人形机器人操作中的优势与不足。此外,我们还提供了一个基于云的评估平台,支持在我们的人形机器人设置上直接部署策略,为全球人形机器人科研社区的可复现研究和协作进展提供支持。我们相信,“人形机器人日常数据集” 将成为推动多功能、智能人形机器人智能体发展的宝贵资源。

尽管 “人形机器人日常数据集” 为人体机器人操作提供了全面的数据集,但我们仅评估了现有的模仿学习策略架构。这些基准模型虽提供了有益见解,但在更具挑战性的任务中,由于人形机器人动作空间的高维度,它们的性能会下降 —— 这表明需要更专门的模型设计。此外,我们的云评估系统目前尚不支持自动场景重置,因为当前的模仿学习策略尚未足够稳健,无法让人形机器人在无人协助的情况下恢复环境状态。

在未来的工作中,我们计划开发更稳健的人形机器人策略,并扩展评估系统以支持自主场景恢复。

文章来源:

https://arxiv.org/html/2510.08807v1