智慧城市低延迟实时机器人遥操作的模块化 AIoT 框架

摘要

本文提出了一种基于人工智能的物联网（AIoT）机器人遥操作系统，该系统专为实时远程操作和智能视觉监控设计，适用于智慧城市应用场景。该架构将基于 Flutter 的跨平台移动界面、基于 MQTT 的控制信号传输，以及通过 LiveKit 框架实现的 WebRTC 视频流技术相集成。系统部署了 YOLOv11-nano 轻量化目标检测模型，可实现实时感知，并将带有标注的视觉叠加层传输至用户界面。控制指令通过 MQTT 协议传输至基于 ESP8266 的执行器节点，该节点通过 Arduino Mega2560 控制器协调多轴机械臂运动。后端基础设施部署在 DigitalOcean 云平台上，确保了可扩展的云编排能力和稳定的全球通信。在本地和国际 VPN 场景（包括中国香港、日本和比利时）下进行的延迟评估显示，执行器响应时间最短可达 0.2 秒，总视频延迟低于 1.2 秒 —— 即便在高延迟网络环境中也是如此。这种低延迟双协议设计确保了在分布式环境中实现响应式闭环交互和稳定性能。与传统遥操作平台不同，所提出的系统强调模块化部署、实时 AI 感知和适应性通信策略，使其非常适合智慧城市场景，如远程基础设施巡检、公共设备维护和城市自动化。未来的改进将聚焦于边缘设备部署、自适应路由，以及与城市级物联网网络的集成，以提升系统的韧性和可扩展性。

1 引言

工业和社会的快速数字化转型，推动了对实时远程机器人操作的需求不断增长，使得物理任务能够跨距离执行、监控或教学。然而，当前主流的远程协作工具（如 Zoom 或 Google Meet）主要为音视频通信设计，缺乏对低延迟、闭环物理交互的基础支持。这一缺口在机器人技术、自动化和 STEM（科学、技术、工程、数学）教育领域尤为突出 —— 在这些领域，精准、实时的指令与反馈至关重要。传统远程呈现系统要么缺乏用于操作的细粒度控制能力，要么需要专有且高成本的基础设施，难以实现可扩展的跨境部署 [1,2]。

新兴的 AIoT 技术 —— 融合嵌入式人工智能、轻量化边缘推理和高效物联网通信协议 —— 为克服这些限制提供了富有前景的基础。实时目标检测模型（如 YOLOv11 [3]）的最新进展，结合经济实惠的微控制器（如 ESP8266、Arduino Mega2560）以及 MQTT [4]、WebRTC [5] 等协议，如今已使构建低成本、可扩展的机器人遥操作平台成为可能。然而，将这些组件整合为一个统一、稳定且响应迅速、适用于国际分布式场景的系统，仍是一项未解决的挑战 —— 这需要在真实网络约束下，精心协调感知、执行和跨平台用户界面。

本研究通过提出并演示一种完全集成的 AIoT 机器人遥操作系统，解决了这些挑战，突破了现有系统在延迟、可扩展性和可用性方面的障碍。该系统将边缘优化 AI 视觉（YOLOv11-nano）、模块化物联网硬件、双协议通信（用于控制的 MQTT 协议和用于视频的 WebRTC 协议），以及跨平台 Flutter 界面无缝融合，并通过云基后端进行编排。与以往方法不同，我们的解决方案实现了控制和视觉反馈的亚秒级响应时间，即便在地理上遥远的位置和多变的网络条件下（如连接中国台湾、日本、中国香港和比利时的 VPN 网络）也是如此，且无需依赖昂贵基础设施，也不将用户限制于特定硬件。

本研究的主要贡献与突破如下：

统一的模块化 AIoT 架构：提出一种混合设计，集成边缘 AI 推理、开源物联网消息传递、实时视频流和灵活的移动交互，针对分布式、可扩展部署进行了优化。
经证实的跨境低延迟稳定运行：大量真实世界实验验证，该系统在本地环境中执行器响应时间稳定达到 0.2 秒以下，在国际环境中低于 0.7 秒，即使带有 AI 叠加层，端到端视频延迟也低于 1.2 秒。
对智能工业与教育的实际影响：该解决方案支持远程实操任务（如装配、巡检和技能培训），使得在无法现场作业的场景下，支持跨境协作、STEM 学习和城市自动化成为可能。

通过填补音视频通信与实际远程物理操作之间的缺口，本研究不仅推动了 AIoT 遥操作领域的技术发展，还为智慧城市、工业和教育应用提供了实用且经济高效的方案蓝图。论文其余部分结构如下：第 2 章综述相关文献；第 3 章阐述系统设计、整体架构和 AI 视觉流水线；第 4 章呈现实验结果；第 5 章讨论研究工作的广泛意义；第 6 章总结全文。

2 相关工作

近年来，支撑 AIoT 机器人遥操作的基础技术取得了快速发展。本章综述关键研究成果，并将其分为三大主题：（1）远程机器人操作系统；（2）嵌入式机器人与人工智能的集成；（3）用于低延迟反馈的通信协议与实时感知技术。

2.1 远程机器人操作与云机器人技术

确定性网络和基于云的控制架构极大地推动了远程机器人操作的发展，即便在复杂环境中也能实现稳定且可扩展的遥操作 [1,2,6]。ABB、优傲机器人（Universal Robots）等主流机器人制造商推出的工业解决方案集成了实时监控和远程操作功能，但通常依赖高成本的封闭基础设施 [7,8]。学术界进一步探索了远程焊接、机器人手术等领域的遥操作技术，强调低延迟执行和触觉反馈对精度与安全性的重要性 [9,10]。然而，这些解决方案往往依赖专用硬件，且未将开放、跨平台部署作为分布式或教育场景的优先目标。

2.2 嵌入式机器人技术、图形化编程与人工智能集成

嵌入式机器人技术的进步推动了轻量化控制、高能效硬件与 AI 驱动感知的融合，为教育和工业领域开辟了新范式 [11,12]。尽管 Open Roberta 等平台及类似环境降低了机器人技术的使用门槛，但它们往往缺乏与真实硬件的无缝反馈集成，或缺乏可扩展的云基视觉处理能力。本系统通过将嵌入式 AI 推理、移动驱动交互和模块化物联网消息传递紧密耦合为统一的可扩展架构，填补了这一缺口。

可靠的机器人遥操作的一个重要支撑技术是精准且快速的目标检测。YOLO 系列模型（尤其是 YOLOv11 等最新版本）凭借其高效性和架构改进，为实时 AIoT 应用提供了出色性能 [13,14,3]。通过部署基于 YOLOv11 的检测流水线，系统可实现用于分布式远程任务的可靠视觉感知。

2.3 通信协议、边缘计算与系统集成

低延迟、高可靠的通信是 AIoT 系统中机器人闭环控制的关键。MQTT 等消息传递协议已被证实适用于带宽受限或易丢包的网络，可支持可靠的实时控制 [4,15]。与此同时，WebRTC 为实时视频流提供了稳定的解决方案，支持低延迟的点对点连接 [5]。对这类协议的对比分析，持续为可扩展、任务关键型物联网部署的中间件和架构选择提供参考 [15]。本研究的架构同时利用 MQTT（用于指令与控制）和 WebRTC（用于视频反馈），确保即便在分布式地理环境中也能实现闭环性能。

边缘计算也日益被视为可扩展分布式 AIoT 的关键支撑技术，它将计算过程靠近数据源，以降低延迟并提升响应速度 [7]。这些趋势不仅支持工业遥操作，还为智能教育、协作机器人和跨境远程工作等新应用场景提供了可能。

2.4 安全性、可靠性与未来发展方向

最后，在多协议物联网环境中，系统安全性、隐私保护和可靠性仍是亟待解决的挑战 [8]。已有的专利技术和最新综述研究探讨了身份验证、协议稳定性和抗攻击能力 —— 随着 AIoT 系统的大规模部署，这些方面变得愈发重要。全面的综述研究强调，随着应用场景向边缘智能、隐私保护和跨领域集成扩展，需要在这些领域持续创新 [2,7]。综上，本研究在现有基础上，整合了网络、边缘 AI、协议设计和模块化机器人技术的最新进展，解决了以往研究中的关键局限，为真实场景和教育场景提供了实用、可扩展的遥操作方案。

3 研究方法

本研究设计的基于 AIoT 的机器人遥操作系统，旨在实现低延迟、高可靠、可扩展的远程操作。该架构整合了嵌入式硬件、基于 AI 的感知、实时通信协议和直观的跨平台用户界面，即便在跨境部署场景下，也能实现高效协作和精准控制。

3.1 系统架构概述

该系统由三个紧密耦合的层级构成：

感知与控制硬件：负责执行操作、数据采集和执行用户指令。
通信协议：确保组件间低延迟、高可靠的双向数据传输。
用户界面：为远程用户提供直观的控制方式和视觉反馈。

图 1 展示了数据流向和核心模块。该架构以远程用户界面与本地机器人平台之间的模块化分工为核心，通过稳定的通信中间件实现连接。

plaintext

边缘设备视频通信
YOLOv11-nano（模型）
Arduino Mega2560（控制器）
嵌入式AI推理
视频通信

摄像头传感器　　MQTT代理　　MQTT服务器
目标预测　　　　移动应用　　Flutter Riverpod（状态管理工具）

图 1：系统架构图，展示基于 Flutter 的移动界面、MQTT/WebRTC 后端、ESP8266-Arduino 执行平台，以及部署在 DigitalOcean 上的云基 YOLO 推理服务器之间的数据流向。

3.2 用户界面与远程控制

在远程用户端，基于 Flutter 的移动应用支持用户实现以下功能：

查看低延迟的实时视频流（通过 WebRTC 协议）。
查看由 YOLOv11-nano 生成的目标边界框，获取实时反馈。
通过滑块控制机器人的每个关节，并切换抓手或末端执行器的状态。

该应用为跨平台设计，采用 Riverpod 进行响应式状态管理，并与控制数据流和视频数据流实现无缝集成。

3.3 本地机器人平台

本地平台包含以下组件：

由 MG996R 伺服电机驱动的六自由度机械臂。
用于基于 MQTT 的无线通信的 ESP8266 微控制器。
用于精准运动逻辑和 PWM（脉冲宽度调制）信号生成的 Arduino Mega2560。
用于捕捉工作空间并提供实时视频的摄像头。

通过 MQTT 接收的控制指令由 ESP8266 传递至 Arduino Mega2560，进而驱动机械臂运动。这种双层硬件设计实现了无线通信与底层执行操作的明确分离，从而提升了模块化程度，简化了调试和升级流程。

该系统已在本地和跨境部署场景（如中国台湾 – 印度尼西亚）下完成验证。在启用 VPN 的条件下，端到端总延迟仍低于 1 秒，在本地测试中延迟可低至 0.5 秒。系统还支持基于 Wi-Fi 直连 + 本地 MQTT 的离线备用模式，确保在无互联网接入的环境中仍能持续运行。这种混合协议设计保证了在各类物联网基础设施环境下的灵活性、响应速度和韧性。图 2 展示了该系统的端到端原型，将远程基于 Flutter 的移动应用（详见图 5）与本地硬件组件（包括六自由度机械臂、ESP8266 微控制器、Arduino Mega2560 控制器和挂载摄像头）无缝集成，实现实时遥操作和视觉反馈。

plaintext

摄像头
机械臂
（此处省略原文中无实际意义的符号）
Material组件库

图 2：端到端原型，整合远程应用（图 5）与本地硬件。

3.4 通信骨干网

系统通信骨干网由两大核心协议构成：

MQTT：提供轻量化的发布 – 订阅式消息传递，适用于低延迟控制信号传输，可支持本地 Wi-Fi 和全球互联网部署。
WebRTC（通过 LiveKit 框架）：确保高效的点对点视频流传输，延迟极低，为精准操作提供必要的实时视觉反馈。

所有通信均通过后端云服务器（部署在 DigitalOcean，由 Cloudflare 提供安全防护）进行路由，该服务器同时协调 AI 推理过程，确保全球可访问性。系统还支持利用 Wi-Fi 直连和本地 MQTT 的离线备用模式，即便在无互联网连接的情况下也能持续运行。

3.5 人工智能视觉流水线与模型训练

该系统采用紧凑型 YOLOv11-nano 目标检测模型实现实时场景理解。其开发流程包括：

利用 LabelImg 工具对 1200 余张图像（包含凸轮、销钉、轴、螺钉、齿轮单元等目标）进行人工标注。
数据增强：通过随机翻转、旋转（±20°）、透视变形、亮度 / 对比度调整和高斯噪声添加，将数据集扩展至 2400 余张图像。
训练过程：在 NVIDIA RTX 5090 GPU 上基于 Ultralytics 官方 YOLOv11 代码训练 100 个轮次（epoch），采用 Adam 优化器，批处理大小为 16，初始学习率为 0.001，并基于验证损失实现早停（early stopping）。
模型导出：将训练后的模型转换为 TFLite 格式（用于可选的边缘部署）和 ONNX 格式（用于高效的云推理）。

该模型的平均精度均值（mAP0.5）达到 89.2%，F1 分数为 0.83，各类别的检测指标汇总于表 1。

表 1：YOLOv11 模型按类别划分的评估指标（边界框精度、召回率、mAP@50、mAP@50-95）

类别	图像数量	实例数量	边界框精度（P）	召回率（R）	mAP@50-95
全部	1156	1156	0.999	1.000	0.988
前脚（forefoot）	234	234	1.000	1.000	0.995
主体（body）	435	435	0.999	1.000	0.976
后脚（hind foot）	297	297	0.997	1.000	0.995
脚掌（soles of the feet）	190	190	1.000	1.000	0.986

3.6 端到端工作流程

系统运行过程如下：

摄像头通过 WebRTC 协议将实时视频帧传输至云服务器。
YOLOv11 模型对传入帧进行推理，返回边界框坐标和类别标签。
带有标注的视频帧被发送回移动客户端，供用户实时查看。
用户通过界面交互发送操作指令。
控制信号通过 MQTT 协议发布，由 ESP8266 接收，并由 Arduino Mega2560 执行。

这种闭环双协议设计支持高响应性的地理分布式遥操作。如后文表 2 所示，该系统在本地和国际场景下均能保持亚秒级延迟。

3.7 性能评估与对比

研究团队在本地和 VPN（跨境）环境下进行了全面测试。表 2 将所提系统的延迟与传统基于 Zoom 的方案进行对比，结果显示前者具有显著优势：

本地执行器延迟：从 Zoom 方案的 1-2 秒降至 MQTT 方案的 0.2 秒。
本地视频延迟：从 0.8-1.2 秒降至 WebRTC 方案的 0.5 秒。
远程（VPN，中国香港 / 日本 / 比利时）执行器延迟：降至 0.7 秒以下。
带实时 AI 叠加层的视频延迟始终低于 1.2 秒。

表 2：本地和远程环境下 Zoom 方案与所提物联网系统的延迟对比

指标 / 条件	基于 Zoom 的远程系统	所提物联网系统
本地控制信号延迟	~1.0-2.0 秒（通过共享输入方式）	0.2 秒（基于 MQTT 的直接执行）
本地视频延迟（无 AI 处理）	0.8-1.2 秒	0.5 秒（通过 LiveKit 的 WebRTC）
带 AI 叠加层的视频延迟（YOLO）	不支持	0.7 秒（RTMP + WebRTC）
远程控制延迟 —— 中国香港（VPN）	1.5-2.2 秒（共享会话延迟）	0.3 秒（MQTT 至 ESP8266）
远程视频延迟 —— 中国香港（VPN）	1.6-2.0 秒	0.6 秒（通过 LiveKit 的 WebRTC）
远程 YOLO 视频延迟 —— 中国香港	无数据（N/A）	0.8 秒
远程控制延迟 —— 日本（VPN）	1.8-2.5 秒	0.5 秒
远程 YOLO 视频延迟 —— 日本	无数据（N/A）	1.2 秒
远程控制延迟 —— 比利时（VPN）	2.0-3.0 秒	0.7 秒
远程 YOLO 视频延迟 —— 比利时	无数据（N/A）	1.1 秒

plaintext

测试/概述
LiveKit（框架）
概述
会话
房间会话 ①
输出流（Egresses）

输入流（Ingresses） 10

电话沙盒设置
5
账单
5月11日 5月18日 5月25日 6月1日 6月8日 6月15日 6月22日 6月29日 7月6日
输出流（Egress）
输入流（Ingress）
搜索（Q Search）
（此处省略原文中无实际意义的符号）
支持（Support）
总输入流数量 ① 
最后更新于4分钟前
自动刷新关闭 过去60天
总计费输入流时长 ① 总非计费输入流时长 ①
推出浅色模式 了解更多
36分钟
0分钟
测试
https://cloud.livekit.io/projects/p_5z2528v0t79/overview

图 3：LiveKit 会话日志，显示分布式端点间的稳定多用户操作。

图 3 展示的 LiveKit 会话日志证实，系统在分布式端点间可实现稳定的多用户操作。

3.8 可扩展性与可拓展性

这种模块化设计支持未来扩展，包括添加新的 AI 模型、新的机器人平台，以及与边缘设备（如树莓派、Jetson Nano）的集成。该架构可适配多种场景，包括远程教育、智能工厂运营和城市自动化。

综上，本研究提出的方法支持在各类环境下实现实时、AI 增强的机器人遥操作，其稳定性能已通过定量基准测试和实际试验验证。边缘 AI、轻量化协议与模块化硬件设计的集成为实现低延迟、经济高效且可扩展的远程操作奠定了关键基础。

4 实验结果

本研究设计的系统旨在通过实时 AIoT 机器人遥操作，支持无缝的跨境协作和实操职业培训。为验证其实际价值和稳定性，研究团队设计了一个模拟真实应用场景的实验：远程用户（如位于日本的技术人员或学生）操作部署在中国台湾的物理机械臂，执行料箱拣选（bin-picking）和机械装配任务。这种实验设置体现了分布式制造、远程维护和技能培训领域的新兴全球趋势 —— 在这些领域，专业知识和劳动力在地理上分散，但对同步、精准物理交互的需求依然存在。

实验如此设计的原因有二：首先，它能评估系统在大网络距离和多变环境（如国际 VPN 连接带来的挑战）下，维持低延迟、高精度控制的能力；其次，料箱拣选和装配任务需要细粒度操作和实时视觉反馈，为评估闭环场景下 AI 感知、用户界面响应性与硬件执行的集成效果提供了严格基准。

通过模拟真实的跨境工作流程，该实验不仅测试了系统的技术极限（如端到端延迟、目标检测精度和执行可靠性），还验证了其在远程教育和工业环境实际应用中的可用性。研究团队预期实验结果将证明：所提架构能稳定实现亚秒级执行器响应和视频反馈，即便在网络延迟下仍能保持高抓取成功率，并为地理分布式团队提供可扩展、经济高效的解决方案。最终，这些结果将验证基于 AIoT 的远程操作作为智能工业和全球化职业培训变革性工具的可行性与优势。

plaintext

图4：带关节标注的六自由度机械臂结构

图 4：带关节标注的六自由度机械臂结构。

移动界面显示带有 YOLOv11 目标检测结果叠加层的实时视频流，帮助用户通过 AI 增强的情境感知实时了解工作空间。通过基于 Flutter 的应用，用户可通过滑块界面直观控制机器人，并获得即时视觉反馈，从而精准选择和操作目标部件。基于 LiveKit 的 WebRTC 技术集成确保了亚秒级视频延迟，为远程操作者提供无缝、高保真的摄像头流传输。同时，基于 MQTT 的指令传输在本地网络中实现了 0.2 秒或更低的执行器延迟，即便在跨境 VPN 连接（包括连接中国香港、日本和比利时的复杂路由）下，仍能将响应时间维持在 0.7 秒以下。这种解耦的双协议设计确保视频和控制信号根据各自需求独立优化，避免了传统单体架构或多路复用架构中常见的瓶颈问题 [5,4]。

在中国台湾进行的初步演示验证了该平台的本地稳定性，平均视频延迟达 0.5 秒，控制延迟达 0.2 秒。在通过 VPN 远程操作时，视频延迟仍低于 1.2 秒，机器人响应时间始终保持较低水平，证实了系统稳定的全球部署能力。这些实证结果表明，在 AIoT 遥操作中，为不同数据流采用专用开放协议具有显著优势，优于传统视频会议或单通道控制系统 [1]。

图 4 详细展示了六自由度（6-DOF）机械臂的结构，该机械臂由 MG996R 伺服电机驱动，采用金属支架和 3D 打印部件的模块化组合。机械臂的 30 厘米工作半径适用于桌面操作和装配任务，既体现了系统的适应性，也展示了其经济高效的复制潜力。模块化硬件设计与分布式 AIoT 软件架构相契合，支持针对各类教育、原型开发或工业场景进行升级和灵活部署 [11,2]。物理层与数字层的这种协同作用，为实现稳定、低延迟的远程机器人操作提供了可扩展的方案蓝图。

plaintext

双机械臂控制器

后脚（hind foot） 0.87
脚掌（soles of feet） 0.80
C:5

已连接（Connected）
机械臂1控制（Arm 1 Control）
机械臂2控制（Arm 2 Control）
机械臂1控制（Arm 1 Control）
电磁铁（Electromagnet）：

电机1（Motor 1） 电机2（Motor 2） 电机3（Motor 3） 电机4（Motor 4） 电机5（Motor 5）
90°
90°
90° 90° 132°

图 5：实时界面与机器人响应：YOLOv11 边界框指导远程用户选择与执行操作。

模块化控制系统采用 ESP8266 接收基于 MQTT 的无线指令，并通过 Arduino Mega2560 生成 PWM 信号驱动伺服电机。这种双层设计简化了调试和固件更新流程。图 5 展示了一个典型的远程操作场景：用户选择检测到的目标并发送指令，机器人随即执行即时、精准的动作。

为评估通信协议性能，研究团队在受限环境和 VPN 环境下对比了 MQTT 和 WebSocket 协议。如表 3 所示，MQTT 协议表现更优，平均控制延迟达 128.4 毫秒，且抖动更低，因此成为本应用的首选协议。

表 3：MQTT 与 WebSocket 协议的平均控制延迟对比

协议	平均延迟（毫秒）	稳定性（抖动）
MQTT	128.4	低
WebSocket	154.2	中

除低延迟控制外，该系统还实现了高精度和高运行稳定性。如图 6 所示，在针对四类目标（前脚、后脚、主体、脚掌）的 30 次远程抓取试验中，在中等光照条件和 VPN 延迟下，平均成功率达 94.6%。如表 3 所示，YOLOv11 模型对所有目标类型的检测性能均保持优异。

plaintext

100 (2).png 前脚（forefoot） 227.png
主体（body） 脚掌（soles of feet） 后脚（hind foot）
228 (4).png 前脚（forefoot） 227 (3).png 226(6).png
后脚（hind foot） 后脚（hind foot） 主体（body）
228 (3).png 27(6).png 227(2).png 主体（body） 226 (5).png
后脚（hind foot） 主体（body） 脚掌（soles of feet）
228 (2).png 主体（body） 226.png 227 (4).png 前脚（forefoot）
主体（body）
脚掌（soles of feet）

图 6：远程抓取演示：YOLO 辅助引导支持分布式操作任务的高成功率。

这些定量结果验证了所提双协议、AI 增强遥操作架构的有效性。该系统不仅解决了传统远程呈现技术的关键局限（如缺乏物理交互能力和高延迟），还为远程教育和工业环境的实际应用提供了可扩展、经济高效的解决方案。

综上，实验评估结果表明，所提框架实现了以下性能：

本地执行器延迟低至 0.2 秒，国际 VPN 环境下低于 0.7 秒；
包含实时 AI 叠加层的端到端视频延迟为 0.5-1.2 秒；
不同目标类型的远程抓取成功率达 94.6%；
与 WebSocket 相比，MQTT 协议稳定性更优、抖动更低；
无缝的跨平台用户体验，支持分布式实操任务。

这些结果凸显了该系统作为下一代 AI 驱动远程协作和智慧城市机器人技术的潜力。

5 讨论

实验结果表明，所提 AIoT 机器人遥操作系统在本地和跨境场景下均能实现稳定的低延迟性能，这得益于多个关键因素。执行器响应时间始终保持较低水平（最低达 0.2 秒），端到端视频延迟低于 1.2 秒，这主要归功于系统的双协议架构 —— 采用 MQTT 传输控制信号，WebRTC 传输实时视频流。这种职责分离使每种协议都能针对特定数据流进行优化，最大限度减少网络拥堵和协议开销，尤其优于 Zoom 等传统平台（这类平台将音视频流多路复用，并非为实时控制设计）。

另一个重要因素是 YOLOv11-nano 模型的集成 —— 其紧凑架构实现了快速高效的目标检测，且计算需求低，这对于资源受限环境下的边缘或云推理至关重要。远程操作任务中 94.6% 的抓取成功率不仅体现了视觉感知的精度，还证明了分布式系统中感知、决策与执行的协同效果。在试验中，大多数失败案例发生在光照不良或目标遮挡场景，这表明通过进一步的数据增强或自适应照明技术，有望进一步提升系统性能。

系统架构的模块化设计（ESP8266 负责无线连接，Arduino Mega2560 负责精准运动控制）也发挥了关键作用，实现了高层协调与底层硬件执行的分离。这种设计确保了系统在多变网络环境下的稳定运行，同时便于快速调试和系统升级 —— 这对于可扩展的现场部署物联网机器人至关重要。

跨境 VPN 测试的一个重要发现是：尽管控制和反馈延迟随网络距离增加而上升，但这种影响始终处于可控且可预测的范围内，从未超过实时遥操作的临界阈值。这种韧性源于轻量化的异步消息架构，以及 WebRTC 流水线中高效的视频编解码器。这一结果表明，即便在带宽多变或高延迟的国际环境中，也能实现可靠的交互式机器人操作 —— 这对于全球化 STEM 教育、远程制造和分布式研究团队而言是一项突破。

然而，系统对云基 AI 推理的依赖在网络连接不稳定的环境中可能成为潜在弱点。这凸显了未来开展边缘优化部署研究的重要性，使系统在网络中断时能无缝切换至本地推理模式。此外，随着应用规模扩大和敏感性提升，对安全性和隐私保护的要求也会相应提高；因此，未来版本将集成强健的身份验证、端到端加密和隐私保护 AI 技术，以防范新兴威胁。

除技术性能外，本研究还为远程物理操作的普及提供了一种模式：降低准入成本和复杂度，使更多机构、中小企业和教育工作者能够参与 AIoT 驱动的创新。这有望重塑技能培训方式、工厂运营模式和研究开展方式，适应日益分布式的世界格局。

6 结论

本研究提出了一种全面的模块化 AIoT 遥操作框架，提升了实时远程机器人操作的能力。通过采用混合架构 —— 整合轻量化、可云卸载的 AI 感知、稳定的双协议通信和模块化硬件设计 —— 研究团队实现了在本地和国际环境下的可靠遥操作，并通过大量实证评估验证了系统性能。

研究结果表明，协议专用化、边缘优化 AI 模型和软硬件模块化设计在克服远程操作历史局限（尤其是延迟、可扩展性和部署成本方面）具有重要价值。在各类组件上实现的高抓取成功率，结合 VPN 安全试验中可控的延迟，证明了该系统的工程成熟度，已具备真实场景部署条件。

除直接的技术成果外，本研究还为可扩展、易获取且高韧性的 AIoT 机器人技术提供了可落地的方案蓝图。它为远程学习、分布式制造和智能基础设施领域开辟了新可能 —— 在这些领域，可靠且直观的遥操作可提升效率并拓展机遇。未来研究将聚焦于自适应多智能体协作、网络中断下向边缘 AI 的无缝切换，以及评估跨领域实际影响的纵向研究。本研究的结果为在互联的全球社会中真正普及先进机器人技术迈出了重要一步。

文章来源：https://arxiv.org/html/2510.11421v1

摘要

1 引言

2 相关工作

2.1 远程机器人操作与云机器人技术

2.2 嵌入式机器人技术、图形化编程与人工智能集成

2.3 通信协议、边缘计算与系统集成

2.4 安全性、可靠性与未来发展方向

3 研究方法

3.1 系统架构概述

3.2 用户界面与远程控制

3.3 本地机器人平台

3.4 通信骨干网

3.5 人工智能视觉流水线与模型训练

3.6 端到端工作流程

3.7 性能评估与对比

3.8 可扩展性与可拓展性

4 实验结果

5 讨论

6 结论

相关文章

人机协同下的宽容式反应型机器人任务规划

从 “答案” 到 “思考”：面向大语言模型优化的推理过程多维度监督

时间一致性生成式人工智能