自然· 电子：面向多机器人系统的通用群体智能

本文来自微信公众号：集智俱乐部，作者：彭晨，原文标题：《自然 · 电子：面向多机器人系统的通用群体智能》

提升多机器人系统的通用性，是推动其真正走向开放世界应用的关键。而要实现这一目标，发展具备广泛适应能力的群体智能，或许是必经之路。

多机器人系统研究最早可追溯到20世纪80年代。经过40多年的发展，多机器人系统仍然在很大程度上局限于一些可通过预编程完成的专门任务。它们在开放世界通用任务上的应用仍面临相当大的限制，这类应用可能会面临多样化的目标、不可预见的情况，以及会涉及到频繁的人—群体交互。因此，实际的可用性是评估多机器人系统的一项基础且关键的指标，很多研究者也指出：“需要更多研究，把机器人群体从实验室带到真实世界。”

西湖大学特聘研究员、集智社群深度参与科学家赵世钰在多机器人系统领域有十余年的经验，因此对将这些系统转化到开放世界应用中的挑战深有感触。比如，他最近的工作开发了多架微型飞行器（MAV），它们可以利用机载视觉检测、定位并捕获目标MAV。然而，为了处理各种边缘情况，例如目标移出摄像头视野，或MAV数量发生变化时，仍然需要频繁修改算法。此外，该系统仅限于目标追踪任务，无法智能地处理其他相关任务，例如目标搜索或巡逻。人—机器人交互仍然不够灵活，缺乏对自然语言或其他直观模态的支持。

因此，把实际可用性置于该领域研究的核心，以创造能够在开放世界应用中有效工作的多机器人系统，是很有必要的。事实上，从专用到通用的转变正是近年人工智能发展的核心。特别是大语言模型的发展，提升了跨广泛任务的通用性，并使人工通用智能（AGI）的理念更接近现实。这一转变如今也正在扩展到其他领域，包括多机器人系统。

通用群体智能

在多机器人系统中追求通用性，需要研究的是通用群体智能（general collective intelligence,GCI）。GCI这一概念很宽泛，可用于描述社会学、生物学概念，以及近年的AI智能体集体（agentic collectives），但本文聚焦于多机器人系统的GCI。诸如“通用群体（swarm）智能”等术语也可能表达类似含义，但本文不太愿意采用“swarm intelligence（群体智能）”一词，因为它比较强调从简单个体到复杂集体的“自下而上”的范式，这与本文所阐述的GCI概念并不一致。

GCI的特点可以从三个方面来描述（图1）。第一，多任务：现有系统通常局限于协同追踪、搜索、运输或形状拼装等专门任务，而GCI应能处理具有多样目标的多项任务，这构成了通用性的本质。第二，新情境：即便是单一任务也包含大量潜在情境，因为机器人数量、个体能力以及环境条件等参数会发生变化。GCI必须能够智能地处理不可预见情境，因为对所有可能的情境进行预编程是不现实的。第三，自然交互：GCI应支持多模态的人—机器人交互，特别是自然语言的形式。人类用户应能灵活指令系统，以指定或修改任务目标，并调整协作策略。

图1｜GCI的描述、范式与方法论。GCI可从三个方面描述：多任务、新情境与自然交互。其实现可遵循三种范式之一：面向通用任务的预训练基础模型；预训练基础模型加上任务特定适配；以及需要从零开始进行任务特定适配的算法。发展GCI将需要整合多种方法，包括基于模型的优化、数据驱动学习与语言模型，以利用它们互补的优势。

直观地说，GCI可被视为一种“集体大脑”。具备GCI的多机器人系统需要整合多个层级的组件：用于驱动与执行的个体身体（body）；用于感知与控制的个体小脑（cerebellum）；用于认知与规划的个体大脑（brain）；以及用于协同任务规划的集体大脑（collective brain）（图2）。要创建这样的集体大脑，研究重点可能需要发生三项转变。

首先，GCI应优先关注高层任务规划，而非低层协同控制。一方面，这是因为通用性与专用性本质上是冲突的：那些为特定机器人动力学或控制精细调优的系统很难通用。分层结构可能更有潜力做好这种权衡，但层级划分及其接口需要谨慎设计。另一方面，这种优先级也源于当今多机器人系统开发中分工的必然性：期待一个团队开发所有组件是不现实的，一个强大的多机器人系统大概率需要整合由不同团队开发的机器人。如果多机器人协同过度依赖低层机器人动力学，那么系统集成将会困难，更不用说纳入新的或异构类型的机器人。因此，GCI应强调高层规划，以确保对多样的底层个体机器人平台具有灵活性与兼容性。不过也需要指出，分层框架所得到的策略可能不如专用算法产生的策略那样最优。从基础角度看，采用层级结构，也是用一定的最优性来交换更强的通用性与灵活性。

第二，GCI应将集中式协同与分布式执行结合起来，而不是过度强调分布式协同。尽管分布式系统通常因其鲁棒性而受到赞誉，但文章提供了不同视角。首先，多机器人系统应当遵循人类指令以完成有意义的任务，而这类任务通常涉及全局目标，因而不可避免需要某种形式的全局或集中式协同——即便这种集中式协同是隐式的。例如，形状拼装要求一群机器人形成预先指定的形状，这确实是一个全局目标。尽管最终策略看上去可能是分布式的，但其人工设计过程本质上是集中式的。此外，多机器人系统始终需要被人类用户监控，这就需要一个中心监控单元。该单元自然可以作为集中式协调者，而不需要额外专门设备。在许多应用情境中，尤其是民用领域，中心单元并不像人们常以为的那样脆弱。与其过度强调其脆弱性，不如更重要地关注如何实现通用性。因此，研究者不必害怕采用集中式协同，因为它既自然又是完成有意义任务所必需的。

第三，GCI可能需要依赖复杂、强能力、异构的机器人，而不是简单、低成本的个体。以往大量多机器人研究都采用“简单、低成本个体机器人”的假设，期待复杂的集体行为从简单的局部交互中涌现。这一范式最初受到蚂蚁群、鱼群和鸟群等生物集体的启发。然而，生物个体表面看似简单，但其本质相当复杂：即便是复制一只蚂蚁、鱼或鸟的部分能力，当下仍然十分吃力。可以说，对简单个体机器人的假设在一定程度上阻碍了多机器人系统在复杂真实应用中的落地。之所以采用该假设，一个原因是过去机器人能力有限。而当前个体机器人（如人形、四足与飞行机器人）的快速进展，为实现强大的多机器人系统创造了新机会。

在方法论上，GCI应该拥抱语言模型等新兴方法。在机器人领域，将高层任务规划与低层任务执行进行层级分离并非新鲜事。然而，传统任务规划方法主要依赖基于模型的优化，这往往倾向于专用化。很可能需要将基于模型的优化、数据驱动学习与语言模型进行恰当整合。基于模型的优化具有较强的可靠性与可解释性，但通用性有限；而语言模型与学习方法提供更强的通用性，但相对可靠性与可解释性较弱（图1）。这种互补性很有利，提示实际系统很可能采用混合方法。

除方法论之外，还存在若干部署范式（图1）。一种范式使用单一算法框架，通过最少的参数调节即可自适应处理不同任务。例如，作者团队近期提出了GenSwarm，一个基于LLM的框架，能够从自然语言指令端到端地生成、部署并执行多机器人策略，以应对多样的多机器人任务。另一种范式利用LLM的泛化能力，对策略进行预训练，使其能在多样任务中开箱即用。介于两者之间的范式可能是使用一个跨领域表现良好的基础策略，再结合在线学习做持续适应。

图2｜构建具备GCI的多机器人系统。具备GCI的多机器人系统可能需要整合多个层级的组件：用于驱动与执行的个体身体；用于感知与控制的个体小脑；用于认知与规划的个体大脑；以及用于协同任务规划的集体大脑。

通过应用创造价值

总而言之，多机器人系统只有在能够融入我们的日常生活、作为可靠伙伴并帮助解决实际问题时，才能实现真正价值。为实现这一点，研究重点可能需要三项转变：从低层协同控制转向更高层任务规划；从强调分布式协同转向集中式与分布式协同的平衡整合；从简单、低成本个体机器人转向复杂、强能力个体。还应更加强调根植于应用的目标，使方法选择由这些最终目标所驱动。随着这些发展，GCI有望推动多机器人系统突破当前专用应用的停滞平台，进入快速增长的新阶段。

#自然 #电子面向多机器人系统的通用群体智能