Avatar XPrize揭示了远程呈现机器人的未来
对于自主机器人而言,仅仅在现实世界中生存下来就是一项难得的成就,而这与任何有用的广义自主性还相去甚远。虽然在一些相当具体的限制条件下,自主机器人开始在办公室、医院和仓库等半结构化环境中找到一些有价值的用武之地,但当涉及非结构化性质的灾区或与人类互动,或任何需要创新和创造力的情况时,自主机器人往往会不知所措。
机器人还没有准备好进入现实世界。
这意味着,在可预见的未来,人类仍然是必需的。不过,这并不是说人类必须亲自在场,而是在某个地方进行人机协同。这就创造了一个机遇。
2018年,XPrize基金会宣布了一项创建“将人类实时呈现到远程位置的化身系统”竞赛(由日本全日空航空公司赞助),目的是开发供人类使用、通过良好的互联网连接可在任何地方与世界互动的机器人系统。决赛于2022年11月在加州长滩举行,由来自世界各地的17支队伍在赛中争夺800万美元奖金。
(1)在Avatar XPrize赛场上,腿不是必选项,因此首尔大学进行了调整,让人类大小的有腿机器人坐在了轮式底座上。 (2)美国东北大学独特的微流体致动器为操作员提供了细致的触觉。(3来自意大利技术研究院的iCub团队认为,其两足化身是将人类自然运动传递给机器人的最直观的方式。(4)XPrize评委杰瑞 普拉特在赛场上操作NimbRo的机器人。 (5)包括i-Botics在内的许多团队都将商用虚拟现实耳机作为其接口的一部分。 (6)将化身接口尽可能制作得身临其境,以帮助操作员有效地控制其机器人。 (7)法国初创公司Pollen Robotics使用了自己的商用平台的修改版
这场比赛展示了人类与机器人系统相互配合的力量,可将我们的经验和适应能力传送到远程位置。虽然这些机器人和接口在很大程度上还属于研究项目,而不是准备好用于现实世界的系统,但Avatar XPrize提供了灵感(以及结构和资金),可帮助世界上一些最好的机器人学家通过远程呈现突破可能的极限。
机器人化身
机器人化身系统与虚拟现实类似,二者都能让身处异地的人将技术作为接口来体验不同的地方并与之交互。与虚拟现实一样,一个有效的机器人化身能够使用户身临其境般地看、听、触摸、移动和交流。二者的不同之处在于,虚拟现实是将人类带入虚拟环境,而机器人化身则是将人类带入真实环境,这个真实环境可能在隔壁房间,也可能在数千公里之外。
XPrize基金会希望有一天化身机器人能被用于更实际的目的:无论距离远近,都能立即为任何人提供照料服务;在人类救援人员无法前往的危险地区进行救灾;执行关键维修、维护任务和其他难以提供的服务。
“现有的将我们自己从一个地方传送到另一个地方的方法发展得不够快。”Avatar XPrize的执行董事大卫•洛克(David Locke)说,“这一领域早就应该有所突破了。我们的目标是通过引入一种新的物理连接方式,跨越距离和时间的障碍,让世界上的任何人都能亲身体验另一个地方,并在需要的时候提供实地援助。”
全球性比赛
在长滩会议中心,XPrize尽最大努力营造了一种既有摇滚音乐会,又有体育赛事,还有机器人研究会议和博览会的氛围。比赛场地设置在一个有体育场座位的竞技场上(对公众开放),装饰华丽,灯光明亮。现场解说伴随着每位选手的比赛。比赛间隙,各支队伍可以在一间会议厅改进其化身系统,他们可以相互交流,也可以与好奇的旁观者沟通。这17支队伍来自法国、德国、意大利、日本、墨西哥、新加坡、韩国、荷兰、英国和美国。每个团队要在3天内准备几次比赛,队员们在场地周围走来走去,努力修理或改进他们的机器人,气氛时而紧张,时而专注。主要的学术研究实验室都设立在小型机器人初创公司旁边,每支队伍都希望凭借独特的方法获胜。
比赛过程中,每个机器人必须执行一系列任务,这些任务以外星表面执行的科学任务为基础。要完成比赛,机器人需要与人类任务指挥官沟通、拨动电气开关、穿过障碍物、通过重量识别容器并对其进行操作、使用电钻,以及最后通过触摸对岩石样本进行分类。根据各支队伍的化身系统成功完成所有任务所花费的时间对其进行排名。
化身系统主要包括两个基本方面。第一个是由人类操作员操控的机器人移动操作器;第二个是允许操作员进行操控的接口,可以说这是系统中更难的部分。在美国国防部高级研究计划局机器人挑战赛和地下挑战赛等之前的比赛中,接口通常基于一台(或多台)带键盘和鼠标的传统计算机,操作员的工作高度专业化,需要大量的培训和经验。然而,这种方法却不易使用或不可扩展。因此,长滩比赛以与操作员无关的化身系统为主,任何人都可以有效地使用它们。“毕竟,公众才是最终用户。”洛克解释说,“这场比赛迫使各支队伍花时间研究和降低这项技术的操作经验门槛。他们需要向能够操作并提供体验反馈的普通用户开放技术和实验室,得分最高的队伍也拥有最为直观和用户友好的操作接口。”
Avatar XPrize赛场的设计看起来像外星上的科学站,化身系统需要完成使用工具和识别岩石样本等任务。美国东北大学的机器人(左下角)在赛场上移动。钻孔任务(右下角)特别困难需要举起一个重物并以很高的精度操纵它。
比赛期间不允许队员们操作自己的机器人。相反,每支队伍都分配了一名评委,各队有45分钟的时间对评委进行机器人和接口方面的培训。评委包括机器人、虚拟现实、人机交互和神经科学方面的专家,但他们都没有作为化身操作员的经验。
培训完成后,评委则使用团队的接口来操作机器人完成整个比赛,而团队只能坐着观看。允许两名团队成员陪同评委以防出现技术问题,而操作员室的直播捕捉到了各个团队所面临的压力和无助:投入多年的努力和几百万美元,全看这位他们1小时前才遇到的陌生人能否将他们的系统带向成功。比赛并非总是顺利,偶尔也会非常糟糕,比如在一次比赛中,一个两足机器人撞到了赛场的门边,然后摔倒在地,造成了最终无法修复的损坏。
硬件和人类
团队的多样性体现在他们化身系统的多样性上。比赛对机器人提出了一些基本的设计要求,比如机动性、操作性和通信接口,但除此之外,每个团队还需设计和实现自己的硬件和软件。大多数团队都青睐轮式底座、有两只机械臂和一个由显示屏组成的头部以显示操作员的面部。几个大胆的团队则带来了两足人形机器人。立体摄像机被普遍用于向操作员提供视觉和深度信息,一些团队还加入了额外的传感器来传达有关远程环境的其他信息。
例如,在决赛任务中,操作员需要具备相当于触觉的感觉来区分粗糙的岩石和光滑的岩石。虽然机器人的触摸传感器很常见,但将它们收集的数据转化为人类可读的数据并非易事。一些团队选择了高度复杂(且昂贵)的微流体手套,将触觉从机器人的指尖传递到操作员的指尖。其他团队则使用了安装在手指上的小型振动电机将粗糙度转化为操作员可以感觉到的触觉反馈。另一种方法是在机器人的手指上安装麦克风。其手指在不同表面上移动时,操作员可以根据声音大小来判断,粗糙的表面声音更大,而光滑的表面听起来更柔和。
除了感知远程环境外,操作员还必须有效且高效地控制机器人。基本的控制接口可能是鼠标和键盘,或者游戏控制器。但由于控制自由度高、操作员培训时间有限,而且比赛成绩以速度来判定,所以团队必须发挥创造力。有些团队使用了运动检测虚拟现实系统来将操作员的运动传递给化身机器人。还有一些团队则喜欢物理接口,将操作员与硬件结合起来(有点像机器人外骨骼),这种硬件可以读取他们的动作,然后驱动化身机器人的肢体进行匹配,同时提供力反馈。由于操作员的手臂和手忙于操纵,因此机器人的行走运动通常由脚踏板控制。
虽然化身系统都能够移动并与环境交互,但Avatar XPrize比赛展示了为了创建最有效的系统而采用的各种不同的软硬件方法。
XPrize比赛的另一项挑战是如何使用化身机器人与远处的人类进行通信。评判标准是这种沟通的自然程度,不允许使用纯文本或纯语音接口;相反,团队需要给他们的机器人一些表情。对于使用屏幕的操作接口来说,这非常简单;一个指向操作员并流式传输到机器人上进行显示的网络摄像头也不错。
不过采用使用虚拟现实耳机的接口时,操作员的面部被部分遮挡,团队必须找到其他解决方案。一些团队使用了耳机眼动追踪和语音识别技术,将操作员的声音和面部动作映射成一张生动的动画脸。其他团队则对用户面部的真实图像进行了扭曲,以反映其眼睛和嘴巴的运动。虽然互动并非天衣无缝,但效果惊人。
人的形态还是人的功能?
通过Avatar XPrize这样的机器人比赛,揭示了实现现实世界问题的广义解决方案这一更广泛的目标与参赛团队关注的目标(只是为了获胜)之间的内在冲突。获胜并不一定能解决比赛试图解决的问题。XPrize可能想推动创建“将人类实时呈现到远程位置的化身系统”,但获胜的团队却是最有效地完成特定比赛任务的团队。
例如,来自意大利热那亚意大利技术研究院(IIT)的iCub团队认为,将人类呈现到远程位置的最佳方式是尽可能地表现那个人的特征。因此,IIT的化身系统由一个小型两足人形机器人组成,即100厘米高的iCub。让两足机器人可靠地行走颇具挑战,尤其是在机器人受缺乏经验的人类直接控制时。但即使在理想条件下,iCub也不可能像其轮式竞争对手那样快速移动。
XPrize决定设置一个不会对类人机器人更有利的比赛场地,例如,场地中没有楼梯,这引发了“人类呈现”(human presence)到底意味着什么的问题。如果这意味着可以去任何身体健全的人能去的地方,那么腿可能是必要的。如果这意味着接受机器人(和一些人类)有限的行动能力,从而专注于化身体验的其他方面,那么腿也许是可选项。无论XPrize的意图是什么,场地本身最终都决定了什么样的化身能够赢得比赛。
化身优化
不出所料,专注于比赛并对其化身系统做相应优化的团队往往表现得不错。美国东北大学团队获得了第三名,赢得了100万美元奖金,他们为操作员提供的是流体静力反馈接口。该接口基于10年前迪士尼研究院首次构思的流体致动器系统。
第二名是法国初创公司Pollen Robotics团队。他们的机器人Reachy以Pollen Robotics的商用移动机械手为基础,它可能是比赛中价格最实惠的系统之一,仅耗资2万欧元(2.2万美元)。它主要使用了3D打印组件和开源设计。Reachy是优化策略的一个例外,因为它旨在成为供现实世界操作的一个通用平台。不过,该团队相对简单的方法却帮助他们赢得了第二名和200万美元奖金。
第一名是来自德国波恩大学的NimbRo团队,他们在不到6分钟的时间内以完美的成绩完成了整场比赛。NimbRo在机器人竞赛方面经验丰富;他们于2015年参加了美国国防部高级研究计划局机器人挑战赛,且自2005年以来一直参加国际机器人世界杯比赛(RoboCup)。而Avatar XPrize则让他们专注于将人类智能与机器人控制系统结合起来的新方法。“看到人类智能操作机器时,我觉得很有趣。”团队负责人斯文•本克(Sven Behnke)告诉本刊,“人类可以看到机器行为与他们的期望之间的偏差,然后创造性地解决这些偏差。”
NimbRo团队的系统非常依赖人类操作员自身的感觉和认知。“我们尝试尽可能地利用人类的认知能力。”本克解释道,“例如,我们的系统能够在不使用传感器的情况下来估计深度。它只依赖操作员的视觉皮层,因为人类已经进化到能够以非常有效的方式做到这一点。”因此,NimbRo的机器人配备了特别长而灵活的脖子,可以跟随操作员的头部运动。在比赛中,可以看到机器人的头部左右移动,因为操作员使用了视差来了解物体的距离。它的效果确实不错,不过NimbRo必须采用一种特殊的渲染技术,以最大限度地减少操作员的头部运动和机器人的视频馈送之间的延迟,以防操作员出现晕动症。
团队还投入了大量精力来确保使用机器人操纵物体的过程尽可能直观。操作员的手臂直接与机械臂连接,它们与化身机器人的手臂完全一样。这意味着操作员所做的任何手臂运动都会被机器人反映出来,为操作员带来非常一致的体验。
混合式自主的未来
负责NimbRo团队获胜那一场比赛的操作员评委是杰瑞•普拉特(Jerry Pratt),他在佛罗里达州人机认知研究所(IHMC)担任了几十年的机器人教授,去年加入了人形机器人初创公司Figure。普拉特曾带领IHMC团队(以及波士顿动力公司Atlas机器人)在2015年的美国国防部高级研究计划局机器人挑战赛总决赛中获得第二名。“我觉得不可思议的是,你可以在45分钟内学会如何使用这些系统。”普拉特在谈到他在XPrize比赛中的操作时说,“操作它们非常有趣!”普拉特以5分50秒的时间完成了Avatar XPrize比赛,这一时间并不比人类速度慢多少。
相比之下,在2015年美国国防部高级研究计划局机器人挑战赛总决赛上,Atlas机器人必须由一组专家精心操控。机器人花了50分钟才完成了人类5分钟左右便可完成的比赛。“(在美国国防部高级研究计划局比赛期间)试图用操纵杆和鼠标拾取东西真的很慢。”普拉特说,“没有什么能比得上完全远程呈现地开展行动,‘哦,那是个物体,让我抓住它’。直接那么做就可以。”
普拉特和NimbRo的本克都认为,至少在短期内,要在现实世界的非结构化环境中运行机器人,人类是关键组成部分。“我们需要人类来进行高级决策。”普拉特说,“只要有新奇的东西,或者出了问题,就需要人类对这个世界的认知。这就是为什么我们需要远程呈现。”
本克表示赞同。他希望其团队从Avatar XPrize比赛中获得的经验教训能帮助他们通过远程呈现实现混合自主,即机器人大部分时间是自主的,但当机器人陷入困境时,人类可以使用远程呈现来帮助它们。这种方法已经在较简单的环境中实现了,比如人行道上的送货机器人,但还没有像本克的系统那样能够在复杂的人机协同操作中实现。
“一步接一步,我的目标是让人类跳出这个环路,这样一位操作员就可以控制大约10个机器人,而且这些机器人在大多数时候都具有自主能力。”本克说,“随着这10个系统的运行,我们可以从中获得更多的数据,然后也许一位操作员可以负责100个机器人,之后是1000个机器人。我们正在使用远程呈现来学习如何更好地实现自主。”
虽然Avatar XPrize最后一场比赛是围绕太空探索场景进行的,但本克更感兴趣的是以远程呈现为媒介、人类触摸能够发挥更大价值的应用,例如个人辅助。本克的团队已经演示了如何使用他们的化身系统来帮助手臂受伤的人测量血压和穿上外套。这些任务听起来简单,但它们涉及的正是对机器人来说非常困难的人类互动和创造性操作。沉浸式的远程呈现使这些任务变得简单了许多,几乎受过一点训练的任何人都可以完成,这正是Avatar XPrize试图实现的目标。
尽管如此,我们依然很难知道这些技术的可扩展性如何。目前,化身系统是脆弱且昂贵的。从历史上看,从备受瞩目的机器人比赛到技术(如自动驾驶汽车和人形机器人)在实验室外得到应用,大约有5到10年的时间间隔。虽然自主性可能会快速发展,减少化身机器人对结构化环境中常见任务的影响,但很难想象自主系统会达到人类的感知或创造力水平。也就是说,在可预见的未来,我们将继续需要化身。如果这些团队能够利用其在4年Avatar XPrize比赛中汲取的经验教训,让这项技术走出研究阶段,那么他们的系统就可以通过人类的智慧突破自主性的限制,为我们带来对日常生活更有帮助的机器人。
作者:Evan Ackerman