具身智能体技能学习从重建“物理和虚拟抓取”数据的手套开始!

时间: 2024-05-01 08:45:46 |   作者: 拉环

技术参数

  。该数据手套基于一套重建手势的IMU(惯性测量单元)模组,可以重构成触觉感应、虚拟现实和仿真三种模式,用以服务于不同性质的下游任务。采集的数据便于实现更高效的人机协作,并迈向更高级的通用人工智能。

  本文共同一作为刘航欣(BIGAI)、张泽宇(BIGAI)、焦子元(BIGAI);通讯作者为刘航欣(BIGAI)、朱毅鑫(北京大学)。

  为了对论文研究进行深入的解读,通院对论文共同一作刘航欣、张泽宇研究员进行了问答访谈,以下是问答摘录。

  近年来,具身智能(embodied AI)领域发展迅猛。构建的具身智能体(embodied agents)可以在仿真环境中完成导航、物体抓取等基本任务。然而,学习更复杂的操作和交互技能(Fine Manipulation)仍然是具身智能领域最具挑战的课题之一。同时,智能体在仿真环境中习得的技能往往在现实环境中应用受限,这还在于仿真环境中的数据与现实环境存在比较大差距(sim2real gap)。

  可以借鉴我们人类自身,我们很擅长操纵物体并与环境进行交互,这是因为人手具备极高的灵巧性以及丰富的感知能力。下图展示了一种基于大脑皮层中与各个身体部位对应的运动和体感功能区域大小绘制的人体卡通图(图一:皮质小人cortical homunculus)。与在人体中占据的实际大小相比,手部在大脑功能区域中的占比远大于其他体感部位。因此要让具身智能体学习复杂的操作技能,重点是捕捉和理解人手在操作的流程中涉及的交互过程和细粒度的物理变化。

  为此,我们(BIGAI机器人实验室、仿真与交互实验室)联合北大/UCLA团队自2017年以来在这一领域的研究取得了一些进展和成果,团队利用数据手套(data glove)来采集人在完成操作任务时与物体的交互数据,并让机器人从中学习。

  Q3:数据手套的历史可以追溯到70年代,而伴随元宇宙的兴起,手套也几乎是VR设备里的“标配”,请问我们研究的数据手套与之相比有何差别呢?

  外面那些手套更多侧重于交互属性,而非用于采集和分析人手在不同任务里的表现,因此不能很好地服务于科研目的。而我们团队提出了一个可重构的数据手套设计的具体方案(见图3),用于捕捉人与环境互动的不同模式。该数据手套基于一套重建手势的IMU(惯性测量单元)模组,可以重构成触觉感应、虚拟现实和仿真三种模式,用以服务于不同性质的下游任务。

  图3:数据手套的3种模式对应的采集数据种类和关键传感器Q4:该手套重建为三种模式分别有什么优势呢?

  在触觉感应模式(Tactile-sensing mode)下,该手套通过由软而薄的压阻材料制造成的定制“力传感器”,采集人在操作的流程中的施力情况。在不干扰手部运动的前提下,能够得到人在操作物体时手势和手部用力的耦合关系。

  在虚拟现实模式(Virtual reality mode)下,我们设计了一种通过检验测试手和物体之间的碰撞事件来判断手套抓握是否成功的方法,在虚拟环境中记录手和物体之间的接触信息。这类信息在现实环境中通常难以获取。

  在仿真模式(Simulation mode)中,我们进一步利用最新的有限元法(Finite Element Method)[1],来模拟物体在交互过程中细粒度的“四维(4D)操作数据”,包括手和物体在三维空间中的运动以及物体的物理属性(如应力、能量等)在时间维度上的变化。

  总而言之,通过采集到的数据,我们成功地让机器人学会了复杂的操作动作[2,3]、生成解释[4]以及工具使用[5]等高难度技能。

  Q5:可以对这三个模式进行更详细的介绍吗?它们分别解决了哪些技术或应用难点?又是怎么样才能解决的?

  我举个例子来说明技术和应用难点:在国外一些药瓶通常配备了特殊设计的安全保护装置,用于防止儿童轻易地打开药瓶并误食药物。这些安全保护装置包括需要先向下按压瓶盖再转动、挤压瓶盖特定部位解锁安全保护装置等。然而,这些精细的操作动作在视觉图像上难以识别,因为其中关键作用的“力”无法通过视觉捕捉到。下图列举了使用触觉感应手套收集的不一样药瓶的打开动作和对应的手势和力信息。这些示例显示了打开药瓶的动作和传统瓶子的动作之间的微小差别,同时也表明仅凭视觉信息无法充分区分各种打开瓶子的方式。

  图4:使用触觉感应手套收集的不一样药瓶的打开动作和对应的手势和力信息。

  我们的解决方案:为了采集细粒度的人与物体交互的手势和力的信息,我们在2017年提出了触觉感应手套[6]。该手套通过一个IMU网络来捕捉手部的运动姿态,并在操作的流程中使用六个定制的力传感器来捕捉手部施加的力,从而更全面更细致地反映人与物体交互过程。

  方案优势:通过触觉感应手套所采集的数据,我们还提出了相应的机器人技能学习方法[2,3],可以轻松又有效地帮助机器人理解在解锁童锁、打开药瓶等任务中起关键作用的“力”因素,并成功地学会这一技能(见图5)。同时,“力”这一信息也为机器人的行为决策提供了很好的解释,从而增强了人对机器人的信任[4]。

  图5:机器人理解在解锁童锁、打开药瓶等任务中起关键作用的“力”因素2、虚拟现实模式

  我同样举例来说明技术和应用难点:当一个人在决定如何抓取物体时,这背后其实经历了一系列复杂的感知和认知过程,包括考虑物体表面纹理、物体功能和达成目标的需求等。为分析抓取行为背后的认知过程,需要获取人与物体之间的接触信息(contact points)。然而,精确地采集这种数据十分艰难。因需要准确的手部和物体的三维模型、空间坐标等信息,而手在抓取过程中会发生变形,使得相应的采集变得更加困难。

  我们的解决方案:为了更方便快捷、灵活和大规模地获取人在抓取时与物体之间的接触信息,我们团队于2019年设计了一款虚拟现实手套,利用虚拟现实平台来获取接触信息[7]。这种设计结合了基于笼抓的方法,通过手指和物体之间的碰撞几何来确定对虚拟物体的稳定抓取,如图6所示。当所有碰撞点(红色球体)的几何中心(绿色虚线圆圈)与物体(黄色圆柱体)重叠时,就可以认为物体被稳定地抓取了。然而,由于抓取的是虚拟物体,缺乏实际接触时的物理反馈和反作用力,手很容易产生不自然的抓取动作。未解决这一问题,我们在手套上面部署了一个震动马达网络,当手在虚拟环境中与物体接触时,相应部位的震动马达会被激活,为用户更好的提供触觉反馈。

  方案优势:我们提出的虚拟现实手套相较于现有的商用虚拟现实设备,能够更稳定地在虚拟 环 境中模拟稳定抓取和接触信息。如图7所示,通过我们的系统,不同用户都能够在虚拟环境中与各种几何形状的日常物体进行交互,从而采集到多样化的手部姿态和接触信息。

  同样举例来说明技术和应用难点:尽管数据手套在人类抓取操作的流程中可提供丰富的数据,然而这一些数据都是与手相关的,难以反映物体自身在操作的流程中的变化,也难以体现由交互动作引起的效果。例如,在使用工具的场景中,人的手挥动锤子砸向核桃,尽管锤子、抓取姿态和运动轨迹相似,但可能会引起不同的结果,比如核桃未砸开、砸开或砸得粉碎。要全面地理解这个操作工具的过程,需要将手、工具和动作效果三者放在一起考虑。有必要注意一下的是,无论是物理传感器还是视觉识别方法,都无法对这种复杂状态变化进行追踪。

  我们的解决方案:为了描述物体状态变化的细节过程,我们采用了最先进的有限元方法 [1],基于物理学原理来模拟物体随时间变化的状态(流态 fluent),以及其中涉及的物理属性,如接触力和物体内部的应力。在仿真模式下,我们的手套实现了在4D空间中做相关操作任务的分析:

  如图六所示,根据手套采集的数据,我们大家可以在物理仿真环境中重现细粒度的场景,并获取交互过程中物理属性的变化信息。这种提供人与环境交互事件整体视图的4D数据是该领域的首创,将为研究物体操纵和抓取开辟新的研究途径。

  图7:在仿真中,基于人的活动数据,计算出物体(核桃、萝卜)的状态变化过程和相对应的物理量(如受力情况)

  方案优势:通过对人与环境交互事件整体4D数据的理解,智能体能够发掘交互过程中的核心物理特性,从而习得动作与其效果之间的因果规律。

  (见图8)这一研究成果为研究物体操纵和抓取开辟了新的途径,为智能体在真实的操作中灵活性更好、高效地与环境进行交互提供了有力的支持。

  图8:身体结构不同的机器人,都能找到一个对其最高效的工具使用方法。Q6:我们的手套技术还有哪些应用价值和发展空间?

  实现“小数据”的人工智能范式对数据的质量提出了更高的要求:这一些数据不能仅仅是一项常见的文本和图像,而是要能够揭示体现任务本质的可供性、因果性和功能性等。为此,我们提出了基于统一骨干设计的手套系统,可以在触觉感应模式、虚拟现实模式和仿真模式下,有效地采集不同任务和不一样数据(如力、接触点和物体物理状态变化),从而促进智能体对复杂操作任务的学习。

  同时,这个手套系统也为通讯式学习(Communicative Learning)框架[9]提供了更丰富的数据类型和更自然的人机交互方式,使得计算模型能够更全面地理解人类的价值观和感受人类的操作技巧,以此来实现更高效的人机协作,并迈向更高级的通用人工智能。

  TechBeat是由将门创投建立的AI学习社区()。社区上线+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

  我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

  或添加工作人员微信(chemn493)投稿,沟通投稿详情;还能关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

  将门是一家以专注于发掘、加速及投资技术驱动型勇于探索商业模式的公司的新型创投机构,旗下涵盖将门创新服务、将门技术社群以及将门创投基金。

  将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

  如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

  特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

  政治局会议提研究消化存量房产,住宅待售面积与多地二手房挂牌量大增,“以旧换新”成新动力源

  布林肯在中国遭BBC女记者连怼:你们要求中国停止出口零部件,自己却向以色列提供武器?

  21岁嫁52岁亿万富豪,结婚13天老公离世,她10年官司获遗产900万

  《沙漠大冒险》评测:将鸟山机械堆砌到极致/

  主站 商城 论坛 自运营 登录 注册 《沙漠大冒险》评测:将鸟山机械堆砌到极致 伊東 2024-04-3...

上一篇:【48812】才发现找到啤酒瓶盖上的“小机关”单手一拧就翻开省时省力

下一篇:【48812】本来啤酒瓶盖上有个小玄机用手就能拧开省劲又省力

返回上一层
Copyright © 2021 爱游戏中国官方网站 All Rights Reserved   浙ICP备2021040658号-1    备案号:33010902003188 网站地图
爱游戏中国官方网站爱游戏中国官方网站