最新黑科技:看视频一学就会?打造新型交互机器人
本文作者:小蛙 2019-05-21 14:13:11 浏览量:1529 评论量:4

 以现在的科技研制出来的机器人技术已经是非常厉害了,例如焊接、搬运、跳跃、后空翻等,但是在人和目标的交互式任务,例如摆桌子和装饰房间,可能什么也做不了。最近,斯坦福大学的研究人员试图通过大量的视频收集来识别表示和生成人与物体间的真实交互。

 最新黑科技:看视频一学就会?打造新型交互机器人

在近几年来,机器人和虚拟现实平台技术早已获得了巨大进步。这些平台现在可以让我们体验更加身临其境的虚拟世界,让机器人帮助我们完成挑战性的运动任务,例如在雪中行走和搬运重物。那么,我们能很快拥有摆放餐桌和做饭的机器人吗?

我们几乎一直在做活动,这些活动包括简单的动作,比如吃水果,或者更复杂的动作,比如烹饪。在这些活动中,人类与其周围环境之间的互动将会发生。这个过程是多步骤的,将由物理、人类目标、日常习惯和生物力学主导。

为了开发一个更加动态的虚拟世界和更加智能的机器人,我们需要教机器人捕捉、理解和复制这些交互行为。

问题和挑战

人们将探讨重中之重放到人们开展的各类互动活動的子集上,普遍的如家庭装桌子或会议室中的人和物块的互动,例如用手取放桌子上目标。下图中类似的桌面交互活动占到我们日常行为中的很大一部分,但由于手-物体的配置空间很大,因此这些交互活动的模式和特征难以捕获。

最新黑科技:看视频一学就会?打造新型交互机器人

上图是我们收集的视频中的一些桌面交互活动实例

我们的目标是通过学习大型视频集来识别、表示和生成这些真实的交互。这必须要解决具有挑战性的基于视觉的识别任务,产生与当前和过去的环境状态一致、时间空间一致的多步交互。这些交互还应符合基本物理定律,人类习惯,并受到人体生物力学特征的限制。

学习生成包含多步骤交互行为的动作划分,捕捉现实世界中人和物体交互行为的物理约束和因果关系。我们的目标是从人类场景交互的视频集合中进行自动学习,因为这是一种快速,廉价、多功能的设置。为了完全表示动作划分,需要首先获取有关对象的实例、类别和位置,然后确定手的位置,最后进行动作检测和分割,这些信息都要从视频中提取,难度很大。

我们通过自动化的pipeline,利用计算机视觉领域的最新进展,在动作划分任务上实现了最高的精度。

最新黑科技:看视频一学就会?打造新型交互机器人

对象和实例跟踪:动作划分中的一个重要组成部分是对象类别、实例、位置和状态。我们使用基于更快的R-CNN架构的物体检测器来在每帧图像中找到候选边界框和标签和对象位置,通过时间滤波减少检测抖动。为了推断对象的状态,在每个边界框的内容上训练分类器。

手部检测:由于大多数交互涉及手部,因此图像处理目的是推断出手在操纵哪些物体,以及手部遮挡时的物体位置。我们使用完全卷积神经网络(FCN)架构来检测手部动作。该网络使用来自GTEA数据集中的手工掩模的数据进行训练,并根据我们视频集的子集进行微调。通过手部检测和物体的运动方式,可以推断出手的实时状态(是空闲,还是被占用),这是一个重要的信息。

动作划分:要为每个视频帧生成动作标签,我们需要识别所涉及的动作以及它们的开始和结束时间(即动作分段)。我们采用两阶段方法:(1)为每帧图像提取有意义的图像特征,(2)利用提取的特征对每帧的动作标签进行分类,并对动作进行分段划分。为了增加动作划分的鲁棒性,使用LSTM网络来暂时聚合信息。详细信请参阅论文。

使用递归神经网络生成

利用上文中描述的动作划分表示可以对复杂的时空交互进行紧凑编码,第2部分中的识别系统可以利用视频创建动作划分。现在的目标是使用视频集合中提取的动作图来学习生成新的交互。为了使问题易于处理,我们将动作元组中的时变和时不变参数进行解耦处理,更具体地说,是使用多对多RNN来建模,并利用与时间无关的高斯混合模型。

时间依赖性动作分割RNN:从自然语言处理中的类似序列问题中汲取灵感,使用状态保持递归神经网络(RNN)来模拟交互事件中与时间相关的参数。

动作分割RNN会学习并预测包括动作标签、活动对象,对象状态和持续时间组成的下一状态。每个时间步长上的输入会首先嵌入到指定大小的向量中。

与时间无关的物体位置模型:人和物体之间的许多相互作用需要通过建模,生成新的合理物体运动。物体的分布存在强烈的先验性特征。比如在杯子周围存在打开的瓶子是很常见的,但在笔记本电脑周围就很少见。由于这些先验性特征对时间因素的依赖性不高,我们可以利用高斯混合模型(GMM)对视频集合进行学习,并进行建模。

与时间无关的对象位置模型的学习和建模。此图为从视频集合中学习的可能对象位置的热图。

结果与应用实例

动画合成:我们的方法可以学习单个动作的前后因果依赖性,所以可用于生成在训练期间未见过的新的动作图像,并将这些动作图渲染成逼真的动画,如下图所示。利用这一点可以产生虚拟/增强现实领域的新应用,向人们传授新技能(比如冲咖啡)。

最新黑科技:看视频一学就会?打造新型交互机器人

仿真机器人和运动规划:可以在智能和反应环境中启用应用,改善老年人和残疾人的生活。我们开发了带差动驱动器的机器杯。杯子的动作由实时识别、表示和生成pipeline驱动。杯子可以实时捕获交互并编码为动作图像,预测可能的未来状态。机器人使用这些预测来做出适当的反应。

下图中的“召唤杯”显示出用手抓杯子的过程。智能杯子会朝人手的方向移动,以防用户伸手够不到。但是,如果检测到用户的手中之前已经拿了一本书,智能杯就不会移动,因为我们的方法隐式学会了“一次只让手拿住一个物体”的物理约束。

最新黑科技:看视频一学就会?打造新型交互机器人

“召唤杯”表现出了手、智能杯子和瓶子之间更复杂相互作用的实例。当手去移动装满的瓶子时,智能杯自动定位以便手将瓶中的水倒进杯里。但是,当检测到瓶子是空的时,智能杯不会做出反应。只有掌握复杂的人和对象之间的交互特征,才能实现这种语义规划。

讨论与未来方向

该研究是识别、表示和生成合理的动态人-物交互过程的第一步。人们提起了这种方式,根据鉴别视頻中的互动流程,应用姿势区划紧促地表达出这种互动,并转化成新的互动,进而自動学习视频非空子集中的互动。尽管人们早已获得了挺大的成效,但仍有某些显著的片面性。

人们用于开展姿势区划的RNN没法捕捉的长期范围内的活動。现阶段的运用也仅作桌子的互动式任務。在将来,人们方案将探讨范畴拓展至长久的互动活動上,并改进人们转化成的互动的合理化。

人们的方式为学习转化成人和成员变量的互动活动出示了稳固的基本。可是要想建立极富沉浸感和动态的虚拟现实的增强现实技术,还必须开展普遍的探讨。未来,人们会搭建出更为灵敏、聪慧的智能机器人

摘编:Stanford

76

说点什么

登录后参与评论

最新评论

曼联  3个月前
这新型交互机器人有点牛X啊

0

0

捷信  3个月前
未来,人们会搭建出更为灵敏、聪慧的智能机器人。

0

0

王超  3个月前
为了开发一个更加动态的虚拟世界和更加智能的机器人,我们需要教机器人捕捉、理解和复制这些交互行为。

0

0

猜猜看  3个月前
在近几年来,机器人和虚拟现实平台技术早已获得了巨大进步

0

0

没有更多了哦~

lucky 总收益: 200000.00元

发单数: 4单

胡歌欧巴 总收益: 102000.00元

发单数: 4单

机器人总动员 总收益: 100022.22元

发单数: 45单

三木 总收益: 10.00元

发单数: 3单

简单并联教学工位

行业:教育实训 应用:教学演示

叶轮风机自动上料

行业:机械设备 应用:上下料

电子产品自动化装配生产线

行业:电子制造 应用:装配

项目需求

¥面议 生活垃圾自动化分拣、运输等流水线

截止日期:2019-10-30

 kira  发布于 22小时前

项目需求

¥面议 自动化投料➕缝➕包流水作业装备

截止日期:2019-10-31

 猜猜看  发布于 22小时前

项目需求

¥面议 猪食料自动化喂料装备

截止日期:2019-10-30

 赵四喜  发布于 1天前

项目需求

¥10万 铝片冲压自动化装备

截止日期:2019-10-31

 猜猜看  发布于 1天前

二维码

微信公众号

项目经理

打电话

400-114-6868

周一至周日: 08:30 - 18:00

发需求

回顶部

方案咨询

400-114-6868