各种未知的环境下,这种机械手都有着更高的成功率!

   自动化那些事        

新型抓取技术是非结构化环境下机器人操作的一项重要技术。对于目前的大部分工作,需要一个抓取采样过程来获得抓取候选,结合使用深度学习的局部特征提取器。然而,这种技术有点耗费时间,特别是在抓点稀少的情况下,比如在碗的边缘。


为了解决这个问题,研究者的算法以整个稀疏点云作为输入,不需要采样和搜索过程。本文以“Learning an end-to-end spatial grasp generation and refinement algorithm from simulation”为题于2020年10月20日发布于《Machine Vision and Applications》杂志上。

各种未知的环境下,这种机械手都有着更高的成功率!


研究背景与实验


在现实世界的非结构化环境中,对象操作仍然是一个开放的问题,特别是对于不可见的对象。但是,仍然存在许多具有挑战性的问题:(1)当对象被堆放在一堆时,查找可用的抓取是困难的,而且需要花费时间。(2)相机数据可能稀疏且有噪声,生成三维空间抓取是一项具有挑战性的工作。(3)应考虑适当的质量度量,以在所有的grasp候选人中获得最佳的grasp。


抓取感知根据抓取场景的特点采用不同的算法。传统的基于模型的抓取算法采用6D位姿估计算法,从预建的抓取数据库中获取目标的位姿,选择最佳的抓取。该数据库可以手动预定义,也可以由其他工具(如Graspit!)生成。。


然而,这种管道很难应用于新的对象。另一种方法是运用学习算法来学习掌握表示法。在这方面,大多数工作使用一个监督框架,grasps被手动标记为或在开始时自动标记为。然后,这些作品通常利用不同的数据形式,如深度图像、RGB-D图像、点云,来表示抓取候选的传感器信息。


然后使用深度学习算法,如卷积神经网络(CNNs)和点网,提取这些抓取的特征。但是,这个管道只关注掌握周围的局部特征,而不能与对象的分布等全局信息相结合。还有一些作品利用CNNs和全卷积网络训练一个抓取度量分布,将整个抓取场景作为输入。


甚至有研究者将该问题视为马尔可夫决策过程(Markov decision process, MDP)问题,直接在现实世界中训练端到端学习过程或通过仿真学习来指导抓取行动。这些方法在只有一个RGB摄像机的大目标场景中都有很好的表现。


但是,整个训练过程,特别是特征提取,仍然是专门针对二维或2.5D (depth map)抓取的。对于三维空间抓取,为了获得较高的精度,在强化学习过程中需要大量的数据。此外,传统的特征提取工具FCNs和CNNs也不适用于点分类、场景理解等三维任务。


因此,为了解决这些问题,研究者提出了一种基于SPH3D-GCN[16]的端到端网络来直接预测抓取及其质量,如图所示。与一些类似的工作相比,研究者的算法放弃了传统的学习管道,以整个点云作为输入,返回空间抓姿。


这样,预测过程就可以与全局数据信息相结合。而且不需要抓取采样过程,每一个点都可以预测一个结果,节省了大量的采样成本,特别是在抓取点稀疏的情况下。整个预测过程大约需要73毫秒,包括使用GeForce 840M GPU迭代抓取姿态优化。然而,回归的掌握仍然是粗略的结果。

各种未知的环境下,这种机械手都有着更高的成功率!


图为工作的管道


该抓取模型基于以下假设:(1)具有库仑摩擦的准静态物理;(2)几何参数已知的双指平行爪抓取;(3)具有已知本征参数的深度相机。

各种未知的环境下,这种机械手都有着更高的成功率!


图中a抓取模型b重大把握


然而,对于一些壁薄的物体,墙壁边缘的表面法线可能被估计为错误的方向。因此,研究者引入一种新的方法来判断薄结构,并针对这些薄结构进行抓取规划。


各种未知的环境下,这种机械手都有着更高的成功率!

对于每一个抓取采样,抓取部分的表面点被提取,如下图的右边所示。采用随机样本一致性(RANSAC)算法对这些点进行线性拟合,将其划分为内隐和离群点。对于非线性方程,采用五次多项式模型对这些点进行拟合。

各种未知的环境下,这种机械手都有着更高的成功率!


图为用于薄型结构的加工,其中左图中的红色点是抓取部分的表面点

各种未知的环境下,这种机械手都有着更高的成功率!


图为a看不见的玩具盒b不同的训练点

各种未知的环境下,这种机械手都有着更高的成功率!


图为算法的网络结构,其中SC,P和up表示球面卷积、池和上池


传统结构,如PointNet和PointNet++依赖于最大集合层来聚合上下文信息而不进行卷积,这就很难对点的几何上下文进行研究。SPH3D-GCN是一种轻量级结构,它利用球核来识别数据中独特的几何关系。SPH3D-GCN部分的具体结构如图所示。


输出是一个大小为8192×9的特征块。然后,将输出特征分为四个部分:分数块(8192×1)、类别块(8192×2)、正常块(8192×3)和旋转块(8192×3)。分数块和类别块有助于确定哪些分数能够生成抓取。法块和旋转块确定接近向量。

各种未知的环境下,这种机械手都有着更高的成功率!


图为说明其之间的关系


对于每个对象模型,采用单目标抓取规划.然后,将输出发送给多目标抓取规划,构造一个由20k训练点云、标签和掩码组成的杂乱的多目标抓取数据集。研究者在80%的杂乱的多目标抓取数据集上训练研究者的网络,并保持20%作为测试数据集。


在这里,还记录了场景模型、深度图像和补充抓取,供模拟实验用的测试数据集使用。研究者的网络是通过随机梯度下降训练的,使用的是固定的学习速率。


基于SPH3D-GCN的网络估计结果存在不可避免的误差。在此,引入抓取迭代求精(GIR)算法,对最后一阶段得到的最佳抓取进行微调。由于SPH3D-GCN中的球面核具有平移不变性,不适合直接利用姿态坐标来表示抓取器与抓取件之间的关系。这里,一种由合成点云组成的夹子表示。

各种未知的环境下,这种机械手都有着更高的成功率!


图为抓取迭代精化的过程,其中的绿色部分是夹持表示,这也将与白点云一起发送到网络中

各种未知的环境下,这种机械手都有着更高的成功率!


图为掌握迭代求精的一些训练实例


上述图表明,研究者的求精算法能够处理很多偏差较大的抓取。迭代结果可以调整到一个稳健的位置。更多的例子可以在研究者的视频中找到。研究者还可以发现,迭代过程可以将抓取调整为更高的姿态。


对于研究者的算法,考虑了两种情况:带GIR的算法和不带GIR的算法。对于使用GIR的算法,SPH3D-GCN预测的所有抓取候选点将通过GIR的三次迭代(批处理32次)进行细化。用于测试数据集标签抓取的RAHPs记录在图中。

各种未知的环境下,这种机械手都有着更高的成功率!


图为平均高精度召回曲线


每500个采样点记录一次RAHP。此外,时间成本也记录在图中。在上面的数字中,研究者的结果是直线,因为研究者的算法没有采样或搜索过程,这与取样点或点云的数量无关。此外,随着取样点数目的增加,GQCNNs和PointNetGPD的时间成本也将增加。在研究者的实验中,研究者发现这两种算法,特别是GQCNN,大部分时间都花在搜索和采样上。

各种未知的环境下,这种机械手都有着更高的成功率!


图为平均时间成本曲线


然而,对于抓取问题来说,选择一个有力的抓取比找出所有潜在的抓取更重要,因为很多低分数的抓取者都是不健全的。

各种未知的环境下,这种机械手都有着更高的成功率!


图为阳性抓取的平均得分


从上面的数字中,研究者发现当一些取样点在1000到3000之间时,GQCNNs比大多数其他基线表现得更好。这是因为CEM有助于将采样点缩小到得分较高的范围内,而对于其他基线(PointNetGPD、PointNet++抓取和研究者的无GIR算法),采样点在所有点云上都是均匀分布的。然而,如果将GIR应用到研究者的算法中,则会提高最终的性能,这超过了使用CEM的GQCNN。在实际应用中,只需对得分最好的抓取进行细化,平均时间成本约为73 ms。


不同算法之间的一些预测结果如图所示。从这些数字中,研究者发现研究者的算法的回归效果要好于PointNet++抓取算法,不仅在法线或旋转上,而且在分数方面也是如此。s。此外,图的最后一栏。虽然GIR缩小了抓取的范围,但它有助于提高所有抓取的平均分数。更多的抓取被放置在物体的质心附近,这使得抓取更加强壮。

各种未知的环境下,这种机械手都有着更高的成功率!


图为不同算法对测试数据的预测结果


研究者测试了研究者的算法在UR10与一个低成本的平行下巴夹持器,其开放宽度为60毫米。


为了使真实的测试场景与仿真环境相似,对传感器数据进行了几个预处理:(1)用RANSAC对RealSense得到的点云的地面进行匹配和查找;(2)在地面上转换全点云的基准面坐标,以确定点云的基准面。z-轴垂直于地面;(3)输入范围设置为:−0.2m<x < 0.2 m, − 0.2 m < y < 0.2 m,。


由于研究者的夹持器的尺寸限制,不是所有的对象在YCB集可以被掌握。研究者从它们中选择了15个对象,并将其与另15个新对象相结合,如图所示。

各种未知的环境下,这种机械手都有着更高的成功率!


图为真实场景中的测试对象


每种算法测试30次。每次随机选择6个对象来初始化测试场景。每次尝试的最大次数限制在10次。对于GQCNNs和PointNetGPD,它们的采样点数被设置为最大。对于PointNet++抓取和研究者的无GIR算法,抓取最大Qc由机器人执行。


采用迭代求精算法,与原来的端到端算法相比,性能有了明显的提高.特别是对于重物,它们需要更准确地抓住它们的质心,否则它们很容易掉下来。在实验中,研究者发现使用GIR算法可以获得更好的性能,对于这些重物,如鼻钳和锤子,因为GIR有助于将抓取点微调到物体的质心。此外,一些物体的抓取点,如碗和杯子,都是稀疏的,经常受到摄像机噪音的影响。通常,这些物体边缘的深度数据通常是不存在的。然而,研究者的工作成功率更高,因为研究者的训练点也是稀疏的,预测结果是从所有输入点产生的。


研究结论


该研究提出了一种两步算法:第一步是利用端到端算法直接预测所有抓取的姿态、类别和得分(质量),并选择得分最好的抓取。第二步是利用研究者提出的抓取迭代优化算法对其姿态进行优化。实验结果表明,研究者的工作成功率达到了76.67%,完成率达到了94.44%,比目前最先进的工作表现更好。


参考文献:Peiyuan Ni, Wenguang Zhang, Xiaoxiao Zhu & Qixin Cao Learning an end-to-end spatial grasp generation and refinement algorithm from simulation  Machine Vision and Applications 10 (2021)



最新评论(0)条评论
不吐不快,我来说两句

还没有人评论哦,抢沙发吧~

相关新闻推荐