让手势更加丰富花哨,识别的更为精准和有效!

   自动化那些事        

传感器可以跟踪人体动作和手势,最近的发展使其在医疗康复或机器人控制等领域的应用取得了快速进展。惯性测量单元(IMU)是一种非常好的实时场景设备,因为它能够快速地提供数据输入。因此,一个计算模型必须能够以一种快速而稳健的方式学习手势序列。


研究者最近推出了一个用于持续手势识别的回声状态网络(ESN)框架,包括手势识别的新方法,即自动检测手势的开始和结束阶段。虽然研究者的结果显示了良好的分类性能,但研究者也确定了影响性能的重要因素。


为了解决这些问题,研究者包括了长短时记忆(LSTM)网络的实验,这是序列处理的一个最先进的模型,将得到的结果与研究者的框架进行比较,并评估它们在识别过程中的缺陷的鲁棒性。本文以“Echo State Networks and Long Short-Term Memory for Continuous Gesture Recognition: a Comparative Study”为题于2020年10月7日发布于《Cognitive Computation》杂志上。

让手势更加丰富花哨,识别的更为精准和有效!


研究背景与实验


连续手势识别是一个具有挑战性的任务,由于三个关键方面:(1)的正确识别的开始和结束的实际姿态,称为subgesture,(2)可能是可变长度的手势的识别,也称为inter-subject可变性,和(3)准确区分积极姿态和微妙的动作或沉默阶段暂停。手势的正确快速识别是基于视觉的人机交互(HRI)和人机交互(HCI)中的一个重要研究领域。


虽然视觉手势识别可以让人与agent之间最直观的界面,但它也是最具挑战性的任务,从记录过程到大量视频流的预处理,最后以低延迟、高识别率的计算模型。近年来,深度学习技术作为一种利用GPU计算学习海量数据集的新方法出现。特别是在手势识别方面,他们在ChaLearn等基准上取得了很高的准确率。学习序列需要一些记忆机制,就像循环神经网络(RNNs)所实现的那样。


通过梯度传播训练深层模型,即多层网络架构,常常会受到梯度爆炸或消失的影响。为了解决这个问题,提出了长短时记忆(LSTM)网络,它的门控机制集成到RNN架构中,克服了容易出错的梯度计算。在储层计算(RC)中包含了传统RNN训练的替代范式,在时间序列预测中表现出了良好的性能,已成为一种流行的方法。


可穿戴或智能设备已经影响到不同的研究领域,如控制游戏和媒体应用程序或假肢和康复。最近关于智能传感器连续手势识别的研究主要采用了一套标准的学习技术,如动态时间扭曲等,而应用递归神经网络的研究寥寥无几。


一种用于加速度计数据的手势识别系统。然而,由于缺乏基准数据,在不同系统之间进行公平比较是困难的。尽管作者用一种相当简单的方法展示了良好的性能,但它们还没有达到手势的数量,而且在扩展手势词汇表时,代码本的创建是否会增加仍是一个未知数。


首先,研究者定义了10个手势类,如图所示。

让手势更加丰富花哨,识别的更为精准和有效!


图为实验的手势

让手势更加丰富花哨,识别的更为精准和有效!


图为数据记录的设置


所有实验都遵循研究者先前研究中提出的左一交叉验证(LOOCV)协议:研究者使用来自n−1被试作为训练集,其中流被分割成单独的手势,连接到连续的序列并随机地移动。然后使用来自其余人员的数据作为测试集。研究者使用网格搜索来获得这两种架构的最优参数。研究者现在将解释研究者在该研究中使用的两个网络的具体配置。


连续手势识别的主要挑战是手势识别,然后对实际手势进行正确的分类。虽然手势的识别是有问题的,因为变长的手势,分类常常受到所谓的阻碍。

让手势更加丰富花哨,识别的更为精准和有效!


图为来自LSTM体系结构的输出激活示例

让手势更加丰富花哨,识别的更为精准和有效!


图为映射方案的例子

让手势更加丰富花哨,识别的更为精准和有效!


图为ESN所产生的研究参与者最差表现的混淆矩阵


为了比较回波状态网络(ESN)和长时记忆(LSTM)网络的性能,研究者进行了连续手势识别的实验研究。这两种网络都是递归神经网络的特殊结构,并成功地应用于序列处理。鉴于如何执行手势的内在差异,所谓的学科间可变性,研究者对这两种方法的计算性能很感兴趣,因为它们在概念上是不同的。


研究者的实验只对总共500个序列进行评估。研究者获得了高性能的LSTM在F1评分和准确性,后者可与研究者的ESN框架。对于一个更大的数据集来说,支持研究者的结果的表现力是很有趣的。不幸的是,到目前为止,还没有用于基于传感器的连续手势识别的基准数据集,因此无法对不同的计算结构进行合理和公平的比较。研究者假设,将手势词汇表扩展到更多和不同的手势类型,同时显着地增加样本大小,对于标准ESN体系结构来说将是一个挑战。由于研究者的数据集是公开的,研究者希望数据问题能得到更多研究人员的关注,从而在未来产生一个更加多样化的数据集。


研究结论


连续的手势识别是一个关键的任务,因为手势在一个流中有很大的差异,并且很容易混淆固有的相似手势。研究者目前研究的目标是比较之前引入的回声状态框架与长短时记忆网络的性能,这是一个最先进的序列处理模型。


研究者的结果证实了LSTM和ESN模型对连续手势流的鲁棒处理,后者表现出相当的性能。由于训练速度快得多,回声状态网络适合于需要实时处理的实验计算模型。研究者的研究揭示了手势和子手势的变异性对两种模型的识别性能的影响。研究者假设这些因素将更大的影响,当考虑一个较大的手势词汇与更多的数据来自受试者比实际可用。


到目前为止,人们对这些网络在大型手势识别场景中的能力知之甚少。研究者假设,对回声状态网络的进一步研究将发展到网络结构的新发展,从而在康复或人机交互等许多领域有潜在的应用。


参考文献: Doreen Jirak, Stephan Tietz, Hassan Ali & Stefan Wermter Echo State Networks and Long Short-Term Memory for Continuous Gesture Recognition: a Comparative Study  Cognitive Computation (2020)



最新评论(0)条评论
不吐不快,我来说两句

还没有人评论哦,抢沙发吧~

相关新闻推荐