基于三支决策优化智能座舱人机交互界面的方法及系统与流程

文档序号:16427462发布日期:2018-12-28 19:53阅读:427来源:国知局
基于三支决策优化智能座舱人机交互界面的方法及系统与流程

本发明属于智能驾驶领域,尤其涉及一种基于三支决策优化智能座舱人机交互界面的方法及系统。

背景技术

随着人工智能和深度学习技术的发展,智能驾驶已经吸引了很多人的关注。手势识别作为智能驾驶中典型的人机交互方式之一,对座舱内人机交互(hmi)界面的优化设计是非常重要的。精准快速的手势识别不仅能够提供更舒适的交互体验,也能提高驾驶者的安全性。

当前手势识别方法主要有基于传感器设备和基于计算机视觉的两种方式。前者虽然有较好的识别率,但是其成本较大,交互体验不能满足当前的需求,后者虽然采集手势图像比较容易,但是已有的包括:基于模板匹配、基于几何特征提取、基于隐马尔可夫模型和基于神经网络的手势识别方法仍然存在模型识别精度低或者识别速度慢等问题,并不能很好的适应当前精准实时的手势识别需求。模型识别精度低的主要原因在于未能很好的提取手势的特征,而识别速度慢的主要是因为模型太过复杂导致的,现有方法往往不能同时解决这两个问题。



技术实现要素:

基于以上问题,利用深度神经网络提取特征的能力,结合多粒度信息表达方式和三支决策思想,选择合适的粒度能够同时解决手势识别精度低和识别速度慢的优化问题。

本发明提供了一种基于三支决策优化智能座舱人机交互界面的方法,包括以下步骤:

s1、采集座舱内的手势视频,对其进行预处理,得到静态的手势图像;

s2、对手势图像中的手势和背景进行分割处理,得到手势区域图像;

s3、为手势区域图像由粗粒度到细粒度进行多粒度表达;利用卷积神经网络提取手势区域图像的多粒度特征;

s4、从粗粒度到细粒度计算每一粒度手势区域图像分类到各类别的条件概率,利用三支决策序贯的完成手势识别;

s5、将识别后的手势进行语义转换,对人机交互界面根据语义转换后的手势识别结果进行相应的操作;

s6、采用加权求和的方式获得最佳粒度,以该最佳粒度作为最细粒度,重复执行步骤s3~s5。

进一步的,所述为手势区域图像由粗粒度到细粒度进行多粒度表达,对于同一手势区域图像,其多粒度信息表示方式具体如下:

其中,ai表示手势区域图像在不同粒度的信息,a1表示手势区域图像在粗粒度的信息,an表示手势区域图像在细粒度的信息,即细粒度包含粗粒度;i=1,2,...,n,n表示粒度数。

进一步的,所述利用卷积神经网络提取手势区域图像的多粒度特征,包括利用卷积神经网络中不同的卷积核,提取手势图像的多粒度图像特征。

进一步的,所述步骤s4包括从手势区域图像提取粗粒度特征进行三支决策,若能确定手势的分类类别,则不继续细粒度的特征提取和进一步的三支决策,否则提取更细粒度的特征进行三支决策,直到确定手势区域图像的分类类别。

进一步的,所述步骤s6包括采用加权求和的方式获得最终每一粒度的人机交互界面优化结果,从而确定手势对人机交互界面优化效果最佳的粒度;

result=w×acc+(1-w)×time

time=t1+t2

其中,result为手势区域图像的最佳粒度,acc表示手势识别精度,time表示手势识别过程中花费的时间,w表示权值,t1表示提取手势区域图像的多粒度特征的时间;t2表示识别手势的时间。

本发明提供了一种基于三支决策优化智能座舱人机交互界面的系统,包括电性连接的摄像头、座舱手势获取模块、手势图像分割模块、多粒度特征提取模块、三支决策手势识别模块、手势语义转换模块和最佳粒度获取模块;

所述座舱手势获取模块通过摄像头采集座舱内的手势视频,将视频帧转变为一系列的静态手势图像;

所述手势图像分割模块用于将手势图像的手势和背景进行分割处理,获取手势区域图像;

所述手势多粒度特征提取模块用于提取出手势区域图像从粗粒度到细粒度的多粒度特征;

所述三支决策手势识别模块用于依据所提取的多粒度特征在每一粒度对手势区域图像进行三支决策,从而将手势分类;

所述手势语义转换模块用于将分类后的手势进行语义转换;

所述最佳粒度获取模块用于获取最佳粒度,并将所述最佳粒度发送到多粒度特征提取模块。

进一步的,所述手势多粒度特征提取模块包括卷积神经网络单元,利用卷积神经网络单元中的不同卷积核,提取出手势区域图像的多粒度图像特征;多粒度信息表示方式具体为其中,ai表示手势区域图像在不同粒度的信息,a1表示手势区域图像在粗粒度的信息,an表示手势区域图像在细粒度的信息,即细粒度包含粗粒度;i=1,2,...,n,n表示粒度数。

进一步的,所述三支决策手势识别模块包括对手势区域图像的粗粒度特征进行三支决策,若能确定手势的分类类别,则不继续细粒度的特征提取和进一步的三支决策,否则提取更细粒度的特征进行三支决策,直到确定手势区域图像的分类类别。

进一步的,所述最佳粒度获取模块包括采用加权求和的方式获得最终每一粒度的人机交互界面优化结果,从而确定手势区域图像的最佳粒度;

result=w×acc+(1-w)×time

time=t1+t2

其中,result为手势区域图像的最佳粒度,acc表示手势识别精度,time表示手势识别过程中花费的时间,w表示权值,t1表示提取手势区域图像的多粒度特征的时间;t2表示识别手势的时间。

本发明的有益效果:

本发明利用粒计算中“逐步计算”的思想,为手势图像构建多粒度信息表达方式,利用卷积神经网络提取多粒度的手势图像特征,从粗粒度到细粒度,在每一粒度应用三支决策的方法进行手势识别,然后对识别的手势进行相应的语义转化,并将手势识别结果应用在座舱内的hmi界面优化中。

本发明能够利用所获取手势不同粒度的特征,结合三支决策思想,更精准的识别手势,更快速的执行相应的语义操作,这不仅能够减少座舱hmi界面的交互时间,还能够为用户提供更舒适的交互体验。

附图说明

图1为本发明采用的流程示意图;

图2为本发明采用的多粒度特征提取示意图;

图3为本发明采用的三支决策手势识别流程图。

图4为本发明采用的hmi界面优化设计方法。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。

为了更好的说明该方法的具体实施步骤,结合图1和举例的方式说明如下:

实施例1

本发明包括以下步骤:

s1、采集座舱内的手势视频,对其进行预处理,得到静态的手势图像;

s2、对手势图像中的手势和背景进行分割处理,得到手势区域图像;

s3、为手势区域图像由粗粒度到细粒度进行多粒度表达;利用卷积神经网络提取手势区域图像的多粒度特征;

s4、从粗粒度到细粒度计算每一粒度手势区域图像分类到各类别的条件概率,利用三支决策序贯的完成手势识别;

s5、将识别后的手势区域图像进行语义转换,对人机交互界面根据语义转换后的手势识别结果进行操作;

所述为手势区域图像由粗粒度到细粒度进行多粒度表达,对于同一手势区域图像,其多粒度信息表示方式具体如下:

其中,ai表示手势区域图像在不同粒度的信息,a1表示手势区域图像在粗粒度的信息,an表示手势区域图像在细粒度的信息,即细粒度包含粗粒度;i=1,2,...,n,n表示粒度数。

所述利用卷积神经网络提取手势区域图像的多粒度特征,包括利用卷积神经网络中的不同卷积核,提取手势图像的多粒度图像特征,如图2所示,利用卷积神经网络cnn,提取手势区域图像的n个粒度的特征(依次为粗粒度到细粒度的特征)。

进一步的,所述步骤s4包括从对手势区域图像的粗粒度特征进行三支决策,若能确定手势的分类类别,则不继续细粒度的特征提取和进一步的三支决策,否则提取更细粒度的特征进行三支决策,直到确定出手势区域图像的分类类别。

其中,三支决策的流程图如图3所示,将输入的数据集,提取手势区域图像的多粒度特征,计算条件概率并进行三支决策。

选择softmax函数计算条件概率,将手势x分类为类别j的条件概率为:

其中,l=1,2,...,k,k表示手势区域图像的类别总数;θ为参数向量。

三支决策模型利用一组决策阈值α,β,γ,将手势对象划入正域(pos)、边界域(bnd)和负域(neg)中,对于正域和负域采用接受和拒绝规则,直接得到手势识别结果,而边界域采用延迟决策,当在更细粒度获取到更多信息时继续应用三支决策。

正域、边界域和负域的表达式如下:

pos(α,β)={x∈u|p(x|[x])≥α}

bnd(α,β)={x∈u|β<p(x|[x])<α}

neg(α,β)={x∈u|p(x|[x])≤β}

其中,p(x|[x])是分类的条件概率,[x]是包含x的等价类。

三支决策的阈值αi,βi,γi的计算方式如下:

分别为采取不同行动的损失函数,分别表示在第i粒度手势x属于类别x时分别采取接受、延迟和拒绝决策的损失函数,分别表示在第i粒度手势x不属于类别x时分别采取接受、延迟和拒绝决策的损失函数,每一粒度的损失函数分别由专家根据经验给出。

多粒度三支决策阈值的设置原则如下,即只有在必须或者有益于决策的情况下才进行更细粒度的决策。这为不同粒度下三支决策阈值的设置提供了依据,即粗粒度选择更大的接受阈值和更小的拒绝阈值,i=1,2,…,n-1表示由粗粒度到细粒度的序列,则不同粒度的阈值具体描述如下:

0≤βi<αi≤1,1≤i<n,

β1≤β2≤…≤βi<αi≤…≤α2≤α1

当i=n粒度时,三支决策变为二支决策,其决策阈值计算方式为:

三支决策是一种符合人类思维的决策方式,相比于传统的二支决策多了一个不承诺选择,即当信息不足以接受或者拒绝时采用第三种延迟决策。二支决策过程快速简洁,但是当获取信息不足或者获取信息需要一定代价时三支决策更加合适。选用三支决策进行手势识别的目的就是因为获取不同粒度的手势特征所需要花费的时间是不同的,对于实时性要求很高的hmi界面操作而言,考虑时间代价是非常有必要的。在三支决策手势识别中,关键的步骤是提取多粒度特征、计算三支决策的阈值对和条件概率。

实施例2

在步骤s1~s5的基础上,本实施例还增加了步骤s6、采用加权求和的方式获得最佳粒度,以该最佳粒度作为最细粒度,重复执行步骤s3~s5。

hmi界面优化设计方法如图4所示,采用加权求和的方式获得最终每一粒度的人机交互界面优化结果,从而确定手势区域图像的最佳粒度,以该最佳粒度作为最细粒度,利用卷积神经网络对新手势提取多粒度特征,并序贯的进行三支决策;

result=w×acc+(1-w)×time

time=t1+t2

其中,result为手势区域图像的最佳粒度,acc表示手势识别精度,time表示手势识别过程中花费的时间,w表示权值,t1表示提取手势区域图像的多粒度特征的时间;t2表示识别手势的时间。

本实施例较实施例1能够节省更多的时间资源,有着更小的计算复杂度,例如,在实施例1的情况下,不使用最佳粒度,设定提取5个粒度的特征,花费的时间是100,而如果知道3个粒度的效果比5个粒度的识别效果稍微差一点,但是时间是40,那么综合考虑,在5到3粒度其实比5到1粒度更加的适合实际应用。

其中,人机交互界面优化设计表示将最佳粒度求出后,作为后续手势图像处理的最细粒度。由于不同粒度所提取特征的信息量不同,会得到不同的识别结果,且细粒度特征提取相较于粗粒度花费的时间更多,对手势识别精度和识别时间加权考虑,能够为手势特征提取选择一个最合适的粒度,以满足座舱内基于手势的hmi界面优化设计目标。

本发明提供了一种基于三支决策优化智能座舱人机交互界面的系统,包括电性连接的摄像头、座舱手势获取模块、手势图像分割模块、多粒度特征提取模块、三支决策手势识别模块、手势语义转换模块和最佳粒度获取模块;

所述座舱手势获取模块通过摄像头采集座舱内的手势视频,将视频帧转变为一系列的静态手势图像;

所述手势图像分割模块用于将手势图像的手势和背景进行分割处理,获取手势区域图像;

所述手势多粒度特征提取模块用于提取出手势区域图像从粗粒度到细粒度的多粒度特征;

所述三支决策手势识别模块用于依据所提取的多粒度特征在每一粒度对手势区域图像进行三支决策,从而将手势分类;

所述手势语义转换模块用于将分类后的手势进行语义转换;

所述最佳粒度获取模块用于获取最佳粒度,并将所述最佳粒度发送到多粒度特征提取模块。

进一步的,所述手势多粒度特征提取模块包括卷积神经网络单元,利用卷积神经网络单元中的不同卷积核,提取出手势区域图像的多粒度图像特征;多粒度信息表示方式具体为其中,ai表示手势区域图像在不同粒度的信息,a1表示手势区域图像在粗粒度的信息,an表示手势区域图像在细粒度的信息,即细粒度包含粗粒度;i=1,2,...,n,n表示粒度数。

进一步的,所述三支决策手势识别模块包括对手势区域图像的粗粒度特征进行三支决策,若能确定手势的分类类别,则不继续细粒度的特征提取和进一步的三支决策,否则提取更细粒度的特征进行三支决策,直到确定出手势区域图像的分类类别。

进一步的,所述最佳粒度获取模块包括采用加权求和的方式获得最终每一粒度的人机交互界面优化结果,从而确定手势区域图像的最佳粒度;

result=w×acc+(1-w)×time

time=t1+t2

其中,result为手势区域图像的最佳粒度,acc表示手势识别精度,time表示手势识别过程中花费的时间,w表示权值,t1表示提取手势区域图像的多粒度特征的时间;t2表示识别手势的时间。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序指令相关的硬件来完成的,该程序可以存储于计算机可读的存储介质中,存储介质可以包括:rom、ram、磁盘或光盘等。

以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1