一种操作指令确定方法、装置、机顶盒及介质与流程

文档序号:31504651发布日期:2022-09-14 09:52阅读:64来源:国知局
一种操作指令确定方法、装置、机顶盒及介质与流程

1.本发明涉及视频语音识别技术领域,尤其涉及一种操作指令确定方法、装置、机顶盒及介质。


背景技术:

2.近年来,智能导航成为人工智能领域的热门话题,智能导航主要通过语音或手势识别算法来识别操作指令,根据操作指令即可在一定距离内控制目标设备(如手机、电视机等)的动作,而无需遥控等设备。
3.现有技术方案采用的算法主要是基于隐马尔科夫模型(hidden markov model,hmm)的算法。hmm算法运用状态序列描述观测向量的时间逻辑,通过多变量混合高斯分布表现观测向量序列的空间分布,需要大量的训练样本和存储量,因此训练的过程需要耗费较多时间。


技术实现要素:

4.本发明提供了一种操作指令确定方法、装置、机顶盒及介质,以提高了识别算法的鲁棒性,降低算法的复杂度。
5.根据本发明的一方面,提供了一种操作指令确定方法,应用于机顶盒,包括:
6.获取视频数据流中的坐标对,所述坐标对为一帧图像由同一手臂上两个关节点的坐标形成;
7.获取语音数据流中至少一个音频数据;
8.根据参考手势库对所述坐标对进行评估得到所述坐标对的目标手势识别概率,所述目标手势识别概率为目标手势所对应的识别概率,所述参考手势库包括至少一个标准手势指令;
9.根据参考语音库对各所述音频数据进行评估得到各所述音频数据的目标语音识别概率,所述目标语音识别概率为目标语音所对应的识别概率,所述参考语音库包括至少一个标准语音指令;基于目标手势识别概率和目标语音识别概率确定操作指令。
10.根据本发明的另一方面,提供了一种操作指令确定装置,包括:
11.第一获取模块,用于获取视频数据流中的坐标对,所述坐标对由一帧图像中同一手臂上两个关节点的坐标形成;
12.第二获取模块,用于获取语音数据流中至少一个音频数据;
13.第一评估模块,用于根据参考手势库对所述坐标对进行评估得到所述坐标对的目标手势识别概率,所述目标手势识别概率为目标手势所对应的识别概率,所述参考手势库包括至少一个标准手势指令;
14.第二评估模块,用于根据参考语音库对各所述音频数据进行评估得到各所述音频数据的目标语音识别概率,所述目标语音识别概率为目标语音所对应的识别概率,所述参考语音库包括至少一个标准语音指令;
15.确定模块,用于基于目标手势识别概率和目标语音识别概率确定操作指令。
16.根据本发明的另一方面,提供了一种机顶盒,所述机顶盒包括:
17.摄像机;
18.麦克风;
19.控制器,分别与所述摄像机和所述麦克风通信连接,所述控制器包括:
20.至少一个处理器;以及
21.与所述至少一个处理器通信连接的存储器;其中,
22.所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的操作指令确定方法。
23.根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的操作指令确定方法。
24.本发明实施例提供了一种操作指令确定方法、装置、机顶盒及介质。所述方法应用于机顶盒,根据参考手势库对获取视频数据流中的坐标对进行评估准确得到了目标手势识别概率,根据参考语音库对获取语音数据流中的音频数据进行评估准确得到了目标语音识别概率,使得算法的复杂度降低;同时,通过目标手势识别概率和目标语音识别概率互为校准的方式来确定操作指令,提高了算法的鲁棒性,从而确保了操作指令的正确性。
25.应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
26.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
27.图1是根据本发明实施例一提供的一种操作指令确定方法的流程图;
28.图2是根据本发明实施例二提供的一种操作指令确定方法的流程图;
29.图3是根据本发明实施例三提供的一种操作指令确定装置的结构示意图;
30.图4是实现本发明实施例一的操作指令确定方法的机顶盒的结构示意图。
具体实施方式
31.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
32.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用
的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
33.实施例一
34.图1是根据本发明实施例一提供的一种操作指令确定方法的流程图,本实施例可适用于对操作指令进行确定情况,该方法可以由操作指令确定装置来执行,该操作指令确定装置可以采用硬件和/或软件的形式实现,该操作指令确定装置可配置于机顶盒中。如图1所示,该方法包括:
35.s110、获取视频数据流中的坐标对,所述坐标对由一帧图像中同一手臂上两个关节点的坐标形成。
36.其中,视频数据流可以认为是机顶盒中摄像头获取的特定时长内的视频数据,特定时长内的视频数据可以为当前时刻以及当前时刻之前一段时长内的视频数据,本实施例对特定时长不限,可以为系统或者相关人员进行设置。其中,视频数据流中可以包含用户的手势动作信息,如关节点的坐标等。
37.坐标对可以认为是由一帧图像中同一手臂上两个关节点的坐标形成的坐标对,可以用于得到目标手势识别概率,关节点的具体位置不限,例如可以为手指、手肘、手腕等。
38.在本实施例中,可以获取视频数据流中的坐标对以进行后续的步骤,本实施例不对具体获取的手段进行限定,示例性的,可以获取当前时刻的图像,然后获取图像中的坐标对。
39.s120、获取语音数据流中至少一个音频数据。
40.其中,语音数据流可以认为是机顶盒中麦克风获取的特定时长内的音频数据,特定时长内的音频数据可以为当前时刻以及当前时刻之前一段时长内的音频数据,本步骤不对音频数据的类型和个数进行限定,例如音频数据可以为短语、单词等。
41.具体的,可以获取语音数据流中至少一个音频数据以进行后续的步骤,本实施例不对具体获取的手段进行限定,示例性的,可以获取当前时刻以及当前时刻之前的2分钟内的语音数据流,然后获取语音数据流中的各音频数据。
42.s130、根据参考手势库对所述坐标对进行评估得到所述坐标对的目标手势识别概率,所述目标手势识别概率为目标手势所对应的识别概率,所述参考手势库包括至少一个标准手势指令。
43.参考手势库可以理解为对坐标对进行评估时可供参考的手势库,参考手势库可以包括至少一个标准手势指令,标准手势指令可以为标准手势对应的指令,如点击、长按等指令,其中,标准手势可以为系统或相关人员预先设置的手势,以代表标准手势指令。可以理解的是,每个标准手势指令对应一个标准手势,当识别出坐标对对应某个标准手势时,可以执行此标准手势对应的标准手势指令。
44.目标手势识别概率可以认为是坐标对所指示的手势为目标手势的概率,目标手势为与各标准手势中的其中一个标准手势相近或相同的手势。
45.在本实施例中,可以根据各标准手势指令代表的标准手势对坐标对进行评估,以
得到坐标对的目标手势识别概率,本实施例不对评估的手段进行限定,只要能得到目标手势识别概率即可。示例性的,可以计算坐标对形成的向量与各标准手势对应的各标准向量的最小夹角,然后计算坐标对所在时刻之前的第一设定数量的坐标对对应的各历史最小夹角;最后可以根据最小夹角和各历史最小夹角计算目标手势识别概率,本实施例对此不作限定。
46.s140、根据参考语音库对各所述音频数据进行评估得到各所述音频数据的目标语音识别概率,所述目标语音识别概率为目标语音所对应的识别概率,所述参考语音库包括至少一个标准语音指令。
47.参考语音库可以理解为对各音频数据进行评估时可供参考的语音库,参考语音库可以包括至少一个标准语音指令,标准语音指令可以为标准语音对应的指令,如点击、长按等指令,其中,标准语音可以为系统或相关人员预先设置的手势,以代表标准语音指令。目标语音识别概率可以认为是各音频数据所指示的语音为目标语音的概率,目标语音为对各标准语音中的其中一个标准语音。
48.在本实施例中,可以根据各标准语音指令代表的标准语音对各音频数据进行评估,以得到各音频数据的目标语音识别概率,本实施例不对评估的手段进行限定,只要能得到目标语音识别概率即可。示例性的,首先可以对语音数据流中的各音频数据进行降噪、回声消除等提高音频质量后,将处理后的各音频数据与参考语音库进行匹配来得到目标语音识别概率,本实施例对此不作限定。
49.s150、基于目标手势识别概率和目标语音识别概率确定操作指令。
50.在得到目标手势识别概率和目标语音识别概率后,可以基于目标手势识别概率和目标语音识别概率来对操作指令进行确定,本步骤对确定操作指令的方法不作限定,示例性的,可以比较目标手势识别概率和目标语音识别概率的大小,根据比对结果的较大者来确定操作指令;还可以基于目标手势识别概率和目标语音识别概率,确定操作概率,然后根据操作概率确定操作指令。
51.本发明实施例一提供的一种操作指令确定方法,包括:获取视频数据流中的坐标对,所述坐标对由一帧图像中同一手臂上两个关节点的坐标形成;获取语音数据流中至少一个音频数据;根据参考手势库对所述坐标对进行评估得到所述坐标对的目标手势识别概率,所述目标手势识别概率为目标手势所对应的识别概率,所述参考手势库包括至少一个标准手势指令;根据参考语音库对各所述音频数据进行评估得到各所述音频数据的目标语音识别概率,所述目标语音识别概率为目标语音所对应的识别概率,所述参考语音库包括至少一个标准语音指令;基于目标手势识别概率和目标语音识别概率确定操作指令。利用该方法,根据参考手势库对获取视频数据流中的坐标对进行评估准确得到了目标手势识别概率,根据参考语音库对获取语音数据流中的音频数据进行评估准确得到了目标语音识别概率,使得算法的复杂度降低;同时,通过基于目标手势识别概率和目标语音识别概率互为校准的方式来确定操作指令,提高了算法的鲁棒性,从而确保了操作指令的正确性。
52.在一个实施例中,不同的手势指令对应有不同的坐标对。
53.在本实施例中,不同的手势指令可以对应不同关节点处形成的坐标对,例如当手势指令为点击指令时,坐标对可以由指尖和手腕的关节点形成;当手势指令为向右指令时,坐标对可以由手肘和手腕的关节点形成。
54.可以理解的是,对坐标对进行评估的过程,也可以理解为对坐标对所对应的手势指令与参考手势库中各标准手势指令进行匹配,以得到目标手势识别概率的过程。
55.在一个实施例中,所述基于目标手势识别概率和目标语音识别概率确定操作指令,包括:
56.基于目标手势识别概率和目标语音识别概率,确定操作概率;
57.根据操作概率确定操作指令。
58.其中,操作概率可以认为是由手势识别与语音识别共同得出的概率,以用于确定操作指令。
59.在本实施例中,首先可以基于目标手势识别概率和目标语音识别概率,确定操作概率,然后根据操作概率来确定操作指令。本实施例不对确定操作概率的具体步骤进行展开。示例性的,在确定操作概率时,可以将目标手势识别概率和目标语音识别概率与第一设定值进行比较,当目标手势识别概率大于第一设定值或目标语音识别概率大于第一设定值时,可以将取目标手势识别概率和目标语音识别概率两者中较大值作为操作概率;当目标手势识别概率和目标语音识别概率都小于第一设定值时,则对目标手势识别概率和目标语音识别概率进行加权处理来确定操作概率,其中,第一设定值的具体数值不限,可以由经验值进行确定。
60.在一个实施例中,所述基于目标手势识别概率和目标语音识别概率,确定操作概率,包括:
61.若目标手势识别概率等于零,则将目标语音识别概率确定为操作概率;
62.若目标语音识别概率等于零,则将目标手势识别概率确定为操作概率;
63.否则,基于所述目标手势识别概率、第二设定数量的历史目标手势识别概率、目标语音识别概率和第三设定数量的历史语音手势识别概率的加权值确定为操作概率。
64.在得到目标手势识别概率和目标语音识别概率后,可以综合来确定操作概率。具体的,当目标手势识别概率等于零时,可以认为手势识别的准确率不高,此时可以根据语音识别得出的目标语音识别概率,将目标语音识别概率确定为操作概率;当目标语音识别概率等于零时,可以认为语音识别的准确率不高,此时可以根据手势识别得出的目标手势识别概率,将目标手势识别概率确定为操作概率;当目标手势识别概率和目标语音识别概率都不等于零时,说明可以综合手势识别和语音识别共同来确定操作概率,此处可以基于目标手势识别概率、第二设定数量的历史目标手势识别概率、目标语音识别概率和第三设定数量的历史语音手势识别概率的加权值确定为操作概率,本实施例不对具体确定的方式进行限定,其中,第二设定数量和第三设定数量可以由相关人员进行限定,可以相同,也可以不同。
65.示例性的,可以根据下列公式来对操作概率进行确定:
[0066][0067]
其中,p
gr
为目标手势识别概率,p
vr
为目标语音识别概率,p
1gr
,...,p
(n-1)gr
为n-1个
历史目标手势识别概率,p
1vr
,...,p
(n-1)vr
为n-1个历史目标语音识别概率,p
ngr
=p
gr
,p
nvr
=p
vr
,第二设定数量和第三设定数量为n,w1,...,wn为各目标手势识别概率或各目标语音识别概率的权重值。
[0068]
实施例二
[0069]
图2是根据本发明实施例二提供的一种操作指令确定方法的流程图,本实施例二在上述各实施例的基础上进行优化。
[0070]
在本实施例中,将根据参考手势库对所述坐标对进行评估得到所述坐标对的目标手势识别概率进一步具体化为:根据参考手势库确定所述坐标对对应的最小夹角,所述最小夹角为各向量夹角中的最小值,各向量夹角为所述坐标对对应的特征向量分别与所述参考手势库中各标准手势指令对应的标准向量间的夹角;根据各所述向量夹角的平均值和所述最小夹角的最小方差,确定所述坐标对的目标手势概率,所述最小夹角的最小方差基于所述最小夹角和第一设定数量的历史最小夹角确定;基于所述目标手势概率、所述最小夹角和设定阈值,确定所述坐标对的目标手势识别概率。
[0071]
如图2所示,该方法包括:
[0072]
s210、获取视频数据流中的坐标对,所述坐标对为一帧图像中同一手臂上两个关节点的坐标形成。
[0073]
s220、获取语音数据流中至少一个音频数据。
[0074]
s230、根据参考手势库确定所述坐标对对应的最小夹角,所述最小夹角为各向量夹角中的最小值,各向量夹角为所述坐标对对应的特征向量分别与所述参考手势库中各标准手势指令对应的标准向量间的夹角。
[0075]
其中,最小夹角可以为各向量夹角中的最小值,各向量夹角可以认为是坐标对对应的特征向量分别与参考手势库中各标准手势指令对应的标准向量间的夹角。可以理解的是,参考手势库中包括至少一个标准手势指令,每个标准手势指令可以以空间向量的方式进行表示,即每个标准手势指令对应一个标准向量。
[0076]
在获取视频数据流中的坐标对后,可以确定坐标对对应的特征向量与参考手势库中各标准手势指令对应的各标准向量之间的各向量夹角,然后将各向量夹角的最小值确定为坐标对对应的最小夹角。
[0077]
例如,参考手势库中包含9个标准手势指令,分别对应9个标准向量,将9个标准向量设定为集合y,即y={mi|i=[1,9]}。选择右肘(n
qr
)和右手腕(n
er
)形成坐标对,设n
qr
和n
er
的坐标分别为(x1,y1,z1),(x2,y2,z2),则坐标对对应的特征向量m
qe
=(x
2-x1,y
2-y1,z
2-z1)。最后可以根据特征向量m
qe
分别与y={mi|i=[1,9]}计算各向量夹角,将各向量夹角的最小值确定为最小夹角,
[0078]
s240、根据各所述向量夹角的平均值和所述最小夹角的最小方差,确定所述坐标对的目标手势概率,所述最小夹角的最小方差基于所述最小夹角和第一设定数量的历史最小夹角确定。
[0079]
最小夹角的最小方差可以是指最小夹角对应的方差,可以基于最小夹角和第一设定数量的历史最小夹角来确定,其中,历史最小夹角可以认为是坐标对所在时刻之前的坐标对所对应的最小夹角,第一设定数量可以由相关人员进行设定,本实施例对此不作限定。
[0080]
具体的,在确定坐标对对应的最小夹角后,可以根据各向量夹角的平均值和最小夹角的最小方差,确定坐标对的目标手势概率,具体的确定步骤不限,例如,首先可以计算坐标对对应的各向量夹角的平均值ave(θr);然后取9个历史最小夹角θ
t,min
,t∈[1,9],基于最小夹角θ
min
和9个(即第一设定数量)历史最小夹角可以得到最小方差最后根据计算的平均值ave(θr)和最小方差来确定坐标对所对应的目标手势概率
[0081]
s250、基于所述目标手势概率、所述最小夹角和设定阈值,确定所述坐标对的目标手势识别概率。
[0082]
设定阈值可以理解为最小夹角的临界值,具体数值不限,可以由相关人员进行设定。
[0083]
在本实施例中,可以基于目标手势概率、最小夹角和设定阈值来确定坐标对的目标手势识别概率,例如,可以比较最小夹角和设定阈值的大小,当最小夹角小于设定阈值时,则将目标手势概率确定为目标手势识别概率;当最小夹角大于设定阈值时,则令目标手势识别概率等于零,本实施例对此不作限定。
[0084]
在一个实施例中,所述基于所述目标手势概率、所述最小夹角和设定阈值,确定所述坐标对的目标手势识别概率,包括:
[0085]
若所述目标手势概率小于零且所述最小夹角大于设定阈值,则所述目标手势识别概率等于零;否则,所述目标手势识别概率等于目标手势概率。
[0086]
在本步骤中,当目标手势概率小于零且最小夹角大于设定阈值时,可以认为手势识别的准确率很低,则确定目标手势识别概率等于零;否则,可以认为目标手势概率即为目标手势识别概率,即目标手势识别概率等于目标手势概率。示例性的,当目标手势概率为p
ar
,最小夹角为θ
min
,t
θ
设定阈值时,可以利用公式来计算目标手势识别概率。
[0087]
s260、根据参考语音库对各所述音频数据进行评估得到各所述音频数据的目标语音识别概率。
[0088]
s270、基于目标手势识别概率和目标语音识别概率确定操作指令。
[0089]
本发明实施例二提供的一种操作指令确定方法,通过先确定坐标对的目标手势概率再确定目标手势识别概率,能够提高目标手势识别概率的精度,从而使操作指令更加准确;同时,基于坐标对对应的最小夹角和历史最小夹角来综合确定目标手势概率,能够结合历史时刻坐标对所反映的手势情况进一步提高目标手势概率的精度。
[0090]
在一个实施例中,所述根据参考手势库确定所述坐标对对应的最小夹角,包括:
[0091]
基于坐标对确定特征向量,所述特征向量的起点为第一关节点,所述特征向量的终点为第二关节点,所述第一关节点和所述第二关节点基于所确定的目标手势确定;
[0092]
根据特征向量和参考手势库中各标准手势指令对应的标准向量,确定特征向量与各所述标准向量的最小夹角。
[0093]
在本实施例中,首先可以基于坐标对确定特征向量,特征向量的起点可以为第一关节点,特征向量的终点可以为第二关节点,其中,第一关节点和第二关节点为一帧图像中同一手臂上关节点,第一关节点和第二关节点可以基于所确定的目标手势来确定,例如当目标手势为向右手势时,第一关节点可以为右肘,第二关节点可以为右手腕,第一关节点和第二关节点仅用于区分不同的关节点,本实施例对此不作限定。
[0094]
继而可以根据确定的特征向量和参考手势库中各标准手势指令对应的标准向量,来确定特征向量与各标准向量的最小夹角。
[0095]
下面对本发明实施例提供的一种操作指令确定方法进行示例性的描述。
[0096]
首先,获取手势指令和音频:
[0097]
通过4k智能机顶盒中ptz高清摄像头的视频数据流可以得到3d坐标系下的20个骨骼关节点及其三维坐标系(即获取视频数据流中的坐标对)。
[0098]
在4k智能机顶盒设备底部有四个独立的数字麦克风组成的麦克风阵列,即使距离麦克风很远也能采集到语音指令(即获取语音数据流中至少一个音频数据)。
[0099]
然后,进行手势识别概率的计算:
[0100]
将参考手势库中的9个标准手势指令以空间向量的方式进行表示,即每个标准手势可以以一个三维标准方向向量表示,将9个标准向量设定为集合y,即y={mi|i=[1,9]}。
[0101]
选择右肘(n
qr
)和右手腕(n
er
)作为手势识别的两个关节点,来形成坐标对,以右肘为起点,右手腕为终点的特征向量m
qe
来识别各种手势指令。如设n
qr
和n
er
的坐标分别为(x1,y1,z1),(x2,y2,z2),则m
qe
=(x
2-x1,y
2-y1,z
2-z1)。
[0102]
利用得到的m
qe
计算与y集合中9个标准向量的夹角,找出最小夹角θ
min
,即
[0103]
假设当前手势向量与特征向量之间的最小角度为θ
min
,且窗口大小为10帧,从第1帧到第100帧可以分为100个时间窗口,需要计算每个窗口的手势向量的最小方差则目标手势概率其中,ave(θr)为各向量夹角的平均值,为当前手势持续时间方差,θ
t,min
为9个(即第一设定数量)历史最小夹角。
[0104]
通过公式可以计算正确的手势识别概率p
gr
(即目标手势识别概率),其中,t
θ
为固定阈值(即设定阈值)。
[0105]
继而,进行语音识别概率的计算:
[0106]
建立语音识别引擎,从具体的语法对象中进行分析寻找。语法对象(即参考语音库)由一系列单词和短语(即标准语音指令)组成,本实施例中识别9条指令可以用于基于机
顶盒在问诊app中进行远程问诊的互动操作,其中9条指令如下:
[0107]
grammar={“click”,“longclick”,“left”,“right”,“northeast”,“southeast”,“south west”,“northwest”,“touch”}。
[0108]
从麦克风获取语音数据流中至少一个音频数据,通过降噪,自动增益控制和回声消除来提高音频质量,语音识别引擎接受已处理的音频数据以匹配语法库,解析文本结果。将解析结果与语法对象中的词进行匹配,计算出每个词的匹配概率,取出最大匹配概率p
vr
(即目标语音识别概率)。
[0109]
最后,操作指令的生成:操作指令可以是由手势识别和语音识别共同得出,以右方向为例,向右操作概率pr由公式计算:
[0110][0111]
如上述公式所示,操作概率pr由向右手势识别的概率p
gr
(即目标手势识别概率)和向右语音识别概率p
vr
(目标语音识别概率)计算得到,如果语音识别不可靠(即p
vr
=0),则只能依靠手势识别,反之亦然,如果两者都可靠则取手势和语音识别概率的加权平均值进行计算,从而得出正确操作指令。
[0112]
需要说明的是,本发明实施例提供的操作指令确定方法可以用于机顶盒内置的问诊app中,通过机顶盒获取的视频数据流和语音数据流可以实现操作指令的确定,进行在问诊app中执行操作指令。
[0113]
由于人机交互是人工智能领域的热门话题,智能导航作为人机交互重要的应用之一,是通过语音或手势信息来控制目标设备的动作,智能导航的主要优点是无需任何遥控设备即可控制一定距离内的目标设备,因此,可以在问诊app的智能音频直播功能中,集成人机交互导航算法,故本实施例提出了一种将手势识别与语音识别结合的导航算法集成在问诊app中,主要有以下步骤:
[0114]
将导航算法so库以sdk的形式集成在问诊app中。
[0115]
通过9种手势指令和9种语言命令建立参考模型(即参考语音库和参考手势库)。
[0116]
通过4k智能机顶盒摄像头和麦克风提取实时视频和音频信息(即视频数据流和语音数据流)。
[0117]
通过参考模型评估当前手势和语音信息匹配度,推导出问诊app的操作指令。
[0118]
具体集成在问诊app中的步骤可以为:首先配置c++11的编译环境,其次编写c++实现接口并把接口透传到android端,最后在配置好的c++编译环境将算法打包成动态库(so库)的形式。在android端将打包好的动态库集成在android系统上,然后利用ndk-build再一次打包编译。android端通过c++侧暴露的接口将音视频流数据直接传输到算法中,至此整个算法已集成在问诊app中。
[0119]
实施例三
[0120]
图3是根据本发明实施例三提供的一种操作指令确定装置的结构示意图,如图3所
示,该装置包括:
[0121]
第一获取模块310,用于获取视频数据流中的坐标对,所述坐标对由一帧图像中同一手臂上两个关节点的坐标形成;
[0122]
第二获取模块320,用于获取语音数据流中至少一个音频数据;
[0123]
第一评估模块330,用于根据参考手势库对各所述坐标对进行评估得到各所述坐标对的目标手势识别概率,所述目标手势识别概率为目标手势所对应的识别概率,所述参考手势库包括至少一个标准手势指令;
[0124]
第二评估模块340,用于根据参考语音库对各所述音频数据进行评估得到各所述音频数据的目标语音识别概率,所述目标语音识别概率为目标语音所对应的识别概率,所述参考语音库包括至少一个标准语音指令;
[0125]
确定模块350,用于基于目标手势识别概率和目标语音识别概率确定操作指令。
[0126]
本发明实施例三提供的一种操作指令确定装置,通过第一获取模块310获取视频数据流中的坐标对,所述坐标对由一帧图像中同一手臂上两个关节点的坐标形成;通过第二获取模块320获取语音数据流中至少一个音频数据;通过第一评估330根据参考手势库对各所述坐标对进行评估得到各所述坐标对的目标手势识别概率,所述目标手势识别概率为目标手势所对应的识别概率,所述参考手势库包括至少一个标准手势指令;通过第二评估340根据参考语音库对各所述音频数据进行评估得到各所述音频数据的目标语音识别概率,所述目标语音识别概率为目标语音所对应的识别概率,所述参考语音库包括至少一个标准语音指令;通过确定模块350基于目标手势识别概率和目标语音识别概率确定操作指令。利用该装置,根据参考手势库对获取视频数据流中的坐标对进行评估准确得到了目标手势识别概率,根据参考语音库对获取语音数据流中的音频数据进行评估准确得到了目标语音识别概率,使得算法的复杂度降低;同时,通过基于目标手势识别概率和目标语音识别概率互为校准的方式来确定操作指令,提高了算法的鲁棒性,从而确保了操作指令的正确性。
[0127]
可选的,所述第一评估模块330包括:
[0128]
第一确定单元,用于针对每个坐标对,根据参考手势库确定所述坐标对对应的最小夹角,所述最小夹角为各向量夹角中的最小值,各向量夹角为所述坐标对对应的特征向量分别与所述参考手势库中各标准手势指令对应的标准向量间的夹角;
[0129]
第二确定单元,用于针对每个坐标对,根据各所述向量夹角的平均值和所述最小夹角的最小方差,确定所述坐标对的目标手势概率,所述最小夹角的最小方差基于所述最小夹角和第一设定数量的历史最小夹角确定;
[0130]
第三确定单元,用于基于所述目标手势概率、所述最小夹角和设定阈值,确定所述坐标对的目标手势识别概率。
[0131]
可选的,所述第一确定单元具体用于:
[0132]
基于坐标对确定特征向量,所述特征向量的起点为第一关节点,所述特征向量的终点为第二关节点,所述第一关节点和所述第二关节点基于所确定的目标手势确定;
[0133]
根据特征向量和参考手势库中各标准手势指令对应的标准向量,确定特征向量与各所述标准向量的最小夹角。
[0134]
可选的,所述第三确定单元具体用于:
[0135]
若所述目标手势概率小于零且所述最小夹角大于设定阈值,则所述目标手势识别概率等于零;否则,所述目标手势识别概率等于目标手势概率。
[0136]
可选的,不同的手势指令对应有不同的坐标对。
[0137]
可选的,确定模块350包括:
[0138]
操作概率确定单元,用于基于目标手势识别概率和目标语音识别概率,确定操作概率;
[0139]
操作指令确定单元,用于根据操作概率确定操作指令。
[0140]
可选的,所述操作概率确定单元具体用于:
[0141]
若目标手势识别概率等于零,则将目标语音识别概率确定为操作概率;
[0142]
若目标语音识别概率等于零,则将目标手势识别概率确定为操作概率;
[0143]
否则,基于所述目标手势识别概率、第二设定数量的历史目标手势识别概率、目标语音识别概率和第三设定数量的历史语音手势识别概率的加权值确定为操作概率。
[0144]
本发明实施例所提供的操作指令确定装置可执行本发明任意实施例所提供的操作指令确定方法,具备执行方法相应的功能模块和有益效果。
[0145]
实施例四
[0146]
图4是实现本发明实施例一的操作指令确定方法的机顶盒的结构示意图,如图4所示,本发明实施例四提供的机顶盒包括:摄像机1;麦克风2;控制器3,分别与摄像机1和麦克风2通信连接。
[0147]
控制器3包括:至少一个处理器31;以及与至少一个处理器31通信连接的存储装置32;该控制器3中的处理器31可以是一个或多个,图4中以一个处理器31为例;存储装置32用于存储一个或多个程序;所述一个或多个程序被所述一个或多个处理器31执行,使得所述一个或多个处理器31实现如本发明实施例中任一项所述的操作指令确定方法。
[0148]
机顶盒中的处理器31、存储装置32可以通过总线或其他方式连接,图4中以通过总线连接为例。
[0149]
该机顶盒中的存储装置32作为一种计算机可读存储介质,可用于存储一个或多个程序,所述程序可以是软件程序、计算机可执行程序以及模块,如本发明实施例一或实施例二所提供操作指令确定方法对应的程序指令/模块(例如,附图3所示的操作指令确定装置中的模块,包括:第一获取模块310、第二获取模块320、第一评估模块330、第二评估模块340、确定模块350)。处理器31通过运行存储在存储装置32中的软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现上述方法实施例中操作指令确定方法。
[0150]
存储装置32可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储装置32可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储装置32可进一步包括相对于处理器31远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0151]
并且,当上述控制器3所包括一个或者多个程序被所述一个或者多个处理器31执行时,程序进行如下操作:
[0152]
获取视频数据流中的坐标对,所述坐标对由一帧图像中同一手臂上两个关节点的坐标形成;
[0153]
获取语音数据流中至少一个音频数据;
[0154]
根据参考手势库对各所述坐标对进行评估得到各所述坐标对的目标手势识别概率,所述目标手势识别概率为目标手势所对应的识别概率,所述参考手势库包括至少一个标准手势指令;
[0155]
根据参考语音库对各所述音频数据进行评估得到各所述音频数据的目标语音识别概率,所述目标语音识别概率为目标语音所对应的识别概率,所述参考语音库包括至少一个标准语音指令;
[0156]
基于目标手势识别概率和目标语音识别概率确定操作指令。
[0157]
实施例五
[0158]
本发明实施例五提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时用于执行操作指令确定方法,该方法包括:
[0159]
获取视频数据流中的坐标对,所述坐标对由一帧图像中同一手臂上两个关节点的坐标形成;
[0160]
获取语音数据流中至少一个音频数据;
[0161]
根据参考手势库对各所述坐标对进行评估得到各所述坐标对的目标手势识别概率,所述目标手势识别概率为目标手势所对应的识别概率,所述参考手势库包括至少一个标准手势指令;
[0162]
根据参考语音库对各所述音频数据进行评估得到各所述音频数据的目标语音识别概率,所述目标语音识别概率为目标语音所对应的识别概率,所述参考语音库包括至少一个标准语音指令;
[0163]
基于目标手势识别概率和目标语音识别概率确定操作指令。
[0164]
可选的,该程序被处理器执行时还可以用于执行本发明任意实施例所提供的操作指令确定方法。
[0165]
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(random access memory,ram)、只读存储器(read only memory,rom)、可擦式可编程只读存储器(erasable programmable read only memory,eprom)、闪存、光纤、便携式cd-rom、光存储器件、磁存储器件、或者上述的任意合适的组合。计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
[0166]
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于:电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
[0167]
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、无线电频率(radiofrequency,rf)等等,或者上述的任意合适的组合。
[0168]
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如java、smalltalk、c++,还包括常规的过程式程序设计语言,诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(lan)或广域网(wan)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
[0169]
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1