一种文字显示方法、装置、机顶盒及介质与流程

文档序号:31053672发布日期:2022-08-06 09:43阅读:90来源:国知局
一种文字显示方法、装置、机顶盒及介质与流程

1.本发明涉及图像识别技术领域,尤其涉及一种文字显示方法、装置、机顶盒及介质。


背景技术:

2.近年来,通过问诊app进行远程直播互动交流的问诊方式应运而生。在问诊app中可以包括智能手势辅助,即将对手势进行识别得到的文字在屏幕上进行显示,以辅助问诊过程中的互动交流。
3.对于智能手势辅助,现有的技术方案主要包括两种方式,第一种方式需要将特定手套戴在手上以进行手势所对应文字的识别,第二种方式则通过信息熵算法从背景图像中分割出手部、提取目标图像并应用到视频数据流中以识别手势对应的文字。但是在现有的技术方案中,只有较少数量的手势能被识别到,且对汉字手势笔划的识别准确率较低,从而影响了用户交互体验。


技术实现要素:

4.本发明提供了一种文字显示方法、装置、机顶盒及介质,以提高文字显示的准确率,进而提升交互体验。
5.根据本发明的一方面,提供了一种文字显示方法包括:
6.获取视频数据流中至少一帧视频图像;
7.对各所述视频图像进行处理,得到目标手势集合;
8.根据生成式对抗网络模型对目标手势集合进行识别,得到目标手势集合所对应的文字;
9.将目标手势集合所对应的文字进行显示。
10.根据本发明的另一方面,提供了一种文字显示装置,包括:
11.获取模块,用于获取视频数据流中至少一帧视频图像;
12.处理模块,用于对各所述视频图像进行处理,得到目标手势集合;
13.识别模块,用于根据生成式对抗网络模型对目标手势集合进行识别,得到目标手势集合所对应的文字;
14.显示模块,用于将目标手势集合所对应的文字进行显示。
15.根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:
16.至少一个处理器;以及
17.与所述至少一个处理器通信连接的存储器;其中,
18.所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的文字显示方法。
19.根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储
介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的文字显示方法。
20.本发明实施例提供了一种文字显示方法、装置、机顶盒及介质,所述方法应用于机顶盒通过对获取的各视频图像进行处理得到了目标手势集合,继而基于生成式对抗网络模型对目标手势集合进行识别,能够准确得到目标手势集合所对应的文字,提高文字显示的准确率,从而提升了交互体验。
21.应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
22.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
23.图1是根据本发明实施例一提供的一种文字显示方法的流程图;
24.图2是根据本发明实施例一提供的一种生成式对抗网络模型结构示意图;
25.图3是根据本发明实施例二提供的一种文字显示方法的流程图;
26.图4是根据本发明实施例二提供的一种文字显示方法的结构示意图;
27.图5是根据本发明实施例三提供的一种文字显示装置的结构示意图;
28.图6是实现本发明实施例一的文字显示方法的机顶盒的结构示意图。
具体实施方式
29.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
30.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
31.实施例一
32.图1是根据本发明实施例一提供的一种文字显示方法的流程图,本实施例可适用于对文字进行显示情况,该方法可以由文字显示装置来执行,该文字显示装置可以采用硬件和/或软件的形式实现,该文字显示装置可配置于机顶盒中。如图1所示,该方法包括:
33.s110、获取视频数据流中至少一帧视频图像。
34.其中,视频数据流可以认为是机顶盒中摄像头获取的视频数据,视频数据可以由一帧或多帧视频图像组成。
35.在本实施例中,在得到视频数据流后,可以获取视频数据流中至少一帧视频图像,本实施例不对获取视频图像的方法进行限定,例如可以对视频数据流进行解帧,以将视频数据转化为一帧或多帧视频图像等。
36.s120、对各所述视频图像进行处理,得到目标手势集合。
37.目标手势集合可以理解为各视频图像所表征手势的状态集合,目标手势集合可以包括手势从开始到结束的状态集合,如开始状态集合等。
38.在得到一帧或多帧视频图像后,需要对视频图像进行处理,以便对视频图像中的手势进行识别得到目标手势集合。在本步骤中,得到目标手势集合的手段不限,示例性的,可以提取每一帧视频图像所对应的手势图像,然后对各手势图像进行分割等处理来得到目标手势集合。示例性的,还可以根据各视频图像的时间戳,得到手势的第一帧视频图像和最后一帧图像,然后分别对此两帧图像及两帧图像间各帧图像进行识别以得到目标手势集合,本实施例对此不作限定。
39.s130、根据生成式对抗网络模型对目标手势集合进行识别,得到目标手势集合所对应的文字。
40.在本实施例中,生成式对抗网络模型可以认为是一种深度学习模型,用来识别目标手势集合,其中,生成式对抗网络模型的具体层数及训练模型过程不限,例如,在训练模型阶段,可以基于上万张视频图像作为模型训练的初始数据,使用adam优化算法进行训练等。
41.具体的,可以根据生成式对抗网络模型对目标手势集合进行识别,以得到目标手势集合所对应的文字,其中,识别的具体步骤不限,只要能得到目标手势集合所对应的文字即可,此处不作进一步展开。
42.s140、将目标手势集合所对应的文字进行显示。
43.在获得目标手势集合所对应的文字后,可以将文字进行显示,以辅助用户的互动交流,本实施例对显示文字的位置等不作限定,可以由系统或相关人员进行设置。
44.本发明实施例一提供的一种文字显示方法,获取视频数据流中至少一帧视频图像;对各所述视频图像进行处理,得到目标手势集合;根据生成式对抗网络模型对目标手势集合进行识别,得到目标手势集合所对应的文字;将目标手势集合所对应的文字进行显示。利用该方法,通过对获取的各视频图像进行处理得到了目标手势集合,继而基于生成式对抗网络模型对目标手势集合进行识别,能够准确得到目标手势集合所对应的文字,提高文字显示的准确率,从而提升了交互体验。
45.在一个实施例中,所述根据生成式对抗网络模型对目标手势集合进行识别,得到目标手势集合所对应的文字,包括:
46.利用生成式对抗网络模型对目标手势集合进行识别,输出动态手势图片;
47.基于预设神经网络模型对所述动态手势图片进行识别,得到目标手势集合所对应的文字。
48.其中,动态手势图片可以认为是手势对应的动态图片,可以用来确定手势所表征的文字。预设神经网络模型可以理解为一种用于识别动态手势图片来得到对应文字的模
型,在识别之前可以预先进行预设神经网络模型的训练,例如可以基于参考数据集来对预设神经网络模型进行训练,参考数据集可以包括若干个数字字符、符号以及中文汉字等。
49.具体的,首先可以利用生成式对抗网络模型对目标手势集合中的各集合进行识别,来输出目标手势集合所对应的动态手势图片;然后基于预设神经网络模型识别输出的动态手势图片,以得到所对应的文字。
50.在一个实施例中,所述生成式对抗网络模型包含多层,依次包括卷积层、池化层、卷积层、池化层、完全连接层和全连接层。
51.在本实施例中,为了保证集成的软件开发工具包(software development kit,sdk)不过于庞大,可以在alexnet原始模型上进行设计,以得到本实施例所需的生成式对抗网络模型。
52.其中,生成式对抗网络模型可以包含多层,依次可以包括卷积层、池化层、卷积层、池化层、完全连接层和全连接层,此处不对具体包括的层数进行限定,如可以为6层。本步骤不对各层的参数及激活函数进行限定。
53.示例性的,图2是根据本发明实施例一提供的一种生成式对抗网络模型结构示意图,如图2所示,第一层为卷积层,在本层可以输入原始图像(即各视频图像)的目标手势集合,大小为120*120*1,卷积滤波器的大小可以为50*50,深度为32,激活函数可以采用relu函数。
54.第二层为池化层,滤波器的大小为30*30,步长可以为5,全0补码。第三层可以为卷积层,卷积滤波器的大小为60*60,深度为64,激活函数采用sigmoid函数。第四层可以为池化层,滤波器的大小为25*25,步长可以为5,全0补码。
55.后两层依次为完全连接层和全连接层,此外,中间flatten层用于平均输入数据,使多维输入变成一维输入,用于转换到全连接层上。
56.示例性的,在训练生成式对抗网络模型的过程中,还可以使用adam作为优化器,利用104500张手势比划图片(即手势图像)作为模型训练的数据,然后可以设置默认参数为lr=0.001,beta_1=0.9,beta_2=0.999,epsilon=1e-08,decay=0.0。
57.实施例二
58.图3是根据本发明实施例二提供的一种文字显示方法的流程图,本实施例二在上述各实施例的基础上进行优化。在本实施例中,将对各所述视频图像进行处理,得到目标手势集合进一步具体化为:针对每帧视频图像,提取视频图像所对应的手势图像,所述手势图像包含边界框;根据手势分割算法和动态时间规划算法对各所述手势图像进行处理,得到目标手势集合,所述目标手势集合包括开始状态集合和结束状态集合。
59.如图3所示,该方法包括:
60.s210、获取视频数据流中至少一帧视频图像。
61.s220、针对每帧视频图像,提取视频图像所对应的手势图像,所述手势图像包含边界框。
62.在本步骤中,可以先提取每帧视频图像中的手势图像,然后对各手势图像进行处理,来得到目标手势集合。其中,提取手势图像的手段不限,例如首先可以识别出视频图像中手部的边缘,然后连接边缘得到对应的手势图像;还可以基于肤色与背景在肤色模型的差异来实现手势图像的提取等。
63.s230、根据手势分割算法和动态时间规划算法对各所述手势图像进行处理,得到目标手势集合,所述目标手势集合包括开始状态集合和结束状态集合。
64.在本实施例中,目标手势集合可以包括开始状态集合和结束状态集合,开始状态集合可以为手势开始时的状态集合,结束状态集合可以为手势结束时的状态集合。手势分割算法可以认为是一种将手势图像进行分割为多个手势集合的算法,动态时间规划算法可以用于确保手势集合捕捉时间的一致性,实现时间上的“对齐”。
65.具体的,在提取各手势图像后,可以根据手势分割算法和动态时间规划算法对各手势图像进行处理,来得到开始状态集合和结束状态集合。例如,可以在基于手势分割算法对各手势图像进行手势分割的同时,对分割的图像进行时间上的排序,从而得到开始状态集合和结束状态集合;也可以先基于手势分割算法对各手势图像进行手势分割,然后基于动态时间规划算法对分割得到的手势集合进行处理,得到开始状态集合和结束状态集合。
66.s240、根据生成式对抗网络模型对目标手势集合进行识别,得到目标手势集合所对应的文字。
67.s250、将目标手势集合所对应的文字进行显示。
68.本发明实施例二提供的一种文字显示方法,获取视频数据流中至少一帧视频图像;针对每帧视频图像,提取视频图像所对应的手势图像,所述手势图像包含边界框;根据手势分割算法和动态时间规划算法对各所述手势图像进行处理,得到目标手势集合,所述目标手势集合包括开始状态集合和结束状态集合;根据生成式对抗网络模型对目标手势集合进行识别,得到目标手势集合所对应的文字;将目标手势集合所对应的文字进行显示。利用该方法,通过对每帧视频图像提取所对应的手势图像,为后续手势的精确分割提供了保证,同时根据手势分割算法和动态时间规划算法对各手势图像进行处理,提高了手势识别的准确率,从而使显示的文字更加准确。
69.在一个实施例中,所述针对每帧视频图像,提取视频图像所对应的手势图像,包括:
70.针对每帧视频图像,利用hsv空间边缘算法对所述视频图像进行预处理;
71.利用预处理后的视频图像所对应手势识别概率推测所述预处理后的视频图像中手势的具体范围;
72.利用hsv空间边缘算法,根据所述具体范围提取所述预处理后的视频图像中的手势图像;
73.基于最小边界框算法对所述手势图像绘制边界框。
74.其中,hsv空间边缘算法可以是指利用灰度值的不连续性质,以灰度突变为基础分割出目标区域的算法,在本实施例中,目标区域可以为包含手势边缘的区域,即预处理后的视频图像。
75.手势识别概率可以认为是预处理后的视频图像中所指示的手势为目标手势的概率,目标手势可以为参考手势库中的标准手势,参考手势库可以为相关人员预先设置的标准手势集合,用于确定手势识别概率。最小边界框算法可以用于绘制边界框。
76.在本实施例中,可以针对每帧视频图像,利用hsv空间边缘算法对视频图像进行预处理的操作得到预处理后的视频图像;基于预处理后的视频图像所对应手势识别概率推测预处理后的视频图像中手势的具体范围;然后再利用hsv空间边缘算法,根据手势的具体范
围提取预处理后的视频图像中的手势图像,最后利用最小边界框算法对手势图像绘制边界框以完成手势图像的提取。
77.其中,预处理后的视频图像所对应手势识别概率可以基于参考手势库来进行确定。具体确定的方法不限,只要能得到手势识别概率即可。
78.在一个实施例中,所述手势识别概率是根据参考手势库对坐标对进行评估得到,所述坐标对由所述视频图像中同一手臂上两个关节点的坐标形成。
79.首先需要对坐标对进行获取,坐标对可以认为是一帧视频图像中同一手臂上两个关节点的坐标形成的坐标对,可以用于得到手势识别概率,关节点的具体位置不限,例如可以为手指、手肘、手腕等。
80.在本实施例中,可以获取预处理后的视频图像中的坐标对以进行后续的步骤,本实施例不对具体获取的手段进行限定,例如可以对预处理后的视频图像中的关节点进行识别,然后分别取同一手臂上两个关节点的坐标来形成坐标对。
81.进一步的,可以根据参考手势库中的标准手势对坐标对进行评估来得到手势识别概率。示例性的,首先可以计算当前时刻对应的坐标对形成的向量与各标准手势对应的各标准向量的最小夹角,然后计算当前时刻之前的第一设定数量的坐标对对应的各历史最小夹角,最后可以根据最小夹角和各历史最小夹角计算手势识别概率,第一设定数量可以由相关人员进行设定,本实施例对此不作限定。
82.例如,首先可以计算当前时刻的坐标对形成的向量与各标准手势对应的各标准向量的各向量夹角,取各向量夹角的平均值ave(θr);然后取9个历史最小夹角θ
t,min
,t∈[1,9],基于最小夹角θ
min
和9个(即第一设定数量)历史最小夹角可以得到最小方差继而根据计算的平均值ave(θr)和最小方差来确定手势概率
[0083]
最后可以根据手势概率p
ar
,最小夹角为θ
min
,设定阈值t
θ
,利用公式来计算手势识别概率,手势概率可以认为是计算的初始手势识别概率,需要根据最小夹角和设定阈值来进一步确定最终的手势识别概率,即手势识别概率。
[0084]
可以理解的是,手势识别概率也可以结合语音识别概率修正,语音识别概率可以认为是通过对音频数据进行分析确定的概率。
[0085]
在一个实施例中,所述根据手势分割算法和动态时间规划算法对各所述手势图像进行处理,得到目标手势集合,包括:
[0086]
基于手势分割算法对各所述手势图像进行分割,得到初始手势集合;
[0087]
基于动态时间规划算法对所述初始手势集合进行处理,得到目标手势集合。
[0088]
初始手势集合可以理解为各手势图像进行分割初步得到的手势集合,需要根据后
续时间上的规划来保证手势时间的一致性。
[0089]
在本实施例中,可以基于手势分割算法对各手势图像进行分割,得到多个分割的图像构成的初始手势集合;然后利用动态时间规划算法对初始手势集合进行处理,得到目标手势集合。
[0090]
下面对本发明实施例提供的文字显示方法进行示例性的描述。
[0091]
图4是根据本发明实施例二提供的一种文字显示方法的结构示意图,如图4所示,步骤1:首先可以利用opencv中hsv空间边缘算法对每一帧视频图像进行处理(即预处理),其次利用手势识别概率推测出图像手势的具体范围,紧接着利用hsv空间边缘算法能够从背景中提取出正确的手势图像(即预处理后的视频图像中的手势图像),最后利用opencv中最小边界矩形(minimum bounding rectangle,mbr)即最小边界框算法,对手势图像绘制边界框。
[0092]
步骤2:利用手势分割算法对各手势图像进行分割,并将分割的图像构成手势集合(即初始手势集合)。其次为了保证捕捉手势时间一致(时间间隙),可以基于动态时间规划(dynamic time warping,dtw)算法对初始手势集合进行处理,并将这些手势集合分为开始状态集合和结束状态集合(即目标手势集合)。
[0093]
利用训练后的lcgan模型(即生成式对抗网络模型)分别对两个集合(即目标手势集合)进行识别,最终会输出一个gif格式的动态手势图片。
[0094]
步骤3:将步骤2中输出的gif动态手势图片,输入到mobilenet中(即预设神经网络模型)进行识别,将识别出的文字输出在屏幕上(即将目标手势集合所对应的文字进行显示)。其中,预设神经网络模型训练的过程可以为:使用中文手写数据集(由171个字母数字字符和符号以及3,866中文汉字)在mobilenet中训练。
[0095]
通过上述描述可以发现,本发明实施例可以在问诊app中集成智能手势辅助的功能,此功能可以辅助发音残障人士进行沟通。此外,近年来随着硬件条件的不断改善,深度学习在解决视觉识别、语音识别、自然语言处理等诸多问题上表现突出,故本发明实施例在智能手势辅助功能上提出了一种基于生成式对抗网络(lcgan)的手势识别方法,将4k智能机顶盒ptz高清摄像头采集的深度视频图像(即视频数据流中的视频图像)作为输入源,利用lcgan模型对视频图像中的手势进行检测,分割,识别等处理后,最终将识别出的文字显示在屏幕上。
[0096]
下述为本实施例将文字显示方法集成在问诊app中的主要步骤:
[0097]
首先,配置数据集。下载中文手写数据集,数据集可以由171个字母数字字符、符号以及3,866中文汉字组成,并通过sift算法,对汉字和数字手语手势建立特征向量模板库。
[0098]
然后,开始训练lcgan模型。具体的,配置python环境,安装tensoflow框架,其次安装并导入torchaudio,omegaconf和soundfile模块,使用tensoflow的hub模块中的load模块指定特征向量模板库,最后利用glob模块开始训练模型。
[0099]
最后,将模型变成动态库。配置c++环境,将模型需要输入数据的接口暴露出来,将模型打包成动态库(so库),在android端将打包好的动态库集成在android系统上;然后利用ndk-build再一次打包编译,android端通过c++侧暴露的接口将视频数据流直接传输到算法中。
[0100]
实施例三
[0101]
图5是根据本发明实施例三提供的一种文字显示装置的结构示意图,如图5所示,该装置包括:
[0102]
获取模块310,用于获取视频数据流中至少一帧视频图像;
[0103]
处理模块320,用于对各所述视频图像进行处理,得到目标手势集合;
[0104]
识别模块330,用于根据生成式对抗网络模型对目标手势集合进行识别,得到目标手势集合所对应的文字;
[0105]
显示模块340,用于将目标手势集合所对应的文字进行显示。
[0106]
本发明实施例三提供的一种文字显示装置,通过获取模块310获取视频数据流中至少一帧视频图像;通过处理模块320对各所述视频图像进行处理,得到目标手势集合;通过识别模块330根据生成式对抗网络模型对目标手势集合进行识别,得到目标手势集合所对应的文字;通过显示模块340将目标手势集合所对应的文字进行显示。利用该装置,通过对获取的各视频图像进行处理得到了目标手势集合,继而基于生成式对抗网络模型对目标手势集合进行识别,能够准确得到目标手势集合所对应的文字,提高文字显示的准确率,从而提升了交互体验。
[0107]
可选的,处理模块320包括:
[0108]
提取单元,用于针对每帧视频图像,提取视频图像所对应的手势图像,所述手势图像包含边界框;
[0109]
处理单元,用于根据手势分割算法和动态时间规划算法对各所述手势图像进行处理,得到目标手势集合,所述目标手势集合包括开始状态集合和结束状态集合。
[0110]
可选的,提取单元包括:
[0111]
针对每帧视频图像,利用hsv空间边缘算法对所述视频图像进行预处理;
[0112]
利用预处理后的视频图像所对应手势识别概率推测所述预处理后的视频图像中手势的具体范围;
[0113]
利用hsv空间边缘算法,根据所述具体范围提取所述预处理后的视频图像中的手势图像;
[0114]
基于最小边界框算法对所述手势图像绘制边界框。
[0115]
可选的,所述手势识别概率是根据参考手势库对坐标对进行评估得到,所述坐标对由所述视频图像中同一手臂上两个关节点的坐标形成。
[0116]
可选的,识别模块330包括:
[0117]
利用生成式对抗网络模型对目标手势集合进行识别,输出动态手势图片;
[0118]
基于预设神经网络模型对所述动态手势图片进行识别,得到目标手势集合所对应的文字。
[0119]
可选的,处理单元包括:
[0120]
基于手势分割算法对各所述手势图像进行分割,得到初始手势集合;
[0121]
基于动态时间规划算法对所述初始手势集合进行处理,得到目标手势集合。
[0122]
可选的,所述生成式对抗网络模型包含多层,依次包括卷积层、池化层、卷积层、池化层、完全连接层和全连接层。
[0123]
本发明实施例所提供的文字显示装置可执行本发明任意实施例所提供的文字显示方法,具备执行方法相应的功能模块和有益效果。
[0124]
实施例四
[0125]
图6是实现本发明实施例一的文字显示方法的机顶盒的结构示意图,如图6所示,本发明实施例四提供的机顶盒包括:摄像机1;控制器2,与摄像机1通信连接。
[0126]
控制器2包括:至少一个处理器21;以及与至少一个处理器21通信连接的存储装置22;该控制器2中的处理器21可以是一个或多个,图6中以一个处理器21为例;存储装置22用于存储一个或多个程序;所述一个或多个程序被所述一个或多个处理器21执行,使得所述一个或多个处理器21实现如本发明实施例中任一项所述的文字显示方法。
[0127]
机顶盒中的处理器21、存储装置22可以通过总线或其他方式连接,图6中以通过总线连接为例。
[0128]
该机顶盒中的存储装置22作为一种计算机可读存储介质,可用于存储一个或多个程序,所述程序可以是软件程序、计算机可执行程序以及模块,如本发明实施例一或实施例二所提供文字显示方法对应的程序指令/模块(例如,附图5所示的文字显示装置中的模块,包括:获取模块310、处理模块320、识别模块330、显示模块340)。处理器21通过运行存储在存储装置22中的软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现上述方法实施例中文字显示方法。
[0129]
存储装置22可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储装置22可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储装置22可进一步包括相对于处理器21远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0130]
并且,当上述控制器2所包括一个或者多个程序被所述一个或者多个处理器21执行时,程序进行如下操作:
[0131]
获取视频数据流中至少一帧视频图像;
[0132]
对各所述视频图像进行处理,得到目标手势集合;
[0133]
根据生成式对抗网络模型对目标手势集合进行识别,得到目标手势集合所对应的文字;
[0134]
将目标手势集合所对应的文字进行显示。
[0135]
实施例五
[0136]
本发明实施例五提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时用于执行文字显示方法,该方法包括:
[0137]
获取视频数据流中至少一帧视频图像;
[0138]
对各所述视频图像进行处理,得到目标手势集合;
[0139]
根据生成式对抗网络模型对目标手势集合进行识别,得到目标手势集合所对应的文字;
[0140]
将目标手势集合所对应的文字进行显示。
[0141]
可选的,该程序被处理器执行时还可以用于执行本发明任意实施例所提供的文字显示方法。
[0142]
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意
组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(random access memory,ram)、只读存储器(read only memory,rom)、可擦式可编程只读存储器(erasable programmable read only memory,eprom)、闪存、光纤、便携式cd-rom、光存储器件、磁存储器件、或者上述的任意合适的组合。计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
[0143]
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于:电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
[0144]
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、无线电频率(radiofrequency,rf)等等,或者上述的任意合适的组合。
[0145]
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如java、smalltalk、c++,还包括常规的过程式程序设计语言,诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(lan)或广域网(wan)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
[0146]
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1