本发明涉及终端显示控制技术领域,尤其涉及一种基于语音识别的演讲提示方法及装置。
背景技术:
在演讲过程中记台词是一件非常重要又困难的事情,尤其地,长篇的演讲稿对人的记忆是巨大的考验,如果在演讲过程中还要分神去想台词,连台词都无法说顺会影响演讲质量,无法完成一场生动的演讲。如何帮助演讲者免去记台词对演讲的影响成为一大难题,目前比较普遍的方案是使用演讲台词提示器,其由液晶平板显示器,专业光学反射玻璃,VGA分配器,专业提词器软件等构成,从而实现导读功能,方便使用者进行读稿。
虽然上述演讲台词提示器可以实现导读功能,已帮助使用者进行读稿,但是其仍存在以下技术问题:
该类演讲台词提示器需要手动或定时自动滚屏,其中,手动滚屏方式需要使用者分神进行滚屏且需时常留意提示器,而定时自动滚屏方式无法正确跟随使用者的演讲进度进行提示。
技术实现要素:
本发明提供一种基于语音识别的演讲提示方法及装置,能够通过语音识别对演讲进度进行智能定位,实现演讲台词的智能显示。
一方面,本发明提供一种基于语音识别的演讲提示方法,包括:
对演讲者发出的语音数据进行实时采集;
对采集到的语音数据进行语音识别,得到相应的文字内容;
将所述文字内容在所述演讲者的演讲稿中进行匹配,定位出当前的演讲进度;
在所述演讲稿中对所述当前的演讲进度进行提示。
另一方面,本发明提供一种基于语音识别的演讲提示装置,所述装置包括 录音模块、识别模块、处理模块和显示模块,其中,
所述采集模块,用于对演讲者发出的语音数据进行实时采集;
所述识别模块,用于对采集到的语音数据进行语音识别,得到相应的文字内容;
所述匹配模块,用于将所述文字内容在所述演讲者的演讲稿中进行匹配,定位出当前的演讲进度;
所述提示模块,用于在所述演讲稿中对所述当前的演讲进度进行提示。
本发明提供的基于语音识别的演讲提示方法及装置,对演讲者发出的语音数据进行实时采集;对采集到的语音数据进行语音识别,得到相应的文字内容;将所述文字内容在所述演讲者的演讲稿中进行匹配,定位出当前的演讲进度;在所述演讲稿中对所述当前的演讲进度进行提示。与现有技术相比,其能够通过语音识别对演讲进度进行智能定位,从而实现对演讲台词的智能显示,以达到智能地协助使用者进行流利演讲的目的。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明基于语音识别的演讲提示方法一实施例的流程示意图;
图2为本发明基于语音识别的演讲提示方法另一实施例的流程图;
图3为本发明基于语音识别的演讲提示装置一实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供一种基于语音识别的演讲提示方法,所述方法包括:
S11、对演讲者发出的语音数据进行实时采集。
S12、对采集到的语音数据进行语音识别,得到相应的文字内容。
S13、将所述文字内容在所述演讲者的演讲稿中进行匹配,定位出当前的演讲进度。
S14、在所述演讲稿中对所述当前的演讲进度进行提示。
本发明提供的基于语音识别的演讲提示方法,对演讲者发出的语音数据进行实时采集;对采集到的语音数据进行语音识别,得到相应的文字内容;将所述文字内容在所述演讲者的演讲稿中进行匹配,定位出当前的演讲进度;在所述演讲稿中对所述当前的演讲进度进行提示。与现有技术相比,其能够通过语音识别对演讲进度进行智能定位,从而实现对演讲台词的智能显示,以达到智能地协助使用者进行流利演讲的目的。
如图2所示,本发明实施例提供一种基于语音识别的演讲提示方法,所述方法包括:
S21、对演讲者发出的语音数据进行实时采集。
当前网络状态为不可用时,触发步骤S22;当前网络状态为可用时,触发步骤S23~S25。
S22、对采集到的语音数据进行离线语音识别。
其中,所述离线语音识别为根据本地语音识别库将采集到的语音数据转换为相应的文字内容。
具体地,所述本地语音识别库可以为第三方语音识别引擎,利用本地安装的所述第三方语音识别引擎进行语音识别,引擎内部的识别算法各不相同,例如,可以是对声音数据进行特征提取再使用适当的匹配算法进行模型匹配。
并且,所述第三方语音识别引擎会根据最终的匹配结果返回一个置信度来标识这个识别结果的可信程度,可以根据这个置信度来判断当前得到的结果是否有效。具体地,可以将返回的所述置信度与预定阈值进行比较,当所述置信度大于预定阈值时,认为其语音识别结果有效。
S23、对采集到的语音数据同时进行离线语音识别和在线语音识别。
其中,所述离线语音识别为通过本地语音识别库将采集到的语音数据转换 为相应的文字内容,所述在线语音识别为通过远程服务器将采集到的语音数据转换为相应的文字内容。
S24、获取所述离线语音识别的识别结果的置信度。
具体地,可以从所述本地语音识别库中获取所述离线语音识别的识别结果的置信度。
S25、若所述离线语音识别的识别结果的置信度大于预定阈值,则将所述离线语音识别的识别结果作为语音识别得到的文字内容,并结束在线语音识别,否则,将所述在线语音识别的识别结果作为语音识别得到的文字内容。
具体地,所述本地语音识别库可以为第三方语音识别引擎,利用本地安装的所述第三方语音识别引擎进行语音识别,引擎内部的识别算法各不相同,例如,可以是对声音数据进行特征提取再使用适当的匹配算法进行模型匹配。
另外,所述第三方语音识别引擎会根据最终的匹配结果返回一个置信度来标识这个识别结果的可信程度,可以根据这个置信度来判断当前得到的结果是否有效,具体地,当所述第三方语音识别引擎返回的置信度大于预定阈值时,可以优选离线语音识别结果,并结束在线语音识别,否则,选择在线语音识别结果。
可见,离线识别能够快速的进行识别和响应,但是由于本地机器硬件的运算能力和存储空间的限制会将模型数据进行压缩,所以识别度会降低。远程服务器的模型数据不需要压缩所以识别度较高但识别速度较离线识别慢。因此,在当前网络状态可用时,通过兼顾离线识别和在线识别的各自优点,提供快速、准确的语音识别结果,从而更好地实现演讲台词的智能显示。
S26、通过模糊比较的方式将所述文字内容在所述演讲者的演讲稿中进行匹配,定位出当前的演讲进度。
具体地,所述模糊比较为当将所述文字内容在所述演讲者的演讲稿中进行匹配时,不需要语音识别得到的文字内容与所述演讲稿中的相应文字内容完全相同而是允许二者存在个别字不同,并将计算出的相同字数作为匹配度,匹配度达到某一预定阈值则认为匹配成功。
这里主要是基于演讲者的演讲内容不一定与演讲稿完全一致,可能会有个 别字的出入,所以采用模糊比较能更准确智能地找到演讲位置。另外匹配过程不会非常耗时,因为采用实时识别,所以匹配的范围不会很大,且能够实时给予提示。
S27、根据所述当前的演讲进度,对所述演讲稿中已演讲的文字内容进行特别显示,例如高亮显示。
其中,当已演讲内容超出本屏了则跳转至下一屏的相应位置,并从所述相关位置开始显示演讲稿内容
本发明提供的基于语音识别的演讲提示方法,与现有技术相比,一方面,其能够通过语音识别对演讲进度进行智能定位,从而实现对演讲台词的智能显示,以达到智能地协助使用者进行流利演讲的目的;另一方面,通过在网络可用时兼顾离线语音识别和在线语音识别的各自优点,提供快速、准确的语音识别结果,从而更好地实现演讲台词的智能显示;再一方面,通过采用模糊比较的方式进行演讲台词的提示能够实时且更准确智能地定位到演讲位置。
如图3所示,本发明实施例提供一种基于语音识别的演讲提示装置,所述装置包括采集模块31、识别模块32、匹配模块33和提示模块34。
所述采集模块31,用于对演讲者发出的语音数据进行实时采集。
所述识别模块32,用于对采集到的语音数据进行语音识别,得到相应的文字内容。
优选地,所述识别模块31,用于在当前网络不可用时,对采集到的语音数据进行离线语音识别。
具体地,所述本地语音识别库可以为第三方语音识别引擎,利用本地安装的所述第三方语音识别引擎进行语音识别,引擎内部的识别算法各不相同,例如,可以是对声音数据进行特征提取再使用适当的匹配算法进行模型匹配。
并且,所述第三方语音识别引擎会根据最终的匹配结果返回一个置信度来标识这个识别结果的可信程度,可以根据这个置信度来判断当前得到的结果是否有效。具体地,可以将返回的所述置信度与预定阈值进行比较,当所述置信度大于预定阈值时,认为其语音识别结果有效。
优选地,所述识别模块31,用于在当前网络可用时,对采集到的语音数据 同时进行离线语音识别和在线语音识别;获取所述离线语音识别的识别结果的置信度;当所述离线语音识别的识别结果的置信度大于预定阈值时,将所述离线语音识别的识别结果作为语音识别得到的文字内容,并结束在线语音识别,否则,将所述在线语音识别的识别结果作为语音识别得到的文字内容。
其中,所述离线语音识别为通过本地语音识别库将采集到的语音数据转换为相应的文字内容,所述在线语音识别为通过远程服务器将采集到的语音数据转换为相应的文字内容。
具体地,所述本地语音识别库可以为第三方语音识别引擎,利用本地安装的所述第三方语音识别引擎进行语音识别,引擎内部的识别算法各不相同,例如,可以是对声音数据进行特征提取再使用适当的匹配算法进行模型匹配。
另外,所述第三方语音识别引擎会根据最终的匹配结果返回一个置信度来标识这个识别结果的可信程度,可以根据这个置信度来判断当前得到的结果是否有效,具体地,当所述第三方语音识别引擎返回的置信度大于预定阈值时,可以优选离线语音识别结果,并结束在线语音识别,否则,选择在线语音识别结果。
可见,离线识别能够快速的进行识别和响应,但是由于本地机器硬件的运算能力和存储空间的限制会将模型数据进行压缩,所以识别度会降低。远程服务器的模型数据不需要压缩所以识别度较高但识别速度较离线识别慢。因此,在当前网络状态可用时,通过兼顾离线识别和在线识别的各自优点,提供快速、准确的语音识别结果,从而更好地实现演讲台词的智能显示。
所述匹配模块33,用于将所述文字内容在所述演讲者的演讲稿中进行匹配,定位出当前的演讲进度。
优选地,所述匹配模块33,用于通过模糊比较的方式将所述文字内容在所述演讲者的演讲稿中进行匹配,定位出当前的演讲进度。
具体地,所述模糊比较为当将所述文字内容在所述演讲者的演讲稿中进行匹配时,不需要语音识别得到的文字内容与所述演讲稿中的相应文字内容完全相同而是允许二者存在个别字不同,并将计算出的相同字数作为匹配度,匹配度达到某一预定阈值则认为匹配成功。
这里主要是基于演讲者的演讲内容不一定与演讲稿完全一致,可能会有个别字的出入,所以采用模糊比较能更准确智能地找到演讲位置。另外匹配过程不会非常耗时,因为采用实时识别,所以匹配的范围不会很大,且能够实时给予提示。
所述提示模块34,用于在所述演讲稿中对所述当前的演讲进度进行提示。
优选地,所述提示模块34,用于根据所述当前的演讲进度,对所述演讲稿中已演讲的文字内容进行特别显示,例如高亮显示。
其中,当已演讲内容超出本屏了则跳转至下一屏的相应位置,并从所述相关位置开始显示演讲稿内容。
本发明提供的基于语音识别的演讲提示装置,与现有技术相比,其能够通过语音识别对演讲进度进行智能定位,从而实现对演讲台词的智能显示,以达到智能地协助使用者进行流利演讲的目的。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。