一种语音识别方法和装置的制造方法

文档序号：9867708阅读：407来源：国知局

一种语音识别方法和装置的制造方法
【技术领域】
[0001] 本发明涉及语音识别技术领域，特别是涉及一种语音识别方法和装置。
【背景技术】
[0002] 随着科技的迅速发展，语音识别技术取得显著进步，逐渐进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别技术能够使用户无需手动按键，实现命令和控制，方便用户交互。
[0003] 语音识别系统需要大量音频和文本的语料，在语料等条件限制不足以训练某一领域的垂直语音识别系统时，利用已有公开的通用识别引擎不失为一种选择。但是通用语音识别的语言模型与垂直领域的语言模型存在较大的差异，从而导致某一领域的语音识别引擎在另一领域不能满足需求。例如，将通用的连续语音识别引擎直接用于爱奇艺视频搜索的语音助手就会有性能瓶颈，在视频垂直领域中用户在通过语音命令控制搜索或播放视频时，由于语音命令的特殊性，例如，前缀动词与后面视频内容的连接在通用语法不常见，使得其语言模型与通用语言模型有较大的差异性，从而导致对语音的识别结果不准确，比如， "播放绿箭侠"可能会被识别为"播放列表卡"，因为"播放"后面连接"绿"字的概率较低，此外，"查找虎妈猫爸"可能会被识别为"查找出了猫大"，"播放泰冏"可能会被识别为"播状态井 ^等等。
[0004] 因此，现有技术中采用通用语音识别引擎对语音进行识别的准确性较差。

【发明内容】

[0005] 本发明提供一种语音识别方法和装置，以解决现有技术中采用通用语音识别引擎对语音进行识别的准确性较差的问题。
[0006] 为了解决上述问题，本发明公开了一种语音识别方法，包括：
[0007] 检测接收到的待识别语音信息中是否包括命令关键词信息；
[0008] 若包括，则将所述待识别语音信息划分为所述命令关键词信息和未知内容信息两部分；
[0009] 确定所述命令关键词信息对应的命令识别结果；
[0010] 利用语音识别引擎对所述未知内容信息进行识别，得到内容识别结果；
[0011] 将所述命令识别结果和所述内容识别结果进行组合后作为对所述待识别语音信息的识别结果。
[0012] 优选地，所述检测接收到的待识别语音信息中是否包括命令关键词信息的步骤包括：
[0013] 将接收到的待识别语音信息分别与预设的关键词信息库中包括的多个关键词模型和垃圾模型进行匹配；
[0014] 若检测到与所述待识别语音信息中某时间段的语音信息相匹配的关键词模型，则确定所述待识别语音信息中包括命令关键词信息。
[0015] 优选地，所述关键词信息库中还包括所述关键词模型各自对应的文本信息；
[0016] 所述确定所述命令关键词信息对应的命令识别结果的步骤，包括：
[0017] 将所述相匹配的关键词模型对应的文本信息作为所述命令关键词信息对应的命令识别结果。
[0018] 优选地，所述将所述待识别语音信息划分为所述命令关键词信息和未知内容信息两部分的步骤，包括：
[0019] 获取所述命令关键词信息在所述待识别语音信息中的起始时间和结束时间；
[0020] 将所述待识别语音信息中所述起始时间和所述结束时间对应时间段的语音信息作为命令关键词信息，将所述待识别语音信息中除所述起始时间和所述结束时间对应时间段的语音信息之外的剩余时间段的语音信息作为未知内容信息。
[0021] 优选地，在所述检测接收到的待识别语音信息中是否包括命令关键词信息的步骤之后，还包括：
[0022] 若不包括，则利用语音识别引擎对所述待识别语音信息进行识别，得到对所述待识别语音信息的识别结果。
[0023] 为了解决上述问题，本发明还公开了一种语音识别装置，包括：
[0024] 检测模块，用于检测接收到的待识别语音信息中是否包括命令关键词信息；
[0025] 划分模块，用于在所述检测模块检测到包括时，将所述待识别语音信息划分为所述命令关键词信息和未知内容信息两部分；
[0026] 确定模块，用于确定所述命令关键词信息对应的命令识别结果；
[0027] 第一识别模块，用于利用语音识别引擎对所述未知内容信息进行识别，得到内容识别结果；
[0028] 组合模块，用于将所述命令识别结果和所述内容识别结果进行组合后作为对所述待识别语音信息的识别结果。
[0029]优选地，所述检测模块，具体用于将接收到的待识别语音信息分别与预设的关键词信息库中包括的多个关键词模型和垃圾模型进行匹配;若检测到与所述待识别语音信息中某时间段的语音信息相匹配的关键词模型，则确定所述待识别语音信息中包括命令关键词信息。
[0030] 优选地，所述关键词信息库中还包括所述关键词模型各自对应的文本信息；
[0031] 所述确定模块，具体用于将所述相匹配的关键词模型对应的文本信息作为所述命令关键词信息对应的命令识别结果。
[0032]优选地，所述划分模块，具体用于获取所述命令关键词信息在所述待识别语音信息中的起始时间和结束时间;将所述待识别语音信息中所述起始时间和所述结束时间对应时间段的语音信息作为命令关键词信息，将所述待识别语音信息中除所述起始时间和所述结束时间对应时间段的语音信息之外的剩余时间段的语音信息作为未知内容信息。
[0033] 优选地，所述装置还包括：
[0034] 第二识别模块，用于在所述检测模块检测到不包括时，利用语音识别引擎对所述待识别语音信息进行识别，得到对所述待识别语音信息的识别结果。
[0035] 与现有技术相比，本发明包括以下优点：
[0036] 本发明在接收到待识别语音信息后，首先检测该待识别语音信息中是否包括命令关键词信息，若包括，则将待识别语音信息划分为命令关键词信息和未知内容信息两部分，确定命令关键词信息对应的命令识别结果，以及利用语音识别引擎对未知内容信息进行识别得到内容识别结果，最后将命令识别结果和内容识别结果进行组合后作为对待识别语音信息的识别结果。由此可知，本发明考虑到视频垂直领域中语音命令的特殊性，将语音信息划分为两部分单独识别，仅将未知内容信息送入通用语音识别引擎进行识别，相比于直接利用通用识别引擎进行整个语音信息的识别而言，其解耦了命令关键词与未知内容之间的语言约束，识别结果更加准确，并且无需关心通用语音识别引擎的内部结构，不需要重新训练语言模型，既可以直接应用通用语音识别引擎，又能一定程度解决语言模型失配导致的性能问题。
【附图说明】
[0037] 图1是本发明实施例一的一种语音识别方法的步骤流程图；
[0038] 图2是本发明实施例二的一种语音识别方法的步骤流程图；
[0039] 图3是本发明实施例二的一种语音识别过程的示意图；
[0040] 图4是本发明实施例三的一种语音识别装置的结构框图；
[0041]图5是本发明实施例四的一种语音识别装置的结构框图。
【具体实施方式】
[0042]为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。
[0043] 实施例一
[0044] 参照图1，示出了本发明实施例一的一种语音识别方法的步骤流程图。
[0045] 本实施例的语音识别方法可以包括以下步骤：
[0046] 步骤101，检测接收到的待识别语音信息中是否包括命令关键词信息。
[0047] 本发明实施例的语音识别方法可以应用于视频垂直领域的语音识别，如各种视频网站的语音识别、各种智能电视机顶盒的语音识别等等。当用户想要搜索、播放某个视频时，可以通过语音进行控制，用户输入一段待识别语音信息，系统（如视频网站客户端的系统、智能电视机顶盒的等)在接收到该待识别语音信息后对其进行识别，并根据识别结果执行相应的操作。<

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄瑛;王涛;张彦刚;
技术所有人：北京奇艺世纪科技有限公司;
我是此专利的发明人

上一篇：一种语音测评的方法及装置的制造方法
上一篇：一种智能硬件的语音唤醒方法和装置的制造方法