语音识别方法和系统与流程

文档序号：12475957阅读：285来源：国知局

本发明涉及电视领域，尤其涉及一种语音识别方法和系统。

背景技术：

随着科学技术的发展，智能电视基本已经普及，但是人和智能电视的交互，例如文字输入，内容查找等功能的体验效果仍然不好。随着语音识别技术的发展，人们通过语音识别引擎可以操控智能电视，执行换台，查找并点播自己想要观看的内容等操作。

但是，由于技术的原因，各大应用开发者很难自己实现语音引擎，多数应用开发者都是通过集成第三方语音引擎完成语音转换成文字的操作。但是由于各家语音引擎擅长的语音识别领域不同，以及语种、方言的多样化，很难找到一家语音引擎能满足所有需求的方案，从而导致智能电视的语音功能灵活性低，用户体验效果差。

技术实现要素：

本发明的主要目的在于提供一种语音识别方法和系统，旨在解决现有电视的语音识别功能灵活性低的技术问题。

为实现上述目的，本发明提供一种语音识别方法，所述语音识别方法包括步骤：

当接收到和电视连接的语音输入设备所发送的语音流时，通过本地语音识别组件和第三方语音识别组件识别所述语音流；

当所述本地语音识别组件成功识别所述语音流时，通过与所述本地语音识别组件对应的第一语音引擎识别所述语音流的语义，将所述第一语音引擎识别的语义记为第一语义，根据所述第一语义执行相应的操作；

当所述本地语音识别组件未能成功识别所述语音流，但所述第三方语音识别组件成功识别所述语音流时，通过与所述第三方语音识别组件对应的第二语音引擎识别所述语音流的语义，将所述第二语音引擎识别的语义记为第二语义，根据所述第二语义执行相应的操作。

优选地，所述第一语音引擎包括语种切换词汇，遥控器功能词汇和预置场景词汇；

所述第二语音引擎包括一种默认语音引擎和多种其它语音引擎。

优选地，所述通过与所述第三方语音识别组件对应的第二语音引擎识别所述语音流的语义的步骤包括：

通过所述第二语音引擎中的默认语音引擎识别所述语音流的语义；

当所述默认语音引擎未能识别所述语音流的语义时，确定所述第二语音引擎中其它语音引擎的优先级；

按照所述优先级依次从高到低通过所述其它语音引擎识别所述语音流的语义。

优选地，所述确定所述第二语音引擎中其它语音引擎的优先级的步骤包括：

获取所述第二语音引擎中其它语音引擎在预设时间内的使用次数；

将所述使用次数按照从大到小的顺序排序，得到排序结果；

根据所述排序结果确定所述其它语音引擎的优先级。

优选地，所述当接收到和电视连接的语音输入设备所发送的语音流时，通过本地语音识别组件和第三方语音识别组件识别所述语音流的步骤之后，还包括：

当所述本地语音识别组件和所述第三方语音识别组件都未能成功识别所述语音流时，输出提示信息，提示用户所述语音流识别失败。

此外，为实现上述目的，本发明还提供一种语音识别系统，所述语音识别系统包括：

第一识别模块，用于当接收到和电视连接的语音输入设备所发送的语音流时，通过本地语音识别组件和第三方语音识别组件识别所述语音流；

第二识别模块，用于当所述本地语音识别组件成功识别所述语音流时，通过与所述本地语音识别组件对应的第一语音引擎识别所述语音流的语义，将所述第一语音引擎识别的语义记为第一语义，根据所述第一语义执行相应的操作；当所述本地语音识别组件未能成功识别所述语音流，但所述第三方语音识别组件成功识别所述语音流时，通过与所述第三方语音识别组件对应的第二语音引擎识别所述语音流的语义，将所述第二语音引擎识别的语义记为第二语义，根据所述第二语义执行相应的操作。

优选地，所述第一语音引擎包括语种切换词汇，遥控器功能词汇和预置场景词汇；

所述第二语音引擎包括一种默认语音引擎和多种其它语音引擎。

优选地，所述第二识别模块包括：

识别单元，用于通过所述第二语音引擎中的默认语音引擎识别所述语音流的语义；

确定单元，用于当所述默认语音引擎未能识别所述语音流的语义时，确定所述第二语音引擎中其它语音引擎的优先级；

所述识别单元还用于按照所述优先级依次从高到低通过所述其它语音引擎识别所述语音流的语义。

优选地，所述确定单元还用于获取所述第二语音引擎中其它语音引擎在预设时间内的使用次数；将所述使用次数按照从大到小的顺序排序，得到排序结果；根据所述排序结果确定所述其它语音引擎的优先级。

优选地，所述语音识别系统还包括输出模块，用于当所述本地语音识别组件和所述第三方语音识别组件都未能成功识别所述语音流时，输出提示信息，提示用户所述语音流识别失败。

本发明通过当接收到和电视连接的语音输入设备所发送的语音流时，通过本地语音识别组件和第三方语音识别组件识别所述语音流；当所述本地语音识别组件成功识别所述语音流时，通过与所述本地语音识别组件对应的第一语音引擎识别所述语音流的语义，将所述第一语音引擎识别的语义记为第一语义，根据所述第一语义执行相应的操作；当所述本地语音识别组件未能成功识别所述语音流，但所述第三方语音识别组件成功识别所述语音流时，通过与所述第三方语音识别组件对应的第二语音引擎识别所述语音流的语义，将所述第二语音引擎识别的语义记为第二语义，根据所述第二语义执行相应的操作。实现了在电视中集成除了本地的第一语音引擎之外，还集成多种第三方语音引擎，提高了电视语音识别的成功率和灵活性。

附图说明

图1为本发明语音识别方法较佳实施例的流程示意图；

图2为本发明实施例中通过与所述第三方语音识别组件对应的第二语音引擎识别所述语音流的语义的一种流程示意图；

图3为本发明语音识别系统较佳实施例的功能模块示意图；

图4为本发明实施例中第二识别模块的一种功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种语音识别方法。

参照图1，图1为本发明语音识别方法的较佳实施例的流程示意图。

在本实施例中，所述语音识别方法包括：

步骤S10，当接收到和电视连接的语音输入设备所发送的语音流时，通过本地语音识别组件和第三方语音识别组件识别所述语音流；

在本实施例中，电视和语音输入设备连接，所述语音输入设备独立于所述电视。在其它实施例中，所述语音输入设备也可内置于所述电视中，与所述电视的CPU(Central Processing Unit，中央处理器)连接。所述语音输入设备包括但不限于麦克风和蓝牙耳机。

当所述电视上电启动后，用户需要操控所述电视时，用户通过与所述电视连接的语音输入设备向所述电视发送语音流。当所述电视接收到所述语音输入设备所发送的语音流时，将所述语音流发送至本地语音识别组件和第三方语音识别组件中，通过所述本地语音识别组件和所述第三方识别组件识别所述语音流。

可以理解的是，所述本地语音识别组件内置于所述电视中。所述电视是通过SDK(Software Development Kit，软件开发工具包)调用所述第三方语音识别组件。进一步地，在本实施例中，为了提高识别所述语音流的速度，当所述电视接收到所述语音流时，将所述语音流同时发送给所述本地语音识别组件和所述第三方语音识别组件。在其它实施例中，所述电视可将所述语音流先发送给所述本地语音识别组件，当所述本地语音识别组件未能成功识别所述语音流时，所述电视再将所述语音流发送给所述第三方语音识别组件。

步骤S20，当所述本地语音识别组件成功识别所述语音流时，通过与所述本地语音识别组件对应的第一语音引擎识别所述语音流的语义，将所述第一语音引擎识别的语义记为第一语义，根据所述第一语义执行相应的操作；

当所述电视确定所述本地语音识别组件成功识别所述语音流，即可以找到与所述本地语音识别组件对应的语音引擎来识别所述语音流的语义时，所述电视将默认系统语音引擎切换至所述第一语音引擎，通过与所述本地语音识别组件对应的所述第一语音引擎识别所述语音流的语义，将所述第一语音引擎识别的语义记为第一语义，根据所述第一语义执行相应的操作。需要说明的是，在本实施例中，当所述电视刚上电启动时，所述电视所对应的语音引擎为默认系统语音引擎。而在其它实施例中，所述电视刚上电启动时所对应的语音引擎可为所述电视上次关机所使用的语音引擎。如当所述电视通过所述第一语音引擎识别所述语音流的语义为“换台”时，所述电视执行换台操作；如当所述电视通过所述第一语音引擎识别所述语音流的语义为“将音量调节至25”时，所述电视则调节当前的音量为25。

需要说明的是，预先设置了多种常用的与所述本地语音识别组件对应的语音引擎，记为第一语音引擎。

进一步地，当所述电视根据所述第一语义不能确定所要执行的具体操作时，所述电视可输出提示信息，提示用户通过语音输入设备重新输入语音流，重新输入的语音流所对应的语义应是具体地，所述电视根据重新输入的语音流所对应的语义可以确定所要执行的具体操作。当所述电视接收到用户重新输入的语音流时，所述电视直接通过所述第一语音引擎确定重新输入的语音流所对应的语义。如当用户所输入的语音流所对应的语义为“换台”时，所述电视不能确定具体要换到那个电视台，此时，所述电视会提示用户通过语音输入设备输入具体要换到那个电视台的语音流。如当用户通过所述语音输入设备输入“换到中央一台”的语音流时，所述电视直接通过所述第一语音引擎确定“中央一台”的语音流所对应的第一语义，根据所述第一语义将当前电视台切换至中央一台。

进一步，当所述电视根据所述第一语义不能确定所要执行的具体操作时，所述电视可根据所述第一语义确定使用频率最高的对象，根据所述对象执行相应的操作。如当所述电视根据“换台”不能确定用户具体想要换到那个电视台时，所述电视确定用户观看频率最高的电视台，将当前电视台切换至用户观看频率最高的电视台。

步骤S30，当所述本地语音识别组件未能成功识别所述语音流，但所述第三方语音识别组件成功识别所述语音流时，通过与所述第三方语音识别组件对应的第二语音引擎识别所述语音流的语义，将所述第二语音引擎识别的语义记为第二语义，根据所述第二语义执行相应的操作。

当所述电视确定所述本地语音识别组件未能成功识别所述语音流，但所述第三方语音识别组件成功识别所述语音流，即可以找到与所述第三方语音识别组件对应的语音引擎来识别所述语音流的语义时，所述电视确定与所述第三方语音识别组件所对应的第二语音引擎，通过所述第二语音引擎识别所述语音流的语义，将所述第二语音引擎识别的语义记为第二语义，根据所述第二语义执行相应的操作。

当所述电视根据所述第二语音引擎所确定的语义不能确定所要执行的具体操作时，与所述电视根据所述第一语音引擎所确定的语义不能确定所要执行的具体操作时所执行的操作相似，在此不再赘述。

所述第三方语音识别组件包括了多种语音引擎。在本实施例中，将所述第三方语音识别组件所包括的多种语音引擎记为第二语音引擎。

进一步地，所述语音识别方法还包括：

步骤a，当所述本地语音识别组件和所述第三方语音识别组件都未能成功识别所述语音流时，输出提示信息，提示用户所述语音流识别失败。

进一步地，当所述电视确定所述本地语音识别组件和所述第三方语音识别组件都未能成功识别所述语音流时，所述电视输出提示信息，提示用户所述语音流识别失败。所述电视提示用户所述语音流识别失败的方式包括但不限于在电视屏幕中输出文字提示、通过所述电视内置的语音输出设备输出相应的语音进行提示或者以提示灯的形式提示。

进一步地，在本实施例中，所述第一语音引擎中包括语种切换词汇、遥控器功能词汇和预置场景词汇。在其它实施例中，所述第一语音引擎还可以包括其它词汇。如所述第一语音引擎中设置了“你好”作为语种切换词汇，当所述第一语音引擎确定所述电视所接收的语音流对应的语义为中文的“你好”时，所述电视在后续接收到所述语音流时，通过中文所对应的语音引擎来确定所述语音流的语义；当第一语音引擎确定所述电视所接收的语音流对应的语义为英文的“你好”时，所述电视在后续接收到所述语音流时，通过英文所对应的语音引擎来确定所述语音流的语义；当第一语音引擎确定所述电视所接收的语音流对应的语义为粤语的“你好”时，所述电视在后续接收到所述语音流时，通过粤语所对应的语音引擎来确定所述语音流的语义。所述遥控功能词汇为与遥控器常用功能对应的词汇，如与增加音量、减小音量和换台等功能对应的词汇。所述预置场景词汇为与用户常用电视场景对应的词汇，如天气、购物等词汇。如第一语音引擎确定所述电视所接收的语音流对应的语义为“购物”时，所述电视在后续接收到所述语音流时，通过购物所对应的语音引擎来确定所述语音流的语义。需要说明的是，所述电视在所述第一语音引擎中，通过预先的训练，存储了各种语音流所对应语义的映射表。

所述第二语音引擎包括一种默认语音引擎和多种其它语音引擎。所述默认语音引擎是所述第三方语音识别组件中最常用的语音引擎，可由用户根据具体需要而设置，如可将百度语音引擎设置为默认语音引擎；所述其它语音引擎包括但不限于阿里语音引擎和讯飞语音引擎。

进一步地，当所述本地语音识别组件未能成功识别所述语音流，或者所述第一语音引擎未能成功识别所述语音流的语义时，所述电视输出提示信息，提示用户所述语音流识别失败。或者当所述本地语音识别组件未能成功识别所述语音流，所述电视则通过所述第三方语音识别组件识别所述语音流；当所述第一语音引擎未能成功识别所述语音流的语义时，所述电视通过所述第二语音引擎识别所述语音流的语义。只有当所述第三方语音识别组件未能成功识别所述语音流，或者所述第二语音引擎未能成功识别所述语音流的语义时，所述电视才输出提示信息，提示用户所述语音流识别失败。

本实施例通过当接收到和电视连接的语音输入设备所发送的语音流时，通过本地语音识别组件和第三方语音识别组件识别所述语音流；当所述本地语音识别组件成功识别所述语音流时，通过与所述本地语音识别组件对应的第一语音引擎识别所述语音流的语义，将所述第一语音引擎识别的语义记为第一语义，根据所述第一语义执行相应的操作；当所述本地语音识别组件未能成功识别所述语音流，但所述第三方语音识别组件成功识别所述语音流时，通过与所述第三方语音识别组件对应的第二语音引擎识别所述语音流的语义，将所述第二语音引擎识别的语义记为第二语义，根据所述第二语义执行相应的操作。实现了在电视中集成除了本地的第一语音引擎之外，还集成多种第三方语音引擎，提高了电视语音识别的成功率和灵活性。

进一步地，基于本发明语音识别方法的第一实施例提出本发明的第二实施例，参照图2，在本实施例中，所述通过与所述第三方语音识别组件对应的第二语音引擎识别所述语音流的语义的步骤包括：

步骤S31，通过所述第二语音引擎中的默认语音引擎识别所述语音流的语义；

步骤S32，当所述默认语音引擎未能识别所述语音流的语义时，确定所述第二语音引擎中其它语音引擎的优先级；

步骤S33，按照所述优先级依次从高到低通过所述其它语音引擎识别所述语音流的语义。

在本实施例中，所述第二语音引擎包括一种默认语音引擎和多种其它语音引擎。在所述电视通过与所述第三方语音识别组件所对应的第二语音引擎识别所述语音流的语义的过程中，所述电视先通过所述第二语音引擎中的默认语音引擎识别所述语音流的语义。当所述默认语音引擎成功识别所述语音流的语义时，所述电视根据所述语义执行相应的操作。当所述默认语音引擎未能识别所述语音引擎所对应的语义时，所述电视确定所述第二语音引擎中其它语音引擎的优先级，并按照所述优先级的高低依次从高到低通过所述其它语音引擎识别所述语音流的语义。

进一步地，所述确定所述第二语音引擎中其它语音引擎的优先级的步骤包括：

步骤b，获取所述第二语音引擎中其它语音引擎在预设时间内的使用次数；

步骤c，将所述使用次数按照从大到小的顺序排序，得到排序结果；

步骤d，根据所述排序结果确定所述其它语音引擎的优先级。

进一步地，确定所述第二语音引擎中其它语音引擎的优先级的过程为：所述电视获取所述第二语音引擎中其它语音引擎在预设时间内的使用次数，将所述使用次数按照从大到小的顺序排序，得到排序结果。所述电视根据所述排序结果确定所述其它语音引擎的优先级，即排列在前面的语音引擎的优先级高于排列在后面的语音引擎的优先级。

本实施例在通过与所述第三方语音识别组件对应的第二语音引擎识别所述语音流的语义的过程中，优先通过所述第二语音引擎中的默认语音引擎识别所述语音流的语义，当所述默认语音引擎未能识别所述语音流的语义时，基于所述其它语音引擎的优先级，通过所述其它语音引擎识别所述语音流的语义。在提高电视语音识别成功率的基础上，提高所述电视语音识别的效率。

本发明进一步提供一种语音识别系统。

参照图3，图3为本发明语音识别系统的较佳实施例的功能模块示意图。

需要强调的是，对本领域的技术人员来说，图3所示模块图仅仅是一个较佳实施例的示例图，本领域的技术人员围绕图3所示的语音识别系统的模块，可轻易进行新的模块的补充；各模块的名称是自定义名称，仅用于辅助理解该语音识别系统的各个程序功能块，不用于限定本发明的技术方案，本发明技术方案的核心是，各自定义名称的模块所要达成的功能。

在本实施例中，所述语音识别系统包括：

第一识别模块10，用于当接收到和电视连接的语音输入设备所发送的语音流时，通过本地语音识别组件和第三方语音识别组件识别所述语音流；

第二识别模块20，用于当所述本地语音识别组件成功识别所述语音流时，通过与所述本地语音识别组件对应的第一语音引擎识别所述语音流的语义，将所述第一语音引擎识别的语义记为第一语义，根据所述第一语义执行相应的操作；

需要说明的是，预先设置了多种常用的与所述本地语音识别组件对应的语音引擎，记为第一语音引擎。

所述第二识别模块20还用于当所述本地语音识别组件未能成功识别所述语音流，但所述第三方语音识别组件成功识别所述语音流时，通过与所述第三方语音识别组件对应的第二语音引擎识别所述语音流的语义，将所述第二语音引擎识别的语义记为第二语义，根据所述第二语义执行相应的操作。

所述第三方语音识别组件包括了多种语音引擎。在本实施例中，将所述第三方语音识别组件所包括的多种语音引擎记为第二语音引擎。

进一步地，所述语音识别系统还包括：

输出模块，用于当所述本地语音识别组件和所述第三方语音识别组件都未能成功识别所述语音流时，输出提示信息，提示用户所述语音流识别失败。

进一步地，基于本发明语音识别系统的较佳实施例提出本发明的第二实施例，参考图4，在本实施例中，所述第二识别模块20包括：

识别单元21，用于通过所述第二语音引擎中的默认语音引擎识别所述语音流的语义；

确定单元22，用于当所述默认语音引擎未能识别所述语音流的语义时，确定所述第二语音引擎中其它语音引擎的优先级；

所述识别单元21，用于按照所述优先级依次从高到低通过所述其它语音引擎识别所述语音流的语义。

进一步地，所述确定单元22还用于获取所述第二语音引擎中其它语音引擎在预设时间内的使用次数；将所述使用次数按照从大到小的顺序排序，得到排序结果；根据所述排序结果确定所述其它语音引擎的优先级。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李鑫伟
技术所有人：深圳TCL数字技术有限公司
我是此专利的发明人