一种移动终端的语音识别方法和装置与流程

文档序号：12719525阅读：218来源：国知局

本申请涉及移动终端技术领域，特别是涉及一种移动终端的语音识别方法和一种移动终端的语音识别装置。

背景技术：

在日常生活中，用户经常在移动终端中观看各种视频直播或音乐电台等多媒体节目，在视频直播或音乐电台播放中，用户经常听到许多动人的台词或优美的背景音乐，但用户可能并不知道直播的视频的名称或者电台播放的音乐，当用户再想去查找该音乐或者该音乐所在的视频时，往往因为忘记了音乐旋律已无法找到对应的音乐或视频。

技术实现要素：

鉴于上述问题，提出了本申请实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种移动终端的语音识别方法和相应的一种移动终端的语音识别装置。

为了解决上述问题，本申请实施例公开了一种移动终端的语音识别方法，包括：

在移动终端播放多媒体数据的过程中，接收到用户触发的用于启动语音识别的触发指示时，开启针对当前移动终端所播放的多媒体数据的语音信息的获取操作；

在预置的语音数据库中对获取的语音信息进行匹配，获得匹配的多媒体信息入口；

向用户展现所述匹配的多媒体信息入口。

优选的，所述预置的语音数据库包括多个分类的子分类库；

所述的方法还包括：

获取用户提供的分类信息；

所述在预置的语音数据库中对获取的语音信息进行匹配的步骤包括：

在所述预置的语音数据库中的与用户提供的分类信息对应的子分类库中，对获取的语音信息进行匹配。

优选的，所述触发指示通过移动终端内置的加速度传感器进行检测；

当所述加速度传感器检测到当前的加速度大于预设的加速度阈值时，判断触发指示生成。

优选的，还包括：

当所述获取操作获取的语音信息的时长达到预设的时长阈值时，停止所述获取操作；

或，当所述获取操作获取的语音信息的容量达到预设的容量阈值时，停止所述获取操作；

或，当接收到用户触发的停止获取指示时，停止所述获取操作。

优选的，所述获得匹配的多媒体信息入口的步骤包括：

当语音信息与语音数据库中的视频匹配时，从预设的视频服务器中获取匹配的视频的连接地址。

优选的，所述获得匹配的多媒体信息入口的步骤包括：

当语音信息与语音数据库中的电影匹配时，从预设的视频服务器中获取匹配的电影的连接地址；

若该电影为正在上映的电影，则获取该电影的订票链接地址。

优选的，所述获得匹配的多媒体信息入口的步骤包括：

当语音信息与语音数据库中的歌曲匹配时，获取匹配的歌曲的下载地址或播放地址。

同时，本申请还公开了一种移动终端的语音识别装置，包括：

语音获取模块，用于在移动终端播放多媒体数据的过程中，接收到用户触发的用于启动语音识别的触发指示时，开启针对当前移动终端所播放的多媒体数据的语音信息的获取操作；

入口获取模块，用于在预置的语音数据库中对获取的语音信息进行匹配，获得匹配的多媒体信息入口；

展现模块，用于向用户展现所述匹配的多媒体信息入口。

优选的，所述预置的语音数据库包括多个分类的子分类库；

所述的装置还包括：

分类获取模块，用于获取用户提供的分类信息；

所述入口获取模块进一步包括：

分类匹配子模块，用于在所述预置的语音数据库中的与用户提供的分类信息对应的子分类库中，对获取的语音信息进行匹配。

优选的，所述触发指示通过移动终端内置的加速度传感器进行检测；

当所述加速度传感器检测到当前的加速度大于预设的加速度阈值时，判断触发指示生成。

优选的，还包括：

第一停止模块，用于当所述获取操作获取的语音信息的时长达到预设的时长阈值时，停止所述获取操作；

或，

第二停止模块，用于当所述获取操作获取的语音信息的容量达到预设的容量阈值时，停止所述获取操作；

或，

第三停止模块，用于当接收到用户触发的停止获取指示时，停止所述获取操作。

优选的，所述入口获取模块还进一步包括：

视频连接获取子模块，用于当语音信息与语音数据库中的视频匹配时，从预设的视频服务器中获取匹配的视频的连接地址。

优选的，所述入口获取模块还进一步包括：

电影连接获取子模块，用于当语音信息与语音数据库中的电影匹配时，从预设的视频服务器中获取匹配的电影的连接地址；

订票连接获取子模块，用于若该电影为正在上映的电影，则获取该电影的订票链接地址。

优选的，所述入口获取模块还进一步包括：

歌曲连接获取子模块，用于当语音信息与语音数据库中的歌曲匹配时，获取匹配的歌曲的下载地址或播放地址。

本申请实施例包括以下优点：

本申请实施例通过在移动终端播放多媒体数据时，识别多媒体数据中的语音信息，并将所获取的语音信息在预置的语音数据库中进行匹配，获得匹配的多媒体信息入口，使得用户可以方便根据多媒体信息入口的获取到与语音信息匹配的音乐和视频，减少用户的操作量。

附图说明

图1是本申请的一种移动终端的语音识别方法实施例1的步骤流程图；

图2是本申请的一种移动终端的语音识别方法实施例2的步骤流程图；

图3是本申请的一种移动终端的语音识别装置实施例1的结构框图；

图4是本申请的一种移动终端的语音识别装置实施例2的结构框图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

本申请实施例的核心构思之一在于，通过预设的语音数据库匹配当前移动终端播放的语音信息，并且将匹配结果的入口发送给用户，方便用户进一步获取相匹配的语音或视频信息。

参照图1，示出了本申请的一种移动终端的语音识别方法实施例1的步骤流程图，具体可以包括如下步骤：

步骤101，在移动终端播放多媒体数据的过程中，接收到用户触发的用于启动语音识别的触发指示时，开启针对当前移动终端所播放的多媒体数据的语音信息的获取操作；

多媒体数据具体可以包括：视频、歌曲、电影等，当用户在移动终端中观看各种视频直播或音乐电台等多媒体节目时，向移动终端发送触发语音识别指示，移动终端根据触发指示开始对当前播放的多媒体数据进行语音信息获取操作；

步骤102，在预置的语音数据库中对获取的语音信息进行匹配，获得匹配的多媒体信息入口；

预置的语音数据库，具体可以是存储了语音数据的云服务器，移动终端录取当前播放的多媒体数据的语音信息，并将录取的语音信息发送到云服务器，云服务器识别该语音信息的内容，并查找与语音信息内容匹配的多媒体信息，在查找到匹配的多媒体信息时，获取该多媒体信息入口，多媒体信息入口具体可以为用于观看或下载该多媒体信息的地址；

例如，用户在观看歌曲集锦时，对其中的一段歌曲内容，触发语音识别指示；移动终端接收到指示后，录取当前播放的歌曲信息，当录取了足够的歌曲片段时，移动终端将录取的歌曲片段发送的云服务器，由云服务器对歌曲片段进行识别操作；云服务器识别歌曲片段的内容，并在数据库中查找与歌曲片段的内容匹配的歌曲，在查找到匹配的歌曲时，查询该歌曲的下载地址或播放地址。

步骤103，向用户展现所述匹配的多媒体信息入口。

向用户展现与多媒体数据的语音信息匹配的多媒体信息入口，用户可以根据该多媒体信息入口，直接播放或下载匹配的多媒体信息。

在本申请实施例通过在移动终端播放多媒体数据时，识别多媒体数据中的语音信息，并将所获取的语音信息在预置的语音数据库中进行匹配，获得匹配的多媒体信息入口，使得用户可以方便根据多媒体信息入口的获取到与语音信息匹配的音乐和视频，减少用户的操作量。

参照图2，示出了本申请的一种移动终端的语音识别方法实施例2的步骤流程图，其中，预置的语音数据库包括多个分类的子分类库，所述的方法具体可以包括如下步骤：

步骤201，在移动终端播放多媒体数据的过程中，接收到用户触发的用于启动语音识别的触发指示时，开启针对当前移动终端所播放的多媒体数据的语音信息的获取操作；

步骤202，获取用户提供的分类信息；

步骤203，在所述预置的语音数据库中的与用户提供的分类信息对应的子分类库中，对获取的语音信息进行匹配，获得匹配的多媒体信息入口；

语音数据库中具体可以包括多个分类的子分类库，例如，歌曲库、电影库、视频库等，更进一步的在子分类库中还可以进一步分库，例如在歌曲库中，可以按歌曲的风格、语种来进一步细分。

在实际中，由于对语音信息识别后，可能会匹配到多个多媒体信息。例如，某一段音乐可以是歌曲中的一小段，也可以是被用在电影中做插曲。匹配到的内容越多，匹配需要使用操作量也越多，然而许多匹配结果可能时用户不需要的，这无疑浪费了大量的匹配操作量。

因而，进行匹配操作之前，可以先获取用户提供的分类信息，例如，用户需要的匹配多媒体信息时歌曲、那么在匹配时，只在歌曲库中进行匹配，一方面减少了匹配的操作量；另一方面还减少了匹配的时间，使得用户可以更快的获取的匹配的多媒体信息。

步骤204，向用户展现所述匹配的多媒体信息入口。

作为本申请实施例的一种优选示例，所述获得匹配的多媒体信息入口的步骤可以包括：

当语音信息与语音数据库中的视频匹配时，从预设的视频服务器中获取匹配的视频的连接地址。

在具体实现中，语音数据库是云服务器。在云服务器中，当查找到有与语音信息匹配的视频时，可以在云服务器的视频数据库中获取到该视频的连接地址，或者，在第三方视频网站中获取该视频的连接地址。

作为本申请实施例的一种优选示例，所述获得匹配的多媒体信息入口的步骤可以包括：

当语音信息与语音数据库中的电影匹配时，从预设的视频服务器中获取匹配的电影的连接地址；

若该电影为正在上映的电影，则获取该电影的排期信息和订票链接地址。

在具体实现中，在云服务器中，当查找到有与语音信息匹配的电影时，可以在云服务器的电影数据库中获取到该电影的连接地址，或者，在第三方视频网站中获取该电影的连接地址；

另外，在云服务器中还存储有该电影的上映时间等信息，若该电影为正在上映的电影，则获取该电影的排期信息、订票链接地址等购票信息。

作为本申请实施例的一种优选示例，所述获得匹配的多媒体信息入口的步骤可以包括：

当语音信息与语音数据库中的歌曲匹配时，获取匹配的歌曲的下载地址或播放地址。

在具体实现中，在云服务器中，当查找到有与语音信息匹配的歌曲时，可以在云服务器的歌曲数据库中获取到该歌曲的下载地址或播放地址，或者，在第三方歌曲网站中获取该歌曲的下载地址或播放地址。

当然，除了视频、电影、歌曲等多媒体信息外，还可以获取其他匹配的的多媒体信息入口。

在本申请实施例中，用户的触发指示可以包括：点击屏幕、长按屏幕、点击侧键等，作为本申请实施例的一种优选示例，所述触发指示通过移动终端内置的加速度传感器进行检测；

当所述加速度传感器检测到当前的加速度大于预设的加速度阈值时，判断触发指示生成。

具体如，“摇一摇”触发方式。所谓“摇一摇”的方式是指用户摇摆移动。通过调用移动终端的加速度传感器相关的服务，获取加速度传感器输出的数据，记录加速度传感器报告的加速度值，根据获取加速度值判断是否存在用户“摇一摇”动作。如果判断到存在用户“摇一摇”的动作，则对应用程序图标进行排列。

加速度传感器分别获取X轴、Y轴、Z轴的加速度值，利用X轴、Y轴、Z轴的加速度值计算单位时间加速度平均值，然后判断单位时间加速度平均值是否大于预设的单位时间初始加速度阈值，当单位时间加速度平均值大于单位时间内初始加速度阀值，判断“摇一摇”动作发生。

单位时间内加速度平均值可以为[(X+Y+Z)/3]/T；

T为时间，X为T秒末X轴的加速度值减去T秒初X轴的加速度值，Y为T秒末Y轴的加速度值减去T秒初Y轴的加速度值，Z为T秒末Z轴的加速度值减去T秒初Z轴的加速度值。

单位时间初始加速度阀值：此阀值是由当前移动终端加速度传感器所记录的，普通人每手摇一次当前设备的加速度平均值，具体可以通过大量的实验测出。

作为本申请实施例的一种优选示例，所述的方法还可以包括如下步骤：

当所述获取操作获取的语音信息的时长达到预设的时长阈值时，停止所述获取操作；

或，当所述获取操作获取的语音信息的容量达到预设的容量阈值时，停止所述获取操作；

或，当接收到用户触发的停止获取指示时，停止所述获取操作。

当录取的语音信息的时长达到预设的时长阈值，或录取的语音信息的容量达到预设的容量阈值，或接收到用户停止指示时，停止录音。当然，录制到语音信息越多，匹配到的结果更加精确。在实际中，一般十多秒的语音信息就能被识别出来了。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本申请实施例所必须的。

参照图3，示出了本申请的一种移动终端的语音识别装置实施例1的结构框图，具体可以包括如下模块：

语音获取模块31，用于在移动终端播放多媒体数据的过程中，接收到用户触发的用于启动语音识别的触发指示时，开启针对当前移动终端所播放的多媒体数据的语音信息的获取操作；

入口获取模块32，用于在预置的语音数据库中对获取的语音信息进行匹配，获得匹配的多媒体信息入口；

展现模块33，用于向用户展现所述匹配的多媒体信息入口。

参照图4，示出了本申请的一种移动终端的语音识别装置实施例2的结构框图，具体可以包括如下模块：

语音获取模块41，用于在移动终端播放多媒体数据的过程中，接收到用户触发的用于启动语音识别的触发指示时，开启针对当前移动终端所播放的多媒体数据的语音信息的获取操作；

其中，所述触发指示通过移动终端内置的加速度传感器进行检测；

当所述加速度传感器检测到当前的加速度大于预设的加速度阈值时，判断触发指示生成；

分类获取模块42，用于获取用户提供的分类信息；

入口获取模块43，用于在预置的语音数据库中对获取的语音信息进行匹配，获得匹配的多媒体信息入口；

其中，入口获取模块进一步包括：

分类匹配子模块4301，用于在所述预置的语音数据库中的与用户提供的分类信息对应的子分类库中，对获取的语音信息进行匹配

展现模块44，用于向用户展现所述匹配的多媒体信息入口。

作为本申请实施例的一种优选示例，所述的装置还可以包括：

第一停止模块，用于当所述获取操作获取的语音信息的时长达到预设的时长阈值时，停止所述获取操作；

或，

第二停止模块，用于当所述获取操作获取的语音信息的容量达到预设的容量阈值时，停止所述获取操作；

或，

第三停止模块，用于当接收到用户触发的停止获取指示时，停止所述获取操作。

作为本申请实施例的一种优选示例，所述入口获取模块还可以进一步包括：

视频连接获取子模块，用于当语音信息与语音数据库中的视频匹配时，从预设的视频服务器中获取匹配的视频的连接地址。

作为本申请实施例的一种优选示例，所述入口获取模块还可以进一步包括：

电影连接获取子模块，用于当语音信息与语音数据库中的电影匹配时，从预设的视频服务器中获取匹配的电影的连接地址；

订票连接获取子模块，用于若该电影为正在上映的电影，则获取该电影的订票链接地址。

作为本申请实施例的一种优选示例，所述入口获取模块还可以进一步包括：

歌曲连接获取子模块，用于当语音信息与语音数据库中的歌曲匹配时，获取匹配的歌曲的下载地址或播放地址。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种移动终端的语音识别方法和一种移动终端的语音识别装置，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

本申请实施例公开了A1、一种移动终端的语音识别方法，包括：

在预置的语音数据库中对获取的语音信息进行匹配，获得匹配的多媒体信息入口；

向用户展现所述匹配的多媒体信息入口。

A2、如A1所述的方法，所述预置的语音数据库包括多个分类的子分类库；

所述的方法还包括：

获取用户提供的分类信息；

所述在预置的语音数据库中对获取的语音信息进行匹配的步骤包括：

在所述预置的语音数据库中的与用户提供的分类信息对应的子分类库中，对获取的语音信息进行匹配。

A3、如A2所述的方法，所述触发指示通过移动终端内置的加速度传感器进行检测；

当所述加速度传感器检测到当前的加速度大于预设的加速度阈值时，判断触发指示生成。

A4、如A3所述的方法，还包括：

当所述获取操作获取的语音信息的时长达到预设的时长阈值时，停止所述获取操作；

或，当所述获取操作获取的语音信息的容量达到预设的容量阈值时，停止所述获取操作；

或，当接收到用户触发的停止获取指示时，停止所述获取操作。

A5、如A4所述的方法，所述获得匹配的多媒体信息入口的步骤包括：

当语音信息与语音数据库中的视频匹配时，从预设的视频服务器中获取匹配的视频的连接地址。

A6、如A4所述的方法，所述获得匹配的多媒体信息入口的步骤包括：

当语音信息与语音数据库中的电影匹配时，从预设的视频服务器中获取匹配的电影的连接地址；

若该电影为正在上映的电影，则获取该电影的订票链接地址。

A7、如A4所述的方法，所述获得匹配的多媒体信息入口的步骤包括：

当语音信息与语音数据库中的歌曲匹配时，获取匹配的歌曲的下载地址或播放地址。

同时，本申请还公开了B8、一种移动终端的语音识别装置，包括：

入口获取模块，用于在预置的语音数据库中对获取的语音信息进行匹配，获得匹配的多媒体信息入口；

展现模块，用于向用户展现所述匹配的多媒体信息入口。

B9、如B8所述的装置，所述预置的语音数据库包括多个分类的子分类库；

所述的装置还包括：

分类获取模块，用于获取用户提供的分类信息；

所述入口获取模块进一步包括：

分类匹配子模块，用于在所述预置的语音数据库中的与用户提供的分类信息对应的子分类库中，对获取的语音信息进行匹配。

B10、如B9所述的装置，所述触发指示通过移动终端内置的加速度传感器进行检测；

当所述加速度传感器检测到当前的加速度大于预设的加速度阈值时，判断触发指示生成。

B11、如B10所述的装置，还包括：

第一停止模块，用于当所述获取操作获取的语音信息的时长达到预设的时长阈值时，停止所述获取操作；

或，

第二停止模块，用于当所述获取操作获取的语音信息的容量达到预设的容量阈值时，停止所述获取操作；

或，

第三停止模块，用于当接收到用户触发的停止获取指示时，停止所述获取操作。

B12、如B11所述的装置，所述入口获取模块还进一步包括：

视频连接获取子模块，用于当语音信息与语音数据库中的视频匹配时，从预设的视频服务器中获取匹配的视频的连接地址。

B13、如B11所述的装置，所述入口获取模块还进一步包括：

电影连接获取子模块，用于当语音信息与语音数据库中的电影匹配时，从预设的视频服务器中获取匹配的电影的连接地址；

订票连接获取子模块，用于若该电影为正在上映的电影，则获取该电影的订票链接地址。

B14、如B11所述的装置，所述入口获取模块还进一步包括：

歌曲连接获取子模块，用于当语音信息与语音数据库中的歌曲匹配时，获取匹配的歌曲的下载地址或播放地址。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：万明明;赵剑锋
技术所有人：北京奇虎科技有限公司;奇智软件（北京）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。