语音识别方法及装置与流程

文档序号：12065443阅读：307来源：国知局

本发明涉及通信领域，特别涉及语音识别方法及装置。

背景技术：

近年来，随着通信技术的不断发展以及科技的不断进步，手机、笔记本电脑、平板电脑等移动终端已成为人们日常生活中必不可少的使用工具；这是因为其携带便捷，使用简单且给人们的生活带来了极大的便利。

目前，智能语音系统在移动终端中应用越来越广泛，如，将语音转换为文字、根据语音控制第三方应用或确定与语音信息匹配的控件；生成控件的控制指令，以实现对终端设备的控制等。

但是发明人在实现本发明的过程中，发现现有技术中还存在以下技术缺陷：一、当前的智能语音系统，只能尽量多的去做操作类接口，例如打开某APP(AP指的是应用程序)、打开记事本等相对较固定的操作，而不能完全做到对手机的语音控制，应用较为局限。二、在实现将语音转换为文字时，需要每个apk(apk指的是安装包)去做语音适配接口，这对于第三方apk来说几乎是无法实现的。三、在确定与语音信息匹配的控件；生成控件的控制指令，以实现对终端设备的控制时，会导致语音文本无法和各控件的文字描述相匹配，很多控件是图片类的没有对应的文字信息，即使针对图片类控件匹配到相应的控件也不一定能作出相应的操作。

技术实现要素：

本发明实施例的目的在于提供一种语音识别方法及装置，使得可以针对每个开关的文字标识，直接调用与文字标识相对应的开关点击事件，而无需去做操作类接口或针对apk去做语音适配接口，就能实现对终端设备的完全语音远程操控，拓展应用较为广泛。

为解决上述技术问题，本发明实施例提供了一种语音识别方法，包括：提取显示界面中每个开关的文字标识；在接收到语音信息时，通过语音识别技术将语音信息转换成文字；将转换的所述文字与提取的各所述文字标识进行匹配；在匹配成功时，直接调用与匹配成功的所述文字标识相对应的开关点击事件。

本发明实施例还提供了一种语音识别装置，包括：第一提取模块，用于提取显示界面中每个开关的文字标识；第一判断模块，用于判断是否接收到语音信息；转换模块，用于在接收到语音信息时，通过语音识别技术将语音信息转换成文字；匹配模块，用于将转换的所述文字与提取的各所述文字标识进行匹配；第二判断模块，用于判断是否匹配成功；调用模块，用于在匹配成功时，直接调用与匹配成功的所述文字标识相对应的开关点击事件。

本发明实施例相对于现有技术而言，通过提取显示界面中每个开关的文字标识，在接收到语音信息时，通过语音识别技术将语音信息转换成文字，将转换的所述文字与提取的各所述文字标识进行匹配，在匹配成功时，直接调用与匹配成功的所述文字标识相对应的开关点击事件，使得可以针对每个开关的文字标识，直接调用与文字标识相对应的开关点击事件，而无需去做操作类接口或针对apk去做语音适配接口，就能实现对终端设备的完全语音远程操控，拓展应用较为广泛。

另外，所述提取显示界面中每个开关的文字标识之后，所述在接收到语音信息时，通过语音识别技术将语音信息转换成文字之前，所述语音识别方法还包括：将提取的各所述文字标识以数据块的方式进行显示；在将转换的所述文字与提取的各所述文字标识进行匹配时，具体为：将转换的所述文字与各所述数据块中的文字标识进行匹配。通过这种方式，提供了一种将转换的文字与提取的各文字标识进行匹配的具体实现方式，从而有助于保证本发明的进一步可行性。

另外，所述提取显示界面中每个开关的文字标识之前，所述语音识别方法还包括：对显示界面中每个开关的属性进行识别；在所述开关的属性为文本开关button时，所述提取显示界面中每个开关的文字标识，具体为：根据所述button的文本text属性获取所述button对应的文字标识。通过这种方式，提供了一种获取button的文字标识的具体实现方式，并且通过button的文本text属性获取button对应的文字标识，使得获取的文字标识较为精确。

另外，所述提取显示界面中每个开关的文字标识之前，所述语音识别方法还包括：对显示界面中每个开关的属性进行识别；在所述开关的属性为图片开关imagebutton时，判断所述imagebutton是否为单一性imagebutton；在所述imagebutton为单一性imagebutton时，所述提取显示界面中每个开关的文字标识，具体为：根据所述图片开关的路径src属性找到相应的图片，通过图片识别技术OCR识别所述图片中的文字，将识别到的所述文字作为所述单一性imagebutton的文字标识。通过这种方式，提供了一种获取单一性imagebutton的文字标识的具体实现方式，并且通过这种方式获取的文字标识较为精确。在所述imagebutton为非单一性imagebutton时，所述提取显示界面中每个开关的文字标识，具体为：获取所述非单一性imagebutton的上层封装，从所述上层封装的布局layout中获取text属性，根据获取的所述text属性获取所述非单一性imagebutton对应的文字标识。通过这种方式，提供了一种获取非单一性imagebutton的文字标识的具体实现方式，并且通过这种方式获取的文字标识较为精确。

另外，通过以下方式判断所述imagebutton是否为单一性imagebutton：在所述imagebutton的上层封装中具有至少两个图片时，所述imagebutton为单一性imagebutton；在所述imagebutton的上层封装中具有一个图片时，所述imagebutton为非单一性imagebutton。通过这种方式提供了一种判断imagebutton是否为单一性imagebutton的一种具体实现方式，并且通过根据上层封装中具有的图片个数判断imagebutton是否为单一性imagebutton使得判定结果更加精确。

另外，所述语音识别装置还包括：显示模块，用于在所述提取显示界面中每个开关的文字标识之后，所述在接收到语音信息时，通过语音识别技术将语音信息转换成文字之前，将提取的各所述文字标识以数据块的方式进行显示；所述匹配模块，在将转换的所述文字与提取的各所述文字标识进行匹配时，具体为：将转换的所述文字与各所述数据块中的文字标识进行匹配。

另外，所述语音识别装置还包括：识别模块，用于在所述提取显示界面中每个开关的文字标识之前，对显示界面中每个开关的属性进行识别；第二提取模块，用于提取所述开关的属性；所述第一提取模块，用于在所述开关的属性为文本开关button时，提取显示界面中每个开关的文字标识，具体为：根据所述button的文本text属性获取所述button对应的文字标识。

另外，所述语音识别装置还包括：识别模块，用于在所述提取显示界面中每个开关的文字标识之前，对显示界面中每个开关的属性进行识别；第二提取模块，用于提取所述开关的属性；第三判断模块，用于在所述开关的属性为图片开关imagebutton时，判断所述imagebutton是否为单一性imagebutton；所述第一提取模块，用于在所述imagebutton为单一性imagebutton时，提取显示界面中每个开关的文字标识，具体为：根据所述图片开关的路径src属性找到相应的图片，通过图片识别技术OCR识别所述图片中的文字，将识别到的所述文字作为所述单一性imagebutton的文字标识；所述第一提取模块，用于在所述imagebutton为非单一性imagebutton时，提取显示界面中每个开关的文字标识，具体为：获取所述非单一性imagebutton的上层封装，从所述上层封装的布局layout中获取text属性，根据获取的所述text属性获取所述非单一性imagebutton对应的文字标识。

另外，所述第三判断模块包括：判断子模块，用于判断在所述imagebutton的上层封装中是否具有至少两个图片；判定子模块，用于在所述imagebutton的上层封装中具有至少两个图片时，判定所述imagebutton为单一性imagebutton；判断子模块，还用于判断在所述imagebutton的上层封装中是否具有一个图片；判定子模块，还用于在所述imagebutton的上层封装中具有一个图片时，判定所述imagebutton为非单一性imagebutton。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是根据本发明第一实施方式中语音识别方法的流程图；

图2是根据本发明第二实施方式中语音识别方法的流程图；

图3是根据本发明第三实施方式中语音识别装置的方框图；

图4是根据本发明第四实施方式中语音识别装置的方框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

本发明的第一实施方式涉及一种语音识别方法。具体流程如图1所示，语音识别方法包括：

步骤101，终端设备提取显示界面中每个开关的文字标识。

值得一提的是，终端设备的每一个界面中都具有多个图标，如，日历、时钟、邮件、咨询、相机等图标，并且界面中的图标实质上是开关。在对终端设备上的图标进行操作时，实质上是通过点击开关来实现的。在实际应用中，界面上的开关包括两类，一类是文本开关button(button中文释义为文本开关，此处文本开关为button的同位语)、另一类是图片开关imagebutton(imagebutton中文释义为图片开关，此处图片开关为imagebutton的同位语)。无论是button还是imagebutton都具有对应的用于描述开关用途的文字标识。在执行语音识别方法的步骤时，终端设备可以提取界面中每个button或imagebutton的文字标识。

步骤102，终端设备判断是否接收到语音信息。如果是，则进入步骤103；否则，返回步骤102。

值得一提的是，终端设备自带有话筒，话筒可以用来接收语音信息，当用户对着话筒发出语音时，终端设备可以通过话筒接收到用户发出的语音。

步骤103，终端设备通过语音识别技术将语音信息转换成文字。

步骤104，终端设备将转换的文字与提取的各文字标识进行匹配。

步骤105，终端设备判断是否匹配成功。如果是，则进入步骤106；否则，结束。

此外，值得一提的是，在终端设备判定匹配不成功时，终端设备还可以发出提示信息，用来提示用户语音不匹配，请重新输入。这是因为，实际操作过程中，可能会由于用户发音不准确等原因造成转换的文字与提取的各文字标识都不匹配。

步骤106，终端设备判断匹配成功的文字标识的个数是否为一个。如果是，则进入步骤107；否则，进入步骤108。

步骤107，终端设备直接调用与匹配成功的文字标识相对应的开关点击事件。

值得一提的是，在我们使用终端设备进行操作时，实质上无非需要做如下操作：点击(点击包括单击、双击或长按)、返回、上划以及下滑等操作。故，在调用与匹配成功的文字标识相对应的开关点击事件时，可以完成与button或imagebutton相对应的单击、双击或长按等操作。

步骤108，终端设备发出提示信息。

值得一提的是，终端设备发出的提示信息用于提示用户加长语音信息之后，重新录入加长后的语音信息，以进一步限定语音信息的准确性。

此外，需要说明的是，在步骤108之后，还可以返回步骤102，继续判断是否接收到语音信息，或直接结束。

通过上述内容，不难发现，本实施方式可以针对每个开关的文字标识，直接调用与文字标识相对应的开关点击事件，而无需去做操作类接口或针对apk去做语音适配接口，就能实现对终端设备的完全语音远程操控，拓展应用较为广泛。

本发明的第二实施方式涉及一种语音识别方法。第二实施方式是在第一实施方式的基础上做了改进。

在本实施方式中，语音识别方法具体包括：

步骤201，终端设备对显示界面中每个开关的属性进行识别。

步骤202，终端设备判断开关的属性是否为button。如果是，进入步骤203；否则，说明开关的属性是imagebutton，进入步骤204。

步骤203，终端设备根据button的text属性获取button对应的文字标识。其中，text中文释义为文本。

值得一提的是，text属性中具有文字描述，所以可以根据button的text属性获取button对应的文字标识。通过这种方式，提供了一种获取button的文字标识的具体实现方式，并且通过button的文本text属性获取button对应的文字标识，使得获取的文字标识较为精确。

步骤204，判断imagebutton是否为单一性imagebutton。如果是，进入步骤205；否则，说明imagebutton为非单一性imagebutton，进入步骤207。

具体而言，通过以下方式判断imagebutton是否为单一性imagebutton：在imagebutton的上层封装中具有至少两个图片时，imagebutton为单一性imagebutton；在imagebutton的上层封装中具有一个图片时，imagebutton为非单一性imagebutton。通过这种方式提供了一种判断imagebutton是否为单一性imagebutton的一种具体实现方式，并且通过根据上层封装中具有的图片个数判断imagebutton是否为单一性imagebutton使得判定结果更加精确。

步骤205，根据图片开关的src属性找到相应的图片。

步骤206，通过OCR识别图片中的文字，将识别到的文字作为单一性imagebutton的文字标识。其中，src的中文释义为路径，OCR的中文释义为图片识别技术。通过这种方式，提供了一种获取单一性imagebutton的文字标识的具体实现方式，并且通过这种方式获取的文字标识较为精确。

步骤207，获取非单一性imagebutton的上层封装。

步骤208，从上层封装的layout中获取text属性。其中，layout的中文释义为布局。

步骤209，根据获取的text属性获取非单一性imagebutton对应的文字标识。通过这种方式，提供了一种获取非单一性imagebutton的文字标识的具体实现方式，并且通过这种方式获取的文字标识较为精确。

值得一提的是，在步骤203、步骤206以及步骤209之后，均执行步骤210。

步骤210，终端设备将获取的各文字标识以数据块的方式进行显示。

步骤211，终端设备判断是否接收到语音信息。如果是，则进入步骤212；否则，返回步骤211。

值得一提的是，终端设备自带有话筒，话筒可以用来接收语音信息，当用户对着话筒发出语音时，终端设备可以通过话筒接收到用户发出的语音。

步骤212，终端设备通过语音识别技术将语音信息转换成文字。

步骤213，终端设备将转换的文字与各数据块中的文字标识进行匹配。通过这种方式，提供了一种将转换的文字与提取的各文字标识进行匹配的具体实现方式，从而有助于保证本发明的进一步可行性。

步骤214，终端设备判断是否匹配成功。如果是，则进入步骤215；否则，结束。

步骤215，终端设备判断匹配成功的文字标识的个数是否为一个。如果是，则进入步骤216；否则，进入步骤217。

步骤216，终端设备直接调用与匹配成功的文字标识相对应的开关点击事件。

步骤217，终端设备发出提示信息。

值得一提的是，终端设备发出的提示信息用于提示用户加长语音信息之后，重新录入加长后的语音信息，以进一步限定语音信息的准确性。

此外，需要说明的是，在步骤217之后，还可以返回步骤211，继续判断是否接收到语音信息，或直接结束。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本发明第三实施方式涉及一种语音识别装置，如图3所示，包括：第一提取模块31，用于提取显示界面中每个开关的文字标识；第一判断模块32，用于判断是否接收到语音信息；转换模块33，用于在接收到语音信息时，通过语音识别技术将语音信息转换成文字；匹配模块34，用于将转换的所述文字与提取的各所述文字标识进行匹配；第二判断模块35，用于判断是否匹配成功；调用模块36，用于在匹配成功时，直接调用与匹配成功的所述文字标识相对应的开关点击事件。

本实施方式为与第一实施方式相对应的装置实施例，本实施方式可与第一实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在第一实施方式中。

值得一提的是，本实施方式中所涉及到的各模块均为逻辑模块，在实际应用中，一个逻辑单元可以是一个物理单元，也可以是一个物理单元的一部分，还可以以多个物理单元的组合实现。此外，为了突出本发明的创新部分，本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入，但这并不表明本实施方式中不存在其它的单元。

本发明第四实施方式涉及一种语音识别装置。第四实施方式是在第三实施方式的基础上做的改进。

具体如图4所示，语音识别装置包括：第一提取模块31，用于提取显示界面中每个开关的文字标识；第一判断模块32，用于判断是否接收到语音信息；转换模块33，用于在接收到语音信息时，通过语音识别技术将语音信息转换成文字；匹配模块34，用于将转换的所述文字与提取的各所述文字标识进行匹配；第二判断模块35，用于判断是否匹配成功；调用模块36，用于在匹配成功时，直接调用与匹配成功的所述文字标识相对应的开关点击事件。

另外，所述语音识别装置还包括：显示模块37，用于在所述提取显示界面中每个开关的文字标识之后，所述在接收到语音信息时，通过语音识别技术将语音信息转换成文字之前，将提取的各所述文字标识以数据块的方式进行显示；所述匹配模块34，在将转换的所述文字与提取的各所述文字标识进行匹配时，具体为：将转换的所述文字与各所述数据块中的文字标识进行匹配。

另外，所述语音识别装置还包括：识别模块38，用于在所述提取显示界面中每个开关的文字标识之前，对显示界面中每个开关的属性进行识别；第二提取模块39，用于提取所述开关的属性；所述第一提取模块31，用于在所述开关的属性为文本开关button时，提取显示界面中每个开关的文字标识，具体为：根据所述button的文本text属性获取所述button对应的文字标识。

另外，所述语音识别装置还包括：识别模块38，用于在所述提取显示界面中每个开关的文字标识之前，对显示界面中每个开关的属性进行识别；第二提取模块39，用于提取所述开关的属性；第三判断模块310，用于在所述开关的属性为图片开关imagebutton时，判断所述imagebutton是否为单一性imagebutton；所述第一提取模块31，用于在所述imagebutton为单一性imagebutton时，提取显示界面中每个开关的文字标识，具体为：根据所述图片开关的路径src属性找到相应的图片，通过图片识别技术OCR识别所述图片中的文字，将识别到的所述文字作为所述单一性imagebutton的文字标识；所述第一提取模块31，用于在所述imagebutton为非单一性imagebutton时，提取显示界面中每个开关的文字标识，具体为：获取所述非单一性imagebutton的上层封装，从所述上层封装的布局layout中获取text属性，根据获取的所述text属性获取所述非单一性imagebutton对应的文字标识。

另外，所述第三判断模块310包括：判断子模块，用于判断在所述imagebutton的上层封装中是否具有至少两个图片；判定子模块，用于在所述imagebutton的上层封装中具有至少两个图片时，判定所述imagebutton为单一性imagebutton；判断子模块，还用于判断在所述imagebutton的上层封装中是否具有一个图片；判定子模块，还用于在所述imagebutton的上层封装中具有一个图片时，判定所述imagebutton为非单一性imagebutton。

由于第二实施方式与本实施方式相互对应，因此本实施方式可与第二实施方式互相配合实施。第二实施方式中提到的相关技术细节在本实施方式中依然有效，在第二实施方式中所能达到的技术效果在本实施方式中也同样可以实现，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在第二实施方式中。

本领域技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：洪帆;罗绿梅
技术所有人：上海与德科技有限公司
我是此专利的发明人

上一篇：一种基于深度神经网络的特定声源检测方法与系统与流程
上一篇：语音数据的录音方法及装置与流程