一种语音识别方法及显示设备与流程

文档序号:32910234发布日期:2023-01-13 04:00阅读:33来源:国知局
1.本技术涉及智能设备领域,尤其涉及一种语音识别方法及显示设备。
背景技术
::2.目前,越来越多的智能设备(如智能电视、手机、平板等)均具备了语音识别和语音交互的功能。在一些需要输入账号密码的场景中,对于智能电视等智能设备而言,比较传统的方案还是通过遥控器按键手动输入。如果账号密码比较复杂,则会导致整个输入过程需要花费较多时间,用户体验不够好。3.基于此,有些智能设备会利用自身的语音识别的能力向用户提供语音输入账号密码的功能。但是,目前智能设备本身的语音识别方案大多是句子级别的识别方案,该方案支持对单词、复杂句子的语音识别,但是对于单个字符的识别效果较差。这样一来,则需要单独开发一个能够准确识别单个字符的字符语音识别模型,开发成本高,开发难度大。而且,最终智能设备对应的服务器上需要存在两个语音识别方法,对计算资源的占用较大,影响用户对智能设备的使用。技术实现要素:4.本技术实施例提供一种语音识别方法及显示设备,能够在不增加计算资源占用率的情况下,准确识别用户通过语音输入的字符。5.为达到上述目的,本技术的实施例采用如下技术方案:6.第一方面,提供了一种语音识别方法,应用于服务器,该方法可以包括:接收来自显示设备的目标字符语音数据;将所述目标字符语音数据输入预设语音识别模型,以得到初始识别结果;根据预设字符纠错规则对所述初始识别结果进行纠错,以得到所述目标字符语音数据对应的目标字符;向显示设备发送所述目标字符,以使显示设备显示目标字符。7.基于上述技术方案,在显示设备需要对接收到字符语音数据(例如目标字符语音数据)进行识别时,可以将该目标字符语音数据发送给服务器。服务器在获取到目标字符语音数据后,可以基于现有的预设语音识别模型对需要识别的目标字符语音数据进行初始识别,得到初始识别结果。之后,则可以基于预设字符纠错规则对初始识别结果进行纠错,从而得到目标字符语音数据对应的目标字符。之后,服务器则可以将该目标字符发送给显示设备。在整个语音识别的实现过程中,是基于显示设备和服务器本身配合的已有语音识别方案进行的,即使用了预设语音识别模型进行初始识别。在此基础上,则利用预先设定好的预设字符纠错规则对初始识别结果进行纠错从而得到更为准确的识别结果,即目标字符。其中,预先设定好的预设字符纠错规则可以是许多纠错表格,其占用的计算资源会非常小。这样一来,相比于现有技术,本身请提供的技术方案便能够在不增加计算资源占用率的情况下,准确识别用户通过语音输入的字符。8.在第一方面的一种可能的实现方式中,预设字符纠错规则至少包括以下子规则中的任一项或多项:字符映射子规则、音形码匹配子规则、联想子规则。9.其中,字符映射子规则包括:若初始识别结果与预设字符映射表中的第一识别结果匹配,则将预设字符映射表中与第一识别结果关联的第一字符确定为初始识别结果纠错后的第一纠错结果;预设字符映射表用于指示预设字符与可选识别结果的关联关系;第一识别结果为所有可选识别结果中的一个,第一字符为预设字符映射表中与第一识别结果关联的预设字符;10.音形码匹配子规则包括:若初始识别结果的音形码与音形码字典中的第一音形码匹配,则将音形码字典中与第一音形码关联的第二字符确定为初始识别结果纠错后的第二纠错结果;音形码字典用于指示预设字符以及预设字符的音形码的关联关系;第一音形码为所有预设字符的音形码中的一个,第二字符为音形码字典中第一音形码所属的预设字符;11.联想子规则包括:将依据预设关联规则得到的第三字符的关联字符,确定为初始识别结果纠错后的第三纠错结果;第三字符为依据语音识别方法得到目标字符前得到的字符;预设关联规则与第三字符的目标类型对应;预设关联规则用于指示目标字符和目标类型的字符的关联关系。12.基于上述实现方式,本技术提供的技术方案可以利用丰富的子规则来对初始识别结果进行纠错,从而可以得到目标字符语音数据更准确的识别结果,即目标字符。13.在第一方面的另一种可能的实现方式中,在预设字符纠错规则包括字符映射子规则的情况下,根据预设字符纠错规则对初始识别结果进行纠错,以得到目标字符语音数据对应的目标字符,包括:将根据字符映射子规则得到的第一纠错结果,确定为目标字符;14.在预设字符纠错规则包括音形码匹配子规则的情况下,根据预设字符纠错规则对初始识别结果进行纠错,以得到目标字符语音数据对应的目标字符,包括:将根据音形码匹配子规则得到的第二纠错结果,确定为目标字符;15.在预设字符纠错规则包括联想子规则的情况下,根据预设字符纠错规则对初始识别结果进行纠错,以得到目标字符语音数据对应的目标字符,包括:将根据联想子规则得到的第三纠错结果,确定为目标字符。16.基于上述实现方式,本技术提供的技术方案可以根据预设字符纠错规则中包含的子规则的不同,采用不同的方式得到初始识别结果的纠错结果。也就是说,本技术提供的技术方案,可以在预设字符纠错规则包含任意子规则的情况下,均可以准确确定出目标字符语音数据合适的识别结果,即目标字符。17.在第一方面的一种可能的实现方式中,在预设字符纠错规则包括字符映射子规则、音形码匹配子规则和联想子规则中的任意两个子规则或全部子规则的情况下,根据预设字符纠错规则对初始识别结果进行纠错,以得到目标字符语音数据对应的目标字符,包括:根据预设顺序依次选择预设字符纠错规则包括的子规则对初始识别结果进行纠错,直至得到初始识别结果的纠错结果为止,并将初始识别结果的纠错结果确定为目标字符。18.基于上述实现方式,在预设字符纠错规则包括多个子规则的情况下,可以依据预设顺序依次使用不同的子规则对初始识别结果进行纠错。这样一来,因为在获取到目标字符的过程中预设字符纠错规则中的子规则可以不被全部使用,所以本技术提供的技术方案既可以保证获取到准确的目标字符,还可以尽可能减少计算资源的浪费。19.在第一方面的一种可能的实现方式中,在预设顺序为权重由大到小的顺序,字符映射子规则的权重大于音形码匹配子规则的权重,音形码匹配子规则的权重大于联想子规则的权重,预设字符纠错规则包括字符映射子规则、音形码匹配子规则和联想子规则的情况下,根据预设顺序依次选择预设字符纠错规则包括的子规则对初始识别结果进行纠错,直至得到初始识别结果的纠错结果为止,并将初始识别结果的纠错结果确定为目标字符,包括:20.根据字符映射子规则,对初始识别结果进行纠错;若根据字符映射子规则得到了第一纠错结果,则将第一纠错结果确定为目标字符;若根据字符映射子规则未得到第一纠错结果,则根据音形码匹配子规则,对初始识别结果进行纠错;21.若根据音形码匹配子规则得到了第二纠错结果,则将第二纠错结果确定为目标字符;若根据音形码匹配子规则未得到第二纠错结果,则根据联想子规则,对初始识别结果进行纠错;22.若根据联想子规则得到了第三纠错结果,则将第三纠错结果确定为目标字符。23.基于该可能的实现方式,在预设字符纠错规则包括字符映射子规则、音形码匹配子规则和联想子规则的情况下,且字符映射子规则、音形码匹配子规则和联想子规则的权重依次降低的情况下,可以优先利用字符映射子规则对初始识别结果进行纠错,若成功,则可以将纠错结果确定为目标字符。若失败,则可以使用音形码匹配子规则对初始识别结果进行纠错,若成功,则可以将纠错结果确定为目标字符。若失败,则可以利用联想子规则对初始识别结果进行纠错从而得到纠错结果,并确定为目标字符。其中,字符映射子规则、音形码匹配子规则和联想子规则的配合可以必然得到初始识别结果的纠错结果,而且可能不需要使用到全部的子规则。也就是说,基于该实现方式,本技术提供的技术方案,既可以保证获取到准确的目标字符,还可以尽可能减少计算资源的浪费。24.第二方面,提供了一种语音识别方法,应用于显示设备。该方法可以包括:获取目标字符语音数据;向服务器发送目标字符语音数据;接收来自服务器发送的目标字符;目标字符为服务器利用预设语音识别模型得到目标字符语音数据的初始识别结果后,基于预设字符纠错规则对初始识别结果纠错后得到的。25.基于上述技术方案,在显示设备需要对接收到字符语音数据(例如目标字符语音数据)进行识别时,可以将该目标字符语音数据发送给服务器。服务器在获取到目标字符语音数据后,可以基于现有的预设语音识别模型对需要识别的目标字符语音数据进行初始识别,得到初始识别结果。之后,则可以基于预设字符纠错规则对初始识别结果进行纠错,从而得到目标字符语音数据对应的目标字符。之后,服务器则可以将该目标字符发送给显示设备。在整个语音识别的实现过程中,是基于显示设备和服务器本身配合的已有语音识别方案进行的,即使用了预设语音识别模型进行初始识别。在此基础上,则利用预先设定好的预设字符纠错规则对初始识别结果进行纠错从而得到更为准确的识别结果,即目标字符。其中,预先设定好的预设字符纠错规则可以是许多纠错表格,其占用的计算资源会非常小。这样一来,相比于现有技术,本身请提供的技术方案便能够在不增加计算资源占用率的情况下,准确识别用户通过语音输入的字符。26.在第二方面的一种可能的实现方式中,接收来自服务器发送的目标字符之后,方法还包括:显示目标字符。27.基于上述实现方式,显示设备可以显示目标字符语音数据的识别结果,即显示目标字符,从而方便用户及时知晓目标字符语音数据的识别结果。28.在第二方面的一种可能的实现方式中,显示目标字符,包括:若目标字符中包括多个字符,则显示选择弹窗;选择弹窗包括多个选择选项,选择选项与目标字符中包括的字符一一对应;响应于对选择弹窗中第一选择选项的触发操作,显示目标字符中对应第一选择选项的字符。29.基于上述实现方式,在显示设备获取到的目标字符语音数据的识别结果,即目标字符的情况下,若目标字符中存在多个字符,则表明服务器对目标字符语音数据的识别结果不唯一,可能需要用户对其提供的可能的识别结果进行选择。基于此,显示设备可以显示选择弹窗,以供用户选择需要的字符。在用户触发了选择弹窗中的某个选择选项后,显示设备则可以显示该选择选项对应的字符。这样一来,在本技术提供的技术方案无法准确的识别目标字符语音数据的情况下,可以结合用户的选择,确定最终的识别结果并显示,带给用户更好的使用体验。30.第三方面,提供一种服务器,该服务器可以包括通信接口、处理器、存储器、总线;存储器用于存储计算机执行指令,处理器与存储器通过总线连接;当服务器运行时,处理器执行存储器存储的计算机执行指令,以使服务器执行如第一方面及其可能的实现方式提供的语音识别方法。31.第四方面,提供了一种显示设备,包括显示屏、存储器和一个或多个处理器;显示屏、存储器与处理器耦合;其中,存储器中存储有计算机程序代码,计算机程序代码包括计算机指令,当计算机指令被处理器执行时,使得显示设备执行如第二方面及其任一种可能的实现方式提供的语音识别方法。32.第五方面,提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在服务器上运行时,使得服务器可以执行上述第一方面及其可能的实现方式提供的语音识别方法。33.第六方面,提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在显示设备上运行时,使得显示设备可以执行上述第二方面及其可能的实现方式提供的语音识别方法。34.第七方面,提供了一种计算机程序产品,包含指令,当所述计算机程序产品在服务器上运行时,使得所述服务器执行如第一方面及其可能的实现方式提供的语音识别方法。35.第八方面,提供了一种计算机程序产品,包含指令,当所述计算机程序产品在显示设备上运行时,使得所述显示设备执行如第二方面及其可能的实现方式提供的语音识别方法。36.第九方面,提供了一种装置(例如,该装置可以是芯片系统),该装置包括处理器,用于支持服务器实现上述第一方面中所涉及的功能。在一种可能的设计中,该装置还包括存储器,该存储器,用于保存服务器必要的程序指令和数据。该装置是芯片系统时,可以由芯片构成,也可以包含芯片和其他分立器件。37.第十方面,提供了一种装置(例如,该装置可以是芯片系统),该装置包括处理器,用于支持显示设备实现上述第二方面中所涉及的功能。在一种可能的设计中,该装置还包括存储器,该存储器,用于保存电子设必要的程序指令和数据。该装置是芯片系统时,可以由芯片构成,也可以包含芯片和其他分立器件。38.第十一方面,提供一种语音识别系统,包括服务器和显示设备。其中,服务器用于执行上述第一方面及其可能的实现方式提供的语音识别方法,显示设备则用于执行如第二方面及其可能的实现方式提供的语音识别方法。39.其中,第三方面至第十一方面中任一种设计方式所带来的技术效果可参见第一方面和第二方面中不同设计方式所带来的技术效果,此处不再赘述。附图说明40.图1为本技术实施例提供的一种语音识别方法的原理示意图;41.图2为本技术实施例提供的一种语音识别系统的结构示意图;42.图3为本技术实施例提供的一种控制装置的结构示意图;43.图4为本技术实施例提供的一种显示设备的结构示意图;44.图5为本技术实施例提供的一种显示设备的软件架构示意图;45.图6为本技术实施例提供的一种服务器的结构示意图;46.图7为本技术实施例提供的一种语音识别方法的流程示意图一;47.图8为本技术实施例提供的一种电视机的界面示意图;48.图9为本技术实施例提供的一种语音识别方法的流程示意图二;49.图10为本技术实施例提供的一种电视机获取字符语音数据的场景示意图;50.图11为本技术实施例提供的一种语音识别方法的流程示意图三;51.图12为本技术实施例提供的一种预设语音识别模型的原理示意图;52.图13为本技术实施例提供的一种字符映射子规则的纠错示意图;53.图14为本技术实施例提供的一种纠错规则示意图二;54.图15为本技术实施例提供的一种音形码编码流程示意图;55.图16为本技术实施例提供的一种语音识别方法的流程示意图四;56.图17为本技术实施例提供的一种语音识别方法的流程示意图五;57.图18为本技术实施例提供的一种语音识别方法的流程示意图六;58.图19为本技术实施例提供的一种电视机的显示界面示意图一;59.图20为本技术实施例提供的一种电视机的显示界面示意图二;60.图21为本技术实施例提供的一种电视机的显示界面示意图三;61.图22为本技术实施例提供的一种语音识别方法的流程示意图七;62.图23为本技术实施例提供的一种语音识别方法的流程示意图八;63.图24为本技术实施例提供的另一种服务器的结构示意图;64.图25为本技术实施例提供的另一种显示设备的结构示意图。具体实施方式65.为使本技术的目的和实施方式更加清楚,下面将结合本技术示例性实施例中的附图,对本技术示例性实施方式进行清楚、完整地描述,显然,描述的示例性实施例仅是本技术一部分实施例,而不是全部的实施例。66.需要说明的是,本技术中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本技术的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。67.本技术中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体,而不必然意味着限定特定的顺序或先后次序,除非另外注明。应该理解这样使用的用语在适当情况下可以互换。68.本技术中术语“包括”和“具有”以及他们的任何变形,意图在于覆盖但不排他的包含,例如,包含了一系列组件的产品或设备不必限于清楚地列出的所有组件,而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。69.本技术中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。70.基于本技术描述的示例性实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术所附权利要求保护的范围。此外,虽然本技术中公开内容按照示范性一个或几个实例来介绍,但应理解,可以就这些公开内容的各个方面也可以单独构成一个完整实施方式。需要说明的是,本技术中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本技术的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。71.目前,越来越多的智能设备(如智能电视、手机、平板等)均具备了语音识别和语音交互的功能。在一些需要输入账号密码的场景中,对于智能电视等智能设备而言,比较传统的方案还是通过遥控器按键手动输入。如果账号密码比较复杂,则会导致整个输入过程需要花费较多时间,用户体验不够好。72.基于此,有些智能设备会利用自身的语音识别的能力向用户提供语音输入账号密码的功能。但是,目前智能设备本身的语音识别方案大多是句子级别的识别方案,该方案支持对单词、复杂句子的语音识别,但是对于单个字符的识别效果较差。例如以智能设备为智能电视为例,目前采用的云端方案中智能电视会将需要识别的语音数据发送至云端的服务器进行识别。云端的服务器可以使用预设语音识别模型对长句进行识别,例如可以准确识别“iwanttowatchspiderman”这样的长句子。但是其对于“2”这种字符对应的语音数据,其可能会识别为“two”、“to”、“兔”等。73.这样一来,则需要单独开发一个能够准确识别单个字符的字符语音识别模型。该字符语音识别模型可以是针对预设字符进行开发的。在本技术中,预设字符可以包括26个字母、10个阿拉伯数字和n个特殊字符,即为36+n个字符。具体的,可以先收集预设字符的语音数据,然后训练得到一个可以用于识别分类的字符语音识别模型。最终得到的字符语音识别模型便可以较好的对单个字符进行识别。但是该字符语音识别模型无法完成对单词或者句子的识别。而且其开发成本高,开发难度大,特别是在多语音场景下,该字符语音识别模型的体量将会很大。74.进一步的,即便不考虑该字符语音识别模型的开发成本和难度,最终开发完成后。最终智能设备的语音识别方案中则需要存在两个语音识别模型,对计算资源的占用较大,影响用户对智能设备的使用。75.基于此,参照图1所示,本技术实施例提供一种语音识别方法,可以应用于显示设备的语音识别方案中,在该方案中相比于现有的语音识别方法,会多存在一个纠错模块。具体的,在存在目标字符语音输入(例如语音输入为“2”的发音)的情况下,该方案可以先利用现有的针对单词和句子的预设语音识别模型对该目标字符语音进行识别,得到初始识别结果(例如“two”)。之后,纠错模块可以基于预先建立的预设字符纠错规则(例如由字符映射子规则、音形码匹配子规则)对初始识别结果进行纠错得到纠错结果,例如字符映射子规则得到的纠错结果为2,音形码匹配子规则得到的纠错结果也为2。之后,基于特定的融合条件,将预设字符纠错规则得到的纠错结果进行融合,得到最终的结果,即目标字符语音对应的目标字符(例如2)。76.下面结合附图对本技术实施例提供的语音识别方法进行详细描述。77.图2为根据一示例性实施例示出的语音识别方法应用的语音识别系统的组成结构的示意图。参照图2所示,该语音识别系统包括显示设备01和服务器02。78.其中,用户可以通过移动终端100和控制装置200对显示设备01进行控制。控制装置200可以是遥控器,遥控器和显示设备01的通信包括红外协议通信、蓝牙协议通信,无线或其他有线方式来控制显示设备01。用户可以通过遥控器上按键,语音输入、控制面板输入等输入用户指令,来控制显示设备01。此外,显示设备01还可以通过其内部配置的获取语音指令的模块(例如mic)直接接收用户的语音输入或语音指令。在一些实施例中,也可以使用平板电脑、计算机、笔记本电脑、和其他智能设备以控制显示设备01。79.在一些实施例中,移动终端100和显示设备01上可以安装相同或者相互匹配的软件应用,从而实现通过网络协议进行连接通信,进而实现一对一控制操作和数据通信的目的。这种情况下,移动终端100上显示的音视频内容还可以传输到显示设备01上,实现同步显示功能。80.显示设备01和服务器02之间可以通过有限或无线的通信方式进行数据通信。服务器02可以向显示设备01提供多种内容和互动,例如服务器02可以存储有本技术实施例提供的语音识别方法中需要用到的预设语音识别模型和预设字符纠错规则,从而使得服务器02可以向显示设备01提供语音识别的能力。或者说,服务器02可以和显示设备01配合,实现语音识别方案。81.示例性的,在本技术实施例中,显示设备可以具有多种实现形式,例如,可以是电视机、智能电视、激光投影设备、显示器(monitor)、电子白板(electronicbulletinboard)、电子桌面(electronictable)等可以进行语音输入的显示设备。本技术实施例在此对显示设备的具体形态不做限制。本技术实施例中以显示设备为电视机为例进行示意说明。82.示例性的,在本技术实施例中,服务器02可以单个服务器,也可以为多个服务器组成的服务器集群或者还可以是云计算服务中心,本技术对此不做具体限定。该服务器02可以与至少一个显示设备01连接,本技术对显示设备01的数量及类型均不做具体限制。结合图1所示,本技术实施例中,预设语音识别模型和纠错模块可以均设置在服务器02中,目标字符语音数据则可以是显示设备01获取得到后向服务器02发送的。服务器02可以在对目标字符语音数据进行识别并纠错后,将得到的目标字符发送给显示设备01。显示设备接收到该目标字符后则可以进行相应的显示,以使用户及时知晓识别结果。83.图3示例性示出了一种可能的控制装置200的配置框图。如图3所示,控制装置200包括控制器210、通信接口230、用户输入/输出接口240、存储器、供电电源。控制装置200可接收用户的输入操作指令(例如语音指令),且将操作指令转换为显示设备01可识别和响应的指令,起用用户与显示设备200之间交互中介作用。84.示例地,以显示设备为电视机为例,图4示出了本技术实施例提供的一种显示设备01的结构示意图。85.如图4,显示设备01包括调谐解调器110、通信器120、检测器130、外部装置接口140、控制器150、显示器160、音频输出接口170、存储器、供电电源、用户接口中的至少一种。86.在一些实施例中控制器包括处理器,视频处理器,音频处理器,图形处理器,ram,rom,用于输入/输出的第一接口至第n接口。87.显示器160包括用于呈现画面的显示屏组件,以及驱动图像显示的驱动组件,用于接收源自控制器输出的图像信号,进行显示视频内容、图像内容以及菜单操控界面的组件以及用户操控用户界面(useinterface,ui)。88.显示器160可为液晶显示器、oled显示器、以及投影显示器,还可以为一种投影装置和投影屏幕。89.通信器120是用于根据各种通信协议类型与外部设备或服务器进行通信的组件。例如:通信器可以包括wifi模块,蓝牙模块,有线以太网模块等其他网络通信协议芯片或近场通信协议芯片,以及红外接收器中的至少一种。显示设备01可以通过通信器120与外部控制设备200或服务器02建立控制信号和数据信号的发送和接收。90.用户接口,可用于接收控制装置200(如:红外遥控器等)的控制信号。91.检测器130用于采集外部环境或与外部交互的信号。例如,检测器130包括光接收器,用于采集环境光线强度的传感器;或者,检测器130包括图像采集器,如摄像头,可以用于采集外部环境场景、用户的属性或用户交互手势,再或者,检测器130包括声音采集器,如麦克风等,用于接收外部声音。92.外部装置接口140可以包括但不限于如下:高清多媒体接口接口(hdmi)、模拟或数据高清分量输入接口(分量)、复合视频输入接口(cvbs)、usb输入接口(usb)、rgb端口等任一个或多个接口。也可以是上述多个接口形成的复合性的输入/输出接口。93.调谐解调器110通过有线或无线接收方式接收广播电视信号,以及从多个无线或有线广播电视信号中解调出音视频信号,如以及epg数据信号。94.在一些实施例中,控制器150和调谐解调器110可以位于不同的分体设备中,即调谐解调器110也可在控制器150所在的主体设备的外置设备中,如外置机顶盒等。95.控制器150,通过存储在存储器上中各种软件控制程序,来控制显示设备的工作和响应用户的操作。控制器150控制显示设备01的整体操作。例如:响应于接收到用于选择在显示器160上显示ui对象的用户命令,控制器150便可以执行与由用户命令选择的对象有关的操作。96.在一些实施例中控制器包括中央处理器(centralprocessingunit,cpu),视频处理器,音频处理器,图形处理器(graphicsprocessingunit,gpu),ramrandomaccessmemory,ram),rom(read-onlymemory,rom),用于输入/输出的第一接口至第n接口,通信总线(bus)等中的至少一种。97.用户可在显示器160上显示的图形用户界面(gui)输入用户命令,则用户输入接口通过图形用户界面(gui)接收用户输入命令。或者,用户可通过输入特定的声音或手势进行输入用户命令,则用户输入接口通过传感器识别出声音或手势,来接收用户输入命令。[0098]“用户界面”,是应用程序或操作系统与用户之间进行交互和信息交换的介质接口,它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(graphicuserinterface,gui),是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在显示设备的显示屏中显示的一个图标、窗口、控件等界面元素,其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、widget等可视的界面元素中的至少一种。[0099]可以理解的是,一般而言,显示设备功能的实现除了需要上述硬件的支持外,还需要软件的配合。[0100]在一些实施例中,以显示设备01使用的操作系统为android系统为例,参照图5所示,可以将显示设备01的系统分为四层,从上至下分别为应用程序(applications)层(简称“应用层”),应用程序框架(applicationframework)层(简称“框架层”),安卓运行时(androidruntime)和系统库层(简称“系统运行库层”),以及内核层。[0101]在一些实施例中,应用程序层中运行有至少一个应用程序,这些应用程序可以是操作系统自带的窗口(window)程序、系统设置程序或时钟程序等;也可以是第三方开发者所开发的应用程序。在本技术实施例汇总,应用程序层可以包括有语音识别应用,该应用具体用于调用显示设备01的通信接口将显示设备01接收到的语音数据发送给服务器02进行识别。在具体实施时,应用程序层中的应用程序包不限于以上举例。[0102]框架层为应用程序提供应用编程接口(applicationprogramminginterface,api)和编程框架。应用程序框架层包括一些预先定义的函数或服务。应用程序框架层相当于一个处理中心,这个中心决定让应用层中的应用程序做出动作。应用程序通过api接口,可在执行中访问系统中的资源和取得系统的服务。[0103]如图5所示,本技术实施例中应用程序框架层包括管理器(managers),内容提供者(contentprovider)、视图系统(viewsystem)等,其中管理器包括以下模块中的至少一个:活动管理器(activitymanager)用与和系统中正在运行的所有活动进行交互;位置管理器(locationmanager)用于给系统服务或应用提供了系统位置服务的访问;文件包管理器(packagemanager)用于检索当前安装在设备上的应用程序包相关的各种信息;通知管理器(notificationmanager)用于控制通知消息的显示和清除;窗口管理器(windowmanager)用于管理用户界面上的括图标、窗口、工具栏、壁纸和桌面部件。[0104]在一些实施例中,活动管理器用于管理各个应用程序的生命周期以及通常的导航回退功能,比如控制应用程序的退出、打开、后退等。窗口管理器用于管理所有的窗口程序,比如获取显示屏大小,判断是否有状态栏,锁定屏幕,截取屏幕,控制显示窗口变化(例如将显示窗口缩小显示、抖动显示、扭曲变形显示等)等。[0105]在一些实施例中,系统运行库层为上层即框架层提供支撑,当框架层被使用时,安卓操作系统会运行系统运行库层中包含的c/c++库以实现框架层要实现的功能。[0106]在一些实施例中,内核层是硬件和软件之间的层。内核层至少包含以下驱动中的至少一种:音频驱动、显示驱动、蓝牙驱动、摄像头驱动、wifi驱动、usb驱动、hdmi驱动、传感器驱动(如指纹传感器,温度传感器,压力传感器等)、mic驱动以及电源驱动等。[0107]示例性的,图6示出了一种服务器的结构示意图。参照图6所示,该服务器包括一个或多个处理器201,通信线路202,以及至少一个通信接口(图6中仅是示例性的以包括通信接口203,以及一个处理器201为例进行说明),可选的还可以包括存储器204。[0108]处理器201可以是一个通用中央处理器(centralprocessingunit,cpu),微处理器,特定应用集成电路(application-specificintegratedcircuit,asic),或一个或多个用于控制本技术方案程序执行的集成电路。[0109]通信线路202可包括一通路,用于不同组件之间的通信。[0110]通信接口203,可以是收发模块用于与其他设备或通信网络通信,如以太网,ran,无线局域网(wirelesslocalareanetworks,wlan)等。例如,收发模块可以是收发器、收发机一类的装置。可选的,通信接口203也可以是位于处理器201内的收发电路,用以实现处理器的信号输入和信号输出。[0111]存储器204可以是具有存储功能的装置。例如可以是只读存储器(read-onlymemory,rom)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(randomaccessmemory,ram)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electricallyerasableprogrammableread-onlymemory,eeprom)、只读光盘(compactdiscread-onlymemory,cd-rom)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过通信线路202与处理器相连接。存储器也可以和处理器集成在一起。[0112]其中,存储器204用于存储执行本技术方案的计算机执行指令,并由处理器201来控制执行。处理器201用于执行存储器204中存储的计算机执行指令,从而实现本技术实施例中提供的语音识别方法。[0113]或者,可选的,本技术实施例中,也可以是处理器201执行本技术下述实施例提供的语音识别方法中的处理相关的功能,通信接口203负责与其他设备(例如显示设备)或通信网络通信,本技术实施例对此不作具体限定。[0114]可选的,本技术实施例中的计算机执行指令也可以称之为应用程序代码,本技术实施例对此不作具体限定。[0115]在具体实现中,作为一种实施例,处理器201可以包括一个或多个cpu,例如图6中的cpu0和cpu1。[0116]在具体实现中,作为一种实施例,服务器可以包括多个处理器,例如图6中的处理器201和处理器207。这些处理器中的每一个可以是一个单核(single-core)处理器,也可以是一个多核(multi-core)处理器。这里的处理器可以包括但不限于以下至少一种:中央处理单元(centralprocessingunit,cpu)、微处理器、数字信号处理器(dsp)、微控制器(microcontrollerunit,mcu)、或人工智能处理器等各类运行软件的计算设备,每种计算设备可包括一个或多个用于执行软件指令以进行运算或处理的核。[0117]在具体实现中,作为一种实施例,该服务器还可以包括输出设备205和输入设备206。输出设备205和处理器201通信,可以以多种方式来显示信息。例如,输出设备205可以是液晶显示器(liquidcrystaldisplay,lcd),发光二极管(lightemittingdiode,led)显示设备,阴极射线管(cathoderaytube,crt)显示设备,或投影仪(projector)等。输入设备206和处理器201通信,可以以多种方式接收用户的输入。例如,输入设备206可以是鼠标、键盘、触摸屏设备或传感设备等。[0118]上述服务器可以是一个通用设备或者是一个专用设备。例如该服务器可以是台式机、便携式电脑、网络服务器、掌上电脑(personaldigitalassistant,pda)、移动手机、平板电脑、无线终端设备、嵌入式设备、或具有图6中类似结构的设备。本技术实施例不限定服务器的类型。[0119]本技术所涉及的语音数据可以为经用户授权或者经过各方充分授权的数据。[0120]以下实施例中的方法可以在具有上述硬件结构和软件结构的显示设备或服务器中实现。以下实施例中以显示设备为电视机为例,对本技术实施例提供的语音识别方法进行说明。[0121]参照图7所示,本技术实施例提供一种语音识别方法,该方法可以包括s701-s707:[0122]s701、电视机获取目标字符语音数据。[0123]在用户需要使用电视机上某种需要输入账号和/或密码的功能或者应用(例如用户需要登录某个视频应用的会员)的情况下,电视机则会显示相应的界面用于指示用户输入相应的账号和/或密码。[0124]以需要输入密码的场景为例,在用户触发了电视机的用户界面ui中相应的功能图标或应用图标后,电视机可以显示如8中所示的密码输入界面801。在该界面801中可以包括输入框802、提示信息803和键盘804。其中,提示信息803用于指示用户输入密码,例如“请通过语音或键盘输入密码(pleaseenteryourpasswordbyvoiceorkeyboard)”。输入框802则用于显示用户已经输入的密码,键盘804则包括有密码需要的字符选项。例如,26个字母、10个数字以及n个特殊字符的选项。键盘804的具体样式可以根据电视机的配置以及用户的设置而定,可以是如图8中所示的九空格式的键盘,也可以是如电脑键盘一样的键盘,本技术对此不做具体限制。[0125]在用户确定使用语音输入密码的情况下,用户可以以任意可行的语音输入方式向电视机输入字符语音数据。用户向电视机输入了目标字符语音数据,即为电视机获取到了目标字符语音数据。[0126]一种可实现的方式中,用户可以通过控制装置输入字符语音数据。以控制装置为电视机的遥控器为例,用户在需要语音输入时可以按住遥控器中的收音键(或者mic键)。响应于该按住操作,结合图7,参照图9所示,遥控器可以开始接收用户的字符语音数据(例如目标字符语音数据)。在用户说完某个字符后,用户可以松开该收音键。响应于该松开操作,遥控器可以将接收到的字符语音数据发送给电视机。[0127]另一种可实现的方式中,在电视机本身具备收音的mic的情况下,参照图10所示,用户可以通过电视机的mic向电视机输入字符语音数据。也就是说,用户可以直接向电视机说出字符。电视机在预先开启了mic功能的情况下,可以接收用户的字符语音数据。参照图10所示,在电视机预先开启了mic功能的情况下,电视机的显示界面中的目标区域(例如右下角)可以显示有语音输入提示1001。当然,若用户通过遥控器向电视机输入字符语音数据,电视机也可以在目标区域显示语音输入提示。[0128]s702、电视机向服务器发送目标字符语音数据。[0129]在电视机需要用户输入账号或者密码的字符输入场景下,若用户向电视机输入了network,rnn)等任一个。[0140]语言模型1203则用于确定多个音素或字词之间合理的组合关系。示例性的,语言模型可以为n-grame语言模型、rnn语言模型、长短期记忆网络(longshort-termmemory,lstm)语言模型等。[0141]解码模块1204则用于依据语言模型1203的能力将声学模型1202得出的多个音素解码为用户可以识别的词语或句子。[0142]需要指出的是,目前服务器中已有的预设语音识别模型一般都是针对句子级别的,同一个发音在不同的上下文环境中可以有不同的识别结果。这将取决于预设语音识别模型中的语言模型和解码模型。比如在英语环境中,“2”这个发音音频,如果用户说“setvolumetotwentytwo”,解码模型一般会将其中的twentytwo对应的音频片段识别为数字“22”;而如果用户只说“two”,解码模型可能会将“two”识别为“2”或“two”或“to”甚至“too”。因此,如果仅使用预设语音识别模型来做字符级别的识别,还需要使用一些预先指定的纠错规则来对识别结果进行纠错。即执行后续的s705。[0143]s705、服务器根据预设字符纠错规则对初始识别结果进行纠错,以得到目标字符语音数据对应的目标字符。[0144]为了保证预设字符纠错规则可以对初始识别结果进行准确的纠错,示例性的,预设字符纠错规则至少包括以下子规则中的任一项或多项:字符映射子规则、音形码匹配子规则、联想子规则。这样一来,本技术提供的技术方案可以利用丰富的子规则来对初始识别结果进行纠错,从而可以得到目标字符语音数据更准确的识别结果,即目标字符。[0145]其中,字符映射子规则包括:若初始识别结果与预设字符映射表中的第一识别结果匹配,则将预设字符映射表中与第一识别结果关联的第一字符确定为初始识别结果纠错后的第一纠错结果;预设字符映射表用于指示预设字符与可选识别结果的关联关系;第一识别结果为所有可选识别结果中的一个,第一字符为预设字符映射表中与第一识别结果关联的预设字符。示例性的,预设字符可以包括26个字母(具体可以包括大写字符和小写字母)、10个阿拉伯数字和n个特殊字符,即为36+n个字符。后续的预设字符同理。[0146]一种可实现的方式中,字符映射子规则中的预设字符映射表可以是通过预设语音识别模型得到的。具体的,对于需要进行识别的预设字符,可以人工将其对应的语音多人多次的输入至预设语音识别模型中,以得到预设字符对应的可选识别结果。从而得到预设字符和可选识别结果的映射关系,构建得到该预设字符映射表。[0147]例如,以英语为例,可以反复将字符“2”的语音输入至预设语音识别模型中,从而可以得到例如“two”、“to”、“too”等可选识别结果。最终构建的预设字符映射表中,针对字符“2”的内容则可以为{“two”:2,“to”:2,“too”:2}。[0148]基于此,参照图13中(a)所示,若预设字符语音识别模型对目标字符语音数据的初始识别结果为“two”或“to”或“too”,则依据该字符映射子规则,服务器则均会将2作为初始识别结果的第一纠错结果。[0149]另外,如果要支持大小写字母的识别,那么用户在输入某个字母的大写时,其输入的语音则具体可以在字母发音之前加上“big”的发音。在此基础上,以a为例,基于上述方式则可以得到预设字符映射表中的如下内容:{“a”:a,“biga”:a},其余字母同理。[0150]基于此,参照图13中(b)所示,若预设字符语音识别模型对目标字符语音数据的初始识别结果为“biga”,则依据该字符映射子规则,服务器则均会将a作为初始识别结果的第一纠错结果。[0151]音形码匹配子规则包括:若初始识别结果的音形码与音形码字典中的第一音形码匹配,则将音形码字典中与第一音形码关联的第二字符确定为初始识别结果纠错后的第二纠错结果;音形码字典用于指示预设字符以及预设字符的音形码的关联关系;第一音形码为所有预设字符的音形码中的一个,第二字符为音形码字典中第一音形码所属的预设字符。[0152]其中,某个对象(即词语或者字或者单词)的音形码是依据特定的规则将该对象的发音进行编码得到的。不同语言类型的音形码编码规则不同。这样,可以实现某种语言类型下,粗粒度的发音归一化。一个音形码可以对应多个对象,一个对象仅对应一个音形码。[0153]在本技术实施例中,音形码字典是根据预设字符的发音构建得到的,具体和不同的语言类型(例如汉语,英语、阿拉伯语等)有关。该音形码字典中则包括有每个预设字符与其音形码的关联关系。以英语为例,英文中的字符“,”音形码为km,字符“2”音形码为t,字符“@”音形码为at。则音形码字典中的具体内容(即关联关系)可以包括:{“km”:“,”}、{“t”:“2”}、{“at”:“@”}。也就是说如果利用该音形码匹配子规则对初始识别结果进行纠错的话,若初始识别结果的音形码为km,则其第二纠错结果为“,”;若初始识别结果的音形码为t,则其第二纠错结果为“2”;若初始识别结果的音形码为at,则其第二纠错结果为“@”。[0154]基于此,在本技术这种账号或密码的字符输入场景下,参照图14所示,若预设字符语音识别模型对目标字符语音数据的初始识别结果的音形码为km,例如come,则依据该音形码匹配子规则,服务器则均会将“,”作为初始识别结果的第二纠错结果。[0155]另外,需要说明的是,在使用音形码匹配子规则对初始识别结果进行纠错时,首先需要对初始识别结果进行编码得到初始识别结果的音形码。示例性的,以英语为例,参照图15所示,初始识别结果的音形码编码流程可以包括1501-1504:[0156]1501、删除或忽略初始识别结果中的非英文字母字符并将字母全部转换为大写,得到第一结果。[0157]其中,初始识别结果出现非英文字母字符的原因在于,由于预设语音识别模型本身训练时的局限性,一旦用户的发音不符合预设语音识别模型训练数据时的发音,则可能会导致预设语音识别模型无法识别,或者不能准确识别。此时,预设语音识别模型则会输出任意的字符,则可能会出现非英文字符(假定当前识别场景为英文使用场景,或者用户将电视机的默认语言设置为英文类型)。所以这里需要对非英文字母字符进行删除,排除干扰。[0158]例如,初始识别结果为comma,则第一结果可以为comma。[0159]1502、根据预设处理规则,对第一结果的词首字母或者字母组合进行预处理,得到第二结果。[0160]示例性,预设处理规则可以包括:若字母组合ae位于词首时,删除其中的首字母;将词首的字母x替换为s。[0161]这里预设编码规则可以是基于英文发音习惯来决定的,例如ae位于词首时,a是不发音或者轻发音的,所以可以删除a,其余规则同理。[0162]示例性的,若第一结果为comma,预设处理规则中包括将词首的co中的o删除,则可以得到第二结果为cmma。[0163]1503、对第二结果中相邻的重复字母进行去重,得到第三结果。[0164]例如,若第三结果为cmma,则将其中两个m去除一个。[0165]1504、根据预设编码规则对第三结果进行编码,得到初始识别结果的音形码。[0166]其中,预设编码规则可以是根据英文发音规定的。例如,对a、e、i、o、u这5个元音字母位于词首时则保留,位于其他地方时则去除;对辅音字母则按照预定转换规则进行处理,比如c,在字母组合-cia-和-ch-中的c转换为x,在-ci-,-ce-和-cy-中的c转换为s,删除字母组合-sci-,-sce-和-scy-中的c,其他情况转换为k。示例性的,例如第三结果为cma,则根据发音,可以省略a,并将c转换为k,得到km。[0167]当然,上述音形码编码规则还可以是其他任意可行的方式,本技术对此不做具体限制。[0168]在得到初始识别结果的音形码后,便可以根据音形码匹配子规则确定初始识别结果的第二纠错结果。[0169]联想子规则包括:将依据预设关联规则得到的第三字符的关联字符,确定为初始识别结果纠错后的第三纠错结果;第三字符为依据语音识别方法得到目标字符前得到的字符;预设关联规则与第三字符的目标类型对应;预设关联规则用于指示目标字符和目标类型的字符的关联关系。在本技术实施例中,联想子规则可以依据第三字符的预设关联规则确定出多个字符作为第三纠错结果。最终,若将第三纠错结果确定为目标字符,则电子设备接收到目标字符后,会展示所有字符供用户选择。[0170]本技术实施例中,联想子规则中可以包括有多个预设关联规则,每个预设关联规则对应预设字符中的一类字符。每种预设关联规则的选择可以是依据用户的输入习惯或者统计得到的大多数的输入习惯确定得出的。示例性的,本技术实施例中的联想子规则及相应的示例如下表1所示:[0171]表1-联想子规则[0172][0173]基于此,在本技术这种账号或密码的字符输入场景下,以依据本技术提供的语音识别方法上一次识别用户输入的字符语音数据得到的第三字符为a为例,则依据该联想子规则,服务器则均会将“b”和/或“s”作为初始识别结果的第二纠错结果。[0174]在一些实施例中,在服务器根据预设字符纠错规则得到初始识别结果的纠错结果后,便可以将得到的纠错结果确定为目标字符。[0175]基于此,在所述预设字符纠错规则包括所述字符映射子规则的情况下,结合图7,参照图16所示,s705具体可以为s705a:[0176]s705a、服务器将根据字符映射子规则得到的第一纠错结果,确定为目标字符。[0177]在一些实施中,因为字符映射子规则中依据的预设字符映射表是一种全字符匹配方式,而且需要依据人为对某个字符的发音来构建,存在一定误差或者缺失。而且,基于不同语言的复杂性以及预设语音识别模型本身的不完美性,每种语言的预设字符映射表都无法完全的表现出预设字符和所有可能的可选识别结果的映射关系,必然会存在一定的缺失。所以实际中,若预设字符纠错规则包括字符映射子规则,那么服务器根据该字符映射子规则不一定可以从预设字符映射表中找到与初始识别结果匹配(或者相等)的第一识别结果,则也就无法确定出初始识别结果对应的第一纠错结果。[0178]这种情况下,如果预设字符纠错规则不包括其他子规则,则服务器则将初始识别结果作为目标字符返回给电视机进行显示。后续用户若不认同,则可以通过遥控器或者电视机的触摸屏进行修改。[0179]或者,服务器可以将初始识别结果发送给电视机,并同时告知电视机未能对初始识别结果进行纠错。此时,电视机则可以显示相应的提示信息告知用户,并显示相应的弹窗指示用户确定是否以初始识别结果作为最终的识别结果。若用户通过相应操作指示电视机,确定以初始识别结果作为目标字符语音数据最终的识别结果,则电视机将该初始识别结果作为目标字符显示在输入框中。若用户通过相应操作指示电视机,确定不以初始识别结果作为目标字符语音数据最终的识别结果,则电视机将指示用户重新输入字符(或者字符语音数据)。[0180]在预设字符纠错规则包括音形码匹配子规则的情况下,结合图7,参照图17所示,s705具体可以为s705b:[0181]s705b、服务器将根据音形码匹配子规则得到的第二纠错结果,确定为目标字符。[0182]在一些实施例中,由于用户本身的发音是无法设定标准的,所以一旦用户针对某个字符的发音经由预设语音识别模型识别后得到的初始识别结果的音形码,无法从音形码字典中找到匹配(或者相等)的第一音形码,则将无法确定第二字符,也就不能得到第二纠错结果。[0183]这种情况下,则服务器可以实施如前述无法得到第一纠错结果的具体实现,此处不再赘述。[0184]在预设字符纠错规则包括联想子规则的情况下,结合图7,参照图18所示,s705具体可以为s705c:[0185]s705c、服务器将根据联想子规则得到的第三纠错结果,确定为目标字符。[0186]由于联想子规则是基于服务器前一次得到的第三字符来对初始识别结果进行纠错的,所以一旦存在第三字符,服务器则必然可以根据联想子规则得到第三纠错结果,并将其确定为目标字符。[0187]需要说明的是,若当前用户输入至电视机的目标字符语音数据是当前账号和/或密码输入场景下,第一次输入的字符语音数据,则不存在第三字符。这种情况下,服务器便无法得到第三纠错结果。此时,服务器的具体实现和前述无法得到第一纠错结果的实现类似,此处不再赘述。[0188]s706、服务器向电视机发送目标字符。[0189]服务器在对目标字符语音数据进行识别并纠错得到目标字符后,可以将目标字符发送给电视机,以使电视机对目标字符进行显示。从而使得用户可以及时知晓语音识别结果。[0190]s707、电视机接收来自服务器的目标字符,并显示目标字符。[0191]在一种可实现的方式中,服务器对目标字符语音数据进行识别并纠错后得到的目标字符中仅包括一个字符(例如依据字符映射子规则或者音形码匹配子规则进行纠错后得到的目标字符)。以目标字符为2为例,结合图8,结合图19所示,电视机可以在输入框802中的当前字符位置显示“2”。[0192]在另一种可实现的方式中,服务器对目标字符语音数据进行识别并纠错后得到的目标字符中仅包括多个字符(例如依据联想子规则得到的目标字符)。以第三字符为a,目标字符包括b和s为例,结合图8,结合图20中(a)所示,电视机在接收到该目标字符后,可以显示选择弹窗2001。该选择弹窗2001中可以包括多个选择选项,选择选择与目标字符中的字符一一对应。例如,参照图20所示,选择弹窗2001中可以包括选择选项2002和选择选项2003,选择选项2002对应字符“b”,选择选项2003对应字符“s”。[0193]之后,用户可以自身需求选择其中的第一选择选项实施触发操作,电视机则可以响应于用户对选择弹窗2001中第一选择选项的触发操作,显示目标字符中对应第一选择选项的字符。例如,若第一选择选项为选择选项2002,则第一选择选项对应的字符为“b”。此时,参照图20中(b)所示,电视机可以在输入框802中的当前字符位置显示“b”。[0194]另外,用户若认为选择弹窗2001中所有选择选项对应的字符均不是自己想要的,则可以利用键盘804输入自身需要的字符以使电视机显示。或者,参照图20中(a)所示,选择弹窗2001中还可以包括取消选项2004。该取消选项2004再被用户触发后,则可以用于触发电视机重新接收用户输入的字符语音数据。也就是说,用户如果对该取消选项实施了触发操作,则可以再次向电视机输入字符语音数据,以使电视机结合服务器进行重新识别。[0195]另外,在本技术实施例中,为了使得用户可以知晓预设语音识别模型得到的初始识别结果,服务器在向电视机发送目标字符时,还可以向电视机发送初始识别结果。电视机在接收到该初始识别结果时,则可以在特定区域显示该初始识别结果。示例性的,结合图10,参照图21所示,特定区域可以是目标区域的附近,电视机可以该特定区域显示初始识别结果,例如two。[0196]基于本技术提供的技术方案,在显示设备需要对接收到字符语音数据(例如目标字符语音数据)进行识别时,可以将该目标字符语音数据发送给服务器。服务器在获取到目标字符语音数据后,可以基于现有的预设语音识别模型对需要识别的目标字符语音数据进行初始识别,得到初始识别结果。之后,则可以基于预设字符纠错规则对初始识别结果进行纠错,从而得到目标字符语音数据对应的目标字符。之后,服务器则可以将该目标字符发送给显示设备显示。在整个语音识别的实现过程中,是基于显示设备和服务器本身配合的已有语音识别方案进行的,即使用了预设语音识别模型进行初始识别。在此基础上,则利用预先设定好的预设字符纠错规则对初始识别结果进行纠错从而得到更为准确的识别结果,即目标字符。其中,预先设定好的预设字符纠错规则可以是许多纠错表格,其占用的计算资源会非常小。这样一来,相比于现有技术,本身请提供的技术方案便能够在不增加计算资源占用率的情况下,准确识别用户通过语音输入的字符。[0197]进一步的,因为预先设定好的预设字符纠错规则是较容易改变的,所以一旦后续用户还需要识别其他的字符,可以在预设字符纠错规则(或者其中包括的子规则)中增加相应的纠错规则即可,方便易操作。[0198]前述的s705a、s705b和s705c分别提供了预设字符纠错规则包括单个子规则的纠错情况,实际中预设字符纠错规则还可以包括多个子规则。基于此,在一些实施例中,在预设字符纠错规则包括字符映射子规则、音形码匹配子规则和联想子规则中的任意两个子规则或全部子规则的情况下,结合图7,参照图22所示,s705可以为s705d:[0199]s705d、服务器根据预设顺序依次选择预设字符纠错规则包括的子规则对初始识别结果进行纠错,直至得到初始识别结果的纠错结果为止,并将初始识别结果的纠错结果确定为目标字符。[0200]这样一来,因为在获取到目标字符的过程中预设字符纠错规则中的子规则可以不被全部使用,所以本技术提供的技术方案既可以保证获取到准确的目标字符,还可以尽可能减少计算资源的浪费。[0201]示例性的,预设顺序可以为权重由大到小的顺序。在预设字符纠错规则可能包括的子规则中,字符映射子规则是是一种全字符匹配方式,且其利用了预设语音识别模型,所以该子规则的纠错规则最适合对初始识别结果的纠错,其权重可以最大。其次,音形码匹配子规则是基于音形码的,相较于联想子规则中根据用户使用习惯或者经验得到的预设关联规则而言,音形码匹配规则起码是基于初始识别结果进行的(需要得到初始识别结果的音形码),所以音形码匹配子规则的权重可以仅次于字符映射子规则。联想子规则的权重则最小。[0202]基于上述说明,在一些实施例中,以预设顺序为权重由大到小的顺序,字符映射子规则的权重大于音形码匹配子规则的权重,音形码匹配子规则的权重大于联想子规则的权重,预设字符纠错规则包括字符映射子规则、音形码匹配子规则和联想子规则的情况下,结合图22,参照图23所示,s705d可以包括s7051d-s7056d:[0203]s7051d、服务器根据字符映射子规则,对初始识别结果进行纠错。[0204]s7052d、服务器若根据字符映射子规则得到了第一纠错结果,则将第一纠错结果确定为目标字符。[0205]s7053d、服务器若根据字符映射子规则未得到第一纠错结果,则根据音形码匹配子规则,对初始识别结果进行纠错。[0206]s7054d、服务器若根据音形码匹配子规则得到了第二纠错结果,则将第二纠错结果确定为目标字符。[0207]s7055d、服务器若根据音形码匹配子规则未得到第二纠错结果,则根据联想子规则,对初始识别结果进行纠错。[0208]s7056d、服务器若根据联想子规则得到了第三纠错结果,则将第三纠错结果确定为目标字符。[0209]服务器若根据联想子规则未得到了第三纠错结果,则具体实现可以参照前述实施例中s705c后的相关说明,此处不再赘述。[0210]当然上述s7051d-s7056d对应的技术方案仅为一种可能的实现方式,实际中预设顺序改变后,还可以是其他任意可行的实现方式。另外,若预设字符纠错规则包括两种子规则时的实现可以参照该技术方案的实现,本技术不再赘述。[0211]基于上述s7051d-s7056d对应的技术方案,在预设字符纠错规则包括字符映射子规则、音形码匹配子规则和联想子规则的情况下,且字符映射子规则、音形码匹配子规则和联想子规则的权重依次降低的情况下,可以优先利用字符映射子规则对初始识别结果进行纠错,若成功,则可以将纠错结果确定为目标字符。若失败,则可以使用音形码匹配子规则对初始识别结果进行纠错,若成功,则可以将纠错结果确定为目标字符。若失败,则可以利用联想子规则对初始识别结果进行纠错从而得到纠错结果,并确定为目标字符。其中,字符映射子规则、音形码匹配子规则和联想子规则的配合可以必然得到初始识别结果的纠错结果,而且可能不需要使用到全部的子规则。也就是说,基于该实现方式,本技术提供的技术方案,既可以保证获取到准确的目标字符,还可以尽可能减少计算资源的浪费。[0212]前述实施例中,整个过程是电视机接收用户的目标字符语音数据,之后将目标字符语音数据发送给目标服务器,以使服务器利用自身存在的预设语音识别模型进行识别并利用纠错模块中的预设字符纠错规则进行纠错从而得到目标字符返回给电视机。[0213]在另一些实施例中,预设语音识别模型和纠错模块还可以设置在电视机中,这种情况下,上述s701-s707的所有步骤则均由电视机本身实施,其具体实现可以很容易的依照前述实施例合理的推导得到,本技术对此再赘述。这种情况下,相比于前述实施例中提供高的语音识别方法,语音识别的速度会更快,但是对电视机的计算资源要求和存储资源要求会更高。此外,前述实施例中提供的语音识别方法中,如果电视机和服务器之间的通信连接因为网络问题或其他任意可能的问题断开,咋将无法对目标字符语音数据进行识别,而均由电视机实施语音识别的语音识别方法则不存在该问题。[0214]另外,进一步的,因为预设语音识别模型和规则模块中的预设字符纠错规则都可能会因为用户的需求而进行更新,而这个更新出于方便的目的,会放在服务器中。所以为了使得电视机本身存储的预设语音识别模型和规则模块中的预设字符纠错规则能够及时更新。电视机可以定期(例如一月一次或者由用户设定)从服务器中获取最新的预设语音识别模型和最新的预设字符纠错规则。这样一来,电视机便可以更准确的对用户输入的目标字符语音数据进行识别。[0215]上述主要从方法的角度对本技术实施例提供的方案进行了介绍。为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本技术能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。[0216]本技术实施例可以根据上述方法示例对服务器和电子设备进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本技术实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。[0217]参照图24所示,本技术实施例提供一种服务器,该服务器可以包括通信模块241和处理模块242。其中,处理模块242中可以包括前述实施例中提到的纠错模块。[0218]具体的,通信模块241用于接收来自显示设备的目标字符语音数据;处理模块242,用于将通信模块241接收到的目标字符语音数据输入预设语音识别模型,以得到初始识别结果;处理模块242还用于根据预设字符纠错规则对初始识别结果进行纠错,以得到目标字符语音数据对应的目标字符;通信模块241还用于向显示设备发送处理模块242得到的目标字符。[0219]在一些可实施的示例中,预设字符纠错规则至少包括以下子规则中的任一项或多项:字符映射子规则、音形码匹配子规则、联想子规则。[0220]其中,字符映射子规则包括:若初始识别结果与预设字符映射表中的第一识别结果匹配,则将预设字符映射表中与第一识别结果关联的第一字符确定为初始识别结果纠错后的第一纠错结果;预设字符映射表用于指示预设字符与可选识别结果的关联关系;第一识别结果为所有可选识别结果中的一个,第一字符为预设字符映射表中与第一识别结果关联的预设字符;[0221]音形码匹配子规则包括:若初始识别结果的音形码与音形码字典中的第一音形码匹配,则将音形码字典中与第一音形码关联的第二字符确定为初始识别结果纠错后的第二纠错结果;音形码字典用于指示预设字符以及预设字符的音形码的关联关系;第一音形码为所有预设字符的音形码中的一个,第二字符为音形码字典中第一音形码所属的预设字符;[0222]联想子规则包括:将依据预设关联规则得到的第三字符的关联字符,确定为初始识别结果纠错后的第三纠错结果;第三字符为依据语音识别方法得到目标字符前得到的字符;预设关联规则与第三字符的目标类型对应;预设关联规则用于指示第三纠错结果和目标类型的字符的关联关系。[0223]在一些可实施的示例中,在预设字符纠错规则包括字符映射子规则的情况下,处理模块242具体用于:将根据字符映射子规则得到的第一纠错结果,确定为目标字符;在预设字符纠错规则包括音形码匹配子规则的情况下,处理模块242具体用于:将根据音形码匹配子规则得到的第二纠错结果,确定为目标字符;在预设字符纠错规则包括联想子规则的情况下,处理模块242具体用于:将根据联想子规则得到的第三纠错结果,确定为目标字符。[0224]在一些可实施的示例中,在预设字符纠错规则包括字符映射子规则、音形码匹配子规则和联想子规则中的任意两个子规则或全部子规则的情况下,处理模块242具体用于:根据预设顺序依次选择预设字符纠错规则包括的子规则对初始识别结果进行纠错,直至得到初始识别结果的纠错结果为止,并将初始识别结果的纠错结果确定为目标字符。[0225]在一些可实施的示例中,在预设顺序为权重由大到小的顺序,字符映射子规则的权重大于音形码匹配子规则的权重,音形码匹配子规则的权重大于联想子规则的权重,预设字符纠错规则包括字符映射子规则、音形码匹配子规则和联想子规则的情况下,处理模块242具体用于:根据字符映射子规则,对初始识别结果进行纠错;若根据字符映射子规则得到了第一纠错结果,则将第一纠错结果确定为目标字符;若根据字符映射子规则未得到第一纠错结果,则根据音形码匹配子规则,对初始识别结果进行纠错;若根据音形码匹配子规则得到了第二纠错结果,则将第二纠错结果确定为目标字符;若根据音形码匹配子规则未得到第二纠错结果,则根据联想子规则,对初始识别结果进行纠错;若根据联想子规则得到了第三纠错结果,则将第三纠错结果确定为目标字符。[0226]关于上述实施例中的服务器,其中各个模块执行操作的具体方式已经在前述中的语音识别方法的实施例中进行了详细描述,此处将不做详细阐述说明。[0227]参照图25所示,本技术实施例还提供一种显示设备,该显示设备可以包括获取模块251和发送模块252。[0228]具体的,获取模块251,用于获取目标字符语音数据;发送模块252,用于向服务器发送获取模块251获取的目标字符语音数据;获取模块251,还用于接收来自服务器发送的目标字符;目标字符为服务器利用预设语音识别模型得到目标字符语音数据的初始识别结果后,基于预设字符纠错规则对初始识别结果纠错后得到的。[0229]在一种可能的示例中,该显示设备还包括显示模块253,在获取模块251接收到来自服务器发送的目标字符之后,显示模块253用于显示目标字符。[0230]在一种可能的示例中,显示模块253具体用于:若目标字符中包括多个字符,则显示选择弹窗;选择弹窗包括多个选择选项,选择选项与目标字符中包括的字符一一对应;响应于对选择弹窗中第一选择选项的触发操作,显示目标字符中对应第一选择选项的字符。[0231]关于上述实施例中的显示设备,其中各个模块执行操作的具体方式已经在前述中的语音识别方法的实施例中进行了详细描述,此处将不做详细阐述说明。[0232]应理解以上装置中单元或模块(以下均称为单元)的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且装置中的单元可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分单元以软件通过处理元件调用的形式实现,部分单元以硬件的形式实现。[0233]例如,各个单元可以为单独设立的处理元件,也可以集成在装置的某一个芯片中实现,此外,也可以以程序的形式存储于存储器中,由装置的某一个处理元件调用并执行该单元的功能。此外这些单元全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件又可以称为处理器,可以是一种具有信号的处理能力的集成电路。在实现过程中,上述方法的各步骤或以上各个单元可以通过处理器元件中的硬件的集成逻辑电路实现或者以软件通过处理元件调用的形式实现。[0234]在一个例子中,以上装置中的单元可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个asic,或,一个或多个dsp,或,一个或者多个fpga,或这些集成电路形式中至少两种的组合。[0235]再如,当装置中的单元可以通过处理元件调度程序的形式实现时,该处理元件可以是通用处理器,例如cpu或其它可以调用程序的处理器。再如,这些单元可以集成在一起,以片上系统soc的形式实现。[0236]在一种实现中,以上装置实现以上方法中各个对应步骤的单元可以通过处理元件调度程序的形式实现。例如,该装置可以包括处理元件和存储元件,处理元件调用存储元件存储的程序,以执行以上方法实施例所述的语音识别方法。存储元件可以为与处理元件处于同一芯片上的存储元件,即片内存储元件。[0237]在另一种实现中,用于执行以上方法的程序可以在与处理元件处于不同芯片上的存储元件,即片外存储元件。此时,处理元件从片外存储元件调用或加载程序于片内存储元件上,以调用并执行以上方法实施例所述的语音识别方法。[0238]本技术实施例还提供一种服务器,该服务器可以包括:通信接口、处理器、存储器、总线;存储器用于存储计算机执行指令,处理器与存储器通过总线连接;当服务器运行时,处理器执行存储器存储的计算机执行指令,以使服务器执行如上述方法实施例中服务器执行的各个功能或者步骤。[0239]本技术实施例还提供一种电子设备,该电子设备可以包括:显示屏、存储器和一个或多个处理器。该显示屏、存储器和处理器耦合。该存储器用于存储计算机程序代码,该计算机程序代码包括计算机指令。当处理器执行计算机指令时,电子设备可执行上述方法实施例中电子设备(如电视机)执行的各个功能或者步骤。[0240]例如,本技术实施例还提供一种芯片,该芯片可以应用于上述显示设备或服务器。芯片包括一个或多个接口电路和一个或多个处理器;接口电路和处理器通过线路互联;处理器通过接口电路从显示设备的存储器接收并执行计算机指令,以实现以上方法实施例中所述的方法。[0241]本技术实施例还提供一种计算机可读存储介质,其上存储有计算机程序指令。当计算机程序指令被服务器执行时,使得服务器可以实现如上述的语音识别方法。[0242]本技术实施例还提供一种计算机可读存储介质,其上存储有计算机程序指令。当计算机程序指令被显示设备执行时,使得显示设备可以实现如上述的语音识别方法。[0243]本技术实施例还提供一种计算机程序产品,包括如上述服务器运行的计算机指令,当计算机程序产品在服务器中运行时,使得显示设备实可以现如上述的语音识别方法。[0244]本技术实施例还提供一种计算机程序产品,包括如上述显示设备运行的计算机指令,当计算机程序产品在显示设备中运行时,使得显示设备实可以现如上述的语音识别方法。[0245]本技术实施例还提供一种语音识别系统,该系统包括前述实施例中的服务器和显示设备。该服务器和显示设备用于执行前述实施例中的语音识别方法中对应的步骤或功能。[0246]通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。[0247]在本技术所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。[0248]所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。[0249]另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。[0250]所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本技术实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,如:程序。该软件产品存储在一个程序产品,如计算机可读存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。[0251]以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何在本技术揭露的技术范围内的变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以所述权利要求的保护范围为准。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1