一种语音信息处理方法及终端与流程

文档序号：33453968发布日期：2023-03-15 01:43阅读：73来源：国知局

技术简介：
本专利针对传统离线语音控制功能扩展依赖云端识别、用户自定义映射受限的问题，提出一种基于云端-本地协同的语音信息处理方法。通过将用户语音数据上传云端确定功能对应关系，再存储至本地数据库实现离线交互，并支持用户自定义修改语音-文本-词条映射，解决了固有话术不适应、功能扩展受限等痛点，提升了人机交互的灵活性和智能化水平。
关键词：语音数据处理,云端-本地协同

1.本发明涉及人机交互领域，尤其涉及人机交互中的语音信息处理方法及终端。

背景技术：

2.目前语音控制已经广泛应用在日常生活中常见的各种电子设备上，比如手机、车机、智能音箱等。
3.语音控制包括在线语音控制和离线语音控制两种实现方式，每种方式又包括自动语音识别(asr，automatic speech recognition)、自然语言理解(nlu，natural language understanding)、对nlu结果进行语音控制等几个阶段。
4.目前的离线语音控制，包括两种实现方式：1、在离线语音控制引擎内预先设置一些常用词条，比如打开音乐、打开电话等；2、内置离线语义库，通过把文本解析成语义来执行语义对应的动作。
5.无论哪种方式，都会固化离线语音控制的功能，即只能支持预先设置过的词条，或者内置的离线语义库支持的语义对应的功能。受软硬件限制，内置常用词条的数量有限，而不同用户对语音控制功能有不同的需求，无法做到对所有用户都预先设置用户需要的词条。预设的离线语义库也只能预设有限功能的语义，若要更新语义，需要进行离线语音升级，有些情况下，甚至需要升级整个操作系统，较为困难。
6.并且，每个用户对功能的习惯性说法不同，无法通过预定义的方式让所有人满意，而用户记忆预定义的说法成本比较高，间接降低了用户接受度。而使用在线语音服务，虽然不存在上述问题，但是只能在存在网络的环境下使用，没有网络的情况无法使用，也有很大的局限性。
7.因此，希望能够提供一种语音信息处理方法，能够方便地拓展离线语音控制功能，从而有利于人机交互的实现。

技术实现要素：

8.以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览，并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。
9.本技术的一个目的在于提供一种语音信息处理方法及终端，其优势在于，本发明通过在线语音功能方便地拓展了离线语音控制功能，从而有利于人机交互的实现。并且本发明在扩展离线语音控制功能时，无需要对整个操作系统进行升级，能够避免由此带来的升级失败、安全性等方面的问题。
10.本技术的另一个目的在于提供一种语音信息处理方法及终端，其优势在于，本发明能够基于用户需要的功能扩展离线语音控制的功能，精确满足用户需要的需求。
11.本技术的另一个目的在于提供一种语音信息处理方法及终端，其优势在于，本发
明能够通过对话的方式引导用户完成功能扩展，自然又智能。并且，能够引导用户采用自定义话术来实现相关功能，可以解决用户对系统提供的固有话术不习惯，难以记忆的问题。
12.本发明的优势和特点可通过下面的详细说明得以充分体现并可通过所附的示意性实施例得以实现。
13.本发明的一方面提供了一种语音信息处理方法，包括：获取用户的语音数据，所述语音数据表征所述用户希望扩展的功能；输出所述语音数据至云端服务器，以基于云端服务器确定所述语音数据对应的功能；接收所述云端服务器返回的所述语音数据对应的功能；在本地数据库中存储所述语音数据以及所述语音数据对应的功能，以在后续语音交互中，基于所述本地数据库确定语音数据对应的功能。
14.根据本发明的一个实施例，所述获取用户的语音数据进一步包括：响应于接收到所述用户的扩展离线语音控制功能的语音指令，获取所述用户的语音数据。
15.根据本发明的一个实施例，响应于所述语音数据通过对应的文本映射至对应的词条，并通过所述词条对应于功能，所述语音信息处理方法还包括：响应于接收到用户修改映射至目标词条的语音数据的指令，获取所述用户希望映射至所述目标词条的自定义语音数据及对应的文本；在所述本地数据库中存储所述自定义语音数据及对应的文本，以及所述自定义语音数据及对应的文本与所述目标词条之间的映射关系。
16.本发明的另一方面还提供了一种终端，包括收音装置、通讯模块、存储器以及与所述存储器相连接的处理器，其中所述处理器执行存储在所述存储器上的计算机程序时实现：从所述收音装置获取用户的语音数据，所述语音数据表征所述用户希望扩展的功能；基于所述通讯模块输出所述语音数据至云端服务器，以基于云端服务器确定所述语音数据对应的功能；基于所述通讯模块接收所述云端服务器返回的所述语音数据对应的功能；在所述存储器的本地数据库中存储所述语音数据以及所述语音数据对应的功能，以在后续语音交互中，基于所述本地数据库确定语音数据对应的功能。
17.本发明的另一方面还提供了一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如本发明所提供的语音信息处理方法的步骤。
附图说明
18.在结合以下附图阅读本公开的实施例的详细描述之后，能够更好地理解本发明的上述特征和优点。在附图中，各组件不一定是按比例绘制，并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。
19.图1示出了本发明所提供的语音信息处理方法的应用场景。
20.图2示出了本发明所提供的语音信息处理方法一实施例的流程图。
21.图3示出了本发明所提供的语音信息处理方法另一实施例的流程图。
22.图4示出了本发明所提供的语音信息处理方法另一实施例的流程图。
23.图5示出了本发明所提供的终端的结构示意图。
24.附图标记
25.110
ꢀꢀꢀꢀꢀ
车辆；
26.120
ꢀꢀꢀꢀꢀ
用户；
27.130
ꢀꢀꢀꢀꢀ
云端服务器；
28.500
ꢀꢀꢀꢀꢀ
终端；
29.501
ꢀꢀꢀꢀꢀ
存储器；
30.502
ꢀꢀꢀꢀꢀ
处理器；
31.503
ꢀꢀꢀꢀꢀ
总线；
32.504
ꢀꢀꢀꢀꢀ
随机存取存储器；
33.505
ꢀꢀꢀꢀꢀ
高速缓存存储器；
34.506
ꢀꢀꢀꢀꢀ
存储系统；
35.507
ꢀꢀꢀꢀꢀ
程序模块；
36.508
ꢀꢀꢀꢀꢀ
外部设备；
37.509
ꢀꢀꢀꢀꢀ
显示器；
38.510
ꢀꢀꢀꢀ
输入/输出(i/o)接口；
39.511
ꢀꢀꢀꢀꢀ
网络适配器；
40.512
ꢀꢀꢀꢀꢀ
收音装置。
具体实施方式
41.以下结合附图和具体实施例对本发明作详细描述。注意，以下结合附图和具体实施例描述的诸方面仅是示例性的，而不应被理解为对本发明的保护范围进行任何限制。
42.给出以下描述以使得本领域技术人员能够实施和使用本发明并将其结合到具体应用背景中。各种变型、以及在不同应用中的各种使用对于本领域技术人员将是容易显见的，并且本文定义的一般性原理可适用于较宽范围的实施例。由此，本发明并不限于本文中给出的实施例，而是应被授予与本文中公开的原理和新颖性特征相一致的最广义的范围。
43.在以下详细描述中，阐述了许多特定细节以提供对本发明的更透彻理解。然而，对于本领域技术人员显而易见的是，本发明的实践可不必局限于这些具体细节。换言之，公知的结构和器件以框图形式示出而没有详细显示，以避免模糊本发明。
44.请读者注意与本说明书同时提交的且对公众查阅本说明书开放的所有文件及文献，且所有这样的文件及文献的内容以参考方式并入本文。除非另有直接说明，否则本说明书(包含任何所附权利要求、摘要和附图)中所揭示的所有特征皆可由用于达到相同、等效或类似目的的可替代特征来替换。因此，除非另有明确说明，否则所公开的每一个特征仅是一组等效或类似特征的一个示例。
45.注意，在使用到的情况下，标志左、右、前、后、顶、底、正、反、顺时针和逆时针仅仅是出于方便的目的所使用的，而并不暗示任何具体的固定方向。事实上，它们被用于反映对象的各个部分之间的相对位置和/或方向。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。
46.注意，在使用到的情况下，进一步地、较优地、更进一步地和更优地是在前述实施例基础上进行另一实施例阐述的简单起头，该进一步地、较优地、更进一步地或更优地后带的内容与前述实施例的结合作为另一实施例的完整构成。在同一实施例后带的若干个进一步地、较优地、更进一步地或更优地设置之间可任意组合的组成又一实施例。
47.以下结合附图和具体实施例对本发明作详细描述。注意，以下结合附图和具体实
施例描述的诸方面仅是示例性的，而不应被理解为对本发明的保护范围进行任何限制。
48.如上所描述的，为了能够方便地拓展离线语音控制功能，从而有利于人机交互的实现，本发明提供了一种语音信息处理方法及终端。首先，请结合图1来理解本发明所提供的语音信息处理方法及终端的应用场景。
49.如图1所示出的，本发明可以应用在车载场景中，用于改善人车交互。其中，用户120可以与车辆110进行语音交互，以指令车辆110的车载系统实现相关的功能。在具有网络的情况下，车载系统能够与云端服务器130建立通信连接，通过云端服务器130来解析用户120的语音数据，以知悉用户120通过语音指令希望实现的功能。而在本发明中，将利用云端服务器130来实现离线语音控制功能的扩展，从而能够在不具备网络的情况下，即无法与云端服务器130建立通信连接的时候，能够通过车辆100的车载系统实现语音控制功能。
50.首先，本领域技术人员应当知道，本发明中所描述的车载系统是指，通过前期嵌入式安装或后期加装在车辆上的操作系统，能够实现对车辆的控制、车辆状态数据的反馈、导航功能、娱乐影音功能、现有或将有的可能搭载在车辆上实现的功能中的一者或多者，从而能够有效地提升车辆的电子化、网络化和智能化水平。例如，现有技术中的车载信息娱乐系统(ivi，in-vehicle infotainment)，可以理解的是，上述关于车载系统的举例仅为示意性，不应不当地限制本发明的保护范围。
51.各辆车的车载系统被配置为可以实现本发明的一方面所提供的语音信息处理方法。如图2所示出的，本发明的一方面所提供的语音信息处理方法包括以下步骤：
52.步骤s210：获取用户的语音数据；
53.步骤s220：输出语音数据至云端服务器；
54.步骤s230：接收云端服务器返回的语音数据对应的功能；以及
55.步骤s240：在本地数据库中存储语音数据以及语音数据对应的功能。
56.在上述的步骤s210中，用户的语音数据可以通过现有或将有的收音装置来获取。语音数据指向的是一段承载有用户语音的音频数据段，或者也可以认为是语音信号。对于本发明来说，语音数据表征用户希望扩展的功能，例如：打开空调、我想听
×××
的歌等。
57.更进一步的，请结合图3来理解本发明的另一实施例所提供的语音信息处理方法。在如图3所示出的实施例中，可以看到，需要先响应于步骤s310，即响应于接收到用户语音输入的更新(扩展)离线语音控制功能的指令后，才会在步骤s330中获取用户语音输入的语音数据(即图2中的步骤s210)。
58.并且，从图3所示出的实施例中可以看出，响应于步骤s310后，本发明所提供的语音信息处理方法还执行步骤s320：输出语音交互信息，引导用户语音输出相关语音数据。
59.在上述的实施例中，可以通过tts模块(text to speech)用来把文本形式的交互信息通过人声播报出来，以实现人机交互。本领域技术人员还可以通过现有或将有的其他人机交互技术来实现将文本形式的交互内容通过语音输出，从而能够引导用户语音输出语音数据。
60.在获取得到用户的语音数据后，在执行步骤s220之前，即输出语音数据至云端服务器之前，在一优选的实施例中，本发明所提供的语音信息处理方法还包括：判断能否基于本地数据库确定语音数据对应的功能；以及响应于无法基于本地数据库确定语音数据对应的功能，输出语音数据至云端服务器
61.由于本发明是为了扩展离线语音控制功能，如果在本地数据库中已经存在相关语音控制功能的指令，那么不需要将指令对应的语音数据上传至云端。因此，在优选的实施例中，需要先行判断语音数据对应的功能是否已经存在于本地数据库，从而能够降低与云端进行交互而产生的数据流量。
62.在上述的实施例中，判断能否基于本地数据库确定语音数据对应的功能可以进一步包括：识别语音数据，以将语音数据转化为文本，随后对文本进行解析。若能够通过本地数据库解析得到语音数据对应的文本对应的功能，则认为不需要再将语音数据上传至云端。
63.本领域技术人员可以通过自动语音识别模块(asr模块，automatic speech recognition)将承载有用户语音的语音数据转化为文本。随后基于本地数据库对文本进行解析。
64.若无法通过本地数据库解析得到文本对应的功能，或者无法通过本地的自动语音识别模块(asr模块)将承载有用户语音的语音数据转化为文本，则认为需要将语音数据上传至云端，即执行步骤s220，以通过云端来扩展该语音数据对应的离线语音控制的功能。
65.在一实施例中，若已经能够通过本地的自动语音识别模块将语音数据转化为文本，则可以直接将文本上传至云端，以减轻云端的工作量。在另一实施例中，可以直接将语音数据上传至云端，即通过云端来将语音数据转化为文字，从而能够更精确地还原语音数据所对应的功能，避免本地数据库在将语音数据转化为文本时出现错误。
66.在本发明中，需要云端服务器来提供相应的云端语音服务，主要用于识别用户的语音数据，将语音数据对应的功能返回至本地的车载系统。云端语音服务的实现亦离不开自动语音识别模块(asr模块，automatic speech recognition)。云端的自动语音识别模块(asr模块，automatic speech recognition)的范围要大于本地数据库中的自动语音识别模块(asr模块，automatic speech recognition)的范围。
67.现有的语音识别技术中，在通过自动语音识别模块将语音数据转化为文本后，需要对文本的含义进行识别，从而能够识别出用户的语音数据所对应的功能。
68.现有技术中，一方面，语音数据是通过文字对应于词条再对应于功能的，从而能够通过词条识别出语音数据对应的功能。例如，词条库中存储有“打开空调”的a词条，而语音数据所转化成的文字如果正好是“打开空调”，则认为能够与a词条对应上。而a词条还有预先设置好的需要被执行的功能，而这些功能可以是通过一串车载系统的处理器能够读懂的控制指令数据来表现的，也就是说，对应的功能可能是一个字符串或者url，该字符串或者url是车载系统可以理解的一个功能。另一方面语音数据是通过文字对应于语义再对应于功能的，从而能够通过语义识别出语音数据对应的功能。而对于语义来说，对应于同一个功能的语义信息可能具有多个话术文本，仍以用户想要指令车载系统打开空调的意图为例，可以认为该语义信息为“打开空调”，除了完全匹配的文字“打开空调”外，可以认为话术文本“开空调”、“把空调打开”、“帮我开空调”等与该语义信息对应，从而能够对应到语义信息“打开空调”所对应的功能。类似的，这些功能可以是通过一串车载系统的处理器能够读懂的控制指令数据来表现的，也就是说，对应的功能可能是一个字符串或者url，该字符串或者url是车载系统可以理解的一个功能。
69.若能够在云端服务器识别出用户的语音数据对应的功能，如图2所示出的，本发明
所提供的语音信息处理方法进一步包括步骤s230：接收云端服务器反馈的语音数据对应的功能；以及步骤s240：在本地数据库中存储语音数据以及语音数据对应的功能。从而能够在后续语音交互中，基于本地数据库确定语音数据对应的功能，可以在实现相同的语音功能的情况下降低对数据网络的需求，以提高用户的体验度。
70.如上所描述的，由于在云端服务器可能通过词条或者语义对应于功能，对于不同的情况，在步骤s230中所接收到的语音数据及其对应的功能也有所区别，进一步的，步骤s240中所存储到本地数据库中的对象也有所区别。
71.具体的，若在云端服务器确定语音数据通过词条对应于功能，接收云端服务器返回的语音数据对应的功能进一步包括：接收云端服务器返回的语音数据对应的词条以及词条对应的功能。在本地数据库中存储语音数据以及语音数据对应的功能进一步包括：在本地数据库中存储语音数据、语音数据对应的词条以及词条对应的功能。
72.若在云端服务器确定语音数据通过语义对应于功能，接收云端服务器返回的语音数据对应的功能进一步包括：接收云端服务器返回的语音数据对应的语义、映射至语义的多个文本以及语义对应的功能。在本地数据库中存储语音数据以及语音数据对应的功能进一步包括：在本地数据库中存储语音数据、语音数据对应的语义、映射至语义的多个文本以及语义对应的功能。
73.在一优选的实施例中，如图3所示出的，对应于步骤s230，若能够在云端服务器识别出用户的语音数据所对应的功能，除了如步骤s230所描述的接收语音数据及其对应的功能外，在步骤s340中，还会播放该语音数据对应的功能，并在步骤s350中询问用户是否确认更新离线语音控制功能。也就是说，在如图3所示出的优选实施例中，会通过语音交互的方式，向用户确认，在云端服务器所识别的功能是否与用户所预期的相一致，从而能够确认是否需要将语音数据及其对应的功能保存在本地数据库(对应步骤s240)，以实现离线语音控制功能的更新。
74.如上所描述的，由于在云端服务器可能通过词条或者语义对应于功能，因此，对于不同的情况，在最终实施步骤s240时，本发明所提供的语音信息处理方法提供了不同的处理方式。
75.请结合图3，如前所描述的，响应于用户在步骤s350的回答中确认不更新离线语音控制功能，则说明云端服务器所返回的功能可能与用户预期的不同，或者有其他用户不再希望更新离线语音控制功能的情况出现，在这种情况下，结束本发明所提供的语音信息处理方法。
76.在如图3示出的优选的实施例中，响应于用户在步骤s350中确认需要更新离线语音控制功能，并且，在云端服务器确定所述语音数据通过词条对应于功能，在本地数据库中存储语音数据、语音数据对应的词条以及词条对应的功能还进一步包括，执行步骤s360：输出语音交互信息询问用户是否自定义语音数据。
77.响应于用户需要自定义语音数据，执行步骤s361：获取用户语音数据的自定义语音数据；步骤s362：保存自定义语音数据及其对应的文本、功能，以实现步骤s380：完成离线语音控制功能的更新。响应于用户不需要自定义语音数据，执行步骤s363：保存语音数据及其对应的功能，以实现步骤s380：完成离线语音控制功能的更新。
78.可以理解的是，若语音数据通过文本对应于词条再对应于功能，由于文本与词条
之间具有一一对应的关系，因此，若一些词条的话术文本并不符合用户的惯常用语，会给用户使用语音控制带来困难。例如，若标准的词条的话术文本为“打开空调”，若用户的惯常用户为“开空调”，则会因为话术文本无法完全匹配而导致相应的功能无法被实现。因此，在本发明所提供的语音信息处理方法中，若确定语音数据是通过词条对应到功能的，会主动询问用户是否需要自定义映射至词条的话术文本，从而能够方便用户后续的使用。
79.响应于用户在步骤s350中确认需要更新离线语音控制功能，并且，在云端服务器确定语音数据通过语义对应于功能，则直接执行步骤s370：在本地数据库中存储语音数据、语音数据对应的语义、映射至语义的多个文本以及语义对应的功能，以实现步骤s380：完成离线语音控制功能的更新。由于语音数据通过语义对应于功能，同一个语义具有多个对应的话术文本，在这种情况下，能够兼顾各位用户的惯常用语，因此，不再需要自定义语音数据。
80.至此，已经描述了本发明所提供的语音信息处理方法中关于用户扩展离线语音控制功能的具体实现方式。根据本发明的所提供的语音信息处理方法的另一方面，响应于语音数据通过对应的文本映射至对应的词条，并通过词条对应于功能，本发明所提供的语音信息处理方法的另一方面还包括：响应于接收到用户修改映射至目标词条的语音数据的指令，获取用户希望映射至目标词条的自定义语音数据及对应的文本；在本地数据库中存储自定义语音数据及对应的文本，以及自定义语音数据及对应的文本与目标词条之间的映射关系。
81.换句话说，在通过词条对应与功能的场景下，本发明所提供的语音信息处理方法提供了给予用户修改文本话术的机会，从而能够便于用户通过自己惯常用语来进行语音控制。
82.请参考图4来理解这部分修改文本话术的语音信息处理方法的流程图。如图4所示出的，首先，响应于在步骤s410中接收到用户通过语音输入“自定义词条”的语音数据，开始整个修改文本话术的流程。
83.可以理解的是，此处的“自定义词条”中的自定义应当被认为是一个动词。或者在一些其他的实施例中，可以修改触发修改文本话术流程的关键词，即可以将“自定义词条”修改为“修改词条话术”等。
84.在步骤s420中，如前文所描述的，作为优选的实施例，本发明会通过语音交互的方式，来引导用户完成想要完成的功能，即，步骤s420中输出语音交互信息，引导用户语音输出需要自定义的词条。
85.随后在步骤s430中获取用户语音输入的词条。需要注意的是，此处用户语音输入的词条应广义地理解为未修改前映射至需要修改的目标词条的语音数据。
86.虽然用户语音输入了目标词条，本发明所提供的语音信息处理方法需要执行步骤s440，判断是否存在目标词条。若并不存在用户希望自定义话术的词条，则执行步骤s460输出语音交互信息，告知用户词条不存在。并可以重新执行步骤s420，以引导用户自定义词条。
87.需要注意的而是，在上述的步骤s440中，可以仅以本地数据库为依据，来判断是否存在目标词条。在另一些实施例中，还可以以本地数据库+云端服务器的数据库为依据，来判断是否存在目标词条。也就是说，虽然本发明所提供的语音信息处理方法主要用于扩展
离线语音控制功能，但还一并提供了词条话术文本的修改功能，并且该词条话术文本的修改功能可以不局限于离线，从而能够方便用户以其惯常用语来实现离线/在线语音控制功能。
88.响应于在步骤s440中判断出在本地数据库和/或云端服务器的数据库中存在有词条，执行步骤s450：输出语音交互信息，引导用户语音输出自定义语音数据，即通过语音形式的人机交互来告知用户可以说出对应于自己的惯常用语作为自定义语音数据了，以便在步骤s451中，获取用户语音输入的自定义语音数据。此处的自定义语音数据指向的是用户希望映射到目标词条的的惯常用语的话术文本。随后，在步骤s452中，保存自定义语音数据及其与目标词条之间的映射关系，从而能够通过词条对应到相应的功能。
89.在本发明所提供的语音信息处理方法的再一方面，本发明所提供的语音信息处理方法还包括：响应于接收到用户的控制指令的语音数据，基于本地数据库确定控制指令的语音数据对应的目标功能；以及执行基于所述本地数据库确定的目标功能。也就是说，在经过了本发明所提供的语音信息处理方法之后，离线数据库中所存储的词条和/或语义及其对应的功能已经根据用户的需要被拓展，因此，用户能够在此情况下，脱离于网络数据，在离线的情况下，即可以实现语音控制功能。
90.至此，已经描述了本发明所提供的语音信息处理方法的实施方式，根据上述描述可以知道，本发明所提供的语音信息处理方法通过在线语音功能方便地拓展了离线语音控制功能，从而有利于人机交互的实现。并且本发明在扩展离线语音控制功能时，无需要对整个操作系统进行升级，能够避免由此带来的升级失败、安全性等方面的问题。能够基于用户需要的功能扩展离线语音控制的功能，精确满足用户需要的需求。能够通过对话的方式引导用户完成功能扩展，自然又智能。并且，能够引导用户采用自定义话术来实现相关功能，可以解决用户对系统提供的固有话术不习惯，难以记忆的问题。
91.本发明的另一方面还提供了一种终端，包括收音装置、通讯模块、存储器以及与所述存储器相连接的处理器，其中所述处理器执行存储在所述存储器上的计算机程序时实现：从所述收音装置获取用户的语音数据，所述语音数据表征所述用户希望扩展的功能；基于所述通讯模块输出所述语音数据至云端服务器，以基于云端服务器确定所述语音数据对应的功能；基于所述通讯模块接收所述云端服务器返回的所述语音数据对应的功能；在所述存储器的本地数据库中存储所述语音数据以及所述语音数据对应的功能，以在后续语音交互中，基于所述本地数据库确定语音数据对应的功能。
92.请参考图5来理解本发明的另一方面所提供的终端。图5示出了本发明所提供的终端500的一种实施方式。如图5所示，本实施例中，终端500以通用的计算机设备的形式表现，用于实现上述任意一种实施例所描述的语音信息处理方法的步骤。具体请详见上文关于语音信息处理方法的描述，在此不再赘述。
93.该终端500的组件可以包括一个或者多个存储器501，一个或多个处理器502，以及连接不同系统组件(包括存储器501和处理器502)的总线503。
94.总线503包括数据总线、地址总线以及控制总线。数据总线的位数与工作频率的乘积正比于数据传输率，地址总线的位数决定了可寻址的最大内存空间，控制总线(读/写)指出总线周期的类型和本次输入/输出操作完成的时刻。处理器502通过总线503连接存储器501，并配置用于实施上述任意一个实施例所提供的语音信息处理方法。
95.处理器502作为终端500的运算和控制核心，是信息处理、程序运行的最终执行单元。计算机系统中所有软件层的操作，最终都将通过指令集映射为处理器502的操作。处理器502的功效主要为处理指令、执行操作、控制时间、处理数据。
96.存储器501是指计算机中由存放程序和数据的各种存储设备。存储器501可以包括存储易失性存储器形式的计算机系统可读介质。例如随机存取存储器(ram)504和/或高速缓存存储器505。
97.随机存取存储器(ram)504是与处理器502直接交换数据的内部存储器。它可以随时读写(刷新时除外)，而且速度很快，通常作为操作系统或其他正在运行中的程序的临时数据存储介质，一旦断电其中所存储的数据将随之丢失。高速缓存存储器(cache)505是存在于主存与处理器502之间的一级存储器，其容量比较小但速度比主存高得多，接近于处理器502的速度。
98.需要注意的是，在终端500包括多个存储器501和多个处理器502的情况下，多个存储器501之间和多个处理器502之间都可以具有分布式的结构。上述的存储器501均指向离线时使用的本地数据库。可以通过网络适配器511与作为外部设备508的云端服务器进行通讯，从而对本地数据库进行扩展。
99.终端500还可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。本实施例中，存储系统506可以用于读写不可移动的、非易失性磁介质。
100.存储器501还可以包括至少一组程序模块507。程序模块507可以存储在存储器501中。程序模块507包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块507通常执行本发明所描述的实施例中的功能和/或方法。
101.终端500也可以与一个或多个外部设备508通信。本实施例中的外部设备508可以包括云端服务器，从而能够通过云端服务器来扩展本地数据库中的离线语音控制功能。外部设备508还可以包括扩音装置，从而能够通过扩音装置来播放相关的语音交互信息来引导用户输出对应的语音数据。
102.终端500还包括收音装置512，从而能够在用户输出对应的语音数据时进行语音数据的收集，以为本发明所提供的语音信息处理方法的实现提供可能。
103.终端500也可与一个或者多个使得用户能与该终端500交互的设备通信，和/或与使得该终端500能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口510进行。
104.显示器509亦可以看成是一种外部设备。终端500可以通过输入/输出(i/o)接口510与显示器509通信连接，从而可以作为语音交互的辅助，即可以显示相关的交互信息，来辅助用户扩展离线语音控制功能的数据库。
105.终端500还可以通过网络适配器511与一个或者多个网络(例如局域网(lan)，广域网(wan)和/或公共网络，如因特网)通信。如图5所示，网络适配器511通过总线503与终端500的其它模块通信。应当明白，尽管图中未示出，可以结合终端500使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
106.本发明的再一方面还提供了一种计算机可读存储介质，存储有计算机程序，所述
计算机程序被处理器执行时实现如上文所描述的语音信息处理方法的步骤，在此不再赘述。
107.至此已经描述了本发明所提供的语音信息处理方法及终端的具体实现方式。本发明通过在线语音功能方便地拓展了离线语音控制功能，从而有利于人机交互的实现。并且本发明在扩展离线语音控制功能时，无需要对整个操作系统进行升级，能够避免由此带来的升级失败、安全性等方面的问题。能够基于用户需要的功能扩展离线语音控制的功能，精确满足用户需要的需求。能够通过对话的方式引导用户完成功能扩展，自然又智能。并且，能够引导用户采用自定义话术来实现相关功能，可以解决用户对系统提供的固有话术不习惯，难以记忆的问题。
108.结合本文所公开的实施例描述的各种解说性逻辑模块、和电路可用通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器，但在替换方案中，该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合，例如dsp与微处理器的组合、多个微处理器、与dsp核心协作的一个或多个微处理器、或任何其他此类配置。
109.结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在ram存储器、闪存、rom存储器、eprom存储器、eeprom存储器、寄存器、硬盘、可移动盘、cd-rom、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中，存储介质可以被整合到处理器。处理器和存储介质可驻留在asic中。asic可驻留在用户终端中。在替换方案中，处理器和存储介质可作为分立组件驻留在用户终端中。
110.在一个或多个示例性实施例中，所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品，则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者，其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定，这样的计算机可读介质可包括ram、rom、eeprom、cd-rom或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如，如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(dsl)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来，则该同轴电缆、光纤电缆、双绞线、dsl、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(cd)、激光碟、光碟、数字多用碟(dvd)、软盘和蓝光碟，其中盘(disk)往往以磁的方式再现数据，而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。
111.提供之前的描述是为了使本领域中的任何技术人员均能够实践本文中所描述的各种方面。但是应该理解，本发明的保护范围应当以所附权利要求书为准，而不应被限定于
以上所解说实施例的具体结构和组件。本领域技术人员在本发明的精神和范围内，可以对各实施例进行各种变动和修改，这些变动和修改也落在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：周力为田发景
技术所有人：上海擎感智能科技有限公司
我是此专利的发明人

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！