基于语音识别的语音交互控制方法、终端设备及存储介质与流程

文档序号：31050656发布日期：2022-08-06 07:03阅读：99来源：国知局

1.本发明涉及语音交互控制技术领域，尤其涉及一种基于语音识别的语音交互控制方法、终端设备及存储介质。

背景技术：

2.随着以无限屏为代表的新一代智能电视的普及，语音交互已经成为当前智能电视的标配，当前智能电视的语音交互在体验上已经处于一种停滞状态。目前智能电视的语音交互的搜索范围有限，并且交互是单应用单窗口的，语音交互时的搜索内容都呈现在一个窗口内，给用户的使用带来了不便。
3.因此，现有技术还有待改进和提高。

技术实现要素：

4.本发明要解决的技术问题在于，针对现有技术的上述缺陷，提供一种基于语音识别的语音交互控制方法、终端设备及存储介质，旨在解决现有技术中语音交互的搜索范围有限，且，语音交互时的搜索内容都呈现在一个窗口内，给用户的使用带来了不便的问题。
5.为了解决上述技术问题，本发明所采用的技术方案如下：
6.第一方面，本发明提供一种基于语音识别的语音交互控制方法，其中，方法包括：
7.获取语音信息，并对所述语音信息进行语音识别，确定所述语音信息所对应的意图信息；
8.根据所述意图信息，确定与所述意图信息所对应的精准结果和/或与所述意图信息所对应的关联结果；
9.根据所述精准结果和/或所述关联结果，分别生成对应控制指令，并根据所述控制指令将所述精准结果和/或所述关联结果进行分类显示。
10.在一种实现方式中，所述对所述语音信息进行语音识别，确定所述语音信息所对应的意图信息，包括：
11.将所述语音信息转化成文字信息；
12.对所述文字信息进行语义识别，确定所述文字信息所对应的所述意图信息。
13.在一种实现方式中，所述根据所述意图信息，确定与所述意图信息所对应的精准结果和/或与所述意图信息所对应的关联结果，包括：
14.根据所述意图信息，从预设的资源库中调取与所述意图信息所对应的资源数据；
15.若所述资源数据唯一，则确定所述意图信息为精准意图，并从所述资源库中获取所述意图信息所对应的精准结果。
16.在一种实现方式中，所述根据所述意图信息，确定与所述意图信息所对应的精准结果和/或与所述意图信息所对应的关联结果，还包括：
17.若所述意图信息为精准意图，则获取所述意图信息的关联结果。
18.在一种实现方式中，所述根据所述意图信息，确定与所述意图信息所对应的精准
结果和/或与所述意图信息所对应的关联结果，包括：
19.若所述资源数据不唯一，则确定所述意图信息为模糊意图，并从所述资源库中获取所述意图信息所对应的关联结果。
20.在一种实现方式中，所述从所述资源库中获取所述意图信息所对应的关联结果，包括：
21.获取所述意图信息所对应的文字内容中的关键词信息；
22.基于所述关键词信息与预先建立的关联关系，从所述资源库中获取与所述关键词信息所对应的关联结果，其中，所述关联关系为预先按照用户习惯或者用户喜好所构建的关键词信息与资源数据之间的对应关系。
23.在一种实现方式中，所述根据所述控制指令将所述精准结果和/或所述关联结果进行分类显示，包括：
24.根据所述控制指令，调取与所述精准结果和/或所述关联结果对应的资源数据，并确定所述资源数据的数量；
25.根据所述资源数据的数量，确定拼窗组合；
26.将所述资源数据进行分类，并按照所述资源数据的类别将所述资源数据分别在所述拼窗组合所对应窗口中显示，所述资源数据包括文本内容或者应用程序。
27.第二方面，本发明实施例还提供一种基于语音识别的语音交互控制装置，其中，所述装置包括：
28.意图确定模块，用于获取语音信息，并对所述语音信息进行语音识别，确定所述语音信息所对应的意图信息；
29.结果确定模块，用于根据所述意图信息，确定与所述意图信息所对应的精准结果和/或与所述意图信息所对应的关联结果；
30.交互控制模块，用于根据所述精准结果和/或所述关联结果，分别生成对应控制指令，并根据所述控制指令将所述精准结果和/或所述关联结果进行分类显示。
31.第三方面，本发明实施例还提供一种终端设备，终端设备包括存储器、处理器及存储在存储器中并可在处理器上运行的基于语音识别的语音交互控制程序，处理器执行基于语音识别的语音交互控制程序时，实现如上述方案中任一项的基于语音识别的语音交互控制方法的步骤。
32.第四方面，本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有基于语音识别的语音交互控制程序，基于语音识别的语音交互控制程序被处理器执行时，实现如上述方案中任一项的基于语音识别的语音交互控制方法的步骤。
33.有益效果：与现有技术相比，本发明提供了一种基于语音识别的语音交互控制方法，本发明首先获取语音信息，并对所述语音信息进行语音识别，确定所述语音信息所对应的意图信息。然后根据所述意图信息，确定与所述意图信息所对应的精准结果和/或与所述意图信息所对应的关联结果。最后，根据所述精准结果和/或所述关联结果，分别生成对应控制指令，并根据所述控制指令将所述精准结果和/或所述关联结果进行分类显示。由此可见，本发明中在确定语音信息的意图信息后，会直接根据意图信息来确定精准结果和/或关联结果，关联结果反映的与意图信息有关联的结果，这样就扩大了语音交互的搜索范围。并且，本发明还将精准结果和/或所述关联结果进行分类显示，相对于传统的单窗口显示，本
发明可更清晰对结果进行展示，给用户的使用提供方便。
附图说明
34.图1为本发明实施例提供的基于语音识别的语音交互控制方法的具体实施方式的流程图。
35.图2为本发明实施例提供的基于语音识别的语音交互控制方法中拼窗组合的形式示意图。
36.图3为本发明实施例提供的基于语音识别的语音交互控制装置的原理框图。
37.图4为本发明实施例提供的终端设备的原理框图。
具体实施方式
38.为使本发明的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。
39.本实施例提供一种基于语音识别的语音交互控制方法，基于本实施例的方法可扩大语音交互的搜索范围，且将搜索到的结果进行分类显示，给用户的使用提供了方便。具体实施时，本实施例首先获取语音信息，并对所述语音信息进行语音识别，确定所述语音信息所对应的意图信息。然后根据所述意图信息，确定与所述意图信息所对应的精准结果和/或与所述意图信息所对应的关联结果；最后，根据所述精准结果和/或所述关联结果，分别生成对应控制指令，并根据所述控制指令将所述精准结果和/或所述关联结果进行分类显示。由此可见，本实施例中在确定语音信息的意图信息后，会直接根据意图信息来确定精准结果和/或关联结果，关联结果反映的与意图信息有关联的结果，这样就扩大了语音交互的搜索范围。并且，本发明还将精准结果和/或所述关联结果进行分类显示，相对于传统的单窗口显示，本实施例可更清晰对结果进行展示，给用户的使用提供方便。
40.举例说明，智能电视接收用户输出的语音信息：今天深圳天气怎么样，然后对该语音信息进行识别，即可确定出此时该语音信息对应的意图信息，意图信息即表示用户此刻想了解深圳今天的天气。当智能电视确定出意图信息后，可根据该意图信息进行搜索，确定出对应的精准结果和/或关联结果，比如，精准结果为深圳天气，关联结果为深圳旅游景点。当确定出精准结果和/或关联结果后，智能电视就可以将精准结果和关联结果进行分类显示，方便用户及时了解想知道的信息，给用户的使用提供了方便。
41.示例性方法
42.本实施例中的基于语音识别的语音交互控制方法可应用于终端设备中，所述终端设备为智能电视、电脑等大屏设备。具体地，如图1中所示，所述基于语音识别的语音交互控制方法包括如下步骤：
43.步骤s100、获取语音信息，并对所述语音信息进行语音识别，确定所述语音信息所对应的意图信息。
44.本实施例的终端设备首先获取语音信息，该语音信息可为用户说的话语。终端设备中可设置有语音采集装置，比如麦克风，基于该麦克风可获取到语音信息。或者，本实施例还可以通过语音遥控器采集语音信息，然后将语音信息发送至终端设备中，所述终端设
备在接收到该语音信息后就会对该语音信息进行语音识别，从而确定所述语音信息所对应的意图信息。所述意图信息反映的是用户想要执行的操作。比如，用户输出的语音信息为：今天深圳天气怎么样，则意图信息为用户想要了解深圳今天的天气。
45.在一种实现方式中，本实施例在确定意图信息是包括：
46.步骤s101、将所述语音信息转化成文字信息；
47.步骤s102、对所述文字信息进行语义识别，确定所述文字信息所对应的所述意图信息。
48.具体地，本实施例的终端设备在采集语音信息后，对该语音信息进行识别，将语音信息转换成文本信息，从而确定该语音信息所对应的文字信息。如用户输出的语音信息为一句话：今天深圳的天气怎么样，该语音信息所对应的文字信息也就是：今天深圳的天气怎么样。当识别出语音信息对应的文字信息后，本实施例可根据该文字信息确定出对应的意图信息。在本实施例中意图信息指的是该语音信息所表达的含义，即反映的是用户想要执行的操作，比如上述识别出的文字信息为：今天深圳的天气怎么样，那反映出的意图信息为用户想要知晓今天深圳的天气情况。具体应用时，本实施例可基于语义识别的方式来对文字信息进行识别，从而确定出意图信息，具体可通过拆分文字信息的方式，得到若干分词，然后分别对这些分词进行语义识别，得到每一个分词的语义，然后再通过对每一个分词的语义进行汇总，归纳出整个文字信息所对应的意图信息。
49.步骤s200、根据所述意图信息，确定与所述意图信息所对应的精准结果和/或与所述意图信息所对应的关联结果。
50.当得到意图信息后，本实施例的终端设备可根据该意图信息进行分析，确定出该意图信息所对应的精准结果和/或关联结果。在本实施例中精准结果反映的是该意图信息明确指向的对象，而所述关联结果反映的是与意图信息存在一定关联性的对象。
51.在一种实现方式中，本实施例在确定精准结果时的步骤包括：
52.步骤s201、根据所述意图信息，从预设的资源库中调取与所述意图信息所对应的资源数据；
53.步骤s202、若所述资源数据唯一，则确定所述意图信息为精准意图，并从所述资源库中获取所述意图信息所对应的精准结果。
54.具体地，本实施例的终端设备在得到意图信息后，对该意图信息进行分析，并将意图信息与资源库进行匹配，基于该意图信息在预设的资源库中调取对应的资源数据。本实施例中的资源库包括本地数据库与云端数据库，该资源库可与影视的媒资库、地图的导航库、旅游软件的景点数据库等的接口通过推荐算法建立关联，因此该资源库中的资源数据包括文本内容、应用程序或者网页内容。比如，意图信息为：用户想了解深圳天气，则就可以在资源库中搜索与天气有关的应用程序或者网页内容。而当资源库中与意图信息对应的资源数据是唯一的，则就可以确定此时的意图信息为精准意图，该精准意图则就是表示用户真正想要执行相关操作的对象是与意图信息唯一匹配的资源数据，因此终端设备就可以从所述资源库中获取唯一匹配的资源数据，并将该唯一匹配的资源数据作为精准结果。比如，当在资源库中搜索与意图信息(用户想了解深圳天气)匹配到的资源数据为墨迹天气，并且该资源数据是唯一的，这样终端设备在接收到资源数据后，终端设备就会直接获取墨迹天气作为精准结果。
55.在另一种实现方式中，为了加大语音交互搜索的范围，本实施例的终端设备在确定意图信息为精准意图后，可根据预设关联关系，从资源库中搜索出与意图信息对应的关联结果。具体地，本实施例预先构建关联关系，该关联关系可为意图信息对应的文字信息中的关键词信息与资源库中的资源数据之间的对应关系。因此终端设备可首先从意图信息对应的文字信息中提取关键词信息，然后根据该关键词信息以及预设的关联关系，确定关键词信息对应的资源数据，这些资源数据就包括了关联结果。比如，当关键词信息为：天气和深圳时，则就可以从资源库中查找到与天气对应的资源数据为墨迹天气、与深圳对应的文本内容为“深圳旅游推荐”，而墨迹天气是直接与意图信息进行对应的，是属于精准结果，是直接匹配出的。“深圳旅游推荐”的文本内容是与意图信息(用户想了解深圳天气)存在关联的，因此“深圳旅游推荐”的文本内容为关联结果。本实施例中，关联结果是与意图信息属于关联领域的推荐数据。
56.在本实施例中，所述关联关系可基于用户喜好或者用户习惯来构建，比如，上述举例中，当意图信息对应的文字信息中存在关键词信息为天气时，根据用户在过去的预设时间段的搜索习惯：用户一般搜索完天气情况后，还会继续搜索当地的游玩景点。基于此，本实施例就可以构建天气与游玩景点之间的关联关系，这样当关键词信息为天气时，就可以从资源库中调取游玩景点内容有关的文本内容作为关联信息。
57.而由于资源数据众多，当将意图信息与资源库进行匹配时，可能会出现与该意图信息对应的多个资源数据，此时资源数据并不唯一，此时可以确定该意图信息为模糊意图。在另一种情况中，当意图信息与资源库进行匹配时，无法从资源库中匹配出对应的资源数据，说明该资源库中不存在与该意图信息对应的精准结果，此时也可以确定意图信息为模糊意图。而当意图信息为模糊意图时，终端设备同样可以根据上述关联关系，从资源库中搜索出与意图信息对应的关联结果。比如，用户发出的语音信息为：我想看刘德华的电影，对应的意图信息为用户想要看刘德华的电影。而刘德华的电影类型有很多，因此此时基于意图信息去资源库中匹配出的资源数据非常多，此时就可以确定意图信息为模糊意图。但是终端设备可根据关联关系来确定关联结果。终端设备确定出的关键词信息为：刘德华、电影，而关联关系又是基于用户喜好设置的，比如用户喜欢看刘德华主演的警匪片以及喜剧片，因此就可以从资源库中匹配出刘德华主演的警匪片以及喜剧片的资源数据，并将这些资源数据作为关联结果。
58.步骤s300、根据所述精准结果和/或所述关联结果，分别生成对应控制指令，并根据所述控制指令将所述精准结果和/或所述关联结果进行分类显示。
59.当终端设备得到所述精准结果和/或关联结果后，本实施例可根据所述精准结果和/或所述关联结果，分别生成对应控制指令。所述控制指令用于执行与所述精准结果和/或关联结果对应的对象，以满足用户需求需求。在实施例中，终端设备可将所述精准结果和/或关联结果进行分类显示，分类显示可使得显示的内容更为清晰，让用户一目了然，且也有助于多窗口显示，给用户的使用提供了方便。
60.在一种实现方式中，本实施例在对精准结果和/或所述关联结果进行分类显示时，包括如下步骤：
61.步骤s301、根据所述控制指令，调取与所述精准结果和/或所述关联结果对应的资源数据，并确定所述资源数据的数量；
62.步骤s302、根据所述资源数据的数量，确定拼窗组合；
63.步骤s303、将所述资源数据进行分类，并按照所述资源数据的类别将所述资源数据分别在所述拼窗组合所对应窗口中显示，所述资源数据包括文本内容或者应用程序。
64.具体地，终端设备首先调取与所述精准结果和/或所述关联结果对应的资源数据，比如，调取墨迹空气或者“深圳旅游推荐”的文本内容。然后终端设备确定所述资源数据的数量；根据所述资源数据的数量，确定拼窗组合，拼窗组合中设置有多个窗口，每一个窗口都可显示不同的内容。因此，本实施例可将获取到的资源数据进行分类，并按照所述资源数据的类别将所述资源数据分别在所述拼窗组合所对应窗口中显示，所述资源数据包括文本内容或者应用程序。比如，如图2中所示，图2为拼窗组合的形式，窗口1为墨迹空气所推荐的今天深圳天气的返回结果，窗口2为深圳旅游推荐，窗口3为深圳交通出行提醒。可见，本实施例可将与所述精准结果和/或所述关联结果对应的资源数据都进行分类后分别显示在不同窗口，不但拓展了语音交互的场景，而且还给用户的使用提供了便利。
65.在一种实现方式中，当将资源数据显示在对应窗口后，本实施例可将该窗口进行订阅，如图2中窗口3为已订阅，订阅后的窗口在后续检测到有相同意图信息对应的语音信息后，可优先显示，方便用户使用。此外，本实施例还可对某个窗口进行锁定或者全屏显示，如图2中窗口3右上角设置有锁定按键，这样即便用户输入其他语音信息也不会影响该窗口上显示的内容。比如，窗口3中正在播放电影，此时对窗口3进行锁定，当用户输入其他语音信息，终端设备对新输入的语音信息进行分析，确定新的意图信息以及新的资源数据，并对新的资源数据进行显示，但是并不会对窗口3中正在播放的电影产生任何的影响，方便用户使用。当将资源数据显示在对应窗口后，本实施例可将此时的拼窗组合与当前的语音信息进行绑定，并保存在历史记录中，这样当用户输入相同的语音信息，可直接调取对应的拼窗组合进行显示，实现快速且高效的语音交互，给用户的使用提供了方便。
66.综上，本实施例首先获取语音信息，并对所述语音信息进行语音识别，确定所述语音信息所对应的意图信息。然后根据所述意图信息，确定与所述意图信息所对应的精准结果和/或与所述意图信息所对应的关联结果。最后，根据所述精准结果和/或所述关联结果，分别生成对应控制指令，并根据所述控制指令将所述精准结果和/或所述关联结果进行分类显示。由此可见，本实施例中在确定语音信息的意图信息后，会直接根据意图信息来确定精准结果和/或关联结果，关联结果反映的与意图信息有关联的结果，这样就扩大了语音交互的搜索范围。并且，本实施例还将精准结果和/或所述关联结果进行分类显示，相对于传统的单窗口显示，本发明可更清晰对结果进行展示，给用户的使用提供方便。
67.示例性装置
68.基于上述实施例，本发明还提供一种基于语音识别的语音交互控制装置，如图3中所示，所述装置包括：意图确定模块10、结果确定模块20以及交互控制模块30。具体地，所述意图确定模块10，用于获取语音信息，并对所述语音信息进行语音识别，确定所述语音信息所对应的意图信息。所述结果确定模块20，用于根据所述意图信息，确定与所述意图信息所对应的精准结果和/或与所述意图信息所对应的关联结果。所述交互控制模块30，用于根据所述精准结果和/或所述关联结果，分别生成对应控制指令，并根据所述控制指令将所述精准结果和/或所述关联结果进行分类显示。
69.在一种实现方式中，所述意图确定模块10包括：
70.信息转换单元，用于将所述语音信息转化成文字信息；
71.意图确定单元，用于对所述文字信息进行语义识别，确定所述文字信息所对应的所述意图信息。
72.在一种实现方式中，所述结果确定模块20包括：
73.资源调取单元，用于根据所述意图信息，从预设的资源库中调取与所述意图信息所对应的资源数据；
74.精准结果获取单元，用于若所述资源数据唯一，则确定所述意图信息为精准意图，并从所述资源库中获取所述意图信息所对应的精准结果。
75.在一种实现方式中，所述结果确定模块20包括：
76.关联结果获取单元，用于若所述意图信息为精准意图，则获取所述意图信息的关联结果；以及用于若所述资源数据不唯一，则确定所述意图信息为模糊意图，并从所述资源库中获取所述意图信息所对应的关联结果。
77.在一种实现方式中，所述关联结果获取单元包括：
78.关键词获取子单元，用于获取所述意图信息所对应的文字内容中的关键词信息；
79.关联结果确定子单元，用于基于所述关键词信息与预先建立的关联关系，从所述资源库中获取与所述关键词信息所对应的关联结果，其中，所述关联关系为预先按照用户习惯或者用户喜好所构建的关键词信息与资源数据之间的对应关系。
80.在一种实现方式中，所述交互控制模块30包括：
81.数量确定单元，用于根据所述控制指令，调取与所述精准结果和/或所述关联结果对应的资源数据，并确定所述资源数据的数量；
82.拼窗组合单元，用于根据所述资源数据的数量，确定拼窗组合；
83.分类显示单元，用于将所述资源数据进行分类，并按照所述资源数据的类别将所述资源数据分别在所述拼窗组合所对应窗口中显示，所述资源数据包括文本内容或者应用程序。
84.本实施例的基于语音识别的语音交互控制装置中各个模块的工作原理与上述方法实施例中各个步骤的原理相同，此处不再赘述。
85.基于上述实施例，本发明还提供了一种终端设备，该终端设备的原理框图可以如图4所示。该终端设备包括通过系统总线连接的处理器、存储器，处理器与存储器设置在主机中。其中，该终端设备的处理器用于提供计算和控制能力。该终端设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该终端设备的网络接口用于与外部的终端通过网络通讯连接通信。该计算机程序被处理器执行时以实现一种基于语音识别的语音交互控制方法。
86.本领域技术人员可以理解，图4中示出的原理框图，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的终端设备的限定，具体的终端设备以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
87.在一个实施例中，提供了一种终端设备，终端设备包括存储器、处理器及存储在存储器中并可在处理器上运行的基于语音识别的语音交互控制方法程序，处理器执行基于语音识别的语音交互控制方法程序时，实现如下操作指令：
88.获取语音信息，并对所述语音信息进行语音识别，确定所述语音信息所对应的意图信息；
89.根据所述意图信息，确定与所述意图信息所对应的精准结果和/或与所述意图信息所对应的关联结果；
90.根据所述精准结果和/或所述关联结果，分别生成对应控制指令，并根据所述控制指令将所述精准结果和/或所述关联结果进行分类显示。
91.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成的，计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、运营数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双运营数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
92.综上，本发明公开了基于语音识别的语音交互控制方法、终端设备及存储介质，方法包括：获取语音信息，并对所述语音信息进行语音识别，确定所述语音信息所对应的意图信息；根据所述意图信息，确定与所述意图信息所对应的精准结果和/或与所述意图信息所对应的关联结果；根据所述精准结果和/或所述关联结果，分别生成对应控制指令，并根据所述控制指令将所述精准结果和/或所述关联结果进行分类显示。本发明可对语音信息进行识别，确定出意图信息，并且还可确定出意图信息对应的精准结果和/或关联结果，并且还可将精准结果和/或关联结果进行分类显示，这样不但实现了语音交互结果的精细化显示，且也增加了语音交互的搜索范围，给用户的使用提供了方便。
93.最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：周胜杰邓薇赵家宇李涛
技术所有人：深圳康佳电子科技有限公司
我是此专利的发明人