一种语音交互的方法和装置与流程

文档序号：20268232发布日期：2020-04-03 18:40阅读：123来源：国知局

本发明涉及计算机技术领域，尤其涉及一种语音交互的方法和装置。

背景技术：

目前的语音交互系统，在麦克风接收用户的声音后，输入基于声学模型和语言模型构建的自动语音识别系统asr识别出用户说话的文本，再经过自然语言理解系统nlu对文本信息处理，以及对话管理系统dm判断下一步的机器动作(待输出信息)，最后利用文本到语音转换系统tts去播报机器最后的反馈语音。

尤其在车载语音交互系统中，用户最常使用的领域为导航领域。对于现有的车载语音交互系统，利用全国的位置信息构建语言模型在很多局部地区没有很好的适应性，进而导致语音导航的体验不佳。由于车载语音交互系统所采用的语言模型是基于全国的位置信息构建的，所以对于在不同的城市有着同音不同字的地名的情况，在两个城市的语音导航出来的结果是相同的，即语音识别asr的结果是相同的。因此，asr的结果与其中某一个城市的语音导航预期肯定是相悖的，错误的文本信息对后续的nlu和dm的影响很大，导致整体的体验偏差。例如，用户如果期望语音交互系统回复的是一个位于三线城市中较低频的poi(pointofinterest)名称，现有的系统可能识别不出该地址。

进一步的，由于现有的asr系统为基于全国范围内所有poi信息的语言模型，所以对于一些较为低频的poi点来说，其本身在全国poi点信息中的比重相当低，所以经过asr的解码，该低频的poi点在语言模型中的得分很低，所以该结果出现的概率较小。另外，一些同音不同字的地名或者相近音不同字的地名由于声学模型得分相当的情况下，相同的语言模型注定在不同的城市中只会出现一个poi结果，所以导致这些asr识别出的文本不具有区分性，整体的语音交互系统的体验偏差。

技术实现要素：

有鉴于此，本发明实施例提供一种语音交互的方法和装置，能够提高语音识别的准确性，提升语音交互的性能和体验。

为实现上述目的，根据本发明实施例的一个方面，提供了一种语音交互的方法。

本发明实施例的语音交互的方法包括：对接收的语音数据进行第一语音识别处理，得到所述语音数据的第一文本数据；以及，对所述第一文本数据进行语义理解，确定所述语音数据的目标意图；获取第二语音识别处理所需的地理位置信息；并且，根据所述地理位置信息，对所述语音数据第二语音识别处理，得到所述语音数据的第二文本数据；判断所述目标意图是否与位置因素相关；如果与位置因素相关，则根据所述第二本文数据确定待输出信息；如果与位置因素不相关，则根据第一文本数据确定待输出信息。

可选地，对接收的语音数据进行第一语音识别处理之前，还包括：对接收的语音数据进行语音信号处理；其中，所述语音信号处理至少包括以下一种：回声消除处理、降噪处理、去除混响处理。

可选地，对所述第一文本数据进行语义理解，确定所述语音数据的目标意图的步骤包括：调取语义理解模型，通过所述语义理解模型对所述第一文本数据进行分析处理，以确定所述语音数据的目标意图；其中，所述语义理解模型为基于分类算法训练得到的意图分类器，所述分类算法至少包括以下一种：朴素贝叶斯算法、决策树算法、支持向量机svm算法、lr分析法。

可选地，判断所述目标意图是否与位置因素相关的步骤包括：获取设置的意图集合；所述意图集合中至少包括一个与位置因素相关的意图；和/或，所述意图集合中至少包括导航意图；判断所述目标意图是否属于所述意图集合；如果属于，则所述目标意图与位置因素相关；否则，所述目标意图与位置因素不相关。

可选地，获取第二语音识别处理所需的地理位置信息的步骤包括：按照预设规则获取第二语音识别处理所需的地理位置信息；其中，所述预设规则至少包括以下一种：获取当前地理位置信息，以将所述当前地理位置信息作为第二语音识别处理所需的地理位置信息；接收用户输入的地理位置信息；以将所述用户输入的地理位置信息作为第二语音识别处理所需的地理位置信息；对用户的历史数据进行统计，以将统计的地理位置信息作为第二语音识别处理所需的地理位置信息。

可选地，确定待输出信息之后，还包括：将所述待输出信息转换为待输出语音数据；将所述待输出语音数据进行输出。

为实现上述目的，根据本发明实施例的另一个方面，提供了一种语音交互的装置。

本发明实施例的语音交互的装置包括：

第一语音识别处理模块，用于对接收的语音数据进行第一语音识别处理，得到所述语音数据的第一文本数据；以及，对所述第一文本数据进行语义理解，确定所述语音数据的目标意图；

第二语音识别处理模块，用于获取第二语音识别处理所需的地理位置信息；并且，根据所述地理位置信息，对所述语音数据第二语音识别处理，得到所述语音数据的第二文本数据；

判断模块，用于判断所述目标意图是否与位置因素相关；

待输出信息确定模块，用于如果与位置因素相关，则根据所述第二本文数据确定待输出信息；如果与位置因素不相关，则根据第一文本数据确定待输出信息。

可选地，还包括语音信号处理模块，用于对接收的语音数据进行语音信号处理；其中，所述语音信号处理至少包括以下一种：回声消除处理、降噪处理、去除混响处理。

可选地，第一语音识别处理模块，还用于调取语义理解模型，通过所述语义理解模型对所述第一文本数据进行分析处理，以确定所述语音数据的目标意图；其中，所述语义理解模型为基于分类算法训练得到的意图分类器，所述分类算法至少包括以下一种：朴素贝叶斯算法、决策树算法、支持向量机svm算法、lr分析法。

可选地，判断模块还用于，获取设置的意图集合；所述意图集合中至少包括一个与位置因素相关的意图；和/或，所述意图集合中至少包括导航意图；判断所述目标意图是否属于所述意图集合；如果属于，则所述目标意图与位置因素相关；否则，所述目标意图与位置因素不相关。

可选地，第二语音识别处理模块，还用于按照预设规则获取第二语音识别处理所需的地理位置信息；其中，所述预设规则至少包括以下一种：获取当前地理位置信息，以将所述当前地理位置信息作为第二语音识别处理所需的地理位置信息；接收用户输入的地理位置信息；以将所述用户输入的地理位置信息作为第二语音识别处理所需的地理位置信息；对用户的历史数据进行统计，以将统计的地理位置信息作为第二语音识别处理所需的地理位置信息。

可选地，还包括输出模块，用于将所述待输出信息转换为待输出语音数据；将所述待输出语音数据进行输出。

为实现上述目的，根据本发明实施例的再一个方面，提供了一种电子设备。

本发明实施例的电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述任一项的语音交互的方法。

为实现上述目的，根据本发明实施例的再一个方面，提供了一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现上述任一项的语音交互的方法。

上述发明中的一个实施例具有如下优点或有益效果：针对不同的需求，通过语音交互实现时，可根据目标意图和位置因素的相关性，确定出对应的输出结果。行的第二语音识别处理是将地理位置因素考虑进去的，所以针对和地理因素相关的意图，通过第二语音识别处理可得到更精准的识别结果，进一步可以精确的推送给用户期望得到的信息，提升了用户体验。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明实施例一的语音交互的方法的示意图；

图2是根据本发明实施例二的语音交互的方法的示意图；

图3是根据本发明实施例一的语音交互的方法实现的系统的示意图；

图4是根据本发明实施例二的语音交互的方法实现的系统的示意图；

图5是根据本发明实施例的语音交互的装置的主要模块的示意图；

图6是本发明实施例可以应用于其中的示例性系统架构图；

图7是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本发明实施例的语音交互的方法包括：对接收的语音数据进行第一语音识别处理，得到语音数据的第一文本数据；以及，对第一文本数据进行语义理解，确定语音数据的目标意图；获取第二语音识别处理所需的地理位置信息；并且，根据地理位置信息，对语音数据第二语音识别处理，得到语音数据的第二文本数据；判断目标意图是否与位置因素相关；如果与位置因素相关，则根据第二本文数据确定待输出信息；如果与位置因素不相关，则根据第一文本数据确定待输出信息。其中，意图与位置因素的相关性可预先进行配置(也可根据历史数据实时分析)，例如，对于导航(确定到达某个地点的路线)、查找定位(确定附件超市、医院等)或者某些交互参数设定(输出的语音为方言)等和位置因素相关的意图，可以预先将该意图设置为和地理因素相关，并且进行的第二语音识别处理是将地理位置因素考虑进去的，例如对进行第二语音识别处理的模型，基于标记的包括地理因素样本数据训练得到的。所以，针对和地理因素相关的意图，通过第二语音识别处理可得到更精准的识别结果。

在本发明实施例中，上述处理过程的顺序不是唯一的，可根据实际应用需求调整执行顺序。本发明实施例，针对不同的需求，通过语音交互实现时，可根据目标意图和位置因素的相关性，确定出对应的输出结果。该输出结果综合了地理位置信息的因素，所以可以精确的推送给用户期望得到的信息，提升用户体验。

图1是根据本发明实施例一的语音交互的方法的示意图；图2是根据本发明实施例二的语音交互的方法的示意图；图3是根据本发明实施例一的语音交互的方法实现的系统的示意图；图4是根据本发明实施例二的语音交互的方法实现的系统的示意图。

如图1所示，在本发明实施例一中，先执行获取第二语音识别处理所需的地理位置信息，以及根据地理位置信息，对语音数据第二语音识别处理的过程，然后，执行对目标意图与位置因素是否相关的判断。具体的，如图1所示，本发明实施例的语音交互的方法主要包括：

步骤s101：对接收的语音数据进行第一语音识别处理，得到语音数据的第一文本数据；以及，对第一文本数据进行语义理解，确定语音数据的目标意图。

步骤s102：获取第二语音识别处理所需的地理位置信息；并且，根据地理位置信息，对语音数据第二语音识别处理，得到语音数据的第二文本数据。

步骤s103：判断目标意图是否与位置因素相关。如果与位置因素相关，则执行步骤s104；如果与位置因素不相关，则执行步骤s105。

步骤s104：根据第二本文数据确定待输出信息。

步骤s105：根据第一文本数据确定待输出信息。

根据本发明实施例一中，步骤s101和步骤s102可以同步执行，在确定出语音数据的目标意图与位置因素的相关性之后，可直接确定出对应的输出信息。通过该实施例，不仅可以提高语音识别的准确性，而且降低了整个语音识别首字延迟和位子延迟的时间，大大提升了语音产品的性能和体验。

如图2所示，在本发明实施例二中，先确定出目标意图与位置因素相关后，再执行获取第二语音识别处理所需的地理位置信息，以及根据地理位置信息，对语音数据第二语音识别处理的过程。在本发明实施例二中，步骤s201和步骤s203不会同步执行，所以需要的资源少。具体的，如图2所示，本发明实施例的语音交互的方法主要包括：

步骤s201：对接收的语音数据进行第一语音识别处理，得到语音数据的第一文本数据；以及，对第一文本数据进行语义理解，确定语音数据的目标意图。

步骤s202：判断目标意图是否与位置因素相关。如果与位置因素相关，则执行步骤s203；如果与位置因素不相关，则执行步骤s204。

步骤s203：获取第二语音识别处理所需的地理位置信息；并且，根据地理位置信息，对语音数据第二语音识别处理，得到语音数据的第二文本数据。根据第二本文数据确定待输出信息。

步骤s204：根据第一文本数据确定待输出信息。

如图3所示，对于本发明实施例一的实现，可以根据语音数据的意图设置多路语音模型，如图3中所示的一路语音模型和二路语音模型。其中，一路语音模型对语音交互应用(例如车载语音交互设备)中的所有领域都有涉及，即该一路语音模型对语音数据的意图没有很明显的倾向性。与一路语音模型不同，二路语言模型的识别性能重心时针对需要地理信息的领域，比如导航。具体的，首先可以使用麦克风等音频输入设备接收用户的语音信息，再经过后续的语音信号处理模块，然后通过一路语音模型和二路语音模型同时对数据进行处理。在两路中的声学模型相同，但是其中的语音模型有较大的区别，一路语言模型对车载中包含语音交互的所有领域都有涉及，并没有很明显的倾向性，而二路语言模型中的语音模型会基于地理位置信息有针对性的识别某些意图的语音数据。以及，该地理位置信息的来源可以是gps、用户输入或者对用户的数据进行统计分析得知。一路语音模型中，通过一个nlu工具对asr输出的文本数据进行分类并得到该文本的意图，该意图的判断影响后续的结果选择。

以导航领域举例：如果该语音意图为导航且输出的文本中没有相应的地点，则根据获得的地理位置信息加载相应的二路语言模型，最终的输出结果从二路中语言模型出。如果文本中有清晰的地点且该语音意图为导航，则加载相应城市的二路语言模型，最终的输出结果从二路中语言模型出。如果该文本的意图属于不需要地理信息的种类(与地理因素不相关)，则最终的输出结果从一路语言模型中出。得到了asr文本(由语音数据识别出的第一文本数据)和最终确定的流程路线之后，该本文可以通过了nlu和dm模块来得到机器的下一步动作。最终机器的反馈可以通过tts对外进行输出。本发明实施例充分考虑了延迟的影响，由于支持多路语言模型，所以不影响系统的并发量，提高了处理效率。

如图4所示，对于本发明实施例二的实现，与实施例一最大的不同就是本方案不需要同时走两路的asr模块，而是在一个结合nlu和地理信息的判断模块中的反馈信息来得到是否该流程需要走一个环路。在本发明实施例中，没有asr两路并发执行，需要的资源比较少。

详细流程如下：

1)首先用户的语音可以通过麦克风等设备输入，收到用户的语音数据后，先经过一个语音信号处理模块，再输入到asr模块中，得到该语音数据对应的文本数据；

2)第二个模块与上一个流程中的判断模块(确定意图的nlu模块)一致，可以通过分析文本对文本进行分类继而得到相应的文本意图。以导航领域为例，该判断模块的决策方式与实施例一中的判断模块一致。不同的地方在于，实施例一中二路语言模型直接根据地理位置信息对语音数据进行识别，而且二路语言模型中的语音识别asr是针对相应意图训练得到的识别模块，本发明实施例二中确定出意图和地理因素相关之后，再基于原有的语音识别模型根据地理位置信息再次对语音数据进行识别，该原有的语音识别模型的训练对意图没有明显的倾向性；

3)确定识别的文本数据后可以通过了nlu和dm模块来得到机器的下一步动作。最终机器的反馈可以通过tts对外进行输出。

优选的，对接收的语音数据进行第一语音识别处理之前，对接收的语音数据进行语音信号处理。其中，语音信号处理至少包括以下一种：回声消除处理、降噪处理、去除混响处理。在对第一文本数据进行语义理解，确定语音数据的目标意图的过程中，调取语义理解模型，通过语义理解模型对第一文本数据进行分析处理，以确定语音数据的目标意图。其中，语义理解模型为基于分类算法训练得到的意图分类器，分类算法至少包括以下一种：朴素贝叶斯算法、决策树算法、支持向量机svm算法、lr分析法。

在判断目标意图是否与位置因素相关的过程中，获取设置的意图集合；意图集合中至少包括一个与位置因素相关的意图；和/或，意图集合中至少包括导航意图。判断目标意图是否属于意图集合；如果属于，则目标意图与位置因素相关；否则，目标意图与位置因素不相关。

在获取第二语音识别处理所需的地理位置信息的过程中，按照预设规则获取第二语音识别处理所需的地理位置信息。其中，预设规则至少包括以下一种：获取当前地理位置信息，以将当前地理位置信息作为第二语音识别处理所需的地理位置信息；接收用户输入的地理位置信息；以将用户输入的地理位置信息作为第二语音识别处理所需的地理位置信息；对用户的历史数据进行统计，以将统计的地理位置信息作为第二语音识别处理所需的地理位置信息。如上述三种情况都包括，可设定优先级，根据设定的优先级确定出第二语音识别处理所需的地理位置信息。以及，在本发明实施例中，确定待输出信息之后，将待输出信息转换为待输出语音数据；将待输出语音数据进行输出。

图5是根据本发明实施例语音交互的装置的主要模块的示意图，如图5所示，本发明实施例的语音交互的装置500主要包括第一语音识别处理模块501、第二语音识别处理模块502和判断模块503、待输出信息确定模块504。

第一语音识别处理模块501用于，对接收的语音数据进行第一语音识别处理，得到语音数据的第一文本数据；以及，对第一文本数据进行语义理解，确定语音数据的目标意图。第一语音识别处理模块，还用于调取语义理解模型，通过语义理解模型对第一文本数据进行分析处理，以确定语音数据的目标意图；其中，语义理解模型为基于分类算法训练得到的意图分类器，分类算法至少包括以下一种：朴素贝叶斯算法、决策树算法、支持向量机svm算法、lr分析法。

第二语音识别处理模块502用于，获取第二语音识别处理所需的地理位置信息；并且，根据地理位置信息，对语音数据第二语音识别处理，得到语音数据的第二文本数据。第二语音识别处理模块，还用于按照预设规则获取第二语音识别处理所需的地理位置信息；其中，预设规则至少包括以下一种：获取当前地理位置信息，以将当前地理位置信息作为第二语音识别处理所需的地理位置信息；接收用户输入的地理位置信息；以将用户输入的地理位置信息作为第二语音识别处理所需的地理位置信息；对用户的历史数据进行统计，以将统计的地理位置信息作为第二语音识别处理所需的地理位置信息。

判断模块505用于，判断目标意图是否与位置因素相关。判断模块还用于，获取设置的意图集合；意图集合中至少包括一个与位置因素相关的意图；和/或，意图集合中至少包括导航意图；判断目标意图是否属于意图集合；如果属于，则目标意图与位置因素相关；否则，目标意图与位置因素不相关。

待输出信息确定模块504用于，如果与位置因素相关，则根据第二本文数据确定待输出信息；如果与位置因素不相关，则根据第一文本数据确定待输出信息。

本发明实施例的语音交互的装置还包括语音信号处理模块，用于对接收的语音数据进行语音信号处理；其中，语音信号处理至少包括以下一种：回声消除处理、降噪处理、去除混响处理。本发明实施例的语音交互的装置还包括输出模块，用于将待输出信息转换为待输出语音数据；将待输出语音数据进行输出。

本发明实施例，针对不同的需求，通过语音交互实现时，可根据目标意图和位置因素的相关性，确定出对应的输出结果。该输出结果综合了地理位置信息的因素，所以可以精确的推送给用户期望得到的信息，提升用户体验。其中，意图与位置因素的相关性可预先进行配置(也可根据历史数据实时分析)，例如，对于导航、查找定位或者某些交互参数设定等和位置因素相关的意图，可以预先将该意图设置为和地理因素相关，并且进行的第二语音识别处理是将地理位置因素考虑进去的，例如对进行第二语音识别处理的模型，基于标记的包括地理因素样本数据训练得到的。所以，针对和地理因素相关的意图，通过第二语音识别处理可得到更精准的识别结果。

图6示出了可以应用本发明实施例的语音交互的方法或语音交互的装置的示例性系统架构600。

如图6所示，系统架构600可以包括终端设备601、602、603，网络604和服务器605。网络604用以在终端设备601、602、603和服务器605之间提供通信链路的介质。网络604可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备601、602、603通过网络604与服务器605交互，以接收或发送消息等。终端设备601、602、603上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备601、602、603可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器605可以是提供各种服务的服务器，例如对用户利用终端设备601、602、603所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理，并将处理结果反馈给终端设备。

需要说明的是，本发明实施例所提供的语音交互的方法一般由服务器605执行，相应地，语音交互的装置一般设置于服务器605中。

应该理解，图6中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图7，其示出了适于用来实现本发明实施例的终端设备的计算机系统700的结构示意图。图7示出的终端设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，计算机系统700包括中央处理单元(cpu)701，其可以根据存储在只读存储器(rom)702中的程序或者从存储部分708加载到随机访问存储器(ram)703中的程序而执行各种适当的动作和处理。在ram703中，还存储有系统700操作所需的各种程序和数据。cpu701、rom702以及ram703通过总线704彼此相连。输入/输出(i/o)接口705也连接至总线704。

以下部件连接至i/o接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至i/o接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(cpu)701执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、rf等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括第一语音识别处理模块、第二语音识别处理模块、判断模块、待输出信息确定模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，判断模块还可以被描述为“判断所述目标意图是否与位置因素相关的模块”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：对接收的语音数据进行第一语音识别处理，得到语音数据的第一文本数据；以及，对第一文本数据进行语义理解，确定语音数据的目标意图；获取第二语音识别处理所需的地理位置信息；并且，根据地理位置信息，对语音数据第二语音识别处理，得到语音数据的第二文本数据；判断目标意图是否与位置因素相关；如果与位置因素相关，则根据第二本文数据确定待输出信息；如果与位置因素不相关，则根据第一文本数据确定待输出信息。

本发明实施例，针对不同的需求，通过语音交互实现时，可根据目标意图和位置因素的相关性，确定出对应的输出结果。进行的第二语音识别处理是将地理位置因素考虑进去的，所以针对和地理因素相关的意图，通过第二语音识别处理可得到更精准的识别结果，提升了用户体验。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴旭貌;薛少飞
技术所有人：苏州思必驰信息科技有限公司
我是此专利的发明人