一种实现智能语音对话的方法、装置及系统与流程

文档序号：18457892发布日期：2019-08-17 01:45阅读：249来源：国知局

导航： X技术> 最新专利>乐器;声学设备的制造及制作,分析技术

本发明涉及人工智能技术领域，尤其涉及一种实现智能语音对话的方法、装置及系统。

背景技术：

随着人们对英语学习的重视程度的提高，越来越多的英语学习机构及英语学习软件应运而生。

通常，人们为了更好地练习口语，选择付费的线下外教课程，线下外教课程时间固定，学习时间不灵活，花费高；而线上学习软件提供的模拟对话必须按照既定的流程推进，直接提供选项让用户作答，对用户回答的限制很大，无法为用户提供人机交互式的智能学习体验。

技术实现要素：

有鉴于此，本发明提供一种实现智能语音对话的方法、装置及系统，以解决英语学习时间不灵活，花费高，对用户回答的限制大的问题。

为实现上述目的，本发明提供技术方案如下：

根据本发明的第一方面，提出了一种实现智能语音对话的方法，所述方法包括：

接收客户端录制的语音信号；

将所述语音信号转化为语音文本；

确定所述语音文本对应的语义；

确定所述语义对应的语言逻辑；

确定所述语言逻辑对应的对话文本；

合成所述对话文本对应的音频文件；

向客户端发送所述音频文件。

根据本发明的第二方面，提出了一种实现智能语音对话的装置，包括：

语音接收模块，用于接收客户端录制的语音信号；

文本转化模块，用于将所述语音信号转化为语音文本；

语义确定模块，用于确定所述语音文本对应的语义；

逻辑确定模块，用于确定所述语义对应的语言逻辑；

文本确定模块，用于确定所述语言逻辑对应的对话文本；

音频合成模块，用于合成所述对话文本对应的音频文件；

音频发送模块，用于向客户端发送所述音频文件。

根据本发明的第三方面，提出了一种实现智能语音对话的系统，所述系统包括：客户端、服务器；其中，

所述客户端，用于接收场景指令，向服务器发送该场景指令；

所述服务器，用于基于所述场景指令开启智能语音对话的功能，并基于该场景指令对应的场景向客户端发起首轮对话，当接收到客户端录制的语音信号时，将所述语音信号转化为语音文本，确定所述语音文本对应的语义，确定所述语义对应的语言逻辑，确定所述语言逻辑对应的对话文本，合成所述对话文本对应的音频文件，向客户端发送所述音频文件；

所述客户端，还用于接收所述音频文件，播放所述音频文件。

由以上技术方案可见，服务器接收客户端录制的语音信号，服务器将语音信号转化为语音文本，并确定语音文本对应的语义，服务器根据语义确定语言逻辑，通过语言逻辑确定对应的对话文本，最终合成对话文本对应的音频文件，向客户端发送音频文件，以使客户端播放该音频文件后发起下一轮的对话，该实现智能语音对话的方法学习时间灵活，花费低，对用户回答的限制小，为用户提供了智能的人机交互式的学习体验。

附图说明

图1a是本发明提供的一个实现智能语音对话的方法的实施例流程图；

图1b是图1a方法所适用的服务器的内部结构示意图；

图2是本发明提供的一个实现智能语音对话的方法的实施例流程图；

图3是本发明提供的另一个实现智能语音对话的方法的实施例流程图；

图4是本发明提供的再一个实现智能语音对话的方法的实施例流程图；

图5是本发明提供的再一个实现智能语音对话的方法的实施例流程图；

图6是本发明提供的再一个实现智能语音对话的方法的实施例流程图；

图7是本发明提供的再一个实现智能语音对话的方法的实施例流程图；

图8是本发明提供的一种服务器的硬件结构图；

图9是本发明提供的一个实现智能语音对话的装置的实施例框图；

图10是本发明提供的另一个实现智能语音对话的装置的实施例框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

图1a是本发明提供的一个实现智能语音对话的方法的实施例流程图。该实现智能语音对话的方法可以应用在服务器中，如图1a所示，包括如下步骤：

步骤101：接收客户端录制的语音信号。

步骤102：将语音信号转化为语音文本。

步骤103：确定语音文本对应的语义。

步骤104：确定语义对应的语言逻辑。

步骤105：确定语言逻辑对应的对话文本。

步骤106：合成对话文本对应的音频文件。

步骤107：向客户端发送音频文件。

在步骤101中，在一实施例中，本领域技术人员可以理解的是，客户端通过屏幕展示至少一个场景任务，场景任务为最终实现某一目的的生活场景，场景任务例如为：在餐厅点一份牛排，在机场获取登机牌，在免税店购物，在酒店办理入住等生活场景。用户通过点击屏幕选择场景任务，客户端接收用户点击屏幕时生成的场景指令，客户端向服务器发送该场景指令，服务器基于该场景指令开启智能语音对话的功能，且服务器基于该场景指令对应的场景，发起首轮对话，以场景任务为“在餐厅点一份牛排”为例，服务器基于该“在餐厅点一份牛排”场景指令对应的场景，发起首轮对话，客户端播放内容为“whatsteakdoyouwant？”的音频文件，具体在客户端屏幕上的呈现形式可以为：文字提示、图片、动图、小视频等与音频文件的组合。本领域技术人员可以理解的是，通过设置不同的组合方式，可以调节智能对话的难易程度。例如，当音频文件与图片组合呈现时，更加考验用户的听力能力，对话难度较高；当音频文件与文字提示组合呈现时，用户通过阅读文字提示，可以更容易理解语音内容，对话难度较为简单。每轮对话中，客户端通过接收用户的录制指令开启对语音信号的录制，当客户端接收到录制完成的指令时，客户端将录制得到的语音信号发送至服务器。服务器接收客户端录制的语音信号。针对上述提问“whatsteakdoyouwant？”，例如用户通过客户端录制了内容为“iwantsirloinplease”的语音信号。

在步骤102中，在一实施例中，服务器将语音信号转化为语音文本。结合步骤101，服务器将“iwantsirloinplease”的语音信号转化为“iwantsirloinplease”的语音文本。具体的，服务器如何将语音信号转化为语音文本可参考相关技术的描述，在此不作赘述。

在步骤103中，在一实施例中，服务器确定语音文本对应的语义。本领域技术人员可以理解的是，当用户的英语水平欠佳，且加之录制的音频效果受环境干扰等因素的影响，服务器基于语音信号转化的语音文本中可能会出现单词缺失、语法错误、断句等问题，因此服务器需要从语音文本中解析出有效的能反映出对话本意的核心内容。结合步骤102，服务器确定“iwantsirloinplease”语音文本中的动词“want”为表示肯定的语义，结合“iwantsirloinplease”语音文本中的名词“sirloin”，表示用户想要西冷牛排，因此服务器可以确定语义为“想吃西冷牛排”。具体的，服务器如何确定语音文本对应的语义的步骤可参考下述图2所示的步骤201-步骤202的相关描述，在此先不作叙述。

在步骤104中，在一实施例中，服务器确定语义对应的语言逻辑。其中，语言逻辑为对话上下文衔接的内容要符合思维逻辑，例如，当对话中的上一句为“iwantsirloinplease”，则与之相关的符合语义逻辑的下一句对话可以为“说明西冷牛排是否有货存”、“询问牛排要几分熟”或者“询问是否需要添加其他配菜及酒水”。结合步骤103，例如服务器确定语义为“想吃西冷牛排”，则可以确定与“想吃西冷牛排”对应的语义逻辑可以为“询问牛排要几分熟”。具体的，服务器如何确定语义对应的语言逻辑的步骤可参考下述图3所示的步骤301-步骤302的相关描述，在此先不作叙述。

在步骤105中，在一实施例中，服务器确定语言逻辑对应的对话文本。结合步骤104，例如，确定与“想吃西冷牛排”对应的语义逻辑为“询问牛排要几分熟”，则服务器确定“询问牛排要几分熟”对应的对话文本为“howshouldweprepareyoursteak，mediumwell，mediumrareorwelldone？”。具体的，服务器如何确定语义对应的语言逻辑的步骤可参考下述图4所示的步骤401-步骤402的相关描述，在此先不作叙述。

在步骤106中，在一实施例中，服务器合成对话文本对应的音频文件。结合步骤105，服务器将对话文本“howshouldweprepareyoursteak，mediumwell，mediumrareorwelldone？”合成相应的音频文件。具体的，服务器如何合成对话文本对应的音频文件的可参考相关技术的描述，在此不作赘述。

本发明实施例中，服务器接收客户端录制的语音信号，服务器将语音信号转化为语音文本，并确定语音文本对应的语义，服务器根据语义确定语言逻辑，通过语言逻辑确定对应的对话文本，最终合成对话文本对应的音频文件，向客户端发送音频文件，以使客户端播放该音频文件后发起下一轮的对话，该实现智能语音对话的方法学习时间灵活，花费低，对用户回答的限制小，为用户提供了智能的人机交互式的学习体验。

图1b是图1a方法所适用的服务器的内部结构示意图，图1b中的服务器11包括语音模块111、理解模块112、逻辑模块113、文本模块114、内容模块115及音频模块116。其中，语音模块111用于接收客户端发送的客户端录制的语音信号，并将语音信号转化为语音文本；理解模块112用于确定语音文本的语义；逻辑模块113用于确定语义对应的语言逻辑；文本模块114用于确定语言逻辑对应的对话文本；内容模块115用于为理解模块112和文本模块114提供相应的单词、词组及语句，为逻辑模块113提供预设的逻辑配置；音频模块116用于将文本模块114中确定的对话文本合成音频文件。具体的，结合上述图1a的步骤101-步骤107，语音模块111接收客户端录制的语音信号。语音信号对应的内容例如为“iwantsirloinplease”，语音模块111将该语音信号转化为语音文本“iwantsirloinplease”。理解模块112通过结合内容模块115中提供的动词“want”及名词“sirloin”，确定语义为“想吃西冷牛排”。逻辑模块113确定“想吃西冷牛排”语义对应的语言逻辑。例如，逻辑模块113从内容模块115中提供的三个预设逻辑配置：“说明西冷牛排是否有货存”、“询问牛排要几分熟”、“询问是否需要添加其他配菜及酒水”中，确定与“想吃西冷牛排”对应的语义逻辑为“询问牛排要几分熟”，则文本模块114确定“询问牛排要几分熟”对应的对话文本为“howshouldweprepareyoursteak，mediumwell，mediumrareorwelldone？”。音频模块116合成对话文本“howshouldweprepareyoursteak，mediumwell，mediumrareorwelldone？”对应的音频文件。本领域技术人员可以理解的是，上述服务器中的语音模块111、理解模块112、逻辑模块113、文本模块114、内容模块115及音频模块116仅为示例性说明，服务器还可以包括判断模块，打分模块等模块(图1b中未示出)，判断模块可用于判断场景任务是否完成，例如，以场景任务为“在餐厅点一份牛排”为例，当服务器判断客户端录制的语音信号为“点了一份牛排”，则“在餐厅点一份牛排”场景任务即为完成；打分模块用于对录制的语音信号进行打分，具体的，如何服务器如何对语音文本进行打分的，可参考下述图6所示的步骤608的相关描述，在此先不作叙述。

图2是本发明提供的一个实现智能语音对话的方法的实施例流程图，结合图1a，在步骤101-步骤107的基础上对服务器如何确定语音文本对应的语义进行示例性说明，如图2所示，包括如下步骤：

步骤201：基于第一预设选取规则，选取语音文本中的至少一个关键词。

步骤202：基于至少一个关键词确定语义。

在步骤201中，第一预设选取规则可以为选取语音文本中的动词、名词、人称代词、副词等作为关键词，具体的可针对不同的语音文本设置不同的选取规则。当提问以“what、where”开头时，则优先选取语音文本中的“名词”作为关键词；当以“who”开头时，则优先选取语音文本中的“人称代词、名词”作为关键词；当提问以“how、do”开头时，则优先选取语音文本中的“副词”等作为关键词。例如，当设问为“doyouwanttoeatsirloin？”时，则可选取语音文本中的“yes”或者“no”等可以表示态度的“副词”，若语音文本为“yes，sure.”，则关键词即为“yes”；当设问为“whoisyourbestfriends？”，若语音文本为“lilyismybestfriends.”则可选取语音文本中的“lily”可以表示具体人物的“名词”。

在步骤202中，服务器基于至少一个关键词确定语义，结合步骤201，当设问为“doyouwanttoeatsirloin？”时，服务器确定的关键词为“yes”，则服务器可以确定语义为“想吃西冷牛排”。

本发明实施例中，服务器基于第一预设选取规则，选取语音文本中的至少一个关键词，并基于至少一个关键词确定语义，通过设置不同的第一预设选取规则，可以使得服务器在语义理解方面更加智能化，且具有更高容错性。

图3是本发明提供的另一个实现智能语音对话的方法的实施例流程图，本发明实施例结合图1b，对服务器如何确定语义对应的语言逻辑进行示例性说明，如图3所示，包括如下步骤：

步骤301：确定语义对应的至少一个预设逻辑配置。

步骤302：基于第二预设选取规则，从至少一个预设逻辑配置中确定语言逻辑。

在步骤301中，结合图1b，内容模块115用于存储预设逻辑配置，并为逻辑模块113提供预设逻辑配置。以逻辑模块113确定“想吃西冷牛排”的语义为例，逻辑模块113从内容模块115中确定出与“想吃西冷牛排”的语义对应的三个预设逻辑配置：“说明西冷牛排是否有货存”、“询问牛排要几分熟”、“询问是否需要添加其他配菜及酒水”。

在步骤302中，第二预设选取规则例如为：选取在此轮对话前未曾出现过的预设逻辑配置；轮询选取预设逻辑配置；选取被使用次数最少的预设逻辑配置等。例如逻辑模块113从内容模块115中记录的三个预设逻辑配置：“说明西冷牛排是否有货存”、“询问牛排要几分熟”、“询问是否需要添加其他配菜及酒水”中通过轮询方式选取“询问牛排要几分熟”作为与“想吃西冷牛排”的语义对应的语言逻辑。

本发明实施例中，服务器确定语义对应的至少一个预设逻辑配置，服务器基于第二预设选取规则，从至少一个预设逻辑配置中确定语言逻辑，通过设置合理的第二预设选取规则，以及设置更多数量的预设逻辑配置，可以使得服务器最终确定的语言逻辑更加多样化。

图4是本发明提供的再一个实现智能语音对话的方法的实施例流程图，本发明实施例结合图1a，在步骤101-步骤107的基础上，对服务器如何确定语言逻辑对应的对话文本进行示例性说明，如图4所示，包括如下步骤：

步骤401：基于语言信号确定预设作答规则。

步骤402：基于预设作答规则，确定语言逻辑对应的对话文本。

在步骤401中，预设作答规则为服务器基于语言逻辑确定对话文本时的确定原则。服务器基于语言信号确定预设作答规则的方法可以包括：基于语言信号的语言文本确定预设作答规则；基于语言信号的得分确定预设作答规则。其中，基于语言信号的语言文本确定预设作答规则为服务器结合上下文对语言逻辑给出具体场景下合适的对话文本；基于语言信号的得分确定预设作答规则为针对得分高低不同的语言信号，给出难易程度不同的对话文本。具体的，服务器基于语言信号确定用户语言能力的分值，不同的分值对应不同的预设作答规则，例如：0-30分对应较易程度的预设作答规则(多给出提示性的词语)；30-60分对应中等程度的预设作答规则(正常作答)；60-100分对应较难程度的预设作答规则(少给出提示性词语)。

在步骤402中，在步骤105中，服务器确定语言逻辑为“询问牛排要几分熟”，结合步骤401，若用户语言能力的分值为25分，则预设作答规则对应的该语言逻辑的对话文本为“howshouldweprepareyoursteak，mediumwell，mediumrareorwelldone？”，其中，“mediumwell，mediumrareorwelldone”为给出的提示性词语；若用户语言能力的分值为85分，则预设作答规则对应的该语言逻辑的对话文本为“howshouldweprepareyoursteak？”，未给出提示性词语。

本发明实施例中，服务器基于语言信号确定预设作答规则，并基于预设作答规则，确定语言逻辑对应的对话文本，通过设置合理的预设作答规则，可以灵活变换对话文本的难易。

图5是本发明提供的再一个实现智能语音对话的方法的实施例流程图，本发明实施例结合图1a，在步骤101-步骤107的基础上，对服务器如何结束对话进行示例性说明，如图5所示，包括如下步骤：

步骤501：判断对话文本是否与预设目标文本一致。

步骤502：若对话文本与预设目标文本一致时，则结束对话。

在步骤501-步骤502中，预设目标文本为服务器预设的表示场景任务完成的对话文本，结合图1a中的场景任务为“在餐厅点一份牛排”为例，若对话文本为“enjoyyourmeal”与预设的目标文本“enjoyyourmeal”一致，则服务器关闭智能语音对话的功能，结束对话。

本发明实施例中，服务器判断对话文本是否与预设目标文本一致，若对话文本与预设目标文本一致时，则服务器结束对话，达到完成场景任务的目的。

图6是本发明提供的再一个实现智能语音对话的方法的实施例流程图，本发明实施例结合图1a，在步骤101-步骤107的基础上，对服务器如何确定语音信号的至少一个维度的分值。进行示例性说明，如图6所示，包括如下步骤：

步骤601：接收客户端录制的语音信号。

步骤602：将语音信号转化为语音文本。

步骤603：确定语音文本对应的语义。

步骤604：确定语义对应的语言逻辑。

步骤605：确定语言逻辑对应的对话文本。

步骤606：合成对话文本对应的音频文件。

步骤607：向客户端发送音频文件。

步骤608：基于预设评分标准，确定语音信号的至少一个维度的分值。

在步骤601-步骤607中，相关描述可参考图1a中的步骤101-步骤107的相关描述，在此不做赘述，需要说明的是步骤608可以在执行步骤601后的任意步骤前或后执行，在此不对步骤608的时序进行限定。

在步骤608中，预设评分标准为预先设定的，预设评分标准可以从多个维度对语言信号进行打分，多个维度包括：发音、流利度、表达、独立完成等。具体的，以流利度为例，预设评分标准可以对用户录制的语言信号的时间长度进行评判；以发音为例，预设评分标准可以以服务器将语言信号转化为语音文本中的有效的单词或者词组的数量进行评判。服务器对语音信号的每个维度的进行打分，得到每个维度的分值。服务器通过设置每个维度的不同权重，还可以基于用户对话整体表现进行打分，服务器还可以生成用户听力、发音、流利度、表达、独立完成等情况的各维能力分布图。同时提供基于能力分布的分析和改进建议，还可以挑选发音、表达等维度中表现分值较低的维度部分进行点评。

本发明实施例中，服务器对基于预设评分标准，确定语音信号的至少一个维度的分值，通过分值可以直观对用户对话的能力高低进行亮化展示，同时服务器根据分值较低的维度部分进行分析点评，有助于用户在短板维度有针对性地学习。

图7是本发明提供的再一个实现智能语音对话的方法的实施例流程图，本发明实施例结合图1a，在步骤101-步骤107的基础上，对服务器接收到求助指令后如何处理求助指令进行示例性说明，如图7所示，包括如下步骤：

步骤701：当接收到求助指令时，基于当前对话文本确定至少一个参考对话文本。

步骤702：向客户端发送至少一个参考对话文本。

在步骤701-步骤702中，当服务器接收到客户端发送的求助指令时，服务器确定当前对话文本，当前对话文本为服务器向客户端发送的当前等待用户作答的问题。服务器基于当前对话文本确定与该当前对话文本对应的至少一个参考对话文本，例如，客户端接收到用户点击屏幕的“请求帮助”控件生成的求助指令，客户端将该求助指令发送至服务器，服务器确定当前对话文本为“whatsteakdoyouwant？wehaveribeye，sirloinandt-bone”，则服务器确定至少一个预设的参考对话文本“iwillhavetheribeyeplease”、“i’dliketotrythesirloin”、“iamorderingthet-bone”。服务器向客户端发送参考对话文本“iwillhavetheribeyeplease”、“i’dliketotrythesirloin”、“iamorderingthet-bone”，客户端在屏幕对该三种参考对话文本进行展示，以供用户参考。

本发明实施例中，当服务器接收到求助指令时，服务器基于当前对话文本确定至少一个参考对话文本，并向客户端发送至少一个参考对话文本，给出参考范例，起到提示的作用，有助于用户记忆并模仿学习。

对应于上述实现智能语音对话的方法，本发明还提出了图8所示的服务器的硬件结构图。请参考图8，在硬件层面，该服务器包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成实现智能语音对话的装置。当然，除了软件实现方式之外，本发明并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

图9是本发明提供的一个实现智能语音对话的装置的实施例框图，如图9所示，该实现智能语音对话的装置可以包括：语音接收模块91、文本转化模块92、语义确定模块93、逻辑确定模块94、文本确定模块95、音频合成模块96、音频发送模块97，其中：

语音接收模块91，用于接收客户端录制的语音信号；

文本转化模块92，用于将语音信号转化为语音文本；

语义确定模块93，用于确定语音文本对应的语义；

逻辑确定模块94，用于确定语义对应的语言逻辑；

文本确定模块95，用于确定语言逻辑对应的对话文本；

音频合成模块96，用于合成对话文本对应的音频文件；

音频发送模块97，用于向客户端发送音频文件。

图10是本发明提供的另一个实现智能语音对话的装置的实施例框图，如图10所示，在上述图9所示实施例的基础上，语义确定模块93包括：

关键词选取子模块931，用于基于第一预设选取规则，选取语音文本中的至少一个关键词；

第一确定子模块932，用于基于至少一个关键词确定语义。

在一实施例中，逻辑确定模块94包括：

第二确定子模块941，用于确定语义对应的至少一个预设逻辑配置；

第三确定子模块942，用于基于第二预设选取规则，从至少一个预设逻辑配置中确定语言逻辑。

在一实施例中，文本确定模块95包括：

第四确定子模块951，用于基于语言信号确定预设作答规则；

第五确定子模块952，用于基于预设作答规则，确定语言逻辑对应的对话文本。

在一实施例中，实现智能语音对话的装置还包括：

文本判断模块98，用于判断对话文本是否与预设目标文本一致；

对话结束模块99，用于若对话文本与预设目标文本一致时，则结束对话。

在一实施例中，实现智能语音对话的装置还包括：

评分模块100，用于基于预设评分标准，确定语音信号的至少一个维度的分值。

在一实施例中，实现智能语音对话的装置还包括：

参考文本确定模块101，用于当接收到求助指令时，基于当前对话文本确定至少一个参考对话文本；

文本发送模块102，用于向客户端发送至少一个参考对话文本。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

由上述实施例可见，本发明实施例中，服务器接收客户端录制的语音信号，服务器将所述语音信号转化为语音文本，并确定所述语音文本对应的语义，服务器根据语义确定语言逻辑，通过语言逻辑确定对应的对话文本，最终合成所述对话文本对应的音频文件，向客户端发送所述音频文件，以使客户端播放该音频文件后发起下一轮的对话，该实现智能语音对话的方法学习时间灵活，花费低，对用户回答的限制小，为用户提供了智能的人机交互式的学习体验。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：翁翔坚;林晖;刘翔;韩旭
技术所有人：上海流利说信息技术有限公司
我是此专利的发明人