一种智能交互方法及装置与流程

文档序号：17160944发布日期：2019-03-20 00:42阅读：206来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本发明涉及人工智能技术领域，特别是涉及一种智能交互方法及装置。

背景技术：

随着人工智能技术的发展，各大科技公司分别推出自己研制的智能音箱，并在市场上进行大力度的普及推广。智能音箱正在成为智能家居控制的入口，并且具有自然语言交互的能力，更贴近用户的使用习惯。

目前智能音箱可以采用点播式进行内容播报。点播式通常被用户用来播放音频(音乐、故事、诗词、笑话等)完整的内容，用户可以说出内容的名字，然后智能音箱找到对应的音频并进行播放。

发明人在对现有技术的研究过程中发现，用户对于点播式的优质内容，无法进行更复杂的查询，也无法形成更有趣的互动，比如用户想说：“播放春晚歌曲《岁月》中王菲唱的和声部分”，目前几乎没有智能音箱的技能可以支持。

技术实现要素：

为解决上述技术问题，本发明实施例提供了一种智能交互方法及装置，技术方案如下：

一种智能交互方法，应用于智能音箱，包括：

接收文本内容；

将所述文本内容与每一搜索场景进行匹配，以确定与所述文本内容匹配的音频内容，所述搜索场景包括意图集的提问模板场景、应答上下文场景或句子上下文信息场景；

将所述音频内容返回给用户。

优选地，将文本内容与每一搜索场景进行匹配，以确定与所述文本内容匹配的音频内容，包括：

判断意图集的提问模板中是否有与所述文本内容匹配的提问模板；

若有与所述文本内容匹配的提问模板，获取所述文本内容的意图和关键词的槽值名称；

检索得到与所述匹配的提问模板对应的音频集；

从所述音频集中检索标注有所述意图的子音频集，并从所述子音频集中检索包含所述槽值名称的音频内容，并将所述音频内容返回给用户。

优选地，当没有与所述文本内容匹配的提问模板时，将文本内容与每一搜索场景进行匹配，以确定与所述文本内容匹配的音频内容，还包括：

判断是否能从音频数据库中匹配出与所述文本内容相关的音频上下文；

若能匹配出相关的音频上下文，将所述音频上下文返回给用户。

优选地，若未能匹配出与所述文本内容相关的音频上下文，还包括：

将所述文本内容发送给智能应答服务，并接收所述智能应答服务返回的智能应答结果；

判断是否能从音频数据库中匹配出与所述智能应答结果相似度满足要求的音频；

若能匹配出与所述智能应答结果相似度满足要求的音频，将所述音频返回给用户。

优选地，当没有相似度满足要求的音频上下文时，将文本内容与每一搜索场景进行匹配，以确定与所述文本内容匹配的文本内容，还包括：

提取所述文本内容的关键词；

判断是否能从句子的上下文信息中检索到与所述关键词对应的音频内容；

若是，将检索到的所述音频内容返回给用户。

优选地，还包括：

对于每一部音频作品，将所述音频作品分割为n个音频文件，n为正整数；

将分割出的所述音频文件转换成文本，对所述文本进行属性标注并确定文本的上下文信息，其中对文本进行属性标注包括确定文本的意图和文本的关键词的槽值名称；

存储所述文本。

一种智能交互装置，应用于智能音箱，包括：

语义理解模块和音频搜索模块；

所述语义理解模块，用于接收文本内容；

所述音频搜索模块，用于将所述文本内容与每一搜索场景进行匹配，以确定与所述文本内容匹配的音频内容，所述搜索场景包括意图集的提问模板场景、应答上下文场景或句子上下文信息场景；将所述音频内容返回给用户。

优选地，所述语义理解模块具体用于：

提取所述文本内容的意图和关键词的槽植名称；

相应地，所述音频搜索模块具体用于：

判断意图集的提问模板中是否有与所述文本内容匹配的提问模板；

若有与所述文本内容匹配的提问模板，获取所述文本内容的意图和关键词的槽值名称；

检索得到与所述匹配的提问模板对应的音频集；

从所述音频集中检索标注有所述意图的子音频集，并从所述子音频集中检索包含所述槽值名称的音频内容，并将所述音频内容返回给用户。

优选地，当没有与所述文本内容匹配的提问模板时，所述音频搜索模块还用于：

判断是否能从音频数据库中匹配出与所述文本内容相关的音频上下文；

若能匹配出相关的音频上下文，将所述音频上下文返回给用户。

优选地，若未能匹配出与所述文本内容相关的音频上下文，所述音频搜索模块还用于：

将所述文本内容发送给智能应答服务，并接收所述智能应答服务返回的智能应答结果；

判断是否能从音频数据库中匹配出与所述智能应答结果相似度满足要求的音频；

若能匹配出与所述智能应答结果相似度满足要求的音频，将所述音频返回给用户。

优选地，当没有相似度满足要求的音频上下文时，所述语义理解模块还用于：

提取所述文本内容的关键词；

相应地，所述音频搜索模块还用于：

判断是否能从句子的上下文信息中检索到与所述关键词对应的音频内容；

若是，将检索到的所述音频内容返回给用户。

优选地，还包括：

音频预处理模块，用于对于每一部音频作品，将所述音频作品分割为n个音频文件，n为正整数；将分割出的所述音频文件转换成文本，对所述文本进行属性标注并确定文本的上下文信息，其中对文本进行属性标注包括确定文本的意图和文本的关键词的槽值名称；存储所述文本。

本发明实施例提供的技术方案，设置了多种搜索场景，因此对于用户音频转换而来的文本内容可以与多种搜索场景进行匹配，从而可以实现了对音频的复杂查询，与用户可以形成有趣的互动，提高了用户体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例所提供的一种智能交互方法的一种流程示意图；

图2为本发明实施例所提供的一种智能交互方法的另一种流程示意图；

图3为本发明实施例所提供的一种智能交互方法的另一种流程示意图；

图4为本发明实施例所提供的一种智能交互装置的一种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，图1为本发明实施例提供的一种智能交互方法中音频数据分割和标注的实现流程图，包括：步骤s101、切分音频文件。

一个完整的音频内容文件，如一首歌曲或者一部影视作品的音频。可以按照某规则(如按照每句话分割，或者按照产生音频的角色分割等)。分割的方式可以通过设定静默时间的阈值或者发音者的不同特征，自动进行分割；也可以采用某些编辑软件手工分割。分割后需要进行一些检查核对修复工作。

步骤s102、对切分后的文件进行多种属性的标注。

切分后的音频文件，首先需要获取其对应的文本内容。这些文本内容可以来自音频相关的字幕信息，也可以通过目前的语音转文字服务，由其转换成文字。之后对文本进行属性标注并确定文本的上下文信息。

对文本进行属性标注包括确定文本的意图和文本的关键词的槽值名称。

文本的意图也可以称之为文本的标签，意在表示文本所表达的意图。比如句子内容为“大黄蜂，你做的很好”，表达的就是“评价”或者“鼓励”的意图，比如句子内容“很快，我们就可以控制海洋了，哈哈哈”，表达的是“计划”或者“愿望”这个意图。对于转换而来的文本，可以由人工的方式标注出来文本所对应的一个或者多个意图，有了一定的人工标注数据后，可以交给机器进行学习，机器学习得到模型后，也可以由机器进行意图的标注。

文本的关键词：对于一些意图来说，有些信息可以更完整地描述意图，比如对于“评价”意图来说，“被评价者”这个信息就是一个重要相关信息。对应到上文例子中的“大黄蜂”，就属于“被评价者”信息。把文本中和意图有关的词语或者短语记录出来，作为关键词，也进行记录，并且给与不同类型的关键词，不同的槽值名称。比如还是上文例子中的“大黄蜂”，会被标记成“被评价者：大黄蜂”，对于句子“红蜘蛛，快去把汽车人赶走”，标记出的意图就是“命令”，关键词是“命令对象：红蜘蛛”。这些信息也可以用人工标注或者机器标注的方式来进行。

文本的上下文信息包括：文本所属的作品名称、文本所在的是第几集、这一集的名称、说话人、文本被说出的地点、文本被说出的时间、应答的上句话内容、文本表达的情绪和语气等。这些内容通过人工的形式来标注准确性一般会高一些，但也是可以通过机器学习标注规则后，由机器来标注。

步骤s103、存储切分后的音频文件和标注结果。

每个音频文件及其附属的标注信息，会以格式化的数据形式存储在数据库中，数据库支持按照各种维度和属性的查询，从而可以支持灵活的音频查询方式。

请参阅图2，图2为本发明实施例提供的一种智能交互方法的一种实现流程图，该方法包括：

步骤s201、接收文本内容。

该文本内容由智能音箱对用户输入的音频转换而来。

本实施例的智能音箱可以采用目前市场上的多款智能音箱，如天猫精灵，京东叮咚，小米的小爱同学等，也可以使用自行定制开发的智能音箱，使用智能音箱上已经具有的asr(语音转文字)、tts(文字转语音)、以及音频播放能力，用原汁原味的文本内容作品原声，与用户形成有趣的交流互动。

步骤s202、将文本内容与每一搜索场景进行匹配，以确定与文本内容匹配的音频内容。

搜索场景包括意图集的提问模板场景、应答上下文场景或句子上下文信息场景。可以理解得是，实际应用中，根据用户得需求所设置的搜索场景并不限于以上三种。

本实施例设置多个搜索场景，在确定与文本内容匹配的搜索场景时，可以将文本内容与每一搜索场景逐一匹配，在匹配的过程中，若在某一搜索场景中匹配到文本内容，步骤s202结束，即不再将文本内容与其它未匹配的搜索场景进行匹配。

步骤s203、将音频内容返回给用户。

请参阅图3，图3为本发明实施例提供的一种智能交互方法的另一种实现流程图，该方法包括：

步骤s301、接收文本内容。

步骤s302、判断意图集的提问模板中是否有与文本内容匹配的提问模板，若是，执行步骤s303，否则执行步骤s306。

步骤s303、获取文本内容的意图和关键词的槽值名称。

步骤s304、检索得到与匹配的提问模板对应的音频集。

步骤s305、从音频集中检索标注有所述意图的子音频集，并从所述子音频集中检索包含槽值名称的音频内容，并将音频内容返回给用户。

当匹配到的音频为多个时，随机返回一个音频给用户。

实际应用中为了提高匹配效率，缩小检索范围，在步骤302之前可以根据文本内容确定该文本内容所属的作品名称和发音者信息，发音者信息指的是发出文本内容对应的音频的角色名称，而后可以从具有与文本内容相同的发音者信息、文本内容所属的作品中进行提问模板的匹配以及音频的检索。

步骤s302-步骤s305实现的是将文本内容与意图集的提问模板这一场景进行匹配。

步骤s306、判断是否能从音频数据库中匹配出与文本内容相关的音频上下文，若是执行步骤s307，否则执行步骤s308。

步骤s307、将音频上下文返回给用户。

步骤s308、将文本内容发送给智能应答服务，并接收智能应答服务返回的智能应答结果。

步骤s309、判断是否能从音频数据库中匹配出与智能应答结果相似度满足要求的音频，若是执行步骤s310，否则执行步骤s311。

当从音频数据库中不能直接匹配出与文本内容匹配的音频上下文时，将文本内容发送给目前支持闲聊功能的智能应答服务，根据智能应答服务返回的智能应答结果，到音频信息库中找到与之最相近的内容，并返回给用户。

步骤s310、将音频返回给用户。

步骤s306-步骤s310实现的是将文本内容与应答上下文这一场景进行匹配。

步骤s311、提取文本内容的关键词。

步骤s312、判断是否能从句子的上下文信息中检索到与关键词对应的音频内容，若是，执行步骤s313。

步骤s313、将检索到的音频内容返回给用户。

步骤s311-步骤s313实现的是将文本内容与句子上下文信息这一场景进行匹配。

当文本内容与意图集的提问模板场景、应答上下文场景这两种场景都不匹配时，判断文本内容中是否包括句子上下文信息中的一些内容，比如用户输入中提到了时间、地点等信息，则通过提取文本内容的关键词，并采用关键词在句子上下文信息中进行搜索，得到与用户输入相关的音频。比如用户输入“播放机器猫动画片里大雄在学校里被欺负的声音”，则匹配到作品名称和发音者后，无法命中意图以及上句话内容时，就用用户输入的信息，语义解析出“学校”、“被欺负”等信息，到句子上下文信息中找到与之对应匹配的内容播放。

请参阅图4，图4为本发明实施例提供的一种智能交互装置的一种结构示意图，该结构示意图中的各模块的工作过程参照图1对应的实施例中方法的执行过程，该装置包括：

语义理解模块410和音频搜索模块420；

所述语义理解模块410，用于接收文本内容；

所述音频搜索模块420，用于将所述文本内容与每一搜索场景进行匹配，以确定与所述文本内容匹配的音频内容，所述搜索场景包括意图集的提问模板场景、应答上下文场景或句子上下文信息场景；将所述音频内容返回给用户。

为了能够将文本内容与不同搜索场景进行匹配，在本发明的其他实施例中还可以包括音频预处理模块，用于对于每一部音频作品，以句为单位，采用音频预处理模块将该音频作品分为n个音频文件，将分割出的音频文件转换成文本，对文本进行属性标注并确定文本的上下文信息，最后存储文本。

在本发明的其它实施例中，所述语义理解模块410具体用于：

从所述文本内容中提取所述关键词的槽值名称；

所述音频搜索模块420具体用于：

判断意图集的提问模板中是否有与所述文本内容匹配的提问模板；

若有与所述文本内容匹配的提问模板，获取所述文本内容中的关键词的槽值名称；

检索得到与所述匹配的提问模板对应的音频集；

从所述音频集中检索包含所述槽值名称的音频内容，并将所述音频内容返回给用户。

在本发明的其它实施例中，当没有与所述文本内容匹配的提问模板时，所述音频搜索模块420还用于：

判断是否能从音频数据库中匹配出与所述文本内容相关的音频上下文；

若能匹配出相关的音频上下文，将所述音频上下文返回给用户。

在本发明的其它实施例中，若未能匹配出与所述文本内容相关的音频上下文，所述音频搜索模块420还用于：

将所述文本内容发送给智能应答服务，并接收所述智能应答服务返回的智能应答结果；

判断是否能从音频数据库中匹配出与所述智能应答结果最相近的音频；

若能匹配出与所述智能应答结果最相近的音频，将所述音频返回给用户。

在本发明的其它实施例中，当没有最相近的音频上下文时，所述语义理解模块420还用于：

提取所述文本内容的关键词；

相应地，所述音频搜索模块410还用于：

判断是否能从句子的上下文信息中检索到与所述关键词对应的音频内容；

若是，将检索到的所述音频内容返回给用户。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

对于装置或系统实施例而言，由于其基本相应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置或系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，在没有超过本发明的精神和范围内，可以通过其他的方式实现。当前的实施例只是一种示范性的例子，不应该作为限制，所给出的具体内容不应该限制本发明的目的。例如，所述单元或子单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或多个子单元结合一起。另外，多个单元可以或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

另外，所描述系统，装置和方法以及不同实施例的示意图，在不超出本发明的范围内，可以与其它系统，模块，技术或方法结合或集成。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

以上所述仅是本发明的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：侯桂森
技术所有人：廊坊市森淼春食用菌有限公司
我是此专利的发明人

上一篇：一种路面的泡沫沥青就地冷再生施工方法与流程
上一篇：一种冲孔机的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。