一种智能语音交互方法、装置、出行终端、设备及介质与流程

文档序号:19998678发布日期:2020-02-22 02:58阅读:229来源:国知局
一种智能语音交互方法、装置、出行终端、设备及介质与流程

本发明涉及语音识别技术领域,具体涉及一种智能语音交互方法、装置、出行终端、设备及介质。



背景技术:

本部分向读者介绍可能与发明实施例的各个方面相关的背景技术,相信能够向读者提供有用的背景信息,从而有助于读者更好地理解本发明实施例的各个方面。因此,可以理解,本部分的说明是用于上述目的,而并非构成对现有技术的承认。

语音技术已经由一门很年轻的计算机技术发展成了一门非常流行、也越来越成熟的技术。未来的计算机的发展趋势是人工智能,让计算机能听、能说,是未来人机交互的重要发展方向,其中语音成为未来最被看好的人机交互方式,而且语音比其他的交互方式有更多的优势。随着人工智能技术的不断进步,人机语音交互也取得了长足的发展,各种语音助手和人机交互设备受到越来越多的用户的青睐。

随着语音识别技术的快速发展,人机交互技术也逐步提升,这使得语音交互的应用领域越来越广泛。智能聊天、服务机器人慢慢进入人们的生活,例如智能音箱、银行智能服务机器人,餐厅智能语音点餐机、语音导航系统等等。一般而言,功能细化的语音交互系统可以取得更好的效果,所以没有一套系统可以应用于各种领域,比如银行的服务机器人不会有丰富的聊天技能,餐厅的点餐机器人也不了解银行的业务。因此,本发明实现的智能聊天服务系统主要应用于闲聊、娱乐,通过搜集问题的反馈方式,不断优化回答问题的质量。此外,由于国内的语音交互系统面向的用户群体主要是国内用户,所以大多不同时兼备和中文交互本领相持衡的中英文混合功能。但是在应用于机场、景点等地区的智能机器人而言,同时进行中英文识别且无需刻意切换模式显得尤为重要。另外一个创新点是当前聊天机器人存在一个问题就是答非所问,即无法根据问题匹配正确的答案,



技术实现要素:

要解决的技术问题是如何提供一种智能语音交互方法、装置、出行终端、设备及介质。

针对现有技术中的缺陷,本发明提供一种智能语音交互方法、装置、出行终端、设备及介质,有效提升语音识别效果,提升了回答结果的准确度。

第一方面,本发明提供了一种智能语音交互方法,包括:

采集第一预定时间段内的声音;

将所述声音识别转换成语音文本;

在语料库中匹配找出与之匹配的回答结果;

输出回答结果。

可选地,所述采集第一预定时间段内的声音包括:

按预定数量的采样点计算第二预定时间段内的能量;

根据所述能量确定当前音频信号是语音/噪音还是静音;

根据静音持续的时间结束录音。

可选地,所述第二预定时间为0.1s。

可选地,所述静音持续的时间为0.5s。

可选地,所述第一预定时间为1.5s。

可选地,所述在语料库中匹配找出与之匹配的回答结果,包括:

通过将识别出来的非中文问题翻译成待匹配中文文本问题;

将所述待匹配中文文本问题匹配对应的中文问题;

将匹配后的中文问题转换成匹配的中文回答;

将中文回答转换成非中文回答。

可选地,所述将所述待匹配中文文本问题匹配对应的中文问题包括:

计算待匹配文本的向量和语料库文体文本向量;

计算匹配文本向量与语料库文体文本向量的余弦相似度;

选择余弦相似度最高的多个匹配结果按照关键词权重再次匹配得到权重匹配结果;

重新对权重匹配结果进行余弦相似度的计算,选出余弦相似度最高的作为最终匹配结果。

可选地,所述计算匹配文本向量与语料库文体文本向量的余弦相似度是按照下式计算的:

其中,cos(v1,v2i)表示余弦相似度v1j表示输入文本的向量;i表示和j表示第i句话第j个字。

可选地,所述权重是按照下式计算的:

其中,αk表示赋予的权重值,k表示词频率排名,k越大,词频率越低,权重越高。

可选地,所述权重值是按照词频计算得到的,词频是按照下式计算的:

其中,ρ表示词的出现频率,k的取值是0或1,某个词在某句话中出现的话k为1,否则为0,n是语料库问题总数。

第二方面,本发明实施例还提供一种智能语音交互装置,包括:

语音采集单元,用于采集第一预定时间段内的声音;

语音转换单元,用于将所述声音识别转换成文本;

答案匹配单元,用于在语料库中匹配找出与之匹配的回答结果;

语音输出单元,用于输出回答结果。

可选地,所述语音采集单元包括:

语音采样模块,用于按预定数量的采样点计算第二预定时间段内的能量

静音识别模块,用于根据所述能量确定当前音频信号是语音/噪音还是静音;

录音控制单元,用于根据静音持续的时间结束录音。

可选地,所述第二预定时间为0.1s。

可选地,所述第一预定时间为1.5s。

可选地,所述答案匹配单元包括:

翻译模块,用于将识别出来的非中文问题翻译成待匹配中文文本问题;

问题匹配模块,用于将所述待匹配中文文本问题匹配对应的中文问题;

答案匹配模块,用于将匹配后的中文问题转换成匹配的中文回答;

答案转换模块,将中文回答转换成非中文回答。

可选地,所述问题匹配模块包括:

向量计算模块,用于计算待匹配文本的向量和语料库文体文本向量;

相似度计算模块,用于计算匹配文本向量与语料库文体文本向量的余弦相似度;

权重匹配单元,用于选择余弦相似度最高的多个匹配结果按照关键词权重再次匹配得到权重匹配结果;

二次匹配单元,用于重新对权重匹配结果进行余弦相似度的计算,选出余弦相似度最高的作为最终匹配结果。

第三方面,本发明实施例还提供一种语音出行装置,其特征在于,所述装置包括上述的智能语音交互装置。

第四方面,本发明实施例还提供一种电子设备,其特征在于,所述电子设备包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述的智能语音交互方法。

第五方面,本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现上述的一种智能语音交互方法。

由上述技术方案可知,本发明实施例提供的一种智能语音交互方法、装置、出行终端、设备及介质,与现有技术相比,通过在录音或语音转换过程中,消除不必要的静音部分,降低数据处理的负担,同语音转换可以可有效降低环境噪音带来的干扰,有效提升语音识别效果;在匹配回答结果时优先剔除容易对匹配结果造成误扰的词语,提升了回答结果的准确度,使得应用更为广泛。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单的介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明一个实施例中智能语音交互方法流程示意图;

图2为图1所示的实施例中采集第一预定时间段内的声音流程示意图;

图3为图1所示的实施例中在语料库中匹配找出与之匹配的回答结果流程示意图;

图4为本发明一个实施例中将所述待匹配中文文本问题匹配对应的中文问题流程示意图;

图5为本发明一个实施例中智能语音交互装置装置结构示意图;

图6为图5所示的实施例中语音采集单元结构示意图;

图7为图5所示的实施例中答案匹配单元结构示意图;

图8为本发明一个实施例中问题匹配模块结构示意图;

图9为本发明一个实施例中运行本说明书实施例的电子设备一种硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例提供一种智能语音交互方法,如图1所示,该方法包括:采集第一预定时间段内的声音;将所述声音识别转换成语音文本;在语料库中匹配找出与之匹配的回答结果;输出回答结果。下面对本发明提供的智能语音交互方法展开详细的说明。

本发明提供的智能语音交互方法,在录音和语音转换过程中消除了不必要的录音,可有效降低环境噪音带来的干扰,有效提升语音识别效果,提升了回答结果的准确度,使得应用更为广泛。

首先,介绍采集第一预定时间段内的声音。

在本发明实施例中,如图2所示,所述采集第一预定时间段内的声音包括:按预定数量的采样点计算第二预定时间段内的能量;根据所述能量确定当前音频信号是语音/噪音还是静音;如果静音持续静音持续的时间,则结束录音。在本发明中,所述第一预定时间可选为1.5s。一般我们向机器人发出语音指令只需要1秒左右的时间,因此该系统考虑到强噪声可能带来的影响,将录音时间限制在1.5秒以内。即如果1.5内无论信号的能量是否一直高于能量判别门限,最长录音时间都是1.5秒。例如,用户对机器发出命令“比如去哪里”,这句话只需要1秒左右,本发明为了险起见设置了1.5秒,正常人在这个时间段内都可以说完这句话如果录音时间长的话就要等待时间比较长。例如,置成10s,意味着用户一秒说完,机器还要等九秒录音才结束,机器才给出指令。按预定数量的采样点计算第二预定时间段内的能量。在本发明实施例中,所述第二预定时间可选为0.1s。在录音程序开始运行之后,选择采样率为16khz,每1600个采样点根据幅度谱计算一次该时间段(0.1秒)内的能量。在本发明实施例中,可以根据设备硬件的实际需要选择,例如可以选择16khz的采样率。当然可以理解,本发明实施例不仅限于此,选更高的采样率需要专业的录音设备,人耳听觉的话8khz以上的频率都够了。进一步地,根据所述能量确定当前音频信号是语音/噪音还是静音。在本发明实施例中,静音持续的时间可选为0.5s。通过设定能量门限阈值判断该时间段内的信号是语音/噪声信号还是静音段,为了避免不断地录制静音,若静音段连续时间超过0.5秒则结束录音。语音信号是短时平稳信号,因此要求语音信号的能量谱需要先对信号进行加窗、分帧,再提取能量。

假设一段,窗函数为w(n),加窗分帧之后为语音信号的能量按照式(1)计算:

其中,x’(n)表示语音信号强度,x(n)表示为语音信号强度,n表示原始信号时间轴上的第n个采样点,m表示样本点,n表示信号长度,w(n)为窗函数。

短时语音的能量是按照式(2)计算的:

其中,e(n)表示语音信号的幅度谱,n表示原始信号时间轴上的第n个采样点,m表示样本点,w(n)为窗函数,x(n)为语音信号强度。本发明实施例可选采用汉明窗函数。

在本发明实施例中,通过设定能量门限阈值判断该时间段内的信号是语音/噪声信号还是静音段,根据能量判断,可以有效区分出是静音还是非静音(噪音、语音),不能区分语音和噪声,能量大的是语音或噪声,能量小的是静音,中间的这个区分二者的值就是判别的阈值。在本法明实施例中,每次录音时间限制在1.5秒内就是为了防止一直在录噪声,录音完成后,将音频文件存为wav格式文件。

其次,介绍将所述声音识别转换成语音文本。

在本发明实施例中,在语音转文字阶段,将第一步录制的语音转换成文本。可选地,可以采用现有的成熟的语音转换方法将语音识别转换成文本,例如,可以采用科大讯飞的语音识别api,无需切换模式,可以直接进行中英文识别,且同时进行中英文识别的准确性不会和单语种识别的准确性相差太多,可以中英文控制。当然可以理解,本发明不仅限于此,其它具有同等语音识别功能的成熟语音识别方法依然可以实现本发明实施例。

再次,介绍在语料库中匹配找出与之匹配的回答结果。

在本发明实施例中,如图3所示,所述在语料库中匹配找出与之匹配的回答结果,包括:通过将识别出来的非中文问题翻译成待匹配中文文本问题;将所述待匹配中文文本问题匹配对应的中文问题;将匹配后的中文问题转换成匹配的中文回答;将中文回答转换成非中文回答。具体地,在本发明实施例中,可以基于现有的成熟的聊天系统实现对问题文本匹配最可靠的回答结果。例如,本发明可以基于图灵聊天系统,图灵聊天系统具有一套较为成熟的聊天回复体系,根据问题文本匹配最可靠的回答结果。但是由于现有的聊天系统,没有非中文或其他语音的聊天功能。本发明为了尽可能的拓展用户的使用范围,无需切换语种的环境下增加了非中文聊天的功能。例如,实现非中文聊天是通过将识别出来的非中文问题翻译成中文文本,再将匹配到的中文回答转换成非中文回答。具体地,在本发明实施例中,根据问题和语料库,使用关键词权重法进行回答结果匹配。如图4所示,将所述待匹配中文文本问题匹配对应的中文问题包括:计算待匹配文本的向量和语料库文体文本向量;计算匹配文本向量与语料库文体文本向量的余弦相似度;选择余弦相似度最高的多个匹配结果按照关键词权重再次匹配得到权重匹配结果;重新对权重匹配结果进行余弦相似度的计算,选出余弦相似度最高的作为最终匹配结果。

在本发明实施例中,可以通过计算输入文本的向量和语料库问题文本的向量,并计算输入文本的向量和语料库问题文本的向量的余弦相似度,找出一定数量的匹配结果。例如,对于问题输入文本和语料库里面保存的问题,通过embedding算法得到输入文本的向量v1,和语料库问题文本的向量v21,v22,v23,...,v2n,计算v1和v2i(i=1,2,...,n)的余弦相似度。所述计算匹配文本向量与语料库文体文本向量的余弦相似度是按照下式(3)计算的:

其中,cos(v1,v2i)表示余弦相似度,v1j表示输入文本的向量;i表示和j表示第i句话第j个字。

在本发明中,选择余弦相似度最高的多个匹配结果按照关键词权重再次匹配得到权重匹配结果;选择余弦相似度最高的前m个匹配结果,利用关键词权重法再次进行匹配,这里关键词比其他词或者字有更大的权重。在现有的方法中,会忽略掉这一点,所有字词有相同的权重。例如对于问题“请告诉我厕所在哪里”和“请告诉我派出所在哪里”,二者的相似度很高,无法突出其中的关键字”厕所”和“派出所”,这种高相似度容易对匹配结果造成勿扰。为了突出关键字,我们要对词进行加权,比如上面两个句子,如果“厕所”和“派出所”的权重比“请”、“在哪里”、“我”这些相对目的性而言不那么重要的词语而言更大的话,那匹配结果的准确性将大大提升。

在本发明中,需要确定哪些词需要赋予小的权重,哪些需要赋予大的权重。对于问题而言,出现次数多的词语其实往往更加对问题无关紧要,比如在和聊天机器人的交互中,用户会经常说出“我”,“会”,“能”,“哪里”这些词,因此,对于词频率高的词语应该赋予更小的权重,词频率低的赋予更大的权重。如此,权重分配方式如下:对于一个用户输入的问题,比如“你叫什么名字”,对这句话中每个词的词频率进行排序,比如“什么”最高,“你”第二,“叫”第三,“名字”第四,则权重大小关系应该是“名字”>“叫”>“你”>“什么”,为了使关键词更突出,对于词频率高的词语应该赋予更小的权重,词频率低的赋予更大的权重。所述权重是按照下式(4)计算的:

其中,αk表示赋予的权重值,k表示词频率排名,k越大,词频率越低,权重越高。

在本发明中,所述权重值是按照词频计算得到的,词频是按照式(5)计算的:

其中,ρ表示词的出现频率,k的取值是0或1,某个词在某句话中出现的话k为1,否则为0,n是语料库问题总数。

在本发明实施例中,通过上述方法按照关键词权重再次匹配得到权重匹配结果;可以有效地排除掉哪些不太重要词语和出现频率更高的词语,可以大大提升匹配结果的准确性。

进一步地,在本发明实施例中,可以重新对权重匹配结果进行余弦相似度的计算,选出余弦相似度最高的作为最终匹配结果。例如,重新对筛选出来的m个结果进行余弦相似度的计算,选出余弦相似度最高的作为最终的匹配结果。

在本发明实施例中,为了进一步完善语料库,将用户的语音输入存储起来,例如,对于搜集到的问题语音文件,将其转换成文本文件,从文本中筛选出现频率最高的关键字或关键词,人工检测针对这些关键词的提问,如果根据系统匹配的结果不能满足我们想要的回答需求,则更新对此题的回答。

在本发明实施例中,选出余弦相似度最高的作为最终匹配结果,将将匹配后的中文问题转换成匹配的中文回答;例如可以利用现有的语料库找出问题对应的回答文本,进一步将中文回答转换成非中文回答文本。

最后,将输出的回答文本合成语音并输出。

在本发明的一个实施例中,将输出的回答文本合成语音并输出。例如将,将非中文问题匹配后的回答文本转换成语音输出。例如,可以将文本结果合成语音,保存为wav文件,并播放出来给用户。

本发明实施例的技术方案,通过在录音或语音转换过程中,消除不必要的静音部分,降低数据处理的负担,同语音转换可以可有效降低环境噪音带来的干扰,有效提升语音识别效果;在匹配回答结果时优先剔除容易对匹配结果造成误扰的词语,提升了回答结果的准确度,使得应用更为广泛。

为进一步体现本发明提供的一种智能语音交互方法的优越性,如图5所示,本发明还提供一种应用上述一种智能语音交互方法的智能语音交互装置,该装置包括:语音采集单元,用于采集第一预定时间段内的声音;语音转换单元,用于将所述声音识别转换成文本;答案匹配单元,用于在语料库中匹配找出与之匹配的回答结果;语音输出单元,用于输出回答结果。下面对本发明提供的智能语音交互装置展开详细的说明。

本发明提供的智能语音交互装置与上述智能语音交互方法采用了相同的发明构思,能够取得相同的有益效果,具体方法和步骤可以参照上述方法,该装置在录音和语音转换过程中消除了不必要的录音,可有效降低环境噪音带来的干扰,有效提升语音识别效果;在匹配回答结果时优先剔除容易对匹配结果造成误扰的词语,提升了回答结果的准确度,使得应用更为广泛。

为了便于理解本申请的方案,可以参见图6,所述语音采集单元包括:语音采样模块,用于按预定数量的采样点计算第二预定时间段内的能量;静音识别模块,用于根据所述能量确定当前音频信号是语音/噪音还是静音;录音控制单元,用于根据静音持续的时间结束录音。在本发明中,所述第一预定时间可选为1.5s。一般我们向机器人发出语音指令只需要1秒左右的时间,因此该系统考虑到强噪声可能带来的影响,将录音时间限制在1.5秒以内。即如果1.5内无论信号的能量是否一直高于能量判别门限,最长录音时间都是1.5秒。例如,用户对机器发出命令“比如去哪里”,这句话只需要1秒左右,本发明为了险起见设置了1.5秒,正常人在这个时间段内都可以说完这句话如果录音时间长的话就要等待时间比较长。例如,置成10s,意味着用户一秒说完,机器还要等九秒录音才结束,机器才给出指令。按预定数量的采样点计算第二预定时间段内的能量。在本发明实施例中,所述第二预定时间可选为0.1s。在录音程序开始运行之后,选择采样率为16khz,每1600个采样点根据幅度谱计算一次该时间段(0.1秒)内的能量。在本发明实施例中,可以根据设备硬件的实际需要选择,例如可以选择16khz的采样率。当然可以理解,本发明实施例不仅限于此,选更高的采样率需要专业的录音设备,人耳听觉的话8khz以上的频率都够了。进一步地,根据所述能量确定当前音频信号是语音/噪音还是静音。在本发明实施例中,静音持续的时间可选为0.5s。通过设定能量门限阈值判断该时间段内的信号是语音/噪声信号还是静音段,为了避免不断地录制静音,若静音段连续时间超过0.5秒则结束录音。语音信号是短时平稳信号,因此要求语音信号的能量谱需要先对信号进行加窗、分帧,再提取能量。在本发明实施例中,通过设定能量门限阈值判断该时间段内的信号是语音/噪声信号还是静音段,根据能量判断,可以有效区分出是静音还是非静音(噪音、语音),不能区分语音和噪声,能量大的是语音或噪声,能量小的是静音,中间的这个区分二者的值就是判别的阈值。在本法明实施例中,每次录音时间限制在1.5秒内就是为了防止一直在录噪声,录音完成后,将音频文件存为wav格式文件。

在本发明实施例中,在语音转文字阶段,通过语音转换单元将所述声音识别转换成文本。可选地,可以采用现有的成熟的语音转换方法将语音识别转换成文本,例如,可以采用科大讯飞的语音识别api,无需切换模式,可以直接进行中英文识别,且同时进行中英文识别的准确性不会和单语种识别的准确性相差太多,可以中英文控制。当然可以理解,本发明不仅限于此,其它具有同等语音识别功能的成熟语音识别方法依然可以实现本发明实施例。

为了便于理解本申请的方案,可以参见图7,所述答案匹配单元包括:翻译模块,用于将识别出来的非中文问题翻译成待匹配中文文本问题;问题匹配模块,用于将所述待匹配中文文本问题匹配对应的中文问题;答案匹配模块,用于将匹配后的中文问题转换成匹配的中文回答;答案转换模块,将中文回答转换成非中文回答。具体地,在本发明实施例中,可以基于现有的成熟的聊天系统实现对问题文本匹配最可靠的回答结果。例如,本发明可以基于图灵聊天系统,图灵聊天系统具有一套较为成熟的聊天回复体系,根据问题文本匹配最可靠的回答结果。但是由于现有的聊天系统,没有非中文或其他语音的聊天功能。本发明为了尽可能的拓展用户的使用范围,无需切换语种的环境下增加了非中文聊天的功能。例如,实现非中文聊天是通过将识别出来的非中文问题翻译成中文文本,再将匹配到的中文回答转换成非中文回答。具体地,在本发明实施例中,根据问题和语料库,使用关键词权重法进行回答结果匹配。如图8所示,所述问题匹配模块包括:向量计算模块,用于计算待匹配文本的向量和语料库文体文本向量;相似度计算模块,用于计算匹配文本向量与语料库文体文本向量的余弦相似度;权重匹配单元,用于选择余弦相似度最高的多个匹配结果按照关键词权重再次匹配得到权重匹配结果;二次匹配单元,用于重新对权重匹配结果进行余弦相似度的计算,选出余弦相似度最高的作为最终匹配结果。

在本发明实施例中,可以通过计算输入文本的向量和语料库问题文本的向量,并计算输入文本的向量和语料库问题文本的向量的余弦相似度,找出一定数量的匹配结果。例如,对于问题输入文本和语料库里面保存的问题,通过embedding算法得到输入文本的向量v1,和语料库问题文本的向量v21,v22,v23,...,v2n,计算v1和v2i(i=1,2,...,n)的余弦相似度。

在本发明中,选择余弦相似度最高的多个匹配结果按照关键词权重再次匹配得到权重匹配结果;选择余弦相似度最高的前m个匹配结果,利用关键词权重法再次进行匹配,这里关键词比其他词或者字有更大的权重。在现有的方法中,会忽略掉这一点,所有字词有相同的权重。例如对于问题“请告诉我厕所在哪里”和“请告诉我派出所在哪里”,二者的相似度很高,无法突出其中的关键字“厕所”和“派出所”,这种高相似度容易对匹配结果造成勿扰。为了突出关键字,我们要对词进行加权,比如上面两个句子,如果“厕所”和“派出所”的权重比“请”、“在哪里”、“我”这些相对目的性而言不那么重要的词语而言更大的话,那匹配结果的准确性将大大提升。

在本发明中,需要确定哪些词需要赋予小的权重,哪些需要赋予大的权重。对于问题而言,出现次数多的词语其实往往更加对问题无关紧要,比如在和聊天机器人的交互中,用户会经常说出“我”,“会”,“能”,“哪里”这些词,因此,对于词频率高的词语应该赋予更小的权重,词频率低的赋予更大的权重。如此,权重分配方式如下:对于一个用户输入的问题,比如“你叫什么名字”,对这句话中每个词的词频率进行排序,比如“什么”最高,“你”第二,“叫”第三,“名字”第四,则权重大小关系应该是“名字”>“叫”>“你”>“什么”,为了使关键词更突出,对于词频率高的词语应该赋予更小的权重,词频率低的赋予更大的权重。

在本发明实施例中,通过上述方法按照关键词权重再次匹配得到权重匹配结果;可以有效地排除掉哪些不太重要词语和出现频率更高的词语,可以大大提升匹配结果的准确性。

进一步地,在本发明实施例中,可以重新对权重匹配结果进行余弦相似度的计算,选出余弦相似度最高的作为最终匹配结果。例如,重新对筛选出来的m个结果进行余弦相似度的计算,选出余弦相似度最高的作为最终的匹配结果。

在本发明实施例中,为了进一步完善语料库,将用户的语音输入存储起来,例如,对于搜集到的问题语音文件,将其转换成文本文件,从文本中筛选出现频率最高的关键字或关键词,人工检测针对这些关键词的提问,如果根据系统匹配的结果不能满足我们想要的回答需求,则更新对此题的回答。

在本发明实施例中,选出余弦相似度最高的作为最终匹配结果,将将匹配后的中文问题转换成匹配的中文回答;例如可以利用现有的语料库找出问题对应的回答文本,进一步将中文回答转换成非中文回答文本。

在本发明实施例中,语音输出单元,用于输出回答结果。在本发明的一个实施例中,将输出的回答文本合成语音并输出。例如将,将非中文问题匹配后的回答文本转换成语音输出。例如,可以将文本结果合成语音,保存为wav文件,并播放出来给用户。

本发明实施例的技术方案,通过在录音或语音转换过程中,消除不必要的静音部分,降低数据处理的负担,同语音转换可以可有效降低环境噪音带来的干扰,有效提升语音识别效果;在匹配回答结果时优先剔除容易对匹配结果造成误扰的词语,提升了回答结果的准确度,使得应用更为广泛。

为进一步体现本发明提供的一种智能语音交互装置的优越性,本发明还提供一种应用上述一种智能语音交互装置的语音出行装置,所述装置包括所述智能语音交互装置。本发明提供的语音出行装置与上述智能语音交互装置采用了相同的发明构思,能够取得相同的有益效果,具体方法和步骤可以参照上述装置、方法执行,再次就不再一一赘述了。

本发明实施例还提供一种电子设备,包括所述电子设备包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如下的操作指令:采集第一预定时间段内的声音;将所述声音识别转换成文本;按照预定的工作分类对语音识别结果分析识别出目标词汇;输出匹配识别的目标词汇。需要说明的是,尽管上述设备仅示出了处理器、存储器以及总线,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。在本发明实施例中,操作的指令可以参照上述智能语音交互方法的流程执行,在此不再赘述。

本说明书一种电子设备的实施例可以应用在计算机设备。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在计算机设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图9所示,为本说明书一种电子设备所在计算机设备的一种硬件结构图,除了图9所示的处理器(processor)、存储器(memory)、内存、通信接口(communicationsinterface)、以及非易失性存储器之外,实施例中电子设备所在的计算机设备通常根据该设备的实际功能,还可以包括用于实现网络通信功能的板卡等其他硬件对此不再赘述。当然,除了软件实现方式之外,本说明书一个或多个实施例并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。

处理器可以采用通用的cpu(centralprocessingunit,中央处理器)、微处理器、应用专用集成电路(applicationspecificintegratedcircuit,asic)、或者是被配置成实施本发明实施例的一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。终端设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个cpu;也可以是不同类型的处理器,如一个或多个cpu以及一个或多个asic。

通信接口用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如usb、网线等)实现通信,也可以通过无线方式(例如移动网络、wifi、蓝牙等)实现通信。

总线包括一通路,在设备的各个组件(例如处理器、存储器、输入/输出接口和通信接口)之间传输信息。总线可以包括任意数量的互联的总线和桥,总线将包括由处理器代表的一个或多个处理器和存储器代表的存储器的各种电路链接在一起。总线表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(isa)总线,微通道体系结构(mac)总线,增强型isa总线、视频电子标准协会(vesa)局域总线以及外围组件互连(pci)总线。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。处理器负责管理总线和通常的处理,而存储器可以被用于存储处理器在执行操作时所使用的数据。

存储器用于存放程序,存储器可以包括rom(readonlymemory,只读存储器)、ram(randomaccessmemory,随机存取存储器)、静态存储设备,动态存储设备等计算机系统可读存储介质形式实现。也可能还包括非易失性存储器(non-volatilememory)等计算机系统可读存储介质形式实现,例如随机存取存储器(ram)和/或高速缓存存储器。终端可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统可以用于读写不可移动的、非易失性磁存储介质(图中未显示,通常称为“硬盘驱动器”)。尽管图中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如cd-rom,dvd-rom或者其它光存储介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据存储介质接口与总线相连。存储器可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。具有一组(至少一个)程序模块的程序/实用工具,可以存储在例如存储器中,这样的程序模块包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块通常执行本发明所描述的实施例中的功能和/或方法。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram)。内存是计算机可读介质的示例。

终端也可以与一个或多个外部终端(例如键盘、指向终端、显示器等)通信,还可与一个或者多个使得用户能与该终端交互的终端通信,和/或与使得该终端能与一个或多个其它计算终端进行通信的任何终端(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口进行。并且,终端还可以通过网络适配器与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图所示,网络适配器通过总线与终端的其它模块通信。应当明白,尽管图中未示出,可以结合终端使用其它硬件和/或软件模块,包括但不限于:微代码、终端驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。

处理器通过运行存储在系统存储器中的多个程序中其他程序的至少一个,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的一种智能语音交互方法。

本发明实施例还提供一种计算机程序,具体地,程序可以包括程序代码,该程序代码包括计算机操作指令。程序具体可以用于使得处理器执行以下操作:采集第一预定时间段内的声音;将所述声音识别转换成文本;按照预定的工作分类对语音识别结果分析识别出目标词汇;输出匹配识别的目标词汇。在本发明中,计算机程序可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或终端上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

本说明书的实施例提供了一种计算机可读存储介质,该存储介质上存储有计算机程序,这些计算机程序在被处理器运行时,执行本说明书实施例中上述智能语音交互方法的各个步骤。智能语音交互实现方法的各个步骤的详细描述请参见之前的内容,不再重复。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。

本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的存储介质的任意组合。计算机可读存储介质可以是计算机可读信号存储介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明实施例中,计算机可读存储介质可以是任何包含或存储程序的有形存储介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号存储介质还可以是计算机可读存储介质以外的任何计算机可读存储介质,该计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读存储介质上包含的程序代码可以用任何适当的存储介质传输,包括——但不限于无线、电线、光缆、rf等等,或者上述的任意合适的组合。

综上所述,本发明实施例提供的智能语音交互方法、装置、出行终端、设备及介质,与现有技术相比,通过在录音或语音转换过程中,消除不必要的静音部分,降低数据处理的负担,同语音转换可以可有效降低环境噪音带来的干扰,有效提升语音识别效果;在匹配回答结果时优先剔除容易对匹配结果造成误扰的词语,提升了回答结果的准确度,使得应用更为广泛。

上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(programmablelogicdevice,pld)(例如现场可编程门阵列(fieldprogrammablegatearray,fpga))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片pld上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logiccompiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(hardwaredescriptionlanguage,hdl),而hdl也并非仅有一种,而是有许多种,如abel(advancedbooleanexpressionlanguage)、ahdl(alterahardwaredescriptionlanguage)、confluence、cupl(cornelluniversityprogramminglanguage)、hdcal、jhdl(javahardwaredescriptionlanguage)、lava、lola、myhdl、palasm、rhdl(rubyhardwaredescriptionlanguage)等,目前最普遍使用的是vhdl(very-high-speedintegratedcircuithardwaredescriptionlanguage)与verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器或处理器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(applicationspecificintegratedcircuit,asic)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:arc625d、atmelat91sam、microchippic18f26k20以及siliconelabsc8051f320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书一个或多个实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机、也可装载到计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令执行一系列操作步骤以产生计算机实现的处理,产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,在实施本说明书实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。

本发明的说明书中,说明了大量具体细节。然而能够理解的是,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。类似地,应当理解,为了精简本发明公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释呈反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。本发明并不局限于任何单一的方面,也不局限于任何单一的实施例,也不局限于这些方面和/或实施例的任意组合和/或置换。而且,可以单独使用本发明的每个方面和/或实施例或者与一个或更多其他方面和/或其实施例结合使用。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同/相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备实施例、装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行任何明显的变化、重新调整、修改、等同替换、改进等;而这些任何明显的变化、重新修改、等同替换、改进等,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1