人工智能交互方法及系统与流程

文档序号:11323274阅读:1107来源:国知局
人工智能交互方法及系统与流程

本发明涉及人工智能技术领域,具体涉及人工智能交互方法及系统。



背景技术:

现有技术中,人工智能基本局限于聊天机器人的范畴,是指计算机软件来模拟具有一定语言功能的程序单元,实现与人进行简单的交流。目前现存的聊天机器人都受限于人工智能领域的研究和实现尚不成熟,本身尚未具有智能功能,只能接收用户的文本输入,同样给出简单的文本回复,与大众想象中的人工智能还相去甚远。



技术实现要素:

针对现有技术中的缺陷,本发明提供的人工智能交互方法及系统,能给予用户在视觉听觉等更多维度的反馈,使交互更加的自然,交互信息更加的丰富。

第一方面,本发明提供的一种人工智能交互方法,包括:根据用户的输入得到文本信息;分析所述文本信息得到回复信息;根据所述回复信息合成回复语音信息;根据所述回复信息调整3d模型中的虚拟形象的动作;通过全息成像技术显示所述虚拟形象,并同步播放所述回复语音信息。

本发明提供的人工智能交互方法,赋予计算机一些较为复杂的模拟智能,使之不仅能够针对用户的语言逻辑做出准确的回答,还能给予用户在视觉听觉等更多维度的反馈,使交互更加的自然,交互信息更加的丰富。本发明提供的方法在客服、咨询、教育、娱乐以及研究等众多领域能够得到广泛应用,弥补人力资源严重不足的同时,让人工智能的使用更自然,大大降低了使用门槛。

优选地,所述根据用户的输入得到文本信息,包括:根据用户通过电子触摸膜输入的信息得到文本信息,或,将用户输入的语音信息转换为文本信息。

优选地,所述将用户输入的语音信息转换为文本信息,包括:将所述语音信息切分为若干帧语音;识别每一帧语音对应的状态;状态相同的多帧语音组合成一个音素;将所述音素组合成单词最终得到文本信息。

优选地,所述将所述语音信息切分为若干帧语音,还包括:将所述语音信息切分为若干帧语音;对每一帧语音进行波形变换后,提取声学特征向量,所述声学特征向量为一个多维特征向量,每一帧语音用一个多维特征向量表示。

优选地,所述识别每一帧语音对应的状态,包括:采用统计学的方法计算某一帧语音对应各个状态的概率,选取概率最大的状态作为该帧语音对应的状态。

优选地,所述分析所述文本信息得到回复信息,包括:将所述文本信息切分为词语;根据切分得到的词语统计所述文本信息在语料库中的概率,记为第一条件概率;将在语料库中每段语料的条件概率与第一条件概率进行匹配,选取最匹配的语料对应的回答作为回复信息。

优选地,所述根据所述回复信息调整3d模型中的虚拟形象的动作,包括:根据所述回复信息匹配工作指令,调取3d模型中与所述动作指令对应的动作画面用于全息显示。

第二方面,本发明提供的一种人工智能交互系统,包括:智能交互输入单元、智能处理单元和智能交互输出单元;

所述智能交互输入单元包括:电子收音设备、语音识别模块;

所述智能交互输出单元包括:音频输出设备、语音合成模块、全息成像模块、全息显示膜;

所述智能处理单元包括:人工智能模块、3d图像算法模块;

所述电子收音设备与所述语音识别模块连接,所述语音识别模块与所述人工智能模块连接;

所述音频输出设备与所述语音合成模块连接,所述语音合成模块与所述人工智能模块连接,所述全息成像模块与所述3d图像算法模块连接;

所述电子收音设备用于采集用户输入的语音信息;

所述语音识别模块用于将用户输入的语音信息转换为文本信息;

所述人工智能模块用于分析所述文本信息得到回复信息,

所述语音合成模块用于根据所述回复信息合成回复语音信息;

所述音频输出设备用于播放所述回复语音信息;

所述3d图像算法模块用于根据所述回复信息调整虚拟形象的动作;

所述全息成像模块用于将所述虚拟形象投影到所述全息显示膜上进行显示。

本发明提供的人工智能交互系统,赋予计算机一些较为复杂的模拟智能,使之不仅能够针对用户的语言逻辑做出准确的回答,还能给予用户在视觉听觉等更多维度的反馈,使交互更加的自然,交互信息更加的丰富。本发明提供的方法在客服、咨询、教育、娱乐以及研究等众多领域能够得到广泛应用,弥补人力资源严重不足的同时,让人工智能的使用更自然,大大降低了使用门槛。

优选地,所述智能输入单元还包括:电子触摸膜,所述电子触摸膜与所述人工智能模块连接,所述电子触摸膜用于采集用户输入的信息得到文本信息,并发送给人工智能模块。

优选地,所述电子触摸膜设置在所述全息显示膜背面。

附图说明

图1为本发明实施例所提供的人工智能交互方法的流程图;

图2为因素与状态时间的关系示意图;

图3为本发明实施例所提供的人工智能交互系统的结构框图。

具体实施方式

下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只是作为示例,而不能以此来限制本发明的保护范围。

需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

如图1所示,本实施例提供了一种人工智能交互方法,包括:

步骤s1,根据用户的输入得到文本信息。

步骤s2,分析文本信息得到回复信息。

步骤s3,根据回复信息合成回复语音信息。

步骤s4,根据回复信息调整3d模型中的虚拟形象的动作。

步骤s5,通过全息成像技术显示虚拟形象,并同步播放回复语音信息。

本实施例例提供的人工智能交互方法,赋予计算机一些较为复杂的模拟智能,使之不仅能够针对用户的语言逻辑做出准确的回答,还能给予用户在视觉听觉等更多维度的反馈,使交互更加的自然,交互信息更加的丰富。

本实施例提供的方法在客服、咨询、教育、娱乐以及研究等众多领域能够得到广泛应用,弥补人力资源严重不足的同时,让人工智能的使用更自然,大大降低了使用门槛。

其中,步骤s1的优选实施方式包括:根据用户通过电子触摸膜输入的信息得到文本信息,或,将用户输入的语音信息转换为文本信息。

通过电子触屏膜来接收用户的触觉信息输入,膜内含有传感器,将电子信号通过传输给人工智能系统。在语音输入受到外部环境干扰的情况下(如出现过度的噪音),可以通过电子触摸模上的软键盘或者手写输入等方式,辅助语音输入生成准确无误的电子文本信息,并将电子文本信息传送给人工智能系统。

其中,为了提高语音识别的准确率,步骤s1中,将用户输入的语音信息转换为文本信息的优选实施方式包括:

步骤s31,将语音信息切分为若干帧语音。

其中,对声音进行分析,需要对语音信息进行分帧,即是把语音信息切开成一小段一小段,每小段成为一帧。使用移动窗函数来进行实现,帧与帧之间一般有交叠。

步骤s32,识别每一帧语音对应的状态。

步骤s33,状态相同的多帧语音组合成一个音素。

步骤s34,将音素组合成单词最终得到文本信息。

其中,单词的发音由音素构成。汉语直接用全部声母和韵母作为音素集,另外汉语识别还分有调无调。状态是比音素更细致的语音单位,通常一个音素划分为3个状态。音素和状态的关系参见图2,图2中,每个小竖条代表一帧,若干帧语音对应一个状态,每三个状态组合成一个音素,若干个音素组合成一个单词,只要知道每帧语音对应哪个状态,语音识别的结果就出来了。

其中,步骤s31还包括:

步骤s311,将语音信息切分为若干帧语音。

步骤s312,对每一帧语音进行波形变换后,提取声学特征向量,声学特征向量为一个多维特征向量,每一帧语音用一个多维特征向量表示。

其中,分帧后语音信息就变成了很多小,但语音信息的波形在时域上几乎没有描述能力,因此必须将波形作变换,采用提取mfcc特征的方法来进行特征提取。mfcc是mel频率倒谱系数的缩写,mel频率是基于人耳听觉特性提出来的,它与hz频率成非线性对应关系,mel频率倒谱系数(mfcc)则是利用它们之间的这种关系,计算得到的hz频谱特征,mfcc已经广泛地应用在语音识别领域。根据人耳的生理特性,把每一帧波形变成一个多维向量,这些向量包含了这帧语音的内容信息,整个过程称为声学特征提取。至此,声音就成了一个12行(设定声学特征为12维)、n列的一个矩阵,称之为观察序列,这里n是总帧数,每一帧都用一个12维的向量表示。

其中,步骤s32的优选实施例方式包括:采用统计学的方法计算某一帧语音对应各个状态的概率,选取概率最大的状态作为该帧语音对应的状态。每帧音素对应哪个状态采用统计学的方法,测算某帧对应哪个状态的概率最大,那这帧就属于哪个状态。

假设语音有1000帧,每帧对应1个状态,每3个状态组合成一个音素,那么大概会组合成300个音素,但这段语音实际上并没有这么多音素。以这样的形式,得到的状态可能根本无法组合成音素。实际上,相邻帧的状态应该大多数都相同才合理,因为每帧很短。通过使用隐马尔可夫模型通过如下步骤来解决这些问题:第一步,构建一个状态网络;第二步,从状态网络中寻找与声音最匹配的路径。

通过这样把结果限制在预先设定的网络中,避免了过多的音素组合。将网络搭建的足够大,以满足对任意文本路径的匹配。但是网络越大,得到较高识别准确率就越难。因此根据实际的使用场景,选择跟搭建合理的网络大小跟结构是有必要的。搭建状态网络,是由单词级网络展开成音素网络,再展开成状态网络,通过在状态网络寻找最佳路径,语音对应这条路径的概率最大。

为了提高语音识别的性能,步骤s32的另一优选实施例方式包括:

步骤s321,拼接相邻帧语音形成包含时序结构信息的输入矢量。

其中,每一帧语音用一个多维特征向量表示。

步骤s322,将输入矢量输入声学模型,得到每一帧语音对应的后验概率。

其中,声学模型采用dnn(深度神经网络)进行架构。其中,dnn使用了至少3层以上的隐层,通过增加隐层数量来进行错层的非线性变换,大大的提升了模型的建模能力。在声学模型中,存有大量的参数,通过这些参数可以得知帧与状态对应的概率。通过积累大量的语料库来训练声学模型以获取这些参数。

其中,dnn的训练方法有多种,本实施例采用交叉熵训练方法,交叉熵是对目标后验概率与实际后验概率间差异度的衡量。交叉熵目标函数为

式中:n为训练样本的数目;为标注的目标概率,其值为0或1;p(yxt)为dnn的实际输出概率。训练样本的标注可以通过使用gmm-hmm做强制对齐得到。迭代更新权重公式为

式中,η为学习率,x为声学特征向量;wl为第l层神经网络的权重矩阵。依照上式更新dnn的权重,寻找使目标函数达到极小值时的权重参数wl。输入向量x经过网络前向传播,网络输出值即为状态后验。

步骤s323,对输出的后验概率利用贝叶斯公式,得到解码识别所需的声学似然概率p(s|x),选取声学似然概率最大的状态作为该帧语音对应的状态。

相比传统的基于隐马尔科夫模型(hiddenmarkovmodel,hmm)和高斯混合模型(gaussianmixturemodel,gmm)构建的语音识别系统,本方法实施例采用dnn模型对语音的观察概率进行建模,不需要对语音数据分布进行假设。另外,近年来硬件设备的革命性进展使得用dnn作为语音识别的模型基础的想法得到了实现,以前需要数周才能完成的试验模拟,现在只需要几个小时便能完成。

其中,为了提高机器人回复的精准度,步骤s2的优选实施方式包括:

步骤s21,将文本信息切分为词语。

步骤s22,根据切分得到的词语统计文本信息在语料库中的条件概率,记为第一条件概率。

其中,语料库中存储有大量的语料和每段语料对应的回答。每段语料都有其对应的条件概率。

步骤s23,将在语料库中每段语料的条件概率与第一条件概率进行匹配,选取最匹配的语料对应的回答作为回复信息。

其中,每段语料的条件概率与第一条件概率进行匹配计算,都会得到一个匹配值;若至少有一个匹配值超过设定的临界值,则比较这几个匹配值,选取匹配值最高的作为最匹配的语料;若所有匹配值均不超过临界值,表示输入的文本信息不在语料库包含的范围内,则采用其它机制对文本信息进行提醒或是警告。其中,临界值的设定根据系统自身而定,若对精确度要求较高,则设定临界值较高,若对精确度要求较低,则可设定较低的临界值。

其中,一个句子的条件概率的计算方法如下:设s表示某一个有意义的句子,由一连串特定顺序排列的词w1,w2,…,wn组成,这里n是句子的长度。

现在,我们想知道s在文本中出现的可能性,也就是数学上所说的s的概率p(s)。

需要一个模型来计算它。既然s=w1,w2,…,wn,那么可以把p(s)展开表示:

p(s)=p(w1,w2,...,wn)

利用条件概率公式,s这个序列出现的概率等于每一个词出现的条件概率相乘,于是p(w1,w2,…,wn)可展开为:

p(w1,w2,...,wn)=p(w1)·p(w2|w1)·p(w3|w1,w2)...p(wn|w1,w2,...,wn-1)

其中,p(w1)表示第一个词w1出现的概率,p(w2|w1)是在已经第一个词的前提下,第二个词出现的概率。以此类推,到了词wn,它的出现概率取决于它前面的所有词。

但是在数学计算上,从第三个词开始,条件概率就已经非常难算了,到最后一个词wn,条件概率p(wn|w1,w2,…,wn-1)几乎无法估算。

这里要用到马尔卡夫假设,每当遇到上述情况时,就假设任意一个词wi出现的概率只同它前面的词wi-1有关,于是问题就得到了解决。于是新的公式可以展开为:

p(s)=p(w1)·p(w2|w1)·p(w3|w2)...p(wi|wi-1)...p(wn|wn-1)

这个公式对应的统计语言模型是二元模型。接下来的问题就是如何估计条件概率p(wi|wi-1),根据它的定义:

并且估算联合概率p(wi-1|wi)和边缘概率p(wi-1),也会变得很简单。因为有了大量的语料库,只要计算wi-1,wi这对词在统计的文本中前后相邻出现了多少次#(wi-1,wi),以及wi-1本身在同样的文本中出现了多少次#(wi-1),然后用两个数分别处以语料库的大小#,即可得到这些词或者二元组的相对频度:

根据大数定理,只要统计量足够,相对频度就等于概率,即

而p(wi-1|wi)就是两个数的比值,再考虑到上面的两个概率有相同的分母,可以约掉,因此条件概率为

考虑到基于文法规则的算法存在的这些劣势,本实施例采用上述统计算法的思想,基本思想与人类学习母语的方法类似,以经验主义的方式,通过大量的语料库(现今已经有大量的机读文本作为语料库的基础,确保了此方法的有效性跟准确度)作为人工智能的经验基础。对遇到的文字信息以经验作为判断,摒弃了繁杂的语法、规则,在确保准确性的同时,降低了整个系统的复杂度,提高了效率。

为了提高系统智能化程度,还采用了学习的机制,当输入的信息与语料库中的所有资料并不相同,但是却在语料库中匹配得到一个确切的回复时,判定这段输入信息属于语料库的相关领域,可将这段输入信息存入语料库中,作为新的语料更新。这样,在使用的过程中,语料库也会得到不断的更新,使用得越多,更新成长的越快,而且确保了学到的新信息都是确切有效的。

为了提高文本信息切分准确度,以提高后续处理的准确性,本实施例利用神经网络处理步骤s21中的文本信息切分问题,具体包括:

步骤s211,将文本信息中的每个字符输入查找表得到每个字符对应的字符向量。

其中,查找表是预先建立的,查找表中,每个字符都对应了一个低维的字符向量,该字符向量可以刻画字与字在语义和语法上的相关性,作为字符的特征成为神经网络的输入。依据查找表可以直接将输入的中文字符转换为字符向量。

步骤s212,将从查询表中提取的字符向量连接成一个向量,将连接的向量输入神经网络模型,为每个字符标注合适的标签。

其中,常用的标签集合为{b,m,e,s},利用这4种标签来捕获词语的边界信息,其中b、m、e表示词语的开头、中间及结尾,s表示该字符单独成词。

其中,虽然rnn已成功应用于语言模型、文本生成等任务中,但由于梯度消失与梯度激增的问题,使得训练一个长距离依赖的rnn较为困难神经网络模型选用。为了解决上述问题,本实施例中的神经网络模型采用长短时记忆网络(longshort-termmemory,lstm),它通过加入记忆单元允许网络学习什么时候“忘记”前导信息以及通过新信息来更新记忆细胞。考虑到输入与对应输出之间的时间延续特点,lstm神经网络可以从数据中学习长距离依赖信息,因此,理论上lstm神经网络更适于完成如分词等序列标注任务。

步骤s213,根据每个字符的标签对文字进行切分。

其中,步骤s4的优选实施方式包括:根据回复信息匹配工作指令,调取3d模型中与动作指令对应的动作画面用于全息显示,使得人机交互过程更加生动有趣。

其中,动作指令指语料库中的回答,针对语料库中的每个回答都预先建立一个虚拟形象的动作画面存入参数库。相较于本系统使用者的输入信息存在着随机性和不可控性等性质,语料库生成的输出信息不是随机的,保证了输出的可控性和确定性,在这种情况下,我们就可以就这些在可控范围内的文字信息进行匹配编译。

要完成一个丰富的语料库产生的回复所对应的参数库,则需要大量的实验数据和实践数据,这是本系统在人工智能处理自然语言的基础上,能够生成生动的对应影像的关键。

为了节省系统中动作画面的存储量,步骤s4的另一优选实施方式包括:根据回复信息匹配3d参数,3d图像模型根据输入的3d参数计算出虚拟形象的变化和新的坐标位置,得到新的虚拟形象用于全息显示。输入的3d参数将多个三维点进行变换以达到对虚拟形象的变换,但是由于变换的可能只是三维物体的一部分,所以只需要输入变换部分的参数即可,其余部分默认是不变的,这样也可节省储存和运算空间。通过实时计算变换的虚拟形象,降低了系统中动作画面的存储量。

通过3d图像模型生成相应的虚拟动画形象的动作跟嘴型,人工智能系统会根据生成的各种不同回复信息,形成不同的指令来调动3d图像算法以改变虚拟形象,如改变虚拟形象的动作跟嘴型。

另外,本实施例中,还会根据回复信息生成字幕,并通过全息成像技术显示给用户,提高回馈信息的准确度和辨识度。

基于与上述人工智能交互方法相同的发明构思,本实施例还提供了一种人工智能交互系统,如图3所示,包括:智能交互输入单元、智能处理单元和智能交互输出单元。

智能交互输入单元包括:电子收音设备、语音识别模块;

智能交互输出单元包括:音频输出设备、语音合成模块、全息成像模块、全息显示膜;

智能处理单元包括:人工智能模块、3d图像算法模块;

电子收音设备与语音识别模块连接,语音识别模块与人工智能模块连接;

音频输出设备与语音合成模块连接,语音合成模块与人工智能模块连接,全息成像模块与3d图像算法模块连接;

电子收音设备用于采集用户输入的语音信息;

语音识别模块用于将用户输入的语音信息转换为文本信息;

人工智能模块用于分析文本信息得到回复信息,

语音合成模块用于根据回复信息合成回复语音信息;

音频输出设备用于播放回复语音信息;

3d图像算法模块用于根据回复信息调整虚拟形象的动作;

全息成像模块用于将虚拟形象投影到全息显示膜上进行显示。

本实施例例提供的人工智能交互系统,赋予计算机一些较为复杂的模拟智能,使之不仅能够针对用户的语言逻辑做出准确的回答,还能给予用户在视觉听觉等更多维度的反馈,使交互更加的自然,交互信息更加的丰富。

本实施例提供的系统在客服、咨询、教育、娱乐以及研究等众多领域能够得到广泛应用,弥补人力资源严重不足的同时,让人工智能的使用更自然,大大降低了使用门槛。

优选地,智能输入单元还包括:电子触摸膜,电子触摸膜与人工智能模块连接,电子触摸膜用于采集用户输入的信息得到文本信息,并发送给人工智能模块。

优选地,电子触摸膜设置在全息显示膜背面。

将电子触屏膜与全息显示膜贴于同一个显示幕墙上,可以更好地显示3d图像,显示幕墙最好为可使光源穿透的介质,以提高3d图像的逼真效果。电子触屏膜与全息显示膜的位置需要对齐,触屏膜需要在使用前进行定点设置和测试,确保使用时触控点位的准确度,调整全息影像模块的光源入射角度,使影像在全息显示膜上呈现的位置与触屏的操控点位相吻合。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1