一种基于神经网络的机器自学习构建知识图谱训练方法与流程

文档序号:12724084阅读:444来源:国知局

本发明涉及智能机器人领域,尤其涉及一种基于神经网络的机器自学习构建知识图谱训练方法。



背景技术:

聊天机器人(chatterbot)是一个用来模拟人类对话或聊天的程序。聊天机器人产生的原因是,研发者把自己感兴趣的回答放到数据库中,当一个问题被抛给聊天机器人时,它通过相似度匹配算法,从数据库中找到最相近的问题,然后根据问题与答案的对应关系,给出最贴切的答案,回复给它的聊伴。

然而,在当前机器人聊天的场景中,当在机器人知识库中并不能找到与用户请求的问题相匹配的相同或类似问题时,机器人就不能够给用户返回正确的或者说合适的答案。

现有技术这方面的局限除了导致机器人知识库有限的问题之外,还会导致语义理解的错误,从而使用户与机器人沟通过程的体验较差。此外,在知识推理上现有技术的知识推理过程也有一定局限性,传统的知识推理都是靠程序开发人员写一些规则来解决知识推理问题。但是,要穷举并制定这些规则对于开发人员来说无法想象。因为在自然语言处理领域中永远有写不完的规则。这时就需要机器人有自己的学习能力,并进行推理。



技术实现要素:

本发明设计开发了一种基于神经网络的机器自学习构建知识图谱训练方法,采用阈值语音降噪算法能够获得较小的均方误差,提高了重构语音信号的信噪比。

本发明还有一个目的是采用神经网络训练生成对话模型,利用训练得到的模型,机器人可以自如的跟用户交谈。

本发明提供的技术方案为:

一种基于神经网络的机器自学习构建知识图谱训练方法,包括:

获取用户发送的基于自然情景的语句,采用阈值语音降噪算法对输入语句进行滤波降噪,并获取所述语句的类别,并获取该语句的上文语句,以及所述上文语句的类别;

根据语句所述语句类别,确定匹配的反馈语句;

如果不存在,则根据神经网络对话模型,给出针对用户发送的语句的答案;包括:

所述用户发送语句模型的编码层构建为第一神经网络,在所述第一神经网络中对用户发送语句进行解析,得到用于表示用户发送语句语义的第一中间向量;

所述对话生成模型的解码层构建为第二神经网络,在所述第二神经网络中对所述中间向量进行解析,获得表示语句答案的向量群;以及

所述表示语句答案的向量群作为问题答案输出。

优选的是,在所述第一神经网络中对所述用户发送的语句进行解析时,包括以下步骤:

在编码层将用户输入的语句拆分成具有语义的最小单词元,得到多个单词元,并分别获取每个单词元的属性,挑选包含信息量多的至少一个词语作为中心词,并将其以向量的形式作为问题向量群输入到所述第一神经网络的输入层;

在所述第一神经网络的隐含层对所述第一神经网络的输入层的输出和前一时刻所述第一神经网络的隐含层的输出进行语义解析,并进行线性加权组合,形成代表句义的中间向量。

优选的是,在所述第二神经网络中对所述中间向量进行解析时,包括以下步骤:

在解码层接收所述中间向量,并将所述中间向量作为第二神经网络的输入层输入;

在所述第二神经网络的隐含层对来自输入层的所述中间向量和前一时刻所述第二神经网络的隐含层的输出进行语义解析,依次生成若干单个向量,以形成答案向量群,其中所述答案向量群中的各个单个向量的语义对应于答案输出语句中最小单词元的语义;

在所述第二神经网络的输出层将所述答案向量群进行输出。

优选的是,在将所述答案向量群作为答案输出语句进行输出之后,将该答案输出语句与对话输入语句对应地保存到知识库中,以对知识库进行更新和扩充。

优选的是,在进行知识库匹配计算后,根据知识库中是否存在与所述对话输入语句的匹配度达到预定值的对话语句来设置请求标准信号位,并依据请求标志信号位的有效性来决定是否需要请求对话生成模型给出答案。

优选的是,所述线性加权组合,包括以下步骤:

步骤一:统计用户输入语句中提取出n组中心词语数据组,其中n为正整数,每组中心词语数据组λ天内中心词语出现的概率xi,前一语句中心词语数据组λ天内中心词语出现的概率yi,建立单变量回归模型,

yi=ω′i·xi

其中,i为整数,i=1,2,3......λ,ω′i为λ天中的加权回归系数;

步骤二:采用最小二乘法对步骤一种的公式进行求解,分别计算得到λ天内的回归系数估计值:

其中,为回归系数的估计值;xij为第j组中心词语数据组中第i天中心词语出现的概率;为j组中心词语数据组概率的平均值;yij第j组用户输入语句前一时刻语句中中心词语数据组中第i天;中心词语出现的概率;为j组前一时刻中心词语数据组概率的平均值

步骤三:归一化处理,获得加权后的权重值:

其中,ωi为用户输入语句加权后的权重值。

优选的是,输出搭配需要使用者进行挑选和运用,当输出答案为准确时存储在知识库。

优选的是,所述语音降噪算法,包括:

a,通过端点检测将语音帧区分为静音帧和语音帧;

b,对于静音帧,计算当前帧的功率谱值作为噪声功率谱估计值,对于语音帧,计算语音噪声功率谱估计值;

c,将语音帧的功率谱减去噪声功率谱估计值,得到降噪后的语音功率谱;

d,根据降噪后的语音功率谱得出降噪后的语音帧。

9、根据权利要求8所述的基于神经网络的机器自学习构建知识图谱训练方法,其特征在于,所述语音噪声功率谱估计值计算公式为:

其中,I为噪声功率谱能量;阈值n为噪音信号的帧号;j=1-5为转换系数,e为自然常数;π为圆周率;fc为噪音信号的频率;τ(t)=0.03t2+0.6t+0.1;t为分解尺度,1≤t≤4。

本发明的有益效果

本发明设计开发了一种基于神经网络的机器自学习构建知识图谱训练方法,采用阈值语音降噪算法能够获得较小的均方误差,提高了重构语音信号的信噪比。

本发明还有一个目的是采用神经网络训练生成对话模型,利用训练得到的模型,机器人可以自如的跟用户交谈。

附图说明

图1为本发明所述的基于神经网络的机器自学习构建知识图谱训练方法的流程图。

具体实施方式

下面结合附图对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。

如图1所示,本发明提供的基于神经网络的机器自学习构建知识图谱训练方法,包括:

S100:获取用户发送的基于自然情景的语句,采用阈值语音降噪算法对输入语句进行滤波降噪,并获取所述语句的类别,并获取该语句的上文语句,以及所述上文语句的类别;

S200:根据语句所述语句类别,确定匹配的反馈语句;

S300:如果不存在,则根据神经网络对话模型,给出针对用户发送的语句的答案;包括:

S310:用户发送语句模型的编码层构建为第一神经网络,在第一神经网络中对用户发送语句进行解析,得到用于表示用户发送语句语义的第一中间向量;

S320:对话生成模型的解码层构建为第二神经网络,在所述第二神经网络中对所述中间向量进行解析,获得表示语句答案的向量群;以及

S400:所述表示语句答案的向量群作为问题答案输出。

其中,在步骤S310中第一神经网络中对用户发送的语句进行解析时,包括以下步骤:

S311:在编码层将用户输入的语句拆分成具有语义的最小单词元,得到多个单词元,并分别获取每个单词元的属性,挑选包含信息量多的至少一个词语作为中心词,并将其以向量的形式作为问题向量群输入到第一神经网络的输入层;

S312:在第一神经网络的隐含层对第一神经网络的输入层的输出和前一时刻所述第一神经网络的隐含层的输出进行语义解析,并进行线性加权组合,形成代表句义的中间向量。

在步骤S320中,第二神经网络中对所述中间向量进行解析时,包括以下步骤:

S321:在解码层接收:中间向量,并将中间向量作为第二神经网络的输入层输入;

S322:在第二神经网络的隐含层对来自输入层的所述中间向量和前一时刻第二神经网络的隐含层的输出进行语义解析,依次生成若干单个向量,以形成答案向量群,其中答案向量群中的各个单个向量的语义对应于答案输出语句中最小单词元的语义;

在第二神经网络的输出层将所述答案向量群进行输出。

在另一实施例中,将所述答案向量群作为答案输出语句进行输出之后,将该答案输出语句与对话输入语句对应地保存到知识库中,以对知识库进行更新和扩充。

在另一实施例中,在进行知识库匹配计算后,根据知识库中是否存在与所述对话输入语句的匹配度达到预定值的对话语句来设置请求标准信号位,并依据请求标志信号位的有效性来决定是否需要请求对话生成模型给出答案。

在另一实施例中,步骤S312中线性加权组合,包括以下步骤:

步骤一:统计用户输入语句中提取出n组中心词语数据组,其中n为正整数,每组中心词语数据组λ天内中心词语出现的概率xi,前一语句中心词语数据组λ天内中心词语出现的概率yi,建立单变量回归模型,

yi=ω′i·xi

其中,i为整数,i=1,2,3......λ,ω′i为λ天中的加权回归系数;

步骤二:采用最小二乘法对步骤一种的公式进行求解,分别计算得到λ天内的回归系数估计值:

其中,为回归系数的估计值;xij为第j组中心词语数据组中第i天中心词语出现的概率;为j组中心词语数据组概率的平均值;yij第j组用户输入语句前一时刻语句中中心词语数据组中第i天;中心词语出现的概率;为j组前一时刻中心词语数据组概率的平均值

步骤三:归一化处理,获得加权后的权重值:

其中,ωi为用户输入语句加权后的权重值。

优选的是,输出搭配需要使用者进行挑选和运用,当输出答案为准确时存储在知识库。

在另一实施例中,步骤S100中的阈值语音降噪算法,包括:

a,通过端点检测将语音帧区分为静音帧和语音帧;

b,对于静音帧,计算当前帧的功率谱值作为噪声功率谱估计值,对于语音帧,计算语音噪声功率谱估计值;

c,将语音帧的功率谱减去噪声功率谱估计值,得到降噪后的语音功率谱;

d,根据降噪后的语音功率谱得出降噪后的语音帧。

语音噪声功率谱估计值计算公式为:

其中,I为噪声功率谱能量;阈值n为噪音信号的帧号;j=1-5为转换系数,e为自然常数;π为圆周率;fc为噪音信号的频率;τ(t)=0.03t2+0.6t+0.1;t为分解尺度,1≤t≤4。

即通过语音收集装置,获得关于语音的噪声图谱,通过端点检测将语音帧区分为静音帧和语音帧;对于静音帧,计算当前帧的功率谱值作为噪声功率谱估计值,对于语音帧,计算:

其中,I为噪声功率谱能量;阈值n为噪音信号的帧号;j=1-5为转换系数,e为自然常数;π为圆周率;fc为噪音信号的频率;τ(t)=0.03t2+0.6t+0.1;t为分解尺度,1≤t≤4。

语音噪声功率谱估计值;将语音帧的功率谱减去噪声功率谱估计值,得到降噪后的语音功率谱;根据降噪后的语音功率谱得出降噪后的语音帧。

本发明设计开发了一种基于神经网络的机器自学习构建知识图谱训练方法,采用阈值语音降噪算法能够获得较小的均方误差,提高了重构语音信号的信噪比,并采用神经网络训练生成对话模型,利用训练得到的模型,机器人可以自如的跟用户交谈。

尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1