文本推理方法及装置与流程

文档序号:30061857发布日期:2022-05-17 23:49阅读:86来源:国知局
文本推理方法及装置与流程

1.本技术涉及计算机技术的人工智能领域,特别涉及一种文本推理方法。本技术同时涉及一种文本推理装置、一种计算设备,以及一种计算机可读存储介质。


背景技术:

2.人工智能(artificial intelligence;ai)是指已工程化(即设计并制造)的系统感知环境的能力,以及获取、处理、应用和表示知识的能力。自然语言处理、机器人、计算机视觉成为了人工智能最为热门的三个产业方向。人工智能领域关键技术的发展状况,包括机器学习、知识图谱、自然语言处理、计算机视觉、人机交互、生物特征识别、虚拟现实/增强现实等关键技术。自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,涉及的领域较多,主要包括机器翻译、机器阅读理解和问答系统等。机器翻译技术是指利用计算机技术实现从一种自然语言到另外一种自然语言的翻译过程。
3.随着互联网技术的发展,文本推理越来越依赖于互联网进行,文本推理是对文本进行分析、理解、提取等处理的过程,文本推理能够帮助人们进行文本理解、集聚分析、文摘生成、信息提取等操作。因此,文本推理已被广泛的应用于人们日常生活的各个领域。
4.现有技术中,一般使用语言模型进行文本推理,语言模型一般在大规模语料下进行预训练,使用时,根据下游任务接上不同组件,实现文本推理过程。然而,目前语言模型结构单一,基于语言模型获得的文本推理结果的正确率较差,极大影响了文本推理结果的准确性。


技术实现要素:

5.有鉴于此,本技术实施例提供了一种文本推理方法,以解决现有技术中存在的技术缺陷。本技术实施例同时提供了一种文本推理装置,一种计算设备,以及一种计算机可读存储介质。
6.根据本技术实施例的第一方面,提供了一种文本推理方法,包括:
7.获取待推理文本,将待推理文本输入编码器,获得待推理文本的编码向量;
8.将编码向量和目标词组输入第一解码器,获得第一嵌入向量,将目标词组输入第二解码器,得到第二嵌入向量,其中,目标词组包括已经推理得到的输出词;
9.对第一嵌入向量和第二嵌入向量进行加和,将加和结果经输出层获得当前推理的输出词;
10.基于当前推理的输出词,更新目标词组,返回执行将编码向量和目标词组输入第一解码器,获得第一嵌入向量,将目标词组输入第二解码器,得到第二嵌入向量;
11.在当前推理的输出词携带结束标签的情况下,确定目标词组中的输出词组成待推理文本的推理结果。
12.可选地,第二解码器为预训练语言模型。
13.可选地,目标词组中的首位字符为开始标签;
14.在初始情况下,将编码向量和目标词组输入第一解码器,获得第一嵌入向量,将目标词组输入第二解码器,得到第二嵌入向量的步骤,包括:
15.将编码向量和开始标签输入第一解码器,获得第一嵌入向量,将开始标签输入第二解码器,获得第二嵌入向量;
16.基于当前推理的输出词,更新目标词组的步骤,包括:
17.将当前推理的输出词作为新增字符,增加至目标词组中;
18.确定目标词组中的输出词组成待推理文本的推理结果的步骤,包括:
19.将目标词组中的输出词,按照被推理出的先后顺序进行合并,得到待推理文本的推理结果。
20.可选地,对第一嵌入向量和第二嵌入向量进行加和,将加和结果经输出层获得当前推理的输出词的步骤,包括:
21.获取针对第一解码器预先设置的第一权重系数,以及针对第二解码器预先设置的第二权重系数;
22.利用第一权重系数和第二权重系数,对第一嵌入向量和第二嵌入向量进行加权,将加权结果经输出层获得当前推理的输出词。
23.可选地,编码器、第一解码器和第二解码器的训练方式,包括:
24.获取样本集,样本集中包括多个样本文本以及各样本文本分别对应的目标文本;
25.提取第一样本文本,将第一样本文本输入编码器,得到第一样本文本的第一样本编码向量;
26.将第一样本编码向量和第一目标词组输入第一解码器,获得第一样本嵌入向量,将第一目标词组输入第二解码器,获得第二样本嵌入向量,其中,第一目标词组包括针对第一样本文本已经推理得到的输出词;
27.对第一样本嵌入向量和第二样本嵌入向量进行加和,将加和结果经输出层获得第一当前输出词;
28.基于第一当前输出词,更新第一目标词组,返回执行将第一样本编码向量和第一目标词组输入第一解码器,获得第一样本嵌入向量,将第一目标词组输入第二解码器,获得第二样本嵌入向量;
29.在第一当前输出词携带结束标签的情况下,确定第一目标词组中的输出词组成第一样本文本的第一推理结果;
30.根据第一推理结果和第一样本文本对应的第一目标文本,对编码器、第一解码器和第二解码器进行训练,获得训练后的编码器、第一解码器和第二解码器。
31.可选地,根据第一推理结果和第一样本文本对应的第一目标文本,对编码器、第一解码器和第二解码器进行训练,获得训练后的编码器、第一解码器和第二解码器的步骤,包括:
32.计算第一推理结果与第一样本文本对应的第一目标文本的第一差异值;
33.若第一差异值大于第一预设阈值,则调整编码器、第一解码器以及第二解码器的模型参数,并返回执行提取第一样本文本,将第一样本文本输入编码器,得到第一样本文本的第一样本编码向量;
34.若第一差异值小于或等于第一预设阈值,则停止训练,获得训练后的编码器、第一解码器和第二解码器。
35.可选地,第二解码器为预先已训练完成;
36.编码器和第一解码器的训练方式,包括:
37.获取样本集,样本集中包括多个样本文本以及各样本文本分别对应的目标文本;
38.提取第二样本文本,将第二样本文本输入编码器,得到第二样本文本的第二样本编码向量;
39.将第二样本编码向量和第二目标词组输入第一解码器,获得第三样本嵌入向量,将第二目标词组输入第二解码器,获得第四样本嵌入向量,其中,第二目标词组包括针对第二样本文本已经推理得到的输出词;
40.对第三样本嵌入向量和第四样本嵌入向量进行加和,将加和结果经输出层获得第二当前输出词;
41.基于第二当前输出词,更新第二目标词组,返回执行将第二样本编码向量和第二目标词组输入第一解码器,获得第三样本嵌入向量,将第二目标词组输入第二解码器,获得第四样本嵌入向量;
42.在第二当前输出词携带结束标签的情况下,确定第二目标词组中的输出词组成第二样本文本的第二推理结果;
43.根据第二推理结果和第二样本文本对应的第二目标文本,对编码器和第一解码器进行训练,获得训练后的编码器和第一解码器。
44.可选地,根据第二推理结果和第二样本文本对应的第二目标文本,对编码器和第一解码器进行训练,获得训练后的编码器和第一解码器的步骤,包括:
45.计算第二推理结果和第二样本文本对应的第二目标文本的第二差异值;
46.若第二差异值大于第二预设阈值,则调整编码器和第一解码器的模型参数,保持第二解码器的模型参数不变,并返回执行提取第二样本文本,将第二样本文本输入编码器,得到第二样本文本的第二样本编码向量;
47.若第二差异值小于或等于第二预设阈值,则停止训练,获得训练后的编码器和第一解码器。
48.根据本技术实施例的第二方面,提供了一种文本推理装置,包括:
49.编码向量获得模块,被配置为获取待推理文本,将待推理文本输入编码器,获得待推理文本的编码向量;
50.嵌入向量获得模块,被配置为将编码向量和目标词组输入第一解码器,获得第一嵌入向量,将目标词组输入第二解码器,得到第二嵌入向量,其中,目标词组包括已经推理得到的输出词;
51.输出词获得模块,被配置为对第一嵌入向量和第二嵌入向量进行加和,将加和结果经输出层获得当前推理的输出词;
52.更新模块,被配置为基于当前推理的输出词,更新目标词组,返回执行将编码向量和目标词组输入第一解码器,获得第一嵌入向量,将目标词组输入第二解码器,得到第二嵌入向量;
53.推理结果确定模块,被配置为在当前推理的输出词携带结束标签的情况下,确定
目标词组中的输出词组成待推理文本的推理结果。
54.可选地,第二解码器为预训练语言模型。
55.可选地,目标词组中的首位字符为开始标签;
56.在初始情况下,嵌入向量获得模块,进一步被配置为将编码向量和开始标签输入第一解码器,获得第一嵌入向量,将开始标签输入第二解码器,获得第二嵌入向量;
57.更新模块,进一步被配置为将当前推理的输出词作为新增字符,增加至目标词组中;
58.推理结果确定模块,进一步被配置为将目标词组中的输出词,按照被推理出的先后顺序进行合并,得到待推理文本的推理结果。
59.可选地,输出词获得模块,进一步被配置为获取针对第一解码器预先设置的第一权重系数,以及针对第二解码器预先设置的第二权重系数;利用第一权重系数和第二权重系数,对第一嵌入向量和第二嵌入向量进行加权,将加权结果经输出层获得当前推理的输出词。
60.可选地,该装置还包括:第一训练模块,被配置为获取样本集,样本集中包括多个样本文本以及各样本文本分别对应的目标文本;提取第一样本文本,将第一样本文本输入编码器,得到第一样本文本的第一样本编码向量;将第一样本编码向量和第一目标词组输入第一解码器,获得第一样本嵌入向量,将第一目标词组输入第二解码器,获得第二样本嵌入向量,其中,第一目标词组包括针对第一样本文本已经推理得到的输出词;对第一样本嵌入向量和第二样本嵌入向量进行加和,将加和结果经输出层获得第一当前输出词;基于第一当前输出词,更新第一目标词组,返回执行将第一样本编码向量和第一目标词组输入第一解码器,获得第一样本嵌入向量,将第一目标词组输入第二解码器,获得第二样本嵌入向量;在第一当前输出词携带结束标签的情况下,确定第一目标词组中的输出词组成第一样本文本的第一推理结果;根据第一推理结果和第一样本文本对应的第一目标文本,对编码器、第一解码器和第二解码器进行训练,获得训练后的编码器、第一解码器和第二解码器。
61.可选地,第一训练模块,进一步被配置为计算第一推理结果与第一样本文本对应的第一目标文本的第一差异值;若第一差异值大于第一预设阈值,则调整编码器、第一解码器以及第二解码器的模型参数,并返回执行提取第一样本文本,将第一样本文本输入编码器,得到第一样本文本的第一样本编码向量;若第一差异值小于或等于第一预设阈值,则停止训练,获得训练后的编码器、第一解码器和第二解码器。
62.可选地,第二解码器为预先已训练完成;
63.该装置还包括:第二训练模块,被配置为获取样本集,样本集中包括多个样本文本以及各样本文本分别对应的目标文本;提取第二样本文本,将第二样本文本输入编码器,得到第二样本文本的第二样本编码向量;将第二样本编码向量和第二目标词组输入第一解码器,获得第三样本嵌入向量,将第二目标词组输入第二解码器,获得第四样本嵌入向量,其中,第二目标词组包括针对第二样本文本已经推理得到的输出词;对第三样本嵌入向量和第四样本嵌入向量进行加和,将加和结果经输出层获得第二当前输出词;基于第二当前输出词,更新第二目标词组,返回执行将第二样本编码向量和第二目标词组输入第一解码器,获得第三样本嵌入向量,将第二目标词组输入第二解码器,获得第四样本嵌入向量;在第二当前输出词携带结束标签的情况下,确定第二目标词组中的输出词组成第二样本文本的第
二推理结果;根据第二推理结果和第二样本文本对应的第二目标文本,对编码器和第一解码器进行训练,获得训练后的编码器和第一解码器。
64.可选地,第二训练模块,进一步被配置为计算第二推理结果和第二样本文本对应的第二目标文本的第二差异值;若第二差异值大于第二预设阈值,则调整编码器和第一解码器的模型参数,保持第二解码器的模型参数不变,并返回执行提取第二样本文本,将第二样本文本输入编码器,得到第二样本文本的第二样本编码向量;若第二差异值小于或等于第二预设阈值,则停止训练,获得训练后的编码器和第一解码器。
65.根据本技术实施例的第三方面,提供了一种计算设备,包括:
66.存储器和处理器;
67.所述存储器用于存储计算机可执行指令,所述处理器执行所述计算机可执行指令时实现所述文本推理方法的步骤。
68.根据本技术实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现所述文本推理方法的步骤。
69.根据本技术实施例的第五方面,提供了一种芯片,其存储有计算机指令,该指令被芯片执行时实现所述文本推理方法的步骤。
70.本技术提供的文本推理方法,可以将待推理文本输入编码器,获得待推理文本的编码向量,将编码向量和目标词组输入第一解码器,获得第一嵌入向量,将目标词组输入第二解码器,得到第二嵌入向量,对第一嵌入向量和第二嵌入向量进行加和,将加和结果经输出层获得当前推理的输出词,基于当前推理的输出词,更新目标词组,返回执行将编码向量和目标词组输入第一解码器,获得第一嵌入向量,将目标词组输入第二解码器,得到第二嵌入向量,在当前推理的输出词携带结束标签的情况下,确定目标词组中的输出词组成待推理文本的推理结果。这种情况下,通过将目标词组输入第二解码器得到第二嵌入向量,对第一嵌入向量和第二嵌入向量进行加和,获得当前推理的输出词,融入了目标词组的信息,向第一解码器提供额外的解码参考,使得第一解码器和第二解码器可以结合更多关于待推理文本的信息从而确定输出词,使得基于编码器、第一解码器和第二解码器推理得到的输出词更为准确,进而提高了文本推理结果的准确性。
附图说明
71.图1是本技术一实施例提供的一种文本推理系统的结构示意图;
72.图2是本技术一实施例提供的第一种文本推理方法的流程图;
73.图3是本技术一实施例提供的第二种文本推理方法的流程图;
74.图4是本技术一实施例提供的一种编码器、第一解码器、第二解码器的结构图;
75.图5是本技术一实施例提供的第三种文本推理方法的流程图;
76.图6是本技术一实施例提供的第四种文本推理方法的流程图;
77.图7是本技术一实施例提供的一种文本推理方法中编码器、第一解码器和第二解码器的一种训练方式流程图;
78.图8是本技术一实施例提供的一种文本推理方法中编码器、第一解码器和第二解码器的另一种训练方式流程图;
79.图9是本技术一实施例提供的一种文本推理方法中编码器和第一解码器的一种训
练方式流程图;
80.图10是本技术一实施例提供的一种文本推理方法中编码器和第一解码器的另一种训练方式流程图;
81.图11是本技术一实施例提供的一种文本推理装置的结构示意图;
82.图12是本技术一实施例提供的一种计算设备的结构框图。
具体实施方式
83.在下面的描述中阐述了很多具体细节以便于充分理解本技术。但是本技术能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本技术内涵的情况下做类似推广,因此本技术不受下面公开的具体实施的限制。
84.在本技术一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本技术一个或多个实施例。在本技术一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本技术一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
85.应当理解,尽管在本技术一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本技术一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。
86.首先,对本发明一个或多个实施例涉及的名词术语进行解释。
87.编码器(encoder):编码器用于读取整个句子序列并进行编码,得到句子的向量表示。
88.解码器(decoder):解码器利用编码器获取到的句子向量作为目标输入,逐词生成目标语言的单词序列。
89.在本技术中,提供了一种文本推理方法。本技术同时涉及一种文本推理装置、一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
90.图1示出了本技术一实施例提供的一种文本推理系统的结构示意图。
91.本技术可以分为服务器和应用终端两个执行主体,服务器包括编码器、第一解码器以及第二解码器,其中,应用终端用来向服务器提供待推理文本,编码器用来对待推理文本进行编码获得编码向量,第一解码器用于对编码向量和目标词组进行解码,第二解码器用于对目标词组进行解码。
92.也就是说,服务器从应用终端获取待推理文本,编码器用来对待推理文本进行编码获得待推理文本的编码向量,第一解码器用于对编码向量和目标词组进行解码获得第一嵌入向量,第二解码器用于对目标词组进行解码得到第二嵌入向量,对第一嵌入向量和第二嵌入向量进行加和,将加和结果经输出层获得当前推理的输出词,基于当前推理的输出词,更新目标词组,返回执行将编码向量和目标词组输入第一解码器,获得第一嵌入向量,将目标词组输入第二解码器,得到第二嵌入向量,在当前推理的输出词携带结束标签的情况下,确定目标词组中的输出词组成待推理文本的推理结果,将待推理文本的推理结果反馈给应用终端。
93.应用本技术实施例的方案,获取待推理文本,将待推理文本输入编码器,获得待推理文本的编码向量,将编码向量和目标词组输入第一解码器,获得第一嵌入向量,将目标词组输入第二解码器,得到第二嵌入向量,对第一嵌入向量和第二嵌入向量进行加和,将加和结果经输出层获得当前推理的输出词,基于当前推理的输出词,更新目标词组,返回执行将编码向量和目标词组输入第一解码器,获得第一嵌入向量,将目标词组输入第二解码器,得到第二嵌入向量,在当前推理的输出词携带结束标签的情况下,确定目标词组中的输出词组成待推理文本的推理结果,这种情况下,通过将目标词组输入第二解码器得到第二嵌入向量,对第一嵌入向量和第二嵌入向量进行加和,获得当前推理的输出词,融入了目标词组的信息,向第一解码器提供额外的解码参考,使得第一解码器和第二解码器可以结合更多关于待推理文本的信息从而确定输出词,使得基于编码器、第一解码器和第二解码器推理得到的输出词更为准确,进而提高了文本推理结果的准确性。
94.图2示出了根据本技术一实施例提供的第一种文本推理方法的流程图,具体包括以下步骤:
95.步骤s202:获取待推理文本,将待推理文本输入编码器,获得待推理文本的编码向量。
96.在本技术实施例中,在对文本有推理需求时,服务器从终端获取待推理文本,其中,待推理文本包括信息、文摘等包含待推理内容的文本,推理是指包括翻译、分析、提取、问答的文本操作。也就是说,待推理文本是指经过编码器、解码器等结构的处理,可以获得相应推理结果的文本,该待推理文本可以是文本格式,也可以是图片格式,经过文字识别获得相应的文字内容,实际应用中,待推理文本可以是指等待翻译的文本、等待解答的问题文本等。
97.需要说明的是,编码器对待推理文本进行推理,可以将待推理文本的特征融入编码向量中,也即编码向量可以表征待推理文本,后续通过第一解码器和第二解码器对该编码向量进行处理,可以得到待推理文本的推理结果,从而简单快速的得到带推理文本对应的推理结果。
98.例如,在推理操作为翻译操作的情况下,待推理文本为“我有一只猫”,利用本技术的文本推理方法,可以得到待推理文本的推理结果为“i have acat”;在推理操作为问答操作的情况下,待推理文本为“冬至是哪天?”,利用本技术的文本推理方法,可以得到待推理文本的推理结果为“农历十一月十八”。
99.步骤s204:将编码向量和目标词组输入第一解码器,获得第一嵌入向量,将目标词组输入第二解码器,得到第二嵌入向量,其中,目标词组包括已经推理得到的输出词。
100.在本技术实施例中,将待推理文本输入编码器获得待推理文本的编码向量后,将编码向量和目标词组输入第一解码器,获得第一嵌入向量,将目标词组输入第二解码器,得到第二嵌入向量,其中,目标词组包括已经推理得到的输出词,在初始情况下,目标词组中仅包括首位字符,该首位字符可以是开始标签。所述第一解码器和第二解码器的结构可以相同,也可以不同,第一解码器包括但不限于bert、ernie等,第二解码器为预训练语言模型,包括但不限于bert、ernie等,具体根据实际情况进行选择,本技术实施例对此不做任何限定。
101.需要说明的是,第二解码器包括多头注意力层(multi-headattention)、add&norm
层、前馈神经网络层(feed forward)等,具体根据实际情况进行选择,本技术实施例对此不做任何限定。
102.具体的,在多头注意力层中,将查询向量query、键向量key、值向量value进行线性变换,然后输入到attention中进行放缩点积运算,每次查询向量query、键向量key、值向量value进行线性变换的参数是不一样的。然后将n次的放缩点积结果进行拼接,再进行一次线性变换得到多头注意力层的结果。add&norm层可以平滑地整合输入和其他层的输出,防止层内的数值变化过大,从而有利于加快训练速度并且提高泛化性能。而前馈神经网络可以看做是一个函数,通过简单非线性函数的多次复合,实现输入空间到输出空间的复杂映射。
103.实际应用中,第一编码器和第二编码器中多头注意力层、add&norm层、前馈神经网络层(feed forward)的数量可以相同也可以不同,具体根据模型的训练需求进行选择,本技术实施例对此不做任何限定。
104.结合附图3,图3示出了根据本技术一实施例提供的第二种文本推理方法的流程图,具体包括:
105.在获取待推理文本后,将待推理文本输入编码器,获得待推理文本的编码向量;将编码向量和目标词组输入第一解码器,获得第一嵌入向量,将目标词组输入第二解码器,得到第二嵌入向量;对第一嵌入向量和第二嵌入向量进行加和,将加和结果经输出层获得当前推理的输出词;基于当前推理的输出词,更新目标词组,返回执行将编码向量和目标词组输入第一解码器,获得第一嵌入向量,将目标词组输入第二解码器,得到第二嵌入向量;在当前推理的输出词携带结束标签的情况下,确定目标词组中的输出词组成待推理文本的推理结果。
106.一种可能的实现方式中,图4示出了根据本技术一实施例提供的一种编码器、第一解码器、第二解码器的结构图,如图4所示编码器(encoder)的输入可以为待推理文本(inputs),将待推理文本的单词embedding(input embedding)和位置embedding(positional encoding)相加,将查询向量query、键向量key、值向量value输入多头注意力层(multi-headattention)和add&norm层,然后对线性变换后的向量进行求和与归一化,将求和与归一化的向量矩阵分别输入前馈神经网络层(feed forward)和add&norm层,然后对经过激活函数的向量矩阵进行求和与归一化,最终得到待推理文本的编码向量。第一解码器(第一decoder)可以将包括开始标签(shifted right)的目标词组(outputs)的单词embedding(output embedding)和位置embedding(positional encoding)相加,输入采用了masked操作的多头注意力层(masked multi-headattention)和add&norm层求和与归一化,将求和与归一化的值向量value与编码器(encoder)输出的待推理文本的查询向量query和键向量key输入多头注意力层(multi-headattention)和add&norm层求和与归一化,将求和与归一化的向量矩阵输入前馈神经网络层(feed forward)和add&norm层求和与归一化,接着进行线性变化(linear)得到第一嵌入向量。第二解码器(第二decoder)可以将目标词组(outputs)的单词embedding(output embedding)输入预训练语言模型(language model)中,得到第二嵌入向量。将第一嵌入向量和第二嵌入向量经softmax层进行加和得到输出概率(output probabilities),最后得到待推理文本的推理结果。
107.需要说明的是,softmax本质上是归一化网络,其目的是将多个向量映射为一个概
率分布,softmax层输出的每一个值范围在(0,1)。decoder最后是一个线性变换层和softmax层。线性变换层是一个简单的全连接神经网络,它可以把解码器产生的向量投射到一个比它大得多的、被称作对数几率(logits)的向量里。实际应用中,可以对n个单词进行学习并获得“输出词表”,此时,对数几率向量即为n个单元格长度的向量,每个单元格对应某一个单词的分数。接下来softmax层便会将得到的分数变成概率。概率最高的单元格被选中,将该概率最高的单元格对应的单词作为最终的输出结果。
108.步骤s206:对第一嵌入向量和第二嵌入向量进行加和,将加和结果经输出层获得当前推理的输出词。
109.在本技术实施例中,将编码向量和目标词组输入第一解码器,获得第一嵌入向量,将目标词组输入第二解码器,得到第二嵌入向量后,对第一嵌入向量和第二嵌入向量进行加和,将加和结果经输出层获得当前推理的输出词。其中,第一嵌入向量可以表征编码向量与目标词组,第二嵌入向量可以表征目标词组,在编码向量表征待推理文本的基础上,将第一嵌入向量与第二嵌入向量进行加和,不仅考虑了待推理文本,还考虑了目标词组,也就是说,基于第一嵌入向量和第二嵌入向量确定出的当前推理的输出词准确性会更高。
110.步骤s208:基于当前推理的输出词,更新目标词组,返回执行步骤s204。
111.本技术实施例中,获得当前推理的输出词后,可以基于当前推理的输出词,更新目标词组,更新目标词组的方式包括将当前推理的输出词作为新增字符,增加至目标词组中,从而返回执行将编码向量和目标词组输入第一解码器,获得第一嵌入向量,将目标词组输入第二解码器,得到第二嵌入向量,完成对待推理文本的推理。
112.本技术实施例中,由于第一解码器是对编码向量以及目标词组进行一次解码,第二解码器对目标词组也是根据词单元依次进行解码,每个词单元可以仅包括一个字符,也可以包括多个字符,因此,在获得当前推理的输出词,更新目标词组后,并不是直接获得了整个待推理文本的推理结果,因而可以返回对其余未进行解码的词单元继续进行解码,直至当前推理的输出词携带结束标签的情况下,判断待推理文本已经推理结束,获得了待推理文本最终的推理结果。
113.步骤s210:在当前推理的输出词携带结束标签的情况下,确定目标词组中的输出词组成待推理文本的推理结果。
114.本技术实施例中,在更新目标词组后,可以判断当前推理的输出词是否携带结束标签,从而确定当前的推理是否得到了待推理文本的推理结果。判断当前推理的输出词是否携带结束标签和更新目标词组的顺序不做限定,一种方式可以是:基于当前推理的输出词,更新目标词组后,判断当前推理的输出词是否携带结束标签,若当前推理的输出词未携带结束标签,则返回执行将编码向量和目标词组输入第一解码器,获得第一嵌入向量,将目标词组输入第二解码器,得到第二嵌入向量;基于当前推理的输出词,更新目标词组后,判断当前推理的输出词是否携带结束标签,若当前推理的输出词携带结束标签,确定目标词组中的输出词组成待推理文本的推理结果。
115.另一种方式可以是:判断当前推理出的输出词是否携带结束标签,若当前推理的输出词没有携带结束标签,基于当前推理的输出词,更新目标词组,返回执行将编码向量和目标词组输入第一解码器,获得第一嵌入向量,将目标词组输入第二解码器,得到第二嵌入向量;若当前推理的输出词携带结束标签,则表示待推理文本已经推理结束,基于当前推理
的输出词,更新目标词组,确定目标词组中的输出词组成待推理文本的推理结果。
116.应用本技术实施例的方案,获取待推理文本,将待推理文本输入编码器,获得待推理文本的编码向量,将编码向量和目标词组输入第一解码器,获得第一嵌入向量,将目标词组输入第二解码器,得到第二嵌入向量,对第一嵌入向量和第二嵌入向量进行加和,将加和结果经输出层获得当前推理的输出词,基于当前推理的输出词,更新目标词组,返回执行将编码向量和目标词组输入第一解码器,获得第一嵌入向量,将目标词组输入第二解码器,得到第二嵌入向量,在当前推理的输出词携带结束标签的情况下,确定目标词组中的输出词组成待推理文本的推理结果,这种情况下,通过将目标词组输入第二解码器得到第二嵌入向量,对第一嵌入向量和第二嵌入向量进行加和,获得当前推理的输出词,融入了目标词组的信息,向第一解码器提供额外的解码参考,在第一解码器和第二解码器不同的情况下,可以综合两种解码器的功能,使得第一解码器和第二解码器可以结合更多关于待推理文本的信息从而确定输出词,使得基于编码器、第一解码器和第二解码器推理得到的输出词更为准确,进而提高了文本推理结果的准确性。
117.基于图2所示实施例,步骤s206具体可以通过如图5所示的流程图实现,图5示出了本技术实施例提供的第三种文本推理方法的流程图,该方法具体包括以下步骤:
118.步骤s502:获取针对所述第一解码器预先设置的第一权重系数,以及针对所述第二解码器预先设置的第二权重系数。
119.步骤s504:利用第一权重系数和第二权重系数,对第一嵌入向量和第二嵌入向量进行加权,将加权结果经输出层获得当前推理的输出词。
120.在本技术实施例中,为了使解码器获得更准确的解码结果,对解码器预先设定权重系数,第一解码器预先设置了第一权重系数,第二解码器预先设置了第二权重系数,其中,权重系数一般通过训练得到,也可以根据经验人为进行设置,具体根据实际情况进行选择,本技术实施例对此不做任何限定。
121.具体的,可以将第一权重系数与第一嵌入向量相乘获得第一结果,将第二权重系数与第二嵌入向量相乘获得第二结果,将第一结果与第二结果相加,即可获得加权结果。
122.一种可能的实现方式,在训练权重系数时,可以先将第一权重系数设置为0.4,第二权重系数设置为0.6时,得到的推理结果比第一权重系数和第二权重系数均为0.5时的推理结果更加准确,因此,为了提高待推理文本对应的推理结果的准确性,可以继续将第二权重系数增加,将第一权重系数减小,直至找到使推理结果最准确的第一权重系数与第二权重系数。
123.在本技术实施例中,针对第一解码器预先设置第一权重系数,针对第二解码器预先设置第二权重系数,第一权重系数与第二权重系数的和为1,第一权重系数可以决定第一解码器对于整个推理过程的影响程度,第二权重系数可以决定第二解码器对于整个推理过程的影响程度,从而通过设置第一权重系数和第二权重系数,可以调节编码器、第一解码器和第二解码器的准确度,从而提高待推理文本对应的推理结果的准确性。
124.图6示出了本技术实施例提供的第四种文本推理方法的流程图,该方法具体包括以下步骤:
125.步骤s602:获取待推理文本,将待推理文本输入编码器,获得待推理文本的编码向量。
126.步骤s604:将编码向量和开始标签输入第一解码器,获得第一嵌入向量,将开始标签输入第二解码器,获得第二嵌入向量。
127.步骤s606:对第一嵌入向量和第二嵌入向量进行加和,将加和结果经输出层获得当前推理的输出词。
128.步骤s608:将当前推理的输出词作为新增字符,增加至目标词组中,返回执行步骤s604。
129.步骤s610:在当前推理的输出词携带结束标签的情况下,将目标词组中的输出词,按照被推理出的先后顺序进行合并,得到待推理文本的推理结果。
130.本技术实施例中,文本推理是按照待推理文本中字词的先后顺序进行逐词推理,因此,推理出的各输出词也存在先后顺序,按照被推理出的先后顺序进行合并,即可得到待推理文本的推理结果。
131.示例的,获取待推理文本“我爱音乐”,在编码器中进行编码,获得待推理文本“我爱音乐”的编码向量,将开始标签“《begin》”和编码向量按照开始标签在前,编码向量在后的顺序进行合并输入第一解码器,获得第一嵌入向量,将开始标签输入第二解码器,获得第二嵌入向量,对第一嵌入向量和第二嵌入向量进行加和,将加和结果经输出层获得当前推理的输出词“i”,判断当前输出词“i”并未携带结束标签,将“i”增加至目标词组,此时更新后的目标词组中包括开始标签“《begin》”和“i”。
132.将开始标签“《begin》”和“i”以及编码向量输入第一解码器,获得第一嵌入向量,将开始标签输入第二解码器,获得第二嵌入向量,对第一嵌入向量和第二嵌入向量进行加和,将加和结果经输出层获得当前推理的输出词“love”,判断当前输出词“love”并未携带结束标签,将“love”增加至目标词组,此时更新后的目标词组中包括开始标签“《begin》”、“i”和“love”。
133.将开始标签“《begin》”、“i”和“love”以及编码向量输入第一解码器,获得第一嵌入向量,将开始标签输入第二解码器,获得第二嵌入向量,对第一嵌入向量和第二嵌入向量进行加和,将加和结果经输出层获得当前推理的输出词“music”,将“music”增加至目标词组,此时,判断当前推理的输出词“music”携带结束标签,将目标词组中的输出词“i”“love”“music”,按照被推理出的先后顺序进行合并,得到待推理文本的推理结果“i love music”。
134.应用本技术实施例的方案,在获得待推理文本的编码向量后,将编码向量和开始标签输入第一解码器,获得第一嵌入向量,将开始标签输入第二解码器,得到第二嵌入向量,其中,开始标签为目标词组中的首位字符,对第一嵌入向量和第二嵌入向量进行加和,将加和结果经输出层获得当前推理的输出词,将当前推理的输出词作为新增字符,增加至目标词组中,返回执行步骤s604,在当前推理的输出词携带结束标签的情况下,将目标词组中的输出词,按照被推理出的先后顺序进行合并,得到待推理文本的推理结果,这种情况下,通过将目标词组输入第二解码器得到第二嵌入向量,对第一嵌入向量和第二嵌入向量进行加和,获得当前推理的输出词,融入了目标词组的信息,向第一解码器提供额外的解码参考,使得第一解码器和第二解码器可以结合更多关于待推理文本的信息从而确定输出词,使得基于编码器、第一解码器和第二解码器推理得到的输出词更为准确,进而提高了文本推理结果的准确性。
135.图7示出了本技术实施例提供的一种文本推理方法中编码器、第一解码器和第二解码器的一种训练方式流程图,具体包括以下步骤:
136.步骤s702:获取样本集,样本集中包括多个样本文本以及各样本文本分别对应的目标文本。
137.本技术实施例中,训练编码器、第一解码器和第二解码器时,需要获取包括多个样本文本以及各样本文本分别对应的目标文本的样本集,例如样本文本为“我有一只猫”,该样本文本对应的目标文本为“i havea cat”,一般情况下,获取样本集的方式可以是人工输入的大量样本文本组成样本集,也可以是从其他数据获取设备或者数据库中读取大量样本文本组成样本集,获取样本集的方式具体根据实际情况进行选择,本技术实施例对此不做任何限定。
138.步骤s704:提取第一样本文本,将第一样本文本输入编码器,得到第一样本文本的第一样本编码向量。
139.步骤s706:将第一样本编码向量和第一目标词组输入第一解码器,获得第一样本嵌入向量,将第一目标词组输入第二解码器,获得第二样本嵌入向量,其中,第一目标词组包括针对第一样本文本已经推理得到的输出词。
140.步骤s708:对第一样本嵌入向量和第二样本嵌入向量进行加和,将加和结果经输出层获得第一当前输出词。
141.步骤s710:基于第一当前输出词,更新第一目标词组,返回执行步骤s706。
142.步骤s712:在第一当前输出词携带结束标签的情况下,确定第一目标词组中的输出词组成第一样本文本的第一推理结果。
143.步骤s714:根据第一推理结果和第一样本文本对应的第一目标文本,对编码器、第一解码器和第二解码器进行训练,获得训练后的所述编码器、第一解码器和第二解码器。
144.本技术实施例中,在获得第一推理结果后,可以根据第一推理结果和第一样本文本对应的第一目标文本,对编码器、第一解码器和第二解码器进行训练,获得训练后的所述编码器、第一解码器和第二解码器,使得训练后的所述编码器、第一解码器和第二解码器更为准确。
145.一种可能的实现方式中,上述步骤s714的实现如图8所示,图8示出了本技术实施例提供的一种文本推理方法中编码器、第一解码器和第二解码器的另一种训练方式流程图,具体可以包括以下步骤:
146.步骤s802:计算第一推理结果与第一样本文本对应的第一目标文本的第一差异值。
147.步骤s804:若第一差异值大于第一预设阈值,则调整编码器、第一解码器以及第二解码器的模型参数,并返回执行提取第一样本文本,将第一样本文本输入编码器,得到第一样本文本的第一样本编码向量。
148.步骤s806:若第一差异值小于或等于第一预设阈值,则停止训练,获得训练后的编码器、第一解码器和第二解码器。
149.本技术实施例中,第二解码器可以和编码器、第一解码器同步训练,在得到第一推理结果后,对比第一推理结果与第一样本文本对应的第一目标文本,计算第一差异值,将第一差异值与第一预设阈值进行比较。
150.具体的,若第一差异值大于第一预设阈值,则说明第一推理结果与第一样本文本对应的第一目标文本的差异较大,编码器、第一解码器和第二解码器对于待推理文本的识别推理能力较差,此时可以调整编码器、第一解码器以及第二解码器的模型参数,并返回执行提取第一样本文本,将第一样本文本输入编码器,得到第一样本文本的第一样本编码向量,继续对编码器、第一解码器和第二解码器进行训练,直至第一差异值小于或等于第一预设阈值,说明第一推理结果与第一样本文本对应的第一目标文本的差异较小,完成训练,得到训练后的编码器、第一解码器以及第二解码器。
151.应用本技术实施例的方案,计算第一推理结果与第一样本文本对应的第一目标文本的第一差异值,将第一差异值与第一预设阈值进行比较,在大于第一预设阈值的情况下继续训练编码器、第一解码器和第二解码器,直至小于或等于第一预设阈值的情况下完成训练,通过不断对编码器、第一解码器和第二解码器的模型参数进行调整,能使最终得到的编码器、第一解码器和第二解码器更加精准,提高推理结果的准确性。
152.另一种可能的实现方式中,上述步骤s714的实现除了比较第一差异值和第一预设阈值的大小关系之外,还可以结合迭代次数,确定当前的编码器、第一解码器和第二解码器是否训练完成。具体的,若第一差异值大于第一预设阈值,则调整编码器、第一解码器以及第二解码器的模型参数,并返回执行提取第一样本文本,将第一样本文本输入编码器,得到第一样本文本的第一样本编码向量,继续对编码器、第一解码器和第二解码器进行训练,直至达到预设迭代次数的情况下,停止迭代,得到训练后的编码器、第一解码器以及第二解码器,其中,第一预设阈值和预设迭代次数根据实际情况进行选择,本技术实施例对此不做任何限定。
153.在实际应用中,第一差异值就是指损失值,计算第一差异值的函数有很多,如交叉熵损失函数、l1范数损失函数、最大损失函数、均方误差损失函数、对数损失函数等,在本技术中,不对计算差异值的函数的选择做限定。
154.优选的,可以利用交叉熵损失函数,计算第一推理结果与第一样本文本对应的第一目标文本之间的交叉熵作为第一差异值,其中,交叉熵损失函数为:
[0155][0156]
其中,c代表类别数,pi为真实概率值,qi为预测概率值,i为第i个词。
[0157]
通过利用交叉熵损失函数,计算第一推理结果与第一样本文本对应的第一目标文本之间的交叉熵作为第一差异值,提高了计算第一差异值的效率,从而提高了文本推理结果的准确性。
[0158]
应用本技术实施例的方案,计算第一推理结果与第一样本文本对应的第一目标文本的第一差异值,将第一差异值与第一预设阈值进行比较,在大于第一预设阈值的情况下继续训练编码器、第一解码器和第二解码器,直至达到预设迭代次数的情况下完成训练,通过不断对编码器、第一解码器和第二解码器的模型参数进行调整,能使最终得到的编码器、第一解码器和第二解码器更加精准,提高推理结果的准确性。
[0159]
图9示出了本技术实施例提供的一种文本推理方法中编码器和第一解码器的一种训练方式流程图,具体包括以下步骤:
[0160]
步骤s902:获取样本集,样本集中包括多个样本文本以及各样本文本分别对应的目标文本。
[0161]
步骤s904:提取第二样本文本,将第二样本文本输入编码器,得到第二样本文本的第二样本编码向量。
[0162]
步骤s906:将第二样本编码向量和第二目标词组输入第一解码器,获得第三样本嵌入向量,将第二目标词组输入第二解码器,获得第四样本嵌入向量,其中,第二目标词组包括针对第二样本文本已经推理得到的输出词。
[0163]
步骤s908:对第三样本嵌入向量和第四样本嵌入向量进行加和,将加和结果经输出层获得第二当前输出词。
[0164]
步骤s910:基于第二当前输出词,更新第二目标词组,返回执行步骤s906。
[0165]
步骤s912:在第二当前输出词携带结束标签的情况下,确定第二目标词组中的输出词组成第二样本文本的第二推理结果。
[0166]
步骤s914:根据第二推理结果和第二样本文本对应的第二目标文本,对编码器和第一解码器进行训练,获得训练后的编码器和第一解码器。
[0167]
本技术实施例中,在获得第二推理结果后,可以根据第二推理结果和第二样本文本对应的第二目标文本,对编码器和第一解码器进行训练,获得训练后的编码器和第一解码器,使得训练后的所述编码器和第一解码器更为准确,通过利用预先训练完成的第二编码器,在训练第一解码器时给第一解码器作为参考,提高第一解码器的训练效率,进而提高文本推理的效率。
[0168]
一种可能的实现方式中,上述步骤s914的实现如图10所示,图10示出了本技术实施例提供的另=一种文本推理方法中编码器和第一解码器的另一种训练方式流程图,具体可以包括以下步骤:
[0169]
步骤s1002:计算第二推理结果和第二样本文本对应的第二目标文本的第二差异值。
[0170]
步骤s1004:若第二差异值大于第二预设阈值,则调整编码器和第一解码器的模型参数,保持第二解码器的模型参数不变,并返回执行获取样本集,样本集中包括多个样本文本以及各样本文本分别对应的目标文本。
[0171]
步骤s1006:若第二差异值小于或等于第二预设阈值,则停止训练,获得训练后的编码器和第一解码器。
[0172]
本技术实施例中,第二解码器可以预先训练完成,可以直接获取预先训练完成的第二解码器,在训练过程中,只训练编码器和第一解码器。通过上述训练方式训练获得编码器和第一解码器,在得到第二推理结果后,对比第二推理结果与第二样本文本对应的第二目标文本,计算第二差异值,将第二差异值与第二预设阈值进行比较。
[0173]
具体的,若第二差异值大于第二预设阈值,则说明第二推理结果与第二样本文本对应的第二目标文本的差异较大,编码器和第一解码器对于待推理文本的识别推理能力较差,此时可以调整编码器和第一解码器的模型参数,并返回执行获取样本集,样本集中包括多个样本文本以及各样本文本分别对应的目标文本,继续对编码器和第一解码器进行训练,直至第二差异值小于或等于第二预设阈值,说明第二推理结果与第二样本文本对应的第二目标文本的差异较小,完成训练,得到训练后的编码器和第一解码器。
[0174]
应用本技术实施例的方案,计算第二推理结果与第二样本文本对应的第二目标文本的第二差异值,将第二差异值与第二预设阈值进行比较,在大于第二预设阈值的情况下继续训练编码器和第一解码器,直至小于或等于第一预设阈值的情况下完成训练,通过不断对编码器和第一解码器的模型参数进行调整,能使最终得到的编码器和第一解码器更加精准,提高推理结果的准确性,通过利用预先训练完成的第二编码器,在训练第一解码器时给第一解码器作为参考,提高第一解码器的训练效率,进而提高文本推理的效率。
[0175]
另一种可能的实现方式中,上述步骤s914的实现除了比较第二差异值和第二预设阈值的大小关系之外,还可以结合迭代次数,确定当前的编码器和第一解码器是否训练完成。具体的,若第二差异值大于第二预设阈值,则调整编码器和第一解码器的模型参数,并返回执行获取样本集,样本集中包括多个样本文本以及各样本文本分别对应的目标文本,继续对编码器和第一解码器进行训练,直至达到预设迭代次数的情况下,停止迭代,得到训练后的编码器和第一解码器,其中,第一预设阈值和预设迭代次数根据实际情况进行选择,本技术实施例对此不做任何限定。
[0176]
应用本技术实施例的方案,计算第二推理结果与第二样本文本对应的第二目标文本的第二差异值,将第二差异值与第二预设阈值进行比较,在大于第二预设阈值的情况下继续训练编码器和第一解码器,直至达到预设迭代次数的情况下完成训练,通过不断对编码器和第一解码器的模型参数进行调整,能使最终得到的编码器和第一解码器更加精准,提高推理结果的准确性,通过利用预先训练完成的第二编码器,在训练第一解码器时给第一解码器作为参考,提高第一解码器的训练效率,进而提高文本推理的效率。
[0177]
与上述方法实施例相对应,本技术还提供了文本推理装置实施例,图11示出了本技术一实施例提供的一种文本推理装置的结构示意图。如图11所示,该装置包括:
[0178]
编码向量获得模块1102,被配置为获取待推理文本,将待推理文本输入编码器,获得待推理文本的编码向量;
[0179]
嵌入向量获得模块1104,被配置为将编码向量和目标词组输入第一解码器,获得第一嵌入向量,将目标词组输入第二解码器,得到第二嵌入向量,其中,目标词组包括已经推理得到的输出词;
[0180]
输出词获得模块1106,被配置为对第一嵌入向量和第二嵌入向量进行加和,将加和结果经输出层获得当前推理的输出词;
[0181]
更新模块1108,被配置为基于当前推理的输出词,更新目标词组,返回执行将编码向量和目标词组输入第一解码器,获得第一嵌入向量,将目标词组输入第二解码器,得到第二嵌入向量;
[0182]
推理结果确定模块1110,被配置为在当前推理的输出词携带结束标签的情况下,确定目标词组中的输出词组成待推理文本的推理结果。
[0183]
可选地,第二解码器为预训练语言模型。
[0184]
可选地,目标词组中的首位字符为开始标签;
[0185]
在初始情况下,嵌入向量获得模块1104,进一步被配置为将编码向量和开始标签输入第一解码器,获得第一嵌入向量,将开始标签输入第二解码器,获得第二嵌入向量;
[0186]
更新模块1108,进一步被配置为将当前推理的输出词作为新增字符,增加至目标词组中;
[0187]
推理结果确定模块1110,进一步被配置为将目标词组中的输出词,按照被推理出的先后顺序进行合并,得到待推理文本的推理结果。
[0188]
可选地,输出词获得模块1106,进一步被配置为获取针对第一解码器预先设置的第一权重系数,以及针对第二解码器预先设置的第二权重系数;利用第一权重系数和第二权重系数,对第一嵌入向量和第二嵌入向量进行加权,将加权结果经输出层获得当前推理的输出词。
[0189]
可选地,该装置还包括:第一训练模块,被配置为获取样本集,样本集中包括多个样本文本以及各样本文本分别对应的目标文本;提取第一样本文本,将第一样本文本输入编码器,得到第一样本文本的第一样本编码向量;将第一样本编码向量和第一目标词组输入第一解码器,获得第一样本嵌入向量,将第一目标词组输入第二解码器,获得第二样本嵌入向量,其中,第一目标词组包括针对第一样本文本已经推理得到的输出词;对第一样本嵌入向量和第二样本嵌入向量进行加和,将加和结果经输出层获得第一当前输出词;基于第一当前输出词,更新第一目标词组,返回执行将第一样本编码向量和第一目标词组输入第一解码器,获得第一样本嵌入向量,将第一目标词组输入第二解码器,获得第二样本嵌入向量;在第一当前输出词携带结束标签的情况下,确定第一目标词组中的输出词组成第一样本文本的第一推理结果;根据第一推理结果和第一样本文本对应的第一目标文本,对编码器、第一解码器和第二解码器进行训练,获得训练后的编码器、第一解码器和第二解码器。
[0190]
可选地,第一训练模块,进一步被配置为计算第一推理结果与第一样本文本对应的第一目标文本的第一差异值;若第一差异值大于第一预设阈值,则调整编码器、第一解码器以及第二解码器的模型参数,并返回执行提取第一样本文本,将第一样本文本输入编码器,得到第一样本文本的第一样本编码向量;若第一差异值小于或等于第一预设阈值,则停止训练,获得训练后的编码器、第一解码器和第二解码器。
[0191]
可选地,第二解码器为预先已训练完成;
[0192]
该装置还包括:第二训练模块,被配置为获取样本集,样本集中包括多个样本文本以及各样本文本分别对应的目标文本;提取第二样本文本,将第二样本文本输入编码器,得到第二样本文本的第二样本编码向量;将第二样本编码向量和第二目标词组输入第一解码器,获得第三样本嵌入向量,将第二目标词组输入第二解码器,获得第四样本嵌入向量,其中,第二目标词组包括针对第二样本文本已经推理得到的输出词;对第三样本嵌入向量和第四样本嵌入向量进行加和,将加和结果经输出层获得第二当前输出词;基于第二当前输出词,更新第二目标词组,返回执行将第二样本编码向量和第二目标词组输入第一解码器,获得第三样本嵌入向量,将第二目标词组输入第二解码器,获得第四样本嵌入向量;在第二当前输出词携带结束标签的情况下,确定第二目标词组中的输出词组成第二样本文本的第二推理结果;根据第二推理结果和第二样本文本对应的第二目标文本,对编码器和第一解码器进行训练,获得训练后的编码器和第一解码器。
[0193]
可选地,第二训练模块,进一步被配置为计算第二推理结果和第二样本文本对应的第二目标文本的第二差异值;若第二差异值大于第二预设阈值,则调整编码器和第一解码器的模型参数,保持第二解码器的模型参数不变,并返回执行提取第二样本文本,将第二样本文本输入编码器,得到第二样本文本的第二样本编码向量;若第二差异值小于或等于第二预设阈值,则停止训练,获得训练后的编码器和第一解码器。
[0194]
应用本说明书实施例的方案,获取待推理文本,将待推理文本输入编码器,获得待推理文本的编码向量,将编码向量和目标词组输入第一解码器,获得第一嵌入向量,将目标词组输入第二解码器,得到第二嵌入向量,对第一嵌入向量和第二嵌入向量进行加和,将加和结果经输出层获得当前推理的输出词,基于当前推理的输出词,更新目标词组,返回执行将编码向量和目标词组输入第一解码器,获得第一嵌入向量,将目标词组输入第二解码器,得到第二嵌入向量,在当前推理的输出词携带结束标签的情况下,确定目标词组中的输出词组成待推理文本的推理结果,这种情况下,通过将目标词组输入第二解码器得到第二嵌入向量,对第一嵌入向量和第二嵌入向量进行加和,获得当前推理的输出词,融入了目标词组的信息,向第一解码器提供额外的解码参考,使得第一解码器和第二解码器可以结合更多关于待推理文本的信息从而确定输出词,使得基于编码器、第一解码器和第二解码器推理得到的输出词更为准确,进而提高了文本推理结果的准确性。
[0195]
上述为本实施例的一种文本推理装置的示意性方案。需要说明的是,该文本推理装置的技术方案与上述的文本推理方法的技术方案属于同一构思,文本推理装置的技术方案未详细描述的细节内容,均可以参见上述文本推理方法的技术方案的描述。此外,装置实施例中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块,各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架,而不应当理解为主要通过硬件方式实现该解决方案的实体装置。
[0196]
图12示出了根据本技术一实施例提供的一种计算设备1200的结构框图。该计算设备1200的部件包括但不限于存储器1210和处理器1220。处理器1220与存储器1210通过总线1230相连接,数据库1250用于保存数据。
[0197]
计算设备1200还包括接入设备1240,接入设备1240使得计算设备1200能够经由一个或多个网络1260通信。这些网络的示例包括公用交换电话网(pstn)、局域网(lan)、广域网(wan)、个域网(pan)或诸如因特网的通信网络的组合。接入设备1240可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(nic))中的一个或多个,诸如ieee802.11无线局域网(wlan)无线接口、全球微波互联接入(wi-max)接口、以太网接口、通用串行总线(usb)接口、蜂窝网络接口、蓝牙接口、近场通信(nfc)接口,等等。
[0198]
在本技术的一个实施例中,计算设备1200的上述部件以及图12中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图12所示的计算设备结构框图仅仅是出于示例的目的,而不是对本技术范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
[0199]
计算设备1200可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或pc的静止计算设备。计算设备1200还可以是移动式或静止式的服务器。
[0200]
其中,处理器1220用于执行所述文本推理方法的计算机可执行指令。
[0201]
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的文本推理方法的技术方案属于同一构思,计算设备的技术方案未详细描述
的细节内容,均可以参见上述文本推理方法的技术方案的描述。
[0202]
本技术一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时以用于文本推理方法。
[0203]
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的文本推理方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述文本推理方法的技术方案的描述。
[0204]
本技术实施例公开了一种芯片,其存储有计算机指令,该计算机指令被处理器执行时实现如前所述文本推理方法的步骤。
[0205]
上述对本技术特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
[0206]
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccess memory)、电载波信号、电信信号以及软件分发介质等。
[0207]
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为依据本技术,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本技术所必须的。
[0208]
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
[0209]
以上公开的本技术优选实施例只是用于帮助阐述本技术。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本技术的内容,可作很多的修改和变化。本技术选取并具体描述这些实施例,是为了更好地解释本技术的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本技术。本技术仅受权利要求书及其全部范围和等效物的限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1