基于双向注意力机制的答案选择方法、装置和电子设备与流程

文档序号:15999259发布日期:2018-11-20 19:14阅读:172来源:国知局

本发明总体地涉及数据处理领域,且更为具体地,涉及一种基于双向注意力机制的用于答案选择的方法、装置和电子设备。



背景技术:

随着互联网技术的发展,越来越多的人选择在网上搜索问题,并获取与问题相关的答案。常见地,网民可以通过社区问答系统(Community-based Question Answering),例如百度知道,知乎、Stack Overflow等,检索自己想了解的问题,并获取与问题相关的满意答案。

答案选择系统正是基于这样的背景应运而生,其目的在于帮助用户快速且准确地获取与问题相关的正确答案。

在答案选择系统中应用了大量的算法,并发挥着巨大的作用,其中不少算法的应用非常成功,应用领域也很广。但是,这些算法也在不同方面,例如鲁棒性、可预测性方面存在不足。

因此,需要改进的用于答案选择系统的数据处理方案。



技术实现要素:

为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种基于双向注意力机制的用于答案选择的方法、装置和电子设备,其充分考虑问题和答案之间的联系,并通过特定模型架构提升答案选择系统的准确性。

根据本申请的一方面,提供了一种基于双向注意力机制的用于答案选择的方法,包括:对获取的问题数据和答案数据分别进行词向量转化,以分别获得所述问题数据的词向量表示和所述答案数据的词向量表示;通过双向长短期记忆层分别处理所述问题数据的词向量表示和所述答案数据的词向量表示,以分别获得所述问题数据的隐状态序列和所述答案数据的隐状态序列;以交互层处理所述问题数据的隐状态序列和所述答案数据的隐状态序列,以获得所述问题数据的词语和所述答案数据的词语之间的关系矩阵;通过卷积神经网络模型处理所述关系矩阵,以获得所述关系矩阵的特征表示;以用于二元分类的逻辑回归模型处理所述特征表示,以分别获得所述答案数据为所述问题数据的正确答案的第一概率值和所述答案数据为所述问题数据的错误答案的第二概率值。

在上述基于双向注意力机制的用于答案选择的方法中,在获得所述第一概率值和所述第二概率值之后进一步包括:判定所述第一概率值是否大于预定阈值;以及,响应于所述第一概率值大于所述预定阈值,确定所述答案数据为所述问题数据的正确答案。

在上述基于双向注意力机制的用于答案选择的方法中,所述卷积神经网络模型为稠密卷积神经网络模型。

在上述基于双向注意力机制的用于答案选择的方法中,获得所述问题数据的隐状态序列和所述答案数据的隐状态序列之间的关系矩阵,包括:

将所述问题数据的隐状态序列和所述答案数据的隐状态序列进行向量点乘以获得所述关系矩阵。

在上述基于双向注意力机制的用于答案选择的方法中,进一步地包括:计算对应的损失函数以通过反向传播调整用于答案选择的系统的网络参数。

在上述基于双向注意力机制的用于答案选择的方法中,在调整所述用于答案选择的系统的网络参数的过程中,针对所述问题数据随机采样的多个错误答案样本数据中与所述问题数据相似度得分最高的错误答案被设置为所述损失函数的输入。

根据本申请的另一方面,提供一种基于双向注意力机制的用于答案选择的装置,包括:词向量转化单元,用于对获取的问题数据和答案数据分别进行词向量转化,以分别获得所述问题数据的词向量表示和所述答案数据的词向量表示;隐状态序列提取单元,用于通过双向长短期记忆层分别处理所述问题数据的词向量表示和所述答案数据的词向量表示,以分别获得所述问题数据的隐状态序列和所述答案数据的隐状态序列;关系矩阵获取单元,用于处理所述问题数据的隐状态序列和所述答案数据的隐状态序列,以获得所述问题数据的词语和所述答案数据的词语之间的关系矩阵;特征表示提取单元,用于通过卷积神经网络模型处理所述关系矩阵,以获得所述关系矩阵的特征表示;以及,答案获取单元,用于以用于二元分类的逻辑回归模型处理所述特征表示,以分别获得所述答案数据为所述问题数据的正确答案的第一概率值和所述答案数据为所述问题数据的错误答案的第二概率值。

在上述基于双向注意力机制的用于答案选择的装置中,所述答案获取单元,用于:判定所述第一概率值是否大于预定阈值;以及,响应于所述第一概率值大于所述预定阈值,确定所述答案数据为所述问题数据的正确答案。

在上述基于双向注意力机制的用于答案选择的装置中,所述卷积神经网络模型为稠密卷积神经网络模型。

在上述基于双向注意力机制的用于答案选择的装置中,所述关系矩阵提取单元,用于:将所述问题数据的隐状态序列和所述答案数据的隐状态序列进行向量点乘以获得所述关系矩阵。

在上述基于双向注意力机制的用于答案选择的装置中,还包括训练单元,所述训练单元用于计算对应的损失函数以通过反向传播调整用于答案选择的系统的网络参数。

在上述基于双向注意力机制的用于答案选择的装置中,在调整所述用于答案选择的系统的网络参数的过程中,针对所述问题数据随机采样的多个错误答案样本数据中与所述问题数据相似度得分最高的错误答案被设置为所述损失函数的输入。

根据本申请的又一方面,提供了一种电子设备,包括:处理器;和,存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的基于双向注意力机制的用于答案选择的方法。

根据本申请的又一方面,提供了一种计算机可读存储介质,其上存储有计算机程序指令,当所述计算机程序指令被计算装置执行时,可操作来执行如上所述的基于双向注意力机制的用于答案选择的方法。

本申请提供的基于双向注意力机制的用于答案选择的方法、装置和电子设备,其通过特定模型对问题和答案之间的关系进行建模以提升所述答案选择系统的准确性。

附图说明

从下面结合附图对本发明实施例的详细描述中,本发明的这些和/或其它方面和优点将变得更加清楚并更容易理解,其中:

图1图示了答案选择系统的一个具体示例的示意图。

图2图示了根据本申请实施例的基于双向注意力机制的用于答案选择的方法的流程图。

图3图示了根据本申请实施例的双向长短期记忆层的示意图。

图4图示了根据本申请实施例的模型架构的示意图。

图5图示了根据本申请实施例的基于双向注意力机制的用于答案选择的装置的框图。

图6图示了根据本申请实施例的电子设备的框图。

具体实施方式

下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。

如上所述,越来越多的人选择在网上搜索问题,并获取与问题相关的答案。因此,提高答案选择系统的性能,帮助用户快速而准确地获取与问题对应的正确答案具有重要意义。便于理解,可将答案选择系统定义如下:给定一个问题q,和该问题对应的候选答案集合{a1,a2,…an},答案选择系统的目标是从候选答案集合中选择出该问题的正确答案,具体可参考图1中的示例。图1图示了答案选择系统的一个具体示例的示意图。

换言之,答案选择系统是针对用户提出的问题,从特定答案集中筛选出正确的答案。解决答案选择问题的关键在于有效地捕捉问题和答案之间的复杂语义关系。目前,针对答案选择系统模型已取得一定的进展。简述如下:

词袋模型:词袋模型将文本看作词语的集合,不考虑词语之间的相对顺序,而将文本表示为固定长度的向量,其中,向量长度一般为词表大小。该向量中的每一个权重数值对应文本中的一个词语,其中,目前主流的权重计算方式有:1、利用0表示对应词语没有出现,1表示对应词语出现;2、统计词语在文本中的出现次数,利用词频作为权重;3、利用tf-idf值(term frequency-inverse document frequency,词频-逆文本频率指数)作为词语的权重。然而,词袋模型生成的文本表示之间没有任何相关性,例如,在计算两个句子“太阳系包含哪些行星”,“金星、火星、地球等”的相关性时,因为两个句子中用词完全不同,导致两个句子相关性非常低,然而,实际上这两个句子具有很高的相关性。

特征工程模型:利用外部语言学资料(WORDNET)和语言学工具(句法分析、依存句法分析)提取文本相应的词法和句法特征。但是,这些方法需要许多手工制作的句法和语义特征,制作这些特征需要花费很多时间。换言之,,特征工程可能无法进一步改进模型的性能。

深度学习模型:近年来,深度学习方法在图像分类、语音识别等领域取得巨大成功。与此同时,深度学习在词语和文本的分布表示上也取得突破性进展。目前,已有研究对现有神经网络语言模型、Log双线性语言模型、C&W模型和循环神经网络语言模型进行改进,去除了模型中的隐藏层,并减少了模型参数,提出了连续词袋模型(Continuous Bag-of-Words,CBOW)和Skip-gram模型。此外,相继出现了众多基于深度学习的文本分布表示模型,包括基于卷积神经网络和基于循环神经网络的模型。基于深度学习的答案选择模型,借助深度学习模型生成问题和答案的分布表示,并利用距离公式计算问题和答案之间的相关性。与词袋模型相比,深度学习模型具有很强的特征提取能力,生成的文本表示包含了文本的上下文语义信息,进一步提升了答案选择的性能。

此外,已经提出了基于注意力机制的LSTM(Long-Short Term Memory:长短期记忆)模型来解决答案选择问题。基于注意力机制的网络首先生成问题的向量表示,然后根据问题的表示,利用注意力机制生成答案的表示。

然而,上述用于答案选择系统的模型皆没有充分考虑问题和答案之间的联系,只孤立地对问题和答案进行表示学习。并且,问题和答案的长度往往很长,通过现有的神经网络模型往往很难获得长句子之间的依赖。此外,问题对应的答案中往往包含着许多噪声信息,以及与正确答案无关的信息。换言之,生成的答案表示很容易被这些噪声所干扰,无法正确捕捉句子的关键信息。还有,现有的卷积神经网络或者循环神经网络按照句子的顺序对句子进行处理,无法有效地获得句子中包含的句法信息。

针对上述技术问题,本申请的基本构思是:以特定模型对问题和答案之间的关系进行建模,提升所述答案选择系统的准确性。换言之,在本申请中,所述答案选择系统充分考虑到问题和答案之间的内在联系,而非孤立地对问题和答案进行表示学习。

基于此,本申请提出了一种基于双向注意力机制的用于答案选择的方法、装置和电子设备,其首先对获取的问题数据和答案数据分别进行词向量转化以分别获得所述问题数据的词向量表示和所述答案数据的词向量表示;进而,通过双向长短期记忆层分别处理所述问题数据的词向量表示和所述答案数据的词向量表示,以分别获得所述问题数据的隐状态序列和所述答案数据的隐状态序列;继而,以交互层处理所述问题数据的隐状态序列和所述答案数据的隐状态序列,以获得所述问题数据的词语和所述答案数据的词语之间的关系矩阵;进一步地,通过卷积神经网络模型处理所述关系矩阵,以获得所述关系矩阵的特征表示;继而,以用于二元分类的逻辑回归模型处理所述特征表示,以分别获得所述答案数据为所述问题数据的正确答案的第一概率值和所述答案数据为所述问题数据的错误答案的第二概率值。这样,以特定模型对问题和答案之间的关系进行建模,提升所述答案选择系统的准确性。

在介绍了本申请的基本原理之后,下面将参考附图来具体介绍本申请的各种非限制性实施例。

示例性方法

图2图示了根据本申请实施例的基于双向注意力机制的用于答案选择的方法的流程图。

如图2所示,根据本申请实施例的基于双向注意力机制的用于答案选择的方法,包括:S110,对获取的问题数据和答案数据分别进行词向量转化,以分别获得所述问题数据的词向量表示和所述答案数据的词向量表示;

S120,通过双向长短期记忆层分别处理所述问题数据的词向量表示和所述答案数据的词向量表示,以分别获得所述问题数据的隐状态序列和所述答案数据的隐状态序列;S130,以交互层处理所述问题数据的隐状态序列和所述答案数据的隐状态序列,以获得所述问题数据的词语和所述答案数据的词语之间的关系矩阵;S140,通过卷积神经网络模型处理所述关系矩阵,以获得所述关系矩阵的特征表示;以及,S150,以用于二元分类的逻辑回归模型处理所述特征表示,以分别获得所述答案数据为所述问题数据的正确答案的第一概率值和所述答案数据为所述问题数据的错误答案的第二概率值。

在步骤S110中,对获取的问题数据和答案数据分别进行词向量转化,以分别获得所述问题数据的词向量表示和所述答案数据的词向量表示。本领域的技术人员可以理解,在完成自然语言处理的相关任务时,首先,需将自然语言转化为计算设备能够识别的语言,即数学符号,其中该数学符号通常为向量。换言之,在获取问题数据和答案数据之后,需将所述问题数据和所述答案数据转化为机器能够识别的表示。这里,在本申请实施例中,对所述问题数据和所述答案数据进行词向量转化,以分别获得所述问题数据和所述答案数据的词向量表示。

特别地,在本申请实施例中,通过词嵌入层以词嵌入的方法对所述问题数据和所述答案数据进行词向量转化,以分别获得所述问题数据和所述答案数据的词向量表示,其中,词向量是词语的连续、稠密、低纬度的分布表示。词嵌入方法(Word Embedding Method)是将自然语言词语数学化的一种方法,其指的是将自然语言中的每一个词映射到高维空间,并表示为一个高维向量。这种词语表示方法通过训练将词语映射到一个K维实数向量(一般K可取50、100等)其中,每个词即为K维向量空间中的一点,词语之间的距离(如欧式距离、Cosine距离)代表词语之间的语义相似度。这里,在本申请实施例中,将提前训练好的100维度(K=100)的Glove词向量作为所述问题和所述答案的词向量表示,并且,在模型训练过程中,固定该词向量不变。

值得一提的是,相对于传统词袋模型,词向量表示包含了文本的上下文语义关系,此为提升所述答案选择系统的性能的基础。

在步骤S120中,通过双向长短期记忆层分别处理所述问题数据的词向量表示和所述答案数据的词向量表示,以分别获得所述问题数据的隐状态序列和所述答案数据的隐状态序列。这里,双向长短期记忆层指的是双向LSTM层。顾名思义,双向LSTM层在单向LSTM网络的基础上发展而来。特别地,在本申请实施例中,所述双向LSTM层包括两个方向相反的LSTM神经网络层,分别为前向LSTM层和后向LSTM层,其中,前向LSTM层可利用文本序列(问题文本序列和答案文本序列)中每个词完整的未来上下文信息,后向LSTM层可利用文本序列(问题文本序列和答案文本序列)中每个词完整的过去上下文信息。

图3图示了根据本申请实施例的双向LSTM层的示意图。如图3所示,所述双向LSTM层包括两个分别独立的单向LSTM层,即,前向LSTM层(Forward Layer)和后向LSTM层(Backward Layer)。所述前向LSTM层对问题文本序列和答案文本序列进行从前往后地学习,所述后向LSTM层对问题文本序列和答案文本序列进行从后往前地学习,其中,每一LSTM神经网络模型包括输出层,用于分别输出所述问题数据的所述隐状态序列和所述答案数据的隐状态序列。如图3所示,所述双向LSTM层的输出结果中包括未来的句子信息(yt+1)和过去的句子信息(yt-1),从而藉由所述双向LSTM层,本申请实施例的用于答案选择的方法能够同时结合问题数据和答案数据的历史信息和未来信息,以提升答案选择系统的性能。

值得一提的是,在本申请实施例中,所述前向LSTM层和所述后向LSTM层的隐含层之间没有信息流,即,所述前向LSTM层和所述后向LSTM层之间没有数据流动,这保证所述双向LSTM层的展开图是非循环的。同时,本领域的技术人员应知晓,LSTM网络可以有效地避免梯度消失和梯度爆炸,从而藉由LSTM网络层可以更好地处理文本数据长依赖问题,也就是说,在本申请实施例中,藉由所述双向LSTM网络可更好地处理所述问题数据和所述答案数据的长依赖问题,以进一步地提升所述答案选择系统的性能。

进一步地,在利用双向长短期记忆层分别获得所述问题数据和所述答案数据的隐状态序列之后,执行步骤S130:通过交互层处理所述问题数据和所述答案数据的隐状态序列,以获得所述问题数据的词语和所述答案数据的词语之间的关系矩阵。如前所述,现有的用于答案选择系统的模型没有充分考虑问题和答案之间的联系,只孤立地对问题和答案进行表示学习,导致答案选择系统的性能不佳。相应地,在本申请实施例中,充分考虑到问题和答案之间的相互影响,选择通过所述交互层直接抽取问题和答案之间的关系。

更具体地,在申请实施例中,所述答案数据和所述问题数据之间的关系矩阵通过如下方式获取:利用向量点乘的方式计算所述问题数据的词语和所述答案数据的词语之间的相关性,以得到所述关系矩阵I。具体计算过程用公式可表示为:

其中,Pi,Hj分别表示所述问题数据和第i个词语和所述答案数据的第j个词语。

在步骤S140中,通过卷积神经网络模型处理所述关系矩阵,以获得所述关系矩阵的特征表示。换言之,在通过所述交互层获得所述问题数据的词语和所述答案数据的词语之间的相似矩阵之后,通过卷积神经网络对所述关系进行表示学习,以获得所述关系矩阵的特征表示。这里,结合步骤S130和步骤S140可知,本申请所提供的所述答案选择系统通过特定模型首先提取所述问题数据和所述答案数据之间的关系(即,所述关系矩阵),进而,直接对所述问题和所述答案数据之间的关系进行表示学习(即,通过所述卷积神经网络处理所述关系矩阵,获得所述特征表示),通过这样的方式,充分考虑到问题和答案之间的影响,以提升所述答案选择系统的性能。

更具体地,在本申请实施例中,用以处理所述关系矩阵的卷积神经网络模型为稠密卷积神经网络模型(Dense Convolutional Network)。稠密卷积神经网络在保证网络中层与层之间最大程度的信息传输的前提下,直接将所有层连接起来,其至少具有如下优势:1,减轻了在表示学习过程中的梯度消失线性;2,加强了特征的传递;3,更有效地利用特征;4,一定程度上减少网络模型的参数。特别地,稠密卷积神经网络模型的网络更窄,参数更少,其很大一部分原因得益于稠密块(dense block)的设计,其中,在稠密块中每个卷积层的输出特征图(feature map)的数量都很小(小于100),而不是像其他神经网络一样以成百上千量级的宽度。同时,这种连接方式使得特征和梯度的传递更加有效,网络也就更加容易训练。因此,藉由所述稠密神经网络模型可更为有效地对所述问题数据和所述答案数据之间的所述关系矩阵进行表示学习,以获得其特征表示。这里,所述特征表示表示所述问题数据和所述答案数据的最终关系向量。

进一步地,在步骤S150中,以用于二元分类的逻辑回归模型处理所述特征表示,以分别获得所述答案数据为所述问题数据的正确答案的第一概率值和所述答案数据为所述问题数据的错误答案的第二概率值。换言之,通过用于二元分类的逻辑回归模型预测所述答案数据为所述问题数据的正确答案和错误答案的概率。

特别地,在本发明的该实施例中,用于二元分类的逻辑回归模型为Softmax逻辑回归模型,其依据如下公式进行预测:

p(y|r,Q,A)=softmax(f(Wrr+br))

其中,Q为所述问题数据和A为所述答案数据,y为所述Softmax逻辑回归模型输出的正确答案概率值,r表示所述问题数据和所述答案数据之间的关系矩阵的所述特征表示,W,b为网络参数。基于上述公式可知,以用于二元分类的逻辑回归模型处理所述特征表示的过程中,对所述特征表示进行线性变化处理。

值得一提的是,所述Softmax逻辑回归模型为二元分类逻辑回归模型,换言之,在藉由所述Softmax逻辑回归模型获得所述答案数据为所述问题数据的正确答案的概率(所述第一概率值)的同时,可获得所述答案数据为所述问题数据的错误答案的概率(所述第二概率值),其中,所述第一概率值和所述第二概率值之和为1。也就是说,本申请所提供的所述答案选择系统将答案选择问题转化为有监督的二分类问题。

进一步地,在获得所述第一概率值(所述答案数据为所述问题数据的正确答案的概率)和所述第二概率值(所述答案数据为所述问题数据的错误答案)后,可通过判定所述第一概率值是否大于预定阈值,并将响应于所述第一概率值大于所述预定阈值的所述答案数据,确定为所述问题数据的正确答案。

综上,用于所述答案选择系统的数据处理方案被说明,其以特定模型对问题和答案之间的关系进行建模,并直接对问题和答案之间的关系进行表示学习,通过这样的方式,提升所述答案选择系统的准确性。

图4图示了根据本申请实施例的模型架构的示意图。如图4所示,用于答案选择的系统模型架构包括词嵌入层(Embedding Layer),双向长短期记忆层(BiLSTM),交互层(Interaction Layer),稠密卷积神经网络层(DenseNet Layer)以及全连接层(Fully-Connected Layer)。

在所述用于答案选择的系统的运行过程中,所述词嵌入层用于,在接收所述问题数据和所述答案数据之后,对获取的问题数据和答案数据分别进行词向量转化,以分别获得所述问题数据的词向量表示和所述答案数据的词向量表示。所述双向长短期记忆层用于分别处理所述问题数据的词向量表示和所述答案数据的词向量表示,以分别获得所述问题数据的隐状态序列和所述答案数据的隐状态序列。所述交互层用于处理所述问题数据的隐状态序列和所述答案数据的隐状态序列,以获得所述问题数据的词语和所述答案数据的词语之间的关系矩阵。所述稠密卷积神经网络层用于处理所述关系矩阵,以获得所述关系矩阵的特征表示。最终,藉由所述全连接层处理所述特征表示,以分别获得所述答案数据为所述问题数据的正确答案的第一概率值和所述答案数据为所述问题数据的错误答案的第二概率值,并基于所述第一概率值大于预设阈值的判定,确定所述答案数据为所述问题数据对应的正确答案。也就是说,在本申请实施例中,所述Softmax逻辑回归模型位于所述全连接层。

值得一提的是,在所述用于答案选择的系统投入服务之前,需对所述用于答案选择的系统进行训练,即,调整系统模型参数。在具体实施中,可利用反向传播法更新用于答案选择的系统的网络参数。首先,利用hinge loss函数构建所述答案选择系统的损失函数,其中,该损失函数用公式可表示为:

特别地,在调整所述用于答案选择的系统的网络参数的过程中,选择针对所述问题数据随机采样的多个错误答案样本数据中与所述问题数据相似度得分最高的错误答案作为所述损失函数的输入,以提高正确答案与问题的相似性得分和降低错误答案与问题的相似性得分,通过这样的方式,优化所述用于答案选择的系统的性能。

示例性装置

图5图示了根据本申请实施例的基于双向注意力机制的用于答案选择的装置500的示意性框图。如图5所示,根据本申请实施例的基于双向注意力机制的用于答案选择的装置500包括:词向量转化单元510,用于对获取的问题数据和答案数据分别进行词向量转化,以分别获得所述问题数据的词向量表示和所述答案数据的词向量表示;隐状态序列提取单元520,用于通过双向长短期记忆层分别处理所述问题数据的词向量表示和所述答案数据的词向量表示,以分别获得所述问题数据的隐状态序列和所述答案数据的隐状态序列;关系矩阵获取单元530,用于处理所述问题数据的隐状态序列和所述答案数据的隐状态序列,以获得所述问题数据的词语和所述答案数据的词语之间的关系矩阵;特征表示提取单元540,用于通过卷积神经网络模型处理所述关系矩阵,以获得所述关系矩阵的特征表示;以及,答案获取单元550,用于以用于二元分类的逻辑回归模型处理所述特征表示,以分别获得所述答案数据为所述问题数据的正确答案的第一概率值和所述答案数据为所述问题数据的错误答案的第二概率值。

在一个示例中,在上述基于双向注意力机制的用于答案选择的装置500中,所述答案获取单元550,还用于:判定所述第一概率值是否大于预定阈值;以及,响应于所述第一概率值大于所述预定阈值,确定所述答案数据为所述问题数据的正确答案。

在一个示例中,在上述基于双向注意力机制的用于答案选择的装置500中,所述卷积神经网络模型为稠密卷积神经网络模型。

在一个示例中,在上述基于双向注意力机制的用于答案选择的装置500中,所述关系矩阵提取单元,用于:将所述问题数据的隐状态序列和所述答案数据的隐状态序列进行向量点乘以获得所述关系矩阵。

在一个示例中,在上述基于双向注意力机制的用于答案选择的装置500中,还包括训练单元560,所述训练单元560用于计算对应的损失函数以通过反向传播调整用于答案选择的系统的网络参数。

在一个示例中,在上述基于双向注意力机制的用于答案选择的装置500中,在调整所述用于答案选择的系统的网络参数的过程中,针对所述问题数据随机采样的多个错误答案样本数据中与所述问题数据相似度得分最高的错误答案被设置为所述损失函数的输入。

这里,本领域技术人员可以理解,上述数据处理装置500中的各个单元和模块的具体功能和操作已经在上面参考图2到图4描述的基于双向注意力机制的用于答案选择的方法中详细介绍,并因此,将省略其重复描述。

如上所述,根据本申请实施例的基于双向注意力机制的用于答案选择的装置500可以实现在各种终端设备中,例如用于社区问答系统的服务器。在一个示例中,根据本申请实施例的装置500可以作为一个软件模块和/或硬件模块而集成到所述终端设备中。例如,该装置500可以是该终端设备的操作系统中的一个软件模块,或者可以是针对于该终端设备所开发的一个应用程序;当然,该装置500同样可以是该终端设备的众多硬件模块之一。

可替换地,在另一示例中,该基于双向注意力机制的用于答案选择的装置500与该终端设备也可以是分立的设备,并且该装置500可以通过有线和/或无线网络连接到该终端设备,并且按照约定的数据格式来传输交互信息。

示例性电子设备

下面,参考图6来描述根据本申请实施例的电子设备。

图6图示了根据本申请实施例的电子设备的框图。

如图6所示,电子设备10包括一个或多个处理器11和存储器12。

处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器11可以运行所述程序指令,以实现上文所述的本申请的各个实施例的基于双向注意力机制的用于答案选择的方法的功能。在所述计算机可读存储介质中还可以存储诸如所述问题数据和所述答案数据等各种内容。

在一个示例中,电子设备10还可以包括:输入装置13和输出装置14,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如,该输入装置13可以是例如键盘、鼠标等等。

该输出装置14可以向外部输出各种信息,包括问题对应的正确答案数据等。该输出设备14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然,为了简化,图6中仅示出了该电子设备10中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备10还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的基于双向注意力机制的用于答案选择的方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的基于双向注意力机制的用于答案选择的方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。

还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1