相似试题的判定方法及系统与流程

文档序号:15115617发布日期:2018-08-07 20:01阅读:416来源:国知局

本发明涉及机器学习和教育数据挖掘技术领域,尤其涉及一种相似试题的判定方法及系统。



背景技术:

随着自适应教育的迅速发展,很多教育系统或公司收集了大量的试题数据,用于给学生推荐相似的试题集以加强其知识点或者解题技巧的掌握程度,因此,如何充分利用试题的异构数据,准确地计算试题间的相似性以判定是否为相似题,一直是教育数据挖掘领域探索的一个重要问题,关于相似试题判定的方法主要有以下方法:利用试题文本判定是否是相似题,首先计算每个词的tf-idf值,然后构建基于tf-idf的试题向量表示,最后用余弦相似度计算试题间的相似性,从而设定相似性阈值判定两道试题是否相似。

发明人对现有的相似试题的判定方法进行研究发现,很多试题是由文本、图片、知识点等异构数据构成的,上述的方法仅以试题中的文本作为判定条件,并没有利用试题的图片、知识点信息,也没有充分利用包含在试题的异构数据的语义信息,缺乏较强的解析性,导致相似试题的判定结果准确性低。



技术实现要素:

有鉴于此,本发明提供了一种相似试题的判定方法,用以解决现有的相似试题判定过程中,仅以试题中的文本作为判定条件,并没有利用试题的图片、知识点信息,也没有充分利用包含在试题的异构数据的语义信息,缺乏较强的解析性,导致相似试题的判定结果准确性低问题。具体方案如下:

一种相似试题的判定方法,包括:

获取目标试题对中包含的异构数据信息,所述目标试题对包括:第一试题和第二试题,所述异构数据信息包括:文本、图片和知识点;

将所述异构数据信息传递到预设的语义表征计算模型,计算得到所述第一试题对应的第一语义表征和所述第二试题对应的第二语义表征;

分别将所述第一语义表征和所述第二语义表征采用预设的相似度计算方法进行计算,得到所述第一试题相对于所述第二试题的相似度得分;

判断所述相似度得分是否大于预设的相似度得分阈值,若是,判定所述第一试题与所述第二试题相似。

上述的方法,可选的,还包括:

若否,判定所述第一试题与所述第二试题不相似,将所述目标试题对在预设的试题数据库中删除。

上述的方法,可选的,将所述异构数据信息传递到预设的语义表征计算模型,计算得到所述第一试题对应的第一语义表征和所述第二试题对应的第二语义表征包括:

获取所述异构数据信息中与所述第一试题对应的第一异构数据向量子集,所述第一异构数据向量子集包括:第一文本向量、第一图片向量和第一知识点向量和与所述第二试题对应的第二异构数据向量子集,所述第二异构数据向量子集包括:第二文本向量、第二图片向量和第二知识点向量;

分别将所述第一异构数据向量子集和所述第二异构数据向量子集中的各个向量进行整合,得到第一多模态序列和第二多模态序列;

将所述第一多模态序列和所述第二多模态序列传递到预设的长短期记忆网络模型中进行计算得到第一语义表征和第二语义表征。

上述的方法,可选的,分别将所述第一异构数据向量子集和所述第二异构数据向量子集中的各个向量进行整合,得到第一多模态序列和第二多模态序列包括:

分别确定与所述第一异构数据向量子集对应的各个第一关联关系和与所述第二异构数据向量子集对应的各个第二关联关系;

分别依据注意力机制确定与所述各个第一关联关系对应的各个第一关联权重和与所述第二关联关系对应的各个第二关联权重;

分别将与所述各个第一关联权重和其对应的各个向量进行累加得到第一多模态序列和与所述各个第二关联权重和其对应的各个向量进行累加得到第二多模态序列。

上述的方法,可选的,分别将所述第一语义表征和所述第二语义表征采用预设的相似度计算方法进行计算,得到所述第一试题相对于所述第二试题的相似度得分包括:

分别依据所述第一语义表征计算与所述第一试题对应的第一相似向量和第一相似性语义向量和依据所述第二语义表征计算与所述第二试题对应的第二相似向量和第二相似语义向量;

对所述第一相似向量、第一相似性语义向量、第二相似向量和第二相似性语义向量进行拼接,得到目标向量;

依据所述目标向量构建目标激活函数;

依据所述目标激活函数,确定所述第一试题相对于所述第二试题的相似度得分。

一种相似试题的判定系统,包括:

获取模块,用于获取目标试题对中包含的异构数据信息,所述目标试题对包括:第一试题和第二试题,所述异构数据信息包括:文本、图片和知识点;

第一计算模块,用于将所述异构数据信息传递到预设的语义表征计算模型,计算得到所述第一试题对应的第一语义表征和所述第二试题对应的第二语义表征;

第二计算模块,用于分别将所述第一语义表征和所述第二语义表征采用预设的相似度计算方法进行计算,得到所述第一试题相对于所述第二试题的相似度得分;

判断模块,用于判断所述相似度得分是否大于预设的相似度得分阈值,若是,判定所述第一试题与所述第二试题相似。

上述的系统,可选的,还包括:

删除模块,用于若否,判定所述第一试题与所述第二试题不相似,将所述目标试题对在预设的试题数据库中删除。

上述的系统,可选的,所述第一计算模块包括:

获取单元,用于获取所述异构数据信息中与所述第一试题对应的第一异构数据向量子集,所述第一异构数据向量子集包括:第一文本向量、第一图片向量和第一知识点向量和与所述第二试题对应的第二异构数据向量子集,所述第二异构数据向量子集包括:第二文本向量、第二图片向量和第二知识点向量;

整合单元,用于分别将所述第一异构数据向量子集和所述第二异构数据向量子集中的各个向量进行整合,得到第一多模态序列和第二多模态序列;

第一计算单元,用于将所述第一多模态序列和所述第二多模态序列传递到预设的长短期记忆网络模型中进行计算得到第一语义表征和第二语义表征。

上述的系统,可选的,所述整合单元包括:

第一确定子单元,用于分别确定与所述第一异构数据向量子集对应的各个第一关联关系和与所述第二异构数据向量子集对应的各个第二关联关系;

第二确定子单元,用于分别依据注意力机制确定与所述各个第一关联关系对应的各个第一关联权重和与所述第二关联关系对应的各个第二关联权重;

累加子单元,用于分别将与所述各个第一关联权重和其对应的各个向量进行累加得到第一多模态序列和与所述各个第二关联权重和其对应的各个向量进行累加得到第二多模态序列。

上述的系统,可选的,所述第二计算模块包括:

第二计算单元,用于分别依据所述第一语义表征计算与所述第一试题对应的第一相似向量和第一相似性语义向量和依据所述第二语义表征计算与所述第二试题对应的第二相似向量和第二相似语义向量;

拼接单元,用于对所述第一相似向量、第一相似性语义向量、第二相似向量和第二相似性语义向量进行拼接,得到目标向量;

构建单元,用于依据所述目标向量构建目标激活函数;

确定单元,用于依据所述目标激活函数,确定所述第一试题相对于所述第二试题的相似度得分。

与现有技术相比,本发明包括以下优点:

本发明公开了一种相似试题的判定方法,包括:解析目标试题对中包含的异构数据信息,所述目标试题对包括:第一试题和第二试题,所述异构数据信息包括:文本、图片和知识点;将所述异构数据信息传递到预设的语义表征计算模型,计算得到第一语义表征和第二语义表征;分别将所述第一语义表征和所述第二语义表征采用预设的相似度计算方法进行计算,得到所述第一试题相对于所述第二试题的相似度得分;判断所述相似度得分是否大于预设的相似度得分阈值,若是,判定所述第一试题与所述第二试题相似。上述的方法,采用文本、图片和知识点进行相似试题的判定,避免了仅以文本作为判定条件,缺乏较强的解析性,导致相似试题的判定结果准确性低的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例公开的一种相似试题的判定方法流程图;

图2为本申请实施例公开的一种相似试题的判定方法又一方法流程图;

图3为本申请实施例公开的一种相似试题的判定方法又一方法流程图;

图4为本申请实施例公开的一种相似试题的判定系统结构框图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

本发明提供了一种相似试题的判定方法,所述方法应用在教育数据挖掘技术领域中对预设的相似试题对是否相似的判定的过程中,判定相似试题的目的是为了加强学生对知识点或者解题技巧的熟练程度。所述判定方法的执行主体可以为相似试题判定方法处理终端中的处理器或者控制器等,所述判定方法的执行流程如图1所示,包括步骤:

s101、获取目标试题对中包含的异构数据信息,所述目标试题对包括:第一试题和第二试题,所述异构数据信息包括:文本、图片和知识点;

本发明实施例中,所述目标试题对存储在预设的试题数据库中,所述预设的试题数据库中存储有多个相似试题对,相似试题对是教育专家或者老师根据经验判定的。所述目标试题对是在所述预设的试题数据库中任意选取的。

其中,与所述目标试题对中的所述第一试题和所述第二试题包含的文本、图片和知识点三种异构数据信息同样是预选提取完成,存储在所述预设的试题数据库中。

s102、将所述异构数据信息传递到预设的语义表征计算模型,计算得到所述第一试题对应的第一语义表征和所述第二试题对应的第二语义表征;

本发明实施例中,所述异构数据信息由所述第一试题对应的第一异构数据信息和所述第二试题对应的第二异构数据信息组成,分别将所述第一异构数据信息和所述第二异构数据信息传递到预设的语义表征计算模型进行计算,得到所述第一试题对应的第一语义表征和所述第二试题对应的第二语义表征。

s103、分别将所述第一语义表征和所述第二语义表征采用预设的相似度计算方法进行计算,得到所述第一试题相对于所述第二试题的相似度得分;

本发明实施例中,分别将所述第一语义表征和所述第二语义表征传递给对应的相似度计算模型进行计算,得到所述目标试题对中所述第一试题和所述第二试题的相似度得分。

s104、判断所述相似度得分是否大于预设的相似度得分阈值,若是,判定所述第一试题与所述第二试题相似。

本发明实施例中,将所述相似度得分与预设的相似度得分阈值进行比较,当所述相似度得分大于所述相似度得分阈值时,判定所述第一试题与所述第二试题相似,其中,所述相似度得分阈值是依据经验进行确定的。

本发明实施例中,还包括:当所述相似度得分小于所述相似度得分阈值时,判定所述第一试题与所述第二试题不相似,将所述目标试题对在预设的试题数据库中删除。

本发明公开了一种相似试题的判定方法,包括:解析目标试题对中包含的异构数据信息,所述目标试题对包括:第一试题和第二试题,所述异构数据信息包括:文本、图片和知识点;将所述异构数据信息传递到预设的语义表征计算模型,计算得到第一语义表征和第二语义表征;分别将所述第一语义表征和所述第二语义表征采用预设的相似度计算方法进行计算,得到所述第一试题相对于所述第二试题的相似度得分;判断所述相似度得分是否大于预设的相似度得分阈值,若是,判定所述第一试题与所述第二试题相似。上述的方法,采用文本、图片和知识点进行相似试题的判定,避免了仅以文本作为判定条件,缺乏较强的解析性,导致相似试题的判定结果准确性低的问题。

本发明实施中,将所述异构数据信息传递到预设的语义表征计算模型,计算得到所述第一试题对应的第一语义表征和所述第二试题对应的第二语义表征的方法流程包括步骤:

s201、获取所述异构数据信息中与所述第一试题对应的第一异构数据向量子集,所述第一异构数据向量子集包括:第一文本向量、第一图片向量和第一知识点向量和与所述第二试题对应的第二异构数据向量子集,所述第二异构数据向量子集包括:第二文本向量、第二图片向量和第二知识点向量。

本发明实施例中,所述第一试题与所述第二试题的处理方式相同,以第一试题的处理过程为例进行说明。

首先用统一的数学形式表示所述第一试题的异构数据:文本、图片、知识点。对于所述第一试题,用qt=(w1,w2,…,wn)表示其由n个词组成的第一文本向量,可以由利用试题文本预训练好的每个词用e0维向量表示的word2vec模型得到;用qi=(p1,p2,…,pm)表示所述第一试题含有的m张图片,其中将每个图片转化成一个固定大小(如64x64)的灰度图,且每一个像素值在0到1之间,并用pi∈r64×64表示第i张图片;用qk=(qk1,qk2,…,qkl)表示所述第一试题含有的l个知识点,其中qki∈{0,1}l是一个one-hot向量,用以表示第i个知识点,l是所述第一试题中知识点的总数。

文本的表示由预训练好的word2vec模型得到,对图片和知识点做以下处理:将每一张图片用一个卷积神经网络(记为imcnn)处理得到其对应的特征向量,imcnn由5个卷积层和5个最大池化层构成,而且通过构造imcnn对应的反卷积神经网络deimcnn和最小化以下损失函数limcnn,预训练学习得到卷积神经网络imcnn的参数:

其中,公式(1)中,p是用于预训练的试题图片,imcnn(p)表示图片p经过imcnn得到的特征向量,deimcnn(imcnn(p))表示利用图片p的特征向量经过反卷积神经网络deimcnn还原得到的图片,目标函数的目的是最小化还原图片与原始图片之间的差异,当还原图片与原始图片之间的差异较小时,说明图片经过imcnn得到的第一图片向量是有效的。

对于每一张图片pi,经过卷积神经网络imcnn得到的第一图片向量为vi=imcnn(pi),是一个e1维向量。

对于每一个知识点qkil,将其one-hot的稀疏向量表示qkil转化成一个低维密集的第一知识点向量表示其中是一个e2维向量,wd是一个参数矩阵。

s202、分别将所述第一异构数据向量子集和所述第二异构数据向量子集中的各个向量进行整合,得到第一多模态序列和第二多模态序列;

本发明实施例中,所述第一模态序列和所述第二模态序列的生成过程相同,以所述第一模态序列的生成过程为例进行说明。

完成文本、图片和知识点的预处理之后,通过整合试题的文本、图片、知识点,理解和学习试题的语义信息,得到所述第一试题对应的第一多模态序列,具体过程如下:

由于在一道试题中不同文本描述不同的图片或者不同的知识点,因此在一道试题中存在着文本与图片的第一关联关系、文本与知识点的第一关联关系。为了整合文本、图片和知识点,在第t个时间步的第一模态序列xt可以表示如下:

其中,wt是所述第一试题的第一文本向量中的第t个词的向量表示,是将两个向量拼接的操作符,是与所述wt相关联的知识点的向量表示,是利用注意力机制计算得到每个知识点的关联权重,然后结合权重将所述第一试题含有的各个第一知识点向量累加得到的;是与所述wt相关联的图片的向量表示,可以利用注意力机制得到,是利用注意力机制计算得到每个图片的关联权重,然后结合权重将所述第一试题含有各个第一图片向量累加得到的。

为了学习文本与知识点的关联,首先计算得到每个知识点与第t个词wt的关联权重,然后对所述第一试题含有的各个知识点对应第一知识点向量进行累加得到与所述wt相关联的知识点的向量表示的注意力机制建模过程如下:

其中,vak和wak分别是注意力机制的参数向量和参数矩阵,s(dj,wt,ht-1)是试题中的第j个知识点与第t个词wt的关联得分,αj是s(dj,wt,ht-1)进行归一化后的第一关联权重。

为了学习文本与图片的关联,首先计算得到每个图片与第t个词wt的关联权重,然后对所述第一试题含有的各个图片对应第一图片向量累加得到与所述wt相关联的图片的向量表示的注意力机制建模过程如下:

其中,vai和wai分别是注意力机制的参数向量和参数矩阵,s(vj,wt,ht-1)是所述第一试题中的第j个图片与第t个词wt的关联得分,βj是s(vj,wt,ht-1)进行归一化后的第一关联权重。

本发明实施例中,依据公式(2)—公式(8)共同确定所述第一多模态序列。

s203、将所述第一多模态序列和所述第二多模态序列传递到预设的长短期记忆网络模型中进行计算得到第一语义表征和第二语义表征。

本发明实施例中,所述第一语义表征与所述第二语义表征的计算过程相同,仅以第一语义表征的计算工程为例进行说明。

考虑到所述第一试题文本的词序列信息,采用长短期记忆网络lstm对试题进行建模,并将所述第一试题的异构数据信息通过整合文本、图片、知识点作为所述lstm的输入,即所述第一多模态序列x=(x1,x2,…,xn),其中xi是一个组合了文本、图片、知识点的向量,得到所述lstm输出的隐含状态序列h=(h1,h2,…,hn),类似于自然语言处理,将得到的lstm的隐含状态序列h作为所述第一试题的第一语义表征。对于所述第一多模态序列x,在第t个时间步,lstm的隐含状态ht更新如下:

it=σ(wxixt+whiht-1+wcict-1+bi)(9)

ft=σ(wxfxt+whfht-1+wcfct-1+bf)(10)

ct=ftct-1+ittanh(wxcxt+whcht-1+bc)(11)

ot=σ(wxoxt+whoht-1+wcoct+bo)(12)

ht=ottanh(ct)(13)

其中,it、ft、ct、ot分别是lstm的输入门、遗忘门、记忆细胞、输出门,w·、b·分别是所述lstm的参数矩阵和偏置。

本发明实施例中,分别将所述第一语义表征和所述第二语义表征采用预设的相似度计算方法进行计算,得到所述第一试题相对于所述第二试题的相似度得分的方法流程如图3所示,包括步骤:

s301、分别依据所述第一语义表征计算与所述第一试题对应的第一相似向量和第一相似性语义向量和依据所述第二语义表征计算与所述第二试题对应的第二相似向量和第二相似语义向量;

本发明实施例中,通过所述注意力机制和所述lstm,可得到试题的语义表征,即lstm输出的隐含状态序列h=(h1,h2,…,hn),对于试题q,将其第一语义表征记为

根据获取得的试题语义表征,找到所述第一试题和所述第二试题之间的语义相似部分以及这两道题的相似性得分,以此判断这两道试题是否是相似题包括:

对于所述第一试题qi和所述第二试题qj,在得到其对应的第一语义表征和第二语义表征后,首先利用余弦相似度和一个相似性矩阵通过计算所述第一试题和所述第二试题中每个部分之间的相似性,如:au,v表示所述第一试题qi的第u个第一语义表征向量和所述第二试题qj的第v个第二语义表征向量的余弦相似度,找到它们的语义相似部分,相似性矩阵a计算如下:

其中分别表示所述第一试题qi和所述第二试题qj的文本词序列,即所述第一语义表征和所述第二语义表征的长度,cos表示两个向量的余弦相似度。由于相似性矩阵a中每一个元素的值表示所述第一试题和所述第二试题各个部分之间在语义上的相似程度,因此通过可视化相似性矩阵a,可以找到两者的语义相似部分,具有很好的解析性。

在完成相似性矩阵a的计算之后,所述第一试题qi的第u个所述第一语义向量与所述第二试题qj的各个部分的总相似性可表示为所述第二试题qj的第v个所述第二语义向量与所述第一试题qi的各个部分的总相似性可表示为从而可以得到所述第一试题qi和所述第二qj的相似性向量表示,即所述第一相似向量和所述第二相似向量进一步地,结合试题的相似性向量表示和其语义表征,可以得到试题的相似性语义表示,即所述第一试题qi和所述第二试题qj的相似性语义表示分别为第一相似语义向量和第二相似语义向量

s302、对所述第一相似向量、第一相似性语义向量、第二相似向量和第二相似性语义向量进行拼接,得到目标向量;

本发明实施例中,结合所述第一试题qi的第一相似向量和所述第一相似语义向量和所述第二试题qj的第二相似向量和所述第二相似语义向量首先将这些表示拼接成一个目标向量,计算过程如下:

s303、依据所述目标向量构建目标激活函数;

本发明实施例中,依据所述目标向量,构建如下的激活函数:

oij=relu(w1zij+b1)(16)

其中,w1、b1是全连接网络的参数,relu是激活函数,即relu(x)=max(0,x),σ是sigmoid函数,即σ(x)=1/(1+e-x)。

s304、依据所述目标激活函数,确定所述第一试题相对于所述第二试题的相似度得分。

本发明实施例中,将所述激活函数传递到如下公式计算所述第一试题相对于所述第二试题的相似度得分。

score(qi,qj)=σ(w2oij+b2)(17)

其中,w2、b2是全连接网络的参数。

本发明实施例中,上述方法中需要学习的参数θ,包括:wd,lstm的参数w·和b·,两个注意力机制的参数vak、wak、vai和wai,以及两个全连接网络的参数w1、b1、w2和b2,可以利用已有的标注的相似题对数据,通过最小化以下损失函数e得到:

其中,试题qs和qr分别是与目标试题对中第一试题和第二试题相似的试题和基于采样得到的不相似试题,即将除了标注好的相似试题之外的试题看作是不相似试题,μ是一个超参,λ是正则化参数。

利用训练好的参数θ,对于任意两道试题qi和qj,可以计算出它们的相似性得分score(qi,qj),从而可以依据score(qi,qj)与所述预设的相似度阈值得比较结果,判断这两道试题是否相似。

由上述本发明提供的技术方案可以看出,针对具有异构数据的试题,运用多模态学习的方法和注意力机制,充分利用了试题的文本、图片、知识点,从而更准确地计算试题之间的相似性,可以准确地判定任意两道试题是否相似,还能具有解析性地找到试题之间语义相似的部分,弥补了现有方法不能充分考虑试题的异构数据和缺乏极强解释性的弊端。

与上述的相似试题的判定方法相对应的,本发明还提供了一种相似实体的判定系统,所述判定系统的结构框图如图4所示,包括:

获取模块401,第一计算模块402,第二计算模块403和判断模块404。

其中,

所述获取模块401,用于获取目标试题对中包含的异构数据信息,所述目标试题对包括:第一试题和第二试题,所述异构数据信息包括:文本、图片和知识点;

所述第一计算模块402,用于将所述异构数据信息传递到预设的语义表征计算模型,计算得到所述第一试题对应的第一语义表征和所述第二试题对应的第二语义表征;

所述第二计算模块403,用于分别将所述第一语义表征和所述第二语义表征采用预设的相似度计算方法进行计算,得到所述第一试题相对于所述第二试题的相似度得分;

所述判断模块404,用于判断所述相似度得分是否大于预设的相似度得分阈值,若是,判定所述第一试题与所述第二试题相似。

本发明公开了一种相似试题的判定系统,包括:解析目标试题对中包含的异构数据信息,所述目标试题对包括:第一试题和第二试题,所述异构数据信息包括:文本、图片和知识点;将所述异构数据信息传递到预设的语义表征计算模型,计算得到第一语义表征和第二语义表征;分别将所述第一语义表征和所述第二语义表征采用预设的相似度计算方法进行计算,得到所述第一试题相对于所述第二试题的相似度得分;判断所述相似度得分是否大于预设的相似度得分阈值,若是,判定所述第一试题与所述第二试题相似。上述的系统,采用文本、图片和知识点进行相似试题的判定,避免了仅以文本作为判定条件,缺乏较强的解析性,导致相似试题的判定结果准确性低的问题。

本发明实施例中,所述判定系统还包括删除模块405。

其中,

所述删除模块405,用于若否,判定所述第一试题与所述第二试题不相似,将所述目标试题对在预设的试题数据库中删除。

本发明实施例中,所述第一计算模块402包括:

获取单元406,整合单元407和第一计算单元408。

其中,

所述获取单元406,用于获取所述异构数据信息中与所述第一试题对应的第一异构数据向量子集,所述第一异构数据向量子集包括:第一文本向量、第一图片向量和第一知识点向量和与所述第二试题对应的第二异构数据向量子集,所述第二异构数据向量子集包括:第二文本向量、第二图片向量和第二知识点向量;

所述整合单元407,用于分别将所述第一异构数据向量子集和所述第二异构数据向量子集中的各个向量进行整合,得到第一多模态序列和第二多模态序列;

所述第一计算单元408,用于将所述第一多模态序列和所述第二多模态序列传递到预设的长短期记忆网络模型中进行计算得到第一语义表征和第二语义表征。

本发明实施例中,所述整合单元407包括:

第一确定子单元409,第二确定子单元410和累加子单元411。

其中,

所述第一确定子单元409,用于分别确定与所述第一异构数据向量子集对应的各个第一关联关系和与所述第二异构数据向量子集对应的各个第二关联关系;

所述第二确定子单元410,用于分别依据注意力机制确定与所述各个第一关联关系对应的各个第一关联权重和与所述第二关联关系对应的各个第二关联权重;

所述累加子单元411,用于分别将与所述各个第一关联权重和其对应的各个向量进行累加得到第一多模态序列和与所述各个第二关联权重和其对应的各个向量进行累加得到第二多模态序列。

本发明实施例中,所述第二计算模块403包括:

第二计算单元412,拼接单元413,构建单元414和确定单元415。

其中,

所述第二计算单元412,用于分别依据所述第一语义表征计算与所述第一试题对应的第一相似向量和第一相似性语义向量和依据所述第二语义表征计算与所述第二试题对应的第二相似向量和第二相似语义向量;

所述拼接单元413,用于对所述第一相似向量、第一相似性语义向量、第二相似向量和第二相似性语义向量进行拼接,得到目标向量;

所述构建单元414,用于依据所述目标向量构建目标激活函数;

所述确定单元415,用于依据所述目标激活函数,确定所述第一试题相对于所述第二试题的相似度得分。

需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

最后,还需要说明的是,在本申请中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上对本发明所提供的一种相似试题的判定方法及系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1