一种用于搜索TED演讲中话题式查询的文档检索方法与流程

文档序号:17442501发布日期:2019-04-17 04:57阅读:810来源:国知局
一种用于搜索TED演讲中话题式查询的文档检索方法与流程
本发明涉及信息检索
技术领域
,特别涉及一种用于搜索ted演讲中话题式查询的文档检索方法。
背景技术
:ted(technologyentertainmentdesign)是目前最成功的演讲观看平台。检索是该平台向用户提供演讲的一种主要方式。具体的,用户可以通过在搜索框中主动输入关键词或点击平台上提供的关于主题、演讲者、字幕语言方面的关键词检索自己感兴趣的演讲。ted平台的检索方式基于布尔模型,其他传统检索模型,例如:查询似然(ql)、序列依赖模型(sdm)、bm25等,均是在此模型的基础上进行各种优化得到的。布尔模型(booleanmodel)(cooperws.gettingbeyondboole[j].informationprocessing&management,1988,24(3):243-248.)是最简单常用检索模型,它检索文档要求文档内容能精确匹配用户查询中的关键词,不能精确匹配的文档不会被检索到。但是,这种检索方式通过用户查询词在被检索文档中是否出现来判断文档的相关性,显然没有考虑到查询和文档之间的语义联系,因此,当用户不能准确描述查询需求或查询相对较长时,检索很难达到令人满意的结果。用户搜索演讲时,倾向于使用的查询通常是对演讲风格、主题等方面的一段叙述。它通常以短文本的形式存在,且文字描述相对抽象。我们称这类查询为话题式查询。张博文等人2017年论文(zhangbw,yinxc,zhouf,etal.buildingyourownreadinglistanytimeviaembeddingrelevance,quality,timelinessanddiversity[c]//proceedingsofthe40thinternationalacmsigirconferenceonresearchanddevelopmentininformationretrieval.acm,2017:1109-1112.)中针对这类查询提出的一种自动搜索框架可以返回一个与用户查询主题相关的图书清单。有部分文献针对这类查询检索在查询扩展方面进行了研究,例如:杨振瑜在2013年论文(杨振瑜.基于概念语义相似度的长句查询扩展研究[d].山东理工大学,2013.)中提出了一种基于概念语义相似度的长句查询扩展方法。文本的语义表示近几年被广泛用于信息检索任务中且直接关系到结果的好坏,因此,文本语义表示备受业内学者的关注,诸多研究成果都使用了或改进了文本的语义表示。例如,2014年antoinebordes等人在论文(bordesa,westonj,usuniern.openquestionansweringwithweaklysupervisedembeddingmodels[c]//jointeuropeanconferenceonmachinelearningandknowledgediscoveryindatabases.springer,berlin,heidelberg,2014:165-180.)中使用传统的“词袋”模型把问题编码成一个向量。深度学习是一种表示学习方法,它通过对数据进行多层级的建模来获得关于数据特征的层次结构以及数据的分布式表示。由于深度学习可以避免繁琐的人工特征抽取,有效地利用无监督数据,并且具有优秀的泛化能力,因此推动了文本语义表示的发展。lidong等人在2015年论文(dongl,weif,zhoum,etal.questionansweringoverfreebasewithmulti-columnconvolutionalneuralnetworks[c]//acl(1).2015:260-269.)中对答案的路径、语境和类型三个方面使用了三套卷积神经网络参数学习,然后使用答案的这三个方面信息对问题进行向量表示,答案的表示则结合了答案本身的内容和类型信息。wang和jiang在2016年在论文(wangs,jiangj.machinecomprehensionusingmatch-lstmandanswerpointer[j].arxivpreprintarxiv:1608.07905,2016.)中使用lstm得到感知问题的文档向量表示。2017年wenhuiwang等人(wangw,yangn,weif,etal.gatedself-matchingnetworksforreadingcomprehensionandquestionanswering[c]//proceedingsofthe55thannualmeetingoftheassociationforcomputationallinguistics(volume1:longpapers).2017,1:189-198.)针对阅读理解任务提出一种门控匹配网络,使用双向门控匹配循环神经网络得到问题感知的文章语义向量表示。minweifeng等人在文献(fengm,xiangb,glassmr,etal.applyingdeeplearningtoanswerselection:astudyandanopentask[j].2015:813-820.)中比较使用各种不同神经网络结构对保险行业的问答进行表示时,问答系统的检索效果。语义向量模型是基于上下文语义的稠密向量表示模型,考虑到了词语自身的语义,以及在文本上下文中的语义。基于语义的向量模型表示可以更好的表达语义单元在实际语义情景中的含义。加拿大蒙特利尔大学教授benjio2003年的文章(bengioy,schwenkh,senécaljs,etal.neuralprobabilisticlanguagemodels[j].journalofmachinelearningresearch,2003,3(6):1137-1155.)中提出用“嵌入”表示的方法将词映射到一个适量表示空间中,减小了传统模型中的稀疏现象。collobert和weston在文献(collobert,ronan,weston,etal.aunifiedarchitecturefornaturallanguageprocessing:deepneuralnetworkswithmultitasklearning[j].journalofparallel&distributedcomputing,2008.)中提出了基于神经网络结构的语义向量表示模型,然而模型仅考虑了训练目标词语的上下两个相邻词,语义表示受到了限制。huang等人(mikolovt,yihwt,zweigg.linguisticregularitiesincontinuousspacewordrepresentations[j].inhlt-naacl,2013.)提出了一种基于神经网络的语言模型,通过引入文本全局信息来训练语言模型,同时考虑到了一词多义的问题。技术实现要素:本发明的目的就是克服现有技术的不足,提供了一种用于搜索ted演讲中话题式查询的文档检索方法。一、本发明所解决的技术问题本发明所要解决的关键技术问题,是解决ted演讲话题式查询检索中传统检索方法由于查询和文档之间缺乏语义联系而无法取得较好效果的问题。ted演讲检索主要基于布尔检索,但布尔检索中信息匹配过程的简单、机械。另外,只有当人们已经明确知道所需演讲题目时,搜索引擎才能够通过用户键入的关键字为用户提供搜索结果。而通常情况下,进行演讲搜索的用户并不明确自己想要的是哪些演讲,只是知道需要的演讲所属的领域,方向或主题。因此,用户倾向提出的查询属于话题式查询,针对此类查询,ted现有检索方式显然不能取得较好的效果。推荐方式也可以向用户提供演讲,但是,推荐无法直接获取完整的用户需求,而且演讲推荐技术中最常用的是bag-of-words或tf-idf方法将文档表示为以词频为维度的向量,然后通过计算文档间的相似度,进行基于内容的推荐。但这些文档表示方法仅统计文档中单词的词频信息,无法捕捉文档内部以及文档间的统计特征,也无法捕捉到文档的语义特征。因此,如何进一步理解演讲话题式查询,在检索中从语义级别匹配查询和演讲,成为演讲搜索中需要解决的关键问题。二、本发明的技术方案本发明的技术方案如下:一种用于搜索ted演讲中话题式查询的文档检索方法,该方法包括:引入神经网络对话题式查询和演讲文档进行建模;利用现有的话题式查询和演讲文档对神经网络模型进行训练,获取话题式查询和演讲文档之间在语义级别的相关性;使用查询似然检索模型得到初步检索结果;将所述初步检索结果输入到所述神经网络模型中,根据所述话题式查询和所述演讲文档之间的相关性对所述初步检索结果再次排序,确定最终检索结果。进一步的,在引入神经网络对话题式查询和演讲文档进行建模时,将话题式查询和演讲文档分别表示为语义向量;同时考虑文本的时序特征和位置特征。进一步的,所述神经网络模型采用串联循环神经网络和卷积神经网络,以实现语义特征的提取;其中,循环神经网络处理文本的时序特征,卷积神经网络处理文本的位置特征。进一步的,利用现有的话题式查询和演讲文档对神经网络模型进行训练,其具体流程如下:步骤一、数据准备:根据现有的话题式查询,将演讲文档分为正确答案和错误答案,其中,与话题式查询相符的演讲文档为正确答案,与话题式查询不符的演讲文档为错误答案,所述话题式查询为问题;步骤二、将问答对(q,a+,a-)作为输入矩阵,输入循环神经网络,所述循环神经网络采用lstm模块,a+从作为正确答案的演讲文档的段落中随机选择,a-将从作为错误答案的演讲文档的段落中随机选择,q为问题;通过lstm计算时序特征,得到第一输出矩阵;其中,输入矩阵和第一输出矩阵维度相同;步骤三、将步骤二中得到的第一输出矩阵作为输入矩阵,输入到卷积神经网络,计算位置特征;卷积操作之后,进行最大池化操作,得到第二输出矩阵;步骤四、对步骤三中得到的第二输出矩阵的最终特征表示通过cosine相似度计算目标函数,其中,vq、和为经过循环神经网络和卷积网络处理后得到的句子向量。进一步的,步骤二中,通过lstm计算文本的时序特征的具体步骤为;步骤2.1确定从细胞状态中丢弃的信息;通过忘记门层ft完成;其中ht-1表示的是上一个细胞的输出;xt表示的是当前细胞的输入;σ表示sigmod函数;wf是忘记门层的权重,随机初始化;bf是忘记门层的偏置,初始化为0;wf和bf在模型训练的过程中不断调整。ft=σ(wf·[ht-1,xt]+bf)步骤2.2确定加入到细胞状态中的新信息;通过输入门层it完成,it决定哪些信息需要更新;其中ht-1表示的是上一个细胞的输出;xt表示的是当前细胞的输入;σ表示sigmod函数;wi是输入门层的权重,随机初始化;bi是输入门层的偏置,初始化为0;wi和bi在模型训练的过程中不断调整。it=σ(wi·[ht-1,xt]+bi)步骤2.3更新旧细胞状态的时间,即将ct-1更新为ct;其中ct-1是上一步细胞状态;备选用来更新的内容;其中ht-1表示的是上一个细胞的输出;xt表示的是当前细胞的输入;激活函数是tanh函数;wc是当前层的权重,随机初始化;bc是当前层的偏置,初始化为0;wc和bc在模型训练的过程中不断调整。步骤2.4、确定从细胞状态中输出的信息;通过输出门层ot完成;其中ht-1表示的是上一个细胞的输出;xt表示的是当前细胞的输入;σ表示sigmod函数;wo是输出门层的权重,随机初始化;bo是输出门层的偏置,初始化为0;wo和bo在模型训练的过程中不断调整;ht表示的是当前细胞的输出。ot=σ(wo[ht-1,xt]+bo)ht=ot*tanh(ct)输出门ot和输入xt的维度相同。进一步的,步骤三中,通过cnn计算文本的位置特征的具体步骤为:假设将每个单词表示成一个m维词向量;每个句子长度是固定为n个单词;则输入矩阵维度为m×n;如上公式所示,左边的矩阵w是输入矩阵;例如,方法中设置m为100,即方法中词向量通过斯坦福预训练的100维词向量进行初始化;过滤窗口即卷集核;假设过滤窗口的大小为k;则过滤窗口矩阵维度为m×k;如上公式所示,右边的矩阵f表示一个过滤窗口;方法中f是随机初始化;w和f在模型训练的过程中会不断调整;方法中设置了4种大小的卷积核(仅作为举例用,过滤窗口的个数根据需要选取),依次为:100×1,100×2,100×3,100×5。其中100表示词向量的维度,即上述公式中的m,1,2,3,5分别表示单个词,二元词组,三元词组和五元词组,即上述公式中的k;卷积神经网络用于学习矩阵的局部特征,词组作为构成句子的重要一部分,所以这里的局部特征理解为句子中的词组,单独对词组的含义进行学习,有助于更好的表示和理解整个句子的含义。第一维的100维是一个整体共同表示一个单词,所以不可拆分;1,2,3,5表示过滤窗口的大小,如果设置过大,容易损失太多信息,所以通常设置较小。方法中使用窄卷积;过滤窗口的步长为1,一次向右移动一格;因此这里输出向量o是一个(n-k+1)维向量;通过卷积操作之后,将输出进行最大池化操作。通过最大池操作,即进行一个卷积操作的输出结果为max{o1,o2,…,o(n-k+1)}。进一步的,步骤四中,每轮的输入是一个三元组(q,a+,a-),经过神经网络后,分别得到其句子向量表示vq、和分别计算vq和的cosine相似度vq和的cosine相似度即损失函数表示如下:其中,m是一个间距参数,如果说明查询q和正确答案a+的距离远大于a-,此时l为0,则神经网络模型参数不需要更新;反之,如果此时l大于0,则模型根据差值通过梯度下降算法修正神经网络模型参数。一种实现上述的用于搜索ted演讲中话题式查询的文档检索方法的计算机程序。一种实现上述的用于搜索ted演讲中话题式查询的文档检索方法的数据处理终端。一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行上述的用于搜索ted演讲中话题式查询的文档检索方法。本发明与现有技术相比所具有的优势为:(1)将深度学习与传统信息检索方法结合在一起,用于搜索ted演讲中的话题式查询,解决传统演讲检索中词语匹配过于简单、机械的问题。通过从论坛中收集到的真实用户查询和对应的ted演讲文档作为正确答案来验证我们的方法,实验结果表明:该方法与传统方法相比展现出优越的性能;(2)使用神经网络将话题式查询和演讲文档表示为向量,而不是通过演讲推荐中常使用的bag-of-words或tf-idf方法,因此考虑到了文档的语义特征而不是停留在字面相似的程度。另外,使用同一个网络对查询和答案建模,通过增加查询和答案之间的约束,提升该方法性能;(3)lstm算法和cnn算法在该方法中均被采用。因为,lstm算法能考虑查询和演讲文档时序上的特征,通过3个门函数对词语的状态特征进行计算;而cnn算法实现简单,能够有效捕获词语的位置特征信息。附图说明图1所示为本发明实施例中方法总体流程示意图。即利用传统检索方法得到初步检索结果,再通过神经网络对初步结果进行重新排序的过程,神经网络从上到下依次连接lstm和cnn。图2所示为本发明实施例中ted演讲搜索中神经网络训练的详细结构示意图。图3所示为本发明实施例中ted演讲搜索中神经网络测试的详细结构示意图。图4所示为单个lstm单元的基本原理说明图。具体实施方式下文将结合具体附图详细描述本发明具体实施例。应当注意的是,下述实施例中描述的技术特征或者技术特征的组合不应当被认为是孤立的,它们可以被相互组合从而达到更好的技术效果。针对演讲检索中的问题,本发明将深度学习与信息检索方法结合在一起,提出了搜索ted演讲中话题式查询的文档检索方法。由于传统检索模型能帮助用户快速过滤掉不相关的文档,本发明首先使用了传统检索模型查询似然检索模型得到初步检索结果(初排结果),然后为了更好地学习文本语义特征,本发明引入神经网络对查询和文档进行建模,最后根据话题式查询和演讲文档之间的相关性对初排结果进行再次排序以得到最终检索结果。在神经网络部分,综合考虑了文本的时序特征和位置特征,串联了循环神经网络和卷积神经网络,另外,为了解决梯度消失问题,循环神经网络采用了当前流行的lstm模块。这里,首先对使用传统检索模型进行初排进行介绍。搜索引擎的一般检索过程可见附图1中传统信息检索部分。首先,对演讲语料库的文档进行预处理,例如:过滤停用词、词干提取等处理;然后,抽取数据集中ted演讲文档的某些域,例如:<title>、<transcript>等,建立倒排索引。每当有用户查询输入,对查询进行相同的预处理操作,搜索引擎通过检索模型计算用户查询与被检索文档之间的相似度,并按相似度从高到低的顺序排序将文档返回给用户。布尔模型在传统的信息检索中有广泛的应用,它的基本思想是查询被描述为布尔逻辑操作符(and,or,not),文档内容以关键词出现与否来表示。布尔模型定义了一个二值变量集合来表示文档,这些变量对应于文档中的特征项,特征项一般是由文档集中的单词或词组组成。如果其特征项在文档中出现时,该特征项所对应的变量的值就为1(true),否则就是0(false)。文本采用如下的表达形式:di=wi,1,wi,2,...,wi,k,...,wi,n。其中,n为特征项的个数,wi,k为1或0,表示第k个特征项是否在文本di中出现。然后,传统检索模型返回的已排序的文档列表中的非正确演讲的前100个演讲(数字仅做说明用)将作为相近错误答案,参与后续再排过程。下面详细介绍一下本发明的核心,即再排使用的主网络结构。总体流程图可见附图1,神经网络详细训练结构设计图可见附图2,详细测试结构设计图可见附图3。神经网络模型部分,本发明串联循环神经网络和卷积神经网络,以实现语义更强的特征提取。另外,作为输入的话题式查询、正确答案和错误答案,将依次输入到同一个神经网络中。同一个神经网络,一方面能大大降低参数个数,加快整个训练过程;另一方面能够让网络捕捉查询和答案之间关联特性,使得网络适用性更强。lstm(longshorttermmemory),是为了解决长期以来问题而专门设计出来的,和所有的rnn(顺序神经网络)一样,都具有一种重复神经网络模块的链式形式。在本发明方法中,使用的lstm是1对1的模式,即等入等出。lstm基本原理可见附图4。lstm中的第一步是确定从细胞状态中丢弃的信息。它通过忘记门层ft完成;其中ht-1表示的是上一个细胞的输出;xt表示的是当前细胞的输入;σ表示sigmod函数;wf是忘记门层的权重,随机初始化;bf是忘记门层的偏置,初始化为0;wf和bf在模型训练的过程中不断调整。ft=σ(wf·[ht-1,xt]+bf)下一步是决定加入到细胞状态中的新信息。通过输入门层it完成,it决定哪些信息需要更新;其中ht-1表示的是上一个细胞的输出;xt表示的是当前细胞的输入;σ表示sigmod函数;wi是输入门层的权重,随机初始化;bi是输入门层的偏置,初始化为0;wi和bi在模型训练的过程中不断调整。it=σ(wi·[ht-1,xt]+bi)接着,更新旧细胞状态的时间,即将ct-1更新为ct;其中ct-1是上一步细胞状态;备选用来更新的内容;其中ht-1表示的是上一个细胞的输出;xt表示的是当前细胞的输入;激活函数是tanh函数;wc是当前层的权重,随机初始化;bc是当前层的偏置,初始化为0;wc和bc在模型训练的过程中不断调整。最后,确定从细胞状态中输出的信息;通过输出门层ot完成;其中ht-1表示的是上一个细胞的输出;xt表示的是当前细胞的输入;σ表示sigmod函数;wo是输出门层的权重,随机初始化;bo是输出门层的偏置,初始化为0;wo和bo在模型训练的过程中不断调整;ht表示的是当前细胞的输出。ot=σ(wo[ht-1,xt]+bo)ht=ot*tanh(ct)输出门ot和输入xt的维度相同。本发明中cnn(卷积神经网络)使用了4种类型的过滤窗口(仅作为举例用,过滤窗口的个数根据需要选取),通过卷积操作之后,将输出进行最大池化操作。过滤窗口即卷集核,发明中四种大小设置依次为:100×1,100×2,100×3,100×5。其中100表示词向量的维度,1,2,3,5分别表示单个词,二元词组,三元词组和五元词组。卷积神经网络被认为善于学习矩阵的局部特征,词组作为构成句子的重要一部分,所以这里的局部特征理解为句子中的词组,单独对词组的含义进行学习,有助于更好的表示和理解整个句子的含义。第一维的100维是一个整体共同表示一个单词,所以不可拆分;1,2,3,5表示考虑需要考虑的词组的长度,如果设置过大,容易损失太多信息,所以通常设置较小。因为方法中进行卷积操作的矩阵维数过高,卷积输入矩阵维度为100×300,不便于演示,因此,这里使用一个低维度的例子说明cnn卷积部分的计算细节:假设将每个单词表示成一个三维向量;每个句子长度是固定为四个单词;输入矩阵维度为3×4;如上公式所示,左边的矩阵w是输入矩阵,方法中的w是通过斯坦福预训练的100维词向量进行初始化;右边的矩阵f表示一个过滤窗口,设置大小是3×3,方法中f是随机初始化;w和f在模型训练的过程中会不断调整;使用窄卷积,过滤窗口的步长为1,一次向右移动一格;因此这里输出o是一个二维向量:o1=w11f11+w21f21+w31f31+w12f12+w22f22+w32f32+w13f13+w23f23+w33f33o2=w21f11+w31f21+w41f31+w22f12+w32f22+w42f32+w23f13+w33f23+w43f33通过最大池操作,即进行一个卷积操作的输出结果为max{o1,o2}。神经网络的训练需要定义一个损失函数,这里,介绍下该损失函数。每轮的输入是一个三元组(q,a+,a-),经过神经网络后,分别得到其句子向量表示vq、和分别计算vq和的cosine相似度vq和的cosine相似度即损失函数表示如下:其中,m是一个间距参数,如果说明查询q和正确答案a+的距离远大于a-,此时l为0,则神经网络模型参数不需要更新;反之,如果此时l大于0,则模型根据差值通过梯度下降算法修正神经网络模型参数。当经过多轮训练后,l的值逐渐趋于稳定,绘制l随轮数的变化曲线图,取曲线的平稳点对应训练轮数,固定网络参数为该轮下神经网络的模型参数,用于最终实践中的神经网络模型。这里,对神经网络的测试过程进行简单的介绍。神经网络的测试过程和最终用于实践中神经网络结构的输入和流程相同。测试的输入为用户原始查询和通过传统检索模型得到的初排结果的前n个演讲文档,方法中n取100,符号表示为(q,a1,a2,…,a100)。q和a的选择方法和训练过程相同。然后,将输入依次通过固定参数的lstm和cnn得到各自的句子向量表示,符号表示为vq、lstm和cnn介绍和训练过程相同。通过cosine函数得到各自对应的分值,符号表示为最后,不同于训练过程,这里不需要计算损失函数。直接对100篇文档对应的分值从大到小进行排序,对初排检索结果的文档顺序进行调整,返回最终检索结果。为了验证本发明方法的有效性,我们将该方法应用于从论坛中收集到的真实ted查询中。(1)本发明实施例使用的数据集实验采用ted-kiss数据,专用于研究话题式查询的数据集,它包含77,933篇演讲和673个真实用户查询。本发明实施例中的实验只用到了其中的两个域,分别是标题和演讲稿。因为本发明重点解决话题式查询,而这类查询通常不包含一些细节信息,例如:演讲者或演讲时间。经统计,大部分用户查询的长度不超过300个单词。所以,神经网络中lstm层的输入层,句子长度设置为300。实验训练集和测试集的划分为2:1,确保测试集和训练集符合相同分布。具体的,448个查询用于训练,225个用于测试。(2)实验描述实验使用开源搜索引擎galago搭建语料库,建立索引,选择查询似然模型进行检索,每个问题返回1000个答案。这种传统检索方式的结果是本次实验的基准。实验使用theano框架作为训练工具,查询和演讲使用的词向量是斯坦福提供的预训练好的100维词向量,该词向量也作为模型参数参与每次迭代更新。实验采用固定长度的lstm,因此需要对查询和答案进行截断(过长)或补充(过短)的数据预处理。另外,由于演讲文本通常很长,所以将一篇演讲分成多个段落存储,然后对段落进行截断或补充。实验的输入采用问答对(q,a+,a-)的形式,其中,q代表问题,a+代表正确答案,a-代表错误答案。ted-kiss训练数据已经包含了问题和对应搜索的演讲,实验错误答案的选择范围是该问题galago搜索下返回的除去正确答案的前100篇演讲文档。因此,模型的a+将从作为正确答案的演讲的段落中随机选择,a-将从作为错误答案的演讲的段落中随机选择。对问题和答案通过相同的lstm模型计算特征。输入矩阵和输出矩阵维度相同,同为(rnn_size,batch_size,embedding_size)。对问题和答案通过相同的cnn模型计算特征,其中池化采用max-pooling方式。输入矩阵为(batch_size,1,sequence_len,embedding_size),输出矩阵为(batch_size,num_filters*len(filter_sizes))。通过问题和答案最终的特征表示,通过cosine相似度,计算目标函数。具体实验参数设置:1)优化函数采用sgd。2)学习速率固定为0.001。3)训练2200轮,从训练日志观察得到,850轮左右基本达到稳定。4)目标函数中的margin采用0.1。5)rnn_size设置为300。6)batch_size设置为256。7)embedding_size设置为100。8)sequence_len设置为300。9)num_filters设置为500。10)filter_sizes设置为[1,2,3,5]。11)目标函数采用cosine相似度。12)演讲文档最终得分是组成该文档的所有段落的分数的平均值。(3)实验结果因为大多数问题的正确答案是唯一的,所以选择meanreciprocalrank(mrr),sucess@1(s@1),precision(p)和recall(r)作为本次实验的评测指标。其中,mrr被用来测量正确答案在返回列表中的排名信息,s@1表示第一个搜索结果即为正确答案的查询比例,p和r用来衡量正确答案的分布。另外,实验所用的查询是从问题集合中随机选择的225个查询。实验结果如表1所示。表1本发明实施例实验结果数据modelql(querylikeyhood)ql+lstm+cnnmrr0.13870.1834s@10.11290.1278p@50.03360.0529r@50.16790.2565实验结果表明,在ted-kiss数据集上,相比于传统查询似然检索模型的结果,结合lstm和cnn算法的方法在mrr上提高了32.23%,在s@1上提高了13.20%,在p上提高了57.44%,在r上提高了52.77%。综上可得,本发明确实提高了ted话题式检索的准确率。本发明将传统检索模型和神经网络结合到一起,提出了专用于搜索ted演讲中话题式查询的文档检索方法。该方法首先使用查询似然检索模型得到初步检索结果,然后引入神经网络对查询和文档进行建模,最后根据查询和文档之间的相关性对初排结果再次排序以确定最终检索结果。在神经网络部分,我们串联了循环神经网络和卷积神经网络,另外,为了解决梯度消失问题,采用了当前流行的lstm模块。通过这种方式,该方法能从语义级别捕捉到查询和文档之间的联系。此外,本文使用从论坛中收集到的真实用户查询和对应的ted演讲文档作为正确答案来验证该方法的有效性。本文虽然已经给出了本发明的几个实施例,但是本领域的技术人员应当理解,在不脱离本发明精神的情况下,可以对本文的实施例进行改变。上述实施例只是示例性的,不应以本文的实施例作为本发明权利范围的限定。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1