一种文本案例匹配方法

文档序号:6509384阅读:263来源:国知局
一种文本案例匹配方法
【专利摘要】本发明涉及一种文本案例匹配方法,该方法包括:构建案例库、构建标识词组、构建检索词组、求出语义距离、根据语义距离求出语义相似度、为检索词组分配权重、确定综合相似度、确定综合相似度阈值、判断是否全部匹配完成最后输出匹配结果,本发明能够根据相关概念以及相关背景知识进行推理,挖掘出文本中的隐含信息,为相关检索式进行赋权,从而可以实现基于概念的智能检索。在实际系统应用中具有较好的查询效果。
【专利说明】一种文本案例匹配方法
【技术领域】
[0001]本发明涉及智能检索领域,具体涉及一种文本案例匹配方法。
【背景技术】
[0002]案例推理(CBR)是最近三十多年来日益发展的区别于规则推理的一种新的推理模式。它是一种重要的基于所积累的知识进行现有问题求解和学习的方式,强调人类对于过去积累的知识经验以及前人的智慧结晶的重视。一个典型的案例推理问题求解过程的基本步骤可以归纳为四个主要过程:案例检索(Retrieve)、案例重用(Reuse)、案例修正(Revise)和案例保存(Retain)。案例推理的关键在于检索与当前新发案例最相近的历史案例,即案例检索,以便直接利用或稍加修改其解决方案来应对当前问题,避免了对类似问题做重复的分析工作,从而大量节省处理问题的时间,因此该推理方法广泛受到国内外研究学者的关注。而如何提高新旧案例匹配相似率,一直是学者们研究的重点。
[0003]案例匹配是根据已知的案例内容,去案例库寻找与此最相近的历史案例,从而快速得到解决方案或以此作为参考。分析以往文献可以发现,过去案例匹配的方法多数是通过比较案例间的属性数值来获取最相似案例,而对于文本的相似计算却研究甚少。实际上,在案例中,文本信息占据很大的比例,它主要以文字或辅以图片呈现。因此,案例匹配的准率通常取决于案例中相关文本信息的匹配的精确性。
[0004]传统的文本信息检索采用的方法有布尔检索、向量空间检索和概率检索。早期的信息检索系统采用“布尔查询”的方法来进行全文检索。布尔检索(Boolean Retrieval)是一种简单而常用的严格匹配模型,它定义了一个词组集合来标识文档,该词组被称为标识词组。同时运用布尔逻辑运算符将检索词连接起来形成检索式,再与文档标识词组做逐一匹配。如此,布尔检索的本质就是将文本匹配转化成词组间的相互匹配。虽然布尔模型具有简单、易理解、易在计算机上实现且检索速度快等优点。但是这种方法很难全面地表达用户需求,对于模糊的信息需求不能很好的处理,用户必须详细的规划自己的查询,其复杂程度不亚于编程语言。而且这种检索方式对于检索词的重要度不加区分,忽视索引词与词之间的内在关系,所以对检索词与标识词的比较过于严格,对于文档与查询的评价就只有“匹配”,“不匹配”两种而已。
[0005]向量空间模型(Vector Space Model)由Salton等人于20世纪70年代提出。该模型用检索项的高维向量空间来表示用户的提问和文本集信息,其中每一维为一个特征。一个用户提问向量或文本向量的第i个元素表示用户提问或文本的第i个特征的重要度,或称权值。用户提问向量的权值由用户指定;文本向量的权值则根据特征在文本或文本集中的出现频率决定。提问向量与文本向量间的余弦角通常用来测定该文本与该用户提问词之间的匹配程度。向量空间模型为索引词引进了权值,通过调节词的权值的大小来反映标引词与被标引文档的相关程度,部分地克服了传统布尔检索的缺陷,但是此模型在各个维度间缺乏相关性,标引词被认为是相互独立的,因而无法对文档中各个词的相关性提供信息。从宏观上看,仍然没有摆脱“关键词匹配”的窠臼。[0006]概率模型(Probabilistic Model)最早由Maron和Kuhn在1960年提出。概率模型通常利用检索单元作为线索,通过统计得到每个检索单元在相关的文档集中出现和不出现的概率以及其在与该查询不相关的文档集中出现和不出现的概率。最终利用这些概率值,计算文档与查询的相似度。在检索过程中,它通过反复反馈结果和用户需求,使结果得到了很好的调整,但是它沿用了索引词之间相互独立的基本假设,忽略了内在语义关系,影响查询结果的准确性。而且在该模型理论中没有考虑到索引属于在文档中的频率。
[0007]总结来看,传统的文本匹配方法已经越来越难满足当前日益增长的案例信息的检索需求了。它们在一定程度上忽略了对词语义关系的处理,而仅局限于文本表面的字符匹配。目前还没有出现对一些没有被文字直接表述出来但隐含在案例中的信息进行较好检索的方法。

【发明内容】

[0008]有鉴于此,本发明提供了一种文本案例匹配方法,突出对词语义关系的处理,能够将一些没有被文字直接表述出来但隐含在案例中的信息较好地检索出来。
[0009]本发明的具体方案是这样的:一种文本案例匹配方法,包括:
[0010]步骤一、从新闻或档案中搜集案例,将所述案例集合起来构建案例库;
[0011]步骤二、对案例库中的所有案例进行关键词提取,利用关键词之间存在着的上下位关系构建多个关键词树,每一个关键词树上的关键词均为同一类的关键词,同义词之间只显示一个词,其余的均隐藏在该词的后面,同时将每一个案例提取出的关键词构建多个形如Q = {%,q2,的标识词组,每一个标识词组中的关键词均为同一类,η表示标识词的个数;
[0012]步骤三、利用关键词树从用户输入的检索案例中提取关键词,构建多个形如P ={Pl, P2,…Pj的检索词组,每一个检索词组内的关键词均属于同一类;
[0013]步骤四、将检索案例与案例库中的案例进行匹配,利用关键词树对内部关键词属于同一类的标识词组和检索词组做最近距离匹配,求出检索词组与标识词组的语义距离
d.uP — Q ,
[0014]步骤五、利用语义距离dP — Q求出包含着同一类关键词的检索词组与标识词组之间的语义相似度simP —Q ;
[0015]步骤六、为包含一个类别的检索词组分配权重Xi,其中,i=l……η’,λ1+λ2+…
+ 入 η, = I ;
[0016]步骤七、根据公式求出整个案例的综合相似度SIM,设SimiS每个类别检索词组的相似度,Xi表示该因子在匹配过程中所占的权重,权重默认值为I/η,其中η为检索词组的
分类数,那么
【权利要求】
1.一种文本案例匹配方法,其特征在于,包括: 步骤一、从新闻或档案中搜集案例,将所述案例集合起来构建案例库; 步骤二、对案例库中的所有案例进行关键词提取,利用关键词之间存在着的上下位关系构建多个关键词树,每一个关键词树上的关键词均为同一类的关键词,同义词之间只显示一个词,其余的均隐藏在该词的后面;同时将每一个案例提取出的关键词构建多个形如Q= Iq1, Q2, -qj的标识词组,每一个标识词组中的关键词均为同一类,η表示标识词的个数; 步骤三、利用关键词树从用户输入的检索案例中提取关键词,构建多个形如P ={Pl, P2,…Pj的检索词组,每一个检索词组内的关键词均属于同一类; 步骤四、将检索案例与案例库中的案例进行匹配,利用关键词树对内部关键词属于同一类的标识词组和检索词组做最近距离匹配,求出检索词组与标识词组的语义距离dP — Q ;步骤五、利用语义距离dP—Q求出包含着同一类关键词的检索词组与标识词组之间的语义相似度simP —Q ; 步骤六、为包含一个类别的检索词组分配权重Ai,其中,i=l……η’,λ1+λ2^..+ 入 η, =1 ; 步骤七、根据公式求出整个案例的综合相似度SIM,设Simi为每个类别检索词组的相似度,Xi表示该因子在匹配过程中所占的权重,权重默认值为1/η’,其中η’为检索词组的分类数,那
【文档编号】G06F17/30GK103473283SQ201310385122
【公开日】2013年12月25日 申请日期:2013年8月29日 优先权日:2013年8月29日
【发明者】陶坤旺, 张福浩, 仇阿根, 汤磊 申请人:中国测绘科学研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1