文本数据高效搜索方法_2

文档序号:9579398阅读:来源:国知局
7] 映射结束后,初始矩阵DC的值表示词库中tjPcj的映射强度。
[0038] 进一步地,本发明的实体概念拓展步骤如下。
[0039] 步骤1:对每个实体概念进行拓展。
[0040] 令e(c) ={x|sim(X,c)>ρΠy|(y乒X)且sim(y,c)〈sim(X,c)}为实体概念集合, sim()为两个实体概念的相似值函数,其中p预设相似值阈值。如果对实体概念进行语义拓 展可形成el^) = {011,(:12,...,(^,},其中集合中每个元素或为空,或3;[111((: 11<,(:1)>口,且81 n^C^CiXsinKCmCjo
[0041] 也就是说,可基于关联相似值的计算来拓展单个实体概念,选择相似值大于给定 阈值P的实体概念,并且被选取的实体概念同其他用户实体概念之间的相似值,比该被选 取实体概念同当前单个实体概念之间的相似值小。
[0042] 步骤2:构建实体概念检索集合。对用户实体概念集合的元素进行拓展,其中的每 个概念元素都可拓展为一个拓展集合e,可分别从每个e中进行实体概念的选取,构建实体 概念检索集合,检索实体概念集合的成员就是从每个实体概念拓展集合中选取的概念,检 索实体概念集合描述为:
[0043] fc={f1;f2, . . .fn}
[0044] 其中,匕在6((:1)中选取,仁在6((:")中选取。所有实体概念检索集合可描述为, FC(C) {(FiU)IF#eH-.F#e(Cn)}
[0045] 每个实体概念集合f。与用户输入的未拓展的实体概念集合C的相似值可由下式 计算:
[0046]
[0047] 其中,Θ为调节参数。
[0048] 令η为用户输入的未拓展的实体概念集合C中的元素个数,所以simseni(f。,C)可描 述为:
[0049]
[0050] 其中,允许多个Θ存在于每个实体概念拓展集合中。
[0051] 对于关键字的拓展,因为关键字不是实体概念,所有拓展的集合所组成的集合为 原关键字集的幂集,记为P(K),其中的元素本身也是集合,若p为幂集P(K)中的元素,则p 与K之间的相似值计算方法为:
[0052]
[0053] 实体可描述特定领域中的概念及其关系,并可形成实体概念结构图,该实体图可 计算实体概念相似值,实体概念结构图可看作为带有根结点的有向无环图,实体概念用图 中的结点进行表示,概念之间的关系通过有向边进行表示,且该实体概念结构图具有树型 结构的层次结构特性,及有向边和多重继承的特性。具体步骤如下:
[0054] 步骤1 :实体概念语义距离的计算。
[0055] 基于实体概念图,实体概念的语义距离表现为连接两个概念结点的有向边的数 量,记为d(Ca,Cb)。实体概念语义距离与实体概念语义相似值之间的关系为:两实体概念语 义之间的距离越大,则这两个实体概念之间的相似值越小。
[0056] 步骤2 :实体概念父结点深度的计算。
[0057] 基于实体概念所体现的层次结构特点,对实体概念结点进行自顶向下的组织, 及由大到小的分类,依据实体概念最近共同父结点所在层次,可知其层次越深,实体概念 分类越细,从其父结点继承的语义信息就越多,其共同语义信息就越多,即这两个实体概 念间的相似值就越大。现用cbpth(parent(Ca,Cb))描述两概念的最近共同父结点深度, parent(Ca,Cb)表示两概念最近共同父结点。
[0058] 步骤3 :计算语义重叠度。实体概念之间的语义重叠度计算可依据两实体概念间 所包含的相同父结点个数来完成,但如果同时对实体概念语义距离和实体概念语义重叠度 加以考虑,则存在重复计算的可能性,因为实体概念语义距离中隐含着实体概念语义重叠 度信息,所以可基于实体概念语义距离和共同父结点在实体概念结构图中的深度,计算出 实体概念相似值,令两实体概念a、b,则a、b的语义相似值可通过两者的语义距离和共同父 结点的深度对相似值影响的加权归一化进行表示,计算如下:
[0059]
[0060] 其中,α为语义距离加权值,β表示共同父结点的加权值,且满足α+β= 1,语 义距离决定的相似值可通过调节参数k进行调节,表示实体概念树的最大深度。
[0061 ] 步骤4 :实体概念总体相似值计算。
[0062] 如果对用户检索词集中的实体概念进行语义拓展,可生成检索语义拓展集合,记 为FC(C),如果对用户检索词集中的非实体概念的关键字集进行拓展,可生成关键字集的幂 集,记为P(K),现从FC(C)中取一元素,记为f。,该元素是一个拓展概念集合,再从P(K)中 取一元素,记为Ρ,该元素为一个拓展关键字集,便可形成一个提交给检索系统的检索请求, 表示为(f;,P),令用户检索词集为(C,K),则通过(C,K)和(f;,p)相似值的计算,可得到用 户检索词集和检索结果的相似值。基于拓展关键字集相似值、拓展实体概念集合相似值、分 类概念集合相似值,可计算出总体相似值,数学描述如下:
[0063] SIM(fc,p,C,K) = C) +A2Xsimkey(p,K)
[0064] 其中,λ。λ2为调节参数,λi代表实体概念集合相似值与总体相似值的比值,λ2 代表关键字集相似值与总体相似值的比值,且λ1+λ2= 1。
[0065] 综上所述,本发明提出了一种文本数据高效搜索方法,弥补传统数据检索的不足, 从信息查全率和查准率方面改善数据检索的效率。
[0066] 显然,本领域的技术人员应该理解,上述的本发明的各模块或各步骤可以用通用 的计算系统来实现,它们可以集中在单个的计算系统上,或者分布在多个计算系统所组成 的网络上,可选地,它们可以用计算系统可执行的程序代码来实现,从而,可以将它们存储 在存储系统中由计算系统来执行。这样,本发明不限制于任何特定的硬件和软件结合。
[0067] 应当理解的是,本发明的上述【具体实施方式】仅仅用于示例性说明或解释本发明的 原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何 修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨 在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修 改例。
【主权项】
1. 一种文本数据高效搜索方法,其特征在于,包括: 对实体进行概念描述,构建实体知识库; 基于所述知识库对文本文档进行语义分析; 计算用户检索词与实体概念的相似值,以及 基于所计算的相似值对检索结果进行排序并返回给用户。2. 根据权利要求1所述的方法,其特征在于,所述对文本文档进行语义分析,包括对文 档的语义进行标记,并提取文档特征和进行文本映射,从实体词汇中获取实体概念,建立文 档的语义特征域,完成文档库文档的自动标记,并标记和索引文档的非语义特征,由此生成 文档索引库和元数据库,其中基于文档标记信息构建索引库,以索引库为依据检索出满足 用户需求的文档信息; 所述基于相似值对检索结果进行排序,包括以实体生成的实体词库为依据,执行用户 检索输入文字的分词过程,将用户检索分成实体概念集合和非实体概念集合;然后分别对 这两个集合按相似值拓展,得到两个检索候选集合,获得排序后的检索集合,最后将检索结 果按检索请求的相似值排序后,将结果推送给用户。3. 根据权利要求2所述的方法,其特征在于,所述文本映射包括以下步骤: 首先将实体概念描述为F = (U,T,J,Y),其中U = {Ul,u2,. . .,U|u|}表示使用词语管理 文本文档的用户,并且每个用户有唯一的ID号标识;T = {^,t2,. . .,t|T|}表示集合中用 户使用过的词语,该词语为任意的字符串,J = ΙΛ,i2,. . .,il;l}表示所有领域相关文本文 档,其内容取决于用户标记集合的类型,用户标记集合由用户、词语、文档三个要素组成,即 用(U,T,J)进行描述;YSUX:TX:J表示三元关系,其中(u,t,i)元素描述用户使用词语t 标记收藏的文本文档i ;F(u, i) = {t e T| (u, t, i) e Y}描述用户使用一组词语定义一个 文本文档,其中u e U,i e J;用二元组构建主实体B0 = (C,R),其中C = {Cl,c2,...,Cw} 表示概念集合,所述概念表示为c = (id, syn, phase, kind),id是概念的唯一标识,syn是 同义词集合,phase是描述概念的短语,kind是将概念所分类的词类;R = {η, r2,. . .,r|R|} 表示概念集合之间的关系;现定义为一组同义词集合S,每个文本文档w e S用二元组表示 为:(w, fq。)),其中,fq。(w)为文本文档w的出现频率; 在文本映射阶段,利用以下文本映射方法之一: 直接映射,即将每个词语映射到实体中的概念,表示为TC :对于所有t e T,有T - 2S 其中,概念集合中C的每个t都是同义词集合syn中的一个资源,描述词语到概念的直接映 射; 部分映射,即当词语不能直接映射时,从开始到结束的时间,将短语逐步缩短成一个 词;基于语法从短语的左边开始尝试在哪个阶段可以映射缩短短语,然后从右边进行完善 修改; 文档映射,即首先设置用于描述词语和概念之间映射强度的矩阵DC : [U t山Xn,其中, m= |T|即词语数量,n= |C|即概念数量;在映射过程中产生初始矩阵,初始矩阵的映射强 度是相关联的syn文档词频:映射结束后,初始矩阵DC的值表示词库中tJP c j的映射强度。
【专利摘要】本发明提供了一种文本数据高效搜索方法,该方法包括:对实体进行概念描述,构建实体知识库;基于所述知识库对文本文档进行语义分析;计算用户检索词与实体概念的相似值,以及基于所计算的相似值对检索结果进行排序并返回给用户。本发明提出了一种文本数据高效搜索方法,弥补传统数据检索的不足,从信息查全率和查准率方面改善数据检索的效率。
【IPC分类】G06F17/27, G06F17/30
【公开号】CN105335510
【申请号】CN201510725603
【发明人】李垚霖
【申请人】成都博睿德科技有限公司
【公开日】2016年2月17日
【申请日】2015年10月30日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1