文本数据高效搜索方法

文档序号:9579398阅读:771来源:国知局
文本数据高效搜索方法
【技术领域】
[0001] 本发明涉及自然语言处理,特别涉及一种文本数据高效搜索方法。
【背景技术】
[0002] 随着互联网技术的快速发展,当今社会已进入信息时代,尤其是当前金融领域大 数据背景下网络文本信息文档的数量越来越庞大。网络信息文本文档随之呈现出更加复杂 的特性,暴露出一些亟待解决的问题。然而,传统金融领域搜索引擎面对文本字符串匹配的 语法层面,缺乏针对信息表示及处理和理解的语义级分析,即信息是丰富的,而知识却是贫 乏的,所以依赖传统的数据检索方式已很难满足越来越高的金融类用户的需求。

【发明内容】

[0003] 为解决上述现有技术所存在的问题,本发明提出了一种文本数据高效搜索方法, 包括:
[0004] 对实体进行概念描述,构建实体知识库;
[0005] 基于所述知识库对文本文档进行语义分析;
[0006] 计算用户检索词与实体概念的相似值,以及
[0007] 基于所计算的相似值对检索结果进行排序并返回给用户。
[0008] 优选地,所述对文本文档进行语义分析,包括对文档的语义进行标记,并提取文档 特征和进行文本映射,从实体词汇中获取实体概念,建立文档的语义特征域,完成文档库文 档的自动标记,并标记和索引文档的非语义特征,由此生成文档索引库和元数据库,其中基 于文档标记信息构建索引库,以索引库为依据检索出满足用户需求的文档信息;
[0009] 所述基于相似值对检索结果进行排序,包括以实体生成的实体词库为依据,执行 用户检索输入文字的分词过程,将用户检索分成实体概念集合和非实体概念集合;然后分 别对这两个集合按相似值拓展,得到两个检索候选集合,获得排序后的检索集合,最后将检 索结果按检索请求的相似值排序后,将结果推送给用户。
[0010] 优选地,所述文本映射包括以下步骤:
[0011] 首先将实体概念描述为F= (U,T,J,Y),其中U=K,u2,...,U|u|}表示使用词语 管理文本文档的用户,并且每个用户有唯一的ID号标识;T= {ti,t2,. . .,t|T|}表示集合中 用户使用过的词语,该词语为任意的字符串,J= {^,込...,1|;|}表示所有领域相关文本 文档,其内容取决于用户标记集合的类型,用户标记集合由用户、词语、文档三个要素组成, 即用(U,T,J)进行描述;YgLXTXj表示三元关系,其中(u,t,i)元素描述用户使用词语 t标记收藏的文本文档i;F(u,i) ={teT| (u,t,i)eY}描述用户使用一组词语定义一个 文本文档,其中ueU,ieJ;用二元组构建主实体B0 = (C,R),其中C= {Cl,c2,...,Cw} 表示概念集合,所述概念表示为c= (id,syn,phase,kind),id是概念的唯一标识,syn是 同义词集合,phase是描述概念的短语,kind是将概念所分类的词类;R= {η,r2,. . .,r|R|} 表示概念集合之间的关系;现定义为一组同义词集合S,每个文本文档weS用二元组表示 为:(w,fq。)),其中,fq。(w)为文本文档w的出现频率;
[0012] 在文本映射阶段,利用以下文本映射方法之一:
[0013] 直接映射,即将每个词语映射到实体中的概念,表示为TC:对于所有teT,有 T- 2%其中,概念集合中C的每个t都是同义词集合syn中的一个资源,描述词语到概念 的直接映射;
[0014] 部分映射,即当词语不能直接映射时,从开始到结束的时间,将短语逐步缩短成一 个词;基于语法从短语的左边开始尝试在哪个阶段可以映射缩短短语,然后从右边进行完 善修改;
[0015] 文档映射,即首先设置用于描述词语和概念之间映射强度的矩阵DC:[Ut山Xn, 其中,m= |T|即词语数量,n= |C|即概念数量;在映射过程中产生初始矩阵,初始矩阵的 映射强度是相关联的syn文档词频:
[0016]
[0017] 映射结束后,初始矩阵DC的值表示词库中tjPcj的映射强度。
[0018] 本发明相比现有技术,具有以下优点:
[0019] 本发明提出了一种文本数据高效搜索方法,弥补传统数据检索的不足,从信息查 全率和查准率方面改善数据检索的效率。
【附图说明】
[0020] 图1是根据本发明实施例的文本数据高效搜索方法的流程图。
【具体实施方式】
[0021] 下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描 述。结合这样的实施例描述本发明,但是本发明不限于任何实施例。本发明的范围仅由权 利要求书限定,并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节 以便提供对本发明的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中 的一些或者所有细节也可以根据权利要求书实现本发明。
[0022] 本发明的一方面提供了一种文本数据高效搜索方法。图1是根据本发明实施例的 文本数据高效搜索方法流程图。本发明利用实体建立词语之间的语义关系,实现语义检索, 通过语义中丰富的描述能力和强大的逻辑推理能力准确描述信息文本文档,构建一种能够 实现语义级分析的检索方法。语义检索与传统基于关键字匹配的检索方式不同,因为语义 检索基于信息理解的语义级对信息文本文档及用户提交的检索请求进行分析,语义检索方 式对检索条件、信息组织以及检索结果均赋予了语义成分,可提高检索精度。
[0023] 基于实体的语义数据检索,在于使文档进行语义描述,借助实体知识库完成对文 档对象的语义标记,进而分析出文档对象的语义理解,及其用户检索词的语义信息,同时可 实现实体检索词的语义拓展,最终完成理想检索结果的获取,具体检索过程为:
[0024] 步骤1 :构建并描述实体概念。描述实体概念,构建实体知识库。
[0025] 步骤2 :提取文档的特征并进行文本映射。借助实体概念描述及知识库构建和管 理,对获取的文档进行语义标记及文本映射,对文档语义含义进行分析。
[0026] 步骤3 :制定实体概念拓展及检索语义拓展策略。在实体概念描述的基础上,对用 户检索请求的语义信息进行分析,并对用户检索词进行语义拓展,检索系统完成对生成的 备选检索词集的检索过程。
[0027] 步骤4 :进行实体概念相似值计算。依赖实体概念结构图,执行实体概念语义距离 计算、实体概念结点深度计算及语义总体相似值计算,以此服务于检索结果排序过程。
[0028] 步骤5 :对检索系统的检索结果进行排序。基于关联相似值计算规则,完成用户原 始检索词及检索系统返回检索结果的相似值比较,基于相似值对检索系统的检索结果进行 排序并反馈给用户。
[0029] 其中,实体及其分类体系作为数据文本文档语义表征的核心,可对文档描述给予 指导。领域知识也作为检索拓展和检索结果排序的基本依据。因此,领域知识的构建和维 护,如推理规则的构建和维护,离不开领域知识管理。文档的语义可通过标记进行语义分 析,再借助文档特征提取技术,从实体词汇中获取实体概念,建立文档的语义特征域,完成 文档库文档的自动标记,并完成标记和索引文档的非语义特征,由此生成文档索引库和元 数据库。基于文档标记信息构建索引库,以此为依据,检索出能满足用户需求的文档信息。 实现检索拓展及结果排序,就是以实体生成的实体词库为依据,完成用户检索输入文字的 分词工作,将用户检索分成实体概念集合和非实体概念集合。然后,分别对这两个集合按 相似值拓展,得到两个检索候选集合,借助关联相似值排序算法获得排序后的检索集合,最 后,完成检索请求到索引库及检索库的提交环节,将检索结果按检索请求的相似值排序后, 将结果推送给用户。
[0030] 本发明将实体概念描述为:F= (U,T,J,Y),其中,U= {Ul,u2, . . .,U|u|}表 示用户,描述使用词语管理文本文档的用户,并且每个用户有唯一的ID号标识。T= ΙΛ,t2, . . .,t|T|}表示词语,描述集合中用户使用过的词语,词语可以是任意的字符串(单 词或短语),现将词语表示为一组词语序列,t={termuterm2,. . .,termj,teT,上述公 式描述词语并映射成一组术语,术语可以是任意单词。J=ΙΛ,i2,. . .,表示文本文档, 描述所有领域相关文档,其内容取决于用户标记集合的类型,用户标记集合由用户、词语、 文档三个要素组成,即用(U,T,J)进行描述。YdIXTXJ表示三元关系,其中(u,t,i)元 素描述用户使用词语t标记收藏的文本文档i。F(u,i) = {teT|(u,t,i)eY}描述用户 使用一组词语定义一个文本文档,其中ueU,ieJ。
[0031] 为了理解用户词语含义及词语之间的关系,构建主实体,用二元组进行描述:B0 =(C,R),其中C= {ο。c2,. . .,Cw}表示概念集合,概念表示为c= (id,syn,phase,kind), id是概念的唯一标识,syn是同义词集合,包含了概念的同义术语集合,phase是描述概念 的短语,kind是将概念所分类的词类;R= {Γι,r2,. . .,r|R|}表示概念集合之间的关系。现 定义为一组同义词集合S,文本文档weS,每个文本文档w用二元组表示为:(w,fq。)),其 中,fqjw)为文本文档w的出现频率。
[0032] -个词语可以映射成一个或多个概念,也有可能只有部分词语可以映射成一个或 多个概念,本发明利用以下几种文本映射方法。
[0033]直接映射:描述词语到概念的映射,即将每个词语映射到实体中的概念,可表示 为:TC:对于所有teT,有T-2、其中,概念集合中的每个t都是syn中的一个文本文档, 描述词语到概念的直接映射。
[0034] 部分映射:当词语不能直接映射时,从开始到结束的时间,可按如下步骤完成部分 映射。步骤1:将短语逐步缩短成一个词。步骤2:基于语法,从短语的左边开始,尝试在哪 个阶段可以映射缩短短语,然后从右边进行完善修改。
[0035] 文档映射:首先设置用于描述词语和概念之间映射强度的矩阵:DC:[Ut山Xn,其 中,m= |T|即词语数量,n= |C|即概念数量。在映射过程中将产生初始矩阵,初始矩阵 的映射强度是相关联的syn文本文档单词频率:
[0036]
[003
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1