一种基于信息粒度的信息检索优化方法

文档序号:6630422阅读:393来源:国知局
一种基于信息粒度的信息检索优化方法
【专利摘要】一种基于信息粒度的信息检索优化方法,它涉及优化信息检索【技术领域】,根据知网系统判断文档的内容与主题关键字扩展集合是否一致;提取指定类别的训练文本集中所有句子与文本标题、子标题,生成特定类别的模式实例集合;广度优先遍历图,生成模式集合;根据模式集合中的模式元素对训练集中不同事件主题的激励程度,将模式集分为若干个对应不同事件主题的模式子集;它基于机器的模式自动抽取所得特征可能再某些方面要优于人类经验所定的特征,在进行海量文本的检索过程中,通过内容主题额初分可以有效的消除无关内容的干扰,加快了查找速度。
【专利说明】 一种基于信息粒度的信息检索优化方法

【技术领域】
:
[0001]本发明涉及优化信息检索【技术领域】,具体涉及一种基于信息粒度的信息检索优化方法。

【背景技术】
:
[0002]信息检索(Informat1n Retrieval)是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。狭义的信息检索就是信息检索过程的后半部分,即从信息集合中找出所需要的信息的过程,也就是我们常说的信息查寻(Informat1nSearch 或 Informat1n Seek)。
[0003]信息检索有广义和狭义的之分。广义的信息检索全称为“信息存储与检索”,是指将信息按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程。狭义的信息检索为“信息存储与检索”的后半部分,通常称为“信息查找”或“信息搜索”,是指从信息集合中找出用户所需要的有关信息的过程。狭义的信息检索包括3个方面的含义:了解用户的信息需求、信息检索的技术或方法、满足信息用户的需求。
[0004]由信息检索原理可知,信息的存储是实现信息检索的基础。这里要存储的信息不仅包括原始文档数据,还包括图片、视频和音频等,首先要将这些原始信息进行计算机语言的转换,并将其存储在数据库中,否则无法进行机器识别。待用户根据意图输入查询请求后,检索系统根据用户的查询请求在数据库中搜索与查询相关的信息,通过一定的匹配机制计算出信息的相似度大小,并按从大到小的顺序将信息转换输出。
[0005]“粒度”(granularity)指的是信息单元的相对大小或粗糙程度。
[0006]信息检索起源于图书馆的参考咨询和文摘索引工作,从19世纪下半叶首先开始发展,至20世纪40年代,索引和检索成已为图书馆独立的工具和用户服务项目。
[0007]随着1946年世界上第一台电子计算机问世,计算机技术逐步走进信息检索领域,并与信息检索理论紧密结合起来;脱机批量情报检索系统、联机实时情报检索系统相继研制成功并商业化,20世纪60年代到80年代,在信息处理技术、通讯技术、计算机和数据库技术的推动下,信息检索在教育、军事和商业等各领域高速发展,得到了广泛的应用。Dialog国际联机情报检索系统是这一时期的信息检索领域的代表,至今仍是世界上最著名的系统之一 O
[0008]主题检索是信息检索技术研究领域的一个缺点,但是使用现有的算法,在大数据量检索过程中,检索结果往往不尽如人意,一方面是检索结果与用户期望值相差很大;二是检索时间随信息粒度的细化急剧增加。


【发明内容】

:
[0009]本发明的目的是提供一种基于信息粒度的信息检索优化方法,它在进行海量文本的检索过程中,通过内容主题额初分可以有效的消除无关内容的干扰,加快了查找速度。
[0010]为了解决【背景技术】所存在的问题,本发明是采用以下技术方案:它利用内容识别和主题识别在粗细不同粒度之下进行计算的特性,设计了一种新的主题识别模型,步骤如下:1、主题关键字扩展,形成一个N层的主题识别树;2、根据知网系统判断文档的内容与主题关键字扩展集合是否一致;3、在步骤2中判断文档所涉及的事件主题是否一致;4、提取指定类别的训练文本集中所有句子与文本标题、子标题,生成特定类别的模式实例集合;5、使用“知网”系统实现模式实例集合中个实例的词或词组序列与概念的映射;6、广度优先遍历图,生成模式集合;7、根据模式集合中的模式元素对训练集中不同事件主题的激励程度,将模式集分为若干个对应不同事件主题的模式子集。
[0011]本发明工作原理:模式集合的质量与内容、主题识别算法的精度相通,借用自动新型抽取技术,以及其学习的方式实现基于模式集的自动生成,很好的避免了在涉及开放文本集合时的模式扩展问题,特定事件主题的文本对应着最细的粒度世界,是事件主题粒度世界的细化,先进行内容主题识别,再进行事件主题识别,不仅可以利用传统主题识别的知识和经验以提高主题识别效率,而且可以限定事件主题判别范围,从而大大提高事件主题的精确度。
[0012]本发明具有以下有益效果:它基于机器的模式自动抽取所得特征可能再某些方面要优于人类经验所定的特征,在进行海量文本的检索过程中,通过内容主题额初分可以有效的消除无关内容的干扰,加快了查找速度。

【具体实施方式】
:
[0013]本【具体实施方式】采用以下技术方案:它利用内容识别和主题识别在粗细不同粒度之下进行计算的特性,设计了一种新的主题识别模型,步骤如下:1、主题关键字扩展,形成一个N层的主题识别树;2、根据知网系统判断文档的内容与主题关键字扩展集合是否一致;3、在步骤2中判断文档所涉及的事件主题是否一致;4、提取指定类别的训练文本集中所有句子与文本标题、子标题,生成特定类别的模式实例集合;5、使用“知网”系统实现模式实例集合中个实例的词或词组序列与概念的映射;6、广度优先遍历图,生成模式集合;7、根据模式集合中的模式元素对训练集中不同事件主题的激励程度,将模式集分为若干个对应不同事件主题的模式子集。
[0014]本【具体实施方式】工作原理:模式集合的质量与内容、主题识别算法的精度相通,借用自动新型抽取技术,以及其学习的方式实现基于模式集的自动生成,很好的避免了在涉及开放文本集合时的模式扩展问题,特定事件主题的文本对应着最细的粒度世界,是事件主题粒度世界的细化,先进行内容主题识别,再进行事件主题识别,不仅可以利用传统主题识别的知识和经验以提高主题识别效率,而且可以限定事件主题判别范围,从而大大提高事件主题的精确度。
[0015]本【具体实施方式】基于机器的模式自动抽取所得特征可能再某些方面要优于人类经验所定的特征,在进行海量文本的检索过程中,通过内容主题额初分可以有效的消除无关内容的干扰,加快了查找速度。
【权利要求】
1.一种基于信息粒度的信息检索优化方法,其特征在于它利用内容识别和主题识别在粗细不同粒度之下进行计算的特性,设计了一种新的主题识别模型,步骤如下:(1)、主题关键字扩展,形成一个N层的主题识别树;(2)、根据知网系统判断文档的内容与主题关键字扩展集合是否一致;(3)、在步骤(2)中判断文档所涉及的事件主题是否一致;(4)、提取指定类别的训练文本集中所有句子与文本标题、子标题,生成特定类别的模式实例集合;(5)、使用“知网”系统实现模式实例集合中个实例的词或词组序列与概念的映射;(6)、广度优先遍历图,生成模式集合;(7)、根据模式集合中的模式元素对训练集中不同事件主题的激励程度,将模式集分为若干个对应不同事件主题的模式子集。
2.根据权利要求1所述的一种基于信息粒度的信息检索优化方法,其特征在于所述的模式集合的质量与内容、主题识别算法的精度相通,借用自动新型抽取技术,以及其学习的方式实现基于模式集的自动生成,很好的避免了在涉及开放文本集合时的模式扩展问题,特定事件主题的文本对应着最细的粒度世界,是事件主题粒度世界的细化,先进行内容主题识别,再进行事件主题识别,不仅可以利用传统主题识别的知识和经验以提高主题识别效率,而且可以限定事件主题判别范围,从而大大提高事件主题的精确度。
3.根据权利要求1所述的一种基于信息粒度的信息检索优化方法,其特征在于它基于机器的模式自动抽取所得特征可能再某些方面要优于人类经验所定的特征,在进行海量文本的检索过程中,通过内容主题额初分可以有效的消除无关内容的干扰,加快了查找速度。
【文档编号】G06F17/30GK104376044SQ201410550066
【公开日】2015年2月25日 申请日期:2014年10月16日 优先权日:2014年10月16日
【发明者】傅涛, 傅德胜, 经正俊, 孙文静 申请人:江苏博智软件科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1