一种基于形式概念分析的数字论文检索方法

文档序号:6508979阅读:146来源:国知局
一种基于形式概念分析的数字论文检索方法
【专利摘要】本发明涉及一种数字论文检索方法,特别涉及一种基于形式概念分析的数字论文检索方法,属于数据挖掘领域。本发明提出的论文检索方法,通过“排序隔选”的方式,缩减了构建和搜索概念格的规模和时间,然后将其他被缩减论文附属于被选论文,较大的消除了结果丢失的影响,同时通过概念格的粗糙近似检索机制,解决了论文检索时检索结果过于分散和庞大的问题,同时又能够保证检索结果的召回率和精确度。该方法针对大规模数据提出了一种可用的基于形式概念分析的检索模式。
【专利说明】一种基于形式概念分析的数字论文检索方法
【技术领域】
[0001]本发明涉及一种数字论文检索方法,特别涉及一种基于形式概念分析的数字论文检索方法,属于数据挖掘领域。
【背景技术】
[0002]目前,对于学术研究人员,有很多学术论文搜索引擎可以使用,例如公共的GOOGLESCHOLAR搜索引擎,商业性的ACM搜索引擎,免费的CITESEER搜索引擎等。这些搜索引擎根据用户的请求返回各自的结果,但结果往往存在以下问题:①返回结果过多;②返回结果大部分与请求背离;③用户执行检索得到结果集的时间太长;④检索结果的准确率不高。因此,如何贴合学术用户的检索请求又能够高效的找到其所需要的学术资源(论文),是目前学术搜索领域中的一个重点研究领域。
[0003]形式概念分析(FormalConcept Analysis, FCA)是在 1982 年由 R.Wille 提出,自1990年之后,FCA开始与信息检索的相关技术进行融合,基于FCA的信息检索方式被正式提出,概念格(Concept Lattice)也被认可来支持信息检索的一类信息或资源组织结构。
[0004]目前有很多基于形式概念分析(FCA)的信息检索的研究与应用被提出。Godin等人在文献《Experimental Comparison of Navigation in a Galois Lattice withConventional Information Retrieval Methods》 (International Journal ofMan-Machine Studies, 1993,38,747-767.)中对使用概念格结构的信息检索进行了讨论,并进行实验与比较,得出结论:基于概念格结构的检索是非常有吸引力的,因为它将主题检索的良好性能和浏览的潜力结合在了一起。U.Krohn和N.J.Davies在文献《Conceptlattices for knowledge management)) (BT Technology Journal 17, 4 (October 1999)
,108-116.)中提出了一种基于概念格结构的网上资源查询机制,试图去分析和找出各类资源对象间的内在联系,并将其应用于知识管理和信息检索,实现新知识的获取和己有知识的共享及可视化。Neuss和Kent在文献《Conceptual Analysis of ResourceMeta-1nformation》 (Computer Networks and ISDN Systemsl995,27(6):973-984)中使用概念格进行Internet文档信息的自动分类和分析。Carpineto等在文献《ULYSSES:ALattice-Based Multiple Interaction Strategy Retrieval Interface》 (EWHCI1995:91-104)中对基于概念格的文本数据库的自动组织和混合导航进行了研究,设计了一个检索系统ULYSSES,其中数据的概念格结构为系统的导航阶段提供辅助,并基于格结构的信息检索与传统的布尔查询在两个数据集上进行了比较,结果表明基于概念格的检索性能要优于布尔检索机制。
[0005]在基于FCA的学术检索中,论文可视作形式概念中的对象,而从论文中抽取的术语(短语/关键词)可被认为是形式概念中的属性,由此,可以构建一个数字论文的形式背景,以表格(Table)的形式表达,其中,行代表数字论文,列代表术语,两者之间的关系通过表中的交叉点进行表达。
[0006]表I是一个数字论文集合的形式背景,其中,每一行代表一个论文(共有六篇论文,分别以1,2, 3,4, 5,6表不),每一列代表术语(有a、b、C、d、e五个术语)。在形式背景表中,某一论文与某一术语确定的表项值为O或I两种取值中的一种,I代表该行的论文拥有该列的术语,O则代表不拥有。根据表I所构建的概念格如图1所示。
[0007]表I 一个数字论文集合的形式背景
[0008]
【权利要求】
1.一种基于形式概念分析的数字论文检索方法,其特征在于:其具体操作步骤包括预处理阶段和检索阶段的操作; 所述预处理阶段的操作是:对被检索的某一领域爾的数字论文资源集Z进行预处理,具体为: 步骤1:针对领域》中的数字论文资源集Z中的全部关键词,依次计算每个关键词在领域纖中的数字论文资源集Z中的TF-1DF值,并按照TF-1DF值由高到底的顺序对关键词进行排序;然后,将TF-1DF值最高的η个关键词确定为领域爾中的数字论文资源集的形式背景中的属性,其中,40 ≤ n ≤ 50 ; 步骤2:在步骤I操作的基础上,构建领域91中的数字论文资源集Z的形式背景表格,具体为:首先建立一张二维表,用符号F表不;二维表F的每一行分别对应数字论文资源集Z中的一篇数字论文,二维表F的每一列分别对应步骤I得到的η个关键词中的一个关键词;然后查看每个关键词在领域載中的数字论文资源集Z的每篇论文中是否出现,如出现,则数字论文与关键词确定的表项值为I ;否则,数字论文与关键词确定的表项值为O ;每篇数字论文与所述η个关键词确定的表项值被称为该论文的形式背景;经过上述操作得到的二维表F被称为领域爾中的数字论文资源集Z的形式背景表格; 步骤3:在步骤2操作的基础上,统计形式背景表格F中每篇数字论文对应的表项值为I的个数,将其称为该论文所拥有的属性个数;然后在形式背景表格F中,对所有数字论文及其形式背景按照论文拥有的属性个数由低到高的顺序重新排序; 步骤4:在步骤3操作的基础上,在形式背景表格F中,对于拥有属性个数相同的数字论文,按照关键词在形式背景表格F中出现的顺序进行排序; 步骤5:选定一个顺序间隔,用符号s表示,其中,3 < s < 20并且s为整数;然后,从步骤4得到的形式背景表格F中抽取第I篇论文以及其后依次间隔s的数字论文作为种子论文;将所有的种子论文及其形式背景构成的表格称为种子论文形式背景表格,用符号Fs表示; 步骤6:在步骤5操作的基础上,在种子论文形式背景表格Fs中为每一篇种子论文建立2个依附链表,一个称为前置链表,另一个称为后置链表;并将领域辑中的数字论文资源集Z的形式背景表格F中该种子论文之前的
2.如权利要求1所述的一种基于形式概念分析的数字论文检索方法,其特征在于:其预处理阶段的步骤7中所述构建种子论文概念格的方法包括增量建格算法、批量建格算法。
【文档编号】G06F17/30GK103440308SQ201310377050
【公开日】2013年12月11日 申请日期:2013年8月27日 优先权日:2013年8月27日
【发明者】施重阳, 牛振东, 张春霞, 赵向宇 申请人:北京理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1