基于类目相似度计算的分类法类目映射的方法和装置的制造方法_4

文档序号:9750810阅读:来源:国知局
j = max (s (A!, B.) , s (A2, B.) , · · · , s (Am, B.))
[0109] 其中A代表第一类目的下位类目集合,B代表第二类目的下位类目集合。
[0110] 第一类目的下位类包含的类目为Αρ A2,……,A" ;
[0111] 第二类目的下位类包含的类目为BpBr……,Bn;
[0112] S (Ap Bj)表示类目Ai和Bj的字面相似度;
[0113] Sson(A,B)表示第一类目和第二类目的下位类目集合的字面相似度。
[0114] 随后,结构确定单元根据上层类目相似度与下层类目相似度,通过下式(4)确定 第一类目与第二类目的结构相似度:
[01巧]Sstructure = a Sfather+ β Sson 式(4)
[0116]其中,α +β = 1 ;
[0117] 优选地,α = 〇· 5,β = 0· 5。
[0118] 接着,整合确定单元根据字面相似度与结构相似度,通过下式(5)进行整合计算, 确定第一类目与第二类目的类目相似度:
[0119] s = Y siiteral+ δ Sstructure 式(5)
[0120] 其中,Y + δ = 1 ;
[0121] 优选地,Y = 0· 5,δ = 〇· 5。
[0122] 随后,相似类目确定模块130当类目相似度在预定的阈值范围内时,确定第一类 目与该第二类目为候选相似类目。
[0123] 在一示例中,将第一类目与第二类目的类目相似度S与预定预定的阈值范围,如 0. 5-1,进行比较,若1 > S > 0. 5,则确定第一类目与该第二类目为候选相似类目。
[0124] 本技术领域技术人员可以理解,本发明包括涉及用于执行本申请中所述操作中的 一项或多项的设备。这些设备可以为所需的目的而专门设计和制造,或者也可以包括通用 计算机中的已知设备。这些设备具有存储在其内的计算机程序,这些计算机程序选择性地 激活或重构。这样的计算机程序可以被存储在设备(例如,计算机)可读介质中或者存储 在适于存储电子指令并分别耦联到总线的任何类型的介质中,所述计算机可读介质包括但 不限于任何类型的盘(包括软盘、硬盘、光盘、⑶-ROM、和磁光盘)、R0M(Read-Only Memory, 只读存储器)、RAM (Random Access Memory,随即存储器)、EPROM (Erasable Programmable Read-Only Memory,可擦写可编程只读存储器)、EEPR0M(Electrically Erasable Programmable Read-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡 片。也就是,可读介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何 介质。
[0125] 本技术领域技术人员可以理解,可以用计算机程序指令来实现这些结构图和/或 框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术 领域技术人员可以理解,可以将这些计算机程序指令提供给通用计算机、专业计算机或其 他可编程数据处理方法的处理器来实现,从而通过计算机或其他可编程数据处理方法的处 理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。
[0126] 本技术领域技术人员可以理解,本发明中已经讨论过的各种操作、方法、流程中的 步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本发明中已经讨论过的各 种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。 进一步地,现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案 也可以被交替、更改、重排、分解、组合或删除。
[0127] 以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人 员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应 视为本发明的保护范围。
【主权项】
1. 一种基于类目相似度计算的分类法类目映射的方法,其特征在于,包括以下步骤: 选取第一分类法中的第一类目在第二分类法中对应的类目集合; 计算所述第一类目与所述类目集合中任一第二类目的类目相似度; 当所述类目相似度在预定的阈值范围内时,确定所述第一类目与该第二类目为候选相 似类目。2. 根据权利要求1所述的方法,其特征在于,选取第一分类法中的第一类目在第二分 类法中对应的类目集合,包括: 确定所述第一类目在所述第一分类法中所处第一层级; 选取在第二分类法中与所述第一层级对应的第二层级、该第二层级的向上预定数量层 级和该第二层级的向下预定数量层级中的多个第二类目以组成类目集合。3. 根据权利要求1所述的方法,其特征在于,计算所述第一类目与所述类目集合中任 一第二类目的类目相似度,包括: 计算所述第一类目与所述第二类目的字面相似度; 计算所述第一类目与所述第二类目的结构相似度; 根据所述字面相似度与所述结构相似度,通过整合计算,确定所述第一类目与所述第 二类目的类目相似度。4. 根据权利要求3所述的方法,其特征在于,计算所述第一类目与所述第二类目的结 构相似度,包括: 计算所述第一类目的上层类目与所述第二类目的上层类目的上层类目相似度; 计算所述第一类目的下层类目与所述第二类目的下层类目的下层类目相似度; 根据所述上层类目相似度与所述下层类目相似度,确定所述第一类目与所述第二类目 的结构相似度。5. 根据权利要求1所述的方法,其特征在于,所述分类法包括以下任一项:中国图书馆 分类法;国际专利分类法。6. -种基于分类法的类目相似度匹配的装置,其特征在于,包括: 第一选取模块,用于选取第一分类法中的第一类目在第二分类法中对应的类目集合; 整合计算模块,用于计算所述第一类目与所述类目集合中任一第二类目的类目相似 度; 相似类目确定模块,用于当所述类目相似度在预定的阈值范围内时,确定所述第一类 目与该第二类目为候选相似类目。7. 根据权利要求6所述的装置,其特征在于,第一选取模块包括: 层级确定单元,用于确定所述第一类目在所述第一分类法中所处第一层级; 第二选取单元,用于选取在第二分类法中与所述第一层级对应的第二层级、该第二层 级的向上预定数量层级和该第二层级的向下预定数量层级中的多个第二类目以组成类目 集合。8. 根据权利要求6所述的装置,其特征在于,整合计算模块包括: 字面计算单元,用于计算所述第一类目与所述第二类目的字面相似度; 结构计算单元,用于计算所述第一类目与所述第二类目的结构相似度; 整合确定单元,用于根据所述字面相似度与所述结构相似度,通过整合计算,确定所述 第一类目与所述第二类目的类目相似度。9. 根据权利要求8所述的装置,其特征在于,结构计算单元包括: 上层计算单元,用于计算所述第一类目的上层类目与所述第二类目的上层类目的上层 类目相似度; 下层计算单元,用于计算所述第一类目的下层类目与所述第二类目的下层类目的下层 类目相似度; 结构确定单元,用于根据所述上层类目相似度与所述下层类目相似度,确定所述第一 类目与所述第二类目的结构相似度。10. 根据权利要求6所述的方法,其特征在于,所述分类法包括以下任一项:中国图书 馆分类法;国际专利分类法。
【专利摘要】本发明提供了一种基于类目相似度计算的分类法类目映射的方法,包括:选取第一分类法中的第一类目在第二分类法中对应的类目集合;计算第一类目与类目集合中任一第二类目的类目相似度;当类目相似度在预定的阈值范围内时,确定第一类目与该第二类目为候选相似类目。本实施例的方案中在分类法类目的匹配过程中考虑到分类法不同层级概念粒度、类目字面描述和类目结构等多种影响因素,解决了分类法类目自动映射出候选相似类目的问题,并在一定程度上提高了映射的准确率及效率。
【IPC分类】G06F17/30
【公开号】CN105512131
【申请号】CN201410497975
【发明人】闫莹莹, 刘耀, 朱礼军, 蔡志勇, 张兆锋
【申请人】中国科学技术信息研究所, 中国化工信息中心
【公开日】2016年4月20日
【申请日】2014年9月25日
当前第4页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1