基于类目相似度计算的分类法类目映射的方法和装置的制造方法

文档序号:9750810阅读:635来源:国知局
基于类目相似度计算的分类法类目映射的方法和装置的制造方法
【技术领域】
[0001] 本发明涉及计算机技术领域,具体而言,本发明涉及一种基于类目相似度计算的 分类法类目映射的方法和装置。
【背景技术】
[0002] 分类法是指按照事物的性质、特点、用途等作为区分的标准,将符合同一标准的事 物聚类,不同的则分开的一种认识事物的方法;分类法将类或组按照相互间的关系,组成系 统化的结构,并体现为许多类目按照一定的原则和关系组织起来的体系表,作为分类工作 的依据和工具。其中,类目包括指示每个类别的编号及描述句。
[0003] 目前对不同分类法之间的映射研究中,较多关注于基于结构相似、描述相似的分 类法之间的映射研究,现有技术主要集中于研究词汇或概念的相似度计算的方法。未考虑 分类体系从上层到深层的语义粒度逐渐细化的特点,而同等各层级的所有类目进行相似度 计算,这样会带来计算结果的大量冗余,且在对类目描述差异较大的分类法做两两类目的 相似值计算时,不考虑结构信息而进行映射计算亦会带来较多的结果遗漏偏差。因此,目 前针对描述差异较大的分类法之间的自动映射还没有有效地解决方案,如国际专利分类法 (IPC)和中国图书馆分类法(CLC)这两种差异较大的分类法之间无自动高效的映射解决方 案。

【发明内容】

[0004] 本发明的目的旨在至少解决上述技术缺陷之一,特别是对描述差异较大的分类法 做两两类目的相似值计算而带来计算结果不准确的问题。
[0005] 本发明提供了一种基于类目相似度计算的分类法类目映射的方法,包括:
[0006] 选取第一分类法中的第一类目在第二分类法中对应的类目集合;
[0007] 计算第一类目与类目集合中任一第二类目的类目相似度;
[0008] 当类目相似度在预定的阈值范围内时,确定第一类目与该第二类目为候选相似类 目。
[0009] 本发明又提供了一种基于类目相似度计算的分类法类目映射的装置,包括:
[0010] 第一选取模块,用于选取第一分类法中的第一类目在第二分类法中对应的类目集 合;
[0011] 整合计算模块,用于计算第一类目与类目集合中任一第二类目的类目相似度;
[0012] 相似类目确定模块,用于当类目相似度在预定的阈值范围内时,确定第一类目与 该第二类目为候选相似类目。
[0013] 本实施例的方案中,通过选取第一分类法中的第一类目在第二分类法中对应的类 目集合,接着计算第一类目与类目集合中任一第二类目的类目相似度,随后将类目相似度 与预定的阈值范围进行比较,以确定第一类目与第二类目是否为候选相似类目。由于不同 分类法之间相关类目的映射匹配能够为例如专利、图书期刊等不同类型的文献资源的整合 组织与交叉检索等工作提供支持和辅助,因此,本方案提供的对于表达方式上有较大差异 的两种分类法类目间进行自动映射的解决方案具有极高的实用价值。同时,本实施例的方 案中在分类法类目的匹配过程中考虑到分类法层级概念粒度、类目字面描述和类目结构等 多种影响因素,解决了分类法类目自动映射的问题。进一步地,通过适当的资源更改和步骤 选择,本方案不仅可以适用于IPC和CLC之间相关类目的映射,而且也可以适用于其他任意 两个复杂度相似或更简单的分类法之间的类目映射计算。
[0014] 本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变 得明显,或通过本发明的实践了解到。
【附图说明】
[0015] 本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变 得明显和容易理解,其中 :
[0016] 图1为根据本发明实施例的基于类目相似度计算的分类法类目映射的方法流程 图;
[0017] 图2为根据本发明实施例的基于类目相似度计算的分类法类目映射的设备功能 不意图;
[0018] 图3为根据本发明一个优选实施例的在IPC与CLC中的基于类目相似度计算的分 类法类目映射的示例图;
[0019] 图4为根据本发明另一优选实施例的基于类目相似度计算的分类法类目映射的 流程示例图。
【具体实施方式】
[0020] 下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终 相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附 图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
[0021] 本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式"一"、"一 个"、"所述"和"该"也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措 辞"包括"是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加 一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元 件被"连接"或"耦接"到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在 中间元件。此外,这里使用的"连接"或"耦接"可以包括无线连接或无线耦接。这里使用 的措辞"和/或"包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
[0022] 本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术 术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应 该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中 的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含 义来解释。
[0023] 在本方案的实施例中,分类法包括但不限于:中国图书馆分类法、国际专利分类 法、杜威十进分类法等。以下将以中国图书馆分类法(CLC)及国际专利分类法(IPC)为例, 进行实施例的阐述。
[0024] 图1为根据本发明实施例的基于类目相似度计算的分类法类目映射的方法流程 图。
[0025] 在步骤S110中,选取第一分类法中的第一类目在第二分类法中对应的类目集合; 在步骤S120中,计算第一类目与类目集合中任一第二类目的类目相似度;在步骤S130中, 当类目相似度在预定的阈值范围内时,确定第一类目与该第二类目为候选相似类目。
[0026] 由于不同分类法之间相关类目的映射匹配能够为例如专利、图书期刊等不同类型 的文献资源的整合组织与交叉检索等工作提供支持和辅助,因此,本方法提供的对于从内 容体系到表达方式上均有较大差异的两种分类法类目间进行自动映射的解决方案具有极 高的实用价值。同时,本方法中在分类法类目的匹配过程中考虑到分类法层级概念粒度、类 目字面描述和类目结构等多种影响因素,解决了分类法类目自动映射的问题。
[0027] 具体地,在步骤S110中,选取第一分类法中的第一类目在第二分类法中对应的类 目集合。
[0028] 更具体地,步骤S110包括步骤S111(图中未示出)和步骤S112(图中未示出); 在步骤S111中,确定第一类目在第一分类法中所处第一层级;在步骤S112中,选取在第二 分类法中与第一层级对应的第二层级、该第二层级的向上预定数量层级和该第二层级的向 下预定数量层级中的多个第二类目以组成类目集合。
[0029] 在一示例中,如图3所示,当第一分类法为IPC,第一类目为"非金属元素;其化合 物;氢;含氢混合气;从含氢混合气中分离氢;氢的净化"时,在IPC分类表中读取该第一类 目的层级数为"C01B3/00" ;接着,根据预定的层级对照表或层级对应规则,在第二分类法 CLC中选择与IPCM1B3/。。对应的第二层级CLCTO16,即当前第二类目为"工业气体",在CLC分 类表中向上查找确定CLC TO16的向上一个层级CLCT(jll,即上层第二类目为"基本无机化学工 业",在CLC分类表中向下查找确定CLC TQ116的向下两个层级:第一下层CLCTQ116.Q2、CLCTQ116.1 和clc T()116.2及clcto16.2的第二下层clc to16.2+1至clcT()116.2+9,即第一下层第二类目为"工业 气体分析"、"工业气体;氧气及氮气"和"工业气体;氢气","工业气体;氢气"的第二下层 第二类目为"工业气体;氢气;电解水制氢"、"工业气体;氢气;水煤气制氢"、"工业气体;氢 气
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1