基于类目相似度计算的分类法类目映射的方法和装置的制造方法_3

文档序号:9750810阅读:来源:国知局
在步骤S460中,计算A与类目集合中所有第二类目的整合相似值;在步骤S470中,计算第 一分类法中的全部待匹配第一类目与第二分类法中相应第二类目的整合相似值。其中,将 类目相似度与预定的阈值范围进行比较的步骤可在步骤S450之后直接进行,也可在步骤 S460之后进行,也可在步骤S470之后再进行。
[0076] 图2为根据本发明实施例的基于类目相似度计算的分类法类目映射的设备功能 示意图。
[0077] 终端设备100中包括基于类目相似度计算的分类法类目映射的装置,该装置包括 第一选取模块110、整合计算模块120和相似类目确定模块130。本方案的实施例中,仅以 终端设备100进行描述,而不对基于类目相似度计算的分类法类目映射的装置与终端设备 100进行区分。
[0078] 首先,第一选取模块110选取第一分类法中的第一类目在第二分类法中对应的类 目集合;接着,整合计算模块120计算第一类目与类目集合中任一第二类目的类目相似度; 随后,相似类目确定模块130当类目相似度在预定的阈值范围内时,确定第一类目与该第 二类目为候选相似类目。
[0079] 由于不同分类法之间相关类目的映射匹配能够为例如专利、图书期刊等不同类型 的文献资源的整合组织与交叉检索等工作提供支持和辅助,因此,本方法提供的对于从内 容体系到表达方式上均有较大差异的两种分类法类目间进行自动映射的解决方案具有极 高的实用价值。同时,本装置中在分类法类目的匹配过程中引入了分类法层级概念粒度、类 目字面描述和类目结构等多种影响因素,解决了分类法类目自动映射的问题。
[0080] 具体地,首先,第一选取模块110选取第一分类法中的第一类目在第二分类法中 对应的类目集合。
[0081] 更具体地,第一选取模块110包括层级确定单元(图中未示出)和第二选取单元 (图中未示出);首先,层级确定单元确定第一类目在第一分类法中所处第一层级;接着,第 二选取单元选取在第二分类法中与第一层级对应的第二层级、该第二层级的向上预定数量 层级和该第二层级的向下预定数量层级中的多个第二类目以组成类目集合。
[0082] 在一示例中,如图3所示,当第一分类法为IPC,第一类目为"非金属元素;其化合 物;氢;含氢混合气;从含氢混合气中分离氢;氢的净化"时,在IPC分类表中读取该第一类 目的层级数为"C01B3/00" ;接着,根据预定的层级对照表或层级对应规则,在第二分类法 CLC中选择与IPCM1B3/。。对应的第二层级CLCTO16,即当前第二类目为"工业气体",在CLC分 类表中向上查找确定CLC TO16的向上一个层级CLCT(jll,即上层第二类目为"基本无机化学工 业",在CLC分类表中向下查找确定CLC TQ116的向下两个层级:第一下层CLCTQ116.Q2、CLCTQ116.1 和clc T()116.2及clcto16.2的第二下层clc to16.2+1至clcT()116.2+9,即第一下层第二类目为"工业 气体分析"、"工业气体;氧气及氮气"和"工业气体;氢气","工业气体;氢气"的第二下层 第二类目为"工业气体;氢气;电解水制氢"、"工业气体;氢气;水煤气制氢"、"工业气体;氢 气;焦炉气分离制氢"、"工业气体;氢气;天然气制氢"、"工业气体;氢气;铁水蒸汽法制氢 及氢的液化"、"工业气体;氢气;液态氢"、"工业气体;氢气;石油裂化气制氢"、"工业气体; 氢气;其他",由当前第二类目、其上层第二类目及其第一下层第二类目、第二下层第二类目 组成类目集合。在本发明的实施例中,当下层类目不包括上层类目的核心词汇时,将上层类 目与下层类目合并来描述下层类目。
[0083] 随后,整合计算模块120计算第一类目与类目集合中任一第二类目的类目相似 度。
[0084] 更具体地,整合计算模块120包括类目词汇抽取单元(图中未示出)、字面计算单 元(图中未示出)、结构计算单元(图中未示出)和整合确定单元(图中未示出);首先, 类目词汇抽取单元抽取出类目描述信息中的类目代表词汇;接着,字面计算单元计算第一 类目与第二类目的字面相似度;结构计算单元计算第一类目与第二类目的结构相似度;随 后,整合确定单元根据字面相似度与结构相似度,通过整合计算,确定第一类目与第二类目 的类目相似度。
[0085] 其中,两个类目间的字面相似度通过下式(1)进行计算:
[0086]
[0087] 其中:
[0088] a; = max (s (A;,B!),s (A;,B2),· · ·,s (A;,Bn))
[0089] bj = max (s (A!,B),s (A2, B),· · ·,s (Am,B))
[0090] A及B分别代表两个类目;
[0091] A包含的词汇为Ap A2,……,A" ;
[0092] B包含的词汇为队,B2,......,Bn;
[0093] S %,B J表示词汇Ai和Β。的词汇相似度;
[0094] S (A,B)表示类目A及B间的相似度。
[0095] 其中,词汇~和的词汇相似度的方法可包括现有技术中的多种词汇相似度计算 方法,例如:对词汇4和进行字面分析,统计两个词汇中共同包含的相同语素的个数,根 据相同语素在两个词汇中的位置及次序,统计相同语素在各个词汇中所占的权值,随后对 两个词汇中的各个语素加权计算确定两个词汇的词汇相似度。
[0096] 首先,字面计算单元通过上式(1),计算第一类目与第二类目的字面相似度 ^literal °
[0097] 更具体地,结构计算单元包括上层计算单元(图中未示出)、下层计算单元(图中 未示出)和结构确定单元(图中未示出);首先,上层计算单元计算第一类目的上层类目与 第二类目的上层类目的上层类目相似度;接着,下层计算单元计算第一类目的下层类目与 第二类目的下层类目的下层类目相似度;随后,结构确定单元根据上层类目相似度与下层 类目相似度,确定第一类目与第二类目的结构相似度。
[0098] 首先,上层计算单元计算第一类目的上层类目与第二类目的上层类目的上层类目 相似度。
[0099] 在一不例中,如图3所不,当第一分类法为IPC时,第一类目为IPC"j1B3/。。"非金属 元素;其化合物;氢;含氢混合气;从含氢混合气中分离氢;氢的净化",在IPC分类表中向 上查找确定IPC e_3/。。的上层类目为IPCe_ "非金属元素;其化合物";第二分类法为CLC,与 第一类目对应的当前第二类目为CLCT(jll6"工业气体",在CLC分类表中向上查找确定CLC TO16 的上层第二类目为CLCT(jll "基本无机化学工业",通过上式(1)与下式(2)计算上层类目相 似度: _] Sfather = S(Xup,Yup) 式(2)
[0101] 其中,Xup代表第一类目的上层类目,Yup代表第二类目的上层类目;
[0102] 本示例中:Sfather = S(IPCc_,CLC擊)。
[0103] 接着,下层计算单元计算第一类目的下层类目与第二类目的下层类目的下层类目 相似度。
[0104] 在一示例中,如图3所示,第一分类法IPC中,第一类目为IPC_/QQ"非金属元素; 其化合物;氢;含氢混合气;从含氢混合气中分离氢;氢的净化",在IPC分类表中向下查找 确定IPC e_/。。的第一下层类目为1?〇;_3/。2 "氢或含氢混合气的生产〔3〕"及第二下层类目 IPCCQ1B3/5。"氢或含氢气体从混合气体中的分离,如净化";第二分类法CLC中,与第一类目对 应的当前第二类目为CLC TO16"工业气体",在CLC分类表中向下查找确定CLCTO16的下层第二 类目为CLC T(jll6.Q1 "工业气体,工业气体分析",CLCT(jll6.i"工业气体,氧气和氮气",CLCTO16. 2"工 业气体;氢气",CLCT(jll6.3 "工业气体,二氧化碳的生产",CLCT(jll6.3 "工业气体,惰性气体的生 产",通过下式(3)计算下层类目相似度:
[0105]
[0106] 其中:
[0107] a; = max(s(Ai,Bj), s(Ai,B2), . . . , s(Ai,Bn))
[0108] b
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1