基于类目相似度计算的分类法类目映射的方法和装置的制造方法_2

文档序号:9750810阅读:来源:国知局
;焦炉气分离制氢"、"工业气体;氢气;天然气制氢"、"工业气体;氢气;铁水蒸汽法制氢 及氢的液化"、"工业气体;氢气;液态氢"、"工业气体;氢气;石油裂化气制氢"、"工业气体; 氢气;其他",由当前第二类目、其上层第二类目及其第一下层第二类目、第二下层第二类目 组成类目集合。在本发明的实施例中,当下层类目不包括上层类目的核心词汇时,将上层类 目与下层类目合并来描述下层类目。
[0030] 在步骤S120中,计算第一类目与类目集合中任一第二类目的类目相似度。
[0031] 更具体地,步骤S120包括步骤S121(图中未示出)、步骤S122(图中未示出)和步 骤S123(图中未示出)、步骤S124(图中未示出);在步骤S121中,计算第一类目与第二类目 的字面相似度;在步骤S122中,计算第一类目与第二类目的结构相似度;在步骤S123中, 根据字面相似度与结构相似度,通过整合计算,确定第一类目与第二类目的类目相似度。
[0032] 在步骤S121之前,还包括预处理步骤S124(图中未示出);在步骤S124中,根据 第一类目与第二类目的描述信息,如为语句描述,抽取出代表第一类目与第二类目的词汇 集合。
[0033] 其中,代表第一类目与第二类目的词汇集合的抽取方法包括多种:如最大化抽取 和核心抽取;最大化抽取方式是通过对类目描述信息分词后,去除非领域词汇来完成的; 在该方法中需要使用停用词表。核心抽词方式是对类目描述信息分词后,通过对与领域词 典中领域词汇相匹配的词汇作抽取来确定。
[0034] 两个类目间字面的相似度通过下式(1)进行计算:
[0035]
[0036] 其中:
[0037] a; = max (s (A;,B!),s (A;,B2),· · ·,s (A;,Bn))
[0038] bj = max (s (A!,B),s (A2, B),· · ·,s (Am,B))
[0039] A及B分别代表两个类目;
[0040] A包含的词汇为A!,A2,……,A" ;
[0041] B包含的词汇为B!,B2,......,Bn;
[0042] S (Ap Bj)表示词汇Ai和Bj的词汇相似度;
[0043] S (A,B)表示类目A及B间的相似度。
[0044] 其中,词汇&和的词汇相似度的方法可包括现有技术中的多种词汇相似度计算 方法,例如:对词汇4和进行字面分析,统计两个词汇中共同包含的相同语素的个数,根 据相同语素在两个词汇中的位置及次序,统计相同语素在各个词汇中所占的权值,随后对 两个词汇中的各个语素加权计算确定两个词汇的词汇相似度。
[0045] 在步骤S121中,通过上式(1),计算第一类目与第二类目的字面相似度SlltCTal。
[0046] 在步骤S122中,计算第一类目与第二类目的结构相似度SlltCTal。
[0047] 更具体地,步骤S122包括步骤S1221(图中未示出)、步骤S1222(图中未示出)和 步骤S1223 (图中未示出);在步骤S1221中,计算第一类目的上层类目与第二类目的上层 类目的上层类目相似度;在步骤S1222中,计算第一类目的下层类目与第二类目的下层类 目的下层类目相似度;在步骤S1223中,根据上层类目相似度与下层类目相似度,确定第一 类目与第二类目的结构相似度。
[0048] 在步骤S1221中,计算第一类目的上层类目与第二类目的上层类目的上层类目相 似度。
[0049] 在一不例中,如图3所不,当第一分类法为IPC时,第一类目为IPC"j1B3/。。"非金属 元素;其化合物;氢;含氢混合气;从含氢混合气中分离氢;氢的净化",在IPC分类表中向 上查找确定IPC e_3/。。的上层类目为IPCe_ "非金属元素;其化合物";第二分类法为CLC,与 第一类目对应的当前第二类目为CLCT(jll6"工业气体",在CLC分类表中向上查找确定CLC TO16 的上层类目为CLCT(m"基本无机化学工业",通过上式⑴与下式⑵计算上层类目相似度:
[0050] Sfather = S(Xup,Yup) 式(2)
[0051] 其中,Xup代表第一类目的上层类目,Yup代表第二类目的上层类目;
[0052] 本示例中:Sfather = S (IPCc_,CLC擊)。
[0053] 在步骤S1222中,计算第一类目的下层类目与第二类目的下层类目的下层类目相 似度。
[0054] 在一示例中,如图3所示,第一分类法IPC中,第一类目为IPC_3/。。"非金属元素; 其化合物;氢;含氢混合气;从含氢混合气中分离氢;氢的净化",在IPC分类表中向下查找 确定IPC e_/。。的第一下层类目为1?〇;_3/。2 "氢或含氢混合气的生产〔3〕"及第二下层类目 IPCCQ1B3/5。"氢或含氢气体从混合气体中的分离,如净化";第二分类法CLC中,与第一类目对 应的当前第二类目为CLC TO16"工业气体",在CLC分类表中向下查找确定CLCTO16的下层第二 类目为CLC T(jll6.Q1 "工业气体,工业气体分析",CLCT(jll6.i"工业气体,氧气和氮气",CLCTO16. 2"工 业气体;氢气",CLCT(jll6.3 "工业气体,二氧化碳的生产",CLCT(jll6.3 "工业气体,惰性气体的生 产",通过下式(3)计算下层类目相似度:
[0055]
[0056] 其中:
[0057] a; = max (s (A;,B!),s (A;,B2),· · ·,s (A;,Bn))
[0058] bj = max (s (A!,B),s (A2, B),· · ·,s (Am,B))
[0059] 其中A代表第一类目的下位类目集合,B代表第二类目的下位类目集合。
[0060] 第一类目的下位类包含的类目为Ap A2,……,A" ;
[0061] 第二类目的下位类包含的类目为……,Bn;
[0062] S %,B J表示类目Ai和Β。的字面相似度;
[0063] Sson(A,B)表示第一类目和第二类目的下位类目集合的字面相似度。
[0064] 在步骤S1223中,根据上层类目相似度与下层类目相似度,通过下式(4)确定第一 类目与第二类目的结构相似度:
[0065] Sstructure= aSfather+^Sson 式(4)
[0066] 其中,α + β = 1
[0067] 优选地,α = 〇· 5,β = 0· 5。
[0068] 在步骤S123中,根据字面相似度与结构相似度,通过下式(5)进行整合计算,确定 第一类目与第二类目的类目相似度:
[0069] s = Y siiteral+ δ Sstructure 式(5)
[0070] 其中,Y + δ = 1
[0071] 优选地,Y = 0· 5,δ = 〇· 5。
[0072] 在步骤S130中,当类目相似度在预定的阈值范围内时,确定第一类目与该第二类 目为候选相似类目。
[0073] 在一示例中,将第一类目与第二类目的类目相似度S与预定的阈值范围,如 0. 5-1,进行比较,若1 > S > 0. 5,则确定第一类目与该第二类目为候选相似类目。
[0074] 图4为根据本发明另一优选实施例的基于分类法的类目相似度匹配的流程示例 图。
[0075] 在步骤S410中,确定第一分类法中的多个待匹配第一类目;例如,系统随机在第 一分类法中选取多个待匹配的第一类目,其中,多个待匹配的第一类目可属于第一分类法 中同一分类下的类目,也可属于不同分类下的类目。在步骤S420中,选取第一分类法中的 一个第一类目;例如,从多个待匹配的第一类目选取一个第一类目作为当前待匹配的第一 类目,记为A,其在第一分类法中所处层级记为m。在步骤S430中,选取第二分类法中与A对 应的四个层级(m-1,m,m+1,m+2)中包括的所有第二类目,即为类目集合;在步骤S440中, 选取类目集合中的任一第二类目,记为B ;在步骤S450中,计算AB类目之间的类目相似度;
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1