一种基于图的专利搜索日志中同义词集自动挖掘方法_2

文档序号:9687619阅读:来源:国知局
佳的聚类效 果。因此,在语料限定的条件下,利用化wman聚类算法提高同义词集自动挖掘效果的主要方 式就是运用各种知识调整知识图中边的权重。根据专利捜索日志语料自身的特点,设计了 W下四种方法对知识图边权重进行调节。
[0052] 利用分窗口语料的方法可W提高自动挖掘同义词集的效果,因此为了获取更精确 的同义词集采用分割语料的方法,实验中将日志语料分为5个子语料,利用第Ξ章中提到的 基于专利捜索日志的候选同义词挖掘方法,挖掘出每个子语料中的候选同义词。方法1是抽 取出至少出现在两个专利日志中的词对集,方法2是抽取出至少同时出现在Ξ个专利日志 中的词对集,方法3是抽取出至少出现在四个专利日志中的词对集,其中词对的权值因子设 为词对在专利捜索日志中共现的最小次数。
[0053] ,(巧
[0054] 其中,logk是指第k个子日志文件。方法1中,规定Timei= Σι<?;?η?θ?<> 2,方法2中规 定1111162=1;1<1:;[11161<>3,方法3中规定1111163=1;1<1:;[11161<>4,其中权值因子讯6;[曲1:的计算方法 如下:
[005引 weight=min(weightk(wi,wj)),timek=l, (7)
[0056] 其中,wei曲tk(wi,wj)表示词对(Wi,Wj)在第k个日志文件中的取值因子。timek=l 表示词对(Wi,Wj)在第k个日志文件出现的情况。
[0057] 局部上下文检索方法能严格控制窗口的大小,且两个词必须是相邻的,权值因子 取两个词对称共现的最小值,该方法提高了同义词挖掘的效果。基于该思想启发,采用加重 对称共现边方法改进知识图边权重因子W达到提高同义词识别的准确率的目的,其中对称 共现边指词对(Wi,Wj)和(Wj,Wi)同时出现在语料中,研究表明对称共现词对为同义词的可 能性更大。该方法将对称共现边的权值适当放大,使其在图中的作用加强。权值计算公式如 下:
[005引 weight = S*min(Time(Wi,Wj),Time(Wj,wi)), (8)
[0059] 其中,δ为大于1的数。
[0060] 利用团的思想对相似词进行聚类,相似词之间存在很密切的联系。本发明采用相 似的方法对同义词进行聚类,把由Ξ个子图构成的图形看成一个团,通过改变团中边的权 重因子对候选同义词进行聚类。Ξ角形是指Ξ个词wi,wj,wk在语料中出现的形式可W构成 一个S角形,如图4所示,当词对(Wi,Wj)和(wj,wk)出现时,词对(wk,wi)或者词对(wi,wk)也同 时出现,即可W形成一个Ξ角形的图,运种形式出现的词对是同义词的可能性也比较大。
[0061] 将词对(Wi,Wj) (Wj,Wk) (Wk,Wi)的权重因子均增加为原来的α倍,其中α为大于1的 数,然后对其进行化wman聚类。
[0062] 基于字面相似度识别同义词,即同义词在字面及字数上均有比较相似的地方。基 于运一点,为了进一步提高化wman聚类效果,W及同义词的正确率,本发明采用惩罚音节不 等的方法改进知识图边权重。该方法的主要思想是如果一个词对中两个词的音节数相差很 大,则减小该词对的权重因子,也就是减小其对聚类的影响。具体方法就是将音节严重不等 的词对(wi,w訓勺权重因子降低为原来的ε倍,其中ε为小于1的数。
[0063] 本发明采用了四种方法改进知识图边权重计算,并利用公式(1)和公式(2)对候选 同义词集进行聚类。首先,将分割语料方法中获取的Ξ种候选同义词集,分别进行聚类,通 过质量函数Q和本发明提出的聚类评测指标Ρ对聚类结果进行筛选。将Q值接近0.8,Ρ值最大 的聚类结果作为最佳结果。然后,利用加重对称共现边方法进一步对其进行聚类,通过实验 调节加重因子,直到得到比较好的聚类结果。用类似的方法对加重Ξ角形方法和惩罚音节 不等的方法得到候选同义词集进行聚类。最终将聚在同一类中的候选同义词对作为同义词 集。
[0064] 针对本发明提出的基于图的专利捜索日志中同义词集自动挖掘方法进行实验,实 验采用的是内容大小为10G的专利捜索日志,该日志是某专利检索系统提供的专利捜索记 录。首先利用正则表达式过滤掉专利捜索日志中重复的查询词串,根据前述提到的方法获 取候选同义词词集,词对的权重是指两个词在专利捜索日志中同时出现在一个查询词串中 的次数。为了获取更好的聚类效果,需要对知识图进一步的处理,本发明主要通过上面提到 的四种改进的方法调整图中的边权值和顶点的信息,然后利用公式(1)和公式(2)对候选词 集进行聚类,实验过程如下:
[0065] 根据本发明的分割语料方法获取Ξ种不同的候选同义词词对,然后分别利用 化wman聚类算法对Ξ个知识图进行聚类,词对数是指进行化wman聚类的词对数,类别数是 指聚出的类个数,同义词对数是指经过化wman聚类获得的同义词词表中的词对数。接下来 的改进工作都是基于方法1的12584个词对进行的。
[0066] 在分割语料的基础上,根据本发明的加重对称共现边方法改进知识图中边的权 重,然后利用化wman聚类算法对知识图进行聚类。由实验可W得出,加重对称共现边的方法 可W有效的提高同义词的识别效果。当8 = 5时,聚类效果和正确率都有很大提高,说明通过 加重对称共现边的方法可W找回对称词对的同义词。
[0067] 在上述分割语料方法和加重对称共现边方法两种方法的基础上,根据本发明的加 重Ξ角形方法改进知识图中边的权重。该方法将词对(机,巧^)(巧^,师)(师,巧1)的权重因子均 增加为原来的α倍,其中α为大于1的数。
[0068] 接下来,根据本发明的惩罚音节不等方法改进知识图中边的权重,然后利用 化wman聚类算法对知识图进行聚类。该方法就是将音节严重不等的词对(wi,wj)的权重因子 降低为原来的ε倍,其中ε为小于1的数。通过实验可W得出,当ε=〇.別寸,聚类效果和同义词 表的正确率都比较理想。利用该方法,实验的正确率在加重对称共现边的基础上提高了 0.6%。
[0069] 由实验可知,通过分割语料、加重对称共现边、加重Ξ角形和惩罚音节不等四种方 法改进知识图中边的权重,然后利用化wman聚类算法对知识图进行聚类,有效地提高了同 义词集自动挖掘的准确率。
[0070] 本发明提供的基于图的专利捜索日志中同义词集自动挖掘方法,根据专利捜索日 志中同义词出现的特点挖掘出候选同义词集,并且通过分割语料、加重对称共现边、加重Ξ 角形和惩罚音节不等四种方法改进知识图边权重计算,最后结合化wman算法对知识图进行 聚类,有效地提高了同义词集自动挖掘的准确率,实现了专利捜索日志中同义词集的自动 挖掘工作,可W很好地满足实际应用的需要。
[0071] W上所述实施例仅表达了本发明的实施方式,其描述较为具体和详细,但并不能 因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说, 在不脱离本发明构思的前提下,还可W做出若干变形和改进,运些都属于本发明的保护范 围。因此,本发明专利的保护范围应W所附权利要求为准。
【主权项】
1. 一种基于图的专利搜索日志中同义词集自动挖掘方法,其特征在于,包括以下步骤: 步骤1)基于专利搜索日志进行候选同义词集挖掘,抽取出专利搜索日志中的候选同义 词集,并将获得的候选同义词集放在同一行中。 步骤2)将所述候选同义词集构成知识图。 步骤3)通过分割语料、加重对称共现边、加重三角形、惩罚音节不等四种方法改进知识 图边权重计算,调节所述知识图的知识图边权重。 步骤4)利用Newman聚类算法对知识图进行聚类,将聚在同一类中的候选同义词对作为 同义词集。2. 根据权利要求1所述的基于图的同义词集自动挖掘方法,其特征在于,所述知识图由 顶点和边构成,每一个词视为一个顶点,两个词之间的联系视为一条边,词对在专利搜索日 志中共现的次数作为边的权值。所述知识图是一个有向图,边的方向代表候选同义词词对 中的两个词的组合顺序。3. 根据权利要求1所述的基于图的同义词集自动挖掘方法,其特征在于,所述分割语料 方法的具体步骤为: 将日志语料分为多个子语料,利用所述步骤1)的基于专利搜索日志的候选同义词挖掘 方法,挖掘出每个子语料中的候选同义词。4. 根据权利要求1所述的基于图的同义词集自动挖掘方法,其特征在于,所述加重对称 共现边方法具体步骤为:将对称共现边的权值放大,使其在图中的作用加强。所述权值的计 算公式如下: weight= 5*min(Time(Wi,Wj),Time(Wj,Wi)),其中,δ为大于 1 的数。5. 根据权利要求1所述的基于图的同义词集自动挖掘方法,其特征在于,所述加重三角 形方法的具体步骤为: 把由三个子图构成的图形看成一个团,通过改变团中边的权重因子对候选同义词进行 聚类。6. 根据权利要求1所述的基于图的同义词集自动挖掘方法,其特征在于,所述惩罚音 节不等方法的步骤为:减小一个词对中两个词的音节数相差很大的词对的权重因子。7. 根据权利要求1-6所述的基于图的同义词集自动挖掘方法,其特征在于,所述惩罚音 节不等方法的步骤具体为:将音节严重不等的词对的权重因子降低为原来的ε倍,其中ε为 小于1的数。
【专利摘要】本发明涉及一种基于图的专利搜索日志中同义词集自动挖掘方法,包括以下步骤:步骤1)基于专利搜索日志进行候选同义词集挖掘,抽取出专利搜索日志中的候选同义词集,并将获得的候选同义词集放在同一行中;步骤2)将所述候选同义词集构成知识图;步骤3)通过分割语料、加重对称共现边、加重三角形、惩罚音节不等四种方法改进知识图边权重计算,调节所述知识图的知识图边权重;步骤4)利用Newman聚类算法对知识图进行聚类,将聚在同一类中的候选同义词对作为同义词集。本发明有效地提高了同义词集自动挖掘的准确率,实现了专利搜索日志中同义词集的自动挖掘工作,可以很好地满足实际应用的需要。
【IPC分类】G06F17/30
【公开号】CN105447158
【申请号】CN201510863731
【发明人】吕学强, 周建设, 董志安
【申请人】北京信息科技大学, 首都师范大学
【公开日】2016年3月30日
【申请日】2015年12月2日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1