一种基于图的专利搜索日志中同义词集自动挖掘方法_2

文档序号：9687619阅读：来源：国知局

佳的聚类效果。因此，在语料限定的条件下，利用化wman聚类算法提高同义词集自动挖掘效果的主要方式就是运用各种知识调整知识图中边的权重。根据专利捜索日志语料自身的特点，设计了 W下四种方法对知识图边权重进行调节。
[0052] 利用分窗口语料的方法可W提高自动挖掘同义词集的效果，因此为了获取更精确的同义词集采用分割语料的方法，实验中将日志语料分为5个子语料，利用第Ξ章中提到的基于专利捜索日志的候选同义词挖掘方法，挖掘出每个子语料中的候选同义词。方法1是抽取出至少出现在两个专利日志中的词对集，方法2是抽取出至少同时出现在Ξ个专利日志中的词对集，方法3是抽取出至少出现在四个专利日志中的词对集，其中词对的权值因子设为词对在专利捜索日志中共现的最小次数。
[0053] ，（巧
[0054] 其中，logk是指第k个子日志文件。方法1中，规定Timei= Σι<?;?η?θ?<> 2,方法2中规定1111162=1；1<1：；[11161<>3，方法3中规定1111163=1；1<1：；[11161<>4，其中权值因子讯6；[曲1：的计算方法如下：
[005引 weight=min(weightk(wi，wj))，timek=l， (7)
[0056] 其中，wei曲tk(wi，wj)表示词对(Wi，Wj)在第k个日志文件中的取值因子。timek=l 表示词对(Wi，Wj)在第k个日志文件出现的情况。
[0057] 局部上下文检索方法能严格控制窗口的大小，且两个词必须是相邻的，权值因子取两个词对称共现的最小值，该方法提高了同义词挖掘的效果。基于该思想启发，采用加重对称共现边方法改进知识图边权重因子W达到提高同义词识别的准确率的目的，其中对称共现边指词对(Wi，Wj)和(Wj，Wi)同时出现在语料中，研究表明对称共现词对为同义词的可能性更大。该方法将对称共现边的权值适当放大，使其在图中的作用加强。权值计算公式如下：
[005引 weight = S*min(Time(Wi，Wj)，Time(Wj，wi))， (8)
[0059] 其中，δ为大于1的数。
[0060] 利用团的思想对相似词进行聚类，相似词之间存在很密切的联系。本发明采用相似的方法对同义词进行聚类，把由Ξ个子图构成的图形看成一个团，通过改变团中边的权重因子对候选同义词进行聚类。Ξ角形是指Ξ个词wi，wj，wk在语料中出现的形式可W构成一个S角形，如图4所示，当词对(Wi，Wj)和(wj，wk)出现时，词对(wk，wi)或者词对(wi，wk)也同时出现，即可W形成一个Ξ角形的图，运种形式出现的词对是同义词的可能性也比较大。
[0061] 将词对(Wi，Wj) (Wj，Wk) (Wk，Wi)的权重因子均增加为原来的α倍，其中α为大于1的数，然后对其进行化wman聚类。
[0062] 基于字面相似度识别同义词，即同义词在字面及字数上均有比较相似的地方。基于运一点，为了进一步提高化wman聚类效果，W及同义词的正确率，本发明采用惩罚音节不等的方法改进知识图边权重。该方法的主要思想是如果一个词对中两个词的音节数相差很大，则减小该词对的权重因子，也就是减小其对聚类的影响。具体方法就是将音节严重不等的词对(wi，w訓勺权重因子降低为原来的ε倍，其中ε为小于1的数。
[0063] 本发明采用了四种方法改进知识图边权重计算，并利用公式（1)和公式(2)对候选同义词集进行聚类。首先，将分割语料方法中获取的Ξ种候选同义词集，分别进行聚类，通过质量函数Q和本发明提出的聚类评测指标Ρ对聚类结果进行筛选。将Q值接近0.8，Ρ值最大的聚类结果作为最佳结果。然后，利用加重对称共现边方法进一步对其进行聚类，通过实验调节加重因子，直到得到比较好的聚类结果。用类似的方法对加重Ξ角形方法和惩罚音节不等的方法得到候选同义词集进行聚类。最终将聚在同一类中的候选同义词对作为同义词集。
[0064] 针对本发明提出的基于图的专利捜索日志中同义词集自动挖掘方法进行实验，实验采用的是内容大小为10G的专利捜索日志，该日志是某专利检索系统提供的专利捜索记录。首先利用正则表达式过滤掉专利捜索日志中重复的查询词串，根据前述提到的方法获取候选同义词词集，词对的权重是指两个词在专利捜索日志中同时出现在一个查询词串中的次数。为了获取更好的聚类效果，需要对知识图进一步的处理，本发明主要通过上面提到的四种改进的方法调整图中的边权值和顶点的信息，然后利用公式（1)和公式(2)对候选词集进行聚类，实验过程如下：
[0065] 根据本发明的分割语料方法获取Ξ种不同的候选同义词词对，然后分别利用化wman聚类算法对Ξ个知识图进行聚类，词对数是指进行化wman聚类的词对数，类别数是指聚出的类个数，同义词对数是指经过化wman聚类获得的同义词词表中的词对数。接下来的改进工作都是基于方法1的12584个词对进行的。
[0066] 在分割语料的基础上，根据本发明的加重对称共现边方法改进知识图中边的权重，然后利用化wman聚类算法对知识图进行聚类。由实验可W得出，加重对称共现边的方法可W有效的提高同义词的识别效果。当8 = 5时，聚类效果和正确率都有很大提高，说明通过加重对称共现边的方法可W找回对称词对的同义词。
[0067] 在上述分割语料方法和加重对称共现边方法两种方法的基础上，根据本发明的加重Ξ角形方法改进知识图中边的权重。该方法将词对(机，巧^)(巧^，师）（师，巧1)的权重因子均增加为原来的α倍，其中α为大于1的数。
[0068] 接下来，根据本发明的惩罚音节不等方法改进知识图中边的权重，然后利用化wman聚类算法对知识图进行聚类。该方法就是将音节严重不等的词对(wi，wj)的权重因子降低为原来的ε倍，其中ε为小于1的数。通过实验可W得出，当ε=〇.別寸，聚类效果和同义词表的正确率都比较理想。利用该方法，实验的正确率在加重对称共现边的基础上提高了 0.6%。
[0069] 由实验可知，通过分割语料、加重对称共现边、加重Ξ角形和惩罚音节不等四种方法改进知识图中边的权重，然后利用化wman聚类算法对知识图进行聚类，有效地提高了同义词集自动挖掘的准确率。
[0070] 本发明提供的基于图的专利捜索日志中同义词集自动挖掘方法，根据专利捜索日志中同义词出现的特点挖掘出候选同义词集，并且通过分割语料、加重对称共现边、加重Ξ 角形和惩罚音节不等四种方法改进知识图边权重计算，最后结合化wman算法对知识图进行聚类，有效地提高了同义词集自动挖掘的准确率，实现了专利捜索日志中同义词集的自动挖掘工作，可W很好地满足实际应用的需要。
[0071] W上所述实施例仅表达了本发明的实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可W做出若干变形和改进，运些都属于本发明的保护范围。因此，本发明专利的保护范围应W所附权利要求为准。
【主权项】
1. 一种基于图的专利搜索日志中同义词集自动挖掘方法，其特征在于，包括以下步骤：步骤1)基于专利搜索日志进行候选同义词集挖掘，抽取出专利搜索日志中的候选同义词集，并将获得的候选同义词集放在同一行中。步骤2)将所述候选同义词集构成知识图。步骤3)通过分割语料、加重对称共现边、加重三角形、惩罚音节不等四种方法改进知识图边权重计算，调节所述知识图的知识图边权重。步骤4)利用Newman聚类算法对知识图进行聚类，将聚在同一类中的候选同义词对作为同义词集。2. 根据权利要求1所述的基于图的同义词集自动挖掘方法，其特征在于，所述知识图由顶点和边构成，每一个词视为一个顶点，两个词之间的联系视为一条边，词对在专利搜索日志中共现的次数作为边的权值。所述知识图是一个有向图，边的方向代表候选同义词词对中的两个词的组合顺序。3. 根据权利要求1所述的基于图的同义词集自动挖掘方法，其特征在于，所述分割语料方法的具体步骤为：将日志语料分为多个子语料，利用所述步骤1)的基于专利搜索日志的候选同义词挖掘方法，挖掘出每个子语料中的候选同义词。4. 根据权利要求1所述的基于图的同义词集自动挖掘方法，其特征在于，所述加重对称共现边方法具体步骤为:将对称共现边的权值放大，使其在图中的作用加强。所述权值的计算公式如下： weight= 5*min(Time(Wi，Wj)，Time(Wj，Wi))，其中，δ为大于 1 的数。5. 根据权利要求1所述的基于图的同义词集自动挖掘方法，其特征在于，所述加重三角形方法的具体步骤为：把由三个子图构成的图形看成一个团，通过改变团中边的权重因子对候选同义词进行聚类。6. 根据权利要求1所述的基于图的同义词集自动挖掘方法，其特征在于，所述惩罚音节不等方法的步骤为:减小一个词对中两个词的音节数相差很大的词对的权重因子。7. 根据权利要求1-6所述的基于图的同义词集自动挖掘方法，其特征在于，所述惩罚音节不等方法的步骤具体为:将音节严重不等的词对的权重因子降低为原来的ε倍，其中ε为小于1的数。
【专利摘要】本发明涉及一种基于图的专利搜索日志中同义词集自动挖掘方法，包括以下步骤：步骤1)基于专利搜索日志进行候选同义词集挖掘，抽取出专利搜索日志中的候选同义词集，并将获得的候选同义词集放在同一行中；步骤2)将所述候选同义词集构成知识图；步骤3)通过分割语料、加重对称共现边、加重三角形、惩罚音节不等四种方法改进知识图边权重计算，调节所述知识图的知识图边权重；步骤4)利用Newman聚类算法对知识图进行聚类，将聚在同一类中的候选同义词对作为同义词集。本发明有效地提高了同义词集自动挖掘的准确率，实现了专利搜索日志中同义词集的自动挖掘工作，可以很好地满足实际应用的需要。
【IPC分类】G06F17/30
【公开号】CN105447158
【申请号】CN201510863731
【发明人】吕学强, 周建设, 董志安
【申请人】北京信息科技大学, 首都师范大学
【公开日】2016年3月30日
【申请日】2015年12月2日

完整全部详细技术资料下载

当前第2页1 2