一种基于图的专利搜索日志中同义词集自动挖掘方法

文档序号:9687619阅读:352来源:国知局
一种基于图的专利搜索日志中同义词集自动挖掘方法
【技术领域】
[0001] 本发明属于中文信息处理技术领域,具体设及一种基于图的专利捜索日志中同义 词集自动挖掘方法。
【背景技术】
[0002] 同义词集是自然语言处理的一项基础研究,在机器翻译、查询扩展、信息检索等领 域都有重要作用。目前存在的同义词资源大多数是通过手工或半手工构建的,运些资源的 准确率虽高但是花费了大量的人力物力,而且存在词典的质量容易受到人主观因素的干 扰、不能真实反映词汇在大规模语料中的用法、不能及时更新等缺点。因此,基于大规模语 料库的同义词自动挖掘工作显得尤为重要。

【发明内容】

[0003] 针对上述现有技术中存在的问题,本发明的目的在于提供一种可避免出现上述技 术缺陷的基于图的专利捜索日志中同义词集自动挖掘方法。
[0004] 为了实现上述发明目的,本发明采用的技术方案如下:
[000引一种基于图的专利捜索日志中同义词集自动挖掘方法,包括W下步骤:
[0006] 步骤1)基于专利捜索日志进行候选同义词集挖掘,抽取出专利捜索日志中的候选 同义词集,并将获得的候选同义词集放在同一行中;
[0007] 步骤2)将所述候选同义词集构成知识图;
[0008] 步骤3)通过分割语料、加重对称共现边、加重Ξ角形、惩罚音节不等四种方法改进 知识图边权重计算,调节所述知识图的知识图边权重;
[0009] 步骤4)利用化wman聚类算法对知识图进行聚类,将聚在同一类中的候选同义词对 作为同义词集。
[0010] 进一步地,所述知识图由顶点和边构成,每一个词视为一个顶点,两个词之间的联 系视为一条边,词对在专利捜索日志中共现的次数作为边的权值;所述知识图是一个有向 图,边的方向代表候选同义词词对中的两个词的组合顺序。
[0011] 进一步地,所述分割语料方法的具体步骤为:
[0012] 将日志语料分为多个子语料,利用所述步骤1)的基于专利捜索日志的候选同义词 挖掘方法,挖掘出每个子语料中的候选同义词。
[0013] 进一步地,所述加重对称共现边方法具体步骤为:将对称共现边的权值放大,使其 在图中的作用加强。所述权值的计算公式如下:
[0014] weight = 5*min(Time(Wi,Wj),Time(Wj,Wi)),其中,δ为大于 1 的数。
[0015] 进一步地,所述加重Ξ角形方法的具体步骤为:
[0016] 把由Ξ个子图构成的图形看成一个团,通过改变团中边的权重因子对候选同义词 进行聚类;
[0017] 进一步地,所述惩罚音节不等方法的步骤为:减小一个词对中两个词的音节数相 差很大的词对的权重因子。
[0018] 进一步地,所述惩罚音节不等方法的步骤具体为:将音节严重不等的词对的权重 因子降低为原来的ε倍,其中ε为小于1的数。。
[0019] 本发明提供的基于图的专利捜索日志中同义词集自动挖掘方法,根据专利捜索日 志中同义词出现的特点挖掘出候选同义词集,并且通过分割语料、加重对称共现边、加重Ξ 角形和惩罚音节不等四种方法改进知识图边权重计算,最后结合化wman算法对知识图进行 聚类,有效地提高了同义词集自动挖掘的准确率,实现了专利捜索日志中同义词集的自动 挖掘工作,可W很好地满足实际应用的需要。
【附图说明】
[0020] 图1为本发明的流程图;
[0021] 图2为已处理的专利捜索日志的示例图;
[0022] 图3为表1中的候选同义词词对构成的有向知识图;
[0023] 图4为Ξ角形知识图。
【具体实施方式】
[0024] 为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施 例对本发明做进一步说明。应当理解,此处所描述的具体实施例仅用W解释本发明,并不用 于限定本发明。
[0025] 如图1所示,基于图的专利捜索日志中同义词集自动挖掘方法包括W下步骤:
[0026] 步骤1)基于专利捜索日志进行候选同义词集挖掘,抽取出专利捜索日志中的候选 同义词集,并将获得的候选同义词集放在同一行中;
[0027] 步骤2)将所述候选同义词集构成知识图;
[0028] 步骤3)通过分割语料、加重对称共现边、加重Ξ角形、惩罚音节不等四种方法改进 知识图边权重计算,调节所述知识图的知识图边权重;
[0029] 步骤4)利用化wman聚类算法对知识图进行聚类,将聚在同一类中的候选同义词对 作为同义词集。
[0030] 具体地:
[0031 ] 化wman算法最初被广泛应用在网络社区的结构探测中,本发明首次将化wman算法 用于专利捜索日志的同义词自动挖掘工作中。Newman算法是基于模块化思想的方法,该算 法的核屯、是将一个社区划分为若干个小区,每个小区代表一个类别,并且通过一个质量函 数(如ality化nction)Q来评测该划分是否为最合理的划分。
[0032] ,(1)
[003引 Δ Q = 6ij+ej广2aiaj 二2(edj-a:iaj), (2)
[0034]其中,eu代表连接图i和图j中所有顶点之间边的权值之和除W总的边的权值之 和。eii代表图i内部所有顶点连接的边权值之和除W总的边的权值之和。质量函数Q代表在 当前划分下,落在某一子图内部的边的比例和随机划分时各边时运个量之间差的期望值。 如果在某一个划分中,图内部边的比例小于随机划分下的期望值,贝化=0。当Q不为零时,表 示特定的划分与随机划分存在偏离。然后通过公式(2)计算两个子图合并的增量AQ,将增 量值最大的子图进行合并。如果待合并的两个子图之间没有边,那么A Q = 0,只需考虑之间 有边连接的子图。利用公式(2)表示两个子图合并时Q值的增量。每次迭代的过程就是计算 A Q的过程,即计算出哪两个类合并最为合理。
[0035] 对同义词挖掘结果进行评测是一个公认的难题,主要是因为没有标准的参考答案 支撑。目前存在的两种主要评测方法:人工评价,即是通过专家打分制定标准答案;基于某 个权威词典进行评测,如英文中经常参照Wor抓et。由于专利领域的同义词词典目前还不存 在,所W采用第一种方法对实验结果进行评测。由于语料的规模比较大,所W准确率比召回 率更为重要。本发明采用两个指标分别对实验结果和化wman聚类结果进行评测。
[0036] 第一个评价指标是同义词的正确率,如公式(3)所示:
[0037] ? (3)
[0038] 另外一个是本发明提出的聚类评价指标P,该指标是聚类结果的度量,其计算方法 如公式(4)和公式(5)所示。
[0039] 设候选同义词集为Set,Wl,W2,W3. . .Wn为每个日志中的词汇,fla前q表示词对WpWq是 否为同义词,flagpq的取值范围如下:
[0040] ,(4)
[0041 ] 其中,f lagpq= 1表示词对WpWq为同义词,flagpq = 0,表示词对WpWq不为同义词,运 里,l<p<n,l<q<n,p辛q,n表示候选同义词对数。贝化的计算方法如下:
[0042]
[0043] 其中
表示候选同义词对在采用的化wman聚类中被聚在一类的个 数,Total代表总的候选同义词对的个数。该指标是指聚在同一类别中的候选同义词词对数 与总的候选同义词词对数的比值。运样做的目的是通过化wman聚类过滤掉候选同义词对中 非同义词对,而且可W避免W下情况发生,词汇wordi和words是同义词,words和words是同 义词,从而得到wordi和words也是同义词。虽然同义词具有传递性,但是通过聚类算法将候 选同义词对聚在一起,本身带有不确定性,也就是说如果wordi,words和words经过聚类之后 在同一个类别里面,并不是每两个词对之间都是同义词的关系。实验结果将结合质量函数Q 和聚类评价指标P对聚类结果进行评价。
[0044] 本发明的基本思想是根据用户行为特点从专利捜索日志中获取候选同义词集,利 用提出的四种方法改进知识图边权重计算,然后利用Newman算法对改进的知识图进行聚 类。
[004引专利捜索日志中的大部分查询串包含了一个事物的多种描述方式,运些描述方式 之间通过"or"、"and"、"not"等逻辑运算符进行连接,而且运些逻辑运算符连接的部分词汇 存在并列关系,如图1所示。根据运一特点,抽取出专利捜索日志中候选同义词集,并将获得 的候选同义词集放在同一行中。假设一行中有η个词汇,那么该同义词集可W获取个 2 候选同义词对。
[0046] 如图2所示为一个已处理的专利捜索日志的示例图,如其中第18行所示,候选同义 词集为:甲壳素几下质壳聚糖,那么候选同义词对就有3对,即:甲壳素几下质;甲壳素壳聚 糖;几下质壳聚糖。充分利用专利捜索日志中同义词分布的特点,获取的候选同义词集的准 确率也比较高,运样保证了化wman算法的输入数据的质量,利于获取更好的聚类结果。
[0047] 化wman算法是一种基于图的聚类算法,它是将一个网络划分为若干个子图,然后 通过计算每个子图与其他若干子图之间的距离,从而达到聚类的目的,因此知识图的构建 是进行化wman聚类的基础环节。知识图由顶点和边构成,本发明的知识图来源于专利捜索 日志中提取的候选同义词集,将每一个词视为一个顶点,两个词之间的联系视为一条边,词 对在专利捜索日志中共现的次数作为边的权值。知识图是一个有向图,边的方向代表候选 同义词词对中的两个词的组合顺序。例如,如表1所示为候选同义词词对的信息的一个示 例,如下所示:
[004引表1候选同义词对信息
[0049]
[0050] 图3所示的是表1中的候选同义词词对构成的一个有向知识图,其中每个词汇代表 一个子图,边上的权值代表词对在专利捜索日志中出现的次数,方向代表词对中的两个词 在专利捜索日志的某个查询串中出现的次序,例如子图电脑和计算机,用户输入"电脑计算 机"进行查询信息的次数为4,用户输入"计算机电脑"进行查询信息的次数为3。
[0051] 化wman算法是根据知识图中的边权重信息进行迭代运算从而得到最
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1