一种面向专利摘要的中文分词方法_2

文档序号：9787407阅读：来源：国知局

性就越大;互信息值越低，两个词语组成短语的可能性越小。
[0060]对于由2个词组成的词组型术语，其互信息的计算公式如下所示：
[0061 ]
，其中，f (W1W2)代表字符串W1W2在语料中出现的次数，f (W1)代表字符串抑在语料中出现的次数。
[0062]根据专利文献术语中的第四个特点，专利术语一般有2-6个词组成，而互信息对二元组的词组型术语有效，无法很好地测量3个及其3个以上的词组性术语，因此，对于3-6词的词组型候选术语，则将术语分解为多个二元组，求各个二元组的互信息，最后将求得的各个二元组的平均值作为该候选术语的平均互信息。例如，一个4元组候选术语ABCD，可以将其分解为 A-BCD，AB-CD，ABC-D三个二元组，则ABCD的平均互信息
因此，对于由3-6个词组成的词组型术语，本发明定义了平均互信息，其计算公式如下所示： [0063]定义1平均互信息：
[0066] 其中，3 < η < 6，f (wiW2. . .wn)代表字符串wiW2. . .Wn在语料中出现的总次数，f (W1W2. · .Wi)代表字符串W1W2. · .Wi在语料中出现的总次数，f(Wi+l. · .Wn)代表字符串Wi+l. · .Wn 在语料中出现的总次数。
[0067] NC-value是Frantzi提出的一种领域独立的多词术语的统计抽取算法，利用NC-value算法在长术语识别、反映术语的上下文信息方面的优势。本发明通过NC-value算法来评价候选术语的术语性。候选术语的NC-value值计算公式如下：
[0068] C-value算法是基于词频的术语抽取算法，是提取嵌套术语的一个很流行的度量值。嵌套术语是指出现在其他更长的术语里面，并且出现次数较多的词。C-value值的计算公式如下：
[0069]
其中，a表示候选的字符串，|a|表示字符串a的长度，f (a)表示字符串a的词频，Ta表示包含字串a的候选术语，b表示1中任意的包含字串a的术语，p (Ta)表示包含字串a的术语总数。当1为空时，为0〇
[0070] NC-value算法融合了术语的c-value值以及术语的上下文信息。因此，它对长术语的抽取更具优势。NC-value值的计算公式如下所示：
[0072] 其中，a+f3=l，fa(b)表示b在字串a的上下文中出现的次数。本发明选取的α和β值分别为0.8和0.2。本发明使用平均互信息和NC-value按照合适的阈值对候选术语进行过滤，分别从单元性和术语度两方面来充分考察术语，能识别出更加准确的专利术语。
[0073] 由于专利文献中术语数据稀疏的问题，大量的专业术语出现频率较低，而通过构词规则选取和通过平均互信息和NC-value算法过滤出来的术语是在专利文献中大量出现的，它很少包含有意义的低频率术语。条件随机场模型(CRF)能在给定需要标记的观察序列的条件下，使标记序列的联合概率达到最优。条件随机场使用概率图模型，具有表达字串长距离依赖性和交叠性的能力，而且所有特征可以进行全局归一化，能够求得全局的最优解，能较好地学习新的领域知识，因此，本发明采用CRF模型来识别出现频率较低的术语，它采用了链式无向图结构计算给定观察值条件下输出状态的条件概率。
[0074] 所述步骤D具体如下：
[0075] 采用链式无向图结构计算给定观察值条件下输出状态的条件概率。标记序列的条件概率计算公式为
[0076]
_ 其中，tk(yi-i，yi， x，i)为转移函数，表示观察序列和标记序列在i-1及i时刻的特征，sk(yi，x，i)为状态函数，表示观察序列和标记序列在i时刻的特征;Z(X)为归一化因子AdPuk是由训练样本得到的特征函数权重，计算特征权重函数采用极大似然估计方法。
[0077] CRF将术语抽取看作一个序列标注过程，利用词位信息来标记术语，术语抽取的过程即为将词在句子中的特征进行标记的过程。运用不同的标记方法，在训练语料和测试语料都相同的情况下，效果是不同的。根据专利文献中术语的特点，本发明采用四词位标注集，B表示术语的首词，M表示术语的中间词，E表示术语的尾词，0表示非术语。进行术语抽取时，只需求出该句子的词位标注结果（1 )，根据词位标注的基本思想，由词位标注结果就很容易得出相应句子中的术语(2) 了。
[0078] (1)词位标注结果:本/0发明/0涉及/0无轨/B无线电/M动/M公交车/E后/B 悬/M架装置/E，/0属于/0车辆/0前/B悬/M架装置/E结构技术/0领域/0。/0
[0079] (2)术语结果:无轨无线电动公交车、后悬架装置、前悬架装置。
[0080] 特征模板的设置对术语标注识别的好坏起到关键的作用，本发明利用上下文信息，从训练语料中获得词特征，主要采用当前词和前后两个词、词性信息、词的长度作为特征。具体的特征模板的设置如表2所示：
[0081 ] 表2:特征模板
[0082]
[0083] 其中，W代表词，P代表词性，L代表词的长度;W( i)代表当前词，W (i +1)代表当前词右边的第一个词，W(i-l)代表当前词左边的第一个词;L(i)代表当前词的长度，L(i+1)代表当前词右边的第一个词的长度，L( i-Ι)代表当前词左边的第一个词的长度。
[0084] 接着进行所述步骤E:运用通过以上步骤抽取的所有术语构建专利领域词典，然后再将专利领域词典添加到ICTCLAS分词系统的用户词典中对专利文献进行分词。
[0085] 为了能够客观准确地评价分词系统的效果，需要制定一些指标来对分词的结果进行评测，本发明采用的评测指标是准确率(P)、召回率(R)和F值，它们的计算形式如下所示：

[0089] 利用以上指标来对本发明的分词方法进行评价，结果显示，本发明的分词方法准确率和召回率都很高，能够满足实际应用的需要。
[0090] 本发明提供的面向专利摘要的中文分词方法，采用规则的方法来抽取专利文献的术语，然后利用平均互信息和NC-value算法对候选术语进行过滤，通过条件随机场进一步识别专利文献中出现频率较低的术语，最后将抽取的术语加入到用户词典中对专利文献进行分词，本发明的分词方法的准确率和召回率都很高，可以很好地满足实际应用的需要。
[0091] 以上所述实施例仅表达了本发明的实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。
【主权项】
1. 一种面向专利摘要的中文分词方法，其特征在于，包括W下步骤：步骤A:构建专利停用词表。步骤B:抽取候选术语。步骤C:过滤候选术语。步骤D:抽取低频专业术语。2. 根据权利要求1所述的面向摘要的分词方法，其特征在于，所述面向专利摘要的中文分词方法还包括步骤E:运用抽取的术语构建专利领域词典，然后再将专利领域词典添加到 ICTCLAS分词系统的用户词典中对专利文献进行分词。3. 根据权利要求1所述的面向摘要的分词方法，其特征在于，所述步骤A具体包括W下步骤：步骤一:将基础停用词表中的所有词加入到专利停用词表中。步骤二:对经过预处理的文本W空格为分隔符进行分割，分别统计每个词在语料中出现的总次数，即词频，最后按照词频从大到小排序。选取一个合适的阔值，当词频大于该阔值并且词性不属于名词、动词和形容词中的任一种时，将该词加入到专利停用词表中。4. 根据权利要求1所述的面向专利摘要的分词方法，其特征在于，所述步骤B具体包括 W下步骤：步骤一专利停用词表中的停用词为分隔符对专利文献中的摘要进行分割。步骤二:分别统计2词、3词、4词、5词和6词术语的词性组合及其词频，按照词频从大到小进行排序。步骤Ξ:选取每一种术语类别下的top-2作为最终的术语构词规则。5. 根据权利要求1所述的面向摘要的分词方法，其特征在于，所述步骤C具体包括W下步骤：步骤一:将候选术语分解为多个二元组，求各个二元组的互信息，最后将求得的各个二元组的平均值作为该候选术语的平均互信息，其中平均互信息的计算公式如下：，其中，3 < η < 6，f (>1化...Wn)代表字符串W1W2. . .Wn在语料中出现的总次数，f (W1W2. . .Wi)代表字符串W1W2. . .Wi在语料中出现的总次数，. .Wn)代表字符串WW. . .Wn在语料中出现的总次数。步骤二:计算C-value值，计算公式如下其中，a表不候选的字符串，I a I表不字符串a的长度，f (a)表示字符串a的词频，Ta表示包含字串a的候选术语，b表示Ta中任意的包含字串a的术语，P (Ta)表示包含字串a的术语总数。步骤Ξ:计算NC-value值，计算公式如下I其中，a+e=l，fa(b)表示b在字串 a的上下文中出现的次数，通过NC-value算法来评价候选术语的术语性。6. 根据权利要求4所述的面向专利摘要的分词方法，其特征在于，所述α和β的值分别为0.巧口0.2。7. 根据权利要求1所述的面向专利摘要的分词方法，其特征在于，所述步骤D具体如下：采用链式无向图结构计算给定观察值条件下输出状态的条件概率。标记序列的条件概率计算公式为其中，tk(yi-i，yi，x，i) 为转移函数，表示观察序列和标记序列在i-1及i时刻的特征，sk(yi，x，i)为状态函数，表示观察序列和标记序列在i时刻的特征。Z(X)为归一化因子;Ak和uk是由训练样本得到的特征函数权重，计算特征权重函数采用极大似然估计方法。
【专利摘要】本发明涉及一种面向专利摘要的中文分词方法，包括以下步骤：步骤A：构建专利停用词表；步骤B：抽取候选术语；步骤C：过滤候选术语；步骤D：抽取低频专业术语。本发明提供的面向专利摘要的中文分词方法，采用规则的方法来抽取专利文献的术语，然后利用平均互信息和NC-value算法对候选术语进行过滤，通过条件随机场进一步识别专利文献中出现频率较低的术语，最后将抽取的术语加入到用户词典中对专利文献进行分词，本发明的分词方法的准确率和召回率都很高，可以很好地满足实际应用的需要。
【IPC分类】G06F17/30, G06F17/27
【公开号】CN105550200
【申请号】CN201510863565
【发明人】吕学强, 周建设, 董志安
【申请人】北京信息科技大学, 首都师范大学
【公开日】2016年5月4日
【申请日】2015年12月2日

完整全部详细技术资料下载

当前第2页1 2