一种面向专利摘要的中文分词方法_2

文档序号:9787407阅读:来源:国知局
性就越大;互信息值越低,两个词语组成短语的可能性越小。
[0060]对于由2个词组成的词组型术语,其互信息的计算公式如下所示:
[0061 ]
,其中,f (W1W2)代表字符串W1W2在语料中出现的次 数,f (W1)代表字符串抑在语料中出现的次数。
[0062]根据专利文献术语中的第四个特点,专利术语一般有2-6个词组成,而互信息对二元 组的词组型术语有效,无法很好地测量3个及其3个以上的词组性术语,因此,对于3-6词的词 组型候选术语,则将术语分解为多个二元组,求各个二元组的互信息,最后将求得的各个二元 组的平均值作为该候选术语的平均互信息。例如,一个4元组候选术语ABCD,可以将其分解为 A-BCD,AB-CD,ABC-D三个二元组,则ABCD的平均互信息
因此,对于由3-6个词组成的词组型术语,本发明定义了平均互信息,其计算公式如下所示: [0063]定义1平均互信息:
[0066] 其中,3 < η < 6,f (wiW2. . .wn)代表字符串wiW2. . .Wn在语料中出现的总次数,f (W1W2. · .Wi)代表字符串W1W2. · .Wi在语料中出现的总次数,f(Wi+l. · .Wn)代表字符串Wi+l. · .Wn 在语料中出现的总次数。
[0067] NC-value是Frantzi提出的一种领域独立的多词术语的统计抽取算法,利用NC-value算法在长术语识别、反映术语的上下文信息方面的优势。本发明通过NC-value算法来 评价候选术语的术语性。候选术语的NC-value值计算公式如下:
[0068] C-value算法是基于词频的术语抽取算法,是提取嵌套术语的一个很流行的度量 值。嵌套术语是指出现在其他更长的术语里面,并且出现次数较多的词。C-value值的计算 公式如下:
[0069]
其中,a表示候选的字符串,|a|表示 字符串a的长度,f (a)表示字符串a的词频,Ta表示包含字串a的候选术语,b表示1中任意的 包含字串a的术语,p (Ta)表示包含字串a的术语总数。当1为空时, 为0〇
[0070] NC-value算法融合了术语的c-value值以及术语的上下文信息。因此,它对长术语 的抽取更具优势。NC-value值的计算公式如下所示:
[0072] 其中,a+f3=l,fa(b)表示b在字串a的上下文中出现的次数。本发明选取的α和β值 分别为0.8和0.2。本发明使用平均互信息和NC-value按照合适的阈值对候选术语进行过 滤,分别从单元性和术语度两方面来充分考察术语,能识别出更加准确的专利术语。
[0073] 由于专利文献中术语数据稀疏的问题,大量的专业术语出现频率较低,而通过构 词规则选取和通过平均互信息和NC-value算法过滤出来的术语是在专利文献中大量出现 的,它很少包含有意义的低频率术语。条件随机场模型(CRF)能在给定需要标记的观察序列 的条件下,使标记序列的联合概率达到最优。条件随机场使用概率图模型,具有表达字串长 距离依赖性和交叠性的能力,而且所有特征可以进行全局归一化,能够求得全局的最优解, 能较好地学习新的领域知识,因此,本发明采用CRF模型来识别出现频率较低的术语,它采 用了链式无向图结构计算给定观察值条件下输出状态的条件概率。
[0074] 所述步骤D具体如下:
[0075] 采用链式无向图结构计算给定观察值条件下输出状态的条件概率。标记序列的条 件概率计算公式为
[0076]
_ 其中,tk(yi-i,yi, x,i)为转移函数,表示观察序列和标记序列在i-1及i时刻的特征,sk(yi,x,i)为状态函数, 表示观察序列和标记序列在i时刻的特征;Z(X)为归一化因子AdPuk是由训练样本得到的 特征函数权重,计算特征权重函数采用极大似然估计方法。
[0077] CRF将术语抽取看作一个序列标注过程,利用词位信息来标记术语,术语抽取的过 程即为将词在句子中的特征进行标记的过程。运用不同的标记方法,在训练语料和测试语 料都相同的情况下,效果是不同的。根据专利文献中术语的特点,本发明采用四词位标注 集,B表示术语的首词,M表示术语的中间词,E表示术语的尾词,0表示非术语。进行术语抽取 时,只需求出该句子的词位标注结果(1 ),根据词位标注的基本思想,由词位标注结果就很 容易得出相应句子中的术语(2) 了。
[0078] (1)词位标注结果:本/0发明/0涉及/0无轨/B无线电/M动/M公交车/E后/B 悬/M架装置/E,/0属于/0车辆/0前/B悬/M架装置/E结构技术/0领域/0。/0
[0079] (2)术语结果:无轨无线电动公交车、后悬架装置、前悬架装置。
[0080] 特征模板的设置对术语标注识别的好坏起到关键的作用,本发明利用上下文信 息,从训练语料中获得词特征,主要采用当前词和前后两个词、词性信息、词的长度作为特 征。具体的特征模板的设置如表2所示:
[0081 ] 表2:特征模板
[0082]
[0083] 其中,W代表词,P代表词性,L代表词的长度;W( i)代表当前词,W (i +1)代表当前词 右边的第一个词,W(i-l)代表当前词左边的第一个词;L(i)代表当前词的长度,L(i+1)代表 当前词右边的第一个词的长度,L( i-Ι)代表当前词左边的第一个词的长度。
[0084] 接着进行所述步骤E:运用通过以上步骤抽取的所有术语构建专利领域词典,然后 再将专利领域词典添加到ICTCLAS分词系统的用户词典中对专利文献进行分词。
[0085] 为了能够客观准确地评价分词系统的效果,需要制定一些指标来对分词的结果进 行评测,本发明采用的评测指标是准确率(P)、召回率(R)和F值,它们的计算形式如下所示:

[0089] 利用以上指标来对本发明的分词方法进行评价,结果显示,本发明的分词方法准 确率和召回率都很高,能够满足实际应用的需要。
[0090] 本发明提供的面向专利摘要的中文分词方法,采用规则的方法来抽取专利文献的 术语,然后利用平均互信息和NC-value算法对候选术语进行过滤,通过条件随机场进一步 识别专利文献中出现频率较低的术语,最后将抽取的术语加入到用户词典中对专利文献进 行分词,本发明的分词方法的准确率和召回率都很高,可以很好地满足实际应用的需要。
[0091] 以上所述实施例仅表达了本发明的实施方式,其描述较为具体和详细,但并不能 因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说, 在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范 围。因此,本发明专利的保护范围应以所附权利要求为准。
【主权项】
1. 一种面向专利摘要的中文分词方法,其特征在于,包括W下步骤: 步骤A:构建专利停用词表。 步骤B:抽取候选术语。 步骤C:过滤候选术语。 步骤D:抽取低频专业术语。2. 根据权利要求1所述的面向摘要的分词方法,其特征在于,所述面向专利摘要的中文 分词方法还包括步骤E:运用抽取的术语构建专利领域词典,然后再将专利领域词典添加到 ICTCLAS分词系统的用户词典中对专利文献进行分词。3. 根据权利要求1所述的面向摘要的分词方法,其特征在于,所述步骤A具体包括W下 步骤: 步骤一:将基础停用词表中的所有词加入到专利停用词表中。 步骤二:对经过预处理的文本W空格为分隔符进行分割,分别统计每个词在语料中出 现的总次数,即词频,最后按照词频从大到小排序。选取一个合适的阔值,当词频大于该阔 值并且词性不属于名词、动词和形容词中的任一种时,将该词加入到专利停用词表中。4. 根据权利要求1所述的面向专利摘要的分词方法,其特征在于,所述步骤B具体包括 W下步骤: 步骤一 专利停用词表中的停用词为分隔符对专利文献中的摘要进行分割。 步骤二:分别统计2词、3词、4词、5词和6词术语的词性组合及其词频,按照词频从大到 小进行排序。 步骤Ξ:选取每一种术语类别下的top-2作为最终的术语构词规则。5. 根据权利要求1所述的面向摘要的分词方法,其特征在于,所述步骤C具体包括W下 步骤: 步骤一:将候选术语分解为多个二元组,求各个二元组的互信息,最后将求得的各个二 元组的平均值作为该候选术语的平均互信息,其中平均互信息的计算公式如下:,其中,3 < η < 6,f (>1化...Wn)代表 字符串W1W2. . .Wn在语料中出现的总次数,f (W1W2. . .Wi)代表字符串W1W2. . .Wi在语料中出现 的总次数,. .Wn)代表字符串WW. . .Wn在语料中出现的总次数。 步骤二:计算C-value值,计算公式如下其中,a表不候选的字符串,I a I表不字符 串a的长度,f (a)表示字符串a的词频,Ta表示包含字串a的候选术语,b表示Ta中任意的包含 字串a的术语,P (Ta)表示包含字串a的术语总数。 步骤Ξ:计算NC-value值,计算公式如下I其中,a+e=l,fa(b)表示b在字串 a的上下文中出现的次数,通过NC-value算法来评价候选术语的术语性。6. 根据权利要求4所述的面向专利摘要的分词方法,其特征在于,所述α和β的值分别为0.巧口0.2。7. 根据权利要求1所述的面向专利摘要的分词方法,其特征在于,所述步骤D具体如下: 采用链式无向图结构计算给定观察值条件下输出状态的条件概率。标记序列的条件概 率计算公式为其中,tk(yi-i,yi,x,i) 为转移函数,表示观察序列和标记序列在i-1及i时刻的特征,sk(yi,x,i)为状态函数,表示 观察序列和标记序列在i时刻的特征。Z(X)为归一化因子;Ak和uk是由训练样本得到的特征 函数权重,计算特征权重函数采用极大似然估计方法。
【专利摘要】本发明涉及一种面向专利摘要的中文分词方法,包括以下步骤:步骤A:构建专利停用词表;步骤B:抽取候选术语;步骤C:过滤候选术语;步骤D:抽取低频专业术语。本发明提供的面向专利摘要的中文分词方法,采用规则的方法来抽取专利文献的术语,然后利用平均互信息和NC-value算法对候选术语进行过滤,通过条件随机场进一步识别专利文献中出现频率较低的术语,最后将抽取的术语加入到用户词典中对专利文献进行分词,本发明的分词方法的准确率和召回率都很高,可以很好地满足实际应用的需要。
【IPC分类】G06F17/30, G06F17/27
【公开号】CN105550200
【申请号】CN201510863565
【发明人】吕学强, 周建设, 董志安
【申请人】北京信息科技大学, 首都师范大学
【公开日】2016年5月4日
【申请日】2015年12月2日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1