一种面向专利摘要的中文分词方法

文档序号:9787407阅读:720来源:国知局
一种面向专利摘要的中文分词方法
【技术领域】
[0001] 本发明属于中文信息处理技术领域,具体涉及一种面向专利摘要的中文分词方 法。
【背景技术】
[0002] 专利文献作为反映发明创造的技术特征及法律状态的信息载体,是当今时代最重 要的技术文献和知识宝库,在传播专利技术、推动社会经济技术进步方面做出了很大的贡 献。据世界知识产权组织统计,世界上每年发明创造成果的90%~95%能在专利文献中查 到,专利文献公开的技术有80%以上未出现在其他技术文献中,全世界90%以上的发明创 造信息都是首先通过专利文献反映出来的 [2]。因此,如何高效、充分地利用专利文献拥有的 如此巨大的信息资源成为专利研究的重点,针对专利文献的中文信息处理系统也应运而 生。在中文专利信息处理中,分词是一个最基础并且最重要的环节,专利分词的好坏将直接 影响到专利文献的信息检索、机器翻译等应用的效率。
[0003] 中文分词的难点在于歧义识别和未登录词的识别。由于专利文献中用词遵循一定 的规则,语言严谨,一般很少出现歧义现象。因此,对专利文献分词的研究主要集中在未登 录词的识别上。而专利文献中存在着大量的专业术语,为了提高专利分词的精度,首先要研 究专利文献中术语的特点。其特点如下:(1)词性组合:术语一般是由名词、动词和形容词等 词性组合而成,一般都是以名词性的字符串作为术语的中心词。比如:无轨/b无线电/n 动/V公交车/n;(2)嵌套现象:术语存在嵌套现象较多。比如:"直流-交流逆变器系统"、"石 墨质子交换膜燃料电池";(3)重复性:专利文献带有很强的专业性,术语在某一特定的专业 领域重复出现,而在其他领域很少出现;(4)术语长度:专利术语的长度不一,主要由2-6个 词组成。比如:液体电解质、非织物纤维网板、直流-交流逆变器系统。
[0004] 目前,比较成熟且实用的分词系统主要是针对新闻语料的,对专利文献的分词效 果却较差。现在针对中文专利的分词的研究不多,存在分词效率较低、对于在专利文献中出 现频率较低的术语的识别精度不高以及没有充分考虑术语的单元性(即字符之间的紧密结 合程度)从而使得抽取出来的术语的正确率不高的缺陷。

【发明内容】

[0005] 针对上述现有技术中存在的问题,本发明的目的在于提供一种可避免出现上述技 术缺陷的面向专利摘要的中文分词方法。
[0006] 为了实现上述发明目的,本发明采用的技术方案如下:
[0007] -种面向专利摘要的中文分词方法,包括以下步骤:
[0008] 步骤A:构建专利停用词表;
[0009] 步骤B:抽取候选术语;
[0010] 步骤C:过滤候选术语;
[0011]步骤D:抽取低频专业术语。
[0012] 进一步地,所述面向专利摘要的中文分词方法还包括步骤E:运用抽取的术语构建 专利领域词典,然后再将专利领域词典添加到ICTCLAS分词系统的用户词典中对专利文献 进行分词。
[0013] 进一步地,所述步骤A具体包括以下步骤:
[0014] 步骤一:将基础停用词表中的所有词加入到专利停用词表中;
[0015] 步骤二:对经过预处理的文本以空格为分隔符进行分割,分别统计每个词在语料 中出现的总次数,即词频,最后按照词频从大到小排序;选取一个合适的阈值,当词频大于 该阈值并且词性不属于名词、动词和形容词中的任一种时,将该词加入到专利停用词表中。 [0016 ] 进一步地,所述步骤B具体包括以下步骤:
[0017] 步骤一:以专利停用词表中的停用词为分隔符对专利文献中的摘要进行分割;
[0018] 步骤二:分别统计2词、3词、4词、5词和6词术语的词性组合及其词频,按照词频从 大到小进行排序;
[0019] 步骤三:选取每一种术语类别下的top-2作为最终的术语构词规则。
[0020] 进一步地,所述步骤C具体包括以下步骤:
[0021]步骤一:将候选术语分解为多个二元组,求各个二元组的互信息,最后将求得的各 个二元组的平均值作为该候选术语的平均互信息,其中平均互信息的计算公式如下:
[0023]
其中,3 < η < 6,f(wiW2. · .wn) 代表字符串W1W2. . .Wn在语料中出现的总次数,f (W1W2. . .Wi)代表字符串W1W2. . .Wi在语料中 出现的总次数,f(Wi+l. . .Wn)代表字符串Wi+1. . .Wn在语料中出现的总次数;
[0024] 步骤二:计算C-value值,计算公式如下
[0025]
其中,a表示候选的字符串,|a|表示 字符串a的长度,f (a)表示字符串a的词频,Ta表示包含字串a的候选术语,b表示1中任意的 包含字串a的术语,P(Ta)表示包含字串a的术语总数;
[0026] 步骤三:计算NC-va Iue值,计算公式如下
[0027]
_其中,a+β= I,fa(b)表示b 在字串a的上下文中出现的次数,通过NC-va I ue算法来评价候选术语的术语性。
[0028] 进一步地,所述α和p的值分别为〇. 8和0.2。
[0029] 进一步地,所述步骤D具体如下:
[0030]采用链式无向图结构计算给定观察值条件下输出状态的条件概率,标记序列的条 件概率计算公式为
[0031 ]
1 其中,tk(yi-i,yi, x,i)为转移函数,表示观察序列和标记序列在i-1及i时刻的特征,sk(yi,x,i)为状态函数, 表示观察序列和标记序列在i时刻的特征;Z(X)为归一化因子AdPuk是由训练样本得到的 特征函数权重,计算特征权重函数采用极大似然估计方法。
[0032] 本发明提供的面向专利摘要的中文分词方法,采用规则的方法来抽取专利文献的 术语,然后利用平均互信息和NC-value算法对候选术语进行过滤,通过条件随机场进一步 识别专利文献中出现频率较低的术语,最后将抽取的术语加入到用户词典中对专利文献进 行分词,本发明的分词方法的准确率和召回率都很高,可以很好地满足实际应用的需要。
【附图说明】
[0033] 图1为本发明提出的面向专利摘要的中文分词方法的流程框架示意图。
【具体实施方式】
[0034]为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施 例对本发明做进一步说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用 于限定本发明。
[0035] -种面向专利摘要的中文分词方法,包括以下步骤:
[0036] 步骤A:构建专利停用词表;
[0037]步骤B:抽取候选术语;
[0038]步骤C:过滤候选术语;
[0039] 步骤D:抽取低频专业术语;
[0040] 步骤E :运用抽取的术语构建专利领域词典,然后再将专利领域词典添加到 ICTCLAS分词系统的用户词典中对专利文献进行分词。
[0041 ]进一步地,如图1所示,本发明提出的面向专利摘要的中文分词方法的具体详细过 程如下:
[0042]首先对专利摘要进行预处理;专利摘要作为对整个专利的介绍说明,是整篇专利 文档的核心内容,蕴含了丰富的有价值的信息。专利摘要的主要内容有以下几项:发明或实 用新型的名称、所属技术领域、需要解决的技术问题、主要技术特征和用途。正是因为专利 摘要包含了如此丰富的领域知识,使得其具有很高的科研价值。
[0043]本发明选用中科院自主研发的ICTCLAS Java版对大量专利文献的摘要进行分词 及词性标注的处理。预处理的语料结果形式如下所示:
[0044] 本/r发明/n涉及/V无轨/b无线电/n动/V公交车/n后/f悬/V架装置/n,/ w属于/v车辆/n前/f悬/v架装置/n结构技术/n领域/ru/w无轨/b无线电/n动/v 公交车/n后/f悬/v架装置/n,/w其/r特征/n在于/v后/f钢板/n弹簧/n总成/n 固定/v在/p钢板/n弹簧/n支架/n上/f,/w后/f减震器/n总成/n设在/V车架/n 总成/n与/p后/f钢板/n弹簧/n总成/n之间/f,/w后/f悬/V架装置/n安装高度/n 降低/v。/?本/r发明/n的/u无轨/b无线电/n动/V公交车/n后/f悬/V架装置/n,/ w可以/v将/p电源/n总成/n后移/vn,/w降低/v乘客/n区/n地板/n高度/n、/w实 现/v乘客/n二/m级/q或/c 一/m级/q踏步/V上下车/vn,/w提高/V 了Ai运输/Vn 效率/ru/w
[0045] 接下来,进行步骤A:构建专利停用词表;停用词是指那些在专业领域内广泛使用、 具有较高的词频,但是不具备区分性的词语,或者是在专业领域内不希望作为术语出现的 词语,去除停用词可以过滤掉那些明确在领域内不是术语的词语,以提高抽取的准确率。因 此,在抽取专利领域的术语之前,首先要构建专利领域的停用词表。
[0046] 所述步骤A具体包括以下步骤:
[0047] 步骤一:将基础停用词表中的所有词加入到专利停用词表中;
[0048] 步骤二:对经过预处理的文本以空格为分隔符进行分割,分别统计每个词在语料 中出现的总次数,即词频,最后按照词频从大到小排序。选取一个合适的阈值,当词频大于 该阈值并且词性不属于名词(n、vn)、动词(V)和形容词(a)中的任一种时,将该词加入到专 利停用词表中。
[0049]然后,进行步骤B:抽取候选术语;
[0050] 所述步骤B具体包括以下步骤:
[0051] 步骤一:以专利停用词表中的停用词为分隔符对专利文献中的摘要进行分割;
[0052] 步骤二:分别统计2词、3词、4词、5词和6词术语的词性组合及其词频,按照词频从 大到小进行排序;
[0053]步骤三:选取每一种术语类别下的top-2作为最终的术语构词规则。
[0054] 专利术语构词规则如表1所示,如下:
[0055] 表1专利术语构词规则
[0058] 表1中,η代表名词,vn代表名动词,V代表动词,m代表数词,b代表区别词,u代表助 词。将表中的多术语的构词规则作为模板在专利文献中匹配得到候选术语集。
[0059]接下来进行步骤C:过滤候选术语;本发明采用平均互信息和NC-value算法相结合 的方法对候选术语进行过滤,它们分别从术语的单元性和术语度方面来度量是否是术语, 从而增加了抽取术语的准确性。互信息是信息论中的一个概念,它是用来度量两个事件之 间的相互依赖程度。本发明将互信息应用到术语抽取中,用来表示两个词语之间的紧密结 合程度。互信息的值越高,说明两个词语之间的内部结合强度越高,两个词语组合成短语的 可能
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1