一种中文专利文献术语自动识别方法

文档序号:9471356阅读:1109来源:国知局
一种中文专利文献术语自动识别方法
【技术领域】
[0001] 本发明属于中文术语自动识别技术领域,具体涉及一种中文专利文献术语自动识 别方法。
【背景技术】
[0002] 中文专利文献中含有大量领域术语,对这些术语进行自动识别是信息抽取、文本 挖掘等领域的重要任务。自动术语识别(AutomaticTermRecognition,ATR)是信息抽取 研究领域的重要组成部分。它是指通过无人工干预或尽量少的人工干预方法,从自由文本 中自动识别出能够代表某个专业领域中一般概念的词汇串的过程。通过术语自动识别技术 构建的术语库是非常重要的基础数据资源,为中文分词、本体构建、词典编撰与更新、自动 标引、信息检索以及机器翻译等提供不可或缺的数据支持。此外,伴随着信息技术的高速发 展,数字化信息资源与日剧增,对这些资源进行术语的自动识别对于及时把握领域最新发 展状况及未来发展趋势具有十分重要的意义。
[0003] 中文专利文献是重要的数字化信息资源,它们记载着各学科领域的最新发明成 果,其中存在着大量的专业术语。结合对中文专利文献的观察分析与前人的研究,可以发现 专利文献中的术语具有如下几个明显特点:(1)专利文献中的术语嵌套现象较为常见;(2) 专利文献中的术语具有较强的领域相关性,即高频率出现在某一领域的术语在另外的领域 中低频出现甚至不出现;(3)专利文献中的术语具有重复出现的特点,即术语在整个专利 文献集中的多篇文献中出现;(4)专利术语长度较长,通常由2-5词构成;(5)专利术语大 多是由名词或复合名词构成。以上术语的特点是对中文专利文献进行术语自动识别的重要 依据。
[0004] 目前,常用的术语自动识别方法主要有两种:
[0005] 第一种为传统的规则与统计相结合的术语识别方法:在生成候选术语集的过程 中,先对中文文本进行分词和词性标注处理,通过观察标注好的语料总结出构成术语的词 性规则集,利用这些词性规则在语料中匹配生成候选术语集;依靠人工编写词性规则的方 式虽然识别精度较高,但对编写者的语言学知识依赖性太大,不同人对同一个语料编写的 词性规则并不一致;虽然在得到候选术语阶段这些方法不需要利用词性规则,但是在对句 子进行粗切分时对外部的资源依赖性太大,外部资源的质量往往决定了得到的候选术语集 的质量;在对候选术语集进行排序方面,当前常用的排序算法存在对于识别长度较短的术 语或者出现频率较低的术语不理想的缺陷;
[0006] 第二种识别术语的方法是采用近年来在信息抽取领域逐渐趋于研究热点的机器 学习算法,机器学习算法的缺陷是其对训练语料的规模和质量要求较高,并且需要人工标 注大量数据,语料的训练也需要花费较长的时间。
[0007] 另外,目前主流的候选术语排序算法对长度较短术语识别效果不理想。

【发明内容】

[0008] 针对上述现有技术中存在的问题,本发明的目的在于提供一种可避免出现上述技 术缺陷的中文专利文献术语自动识别方法。
[0009] 为了实现上述发明目的,本发明采用的技术方案如下:
[0010] -种中文专利文献术语自动识别方法,包括以下步骤:
[0011] 步骤1):基于专利标题自动生成词性规则,利用汉语词法分析系统将专利标题切 分为子串和停用词,以所述停用词为分隔符,将所述子串的词性规则提取出,并将其作为生 成候选术语的词性规则;
[0012] 步骤2):手工构建停用词表,将停用词加入停用词表中;
[0013] 步骤3):对生成的所述词性规则按照所含词性的个数进行分类,对每一类所述词 性规则按照出现频率降序排列,并只取Top5条规则应用到中文专利文献的正文部分进行 词性匹配,生成候选术语集合,然后将抽取出的候选术语按照所包含词的个数进行分类;
[0014] 步骤4):利用TermRank排序算法对候选术语进行排序,所述TermRank排序算法 定义如公式(1)所示:
[0016] 其中,T1为候选术语,TR(TJ为候选术语T1的TermRank值;M为包含候选术语Ti 的专利文献数量;jlGK)为包含候选术语T1的专利文献d,中T 词频;C(d,)为专利文 献士中抽取出的候选术语数量;IT1I为候选术语1\的长度,Count(T1)为候选术语T1中包 含的停用词数量;
[0017] 对候选术语列表中的每一个所述候选术语按照公式(1)计算其TermRank值,经排 序后,取Top-N条作为最终术语表。
[0018] 进一步地,所述步骤2)具体采用以下三种方法选取停用词来构建停用词表:
[0019] 方法一:对专利标题分词后进行词频统计,将出现频率高于20的停用词加入停用 词表;
[0020] 方法二:将明显不会出现在术语中的词性加入停用词表;
[0021] 方法三:应用所述方法一和所述方法二生成的停用词表对所述专利标题进行过滤 后,对所述专利标题中的剩余词串进行人工观察,若再发现新的停用词,也将其加入到停用 词表中。
[0022] 进一步地,在所述步骤3)中,将所述词性规则分为四类,即2词词性规则、3词词性 规则、4词词性规则和5词词性规则。
[0023] 进一步地,在所述步骤3)中,将所述候选术语分为四类,即2词候选术语、3词候选 术语、4词候选术语和5词候选术语。
[0024] 进一步地,在所述步骤4)中,当M值较大或者较小时,分别利用公式(2)和公式 (3)对所述公式(1)的第一项和第二项进行归一化处理,其中,所述公式(2)和公式(3)分 别为:
[0026] {ITiIXcount(Ti)-minITiIXcount(Ti)} /{maxITiIXcount(Ti)-minITiIXcount( T1M(3)〇
[0027] 本发明提供的中文专利文献术语自动识别方法,首先利用统计学方法从专利标题 中自动学习出构成术语的词性规则,解决了人工总结术语词性规则的不足;采用TermRank 排序方法对候选术语进行排序,综合考虑了专利文献中的语言学和统计学特征,能够较好 的区分术语和非术语,具有较高的可靠性,可以很好地满足实际应用的需要。
【附图说明】
[0028] 图1为本发明的流程图;
[0029] 图2为中文专利标题形式化表示示意图。
【具体实施方式】
[0030] 为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施 例对本发明做进一步说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用 于限定本发明。
[0031] 如图1所示,一种中文专利文献术语自动识别方法,包括以下步骤:
[0032] 步骤1):基于专利标题自动生成词性规则,利用汉语词法分析系统将专利标题切 分为子串和停用词,以所述停用词为分隔符,将所述子串的词性规则提取出,并将其作为生 成候选术语的词性规则;
[0033] 专利文献一般是对发明、实用新型、外观设计的记载,其标题是对整个文献的高度 概括,因此往往会直接给出所要描述的对象。专利文献的标题中都至少包含一个正确术语。 根据中文专利标题的以上特点,将标题形式化地表示成如图2所示,其中,Wl(i= 1,2,… n)表示专利标题被ICTCLAS切分出的词,W1…wa,w。…wd以及wf*" \为标题中的术语,分别 表示为CTl,CT2,CT3 ;^和we是不属于任何术语构成部分的词,本文称其为停用词,其构建 方法在3. 2节介绍。
[0034] 以停用词ST1,ST2为分隔符,将子串CT1,CT2,CT3的词性规则提取出,即可作为 下一步生成候选术语的词性规则。例如,专利"一 /m种/q电动/b汽车/n的Aidel 电量/n显示器/n装置/n"中包含术语:"电动/b汽车/n"、"电量/n显示器/n"。提取出 它们的词性规则:"b+n"、"n+n",并将它们添加至词性规则集中,作为下一步生成候选术语 的词性规则。
[0035] 步骤2):手工构建停用词表,将停用词加入停用词表中;
[0036] 停用词是从专利标题中自动生成词性规则的重要资源。本发明选择手工构建停用 词表,而不是直接采用现成的通用停用词表,是因为现成的通用停用词表内的某些停用词 在专利文献中有可能是术语的组成部分。例如,"排/V"在通用停用词表中存在,但在"全自 动/b排/V纸/n机/ng"中,它又是构成术语的一部分,因此不能将其加入停用词表。类似 "排/V"这类在通用停用词表中存在,但在中文专利文献中又是构成术语的部分的词在语料 中大量存在。
[0037] 具体采用以下三种方法选取停用词来构建停用词表:
[0038] 方法一:对专利标题分词后进行词频统计,将出现频率高于20的停用词加入停用 词表;
[0039] 方法二:将明显不会出现在术语中的词性加入停用词表;
[0040] 方法三:应用所述方法一和所述方法二生成的停用词表对所述专利标题进行过滤 后,对所述专利标题中的剩余词串进行人工观察,若再发现新的停用词,也将其加入到停用 词表中。
[0041] 步骤3):对生成的所述词性规则按照所含词性的个数进行分类,自动生成的词性 规则数量较多,无法将它们全部应用到文献中进行术语匹配,因此需要有选择地从中挑选 出部分词性规则,在步骤3)中,将所述词性规则分为四类,即2词词性规则、3词词性规则、 4词词性规则和5词词性规则;然后对每一类所述词性规则按照出现频率降序排列,并只取 Top5条规则应用到中文专利文献的正文部分进行词性匹配,生成候选术语集合,然后将抽 取出的候选术语按照所包含词的个数进行分类,将所述候选术语分为四类,即2词候选术 语、3词候选术语、4词候选术语和5词候选术语,这样对候选术语分类的目的是为了让每一 类长度的术语都单独构成一张候选术语表,在对其利用步骤4)中的TermRank排序算法进 行排序时能够不受其它长度的术语的影响,从而排序结果更公平;
[0042] 步骤4):对候选术语排序的目的是为了确定最终术语表。一个好的排序算法能够 将候选术语列表中分散的正确或错误的术语重新排序,使正确的术语的权重增大,排名位 置尽量靠前,反之亦然。利用TermRank排序算法对候选术语进行排序,所述TermRank排序 算法定义如公式(1)所示:
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1