一种中文专利文献术语自动识别方法

文档序号：9471356阅读：1109来源：国知局

一种中文专利文献术语自动识别方法
【技术领域】
[0001] 本发明属于中文术语自动识别技术领域，具体涉及一种中文专利文献术语自动识别方法。
【背景技术】
[0002] 中文专利文献中含有大量领域术语，对这些术语进行自动识别是信息抽取、文本挖掘等领域的重要任务。自动术语识别（AutomaticTermRecognition，ATR)是信息抽取研究领域的重要组成部分。它是指通过无人工干预或尽量少的人工干预方法，从自由文本中自动识别出能够代表某个专业领域中一般概念的词汇串的过程。通过术语自动识别技术构建的术语库是非常重要的基础数据资源，为中文分词、本体构建、词典编撰与更新、自动标引、信息检索以及机器翻译等提供不可或缺的数据支持。此外，伴随着信息技术的高速发展，数字化信息资源与日剧增，对这些资源进行术语的自动识别对于及时把握领域最新发展状况及未来发展趋势具有十分重要的意义。
[0003] 中文专利文献是重要的数字化信息资源，它们记载着各学科领域的最新发明成果，其中存在着大量的专业术语。结合对中文专利文献的观察分析与前人的研究，可以发现专利文献中的术语具有如下几个明显特点：（1)专利文献中的术语嵌套现象较为常见；（2) 专利文献中的术语具有较强的领域相关性，即高频率出现在某一领域的术语在另外的领域中低频出现甚至不出现；（3)专利文献中的术语具有重复出现的特点，即术语在整个专利文献集中的多篇文献中出现；(4)专利术语长度较长，通常由2-5词构成；(5)专利术语大多是由名词或复合名词构成。以上术语的特点是对中文专利文献进行术语自动识别的重要依据。
[0004] 目前，常用的术语自动识别方法主要有两种：
[0005] 第一种为传统的规则与统计相结合的术语识别方法：在生成候选术语集的过程中，先对中文文本进行分词和词性标注处理，通过观察标注好的语料总结出构成术语的词性规则集，利用这些词性规则在语料中匹配生成候选术语集；依靠人工编写词性规则的方式虽然识别精度较高，但对编写者的语言学知识依赖性太大，不同人对同一个语料编写的词性规则并不一致；虽然在得到候选术语阶段这些方法不需要利用词性规则，但是在对句子进行粗切分时对外部的资源依赖性太大，外部资源的质量往往决定了得到的候选术语集的质量；在对候选术语集进行排序方面，当前常用的排序算法存在对于识别长度较短的术语或者出现频率较低的术语不理想的缺陷；
[0006] 第二种识别术语的方法是采用近年来在信息抽取领域逐渐趋于研究热点的机器学习算法，机器学习算法的缺陷是其对训练语料的规模和质量要求较高，并且需要人工标注大量数据，语料的训练也需要花费较长的时间。
[0007] 另外，目前主流的候选术语排序算法对长度较短术语识别效果不理想。

【发明内容】

[0008] 针对上述现有技术中存在的问题，本发明的目的在于提供一种可避免出现上述技术缺陷的中文专利文献术语自动识别方法。
[0009] 为了实现上述发明目的，本发明采用的技术方案如下：
[0010] -种中文专利文献术语自动识别方法，包括以下步骤：
[0011] 步骤1):基于专利标题自动生成词性规则，利用汉语词法分析系统将专利标题切分为子串和停用词，以所述停用词为分隔符，将所述子串的词性规则提取出，并将其作为生成候选术语的词性规则；
[0012] 步骤2):手工构建停用词表，将停用词加入停用词表中；
[0013] 步骤3):对生成的所述词性规则按照所含词性的个数进行分类，对每一类所述词性规则按照出现频率降序排列，并只取Top5条规则应用到中文专利文献的正文部分进行词性匹配，生成候选术语集合，然后将抽取出的候选术语按照所包含词的个数进行分类；
[0014] 步骤4):利用TermRank排序算法对候选术语进行排序，所述TermRank排序算法定义如公式（1)所示：
[0016] 其中，T1为候选术语，TR(TJ为候选术语T1的TermRank值；M为包含候选术语Ti 的专利文献数量；jlGK)为包含候选术语T1的专利文献d,中T 词频；C(d,)为专利文献士中抽取出的候选术语数量；IT1I为候选术语1\的长度，Count(T1)为候选术语T1中包含的停用词数量；
[0017] 对候选术语列表中的每一个所述候选术语按照公式（1)计算其TermRank值，经排序后，取Top-N条作为最终术语表。
[0018] 进一步地，所述步骤2)具体采用以下三种方法选取停用词来构建停用词表：
[0019] 方法一：对专利标题分词后进行词频统计，将出现频率高于20的停用词加入停用词表；
[0020] 方法二：将明显不会出现在术语中的词性加入停用词表；
[0021] 方法三：应用所述方法一和所述方法二生成的停用词表对所述专利标题进行过滤后，对所述专利标题中的剩余词串进行人工观察，若再发现新的停用词，也将其加入到停用词表中。
[0022] 进一步地，在所述步骤3)中，将所述词性规则分为四类，即2词词性规则、3词词性规则、4词词性规则和5词词性规则。
[0023] 进一步地，在所述步骤3)中，将所述候选术语分为四类，即2词候选术语、3词候选术语、4词候选术语和5词候选术语。
[0024] 进一步地，在所述步骤4)中，当M值较大或者较小时，分别利用公式（2)和公式 (3)对所述公式（1)的第一项和第二项进行归一化处理，其中，所述公式（2)和公式（3)分别为：
[0026] {ITiIXcount(Ti)-minITiIXcount(Ti)} /{maxITiIXcount(Ti)-minITiIXcount( T1M(3)〇
[0027] 本发明提供的中文专利文献术语自动识别方法，首先利用统计学方法从专利标题中自动学习出构成术语的词性规则，解决了人工总结术语词性规则的不足；采用TermRank 排序方法对候选术语进行排序，综合考虑了专利文献中的语言学和统计学特征，能够较好的区分术语和非术语，具有较高的可靠性，可以很好地满足实际应用的需要。
【附图说明】
[0028] 图1为本发明的流程图；
[0029] 图2为中文专利标题形式化表示示意图。
【具体实施方式】
[0030] 为了使本发明的目的、技术方案及优点更加清楚明白，下面结合附图和具体实施例对本发明做进一步说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。
[0031] 如图1所示，一种中文专利文献术语自动识别方法，包括以下步骤：
[0032] 步骤1):基于专利标题自动生成词性规则，利用汉语词法分析系统将专利标题切分为子串和停用词，以所述停用词为分隔符，将所述子串的词性规则提取出，并将其作为生成候选术语的词性规则；
[0033] 专利文献一般是对发明、实用新型、外观设计的记载，其标题是对整个文献的高度概括，因此往往会直接给出所要描述的对象。专利文献的标题中都至少包含一个正确术语。根据中文专利标题的以上特点，将标题形式化地表示成如图2所示，其中，Wl(i= 1，2,… n)表示专利标题被ICTCLAS切分出的词，W1…wa，w。…wd以及wf*" \为标题中的术语，分别表示为CTl，CT2,CT3 ;^和we是不属于任何术语构成部分的词，本文称其为停用词，其构建方法在3. 2节介绍。
[0034] 以停用词ST1，ST2为分隔符，将子串CT1，CT2,CT3的词性规则提取出，即可作为下一步生成候选术语的词性规则。例如，专利"一 /m种/q电动/b汽车/n的Aidel 电量/n显示器/n装置/n"中包含术语："电动/b汽车/n"、"电量/n显示器/n"。提取出它们的词性规则："b+n"、"n+n"，并将它们添加至词性规则集中，作为下一步生成候选术语的词性规则。
[0035] 步骤2):手工构建停用词表，将停用词加入停用词表中；
[0036] 停用词是从专利标题中自动生成词性规则的重要资源。本发明选择手工构建停用词表，而不是直接采用现成的通用停用词表，是因为现成的通用停用词表内的某些停用词在专利文献中有可能是术语的组成部分。例如，"排/V"在通用停用词表中存在，但在"全自动/b排/V纸/n机/ng"中，它又是构成术语的一部分，因此不能将其加入停用词表。类似 "排/V"这类在通用停用词表中存在，但在中文专利文献中又是构成术语的部分的词在语料中大量存在。
[0037] 具体采用以下三种方法选取停用词来构建停用词表：
[0038] 方法一：对专利标题分词后进行词频统计，将出现频率高于20的停用词加入停用词表；
[0039] 方法二：将明显不会出现在术语中的词性加入停用词表；
[0040] 方法三：应用所述方法一和所述方法二生成的停用词表对所述专利标题进行过滤后，对所述专利标题中的剩余词串进行人工观察，若再发现新的停用词，也将其加入到停用词表中。
[0041] 步骤3):对生成的所述词性规则按照所含词性的个数进行分类，自动生成的词性规则数量较多，无法将它们全部应用到文献中进行术语匹配，因此需要有选择地从中挑选出部分词性规则，在步骤3)中，将所述词性规则分为四类，即2词词性规则、3词词性规则、 4词词性规则和5词词性规则；然后对每一类所述词性规则按照出现频率降序排列，并只取 Top5条规则应用到中文专利文献的正文部分进行词性匹配，生成候选术语集合，然后将抽取出的候选术语按照所包含词的个数进行分类，将所述候选术语分为四类，即2词候选术语、3词候选术语、4词候选术语和5词候选术语，这样对候选术语分类的目的是为了让每一类长度的术语都单独构成一张候选术语表，在对其利用步骤4)中的TermRank排序算法进行排序时能够不受其它长度的术语的影响，从而排序结果更公平；
[0042] 步骤4):对候选术语排序的目的是为了确定最终术语表。一个好的排序算法能够将候选术语列表中分散的正确或错误的术语重新排序，使正确的术语的权重增大，排名位置尽量靠前，反之亦然。利用TermRank排序算法对候选术语进行排序，所述TermRank排序算法定义如公式（1)所示：

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吕学强;董志安;
技术所有人：北京信息科技大学;
我是此专利的发明人

上一篇：主题词提取方法及使用其获取相关数字资源的方法及装置的制造方法
上一篇：自然语言中的自动问句检测的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。