一种领域术语抽取方法

文档序号：6537562阅读：453来源：国知局

一种领域术语抽取方法
【专利摘要】本发明提供一种领域术语抽取方法，包括步骤：对当前待抽取领域文本与背景领域文本依次进行预处理、分词处理；对当前格式化领域文本进行词频统计；采用左右信息熵扩展方法从当前格式化领域文本中抽取候选领域术语得到第一候选领域术语集；根据候选领域术语边界信息与候选领域术语组成部分的词性搭配进行成词度筛选，得到第二候选领域术语集；对第二候选领域术语集中的候选领域术语与格式化背景领域文本进行领域度筛选处理，得到第三候选领域术语集；对第三候选领域术语集进行通用词库过滤处理，得到领域术语。本发明具有抽取效果较好的特点，可广泛应用于词语抽取领域。
【专利说明】一种领域术语抽取方法
【技术领域】
[0001]本发明涉及抽取技术，特别是涉及一种领域术语抽取方法。
【背景技术】
[0002]领域术语或专业术语是以语音或文字为载体来表达或限定专业概念的约定性符号。随着科学技术的蓬勃发展、新技术的不断涌现以及互联网技术的日新月异，一些特定领域的专业术语不断扩大与更新，因此按照传统的人工搜集领域术语的方式已无法满足实际需求，自动抽取领域术语(ATE,Automatic Term Extraction)已成为了必然。实际应用中，领域术语抽取在构建领域本体、中文分词、信息抽取、词典编纂、信息检索、机器翻译、文本分类、自动文摘等方面均具有重要意义。
[0003]领域术语具有两个可统计度量的特性:一是成词度，即，单元性或语言完备性，其从词语结构出发衡量一个字符串是否能独立表达一个完整概念、是否具有符合词法规则的稳定结构；二是领域度，其从词语的隶属度出发衡量一个字符串与特定领域的相关程度。从构词方式而言，领域术语可分为单词型领域术语与词组型领域术语。单词型领域术语由一个单词构成，且此单词是不能再分解的最小独立组成单元；词组型领域术语是由两个以上的单词或语素按照一定语法结构组成的。实际应用中，大部分领域术语属于词组型领域术语，故词组型领域术语是领域术语抽取的重点，同时也是难点。
[0004]目前，领域术语抽取方法概括而言主要分为三种:第一种是基于语言规则的方法，其根据领域术语的构词特征定制一系列规则模板，但由于无法实现用少量规则覆盖复杂的领域术语构成规律，故该方法抽取效果较差；第二种是基于统计的方法，其根据统计领域术语在大量文本中的出现特征抽取领域术语，该方法中的各统计策略各有优缺点和适用情况，至今还没有一种方法的效果能得到一致的认同；第三种是基于规则与统计相结合的方法，其弥补上述两种方法各自的缺陷，是领域术语抽取的方向，但是当前基于此方面的研究仍较少。
[0005]由此可见，在现有技术中，领域术语提取效果比较差。

【发明内容】

[0006]有鉴于此，本发明的主要目的在于提供一种抽取效果比较好的领域术语抽取方法。
[0007]为了达到上述目的，本发明提出的技术方案为:
[0008]一种领域术语抽取方法，包括如下步骤:
[0009]步骤1、对当前待抽取领域文本进行预处理、分词处理、去停用词处理，对背景领域文本进行预处理、分词处理，分别得到当前格式化领域正文与格式化背景领域正文。
[0010]步骤2、对当前格式化领域文本进行带词性标注的词频统计与不带词性标注的词频统计，分别得到带词性的词频数fd与不带词性的词频数fb。
[0011]步骤3、采用左右信息熵扩展方法从当前格式化领域文本中抽取候选领域术语，得到第一候选领域术语集。
[0012]步骤4、根据候选领域术语边界信息与候选领域术语组成部分的词性搭配进行成词度筛选，删除第一候选领域术语集中不符合成词度条件的候选领域术语后，得到第二候选领域术语集。
[0013]步骤5、对第二候选领域术语集中的候选领域术语与格式化背景领域文本进行领域度筛选处理，得到第三候选领域术语集。
[0014]步骤6、对第三候选领域术语集进行通用词库过滤处理，得到领域术语。
[0015]综上所述，本发明所述领域术语抽取方法对当前待抽取领域文本与背景领域文本进行预处理、格式化处理等处理后进行词频统计，并依次采用左右信息熵扩展方法、成词度筛选、领域度筛选、通用词库过滤等层层筛选或过滤后，得到领域术语，故本发明所述方法的领域术语抽取效果比较好。
【专利附图】

【附图说明】
[0016]图1是本发明所述领域术语抽取方法的流程示意图。
[0017]图2是本发明所述对当前待抽取领域文本与背景领域文本依次进行预处理的流程不意图。
[0018]图3是本发明所述去停用词处理的流程示意图。
[0019]图4为本发明所述左右信息熵扩展方法的流程示意图。
[0020]图5为本发明所述成词度筛选的流程示意图。
[0021]图6为本发明所述领域度筛选的流程示意图。
【具体实施方式】
[0022]为使本发明的目的、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明作进一步地详细描述。
[0023]图1是本发明所述领域术语抽取方法的流程示意图。如图1所示，本发明所述领域术语抽取方法，包括如下步骤:
[0024]步骤1、对当前待抽取领域文本进行预处理、分词处理、去停用词处理，对背景领域文本进行预处理、分词处理，分别得到当前格式化领域正文与格式化背景领域正文。
[0025]步骤I中，对于非网页类的当前待抽取领域文本与背景领域文本，预处理用于去除当前待抽取领域文本与背景领域文本中的文献来源、出版信息、文献题目、作者、中英文关键词、中英文摘要、中图法分类号以及作者信息、E-mail信息、参考文献、收稿和修改稿的时间等信息，只保留当前待抽取文本与背景领域文本的正文内容；同时，预处理还可以去除正文中的空行与较大块的公式。对于网页类的当前待抽取领域文本与背景领域文本，预处理用于去除当前待抽取领域文本与背景领域文本中的较有规律的非中文字符、空行、大篇幅非中文段落、链接信息等。
[0026]步骤2、对当前格式化领域文本进行带词性标注的词频统计与不带词性标注的词频统计，分别得到带词性的词频数fd与不带词性的词频数fb。
[0027]步骤3、采用左右信息熵扩展方法从当前格式化领域文本中抽取候选领域术语，得到第一候选领域术语集。[0028]本发明中，所述第一候选领域术语集中的候选领域术语的结构为一元结构、二元结构、三元结构或四元以上结构。
[0029]步骤4、根据候选领域术语边界信息与候选领域术语组成部分的词性搭配进行成词度筛选，删除第一候选领域术语集中不符合成词度条件的候选领域术语后，得到第二候选领域术语集。
[0030]步骤5、对第二候选领域术语集中的候选领域术语与格式化背景领域文本进行领域度筛选处理，得到第三候选领域术语集。 [0031]步骤6、对第三候选领域术语集进行通用词库过滤处理，得到领域术语。
[0032]本发明中，通用词库为现有技术，此处不再赘述。
[0033]总之，本发明所述领域术语抽取方法对当前待抽取领域文本与背景领域文本进行预处理、格式化处理等处理后进行词频统计，并依次采用左右信息熵扩展方法、成词度筛选、领域度筛选、词库过滤等层层筛选或过滤后，得到领域术语，故本发明所述方法的领域术语抽取效果比较好。
[0034]图2是本发明所述对当前待抽取领域文本与背景领域文本依次进行预处理的流程示意图。如图3所示，本发明步骤I中，所述对当前待抽取领域文本与背景领域文本依次进行预处理具体包括如下步骤:
[0035]步骤111、移除当前待抽取领域文本与背景领域文本中的无用项，分别得到当前待抽取领域正文与背景领域正文。
[0036]步骤112、对当前待抽取领域正文与背景领域正文进行格式统一化处理，分别得到当前预处理格式化领域正文与预处理格式化背景领域正文。
[0037]图3是本发明所述去停用词处理的流程示意图。如图3所示，本发明步骤I中，所述去停用词处理具体包括如下步骤:
[0038]步骤121、设定第一阈值(，确定当前格式化领域正文中的各词语或字，并确定当前格式化领域正文中第i个词语或字在该当前格式化领域正文中出现的次数P1、当前格式化领域正文所属领域语料库中所有领域文本总数q ;其中，i表示当前格式化领域正文中各词语序号或各字序号，且为自然数。
[0039]步骤122、确定当前待抽取领域文本中的各词语或字是否为停用词:当Pi/q> 4时，则当前格式化领域正文中第i个词语或字为停用词。
[0040]步骤123、从当前待抽取领域文本中删除该停用词。
[0041]图4为本发明所述左右信息熵扩展方法的流程示意图。如图4所示，本发明步骤3具体包括如下步骤:
[0042]步骤31、设定第二阈值Y、第三阈值S，将带词性的词频数fd> Y或不带词性的词频数fb>Y的字或词语作为候选词；将候选词U乍为当前中心词，设定临时候选领域术语S0=Xj > S10=Xj > Srtl=Xj,设置标志位 flagftrue、flagr=true ;其中，Xj 为第 j 个候选词，Y >1，且j、Y为自然数；
[0043]步骤32、获取当前中心词与其左侧候选词Xp1结合后的信息熵、当前中心词Xj与其右侧候选词Xp1结合后的信息熵，分别如下:
[0044]Entropy1(J^1) (X) =- E LP (Xl0^1)Xj | Xj) 1g2P (Xl0^1)Xj | Xj)，
[0045]Entropyr(J+1) (X) =- E EP (XjXr(J+1) | Xj) 1g2P (XjXr(J+1) | Xj)；[0046]之后，并行执行步骤33、步骤34 ；
[0047]步骤33、判别Entropyiu-D (X) < 8是否成立:如果不成立，则判别是否满足flag^true与flag^true:若满足，则令flagffalse、Xj=S0,并执行步骤34 ;若不满足，则执行步骤35 ;如果成立，则根据当前中心词Xj与其左侧各候选词Xp1共现的条件概率
【权利要求】
1.一种领域术语抽取方法，其特征在于，所述抽取方法包括如下步骤: 步骤1、对当前待抽取领域文本进行预处理、分词处理、去停用词处理，对背景领域文本进行预处理、分词处理，分别得到当前格式化领域正文与格式化背景领域正文；步骤2、对当前格式化领域文本进行带词性标注的词频统计与不带词性标注的词频统计，分别得到带词性的词频数fd与不带词性的词频数fb ；步骤3、采用左右信息熵扩展方法从当前格式化领域文本中抽取候选领域术语，得到第一候选领域术语集；步骤4、根据候选领域术语边界信息与候选领域术语组成部分的词性搭配进行成词度筛选，删除第一候选领域术语集中不符合成词度条件的候选领域术语后，得到第二候选领域术语集；步骤5、对第二候选领域术语集中的候选领域术语与格式化背景领域文本进行领域度筛选处理，得到第三候选领域术语集；步骤6、对第三候选领域术语集进行通用词库过滤处理，得到领域术语。
2.根据权利要求1所述的领域术语抽取方法，其特征在于，所述第一候选领域术语集中的候选领域术语的结构为一元结构、二元结构、三元结构或四元以上结构。
3.根据权利要求1所述的领域术语抽取方法，其特征在于，步骤I中，所述对当前待抽取领域文本与背景领域文本依次进行预处理具体包括如下步骤: 步骤111、移除当前待抽取领域文本与背景领域文本中的无用项，分别得到当前待抽取领域正文与背景领域正文；步骤112、对当前待抽取领域正文与背景领域正文进行格式统一化处理，分别得到当前预处理格式化领域正文与预处理格式化背景领域正文。
4.根据权利要求3所述的领域术语抽取方法，其特征在于，步骤I中，所述去停用词处理具体包括如下步骤: 步骤121、设定第一阈值(，确定当前格式化领域正文中的各词语或字，并确定当前格式化领域正文中第i个词语或字在该当前格式化领域正文所属领域语料库中出现的文本数P1、当前格式化领域正文所属领域语料库中所有领域文本总数q ;其中，i表示当前格式化领域正文中各词语序号或各字序号，且为自然数；步骤122、确定当前待抽取领域文本中的各词语或字是否为停用词:当Pi/q> ;时，则当前格式化领域正文中第i个词语或字为停用词；步骤123、从当前待抽取领域文本中去掉该停用词。
5.根据权利要求1所述的领域术语抽取方法，其特征在于，步骤3具体包括如下步骤: 步骤31、设定第二阈值Y、第三阈值8，将带词性的词频数fd> Y或不带词性的词频数fb>Y的字或词语作为候选词；将候选词U乍为当前中心词，设定临时候选领域术语Stl=XpS1(l=Xj、Srfl=Xj,设置标志位 f lagftrue'flag^true ;其中，Xj 为第 j 个候选词，Y>1,且 j、Y为自然数；步骤32、获取当前中心词\与其左侧候选词Xp1结合后的信息熵、当前中心词\与其右侧候选词Xp1结合后的信息熵，分别如下:
Entropy1(^1) (X) =- E LP (Xl0^Xj | Xj) 1g2P (XhjmjXj | Xj)，
Entropyr (J+1) (X) =- E EP (XjXr(J+1) | Xj) 1g2P (XjXr(J+1) | Xj)；之后，并行执行步骤33、步骤34 ；步骤33、判别Entropyic^1)⑴〈5是否成立:如果不成立，则判别是否满足flag^true与flag^true:若满足，则令flagffalse、Xj=S0,并执行步骤34 ;若不满足，则执行步骤35 ;如果成立，则根据当前中心词Xj与其左侧各候选词Xp1共现的条件概率
6.根据权利要求2所述的领域术语抽取方法，其特征在于，步骤4中，所述成词度条件包括词性搭配规则、边界信息概率规则，所述词性搭配规则如下:
7.根据权利要求6所述的领域术语抽取方法，其特征在于，所述步骤4具体包括如下步骤: 步骤41、删除第一候选领域术语集中不符合所述词性搭配规则的候选领域术语；步骤42、设定第四阈值《、第五阈值n ;对于符合所述词性搭配规则的各候选领域术语，根据首字出现概率库，当候选领域术语首字在首字出现概率库中的概率小于第四阈值?时，删除该候选领域术语；对于符合所述词性搭配规则的各候选领域术语，根据尾字出现概率库，当候选领域术语尾字在尾字出现概率库中的概率小于第五阈值n时，删除该候选领域术语；之后，得到第二候选领域术语集。
8.根据权利要求1所述的领域术语抽取方法，其特征在于，所述步骤5中具体包括如下步骤: 步骤51、设定第六阈值P ;步骤52、判断第二候选领域术语集中的各候选领域术语是否满足如下领域度筛选条件
【文档编号】G06F17/27GK103778243SQ201410047277
【公开日】2014年5月7日申请日期:2014年2月11日优先权日:2014年2月11日
【发明者】张仰森, 蒋琳申请人:北京信息科技大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张仰森;蒋琳
技术所有人：北京信息科技大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。