一种领域术语抽取的方法

文档序号:8282351阅读:385来源:国知局
一种领域术语抽取的方法
【技术领域】
[0001] 本发明属于数据挖掘技术领域,尤其是一种领域术语抽取的方法。
【背景技术】
[0002] 领域术语或专业术语是以语音或文字为载体来表达或限定专业概念的约定性符 号。随着科学技术的蓬勃发展、新技术的不断涌现以及互联网技术的日新月异,一些特定 领域的专业术语不断扩大与更新,因此按照传统的人工搜集领域术语的方式已无法满足实 际需求,自动抽取领域术语(ATE,Automatic Term Extraction)已成为了必然。实际应用 中,领域术语抽取在构建领域本体、中文分词、信息抽取、词典编纂、信息检索、机器翻译、文 本分类、自动文摘等方面均具有重要意义。
[0003] 目前,业内所采用的领域术语抽取方法仅仅是基于单一方面对词汇进行分析以及 判定,领域术语提取效果比较差。

【发明内容】

[0004] 本发明的目的之一是提供一种领域术语抽取的方法,以解决现有技术中对于领域 术语提取效果比较差的问题。
[0005] 在一些说明性实施例中,所述领域术语抽取的方法,包括:对原始语料以语素为 单位进行任意长度的切分,获得若干候选术语,其中,每个所述候选术语由至少二个语素组 成;从词频、互信息、左右熵、独立性和结构多个维度对每个所述候选术语进行分析,确定该 候选术语的多个特征参数;利用确定的所述多个特征参数,计算出该候选术语的领域术语 度;抽取所述领域术语度高于阈值的候选术语作为新的领域术语。
[0006] 与现有技术相比,本发明的说明性实施例包括以下优点:
[0007] 本发明通过词频、互信息、左右熵、独立性和结构上对候选术语进行多个维度的充 分的分析,保证提取的术语可靠性和准确性较高。
【附图说明】
[0008] 此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发 明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0009] 图1是按照本发明的说明性实施例的流程图。
[0010]
[0011]
【具体实施方式】
[0012] 在以下详细描述中,提出大量特定细节,以便于提供对本发明的透彻理解。但是, 本领域的技术人员会理解,即使没有这些特定细节也可实施本发明。在其它情况下,没有详 细描述众所周知的方法、过程、组件和电路,以免影响对本发明的理解。
[0013] 本发明中所采用的术语"语素"是指语言数据中的不可拆分的最小单位,对应为一 个字或一个单词。
[0014] 如图1所示,公开了一种领域术语抽取的方法,包括:
[0015] S11、对原始语料以语素为单位进行任意长度的切分,获得若干候选术语,其中,每 个所述候选术语由至少二个语素组成;
[0016] S12、从词频、互信息、左右熵、独立性和结构多个维度对每个所述候选术语进行分 析,确定该候选术语的多个特征参数;
[0017] S13、利用确定的所述多个特征参数,计算出该候选术语的领域术语度;
[0018] S14、抽取所述领域术语度高于阈值的候选术语作为新的领域术语。
[0019] 本发明通过词频、互信息、左右熵、独立性和结构上对候选术语进行多个维度的充 分的分析,保证提取的术语可靠性和准确性较高。
[0020] 以下对上述方法进行详细说明:
[0021] 例如:原始语料"中华人民共和国"进行切分,首先以两个语素单位进行切分,可以 获得"中华"、"华人"、"人民"、"民共"、"共和"、"和国"六个候选术语,再以三个语素单位进 行切分,可以获得"中华人"、"华人民"、"人民共"、"民共和"、"共和国"五个候选术语,再以 4个语素单位进行切分,可以获得"中华人民"、"华人民共"、"人民共和"、"民共和国"四个 候选术语,再以5个语素单位进行切分,可以获得"中华人民共"、"华人民共和"、"人民共和 国"三个候选术语,再以6个语素单位进行切分,可以获得"中华人民共和"、"华人民共和国" 两个候选术语,以7个语素单位进行切分,即得到候选术语"中华人民共和国"。以上共获得 21个候选术语。
[0022] 以上的切分过程是为了便于更快的理解本发明的说明性实施例的示例,原始语料 可以是一个文本或一个文本集合,其中由大量的语素组成,切分过程更加复杂,另外,如果 术语过长,该术语就可以理解为一个句子了,所以对术语的长度需要进行限定,限定最大切 分单位,例如最大切分单位为10个语素。
[0023] 所述从词频、互信息、左右熵、独立性和结构多个维度对每个所述候选术语进行分 析,确定该候选术语的多个特征参数,具体包括:
[0024] 1)、对候选术语的出现概率进行分析,即候选术语在所述原始语料中的出现概率; 该候选术语的出现次数比上候选术语的总数。
[0025] 例如该候选术语在原始语料中与其它7个候选术语相同,那么该候选术语的出现 次数为8次,再比上候选术语的总数,即得到该候选术语的出现概率。
[0026] 2)、对候选术语进行互信息的分析,得到候选术语被分割为任意长度的两部分,所 述任意两部分的互信息的最小值。
[0027] 例如:分析的候选术语C的长度为1个语素单位,以第k个语素位置,进行拆分,得 到的前部为(^?C k,后部为ck+1?C lt)
[0028] 按照如下公式进行互信息的计算:
【主权项】
1. 一种领域术语抽取的方法,其特征在于,包括: 对原始语料W语素为单位进行任意长度的切分,获得若干候选术语,其中,每个所述候 选术语由至少二个语素组成; 从词频、互信息、左右滴、独立性和结构多个维度对每个所述候选术语进行分析,确定 该候选术语的多个特征参数; 利用确定的所述多个特征参数,计算出该候选术语的领域术语度; 抽取所述领域术语度高于阔值的候选术语作为新的领域术语。
2. 根据权利要求1方法,其特征在于,所述确定该候选术语的多个特征参数中包括每 个所述候选术语在所述原始语料中的出现概率。
3. 根据权利要求1所述的方法,其特征在于,所述确定该候选术语的多个特征参数中 包括每个候选术语被分割为任意长度的两部分,所述任意两部分的互信息的最小值。
4. 根据权利要求1所述的方法,其特征在于,所述确定该候选术语的多个特征参数中 包括每个所述候选术语的左右滴;其中,所述候选术语的左右滴为该候选术语的左滴和右 滴两者中的最大值。
5. 根据权利要求1所述的方法,其特征在于,所述确定该候选术语的多个特征参数中 包括每个所述候选术语具有的每个语素均在历史语料库中独立成词的概率。
6. 根据权利要求1所述的方法,其特征在于,所述确定该候选术语的多个特征参数中 包括每个所述候选术语的每个语素在所述历史语料库中处于词头位置、词中位置和词尾位 置的出现概率。
7. 根据权利要求1所述的方法,其特征在于,所述确定该候选术语的多个特征参数中 包括每个所述候选术语中的领域概率; 所述领域概率通过对该候选术语所具有的每个语素或语素组合在历史语料库中出现 概率进行计算获得。
8. 根据权利要求1所述的方法,其特征在于,所述从词频、互信息、左右滴、独立性和结 构多个维度对每个所述候选术语进行分析,确定该候选术语的多个特征参数至少包括: 候选术语在所述原始语料中的出现概率P ; 候选术语被分割为任意长度的两部分,所述任意两部分的互信息的最小值MI ; 每个所述候选术语的左右滴LRH ; 候选术语具有的每个语素在历史语料库中独立成词的概率IPW ; 候选术语的每个语素在所述历史语料库中处于词头位置、词中位置和词尾位置的出现 概率IPC;化及, 候选术语中的领域概率PC ; 所述利用确定的所述多个特征参数,计算出该候选术语的领域术语度,具体包括: 按照如下公式计算出每个候选术语的领域术语度Termhood ; Termhood = Ki ? P+K2 ? MI+K3 ? LRH+K4 ? IPW+K5 ? IPC+Ke ? PC 其中,Ki、K2、K3、K4、Ks和K e为通过给定样本利用最小二乘法计算出的领域术语度调节 系数,所述领域术语度调节系数为多元线性回归系数。
【专利摘要】一种领域术语抽取的方法,包括:对原始语料以语素为单位进行任意长度的切分,获得若干候选术语,其中,每个所述候选术语由至少二个语素组成;从词频、互信息、左右熵、独立性和结构多个维度对每个所述候选术语进行分析,确定该候选术语的多个特征参数;利用确定的所述多个特征参数,计算出该候选术语的领域术语度;抽取所述领域术语度高于阈值的候选术语作为新的领域术语。本发明通过词频、互信息、左右熵、独立性和结构上对候选术语进行充分的分析,保证提取的术语可靠性和准确性较高。
【IPC分类】G06F17-30, G06F17-27
【公开号】CN104598530
【申请号】CN201410831590
【发明人】江潮, 张芃
【申请人】语联网(武汉)信息技术有限公司
【公开日】2015年5月6日
【申请日】2014年12月26日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1