提取领域本体概念的词语排除法的制作方法

文档序号:6486073阅读:283来源:国知局
专利名称:提取领域本体概念的词语排除法的制作方法
技术领域
本发明涉及到领域本体概念的提取方法,特别涉及到词语排除法提取领域本体概
ο
背景技术
领域本体概念(即领域专有概念,简称领域概念)是描述一组领域对象的共同特 征的知识单元。领域概念提取方法主要用于支持构建领域概念的词语集合,辅助领域专家 收集领域概念和统一概念的词语(领域术语),即,构建领域概念所唯一对应的术语的集 合。领域术语是能够描述领域的最恰当的词语,是代表领域概念的标准化术语。领域概念的提取方法是利用计算机模拟人类领域专家的行为,获取领域概念的词 语集合的机器学习方法和技术。由于文本语料易于获得,领域概念的提取一般基于文本语 料进行。属于同一领域的电子文档中包含着相同的术语,因此,可以从领域文档中获取这些 术语作为领域概念。从领域文档中提取领域概念集合的方法主要分为三类1)基于语言学 的方法,2)基于统计学的方法,3)混合方法。基于语言学的方法首先根据领域概念在真实语料中出现的特殊的词法结构得到 模板,然后抽取符合这些模板的词语作为领域概念。由于这些模板大多与具体语言相关,因 此,这类方法需要针对具体的语言实施不同的处理。基于统计学的方法主要根据领域概念与领域非专有概念在真实语料中出现的不 同的统计特征识别得到领域概念。目前已有的中文领域概念学习方法中,基于统计的方法 是主流。专利200510011131.0提出的基于成熟工艺文档的工艺术语提取、规律分析和重用 方法,能够提取成熟工艺文档的工艺术语。陈文亮等人采用Bootstrapping机器学习技术 从大规模的无词性标注语料中自动获取领域术语。郑家恒等人提出了结合非线性函数与 “成对比较法”,综合考虑位置和词频两项因素计算候选词的权重,以自动抽取关键词。程勇 在博士学位论文中给出了一种从Hownet中学习的基于统计学学习领域概念的方法。何燕 等人给出了一个基于统计方法从计算机专业词典中学习计算机本体概念的方法。混合方法结合使用了语言学和统计学的方法和技术以期获得更好的学习结果。有 的方法在统计处理之后采用语法过滤器,抽取出经过统计计算有意义的且与给定词法模板 匹配的词语组合;有的方法首先采用语言学方法选出候选项,然后再用统计方法对这些候 选项进行计算。杜波等人提出了一种结合规则与统计的专业领域术语抽取算法。张新也研 究了一种结合规则与统计的本体概念学习方法。已有的领域概念提取方法基于设定的阈值判断词语是否是领域专有的概念。这些 方法首先对每一词语计算一个反映领域专属程度的统计数值,然后通过判断该数值是否高 于事先设定的阈值来判断该词语是否领域概念。专属程度越高,越有可能成为领域概念。较 高的阈值会使提取结果的准确率较高,但是召回率较低;反之亦然。这样一来,准确率和召 回率是一对互相矛盾的性能指标,较高的准确率必然导致较低的召回率;而且,人工设定阈 值所得到的结果会由于领域专家的知识结构等主观因素造成领域概念提取结果不够客观。

发明内容
本发明要解决的技术问题是提供一种提取领域本体概念的词语排除法,解决领域 概念提取过程中需要手工设定阈值的困难。本发明采用排除领域非专有概念的方法自动提取领域概念集合。在给定领域语料 中出现的词语的集合时,该方法能够依据由前景语料(即领域语料)和背景语料(即非领 域语料)组成的文本语料库自动地获取领域概念集合。该方法首先基于前景语料和背景语 料计算词语的领域相关度,排除领域不相关的词语;然后基于领域语料计算剩余词语的领 域均勻度,排除在领域语料中分布不均勻的词语,即尚未在领域中得到稳定地使用的词语。 如此,得到领域概念集合。本发明所述排除法分两步删除领域非专有的概念,得到领域概念集合。具体步骤 如下(1)计算词语与领域的领域相关度,删除词语集合中与领域不相关的词语。领域相关度衡量词语与领域是否相关及其相关的程度。词语t与领域Dk的领域 相关度计算公式为
权利要求
一种提取领域本体概念的词语排除法,其特征在于包括如下步骤(1)计算词语与领域的领域相关度,删除词语集合中与领域不相关的词语;词语t与领域Dk的领域相关度计算公式为 <mrow><msub> <mi>DR</mi> <mrow><mi>t</mi><mo>,</mo><mi>k</mi> </mrow></msub><mo>=</mo><mi>lg</mi><mrow> <mo>(</mo> <mfrac><mrow> <mi>P</mi> <mrow><mo>(</mo><mi>t</mi><mo>|</mo><msub> <mi>Cf</mi> <mi>k</mi></msub><mo>)</mo> </mrow></mrow><mrow> <mi>P</mi> <mrow><mo>(</mo><mi>t</mi><mo>|</mo><msub> <mi>Cb</mi> <mi>k</mi></msub><mo>)</mo> </mrow></mrow> </mfrac> <mo>)</mo></mrow><mo>&times;</mo><mi>lg</mi><mrow> <mo>(</mo> <msub><mi>TF</mi><mrow> <mi>t</mi> <mo>,</mo> <mi>k</mi></mrow> </msub> <mo>)</mo></mrow> </mrow>其中,P(t|Cfk),P(t|Cbk)分别为t在前景语料Cfk和背景语料Cbk中出现的概率;在实际计算时,将其分别估计为 <mrow><mi>E</mi><mrow> <mo>(</mo> <mi>P</mi> <mrow><mo>(</mo><mi>t</mi><mo>|</mo><msub> <mi>Cf</mi> <mi>k</mi></msub><mo>)</mo> </mrow> <mo>)</mo></mrow><mo>=</mo><mfrac> <msub><mi>TF</mi><mrow> <mi>t</mi> <mo>,</mo> <mi>k</mi></mrow> </msub> <msub><mi>mf</mi><mi>k</mi> </msub></mfrac> </mrow> <mrow><mi>E</mi><mrow> <mo>(</mo> <mi>P</mi> <mrow><mo>(</mo><mi>t</mi><mo>|</mo><msub> <mi>Cb</mi> <mi>k</mi></msub><mo>)</mo> </mrow> <mo>)</mo></mrow><mo>=</mo><mfrac> <mrow><munder> <mi>&Sigma;</mi> <mrow><msub> <mi>Cf</mi> <mn>1</mn></msub><mo>&Element;</mo><msub> <mi>Cb</mi> <mi>k</mi></msub> </mrow></munder><msub> <mi>TF</mi> <mrow><mi>t</mi><mo>,</mo><mn>1</mn> </mrow></msub> </mrow> <msub><mi>mb</mi><mi>k</mi> </msub></mfrac> </mrow> <mrow><msub> <mi>TF</mi> <mrow><mi>t</mi><mo>,</mo><mi>i</mi> </mrow></msub><mo>=</mo><munder> <mi>&Sigma;</mi> <mrow><msub> <mi>c</mi> <mi>j</mi></msub><mo>&Element;</mo><msub> <mi>Cf</mi> <mi>i</mi></msub> </mrow></munder><msub> <mi>tf</mi> <mrow><mi>t</mi><mo>,</mo><mi>j</mi> </mrow></msub> </mrow>其中,TFt,i是词语t在前景语料Cfi中出现的频率,mfi为Cfi中的文档数目,mbk为背景语料Cbk中的文档数目,tft,j为t在文档cj中出现的次数;(2)计算词语与领域的领域均匀度,删除尚未在领域中得到稳定使用的词语;领域均匀度反映领域正相关(DR>0)的词语在领域语料的各个文本中分布的均匀程度;词语t在领域Dk的领域均匀度计算公式为 <mrow><msub> <mi>DC</mi> <mrow><mi>t</mi><mo>,</mo><mi>k</mi> </mrow></msub><mo>=</mo><munder> <mi>&Sigma;</mi> <mrow><msub> <mi>c</mi> <mi>j</mi></msub><mo>&Element;</mo><msub> <mi>Cf</mi> <mi>k</mi></msub> </mrow></munder><mrow> <mo>(</mo> <mi>P</mi> <mrow><mo>(</mo><mi>t</mi><mo>|</mo><msub> <mi>c</mi> <mi>j</mi></msub><mo>)</mo> </mrow> <mo>&times;</mo> <mi>lg</mi> <mfrac><mn>1</mn><mrow> <mi>P</mi> <mrow><mo>(</mo><mi>t</mi><mo>|</mo><msub> <mi>c</mi> <mi>j</mi></msub><mo>)</mo> </mrow></mrow> </mfrac> <mo>)</mo></mrow> </mrow>P(t|cj)为t在文档cj中出现的概率,cj为前景语料Cfk中的一个文档;本发明在实际计算时,将P(t|cj)估计为 <mrow><mi>E</mi><mrow> <mo>(</mo> <mi>P</mi> <mrow><mo>(</mo><mi>t</mi><mo>|</mo><msub> <mi>c</mi> <mi>j</mi></msub><mo>)</mo> </mrow> <mo>)</mo></mrow><mo>=</mo><mfrac> <msub><mi>tf</mi><mrow> <mi>t</mi> <mo>,</mo> <mi>j</mi></mrow> </msub> <msub><mi>TF</mi><mrow> <mi>t</mi> <mo>,</mo> <mi>k</mi></mrow> </msub></mfrac> </mrow>其中,tft,j为词语t在领域前景语料Cfk中的第j个文本中出现的频率。
全文摘要
本发明属于人工智能技术领域,涉及到领域本体概念的提取方法,特别涉及到词语排除法提取领域本体概念。本发明的技术方案是采用排除法自动提取领域本体概念集合,解决领域概念提取过程中时需要手工设定阈值困难的技术问题。在给定领域语料中出现的词语的集合时,该方法首先计算词语的领域相关度,删除领域不相关的词语;然后计算剩余词语的领域均匀度,删除在领域语料中分布不均匀的词语;如此,得到领域本体概念集合。该方法能够依据由前景语料(即领域语料)和背景语料(即非领域语料)组成的文本语料库自动地获取领域专有概念的集合,减少在领域概念提取过程中由于领域专家的知识结构等主观因素所造成的争执。
文档编号G06F17/30GK101963989SQ201010502040
公开日2011年2月2日 申请日期2010年9月30日 优先权日2010年9月30日
发明者于娟, 党延忠 申请人:大连理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1