专利名称:自动建立关键词索引表的方法
技术领域:
本发明涉及一种计算机技术,具体说,涉及一种自动建立关键词索引表的方法。
背景技术:
关键词用于表征文档的重要信息和核心内容,便于得到文档的摘要信息和检索具 体文档。传统的关键词提取一般采用人工提取,而人工提取关键词非常费时,随着文档数量 的剧增,人工提取关键词越来越不能满足实际应用的需求。因此,如何自动提取关键词是文 档检索研究的一个热点难点。
关键词提取是文本挖掘领域的基础性研究问题,许多文本挖掘系统以关键词所在 的句子作为文摘句,大多聚类和分类算法也是用关键词算法构造文章的特征向量以提高算 法的准确度同时降低特征空间的维度。目前多数关键词提取算法是利用词的统计信息判断 词的重要性,并选取超过一定阀值的词作为文章的关键词,基于这种方法提出了多个关键 词衡量函数,包括TFIDF、熵函数、分布系数等。
许多机器学习算法也应用于关键词提取,例如朴素贝叶斯算法、决策树和最大熵 算法。上述算法通过训练语料获得提取函数,然后选取能够使提取函数得到最大值的词作 为关键词。
由于文档包含信息的多样性,使得现实应用中很难获得一个通用的提取函数或模 型用于关键词提取。现有的关键词自动提取算法可以分为3大类
1、基于统计的方法,该方法简单易行不需要复杂的算法过程,如词语频率统计方 法。
2、基于规则的方法,根据一定规则将文档映射为词语网络,利用词语网络计算词 语的关键度,如采用朴素贝叶斯技术对短语离散的特征值进行训练,获取模型的权值,然后 从文档中抽取关键词。
以上两类方法都是从频度或规则上提取关键词,没有考虑到词语的语义、词性等 信息,相对来说精确度不高。
3、基于上下文语义的自然语言理解的方法,该方法主要利用词义或语义和词性特 征来提取关键词,配合上述两类方法,能从文档中提取出较高正确率的关键词。这是自动提 取关键词的主要研究方向。发明内容
本发明所解决的技术问题是提供一种自动建立关键词索引表的方法,与传统的关 键词提取方法相比,在查准率和召回率上有明显提高。
技术方案如下
—种自动建立关键词索引表的方法,包括
对待翻译文档进行分词处理获得文档的词语列表,对该词语列表进行词性标注;
过滤所述词语列表中的候选关键词,获得粗候选词语集合,获取所述粗选词语集合中候选关键词各个义项的代码,两个义项的代码距离表征义项的语义距离;
根据词语的语义相似度,对粗选词语集合中候选关键词进行构建同义词词链,得到同义词链集合;
获取所述同义词链集合中词汇的词语权值,按照所述词语权值提取关键词,组成关键词集合;
将所述关键词集合和已有的参考库关键词索引集合比较,如果所述参考库关键词索引集合包含所述关键词集合中的候选关键词,则给出相关文档集;如果不包含所述候选关键词字,将所述候选关键词加入参考库关键词集合,同时建立索引。
进一步,对待翻译文档进行分词处理和词性标注的过程包括
对待翻译文档进行分词处理,获得文档的所有词语列表;
对该词语列表进行词性标注,将词汇按照停用词、形容词、副词、名形词、成语、简称略语、习用语、动词、动语素、副动词、名动词和名词等词性分类标准进行词性标注。
进一步,过滤候选关键词的过程包括去除所获词语列表中的停用词,保留形容词、副词、名形词、成语、简称略语、习用语、动词、动语素、副动词、名动词和名词,获得所述粗候选词语集合。
进一步,构建同义词链集合的步骤包括
计算候选词集合W中的每个词汇在文本中出现的次数t ;
根据词汇的t值的大小对W中所有的词汇按降序排列,假设排序后W= Iw1, W2,…, wn},并为每个词汇设立一个开关项F, F=I表示该词汇已成为某同义词集中的元素,初始全部设为O ;
将W中W1作为第一个词集WG1的第一个元素,将Wi (2彡i彡η)中F值不为I的词语与W1按式I进行语义相似度计算,当其语义相似度大于阈值O. 7时,认定Wi属于WG1, 将Wi插入词集WG1中,并将Wi的F值改为I ;
按排序将W1后首个F值不不为I的词语作为词链WG2的头,重复第3步的算法,得到 WG2 ;
重复这个过程直到W中所有词汇的F值为1,得到同义词链集合{WG1; WG2, ..., WGJ。
进一步,获取所述同义词链集合中词汇的词语权值的过程包括
根据得到的所述同义词链集合,计算每个同义词集中的元素个数num,及该集合中包含标题词的数目head;
计算每个词汇的位置特征值Ioc和词性特征值ch ;若该词汇出现在标题中Ioc值为5,若出现在正文中Ioc值为1,若词汇为名词则ch值为2,其他词汇ch值为I ;
获取词汇权重
Weights (Wi) = a Xnumi+ β X TFiIDKFi+ Y X Ioci+ δ Xheadi+ ε Xchi
其中,α,β , γ , δ , ε为人为设定的权重调节因子,取值为O I,且 α+β + γ + δ + ε =1,此处设定 α =0. 45, β =0. 25, Y =0.1, δ =0.1, ε =0.1 ^umi 为词汇 Wi 所在同义词集的集合个数;loCi为Wi的位置特征值^eadi为Wi所在同义词集包含 标题词的数目;(3比为&的词性特征值。
与现有技术相比,技术效果如下
本发明提供一种快速自动提取关键词建立索引表的方法,该方法使用以词汇语义构建同义词集合为基础,结合词频统计与词汇区域特征,并考虑词性、词语上下文关系等启发性知识计算词汇权重,通过对大量文档的测试,这种关键词提取方法与传统的关键词提取方法相比在查准率和召回率上有明显提高,为进行文档相似性计算、文档聚类、文档分类提供了基础性的工作。
图1是本发明中自动建立关键词索引表的方法的流程图。
具体实施方式
面对海量参考翻译文献库,要为待译文档找到合适的相似文档,需对文献库进行完整的相似性匹配,无论时间还是空间都很难达到要求。通过为参考翻译文献库建立关键词索引表,可以快速在翻译文献库中为待译文档找到合适的参考文档子集,这样可以有效提高查询速度,得到相对准确的匹配文档。关键词用于表征文档的重要信息和核心内容,便于得到文档的摘要信息和检索具体文档。
同义词词典是一种按树形结构编码的同义词分类词典,该树结构的每个节点有唯一的代码,对应了若干个义项;这样词语的语义距离,就可以通过计算该词语的义项在树结构上的距离得到。
一个词语往往有多种表达含义,每个不同的含义称之为词语的一个义项。义项为同义词词典中的最小单位,在词典中有相应的代码与其对应。例如“骄傲”这个词可以有两种含义,“自豪”和“傲慢”,这就是骄傲这个词语的两个义项。
两个义项(SI,S2)的距离通过计算其在词典中的代码距离得到,记为Dis (SI, S2)。义项相似度与义项距离为反比关系,记为Sim (SI,S2)=L/ (Dis (SI,S2)+L),其中 L为调节参数,L越大相似度表现得越不灵敏,一般可以取为词典树结构的层数。
词语的语义相似度是个取值范围在
之间的数值。词语与其本身的语义相似度为1,如果两个词语在任何上下文中都不可替换,则相似度为O。词语的语义相似度同词语的语义距离为反比关系。设有两个词语Wl和w2,如果Wl有η个义项=SlpSl2,. . . , sln, w2有m个义项82^ s22, . . . , s2m,则规定wl和w2的词语相似度(Sim (wl, w2))为这两个词语各个义项相似度的最大值,即
权利要求
1.一种自动建立关键词索引表的方法,包括对待翻译文档进行分词处理获得文档的词语列表,对该词语列表进行词性标注;过滤所述词语列表中的候选关键词,获得粗候选词语集合,获取所述粗选词语集合中候选关键词各个义项的代码,两个义项的代码距离表征义项的语义距离;根据词语的语义相似度,对粗选词语集合中候选关键词进行构建同义词词链,得到同义词链集合;获取所述同义词链集合中词汇的词语权值,按照所述词语权值提取关键词,组成关键词集合;将所述关键词集合和已有的参考库关键词索引集合比较,如果所述参考库关键词索引集合包含所述关键词集合中的候选关键词,则给出相关文档集;如果不包含所述候选关键词字,将所述候选关键词加入参考库关键词集合,同时建立索引。
2.如权利要求1所述的自动建立关键词索引表的方法,其特征在于,对待翻译文档进行分词处理和词性标注的过程包括对待翻译文档进行分词处理,获得文档的所有词语列表;对该词语列表进行词性标注,将词汇按照停用词、形容词、副词、名形词、成语、简称略语、习用语、动词、动语素、副动词、名动词和名词等词性分类标准进行词性标注。
3.如权利要求1所述的自动建立关键词索引表的方法,其特征在于,过滤候选关键词的过程包括去除所获词语列表中的停用词,保留形容词、副词、名形词、成语、简称略语、习用语、动词、动语素、副动词、名动词和名词,获得所述粗候选词语集合。
4.如权利要求1所述的自动建立关键词索引表的方法,其特征在于,构建同义词链集合的步骤包括计算候选词集合W中的每个词汇在文本中出现的次数t ;根据词汇的t值的大小对W中所有的词汇按降序排列,假设排序后W= Iw1, w2,…, WnI,并为每个词汇设立一个开关项F, F=I表示该词汇已成为某同义词集中的元素,初始全部设为O ;将W中W1作为第一个词集WG1的第一个元素,将Wi (2≤i≤η)中F值不为I的词语与W1按式I进行语义相似度计算,当其语义相似度大于阈值O. 7时,认定Wi属于WG1Jf Wi 插入词集WG1中,并将Wi的F值改为I ;按排序将W1后首个F值不不为I的词语作为词链WG2的头,重复第3步的算法,得到WG25重复这个过程直到W中所有词汇的F值为1,得到同义词链集合{WG1; WG2, WGJ。
5.如权利要求1所述的自动建立关键词索引表的方法,其特征在于,获取所述同义词链集合中词汇的词语权值的过程包括根据得到的所述同义词链集合,计算每个同义词集中的元素个数num,及该集合中包含标题词的数目head;计算每个词汇的位置特征值Ioc和词性特征值ch ;若该词汇出现在标题中Ioc值为5, 若出现在正文中Ioc值为1,若词汇为名词则ch值为2,其他词汇ch值为I ;获取词汇权重Weights (Wi) = α X Mimi+β X TFiIDFi+ Y X Ioci+ δ Xheadi+ ε Xchi其中,α,β , y , δ , ε为人为设定的权重调节因子,取值为O 1,且 α+β + γ + δ + ε =1,此处设定 α =0. 45, β =0. 25, Y =0.1, δ =0.1, ε =0.1 ^umi 为词汇 Wi 所在同义词集的集合个数;loCi为Wi的位置特征值^eadi为W i所在同义词集包含标题词的数目;(3比为&的词性特征值。
全文摘要
本发明公开了一种自动建立关键词索引表的方法,包括对待翻译文档进行分词处理获得文档的词语列表,对该词语列表进行词性标注;过滤词语列表中的候选关键词,获得粗候选词语集合,获取候选关键词各个义项的代码;根据词语的语义相似度对候选关键词进行构建同义词词链,得到同义词链集合;获取同义词链集合中词汇的词语权值,按照词语权值提取关键词组成关键词集合;将关键词集合和已有的参考库关键词索引集合比较,如果参考库关键词索引集合包含候选关键词,则给出相关文档集;如果不包含候选关键词字,将候选关键词加入参考库关键词集合,同时建立索引。本发明技术方案与传统的关键词提取方法相比,在查准率和召回率上有明显提高。
文档编号G06F17/30GK103064969SQ20121059309
公开日2013年4月24日 申请日期2012年12月31日 优先权日2012年12月31日
发明者江潮 申请人:武汉传神信息技术有限公司