一种词汇质量挖掘评价方法及装置的制作方法

文档序号:6584611阅读:111来源:国知局
专利名称:一种词汇质量挖掘评价方法及装置的制作方法
技术领域
本发明涉及互联网信息处理技术,特别是指一种词汇质量挖掘评价方法及装置。
背景技术
随着互联网(Internet)的迅猛发展,“信息过载”的问题日益突出。人们在享受互 联网带来的方便快捷的同时,也被其包含的海量信息所淹没。如何能够更有效、更准确地从 互联网的海量数据中提取有效信息,成为基于互联网的网络信息查询的当务之急。目前涌现了各种各样的互联网平台,向用户不断地提供着海量的信息。常见的互 联网平台如搜索引擎,例如Google、百度、搜搜等;又如互动问答平台,例如知道、问问,知 识堂等;再如广为流行的博客平台,例如Qzone、新浪博客。这些互联网平台均需要通过自然语言处理技术,从海量数据中抽取有效的核心信 息来进行处理。自然语言处理,就是要对一篇文章的语义进行挖掘,如文本的分类、聚类,摘 要提取,相关性计算,等等。由于文章都是由词汇构成的,这样,自然语言处理中的每一项具 体技术都离不开最底层的词汇理解。因此,准确挖掘和评价句子中每个词汇的重要度,便成 为一个重要的研究问题。例如,对于句子“中国有着悠久的历史,长城、兵马俑都是中国的骄傲。”,其中的词 汇“中国”、“长城”、“兵马俑”、“历史”,显然相对于其他词汇重要。词汇质量挖掘评价,就是要对一批候选词划分一个合理的质量等级。例如,划分重 要、普通、常用词三个等级,然后将重要的词挑选出来,并将普通的词和常用词挑选出来;这 样,在对文章进行语义分析时,就可以优先考察重要的词,然后把普通词作为补充,而常用 词则完全可以过滤。目前基于海量数据的词汇质量评价方法,一般是通过统计词汇的文档频率(DF, Document Frequency)、计算逆文档频率(IDF,Inverse DocumentFrequency)来衡量,即默 认为不经常出现的词、即低频词都是不重要的词。但是,基于海量数据计算的DF或IDFJg 难准确区分词汇的重要性。例如,基于一批语料的结算结果为词汇“点亮”的IDF是2. 89, 而词汇“哈哈”的IDF是4. 76。另外,对于非规范化数据,如问答平台、博客的数据,低频词可 能是错误的词。例如,基于同样的语料,用户输入的错误英文串“asfsdfsfda”、“高启也”(由 例句“高启也曾对新王朝抱有期待”分词得到)这样分词错误的词汇。另外,在文本分类中,通常通过信息增益(IG,Information feiin)、卡方χ 2等特 征值方法来度量词汇对类别的贡献度。但只是通过选择特征值排序在前的η个词作为有效 特征,η为整数,可以根据词汇质量挖掘评价的需要进行选择,然后通过TF-IDF来计算分类 权重,其中TF(Term Frequency)为词汇频率。基于IG、卡方选择特征词的方法,只是用来 选择特征词汇,在规范化较强、规模不是很大的数据上可以取得较好的效果;在海量的口语 化数据上,单一的度量则无法整体反映词汇的重要程度,不能用来有效地计算词汇的重要 度。例如,基于相同的语料,词汇“的”的卡方是96^2.63382,而词汇“荆州”的卡方却只有 4445. 62836,但是显然是卡方较低的“荆州”一词比较重要。

发明内容
有鉴于此,本发明的主要目的在于提供一种词汇质量挖掘评价方法及装置,准确 确定词汇的重要度。为达到上述目的,本发明的技术方案是这样实现的一种词汇质量挖掘评价方法,该方法包括对海量的分类数据进行词汇的文档频 率(DF)分布统计;根据词汇的DF分布统计对词汇进行多个单一角度度量;根据词汇的各 单一角度度量进行词汇的多角度度量,得到词汇的重要度权重。较佳地,所述对海量的分类数据进行词汇的DF分布统计,包括统计词汇在各个 类别的分类数据中的DF分量;将词汇的各个DF分量的总和作为词汇在所有分类数据中的 DF。较佳地,所述单一角度度量包括逆文档频率(IDF)、平均逆文档频率(AVAIDF)、 卡方、信息增益(IG)、互信息(Ml)、期望交叉熵(ECE)、信息熵(ENT)和选择倾向性。进行所述IG度量时,具体包括将所有候选词汇基于DF进行区间划分;基于划分 得到的各个区间对应的分类数据计算词汇的IG。较佳地,所述根据词汇的各单一角度度量进行词汇的多角度度量得到词汇的重要 度权重,包括按照词汇的DF对各个候选词汇进行级别划分;根据词汇所在级别区间确定 词汇的多角度度量,得到词汇在对应级别区间的重要度权重。所述按照词汇的DF对各个候选词汇进行级别划分,包括根据各词汇在所有分类 数据中的DF划分级别区间;根据词汇在所有分类数据中的DF将相应词汇划分至对应级别 区间。较佳地,所述对海量的分类数据进行词汇的DF分布统计之前进一步,包括对海 量的分类数据中的词汇进行预处理;和/或,所述得到词汇的重要度权重之后,进一步包括根据词汇的重要度权重对词汇进 行质量分级。所述根据词汇的重要度权重对词汇进行质量分级,包括针对各个级别区间分别设置重要阈值和常用阈值,所述级别区间是根据各词汇在 所有分类数据中的DF划分得到的;在各个级别区间内依据设置的所述两个阈值与词汇在 对应级别区间的重要度权重之间的关系对词汇进行质量分级;对各个级别区间对应的词汇 的重要度权重进行归一处理,得到词汇的综合重要度权重;基于词汇的所述综合重要度权 重,针对不同级别区间的所有同一质量等级的词汇进行相应质量等级的综合质量分级;或者,对各个级别区间对应的词汇的重要度权重进行归一处理,得到词汇的综合重要度 权重,所述级别区间是根据各词汇在所有分类数据中的DF划分得到的;针对归一处理后的 区间设置重要阈值和常用阈值;依据设置的所述两个阈值与词汇的综合重要度权重之间的 关系对所有词汇进行综合质量分级。一种词汇质量挖掘评价装置,该装置包括DF分布统计单元,用于对海量的分类数据进行词汇的DF分布统计;单角度度量单元,用于基于词汇的DF分布统计对词汇进行多个单一角度度量;
多角度度量单元,用于根据词汇的各单一角度度量进行词汇的多角度度量,得到 词汇的重要度权重。较佳地,所述DF分布统计单元包括DF分量统计模块,用于统计词汇在各个类别的分类数据中的DF分量;DF计算模块,用于将词汇的各个DF分量的总和作为词汇在所有分类数据中的DF。较佳地,所述单角度度量单元包括IDF模块、AVAIDF模块、卡方模块、IG模块、MI 模块、ECE模块、ENT模块和选择倾向性模块。所述IG模块包括区间划分模块,用于将所有候选词汇基于DF进行区间划分;IG计算模块,用于基于划分得到的各个区间对应的分类数据计算词汇的IG。较佳地,所述多角度度量单元包括级别划分模块,用于按照词汇的DF对各个候选词汇进行级别划分;多角度度量确定模块,用于根据词汇所在级别区间确定词汇的多角度度量,得到 词汇在对应级别区间的重要度权重。所述级别划分模块包括级别区间划分模块,用于根据各词汇在所有分类数据中的DF划分级别区间;词汇划分模块,用于根据词汇在所有分类数据中的DF将相应词汇划分至对应级 别区间。较佳地,所述装置进一步包括预处理单元,用于对海量的分类数据中的词汇进行预处理;和/或,质量分级单元,用于根据词汇的重要度权重对词汇进行质量分级。所述质量分级单元包括阈值设置模块,用于针对各个级别区间分别设置重要阈值和常用阈值,所述级别 区间是根据各词汇在所有分类数据中的DF划分得到的;区间分级模块,用于在各个级别区间内依据设置的所述两个阈值与词汇在对应级 别区间的重要度权重之间的关系对词汇进行质量分级;归一处理模块,用于对各个级别区间对应的重要度权重进行归一处理,得到词汇 的综合重要度权重;综合分级模块,用于基于词汇的所述综合重要度权重,针对不同级别区间的所有 同一质量等级的词汇进行相应质量等级的综合质量分级;或者,所述质量分级单元包括归一处理模块,用于对各个级别区间对应的词汇的重要度权重进行归一处理,得 到词汇的综合重要度权重,所述级别区间是根据各词汇在所有分类数据中的DF划分得到 的;阈值设置模块,用于针对归一处理后的区间设置重要阈值和常用阈值;综合分级模块,用于依据设置的所述两个阈值与词汇的综合重要度权重之间的关 系对所有词汇进行综合质量分级。本发明方案中利用概率统计和信息熵技术,提出一种词汇质量多角度评价的改进 方案,输入的是海量的分类数据,输出的是高质量的词汇。根据本发明提供的方案,能够从海量的分类数据中,深入挖掘和评价词汇的重要性,综合各种评价获取高质量的词汇。本发明方案能够很多有关词汇质量挖掘评价的环境,例如,应用在搜索引擎数据 中,能够准确挖掘出高质量的词汇,提取更为准确的高质量的关键词,用于搜索相关性排 序,以及用户查询串的分析;又如,应用在问答互动平台、博客平台、新闻中,能够准确提取 文本中的标签词,得到比较精准的高质量的标签词,用来分析用户行为,方便用户个性化定 制和推荐;再如,应用在文本分类、聚类、摘要中,能够实现特征词的准确提取,进行文本语 义信息挖掘;还能够在垃圾过滤、广告分类中,准确而有效地提取与类别相关的关键词。


图1为本发明中实现词汇质量挖掘评价的流程示意图;图2为线性归一与对数归一的对比曲线示意图;图3为本发明中实现词汇质量挖掘评价的装置结构示意图;图4A为本发明中质量分级单元的结构示意图一;图4B为本发明中质量分级单元的结构示意图二。
具体实施例方式本发明中,对海量的分类数据进行词汇的DF分布统计;根据词汇的DF分布统计对 词汇进行多个单一角度度量;根据词汇的各单一角度度量进行词汇的多角度度量,得到词 汇的重要度权重。图1为本发明中实现词汇质量挖掘评价的流程示意图,如图1所示,实现词汇质量 挖掘评价的具体处理过程包括步骤101 对海量的分类数据进行词汇的DF分布统计。本发明方案中输入的是海量的分类数据。海量的分类数据是指已经分类的海量文 本数据,例如,海量的分类数据可以是按科技、体育、娱乐等类别分类的新闻数据;又如,海 量的分类数据可以是按电脑数码、科学教育、游戏等类别分类的来自互动问答平台的分类 数据。进行词汇的DF分布统计,是词汇质量挖掘评价的第一个阶段,目的是得到后续计 算所需要的统计量。对海量的分类数据进行词汇的DF分布统计主要包括统计各个词汇在 各个类别的分类数据中的DF分量和在所有分类数据中的DF。进行词汇的DF分布统计之前,首先对海量的分类数据进行分词得到词汇,并可以 对得到的词汇进一步进行一些预处理,例如,繁体字、简体字的统一,大小写的统一,全角、 半角的统一等,以使进行词汇质量挖掘评价的词汇规范化,具有统一的形式。统计词汇w在各个类别的分类数据中的DF分量,得到分布向量FW= {df1 df2,· · ·,dfj,其中,Clfi即为词汇w在类别i的分类数据中的DF分量,i = 1,2,...,η,η 为类别的数量。例如,以电脑数码和科学教育这两类为例,词汇“电脑”在这两类数据中的 DF分量分别是1191437和4拟81,那么DF分布向量则表示为{1191437,48281}。计算词汇w在所有分类数据中的DF,具体为词汇w的各个DF分量的总和,即DF = ^dfi, i = i,2,...,n,n 为类别的数量。
步骤102 基于词汇的DF分布统计对词汇进行多个单一角度度量。完成词汇的DF分布统计后,利用概率论和信息熵理论,进行多个单一角度的度 量,具体可以从以下几个特征选择的角度来考虑。① IDFIDF是在所有分类数据中基于DF的大小对词汇的质量进行度量,具体表示为
权利要求
1.一种词汇质量挖掘评价方法,其特征在于,该方法包括 对海量的分类数据进行词汇的文档频率(DF)分布统计; 根据词汇的DF分布统计对词汇进行多个单一角度度量;根据词汇的各单一角度度量进行词汇的多角度度量,得到词汇的重要度权重。
2.根据权利要求1所述的方法,其特征在于,所述对海量的分类数据进行词汇的DF分 布统计,包括统计词汇在各个类别的分类数据中的DF分量;将词汇的各个DF分量的总和作为词汇在所有分类数据中的DF。
3.根据权利要求1所述的方法,其特征在于,所述单一角度度量包括逆文档频率 (IDF)、平均逆文档频率(AVAIDF)、卡方、信息增益(IG)、互信息(MI)、期望交叉熵(ECE)、信 息熵(ENT)和选择倾向性。
4.根据权利要求3所述的方法,其特征在于,进行所述IG度量时,具体包括 将所有候选词汇基于DF进行区间划分;基于划分得到的各个区间对应的分类数据计算词汇的IG。
5.根据权利要求1所述的方法,其特征在于,所述根据词汇的各单一角度度量进行词 汇的多角度度量得到词汇的重要度权重,包括按照词汇的DF对各个候选词汇进行级别划分;根据词汇所在级别区间确定词汇的多角度度量,得到词汇在对应级别区间的重要度权重。
6.根据权利要求5所述的方法,其特征在于,所述按照词汇的DF对各个候选词汇进行 级别划分,包括根据各词汇在所有分类数据中的DF划分级别区间; 根据词汇在所有分类数据中的DF将相应词汇划分至对应级别区间。
7.根据权利要求1至6任一所述的方法,其特征在于,所述对海量的分类数据进行词汇的DF分布统计之前进一步,包括对海量的分类数据 中的词汇进行预处理;和/或,所述得到词汇的重要度权重之后,进一步包括根据词汇的重要度权重对词汇进行质 量分级。
8.根据权利要求7所述的方法,其特征在于,所述根据词汇的重要度权重对词汇进行 质量分级,包括针对各个级别区间分别设置重要阈值和常用阈值,所述级别区间是根据各词汇在所有 分类数据中的DF划分得到的;在各个级别区间内依据设置的所述两个阈值与词汇在对应 级别区间的重要度权重之间的关系对词汇进行质量分级;对各个级别区间对应的词汇的重 要度权重进行归一处理,得到词汇的综合重要度权重;基于词汇的所述综合重要度权重,针 对不同级别区间的所有同一质量等级的词汇进行相应质量等级的综合质量分级; 或者,对各个级别区间对应的词汇的重要度权重进行归一处理,得到词汇的综合重要度权 重,所述级别区间是根据各词汇在所有分类数据中的DF划分得到的;针对归一处理后的区 间设置重要阈值和常用阈值;依据设置的所述两个阈值与词汇的综合重要度权重之间的关系对所有词汇进行综合质量分级。
9.一种词汇质量挖掘评价装置,其特征在于,该装置包括DF分布统计单元,用于对海量的分类数据进行词汇的DF分布统计; 单角度度量单元,用于基于词汇的DF分布统计对词汇进行多个单一角度度量; 多角度度量单元,用于根据词汇的各单一角度度量进行词汇的多角度度量,得到词汇 的重要度权重。
10.根据权利要求9所述的装置,其特征在于,所述DF分布统计单元包括 DF分量统计模块,用于统计词汇在各个类别的分类数据中的DF分量;DF计算模块,用于将词汇的各个DF分量的总和作为词汇在所有分类数据中的DF。
11.根据权利要求9所述的装置,其特征在于,所述单角度度量单元包括IDF模块、 AVAIDF模块、卡方模块、IG模块、MI模块、ECE模块、ENT模块和选择倾向性模块。
12.根据权利要求11所述的装置,其特征在于,所述IG模块包括 区间划分模块,用于将所有候选词汇基于DF进行区间划分;IG计算模块,用于基于划分得到的各个区间对应的分类数据计算词汇的IG。
13.根据权利要求9所述的装置,其特征在于,所述多角度度量单元包括 级别划分模块,用于按照词汇的DF对各个候选词汇进行级别划分;多角度度量确定模块,用于根据词汇所在级别区间确定词汇的多角度度量,得到词汇 在对应级别区间的重要度权重。
14.根据权利要求13所述的装置,其特征在于,所述级别划分模块包括级别区间划分模块,用于根据各词汇在所有分类数据中的DF划分级别区间; 词汇划分模块,用于根据词汇在所有分类数据中的DF将相应词汇划分至对应级别区间。
15.根据权利要求9至14任一所述的装置,其特征在于,所述装置进一步包括 预处理单元,用于对海量的分类数据中的词汇进行预处理;和/或,质量分级单元,用于根据词汇的重要度权重对词汇进行质量分级。
16.根据权利要求15所述的装置,其特征在于, 所述质量分级单元包括阈值设置模块,用于针对各个级别区间分别设置重要阈值和常用阈值,所述级别区间 是根据各词汇在所有分类数据中的DF划分得到的;区间分级模块,用于在各个级别区间内依据设置的所述两个阈值与词汇在对应级别区 间的重要度权重之间的关系对词汇进行质量分级;归一处理模块,用于对各个级别区间对应的重要度权重进行归一处理,得到词汇的综 合重要度权重;综合分级模块,用于基于词汇的所述综合重要度权重,针对不同级别区间的所有同一 质量等级的词汇进行相应质量等级的综合质量分级; 或者,所述质量分级单元包括归一处理模块,用于对各个级别区间对应的词汇的重要度权重进行归一处理,得到词 汇的综合重要度权重,所述级别区间是根据各词汇在所有分类数据中的DF划分得到的; 阈值设置模块,用于针对归一处理后的区间设置重要阈值和常用阈值;综合分级模块,用于依据设置的所述两个阈值与词汇的综合重要度权重之间的关系对 所有词汇进行综合质量分级。
全文摘要
本发明公开了一种词汇质量挖掘评价方法及装置。本发明方案中,对海量的分类数据进行词汇的DF分布统计;根据词汇的DF分布统计对词汇进行多个单一角度度量;根据词汇的各单一角度度量进行词汇的多角度度量,得到词汇的重要度权重。本发明方案中利用概率统计和信息熵技术,提出一种词汇质量多角度评价的改进方案,输入的是海量的分类数据,输出的是高质量的词汇。根据本发明提供的方案,能够从海量的分类数据中,深入挖掘和评价词汇的重要性,综合各种评价获取高质量的词汇。
文档编号G06F17/30GK102054006SQ20091023718
公开日2011年5月11日 申请日期2009年11月10日 优先权日2009年11月10日
发明者刘怀军, 姜中博, 方高林 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1