一种词关系挖掘方法和装置的制作方法

文档序号:6596946阅读:152来源:国知局
专利名称:一种词关系挖掘方法和装置的制作方法
技术领域
本发明涉及计算机、互联网领域,特别涉及一种词关系挖掘方法和装置。
背景技术
词关系是一种比较重要的知识类型,表现形式有多种,例如上下位关系、部分-整 体关系、地理位置关系、公司收购关系、职位变更关系等。最常用的两种词关系挖掘方法是 基于模式的方法和基于同现的方法,其中,基于模式的词关系挖掘方法通常基于大规模的 语料,及某些特定类型的表现形式;基于同现的词关系挖掘方法通常是计算两个词在一个 句子或文档中同时出现的统计特征,该统计特征表明这两个词之间存在某种关系。现有技术中给出了一种基于同现的词关系挖掘方法,该方法对出现在句子或文档 内的词,利用互信息的统计值的方法对词关系进行挖掘,实现了基于同现的词关系挖掘。发明人在实现本发明的过程中发现,现有技术至少存在以下的缺点和不足目前提供的基于同现的词关系挖掘方法由于只采用了互信息的统计值的方法对 词关系进行挖掘,存在较多的错误关系,正确率不是很高。

发明内容
为了提高挖掘的词关系的正确率、提高用户的使用体验,本发明实施例提供了一 种词关系挖掘方法和装置。所述技术方案如下—方面,本发明实施例提供了一种词关系挖掘方法,所述方法包括获取两个词条之间的候选关系、所述候选关系的频度以及所述词条的词频;根据所述候选关系、所述频度及所述词频获取互信息的统计值和对数似然比的统 计值;根据所述互信息的统计值和所述对数似然比的统计值获取可信度归一值; 根据所述可信度归一值进行排序,将符合预设阈值的候选关系作为词关系输出。所述获取两个词条之间的候选关系、所述候选关系的频度以及所述词条的词频, 具体包括对语料库中的每一个问答文档的标题和答案分别进行分词处理,获取标题词条集 合和答案词条集合;将所述标题词条集合中的标题词条与答案词条集合中的答案词条进行词条间的 配对,若两个词条不同,则配对成功,获取两个词条之间的候选关系;在语料库中所有的问答文档中以标题词条和所述标题词条相应的答案词条为单 位查找所述候选关系,将所述候选关系出现的次数作为所述候选关系的频度;在所述语料库中所有的问答文档的标题中查找所述标题词条,将所述标题词条出 现的次数作为所述标题词条的词频;在所述语料库中所有的问答文档的答案中查找所述答案词条,将所述答案词条出 现的次数作为所述答案词条的词频。
所述对语料库中的每一个问答文档的标题和答案分别进行分词处理,获取标题词 条集合和答案词条集合的步骤之后,所述方法还包括对所述标题词条集合和所述答案词条集合中的词条进行过滤,分别获取过滤后的 所述标题词条集合和所述答案词条集合。所述获取两个词条之间的候选关系、所述候选关系的频度以及所述词条的词频, 具体包括对语料库中的每一个文档的每一个句子进行分词处理,获取词条集合;将所述词条集合中的词条进行配对,若两个词条不同,则配对成功,获取两个词条 之间的候选关系;在语料库的所有文档中以句子为单位查找所述候选关系,将所述候选关系出现的 次数作为所述候选关系的频度;在所述语料库的所有文档中查找所述词条,将所述词条出现的次数作为所述词条 的词频。所述对语料库中的每一个文档的每一个句子进行分词处理,获取词条集合的步骤 之后,所述方法还包括对所述词条集合中的词条进行过滤,获取过滤后的词条集合。根据所述互信息的统计值和所述对数似然比的统计值获取可信度归一值,具体包 括根据所述互信息的统计值和所述对数似然比的统计值获取可信度值;通过获取到的所述可信度值获取可信度归一值。再一方面,本发明实施例提供了一种词关系挖掘装置,所述装置包括第一获取模块,用于获取两个词条之间的候选关系、所述候选关系的频度以及所 述词条的词频;第二获取模块,用于根据所述候选关系、所述频度及所述词频获取互信息的统计 值和对数似然比的统计值;第三获取模块,用于根据所述互信息的统计值和所述对数似然比的统计值获取可
信度归一值;输出模块,用于根据所述可信度归一值进行排序,将符合预设阈值的候选关系作 为词关系输出。所述第一获取模块,具体包括第一获取单元,用于对语料库中的每一个问答文档的标题和答案分别进行分词处 理,获取标题词条集合和答案词条集合;第二获取单元,用于将所述标题词条集合中的标题词条与答案词条集合中的答案 词条进行词条间的配对,若两个词条不同,则配对成功,获取两个词条之间的候选关系;第一查找单元,用于在语料库中所有的问答文档中以标题词条和所述标题词条相 应的答案词条为单位查找所述候选关系,将所述候选关系出现的次数作为所述候选关系的 频度;第二查找单元,用于在所述语料库中所有的问答文档的标题中查找所述标题词 条,将所述标题词条出现的次数作为所述标题词条的词频;
第三查找单元,用于在所述语料库中所有的问答文档的答案中查找所述答案词 条,将所述答案词条出现的次数作为所述答案词条的词频。所述第一获取模块,还包括第一过滤单元,用于对所述标题词条集合和所述答案词条集合中的词条进行过 滤,分别获取过滤后的所述标题词条集合和所述答案词条集合。所述第一获取模块,具体包括第三获取单元,用于对语料库中的每一个文档的每一个句子进行分词处理,获取 词条集合;第四获取单元,用于将所述词条集合中的词条进行词条间的配对,若两个词条不 同,则配对成功,获取两个词条之间的候选关系;第四查找单元,用于在语料库的所有文档中以句子为单位查找所述候选关系,将 所述候选关系出现的次数作为所述候选关系的频度;第五查找单元,用于在所述语料库的所有文档中查找所述词条,将所述词条出现 的次数作为所述词条的词频。所述第一获取模块,还包括第二过滤单元,用于对所述词条集合中的词条进行过滤,获取过滤后的词条集合。所述第三获取模块,具体包括第五获取单元,用于根据所述互信息的统计值和所述对数似然比的统计值获取可 信度值;第六获取单元,用于通过获取到的所述可信度值获取可信度归一值。本发明实施例提供的技术方案的有益效果是通过获取到的候选关系、候选关系频度、词条的词频,不但进行互信息统计值还进 行了对数似然比统计值的计算,根据计算结果获取可信度归一值,按照归一值的排列顺序, 将挖掘的词关系输出,通过上述方案提高了挖掘的词关系的正确率,提高了用户的使用体 验,当语料库为问答文档时,该方案还提高了挖掘出的词关系的相关性。


为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以 根据这些附图获得其他的附图。图1是本发明实施例1提供的词关系挖掘方法的流程图;图2是本发明实施例2提供的词关系挖掘方法的流程图;图3是本发明实施例3提供的词关系挖掘方法的流程图;图4是本发明实施例4提供的词关系挖掘装置的流程图。
具体实施例方式为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方 式作进一步地详细描述。
实施例1为了提高挖掘的词关系的正确率,提高用户的使用体验,本发明实施例提供了一 种词关系挖掘方法,参见图1,该方法内容如下101 获取两个词条之间的候选关系、候选关系的频度以及词条的词频;102 根据候选关系、频度及词频获取互信息的统计值和对数似然比的统计值;103 根据互信息的统计值和对数似然比的统计值获取可信度归一值;104 根据可信度归一值进行排序,将符合预设阈值的候选关系作为词关系输出。其中,获取两个词条之间的候选关系、候选关系的频度以及词条的词频,具体包括 2种方式方式1中语料库为问答文档,则,对语料库中的每一个问答文档的标题和答案分别进行分词处理,获取标题词条集 合和答案词条集合;将标题词条集合中的标题词条与答案词条集合中的答案词条进行词条间的配对, 若两个词条不同,则配对成功,获取两个词条之间的候选关系;在语料库中所有的问答文档中以标题词条和标题词条相应的答案词条为单位查 找候选关系,将候选关系出现的次数作为候选关系的频度;在语料库中所有的问答文档的标题中查找标题词条,将标题词条出现的次数作为 标题词条的词频;在语料库中所有的问答文档的答案中查找答案词条,将答案词条出现的次数作为 答案词条的词频。方式2中语料库为普通文档,则,对语料库中的每一个文档的每一个句子进行分词处理,获取词条集合;将词条集合中的词条进行配对,若两个词条不同,则配对成功,获取两个词条之间 的候选关系;在语料库的所有文档中以句子为单位查找候选关系,将候选关系出现的次数作为 候选关系的频度;在语料库的所有文档中查找词条,将词条出现的次数作为词条的词频。其中,步骤103具体包括根据互信息的统计值和对数似然比的统计值获取可信度值;通过获取到的可信度值获取可信度归一值。其中,方式1还包括对标题词条集合和答案词条集合中的词条进行过滤,分别获取过滤后的标题词条 集合和答案词条集合。其中,方式2还包括对词条集合中的词条进行过滤,获取过滤后的词条集合。其中,上述预设阈值具体为按照实际要求所设定的输出条数,即将获取到的可信 度归一值排列,按照设定的输出条数将排列在前面的词关系输出。综上所述,通过获取到的候选关系、候选关系的频度及词频不但对互信息统计值 进行了计算,还对对数似然比统计值进行了计算,对获取到的统计值进行可信度归一处理,将获取到的词关系输出,通过上述方法提高了挖掘出的词关系的准确率,提高了用户体验, 并且当语料库为问答文档时,该方法还提高了挖掘出的词关系的相关性。为了对上述本发明实施例提供的方法进行详细说明,请参见如下实施例实施例2为了提高挖掘的词关系的正确率、提高用户的使用体验,本发明实施例提供了一 种词关系挖掘方法,参见图2,该方法内容如下201 计算机准备原始的语料数据;其中,本实施例中,其语料库由问答文档组成。202 在步骤201准备好的原始语料数据中、获取标题和第一最佳答案;其中,以原始语料数据中的每一篇问答文档为单位,由于每一篇问答文档中的标 题和答案都由特定的定界符所标定,故可以输入特定的定界符获取标题和答案,处理时逐 一识别每一篇问答文档,直至识别完所有问答文档。本发明实施例中标题定界符是指以 TI (title)开头的标题,即根据TI在准备好的原始语料数据中的每一篇问答文档中提取以 TI开头的标题;最佳答案可以有多个,第一最佳答案以BF(Best First)开头的答案、第二最佳答 案以BS(Best Second)开头的答案,即根据BF在准备好的原始语料数据中的每一篇问答文 档中提取以BF开头的答案、根据BS在准备好的原始预料数据中的每一篇问答文档中提取 以BS开头的答案,其中,上述输入的特定的定界符可以根据实际的需要进行设置,具体实 现时,本发明实施例对此不做限制,本发明实施例以问答文档中的最佳答案只有一个为例 进行说明。203 通过分词系统对步骤202中获取的标题和最佳答案进行分词处理,分别获取 标题词条集合和最佳答案词条集合;其中,该步骤具体包括在分词系统中输入标题进行分词处理,获取到由多个词条 组成的词条集合;例如一篇问答文档中的标题是“北京有什么好玩的地方,请求帮助,谢 谢? ”,答案是北京首都博物馆、北京水立方、北京鸟巢等。通过分词系统对该“北京有什么 好玩的地方,请求帮助,谢谢? ”的标题进行分词处理,获取到由“北京、有、什么、好玩、的、 地方、请求、帮助、谢谢”组成的词条集合,每一个词条都是词条集合中的元素。通过分词系统对该最佳答案进行分词处理,获取到由“北京、首都、博物馆、水立 方、鸟巢”等多个词条组成的词条集合,每一个词条是词条集合中的元素。其中,本发明实施 例可以采用任意一种分词系统,具体实现时,本发明实施例对此不做限制。204 根据预设规则对步骤203中获取的标题词条集合和最佳答案词条集合进行 过滤,分别获取过滤后的标题词条和最佳答案词条;为了获取到更好的标题词条和最佳答案词条,可以对标题词条集合和最佳答案 词条集合按照预设规则进行过滤,上述预设规则包括过滤掉单字、单字符、停用词及满足 IDF(Inversed Document Frequency,反文档频度)阈值条件的词条,其中,阈值条件具体为 (0<IDF<3. 5);该阈值条件的具体值可以根据实际应用进行设定,具体实现时,本发明实 施例对此不做限制。对于来自最佳答案的词条上述规则还包括筛选规则,其中筛选规则是指对答 案的词条进行筛选,具体为统计词条在最佳答案中的词频计算该词条的TFIDF(TermFrequency-Inversed Document Frequency,词频-反文档频度)值,若答案的词条数超过 预设条数N,则TFIDF值排在前N个的词条入选,若最佳答案的词条数小于等于预设条数N, 则所有的词条都入选。本发明实施例中以预设条数N= 150为例进行说明,具体实现时,本 发明实施例对此不做限制。其中,具体实现时也可以不对词条集合进行过滤。其中通过上述预设规则,获取到的标题词条为“北京、好玩、地方、请求、帮助、谢 谢”,获取到的最佳答案词条为“北京、首都、博物馆、水立方、鸟巢”。205:将出现在标题的词条与出现在最佳答案的词条进行配对,获取候选关系,并 同时获取候选关系频度和词频;其中,配对方式主要包括从标题词条到最佳答案词条的单向配对、从最佳答案词 条到标题词条的单向配对、标题词条和最佳答案词条之间的双向配对,为了减少计算量、降 低存储空间,本发明实施例采用了从标题词条到最佳答案词条的单向配对,具体为在标题 的词条中确定一词条,与标题词条相应的最佳答案中的词条进行配对,若出现在标题的词 条与出现在相应的最佳答案的词条相同则配对失败,否则配对成功,获取候选关系,具体实 现时,还可以采用其他的配对方式,本发明实施例对此不做限制。在语料库的所有的问答文档中以标题词条和最佳答案词条为单位,查找该候选关 系,记录该候选关系出现的次数,将出现的次数作为该候选关系的频度,例如若出现在标 题的词条为“北京”,出现在答案的词条为“水立方”,则这2个词条不同,该2个词条配对成 功,获取到候选关系 < 北京,水立方 >,在语料库的所有问答文档中查找 < 北京,水立方 >,即 确定 < 北京,水立方 > 中的北京出现在标题词条、水立方出现在最佳答案词条中的次数,将 出现的次数作为候选关系 < 北京,水立方 > 的频度。其中,上述获取词频具体为获取标题词频和获取最佳答案词频,若过滤后的某一 词条出现在标题,则在语料库的所有的标题中查找该标题词条出现的次数,将出现的次数 作为该标题词条的词频,例如“好玩”这个词条出现在标题中,在所有的标题中查找“好玩” 这个词条,确定“好玩”出现的次数,将出现的次数作为“好玩”的频度。若过滤后的某一词条出现在最佳答案中,则在语料库的所有的最佳答案中查找该 最佳答案词条出现的次数,将出现的次数作为该最佳答案词条的词频,例如“水立方”这个 词条出现在最佳答案中,在所有的最佳答案中查找“水立方”这个词条,确定“水立方”这个 词条出现的次数,将出现的次数作为“水立方”的词频。206 对步骤205中获取的候选关系进行互信息计算,获取互信息的统计值;其中,具体为根据候选关系的频度f Ov Wj)获取候选关系的概率P Ov Wj) = f Ov /N,其中N为语料库中所有的问答文档数,分别根据标题词条的词频和答案词条的词频
f (Wi)^f (Wj)获取标题词条的概率和答案词条的概率ρ (Wi) = f (Wi)/N、p (Wj) = f(Wj)/N,通 过公式1可以获取候选关系Wj)的互信息值MI (wi; Wj),其中MI (wi; Wj)具体为MI (wi; Wj) = log{p (Wi,Wj)/(P (Wi) Xp(Wj)M(1)其中,通过似然估计近似可以得到P Ov Wj) = f(wi; Wj)/N,上述公式中的MI (Wi, Wj)进一步转变为MI (wi Wj) = log f (wi Wj)+IogN-Iog f (Wi)-Iog f (Wj) (2)207 对步骤205中获取的候选关系进行对数似然比计算,获取对数似然比的统计 值;
其中,对候选关系Wi, Wj)除考虑其本身外,还要考虑< A^w/ >,其中<巧,,% > 表示与Wi同时出现的词条除了 Wj外还有哪些。将<*,Wj>和>看作两个独立的随 机事件,<*,Wj)表示所有和%有关的词条,〈 “1^〉表示除了%之外的所有词条,从Wi, Wj>和<巧,,% >出现频度的角度将这两个随机事件看作满足二项式分布,其似然方程表示 为
H(PliP2J1Ak2A) = Ck ;p,(1一 C (I — P2)"2(3)弓丨入假设检验,假设<Wi,Wj>和<%,%>具有相同的参数空间,即((P1A2)Ip1 =
p2},那么假设检验的似然比表示为
儿二 maxp H(ρ,P;Icl,乂,k2,n2)/maxp、也 H(pvp2',kvnl,k2,n2)(4)根据公式4取- λ,将公式3带入到公式4中,并取对数,得到对数似然比,LLR(wi7 Wj) = log L(p” k” Ii1)+log L(p2, k2, n2)_log L(p, k” Ii1)-log L(p, k2, n2) (5)其中,根据公式(6)可以对公式(5)进行化简;log L(p,k,n) = log pk(l-p)n_k = k log ρ+(n_k) log (l_p)(6)在这里假设Ii1 = N(wi Wj)、Ii1 = N(*,Wj)、K = Niwl^w^n1 =、P1 = Ii1AipFi2 = k2/n2、p = 0^+1^)/0^+ )。(7)其中,Ic1表示候选关系 ,Wj)的频度、ηι表示所有和%有关的候选关系的频度、 k2表示在和Wi有关的候选关系中除掉(Ui)的候选关系的频度、n2表示所有和 无关的 候选关系的频度、P1表示候选关系<&,Wj)在所有和 有关的候选关系中的概率、P2表示 在和Wi有关的候选关系中除掉<&,的候选关系在所有和 无关的候选关系中的概率、 P表示和Wi有关的候选关系的频度在所有候选关系中的概率。通过公式6可以对公式5进行化简,根据实际应用情况将获得的公式7中的各个 变量值带入到化简后的方程中,既可以获得对数似然比的统计计算值。其中,本发明还给出 了其他可能的变量取值;Ii1 = N (Wi,Wj)、^ = N (*,Wj)、众2 =, Wj )、” 2 = Ni^wi ,*) (8)Ii1 = N (Wi,Wj)、叫=N (Wi,*)、夂=Nbwi, Wj ),n 2 = N^wi ,*) (9)Ic1 = N(Wi, WjIn1 = N(Wi, *)、1 = N(wi; Wj)、n2 = N(*,Wj) (10)还可以定义其他的变量值,具体实现时,本发明实施例对此不做限制。208 根据步骤206和步骤207获得的统计值进行可信度计算;其中,可信度计算是指按照公式11对互信息和对数似然比进行合并,具体为对互 信息和对数似然比分别取对数,再求和得到可信度comb (wi; Wj)Comb(WpWj) = log MI (Wi, Wj)+log LLR(Wi, Wj) (11)209 对步骤208计算出的可信度进行归一处理;其中,归一处理是指将后选关系的可信度限定在(0,1]内,且可信度不受全局特 征的影响,即〈WyWj〉的可信度只受Wi,*>的影响,不受<wk,*>,(Wi ^ Wk)的影响,即,可信 度归一化的公式为
Conf(WijWj) = comb (Wi, Wj) /max comb (Wi, wk), <Wj, wk> e <Wj, (12)即根据公式12可以得出归一处理后的计算结果。210:将可信度归一处理后的计算结果按照排列规则输出到文件中。其中,上述排列规则是指按照可信度从大到小的顺序进行排列,参见下表,为输出 的词关系样例,其中,在下表中,参见春节这一条目中,(春节,除夕)的可信度最高为1,(春 节,夏历)的可信度为0.923 ;同理,相机这一条目中,(相机,佳能)的可信度最高为1,(相 机,长焦)的可信度为0.908;同理在飞机这一条目中,(飞机,起飞)的可信度最高为1, (飞机,经济舱)的可信度为0. 883。
权利要求
1.一种词关系挖掘方法,其特征在于,所述方法包括获取两个词条之间的候选关系、所述候选关系的频度以及所述词条的词频; 根据所述候选关系、所述频度及所述词频获取互信息的统计值和对数似然比的统计值;根据所述互信息的统计值和所述对数似然比的统计值获取可信度归一值; 根据所述可信度归一值进行排序,将符合预设阈值的候选关系作为词关系输出。
2.如权利要求1所述的方法,其特征在于,所述获取两个词条之间的候选关系、所述候 选关系的频度以及所述词条的词频,具体包括对语料库中的每一个问答文档的标题和答案分别进行分词处理,获取标题词条集合和 答案词条集合;将所述标题词条集合中的标题词条与答案词条集合中的答案词条进行词条间的配对, 若两个词条不同,则配对成功,获取两个词条之间的候选关系;在语料库中所有的问答文档中以标题词条和所述标题词条相应的答案词条为单位查 找所述候选关系,将所述候选关系出现的次数作为所述候选关系的频度;在所述语料库中所有的问答文档的标题中查找所述标题词条,将所述标题词条出现的 次数作为所述标题词条的词频;在所述语料库中所有的问答文档的答案中查找所述答案词条,将所述答案词条出现的 次数作为所述答案词条的词频。
3.如权利要求2所述的方法,其特征在于,所述对语料库中的每一个问答文档的标题 和答案分别进行分词处理,获取标题词条集合和答案词条集合的步骤之后,所述方法还包 括对所述标题词条集合和所述答案词条集合中的词条进行过滤,分别获取过滤后的所述 标题词条集合和所述答案词条集合。
4.如权利要求1所述的方法,其特征在于,所述获取两个词条之间的候选关系、所述候 选关系的频度以及所述词条的词频,具体包括对语料库中的每一个文档的每一个句子进行分词处理,获取词条集合; 将所述词条集合中的词条进行配对,若两个词条不同,则配对成功,获取两个词条之间 的候选关系;在语料库的所有文档中以句子为单位查找所述候选关系,将所述候选关系出现的次数 作为所述候选关系的频度;在所述语料库的所有文档中查找所述词条,将所述词条出现的次数作为所述词条的词频。
5.如权利要求4所述的方法,其特征在于,所述对语料库中的每一个文档的每一个句 子进行分词处理,获取词条集合的步骤之后,所述方法还包括对所述词条集合中的词条进行过滤,获取过滤后的词条集合。
6.如权利要求1所述的方法,其特征在于,根据所述互信息的统计值和所述对数似然 比的统计值获取可信度归一值,具体包括根据所述互信息的统计值和所述对数似然比的统计值获取可信度值; 通过获取到的所述可信度值获取可信度归一值。
7.一种词关系挖掘装置,其特征在于,所述装置包括第一获取模块,用于获取两个词条之间的候选关系、所述候选关系的频度以及所述词 条的词频;第二获取模块,用于根据所述候选关系、所述频度及所述词频获取互信息的统计值和 对数似然比的统计值;第三获取模块,用于根据所述互信息的统计值和所述对数似然比的统计值获取可信度 归一值;输出模块,用于根据所述可信度归一值进行排序,将符合预设阈值的候选关系作为词 关系输出。
8.如权利要求7所述的装置,其特征在于,所述第一获取模块,具体包括第一获取单元,用于对语料库中的每一个问答文档的标题和答案分别进行分词处理, 获取标题词条集合和答案词条集合;第二获取单元,用于将所述标题词条集合中的标题词条与答案词条集合中的答案词条 进行词条间的配对,若两个词条不同,则配对成功,获取两个词条之间的候选关系;第一查找单元,用于在语料库中所有的问答文档中以标题词条和所述标题词条相应 的答案词条为单位查找所述候选关系,将所述候选关系出现的次数作为所述候选关系的频 度;第二查找单元,用于在所述语料库中所有的问答文档的标题中查找所述标题词条,将 所述标题词条出现的次数作为所述标题词条的词频;第三查找单元,用于在所述语料库中所有的问答文档的答案中查找所述答案词条,将 所述答案词条出现的次数作为所述答案词条的词频。
9.如权利要求8所述的装置,其特征在于,所述第一获取模块,还包括第一过滤单元,用于对所述标题词条集合和所述答案词条集合中的词条进行过滤,分 别获取过滤后的所述标题词条集合和所述答案词条集合。
10.如权利要求7所述的装置,其特征在于,所述第一获取模块,具体包括第三获取单元,用于对语料库中的每一个文档的每一个句子进行分词处理,获取词条 集合;第四获取单元,用于将所述词条集合中的词条进行词条间的配对,若两个词条不同,则 配对成功,获取两个词条之间的候选关系;第四查找单元,用于在语料库的所有文档中以句子为单位查找所述候选关系,将所述 候选关系出现的次数作为所述候选关系的频度;第五查找单元,用于在所述语料库的所有文档中查找所述词条,将所述词条出现的次 数作为所述词条的词频。
11.如权利要求10所述的装置,其特征在于,所述第一获取模块,还包括 第二过滤单元,用于对所述词条集合中的词条进行过滤,获取过滤后的词条集合。
12.如权利要求7所述的装置,其特征在于,所述第三获取模块,具体包括第五获取单元,用于根据所述互信息的统计值和所述对数似然比的统计值获取可信度值;第六获取单元,用于通过获取到的所述可信度值获取可信度归一值。
全文摘要
本发明公开了一种词关系挖掘方法和装置,属于计算机、互联网领域。所述方法包括获取两个词条之间的候选关系、所述候选关系的频度以及所述词条的词频;根据所述候选关系、所述频度及所述词频获取互信息的统计值和对数似然比的统计值;根据所述互信息的统计值和所述对数似然比的统计值获取可信度归一值;根据所述可信度归一值进行排序,将符合预设阈值的候选关系作为词关系输出。所述装置包括第一获取模块、第二获取模块、第三获取模块、输出模块,本发明实施例提供的方案提高了挖掘的词关系的正确率,提高了用户的使用体验。
文档编号G06F17/27GK102129427SQ20101000342
公开日2011年7月20日 申请日期2010年1月13日 优先权日2010年1月13日
发明者田国刚, 贾自艳 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1