一种文本文档主题词义的自动提取方法

文档序号:6604721阅读:224来源:国知局
专利名称:一种文本文档主题词义的自动提取方法
技术领域
本发明涉及一种对文本文档的主题词义进行自动提取的方法,属于计算机信息处 理、自然语言处理等领域。适用于对大量的文本文档的主题进行快速准确的抽取。
背景技术
随着Internet的发展,信息总量的增长速度呈指数上升,大量的信息以电子文本 文档的形式呈现在人们面前,迫切需要自动化的工具帮助人们在海量信息中迅速找到真正 需要的信息。为了达到这个目标,首要的任务是对文本文档的主题意思进行抽取。此外,主 题意思还可应用于很多其他文本挖掘领域,如文本分类、文本聚类和文本检索等。在最为理 想的情况下,主题意思是人为给出的,但由于海量的文本文档,人为给出文本文档主题意思 变得不可行,所以,高性能的主题意思自动提取算法的研究是十分重要的。文本文档的主题意思代表着文本文档的概要信息,由于主题词抽取的任务是要从 文本文档中找出能够描述文本文档内容的词,所以目前的研究工作都使用主题词来表示文 本文档资源的语义信息,将文本文档主题意思提取的问题转化为主题词提取的问题。现有的研究方法是用主题词来表示文本文档的主题意思,由于词汇层面(代表意 思的词)和概念层面(意思本身)的差别,即同一个词在不同的上下文环境下有着不同的 词义,而不同的词也能够表示相同的意思,这将导致主题意思提取的不准确性,其主要表现 在以下两个方面 主题意思表示的不准确。由于词有不同的词义,所以如果使用词来表示主题意 思,那么表示的主题意思也许会产生歧义,比如说,“mouse”能够表示老鼠或者鼠标的意思, 当给出mouse代表文本文档的主题意思时,将会产生混淆; 主题意思提取过程中的不准确。在主题意思的提取过程中,现有的方法会对词 进行多种操作,其中包括统计词在文本文档中出现的频率、初始位置等。在这些操作中,如 果不考虑词义的话,将会导致某些操作的错误,从而降低主题意思提取的准确率。为了解决上述问题,本发明使用词义代替词,这是因为词义只有唯一的意思。在本 发明的主题词义提取算法中,首先采用消歧算法得到候选主题词的词义,然后,在词义合并 和提取的步骤中,通过考虑这些词义之间的相关度来提高算法的准确性。

发明内容
要解决的技术问题为了消除词的多义性导致现有的主题意思提取算法不准确的问题,本发明提出使 用词义代替词来进行主题意思的提取,可以提高主题意思提取的精度。技术方案本发明的基本思想是将文本文档中的候选主题词转化为候选主题词义,然后对 候选主题词义进行提取,最后输出主题词义。整个过程采用词义代替词进行主题意思的提 取,这样在主题意思的表达和算法处理的过程中都避免了一词多义性带来的不准确性。
本发明的技术特征在于利用候选主题词的上下文信息,采用消歧技术,将候选主 题词转化为候选主体词义进行后续的处理;并且在提取主题词义的过程中同时考虑到统计 信息和语义信息,提高主题词义提取的精度。一种文本文档主题词义的自动提取方法,其特征在于步骤如下(1)分别对训练文本文档集和测试文本文档集中的每篇文本文档进行预处理,得 到每篇文本文档的候选主题词义集合;所述的预处理包括以下步骤步骤a 提取文本文档的候选主题词集合首先,去除文本文档中的数字和标点符号,将文本文档切分成现有词的集合;然后,去除集合中不满足条件的词;最后,将剩余词中的大写字母转换为小写字母,并去掉词的前缀和后缀,得到文本 文档的候选主题词集合;所述的条件为组成词的字母个数小于预设值,或至少有一个小写字母,或非停用 词;所述的非停用词是指停用词以外的所有词,所述的停用词是虚词;所述的预设值为15 个字母;步骤b 采用消岐算法获取文本文档的候选主题词义集合首先,在候选主题词集合中选择距离每个候选主题词W范围内的词作为该候选主 题词的上下文;所述的W的取值范围为[6,10];然后,按语义相关度计算公式
计算每个候选主题
词的第k个可能词义Sk和该候选主题词的第i个上下文Ci的语义相关度rel (sk, Ci),并按
计算候选主题词的第k个可能词义sk与该候选主题词的所有
上下文的总的语义相关度SenseSCOre(sk);其中,k=l,2,…,K,K为候选主题词的可能词义的个数;i = 1,2,…,1,1为候
选主题词的上下文的个数;wordNumlnGlossOfsk表示Sk的WordNet释义包含的单词个数, WordNumlnGlossOfci 表示 Ci 的 WordNet 释义包含的单词个数,NumOfOverlapS-SkCi 表示 Sk 的WordNet释义和Ci的WordNet释义所包含的单词中相同单词的个数;所述的可能词义为 定义在词法数据库WordNet中的词义;最后,选择总的语义相关度SenseScore值最大的可能词义作为候选主题词的候 选主题词义,得到文本文档的候选主题词义集合;步骤c 合并候选主题词义 按语义相关度计算公式
计算候选主题词义集合中任意两个候选主题词义&和&的语义相关度,并去除语义相关 度值大于给定阈值λ的两个候选主题词义中的任意一个;所述的阈值λ的取值范围为
;其中,
为候选主题词义集合中候选主题词义的个数.fwordNumInGlossOfi示sWordNet 释义包含的单词个数,wwi/iVw/wiwG/awQ民表
示矣的WordNet释义包含的单词个数,表示&的WordNet释义和之的 WordNet释义所包含的单词中相同单词的个数;(2)计算候选主题词义集合中每个候选主题词义在文本文档中的特征属性值;所 述的特征属性包括侯选主题词义在文本文档中出现的频率tf Xidf、侯选主题词义在文 本文档中第一次出现的平均位置fo、侯选主题词义包含的字母个数Ien和候选主题词义之 间的内聚性coh ;所述的侯选主题词义在文本文档中出现的频率tfXidf的计算公式为 其中,为文本文档的候选主题词义集合中的第j个候选主题词义,j = 1,2,···, J,J为文本文档的候选主题词义集合中候选主题词义的个数;f(CSp为在文本文档中 出现的次数,D表示文本文档集,IDI为D中的文本文档篇数,ID(CSj)I为在D中包含候选 主题词义的文本文档篇数;所述的侯选主题词义在文本文档中第一次出现的平均位置fo的计算公式为fo (CSj) = 0first/J其中,Ofirst为候选主题词义CSj在文本文档中第一次出现的位置;所述的候选主题词义之间的内聚性coh的计算公式为 其中,rel (cSj, Cs1)为按语义相关度计算公式
文本文档的候选主题词义集合中候选主题词义和候选主题词义CS1的语义相关度; WordNumlnGlossOfcsj 表示 Csj 的 WordNet 释义包含的单词个数,WordNumlnGlossOfcs1 表 示Cs1的WordNet释义包含的单词个数,NumofoverlapsjsjCs1表示Csj的WordNet释义和 Cs1的WordNet释义所包含的单词中相同单词的个数;(3)利用贝叶斯模型抽取测试文本文档集中每篇文本文档的最终的主题词义集 合首先,按Pr = Pr [T| yes] X Pr [θ| yes] X Pr [L| yes] X Pr [C | yes] X Pr [yes]计算测 试文本文档集中每篇文本文档的每个候选主题词义为主题词义的概率Pr ;其中,Pr[T| yes]、Pr
、Pr [L| yes]和 Pr [C | yes]分别表示候选主题词义在 具备当前丨€乂1(^、伪、1611、(3011特征属性值的条件下为主题词义的概率,?1~[7^]表示训练 文本文档集中该候选主题词义为主题词义的文本文档的数目与训练文本文档集中该候选 主题词义不为主题词义的文本文档的数目的比例;然后,将该篇文本文档的所有候选主题词义按概率Pr值由大到小进行排序;最后,选择排序在前的用户设定数目的候选主题词义构成该篇文本文档的最终的 主题词义集合。
Pr [T I yes]、Pr
、Pr [L| yes]、Pr [C I yes]和 Pr [yes]的计算公式分别为Ργ[Γ I 外 5] = tfxidf\cs'm)ftfxidfd\cs'm)Pr
= fol (cs'J / fod'(cs'JPr[Z I yes] = J^ (cs'm) /Iend' (cs'm )Pr[C I yes] = (cs'm ) / cohd' (cs'm ) 其中,d'为测试文本文档集中的文本文档,cs' m为文本文档d'的第m个 候选主题词义,m= 1,2,…,M,M为文本文档d'的候选主题词义集合中候选主题词 义的个数;tf Xidfd' (cs' J , fOd ‘ (cs' m)、Iend' (cs ‘ J 和 cohd ‘ (cs ‘ J 分 别为候选主题词义cs' m在文本文档d'中的tf X idf、fo、Ierucoh特征属性值; tfxidf\cs'm), Jo {cs'm), ^1CcO和^1CoO分别为CS' >在文本文档集合Tl中的平均 tfXidf、fo、len、coh特征属性值;所述的文本文档集合T1为由训练文本文档集中该候选 主题词义cs' m为主题词义的文本文档组成的集合;所述的文本文档集合T°为由训练文本 文档集中该候选主题词义cs' m不为主题词义的文本文档组成的集合; 其中,
分别为候选主题词义cs' m
在文本文档集合T1中第η篇文本文档中的tf X idf、fo、len、coh特征属性值。有益效果本发明提出一种文本文档主题词义的自动提取方法,使用词义代替词进行处理, 消除了词多义性导致的主题意思表达不准确和提取过程误操作的问题,从而提高算法的准 确率。此外,在提取过程中本发明同时考虑了统计信息(贝叶斯估计概率)和语义信息(词 义),进一步提高了算法的精度。


图1 本发明方法的基本流程2 使用本发明方法进行主题词义提取的实验结果图
具体实施例方式给定训练文本文档集T = It1,…,t|T|}和待提取的文本文档集(测试文本文档 集)E= Ie1,…,e|E|},分别对T和E中的每篇文本文档按如下步骤一和步骤二进行处理, 具体为步骤一文本文档预处理。对于τ中的文本文档、(i = 1,…,τ|, |τ为文本文 档集合T中的文本文档篇数),首先利用步骤1. 1得到该文本文档的候选主题词,然后利用 步骤1. 2来获得候选主题词义,最后使用步骤1. 3进行候选主题词义的合并处理,得到文本 文档^最终的候选主题词义集合。步骤1. 1 获取候选主题词。首先,去除文本文档、中的数字和各种标点符号,将 文本文档表示为词的集合ti= Iw1, Wij,…};然后,对该词集合中的每一个词W…本 发明采用以下规则来判断其是否为候选主题词如果组成Wu的字母个数大于预设值L(这 里,L = 15),或者组成Wij的字母全为大写,或者Wij为停用词(即包括冠词、代词等在内的虚 词),则不能为候选主题词,将其从集合Iw1,…,《……}中去掉;最后,将集合Iw1,…, Wij, ···}中所有单词的大写字母变成小写字母,并除去单词的前后缀,即每个候选主题词以 词根形式表示,得到文本文档、的候选主题词集合CWi= Icw1, -,CWij,…}。步骤1. 2 获取候选主题词义。对于文本文档、的候选主题词集合CWi = {cwi;…, CWij, ···}中的候选主题词CWij (j = 1,…,IcwiI, IcwiI为候选主题词集合CWi中的候选主 题词的个数),本发明采用消歧算法得到其在文本文档ti中的正确词义。首先,在CWi中,选择的W距离范围内的所有词为其上下文,得到Cwij
的上下文集合cV =柄,…, ,…,(Icij为上下文集合Cij中的词的个数),而
sO =体,···, ,…,5咖为该候选主题词CWij的所有可能词义的集合,其中,IsijI为可能词 义集合Sij中可能词义的个数,这里,可能词义是定义在词法数据库WordNet中的候选主题 词的词义;然后,按下式计算候选主题词的第k个可能词义suk与它的第1个上下文 Cijl 的语义相关度 rel (siJk, Cijl) 其中,WordNumlnGlossOfsijk表示Sijk的WordNet释义包含的单词个数, wordNumlnGlossOfCij!表示 Cijl 的 WordNet 释义包含的单词个数,NumOfOverlapS-SijkCijl 表 示Sijk的WordNet释义和Cijl的WordNet释义所包含的单词中相同单词的个数;再按下式求取每一个可能词义Sijk与上下文集合中所有上下文Cijl (1 = 1,…, CijI)的总的语义相关度SenseScore (Sijk) 最后,选取具有最大的总的语义相关度SenseScore值的可能词义作为候选主题 词CWu的正确词义,即候选主题词CWu的候选主题词义。采用上述方法计算得到文本文档、的候选主题词集合CWi = {cwi; -,CWij,…} 中的所有候选主题词cWij(j = 1,2,…,IcwiI)的候选主题词义,构成文本文档、的候选 主题词义集合,记={ ···,-..,^lcsfl),其中,IcsiI为集合CSi中候选主题词义的 个数。步骤1. 3 候选主题词义的合并。对于候选主题词义集合CSi中的任意两个候选 主题词义CSil^P Csitl (P,q= 1,2,…,|CSi|,p乒q),按式(3)计算它们之间的语义相关度 rel(csip c、),如果rel(csip,csiq) > λ (λ为给定阈值),则认为对应的候选主题词cwip 和CWitl在语义上是相同的,将CSip和CSitl作为同一候选主题词义,即在候选主题词义集合 CSi 中删除 Csip 或 csi(1。
reKcsip,csiq) =-NumOfOverlaps _csipcsiq__(〕)
(WordNumlnGlossOfcsip + wordNumInGlossOfcsiq)/2其中,WordNumlnGlossOfcsip表示csip的WordNet释义包含的单词个数, WordNumlnGlossOfcsiq 表示 csiq 的 WordNet 释义包含的单词个数,Num0f0verlaps_csipcsiq 表示Csip的WordNet释义和csi(1的WordNet释义所包含的单词中相同单词的个数。步骤二 特征属性的计算。对于步骤一得到的文本文档、的候选主题词义集合CSi 中的每一个候选主题词义CSim (m= 1,2,…,ICS」,ICSiI为CSi中候选主题词义的个数), 分别计算它的四个特征属性值,即该候选主题词义在文本文档中出现的频率tf X idf、该候 选主题词义在文本文档中第一次出现的平均位置fo、该候选主题词义包含的字母个数Ien 和候选主题词义之间的内聚性coh,候选主题词义Csim的tf X idf、fo和coh属性值的具体 计算公式为 fo 其中,f (CSim)为该候选主题词义CSim在文本文档、中出现的次数,|τ|为文本文 档集T中的文本文档篇数,T(CSiffl) I为在文本文档集T中包含该候选主题词义CSim的文本 文档篇数;0firSt为该候选主题词义CSim在文本文档ti中第一次出现的位置;rel(CSim,CSip) 为按式(3)计算的候选主题词义之间的语义相关度。对于待提取的文本文档集E = Ie1,…,…,e|E|}(即测试文本文档集)中的每 篇文本文档也采用上述步骤一和步骤二进行处理。其中,对于E= Ie1,…,…,e|E|}中 的每一篇文本文档ei;得到其候选主题词义集合={cev,c^_r__,ce;|c£,丨}以及其中每一个候选主题词义Ceij的四个特征属性值tfXidf (Ceij)、fo (Ceij)、Ien(Ceij)和Coh(Ceu)。 下面将通过步骤三,即采用贝叶斯估计的方法来提取待提取文本文档集
即测试文本文档集)的主题词义。具体为步骤三主题词义的提取。由于训练文本文档集的主题词义是已知的,因此, 对于测试文本文档集E中的文本文档ei的每一个候选主题词义ceu,首先,根据其是否 为训练文本文档的主题词义,将训练文本文档集T分为两类对于训练文本文档集T中 的文本文档ti;如果该候选主体词义ceu为、的主题词义,则将文本文档、归入第一 类文本文档集合T1 ;如果该候选主体词义ceu不为、的主题词义,则将文本文档、归 入第二类文本文档集合T°。然后,用下面的公式计算ceu在集合T1中的平均属性值 其中,tfXidf^ceij)、fal(cey)、Ien1u(Ceij)、⑶办 )分别为 Ceij在集合T1 中的第 u篇文本文档tu中的tf X idf、fo、len、coh属性值;最后,按下式计算候选主题词义ceu在文本文档^中成为最终的主题词义的概率 Pr Pr = Pr [Τ | yes] X Pr
X Pr [L | yes] X Pr [C | yes] X Pr [yes] (11)其中,Pr[Τ I yes]、Pr
、Pr [LI yes]和 Pr [C | yes]分别表示测试文本文档集 E中的文本文档ei的候选主题词义Ceij在具备当前特征属性值tf Xidf、fo、len、coh的条 件下为主题词义的贝叶斯估计概率,Pr [yes]表示训练文本文档集中该候选主题词义是主 题词义的文本文档的数目与训练文本文档集中该候选主题词义不是主题词义的文本文档 的数目的比例;Pr [T I yes]、Pr
、Pr [L| yes]、Pr [C I yes]和 Pr [yes]的计算公式分别为
(12) 其中,
分别为ceij在测试文本文 档集E中的文本文档ei中的tf Xidf、fo、Ierucoh属性值;I T11和|T°|分别为集合T1和 T0中包含的文本文档篇数。采用上述方法计算待提取文本文档集(即测试文档集)中每篇文本文档ei的候 选主题词义集合中的所有候选主题词义成为最终的主题词义的概率Pr,并按照Pr值由大 到小进行排序,根据需要将排序在前的N个候选主体词义作为提取的文本文档ei的主题词 义。示例实验我们使用Java程序实现本发明,然后进行了一组实验来评估本发明, 在实验中,阈值λ设为0.9。实验数据为从UN Food和农业组织维护的在线文本文档数据 库中随机的下载了 500篇包含主题词的文本文档。这些文本文档平均包含的主题词个数为 4. 95个。300篇文本文档被用来训练模型,其他的200篇文本文档用来做测试。Precision (准确率)、Recall(召回率)和综合的F-measure被用来对主题词义 提取算法进行评价。 其中,correct—extracted—keywords为正确提取的主题词义个数,all— extracted—keywords为提取的所有主题词义的个数,manually_assigned—keywords为人 工分配的主题词义的个数。公式(17)、(18)和(19)用来对每一篇文本文档进行评估,最终的Precision、 Recall和F-measure是整个测试文本文档集的平均值。说明书附图2给出了实验的结果。横轴表示本发明方法提取的主题词义的总数 目,它的范围是从1到20,纵轴表示提取出来的主题词义正确的平均数目。从图中可以看 出,当提取的总主题词义数为5个时,正确的主题词义大约为3个,达到了约60%的准确率; 当提取的总主题词义数为9个时,正确的主题词义大约为4个,达到了约80%的准确率;当 提取的总主题词义数为15个时,正确的主题词义大约为4. 5个,达到了 90%的准确率。以 上分析表明,本发明的主题词义提取方法有较好的性能。从每篇文本文档提取出的主题词义集合中按顺序选取排序前五位的词义;然后, 采用评估公式(17)、(18)和(19)来计算每篇文本文档的Precision、Recall和F-measure ; 最后,计算相对于所有文本文档性能的平均值,最终的结果如表1所示。表1主题词义提取算法的性能 从评估实验可以看出,本发明的主题词义提取方法有较好的性能,准确率和召回 率都比较高,能够应用于文本文档的自动主题意思提取。这主要是因为本发明使用词义代 替词来进行处理,从而能够更准确获取文本文档的主题意思。从附图2可以看出,当算法提 取的总主题词义数达到9个时,能达到80%的准确率,所以本发明方法也可应用于半自动 的文本文档主题标注,首先使用本发明方法产生多个主题词义,然后由用户来做筛选。
权利要求
一种文本文档主题词义的自动提取方法,其特征在于步骤如下(1)分别对训练文本文档集和测试文本文档集中的每篇文本文档进行预处理,得到每篇文本文档的候选主题词义集合;所述的预处理包括以下步骤步骤a提取文本文档的候选主题词集合首先,去除文本文档中的数字和标点符号,将文本文档切分成现有词的集合;然后,去除集合中不满足条件的词;最后,将剩余词中的大写字母转换为小写字母,并去掉词的前缀和后缀,得到文本文档的候选主题词集合;所述的条件为组成词的字母个数小于预设值,或至少有一个小写字母,或非停用词;所述的非停用词是指停用词以外的所有词,所述的停用词是虚词;所述的预设值为15个字母;步骤b采用消岐算法获取文本文档的候选主题词义集合首先,在候选主题词集合中选择距离每个候选主题词W范围内的词作为该候选主题词的上下文;所述的W的取值范围为[6,10];然后,按语义相关度计算公式计算每个候选主题词的第k个可能词义sk和该候选主题词的第i个上下文ci的语义相关度rel(sk,ci),并按计算候选主题词的第k个可能词义sk与该候选主题词的所有上下文的总的语义相关度SenseScore(sk);其中,k=1,2,…,K,K为候选主题词的可能词义的个数;i=1,2,…,I,I为候选主题词的上下文的个数;wordNumInGlossOfsk表示sk的WordNet释义包含的单词个数,wordNumInGlossOfci表示ci的WordNet释义包含的单词个数,NumOfOverlaps_skci表示sk的WordNet释义和ci的WordNet释义所包含的单词中相同单词的个数;所述的可能词义为定义在词法数据库WordNet中的词义;最后,选择总的语义相关度SenseScore值最大的可能词义作为候选主题词的候选主题词义,得到文本文档的候选主题词义集合;步骤c合并候选主题词义按语义相关度计算公式计算候选主题词义集合中任意两个候选主题词义和的语义相关度,并去除语义相关度值大于给定阈值λ的两个候选主题词义中的任意一个;所述的阈值λ的取值范围为
;其中,p≠q,为候选主题词义集合中候选主题词义的个数;表示的WordNet释义包含的单词个数,表示的WordNet释义包含的单词个数,表示的WordNet释义和的WordNet释义所包含的单词中相同单词的个数;(2)计算候选主题词义集合中每个候选主题词义在文本文档中的特征属性值;所述的特征属性包括侯选主题词义在文本文档中出现的频率tf×idf、侯选主题词义在文本文档中第一次出现的平均位置fo、侯选主题词义包含的字母个数len和候选主题词义之间的内聚性coh;所述的侯选主题词义在文本文档中出现的频率tf×idf的计算公式为 <mrow><mi>tf</mi><mo>&times;</mo><mi>idf</mi><mrow> <mo>(</mo> <msub><mi>cs</mi><mi>j</mi> </msub> <mo>)</mo></mrow><mo>=</mo><mi>f</mi><mrow> <mo>(</mo> <msub><mi>cs</mi><mi>j</mi> </msub> <mo>)</mo></mrow><mo>&times;</mo><mi>log</mi><mfrac> <mrow><mo>|</mo><mi>D</mi><mo>|</mo> </mrow> <mrow><mo>|</mo><mi>D</mi><mrow> <mo>(</mo> <msub><mi>cs</mi><mi>j</mi> </msub> <mo>)</mo></mrow><mo>|</mo> </mrow></mfrac> </mrow>其中,csj为文本文档的候选主题词义集合中的第j个候选主题词义,j=1,2,…,J,J为文本文档的候选主题词义集合中候选主题词义的个数;f(csj)为csj在文本文档中出现的次数,D表示文本文档集,|D|为D中的文本文档篇数,|D(csj)|为在D中包含候选主题词义csj的文本文档篇数;所述的侯选主题词义在文本文档中第一次出现的平均位置fo的计算公式为fo(csj)=Ofirst/J其中,Ofirst为候选主题词义csj在文本文档中第一次出现的位置;所述的候选主题词义之间的内聚性coh的计算公式为 <mrow><mi>coh</mi><mrow> <mo>(</mo> <msub><mi>cs</mi><mi>j</mi> </msub> <mo>)</mo></mrow><mo>=</mo><mfrac> <mrow><munderover> <mi>&Sigma;</mi> <mrow><mi>l</mi><mo>=</mo><mn>1</mn><mo>,</mo><mi>l</mi><mo>&NotEqual;</mo><mi>j</mi> </mrow> <mi>J</mi></munderover><mi>rel</mi><mrow> <mo>(</mo> <msub><mi>cs</mi><mi>j</mi> </msub> <mo>,</mo> <msub><mi>cs</mi><mi>l</mi> </msub> <mo>)</mo></mrow> </mrow> <mrow><mi>J</mi><mo>-</mo><mn>1</mn> </mrow></mfrac> </mrow>其中,rel(csj,csl)为按语义相关度计算公式计算得到的文本文档的候选主题词义集合中候选主题词义csj和候选主题词义csl的语义相关度;wordNumInGlossOfcsj表示csj的WordNet释义包含的单词个数,wordNumInGlossOfcsl表示csl的WordNet释义包含的单词个数,NumOfOverlaps_csjcsl表示csj的WordNet释义和csl的WordNet释义所包含的单词中相同单词的个数;(3)利用贝叶斯模型抽取测试文本文档集中每篇文本文档的最终的主题词义集合首先,按Pr=Pr[T|yes]×Pr[O|yes]×Pr[L|yes]×Pr[C|yes]×Pr[yes]计算测试文本文档集中每篇文本文档的每个候选主题词义为主题词义的概率Pr;其中,Pr[T|yes]、Pr[O|yes]、Pr[L|yes]和Pr[C|yes]分别表示候选主题词义在具备当前tf×idf、fo、len、coh特征属性值的条件下为主题词义的概率,Pr[yes]表示训练文本文档集中该候选主题词义为主题词义的文本文档的数目与训练文本文档集中该候选主题词义不为主题词义的文本文档的数目的比例;然后,将该篇文本文档的所有候选主题词义按概率Pr值由大到小进行排序;最后,选择排序在前的用户设定数目的候选主题词义构成该篇文本文档的最终的主题词义集合。FSA00000175174700011.tif,FSA00000175174700012.tif,FSA00000175174700021.tif,FSA00000175174700022.tif,FSA00000175174700023.tif,FSA00000175174700024.tif,FSA00000175174700025.tif,FSA00000175174700026.tif,FSA00000175174700027.tif,FSA00000175174700028.tif,FSA00000175174700029.tif,FSA000001751747000210.tif,FSA000001751747000211.tif,FSA000001751747000212.tif,FSA000001751747000213.tif,FSA00000175174700033.tif
2.根据权利要求1所述的一种文本文档主题词义的自动提取方法,其特征在于所述 的 Pr [T| yes]、Pr [O I yes]、Pr [L| yes]、Pr [C I yes]和 Pr [yes]的计算公式分别为 其中,d'为测试文本文档集中的文本文档,cs' m为文本文档d'的第m个候选 主题词义,m=l,2,…,M,M为文本文档d'的候选主题词义集合中候选主题词义 的个数;tfX idfd ‘ (cs ‘ ffl)、fod ‘ (cs ‘ ffl)、Iend ‘ (cs ‘ J 和 cohd ‘ (cs ‘ J 分 别为候选主题词义cs' m在文本文档d'中的tf X idf、fo、Ierucoh特征属性值;tf xidf\cs'm), Jo\cs'm) , ^1(CA)和Gf (O分别为CS' _ 在文本文档集合T1中的平均tfXidf、fo、len、coh特征属性值;所述的文本文档集合T1为由训练文本文档集中该候选 主题词义cs' m为主题词义的文本文档组成的集合;所述的文本文档集合T°为由训练文本 文档集中该候选主题词义cs' m不为主题词义的文本文档组成的集合;tf^idf\cs'm), Jo(CSfm), ^1(CC)和 (αΟ 的计算公式分别为 其中,i/xzlX)、M(CS1m) , /⑶X)和”分别为候选主题词义CS' m在文本文档集合T1中第η篇文本文档中的tf X idf、fo、len、coh特征属性值。
全文摘要
本发明涉及一种文本文档主题词义的自动提取方法,包括首先对训练文本文档集和测试文本文档集进行文本文档预处理,得到训练文本文档集和测试文本文档集中每一篇文本文档的候选主题词义集合;然后,分别计算每一个候选主题词义的特征属性值;最后,利用贝叶斯模型抽取测试文本文档集中每一篇文本文档的最终的主题词义。本发明的整个过程采用词义代替词进行主题意思的提取,避免了一词多义性带来的不准确性,应用本发明可以提高主题意思提取的精度。
文档编号G06F17/27GK101887415SQ20101021010
公开日2010年11月17日 申请日期2010年6月24日 优先权日2010年6月24日
发明者常威威, 方俊, 郭雷 申请人:西北工业大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1