一种词汇语义褒贬获得方法、系统及装置的制作方法

文档序号:6608818阅读:187来源:国知局
专利名称:一种词汇语义褒贬获得方法、系统及装置的制作方法
技术领域
本发明涉及智能信息处理技术领域,尤其涉及一种词汇语义褒贬获得方 法、系统及装置。
背景技术
日益活跃的网络群体在互联网上留下了大量的评论信息,这些评论信息包
括新闻、论坛、Email和个人博客(blog)等。对于这些评论信息的情感分析 无疑能够提供大量有价值的信息。而文本情感分析是指通过计算机技术,自动 分析文本信息所包含的情感因素,例如喜欢或讨厌、正面或负面、快乐或悲伤、 愤怒和恐惧等。情感分析有着众多的潜在应用领域在商业领域,可以帮助企 业进行市场分析和调查、顾客反馈等;在政治领域,可以帮助政府部门了解群 众对于政策法规的反馈意见。
与传统的人工处理方式相比,通过计算机自动提取文档中的情感因素是一 种新的实时分析信息的方法。它可以高效处理非结构化的文本数据,从而应对 互联网上日益泛滥的海量数据。其中,词汇语义褒贬分析是文本情感分析研究 的基础。词汇语义褒贬分析任务是试图理解一个词汇的情感语义属性及其强度 因子。
目前, 一种对于词汇语义褒贬分析的研究方法为统计方法,利用文档集中 词汇间的共现关系来计算词汇语义褒贬。现有的基于搜索引擎的词汇语义褒贬 获得方法中,采用基于搜索引擎AND (和)关系的PMI-IR (Pairwise Mutual Information,点间互信息)技术,如图1所示,其步骤可以概括如下
步骤S101,选定褒义和贬义种子词汇集合PWords和NWords,并通过向 搜索引擎发送查询请求,记录每个种子词汇Wi(i为不大于Q的正整数,Q为PWords和NWords的总个数)的命中数Hits(W;);
步骤S102,读入一个需要计算的词汇A,向搜索引擎发送查询请求"A", 并结合每个种子词汇Wi向搜索引擎发送查询请求"A Wi";
步骤S103,读取搜索引擎返回的对"A"和"A Wi,,的查询结果,从中分 析出命中数Hits(A)以及每个种子词汇对应的Hits(A,Wi);
步骤S104,根据Hits(A)、 Hits(A,Wi)、 Hits(Wi),计算A和每个Wi的点间 互信息PMI(A,Wi);
在本步骤中,可以采用公式(1)进行计算
<formula>formula see original document page 6</formula>(1)
其中,N表示搜索引擎索引的总文档数量。
步骤SI05,用A与PWords中词汇的点间互信息之和,减去A与NWords 中词汇的点间互信息之和得到V(A);
步骤S106,判断V(A)是否大于褒贬阈值T,如果是,则标注A的词义为 褒义,否则标注A的词义为贬义,其中,V(A)减去T的绝对值可以认为是语 义褒贬的强度。
Turney的PMI-IR实验选择了 AltaVista高级搜索中的NEAR操作符,其 NEAR限制网页搜索范围为查询词汇间距离为IO个词以内的文档。发明人通 过实验证明,文档内NEAR关系性能明显好于AND关系。然而,目前已经没 有主流搜索引擎支持NEAR操作符,因此在利用搜索引擎进行查询时只能采用 AND关系,从而导致词汇语义褒贬判断准确率下降^f艮多。

发明内容
本发明实施例提供一种词汇语义褒贬获得方法、系统及装置,用以提高确 定词汇语义褒贬的准确率。
本发明实施例提供了 一种词汇语义褒贬的确定方法,包括以下步骤通过搜索引擎查询获得命中待处理词汇的第一文档数、命中所述待处理词 汇分别与每个种子词汇的结合的第二文档数集合以及命中所述结合的文档集
合中相应的摘要信息;
获得每个种子词汇对应的摘要信息中所述待处理词汇与相应种子词汇间 符合设定共现关系的文档比例;
根据所述查询的总文档数量、所述第一文档数、所述第二文档数集合、命 中每个种子词汇的第三文档数集合以及每个种子词汇对应的文档比例获得所 述待处理词汇与每个种子词汇的点间互信息;并且
根据各种子词汇的褒贬情况及相应的点间互信息确定所述待处理词汇的
语义褒贬。
进一步地,上述方法还可具有以下特点设定所需摘要信息的数量,在获 得所述摘要信息时,根据所述设定获得相应数量的摘要信息。
进一步地,上述方法还可具有以下特点根据如下公式获得所述待处理词 汇与 一种子词汇的点间互信息PMI (A,Wi):
广1
^;toj(AWi)^C4,Wi)
其中,N表示搜索引擎索引的总文档数量;hits(A)表示所述第一文档数; F(A,Wj)表示该一种子词汇对应的文档比例;hits(A,Wi)表示所述第二文档数 集合中该一种子词汇对应的文档数;hits(Wi)表示所述第三文档数集合中该一 种子词汇对应的文档数。
进一步地,上述方法还可具有以下特点所述"&定共现关系为以下几种关 系之一
片断内共同出现的关系;
片断内共同出现,且距离不超过设定个数的字或词的关系; 句子内共同出现的关系;
句子内共同出现,且距离不超过设定个数的字或词的关系。进一步地,上述方法还可具有以下特点所述确定所述待处理词汇的语义 褒贬的具体方法为
获得所述待处理词汇与各种子词汇中的褒义词汇的点间互信息之和,以及 所述待处理词汇与各种子词汇中的贬义词汇的点间互信息之和;
根据所述两个点间互信息之和的差值确定所述待处理词汇的语义褒贬。
进一步地,上述方法还可具有以下特点获得所述第三文档数集合的方法 为预先选定所述各种子词汇,并通过搜索引擎分别查询命中每个种子词汇的 文档数构成所述第三文档数集合。
进一步地,上述方法还可具有以下特点所述词汇为字、词以及短语中的 任意一个。
本发明实施例还提供了 一种确定词汇语义褒贬的系统,包括计算机和搜索 引擎,其中
所述搜索引擎,用于查询命中指定词汇的文档集合;
所述计算机,用于通过所述搜索引擎查询获得命中待处理词汇的第一文档 数、命中所述待处理词汇分别与每个种子词汇的结合的第二文档数集合以及命 中所述结合的文档集合中相应的摘要信息;获得每个种子词汇对应的摘要信息 中所述待处理词汇与相应种子词汇间符合设定共现关系的文档比例;根据所述 查询的总文档数量、所述第一文档数、所述第二文档数集合、命中每个种子词 汇的第三文档数集合以及每个种子词汇对应的文档比例获得所述待处理词汇 与每个种子词汇的点间互信息;并且根据各种子词汇的褒贬情况及相应的点间 互信息确定所述待处理词汇的语义褒贬。
本发明实施例还提供了一种确定词汇语义褒贬的装置,包括
用于通过搜索引擎查询获得命中待处理词汇的第一文档数、命中所述待处 理词汇分别与每个种子词汇的结合的第二文档数集合以及命中所述结合的文 档集合中相应的摘要信息的模块;
获得每个种子词汇对应的摘要信息中所述待处理词汇与相应种子词汇间符合设定共现关系的文档比例的模块;
根据所述查询的总文档数量、所述第一文档数、所述第二文档数集合、命 中每个种子词汇的第三文档数集合以及每个种子词汇对应的文档比例获得所 述待处理词汇与每个种子词汇的点间互信息的模块;以及
根据各种子词汇的褒贬情况及相应的点间互信息确定所述待处理词汇的 语义褒贬的模块。
进一步地,上述装置还可具有以下特点所述装置还包括
用于预先选定所述各种子词汇的模块;以及
用于通过搜索引擎分别查询命中每个种子词汇的文档数构成所述第三文 档数集合的模块。
本发明实施例提供的技术方案利用与待处理词汇相关的搜索引擎动态摘 要信息中的词汇共现关系,提高词汇语义褒贬判断的准确率。采用本发明实施 例提供的技术方案,能够明显提高词汇语义褒贬计算方法的准确率,具有重要 的应用价值。


图1为现有的基于搜索引擎的词汇语义褒贬获得方法的流程图2为本发明实施例中基于搜索引擎的词汇语义褒贬获得方法的流程图3为本发明实施例中的确定词汇语义褒贬的系统示意图。
具体实施例方式
本发明实施例中,利用与待处理词汇相关的搜索引擎动态摘要信息中的词 汇共现关系,提高词汇语义褒贬判断的准确率。
首先,通过搜索引擎查询获得命中待处理词汇的第一文档数、命中该待处 理词汇分别与每个种子词汇的结合的第二文档数集合以及命中该结合的文档 集合中相应的摘要信息;获得每个种子词汇对应的摘要信息中该待处理词汇与相应种子词汇间符
合设定共现关系的文档比例;
然后,根据该查询的总文档数量、该第一文档数、该第二文档数集合、命 中每个种子词汇的第三文档数集合以及每个种子词汇对应的文档比例获得该 待处理词汇与每个种子词汇的点间互信息;并且
从而#4居各种子词汇的褒贬情况及相应的点间互信息确定该待处理词汇 的语义褒贬。
其中,由于增加了获得第二文档集合中相应的摘要信息中该待处理词汇与 各种子词汇间符合设定共现关系的文档比例的步骤,并且结合该文档比例来获 得待处理词汇与相应种子词汇的点间互信息,从而提高了确定词汇语义褒贬的 准确率。
在本文中,词汇可以为字、词以及短语中的任意一个。 下面结合附图对本发明实施例做进一步地描述。
本发明实施例中基于搜索引擎的词汇语义褒贬获得方法的流程如图2所 示,包括以下步骤
步骤S201,选定褒义和贬义种子词汇集合PWords和NWords,并通过向 搜索引擎发送查询请求,记录每个种子词汇Wi (i为不大于Q的正整数,Q为 PWords和NWords的总个数)的命中数Hits(Wi)得到第三文档数集合;
本步骤中的种子词汇集合需要精心选择, 一般而言选择一些反义词词对, 同时种子词汇个数足够多时,效果会比较好。
步骤S202,读入一个需要计算的词汇A (即待处理词汇),向搜索引擎发 送查询请求"A",并结合每个种子词汇Wj向搜索引擎发送查询请求"AWi,,;
步骤S203,读取搜索引擎返回的对"A"和"A Wi"的查询结果,从中分 析出命中待处理词汇A的第 一文档数Hits(A)、命中该待处理词汇A分别与每 个种子词汇Wj的结合"A Wi"的第二文档数集合Hits(A,Wi)以及命中该结合的 文档集合中相应的摘要信息;在具体实施时,文档标题也可以被看作摘要信息中的一部分,作为一个片 断或句子进行后续处理。并且,可以设定所需摘要信息的数量,在获得该摘要
信息时,根据该设定获得相应数量的摘要信息。例如,设定读取并分析出前100
个文档的摘要信息,则在实施时,如果命中该结合的文档集合中包括摘要信息
的文档数量大于100个,则在本步骤中,会读取并分析出前ioo个文档的摘要信息。
步骤S204,获得每个种子词汇对应的摘要信息中该待处理词汇与相应种子 词汇间符合设定共现关系的文档比例F(A,WO;
本步骤中的设定共现关系可以为以下几种关系之一 片断内AND关系,即片断内共同出现的关系;
片断内NEAR关系,即片断内共同出现,且距离不超过设定个数的字或词 的关系;
句子内AND关系,即句子内共同出现的关系;
句子内NEAR关系,即句子内共同出现,且距离不超过设定个数的字或词 的关系。
由于对摘要信息中的内容进行了分析,因此,本发明实施例提供的技术方 案可以更好地保证确定出的词汇语义褒贬。并且,由于NEAR关系性能明显好 于AND关系,然而目前已经没有主流搜索引擎支持NEAR操作符,因此,在 本流程中,可以由本地计算机在本步骤中进行NEAR关系的判断,从而获得更 好的性能。
其中,在设定NEAR关系中不超过字或词的设定个数时,应当根据实际情 况和经验值找到最优值进行设置,以求获得最好的效果,并且应该注意到,不 同的语言可能有不同的最优值,比如英文在设定个数M-5时、中文在设定个 数M-3时效果较好。
在获得该摘要信息中该待处理词汇与各种子词汇间符合设定共现关系的 文档比例F(A,Wi)时,可以才艮据公式(2)进行计算<formula>formula see original document page 12</formula>
其中,K(A,Wi)为步骤S203中读取并分析的对应第i个种子词汇的摘要信 息的相应文档个数,Rd(A,Wj)为K(A,Wi)个摘要信息中满足设定共现关系的摘 要信息个数。可见,在设定读取并分析出前IOO个文档的标题和摘要的情况下, 如果命中该结合的文档集合中包括摘要信息的文档数量大于100个,则由于只 读取并分析出前IOO个文档的摘要信息,因此,则K(A,Wi)为100,而该100 个文档中摘要信息中满足设定共现关系的摘要信息个数为Rel(A,Wi)。
步骤S205,根据该查询的总文档数量、该第一文档数、该第二文档数集合、 命中每个种子词汇的第三文档数集合以及每个种子词汇对应的文档比例获得 该待处理词汇与每个种子词汇的点间互信息PMI (A,Wj);
在本步骤中,可以根据公式(3 )进行计算获得该待处理词汇与第i个种子 词汇的点间互信息PMI (A,Wi):
<formula>formula see original document page 12</formula>
其中,N表示搜索引擎索引的总文档数量;hits(A)表示该第一文档数; F(A,Wi)表示该一种子词汇对应的文档比例;hits(A,Wi)表示该第二文档数集 合中该一种子词汇对应的文档数;hits(Wi)表示该第三文档数集合中该一种子 词汇对应的文档数。
步骤S206,根据各种子词汇的褒贬情况及相应的点间互信息确定该待处理 词汇的语义褒贬。
在本步骤中,可以通过获得该待处理词汇与各种子词汇中的褒义词汇的点 间互信息之和,以及该待处理词汇与各种子词汇中的贬义词汇的点间互信息之 和;并根据两个点间互信息之和的差值确定该待处理词汇的语义褒贬。
具体如何确定该待处理词汇的语义褒贬可以有多种方式,例如
方式一设置一个褒贬阈值T来确定语义褒贬。
用A与PWords中词汇的点间互信息之和,减去与NWords中词汇的点间 互信息之和得到V(A),判断V(A)是否大于褒贬阈值T,如果是,则标注A的 词义为褒义,否则标注为贬义,其中,V(A)减去T的绝对值可以认为是语义褒 贬的强度。
其中,获得褒贬阚值T的方法可以为从测试集中选择了 X对反义词(比 如X为10 ),计算这2*X个词汇的语义褒贬值V的平均值Avg作为判断语义 褒贬的阈值。或者,选定一个褒贬义词个数相当的词汇集,计算该集合所有词 汇语义褒贬值V的平均值。
方式二
分别设置褒义阈值P和贬义阈值N来确定语义褒贬。
用A与PWords中词汇的点间互信息之和,减去与NWords中词汇的点间 互信息之和得到V(A), V(A)大于P时A标注为褒义,小于N时标注为贬义, 介于P和N之间时标注为中性,其中,P>N。
同样,也可以用A与NWords中词汇的点间互信息之和,减去与PWords 中词汇的点间互信息之和得到V(A), , V(A),大于N时A标注为褒义,小于P 时标注为贬义,介于P和N之间时标注为中性,其中,N>P。
在本发明的一个实例中,针对英文测试集,具体的才喿作流程如下
首先,子贞先选定褒义种子词汇集合PWords{good, nice, excellent, positive, fortunate, correct, and superior}和贝乏义种子词汇集合NWords {bad, nasty, poor, negative, unfortunate, wrong, and inferior},并通过搜索引擎分别查询命中每个种 子词汇的文档数Hits(Wj)构成第三文档数集合;
读入待处理词汇A "respectfiil",向搜索引擎发送查询请求"respectfol", 并结合每个种子词汇Wj向搜索引擎发送查询请求"AWi",在具体实现时即分
另復送查询请求"respectfUl good" 、 "respectftil nice" ...... 'respectflil inferior',
即每个种子词汇与"respectfiil"的结合都进行查询;读取搜索引擎返回的对"A"和"AWi"的查询结果,从中分析出命中待处 理词汇"respectful"的第一文档数Hits(A)、命中该待处理词汇"respectful"分 别与每个种子词汇Wi的结合"A Wi"的第二文档数集合Hits(A,Wi)以及命中该 结合的文档集合中前100个文档的摘要信息;
分别分析(good, nice, excellent, positive, fortunate, correct, superior, bad, nasty, poor, negative, unfortunate, wrong, and inferior}各自对应的摘要信息中与 "respectfUl"的句子内NEAR关系,从而计算获得每个种子词汇对应的摘要信 息中"respectfUl"与相应种子词汇间符合^L定共现关系的文档比例F(A,Wi);
根据已经获得的数据利用公式(3)计算每个种子词汇与"respectfUl"的 点间互信息PMI (A,Wi);
用 "respectfbl"与PWords(good, nice, excellent, positive, fortunate, correct, and superior}中词汇的点间互信息之和,减去"respectfol"与NWords(bad, nasty, poor, negative, unfortunate, wrong, and inferior}中词汇的点间互信息之和,得到 "respectfUl"的语义褒贬值V(A):
如果V(A)大于褒贬阈值T,贝'J "respectfUl"标注为褒义,否则标注为贬义; V(A)减去T的绝对值可以认为是语义褒贬的强度。例如,其中T的取值可以 为10对反义词语义褒败值V的平均值。
本发明实施例中的确定词汇语义褒贬的系统,如图3所示,包括通过互联 网连接的计算机和搜索引擎,其中
搜索引擎,用于查询命中指定词汇的文档集合;
计算机,用于通过搜索引擎查询获得命中待处理词汇的第一文档数、命中 该待处理词汇分别与每个种子词汇的结合的第二文档数集合以及命中该结合 的文档集合中相应的摘要信息;获得每个种子词汇对应的摘要信息中该待处理 词汇与相应种子词汇间符合设定共现关系的文档比例;根据该查询的总文档数 量、该第一文档数、该第二文档数集合、命中每个种子词汇的第三文档数集合
勺点间互信息;并且4艮据各种子词汇的褒贬情况及相应的点间互信息确定该待处理词 汇的语义褒贬。
本发明实施例中的确定词汇语义褒贬的装置,包括
用于通过搜索引擎查询获得命中待处理词汇的第一文档数、命中该待处理 词汇分别与每个种子词汇的结合的第二文档数集合以及命中该结合的文档集 合中相应的摘要信息的模块;
获得每个种子词汇对应的摘要信息中该待处理词汇与相应种子词汇间符 合设定共现关系的文档比例的模块;
根据该查询的总文档数量、该第一文档数、该第二文档数集合、命中每个 种子词汇的第三文档数集合以及每个种子词汇对应的文档比例获得该待处理 词汇与每个种子词汇的点间互信息的模块;以及
根据各种子词汇的褒贬情况及相应的点间互信息确定该待处理词汇的语 义褒贬的模块。
该装置还可以包括
用于预先选定该各种子词汇的模块;以及
用于通过搜索引擎分别查询命中每个种子词汇的文档数构成该第三文档 数集合的模块。
综上所述,本发明实施例充分利用了与查询词相关的搜索引擎动态摘要中 的词汇共现关系,从而提高了词汇语义褒贬判断的准确率。实验表明,采用本 发明实施例提供的方法,明显提高词汇语义褒贬分析的准确率,从而大大增强 其实用性。其中,基于搜索引擎摘要中句子或片断内NEAR关系的方法,与基 于搜索引擎AND操作符的方法相比,在词汇褒贬判断准确率方面有明显的提 升效果。发明人统计得出如下数据英文词汇测试集(GI (General Inquirer) 词典标注褒义、贬义的词汇)准确率由67.78%提高到了 81.33%,中文词汇测 试集(HowNet词典标注"良"、"莠"的词汇)准确率由58.58%提高到69.78%。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及 其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
权利要求
1、一种词汇语义褒贬的确定方法,其特征在于,包括以下步骤通过搜索引擎查询获得命中待处理词汇的第一文档数、命中所述待处理词汇分别与每个种子词汇的结合的第二文档数集合以及命中所述结合的文档集合中相应的摘要信息;获得每个种子词汇对应的摘要信息中所述待处理词汇与相应种子词汇间符合设定共现关系的文档比例;根据所述查询的总文档数量、所述第一文档数、所述第二文档数集合、命中每个种子词汇的第三文档数集合以及每个种子词汇对应的文档比例获得所述待处理词汇与每个种子词汇的点间互信息;并且根据各种子词汇的褒贬情况及相应的点间互信息确定所述待处理词汇的语义褒贬。
2、 如权利要求1所述的方法,其特征在于,设定所需摘要信息的数量, 在获得所述摘要信息时,根据所述设定获得相应数量的摘要信息。
3、 如权利要求1所述的方法,其特征在于,根据如下公式获得所述待处 理词汇与一种子词汇的点间互信息PMI ( A,Wj):》to(AWi)"^0iWi)其中,N表示搜索引擎索引的总文档数量;hits(A)表示所述第一文档数; F(A,Wi)表示该一种子词汇对应的文档比例;hits(A,Wi)表示所述第二文档数 集合中该一种子词汇对应的文档数;hits(W。表示所述第三文档数集合中该一 种子词汇对应的文档数。
4、如权利要求1所述的方法,其特征在于,所述设定共现关系为以下几 种关系之一片断内共同出现的关系;片断内共同出现,且距离不超过设定个数的字或词的关系;句子内共同出现的关系;句子内共同出现,且距离不超过设定个数的字或词的关系。
5、 如权利要求l所述的方法,其特征在于,所述确定所述待处理词汇的 语义褒贬的具体方法为获得所述待处理词汇与各种子词汇中的褒义词汇的点间互信息之和,以及 所述待处理词汇与各种子词汇中的贬义词汇的点间互信息之和;根据所述两个点间互信息之和的差值确定所述待处理词汇的语义褒贬。
6、 如权利要求1所述的方法,其特征在于,获得所述第三文档数集合的 方法为预先选定所述各种子词汇,并通过搜索引擎分别查询命中每个种子词 汇的文档数构成所述第三文档数集合。
7、 如权利要求1所述的方法,其特征在于,所述词汇为字、词以及短语 中的任意一个。
8、 一种确定词汇语义褒贬的系统,其特征在于,包括计算机和搜索引擎, 其中所述搜索引擎,用于查询命中指定词汇的文档集合;所述计算机,用于通过所述搜索引擎查询获得命中待处理词汇的第一文档 数、命中所述待处理词汇分别与每个种子词汇的结合的第二文档数集合以及命 中所述结合的文档集合中相应的摘要信息;获得每个种子词汇对应的摘要信息 中所述待处理词汇与相应种子词汇间符合设定共现关系的文档比例;4艮据所述 查询的总文档数量、所述第一文档数、所述第二文档数集合、命中每个种子词 汇的第三文档数集合以及每个种子词汇对应的文档比例获得所述待处理词汇 与每个种子词汇的点间互信息;并且根据各种子词汇的褒贬情况及相应的点间 互信息确定所述待处理词汇的语义褒贬。
9、 一种确定词汇语义褒贬的装置,其特征在于,包括用于通过搜索引擎查询获得命中待处理词汇的第 一文档数、命中所述待处 理词汇分别与每个种子词汇的结合的第二文档数集合以及命中所述结合的文档集合中相应的摘要信息的模块;获得每个种子词汇对应的摘要信息中所述待处理词汇与相应种子词汇间 符合设定共现关系的文档比例的模块;根据所述查询的总文档数量、所述第一文档数、所述第二文档数集合、命 中每个种子词汇的第三文档数集合以及每个种子词汇对应的文档比例获得所 述待处理词汇与每个种子词汇的点间互信息的模块;以及根据各种子词汇的褒贬情况及相应的点间互信息确定所述待处理词汇的 语义褒贬的模块。
10、如权利要求9所述的装置,其特征在于,所述装置还包括用于预先选定所述各种子词汇的模块;以及用于通过搜索引擎分别查询命中每个种子词汇的文档数构成所述第三文 档数集合的模块。
全文摘要
本发明公开了一种词汇语义褒贬获得方法、系统及装置,用以提高确定词汇语义褒贬的准确率。在本发明中,通过搜索引擎查询获得命中待处理词汇的第一文档数、命中所述待处理词汇分别与每个种子词汇的结合的第二文档数集合以及命中所述结合的文档集合中相应的摘要信息;获得每个种子词汇对应的摘要信息中所述待处理词汇与相应种子词汇间符合设定共现关系的文档比例;根据所述查询的总文档数量、所述第一文档数、所述第二文档数集合、命中每个种子词汇的第三文档数集合以及每个种子词汇对应的文档比例获得所述待处理词汇与每个种子词汇的点间互信息;根据各种子词汇的褒贬情况及相应的点间互信息确定所述待处理词汇的语义褒贬。
文档编号G06F17/27GK101315625SQ20071009980
公开日2008年12月3日 申请日期2007年5月30日 优先权日2007年5月30日
发明者万小军, 吴於茜, 杨建武, 斌 路, 陈晓鸥 申请人:北大方正集团有限公司;北京北大方正技术研究院有限公司;北京大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1