用于构建极性词素数据库以及确定词的极性的方法和装置的制作方法

文档序号:6607955阅读:240来源:国知局
专利名称:用于构建极性词素数据库以及确定词的极性的方法和装置的制作方法
技术领域
本发明一般地涉及文字处理。更具体地,本发明涉及词的极性的判断。
背景技术
词的极性(polarity)的确定广泛应用于文章分类、观点挖掘和情感分析等。在传统的方法中,为了提高词的极性识别的性能,构造包括大量的具有手工标注词性的词的词典。构造这样的词典费时且成本高。

发明内容
根据本发明的第一方面,提供了一种用于构建极性词素数据库的方法,包括从语料库和/或词语库中提取具有极性的单音节词;以及对具有极性的单音节词标注极性,被标注极性的单音节词构成极性词素数据库。根据本发明的第二方面,提供了一种用于确定词的极性的方法,包括对于要确定极性的词,计算词与预定的极性词素数据库中的每个极性为褒义的词之间的互信息、以及词与极性词素数据库中的每个极性为贬义的词之间的互信息;根据所计算的词与极性词素数据库中的每个极性为褒义的词之间的互信息,计算词与极性词素数据库中的所有极性为褒义的词之间的关联性,并根据所计算的词与极性词素数据库中的每个极性为贬义的词之间的互信息,计算词与极性词素数据库中的所有极性为贬义的词之间的关联性;以及对词与极性词素数据库中的所有极性为褒义的词之间的关联性以及词与极性词素数据库中的所有极性为贬义的词之间的关联性进行比较,根据比较结果判定词的极性。根据本发明的第三方面,提供了一种用于构建极性词素数据库的装置,包括提取单元,被配置用于从语料库和/或词语库中提取具有极性的单音节词;以及标注单元,被配置用于对具有极性的单音节词标注极性,被标注极性的单音节词构成极性词素数据库。根据本发明的第四方面,提供了一种用于确定词的极性的装置,包括互信息计算单元,被配置用于对于要确定极性的词,计算词与预定的极性词素数据库中的每个极性为褒义的词之间的互信息、以及词与极性词素数据库中的每个极性为贬义的词之间的互信息;关联性计算单元,被配置用于根据互信息计算单元所计算的词与极性词素数据库中的每个极性为褒义的词之间的互信息,计算词与极性词素数据库中的所有极性为褒义的词之间的关联性,并根据互信息计算单元所计算的词与极性词素数据库中的每个极性为贬义的词之间的互信息,计算词与极性词素数据库中的所有极性为贬义的词之间的关联性;以及判定单元,被配置用于对关联性计算单元所计算的词与极性词素数据库中的所有极性为褒义的词之间的关联性以及词与极性词素数据库中的所有极性为贬义的词之间的关联性进行比较,根据比较结果判定词的极性。依据本发明的其它实施例,还提供了相应的计算机可读存储介质和计算机程序产
P
根据本发明的实施例,可以有效地构建极性词素数据库以及确定词的极性。通过以下结合附图对本发明的最佳实施例的详细说明,本发明的这些以及其它的优点将更加明显。


参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。附图中图1示出了根据本发明的一个实施例的构建极性词素数据库的方法的流程图;图2示出了根据本发明的另一个实施例的构建极性词素数据库的方法的流程图;图3示出了根据本发明的另一个实施例的构建极性词素数据库的方法的流程图;图4示出了根据本发明的另一个实施例的构建极性词素数据库的方法的流程图;图5示出了根据本发明的一个实施例的用于确定词的极性的方法的流程图;图6示出了根据本发明的另一个实施例的用于确定词的极性的方法的流程图;图7示出了根据本发明的一个实施例的用于构建极性词素数据库的装置的框图;图8示出了根据本发明的另一个实施例的用于构建极性词素数据库的装置的框图;图9示出了根据本发明的一个实施例的用于确定词的极性的装置的框图;图10示出了根据本发明的另一个实施例的用于确定词的极性的装置的框图;以及图11示出了可用于实施根据本发明实施例的方法和装置的计算机的示意性框图。
具体实施例方式在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见, 在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图和说明中仅仅描述了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了对与本发明关系不大的、本领域普通技术人员已知的部件和处理的表示和描述。在以下的部分描述中,以汉语为例子介绍了本发明的实施例。但是本发明不限于此。本发明也可以适用于与汉语类似的语言。图1示出了一个实施例的构建极性词素数据库的方法的流程图。在步骤SlOl中,从语料库和/或词语库中提取具有极性的单音节词。在步骤S102 中,对具有极性的单音节词标注极性,被标注极性的单音节词可以构成极性词素数据库。语料库可以是任何包含大量语料(句子)的集合。词语库可以是包括大量词语的
5词典。在步骤S102中可以通过查询现有的极性词素数据库的方式来为单音节词标注极性,即褒义(positive)或者贬义(negative),也可以通过显示提取的单音节词并接收操作者输入的该单音节词的极性的方式来标注极性。在本实施例中,只利用具有极性的单音节词构成极性词素数据库。由于具有极性的单音节词的数目相对较少,而具有极性的双音节词或多音节词数量庞大。另外,绝大多数具有极性的双音节词或多音节词都可以根据其中所包括的单音节词来确定其极性。也就是说,一般地可以由单音节词的极性来确定双音节词或多音节词的词性。因此通过构建具有较少数目的单音节词的极性词素数据库,可以节省时间和成本。图2示出了根据本发明的另一个实施例的构建极性词素数据库的方法的流程图。在步骤S201中,从语料库和/或词语库中提取具有极性的单音节词。在步骤S202中,从具有极性的单音节词中选择预定数量的常用的单音节词。在步骤S203中,对所选择的所述预定数量的常用的单音节词标注极性。被标注极性的单音节词可以构成极性词素数据库。图2的实施例与图1的不同之处在于,只选择预定数量的常用的单音节词进行标注。在一个示例中,步骤S202可以包括显示提取的单音节词并接收操作者的对与该单音节词是否为常用的单音节词的输入。在另一个示例中,步骤S202可以包括根据单音节词出现的频率,选择出现频率最高的预定数量的单音节词。单音词出现的频率可以通过查询现有的统计结果获得,或者可以在步骤S201中统计具有极性的单音节词在语料库和/或词语库中出现的频率。在本实施例中,通过只选择预定数量的常用的单音节词,可以进一步减小极性词素数据库的规模,从而可以进一步节省时间和成本。图3示出了根据本发明的一个实施例的构建极性词素数据库的方法的流程图。在步骤S301中,将双音节词语库中的双音节词切分成单音节词。在步骤S302中,分析所切分的各个单音节词的词性。在步骤S303中,根据所切分的各个单音节词的词性以及所切分的各个单音节词在双音节词中的相对位置,从切分的单音节词中选择非语义核心的具有极性的单音节词。在步骤S304中,对具有极性的单音节词标注极性,被标注极性的单音节词可以构成极性词素数据库。在本实施例中,从双音节词语库中提取具有极性的单音节词。双音节词语库可以是任何已有双音节词语库,可以是从通用词语库中选取双音节词而构成的双音节词语库。在步骤S301中,将双音节词切分成单音节词是本领域的技术人员可以实现的。这里不再详细描述。在步骤S302中,可以采用各种已知的词性分析方法来分析所切分的各个单音节词的词性。例如,对于双音节词“劣质”,对其进行词性分析可以得到“[劣.a.][质.η.] ”, 即表示“劣”为形容词,“质”为名词。在步骤S303中,根据所切分的各个单音节词的词性以及所切分的各个单音节词在双音节词中的相对位置,从切分的单音节词中选择非语义核心的具有极性的单音节词。 可以采用各种方法来确定双音节词中哪个单音节词是具有极性的单音节词。例如,对于“[劣.a.][质.η.] ”,由于第一个单音节词是形容词,第二个单音节词是名词,所以可以确定“劣”是具有极性的单音节词。这里,在双音节词“劣质”中,“质”是语义核心,而“劣”是非语义核心。注意,有可能一个双音节词中的两个单音节词都不被认为是具有极性的单音节词。或者,有可能一个双音节词中的两个单音节词都被认为是具有极性的单音节词。本领域的技术人员还可以设想其他确定具有极性的单音节词的规则,这里不再详细描述。步骤S304与图1中的步骤S103类似,这里不再详细描述。与图2中的实施例类似,在图3的实施例中,也可以只选择预定数量的单音节词来构成极性语素数据库。图4示出了根据本发明的另一个实施例的构建极性词素数据库的方法的流程图。在步骤S401中,对语料库中的语句进行分词处理。在步骤S402中,分析分词后的语句中的各个词的词性。在步骤S403中,根据分词后的语句中的各个词的词性及相对位置,从分词后的语句中的各个词中选择非语义核心的具有极性的单音节词。在步骤S404中,对具有极性的单音节词标注极性,被标注极性的单音节词可以构成极性词素数据库。在步骤S401中,本领域的技术人员可以采用各种方法进行分词处理。在本实施例中,一般将语句分词为单音节词和/或双音节词。例如,可以将语句“从结果来看,自动白平衡所能获得的色温是非常准确的。”分词为“从/结果/来看/,/自动/白/平衡/所/能
/获得/的/色/温/是/非常/准确/的八/”。在步骤S402中,可以采用各种已知的词性分析方法来分析分词后的语句中的各个词的词性。例如,对“从/结果/来看/,/自动/白/平衡/所/能/获得/的/色/温 /是/非常/准确/的八/”进行词性分析可以得到“从/P结果/n来看/u,/w自动/d白 /d平衡/a所/u能/ν获得/ν的/u色/n温/Ng是/ν非常/d准确/a的/u。/V,,其中ρ 表示介词,η表示名词,u表示其他助词,w表示标点符号,d表示副词,a表示形容词,ν表示动词,Ng表示名词性语素。在步骤S403中,首先可以根据分词后的语句中的各个词的词性及相对位置,从分词后的语句中的各个词中选择具有极性的词。例如“非常”是副词,其后的“准确”是形容词,可以将“准确”确定为具有极性的词。然后,如果所确定的具有极性的词是双音节词或多音节词,可以将其切分为单音节词,在根据所切分的各个单音节词的词性以及所切分的各个单音节词在双音节词中的相对位置,从切分的单音节词中选择非语义核心的具有极性的单音节词。例如可以将“准确”中的“准”确定为非语义核心的具有极性的单音节词。步骤S404与图2中的步骤S203类似,这里不再详细描述。与图2中的实施例类似,在图4的实施例中,也可以只选择预定数量的单音节词来构成极性语素数据库。在一个实施例中,可以将图3和图4相结合,即将在步骤303和步骤304中获得的具有极性的单音节词相组合,对其标注极性,从而构成极性语素数据库。图5示出了根据本发明的一个实施例的用于确定词的极性的方法的流程图。在步骤S501中,对于要确定极性的词,计算该词与预定的极性词素数据库中的每个极性为褒义的词之间的互信息、以及词与极性词素数据库中的每个极性为贬义的词之间的互信息。在步骤S502中,根据所计算的词与极性词素数据库中的每个极性为褒义的词之间的互信息,计算词与极性词素数据库中的所有极性为褒义的词之间的关联性,并根据所计算的词与极性词素数据库中的每个极性为贬义的词之间的互信息,计算词与极性词素数据库中的所有极性为贬义的词之间的关联性。在步骤S503中,对词与极性词素数据库中的所有极性为褒义的词之间的关联性以及词与极性词素数据库中的所有极性为贬义的词之间的关联性进行比较,根据比较结果判定词的极性。在步骤S501中,可以以各种方式计算词与词之间的互信息。例如,可以采用如下公式计算互信息MI (wl,w2) = 2p (wl,w2) / [ρ (wl) +ρ (w2)]其中wl和w2表示要计算互信息的两个词,ρ (Wl,W2)是W1与W2共现的次数,P (W1) 表示W1出现的次数,P(W2)表示W2出现的次数,MI (wl, w2)表示Wl和w2之间的互信息。 P(W15W2)jp(W1)和P(W2)可以从各种现有的统计结果中得到。另外,可以采用逐点互信息PMI (Pointwise Mutual Information) 计算互信息MI (W1 ,W2) = Iog2 ’,)、其中wl和w2表示要计算互信息的两个词,ρ (Wl,W2)是W1与W2共现的次数,P (W1) 表示W1出现的次数,P(W2)表示W2出现的次数,MI (wl, w2)表示Wl和w2之间的互信息。 P(W15W2)jp(W1)和P(W2)可以从各种现有的统计结果中得到。在步骤S502中,在一个示例中,词与极性词素数据库中的所有极性为褒义的词之间的关联性可以与词与极性词素数据库中的每个极性为褒义的词之间的互信息成正比,词与极性词素数据库中的所有极性为贬义的词之间的关联性计可以与词与极性词素数据库中的每个极性为贬义的词之间的互信息成正比。在步骤S503中,可以判断词与极性词素数据库中的所有极性为褒义的词之间的关联性以及词与极性词素数据库中的所有极性为贬义的词之间的关联性二者孰大。如果该词与极性词素数据库中的所有极性为褒义的词之间的关联性较大,则判断该词为褒义。 如果该词与极性词素数据库中的所有极性为贬义的词之间的关联性较大,则判断该词为贬义。若二者相等,可以判定该词无极性或者为中性词。图6示出了根据本发明的另一个实施例的用于确定词的极性的方法的流程图。在步骤S601中,计算词与预定的极性词素数据库中的每个极性为褒义的词之间的互信息、以及词与极性词素数据库中的每个极性为贬义的词之间的互信息。在步骤S602中,对所计算的词与极性词素数据库中的每个极性为褒义的词之间的互信息进行求和,获得第一求和结果。在步骤S603中,对所计算的词与极性词素数据库中的每个极性为贬义的词之间的互信息进行求和,获得第二求和结果。在步骤S604中,如果第一求和结果大于第二求和结果则判定词的极性为褒义,如果第一求和结果小于第二求和结果则判定词的极性为贬义。步骤S601与图5中的步骤S501类似,这里不再详细描述。
在步骤S602中,利用以下公式计算第一求和结果
权利要求
1.一种用于构建极性词素数据库的方法,包括从语料库和/或词语库中提取具有极性的单音节词;以及对所述具有极性的单音节词标注极性,所述被标注极性的单音节词构成所述极性词素数据库。
2.一种用于确定词的极性的方法,包括对于要确定极性的词,计算所述词与预定的极性词素数据库中的每个极性为褒义的词之间的互信息、以及所述词与所述极性词素数据库中的每个极性为贬义的词之间的互信息;根据所计算的所述词与所述极性词素数据库中的每个极性为褒义的词之间的互信息, 计算所述词与所述极性词素数据库中的所有极性为褒义的词之间的关联性,并根据所计算的所述词与所述极性词素数据库中的每个极性为贬义的词之间的互信息,计算所述词与所述极性词素数据库中的所有极性为贬义的词之间的关联性;以及对所述词与所述极性词素数据库中的所有极性为褒义的词之间的关联性以及所述词与所述极性词素数据库中的所有极性为贬义的词之间的关联性进行比较,根据比较结果判定所述词的极性。
3.如权利要求2所述的方法,其中所述计算关联性的步骤包括对所计算的所述词与所述极性词素数据库中的每个极性为褒义的词之间的互信息进行求和,获得第一求和结果;以及对所计算的所述词与所述极性词素数据库中的每个极性为贬义的词之间的互信息进行求和,获得第二求和结果。
4.如权利要求3所述的方法,其中所述判定的步骤包括对所述第一求和结果和第二求和结果进行比较,如果第一求和结果大于第二求和结果则判定所述词的极性为褒义,如果第一求和结果小于第二求和结果则判定所述词的极性为贬义。
5.如权利要求2所述的方法,其中所述极性词素数据库为由权利要求1所述的方法构建的极性词素数据库。
6.一种用于构建极性词素数据库的装置,包括提取单元,被配置用于从语料库和/或词语库中提取具有极性的单音节词;以及标注单元,被配置用于对所述具有极性的单音节词标注极性,所述被标注极性的单音节词构成所述极性词素数据库。
7.一种用于确定词的极性的装置,包括互信息计算单元,被配置用于对于要确定极性的词,计算所述词与预定的极性词素数据库中的每个极性为褒义的词之间的互信息、以及所述词与所述极性词素数据库中的每个极性为贬义的词之间的互信息;关联性计算单元,被配置用于根据互信息计算单元所计算的所述词与所述极性词素数据库中的每个极性为褒义的词之间的互信息,计算所述词与所述极性词素数据库中的所有极性为褒义的词之间的关联性,并根据互信息计算单元所计算的所述词与所述极性词素数据库中的每个极性为贬义的词之间的互信息,计算所述词与所述极性词素数据库中的所有极性为贬义的词之间的关联性;以及判定单元,被配置用于对关联性计算单元所计算的所述词与所述极性词素数据库中的所有极性为褒义的词之间的关联性以及所述词与所述极性词素数据库中的所有极性为贬义的词之间的关联性进行比较,根据比较结果判定所述词的极性。
8.如权利要求7所述的装置,其中所述关联性计算单元包括第一求和模块,被配置用于对互信息计算单元所计算的所述词与所述极性词素数据库中的每个极性为褒义的词之间的互信息进行求和,获得第一求和结果;以及第二求和模块,被配置用于对互信息计算单元所计算的所述词与所述极性词素数据库中的每个极性为贬义的词之间的互信息进行求和,获得第二求和结果。
9.如权利要求8所述的装置,其中所述判定单元被配置成对所述关联性计算单元所获得的所述第一求和结果和第二求和结果进行比较,如果第一求和结果大于第二求和结果则判定所述词的极性为褒义,如果第一求和结果小于第二求和结果则判定所述词的极性为贬义。
10.如权利要求7所述的装置,其中所述极性词素数据库为由权利要求6所述的装置构建的极性词素数据库。
全文摘要
用于构建极性词素数据库以及确定词的极性的方法和装置。用于确定词的极性的方法包括对于要确定极性的词,计算其与预定的极性词素数据库中的每个极性为褒义的词之间的互信息、与所述极性词素数据库中的每个极性为贬义的词之间的互信息;根据所计算的词与极性词素数据库中的每个极性为褒义的词之间的互信息,计算词与极性词素数据库中的所有极性为褒义的词之间的关联性,根据所计算的词与极性词素数据库中的每个极性为贬义的词之间的互信息,计算词与极性词素数据库中的所有极性为贬义的词之间的关联性;以及对以上两种关联性进行比较,根据比较结果判定词的极性。
文档编号G06F17/27GK102375838SQ20101025763
公开日2012年3月14日 申请日期2010年8月17日 优先权日2010年8月17日
发明者于浩, 孟遥, 张洁 申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1