评论信息的标注方法及装置的制造方法

文档序号:9217271阅读:290来源:国知局
评论信息的标注方法及装置的制造方法
【技术领域】
[0001] 本发明涉及网络信息处理技术领域,尤其涉及一种评论信息的标注方法及装置。
【背景技术】
[0002] 通常,现有的评论聚类方法多是关于商品评论的,例如天猫,亚马逊等网站中的用 户评价。其主要是围绕商品的不同属性对评论进行聚类。一般来说,首先构建属性的类别, 其次从评论中挖掘包含的属性,然后把评论归到所包含属性的类别。其中,从评论中挖掘属 性常采用例如基于词典、基于机器学习等方法。
[0003] 然而,事件评论与商品评论有着本质的不同,事件评论大多都没有属性。因此,无 法简单地把商品聚类方法照搬到事件评论上。其次,事件评论内容较广,使得常用的基于词 典预先构建类别的方法无法适用于事件评论。

【发明内容】

[0004] 本发明实施例的目的在于,提供一种评论信息的标注方法及装置,以实现自动地 对事件评论进行情感聚类,并为其标注情感性质,提升用户网络体验。
[0005] 为实现上述发明目的,本发明的实施例提供了一种评论信息的标注方法,包括:获 取多个事件评论的数据;分别对所述多个事件评论划分语句,并且将划分出的语句分别作 为评论观点;分别从所述评论观点提取情感词;将在任一评论观点中共同出现的情感词进 行关联,构建情感词社区网络;为所述情感词社区网络中的任一情感词社区中的情感词所 属的评论观点标注情感性质的数据,所述情感性质是正面、负面或中立,所述情感词社区包 括一组直接或间接关联的情感词。
[0006] 优选地,所述分别从所述评论观点提取情感词的处理包括:分别对所述评论观点 的语句进行切词,并且通过将切出的分词与预先构建的情感词词典匹配来选取所述情感 词,所述情感词词典包括多个情感词以及其情感性质的数据。
[0007] 优选地,所述将在任一评论观点中共同出现的情感词进行关联,构建情感词社区 网络的处理还包括:对于所述情感词社区网络中的任意两个关联的情感词,计算所述两个 情感词共同出现在同一评论观点中的共现频度,并且如果计算的共现频度的值低于预定的 共现频度阈值,则去除所述两个情感词之间的关联关系。
[0008] 优选地,所述为所述情感词社区网络中的任一情感词社区中的情感词所属的评论 观点标注情感性质的数据的处理包括:根据所述情感词社区中的情感词的情感性质为其所 属的评论观点标注情感性质的数据。
[0009] 优选地,所述情感词词典还包括所述多个情感词的情感强度的数据,所述为所述 情感词社区网络中的任一情感词社区中的情感词所属的评论观点标注情感性质的数据的 处理还包括:如果任一所述评论观点包括不同情感性质的情感词,则为所述评论观点标注 情感强度最强的情感词对应的情感性质的数据。
[0010] 优选地,所述分别对所述多个事件评论划分语句的处理还包括:去除字数超过预 定句长的语句,和/或去除广告性质的语句。
[0011] 本发明的实施例还提供了一种评论信息的标注装置,包括:评论获取模块,用于获 取多个事件评论的数据;评论分句模块,用于分别对所述多个事件评论划分语句,并且将划 分出的语句分别作为评论观点;情感词提取模块,用于分别从所述评论观点提取情感词; 情感网络构建模块,用于将在任一评论观点中共同出现的情感词进行关联,构建情感词社 区网络;情感标注模块,用于为所述情感词社区网络中的任一情感词社区中的情感词所属 的评论观点标注情感性质的数据,所述情感性质是正面、负面或中立,所述情感词社区包括 一组直接或间接关联的情感词。
[0012] 优选地,所述情感词提取模块用于分别对所述评论观点的语句进行切词,并且通 过将切出的分词与预先构建的情感词词典匹配来选取所述情感词,所述情感词词典包括多 个情感词以及其情感性质的数据。
[0013] 优选地,所述情感网络构建模块用于对于所述情感词社区网络中的任意两个关联 的情感词,计算所述两个情感词共同出现在同一评论观点中的共现频度,并且如果计算的 共现频度的值低于预定的共现频度阈值,则去除所述两个情感词之间的关联关系。
[0014] 优选地,所述情感标注模块用于根据所述情感词社区中的情感词的情感性质为其 所属的评论观点标注情感性质的数据。
[0015] 优选地,所述情感词词典还包括所述多个情感词的情感强度的数据,所述情感标 注模块还用于如果任一所述评论观点包括不同情感性质的情感词,则为所述评论观点标注 情感强度最强的情感词对应的情感性质的数据。
[0016] 优选地,所述评论分句模块还用于去除字数超过预定句长的语句,和/或去除广 告性质的语句。
[0017] 本发明实施例提供的评论信息的标注方法及装置,通过对获取到的多个事件评论 进行分句得到多个评论观点,再以评论观点中包含的情感词为聚类依据,从而自动地对事 件评论进行情感聚类,并为其标注情感性质,使得用户能够快速知晓舆情的大体,方便用户 阅读,极大丰富了用户体验。
[0018] 此外,标注了情感性质的数据的评论观点使得用户能够方便了解其他用户关注事 件热点的看法。
【附图说明】
[0019] 图1是示出本发明实施例一的评论信息的标注方法的流程图;
[0020] 图2是示出本发明实施例一的评论信息的标注方法的情感词词典的示例图;
[0021] 图3是示出本发明实施例一的评论信息的标注方法的情感词社区网络的示例图;
[0022] 图4是示出本发明实施例一的评论信息的标注方法的情感聚类结果的示例图;
[0023] 图5是示出本发明实施例二的评论信息的标注装置的逻辑框图。
【具体实施方式】
[0024] 本发明的基本构思是,在获取到多个事件评论的数据之后,进一步地对事件评论 划分语句,并将划分出的语句作为评论观点,采用"情感词"作为评论观点聚类的关键,从而 自动地对事件评论进行情感聚类,并为其标注情感性质。所述情感性质可以是,但不限于, 正面、负面或中立,最终生成例如正面言论、负面言论以及中立言论的效果,使得用户能够 方便、快速地知道其他用户关注事件的各个方面,提升用户网络体验。
[0025] 此外,本发明适用范围广,类似于新闻资讯类的用户评论尤其适用于所述方法,同 时还可为舆情监控提供大量的数据来源。
[0026] 下面结合附图对本发明实施例一种评论信息的标注方法及装置进行详细描述。
[0027] 实施例一
[0028] 图1是示出本发明实施例一的评论信息的标注方法的流程图。可在例如微博服务 器上执行所述方法。
[0029] 参照图1,在步骤S110,获取多个事件评论的数据。
[0030] 这里,事件评论的数据可以是例如但不限于,微博、贴吧、新闻、论坛等来源用户发 表的评论文本。
[0031] 在步骤S120,分别对所述多个事件评论划分语句,并且将划分出的语句分别作为 评论观点。
[0032] 也就是说,对每个事件评论进行分句,划分出的语句作为一个独立的评论观点。为 了更为准确地获得评论观点,根据本发明的可选实施例,步骤S120包括:去除字数超过预 定句长的语句,和/或去除广告性质的语句。
[0033] 在步骤S130,分别从所述评论观点提取情感词。
[0034] 根据本发明的示例性实施例,步骤S130包括:分别对所述评论观点的语句进行切 词,并且通过将切出的分词与预先构建的情感词词典匹配来选取所述情感词。
[0035] 需要说明的是,现有技术关于情感词抽取一般采用直接匹配的方式,但是直接匹 配的方式无法保证抽取效果,有可能会忽略一些情感词,然而,本实施例采用先切词再匹配 的方式,也就是说,将一个汉字序列切分成一个一个单独的词语,从而
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1