监控舆情的方法和设备的制作方法

文档序号:6638687阅读:202来源:国知局
监控舆情的方法和设备的制作方法
【专利摘要】本申请的实施例公开了一种监控舆情的方法,包括:确定待评估文本;根据一用户情感随时间演变的模型,至少确定第一文本集在第一时间段令用户产生每一种情感倾向的概率分布,以及第二文本集在第二时间段令用户产生每一种情感倾向的概率分布;至少根据前述概率分布,确定至少一异常情感倾向;确定所述至少一异常情感倾向中的每一种异常情感倾向产生于任一时间的概率。本申请还公开了一种监控舆情的设备。采用本申请所述的监控舆情的方法和设备,可以对海量舆情进行深度的挖掘和分析,确定用户的情感倾向随时间的演变,弥补了现有技术的缺陷。
【专利说明】监控舆情的方法和设备

【技术领域】
[0001] 本申请设及数据挖掘【技术领域】,尤其设及一种监控舆情的方法和设备。

【背景技术】
[0002] 近年来,随着互联网相关技术的不断发展,各种在线社交应用平台逐渐成为当前 网络活动的主流。基于该些平台,用户可W通过发布博客、照片、信息甚至状态更新来增强 他们在现实世界中的存在感,且有机会和世界另一边的陌生人交流,该样就形成了相对于 现实社交圈而言的虚拟社交圈。如今越来越多的网站开始提供功能W帮助用户分享他们的 屯、情感想。例如,不少口户网站开始允许用户分享他们关于某个新闻的屯、情。通过分析用 户对某个新闻的情感倾向,可W知道用户看什么新闻会高兴,看什么新闻会愤怒,看什么新 闻会沮丧等等。
[0003] 目前要了解用户在阅读过文本后产生什么样的情感倾向,多采用统计的方式来实 现。然而,现有的统计方式有一定的局限性,针对某个具体的新闻,用户的情感倾向随时间 的演变,现有技术无法进行统计。


【发明内容】

[0004] 本申请的目的是;提供一种监控舆情的方法和设备。
[0005] 根据本申请至少一个实施例的一个方面,提供了一种监控舆情的方法,包括:
[0006] 确定待评估文本,其中,所述待评估文本至少包括在第一时间段内发布的第一文 本集和在第二时间段内发布的第二文本集;
[0007] 根据一用户情感随时间演变的模型,至少确定所述第一文本集在所述第一时间段 令用户产生每一种情感倾向的概率分布,W及所述第二文本集在所述第二时间段令用户产 生每一种情感倾向的概率分布;
[000引至少根据所述第一文本集在所述第一时间段令用户产生每一种情感倾向的概率 分布,W及所述第二文本集在所述第二时间段令用户产生每一种情感倾向的概率分布,确 定至少一异常情感倾向.
[0009] 确定所述至少一异常情感倾向中的每一种异常情感倾向产生于任一时间的概率。
[0010] 根据本申请至少一个实施例的另一个方面,提供一种监控舆情的设备,包括:
[0011] 一评估文本确定装置,用于确定至少一待评估文本,其中,所述待评估文本至少包 括在第一时间段内发布的第一文本集和在第二时间段内发布的第二文本集;
[0012] 一情感概率分布确定装置,用于根据一用户情感随时间演变的模型,至少确定所 述第一文本集在所述第一时间段令用户产生每一种情感倾向的概率分布,W及所述第二文 本集在所述第二时间段令用户产生每一种情感倾向的概率分布;
[0013] 一异常情感确定装置,用于至少根据所述第一文本集在所述第一时间段令用户产 生每一种情感倾向的概率分布,W及所述第二文本集在所述第二时间段令用户产生每一种 情感倾向的概率分布,确定至少一异常情感倾向;
[0014] 一时间概率分布确定装置,用于确定所述至少一异常情感倾向中的每一种异常情 感倾向产生于任一时间的概率。
[0015] 采用本申请所述的监控舆情的方法和设备,可W对海量舆情进行深度的挖掘和分 析,确定用户的情感倾向随时间的演变,弥补了现有技术的缺陷。

【专利附图】

【附图说明】
[0016] 图1是本申请的一个实施例提供的建立情感模型的方法流程示意图;
[0017] 图2是本申请的一个实施例中用户反馈情感倾向的交互界面示意图;
[0018] 图3a是本申请的另一个实施例提供的建立情感模型的方法流程示意图;
[0019] 图3b是本申请的另一个实施例提供的建立情感模型的方法流程示意图;
[0020] 图4是本申请一个实施例提供的预测用户情感倾向的方法流程示意图;
[0021] 图5是本申请一个实施例提供的监控舆情的方法流程示意图;
[0022] 图6是本申请一个实施例提供的基于用户情感倾向提供服务的方法流程示意图;
[0023] 图7是本申请一个实施例提供的建立情感模型的装置结构示意图;
[0024] 图8是本申请另一个实施例提供的建立情感模型的装置结构示意图;
[0025] 图9是本申请另一个实施例提供的建立情感模型的装置结构示意图;
[0026] 图10是本申请另一个实施例提供的建立情感模型的装置结构示意图;
[0027] 图11是本申请一个实施例提供的第一输出子模块744或第二输出子模块748结 构示意图;
[002引图12是本申请一个实施例提供的预测用户情感倾向的设备结构示意图;
[0029] 图13是本申请另一个实施例提供的预测用户情感倾向的设备结构示意图;
[0030] 图14是本申请另一个实施例提供的预测用户情感倾向的设备结构示意图;
[0031] 图15是本申请另一个实施例提供的预测用户情感倾向的设备结构示意图;
[0032] 图16是本申请一个实施例提供的监控舆情的设备结构示意图;
[0033] 图17是本申请另一个实施例提供的监控舆情的设备结构示意图;
[0034] 图18是本申请另一个实施例提供的监控舆情的设备结构示意图;
[00巧]图19是本申请另一个实施例提供的监控舆情的设备结构示意图;
[0036] 图20是本申请另一个实施例提供的监控舆情的设备结构示意图;
[0037] 图21是本申请一个实施例提供的基于用户情感倾向提供服务的设备结构示意 图;
[003引图22是本申请另一个实施例提供的基于用户情感倾向提供服务的设备结构示意 图;
[0039] 图23是本申请另一个实施例提供的基于用户情感倾向提供服务的设备结构示意 图;
[0040] 图24是本申请另一个实施例提供的基于用户情感倾向提供服务的设备结构示意 图;
[0041] 图25是本申请另一个实施例提供的基于用户情感倾向提供服务的设备结构示意 图。

【具体实施方式】
[0042] 下面结合附图和实施例,对本申请的【具体实施方式】作进一步详细说明。W下实施 例用于说明本申请,但不用来限制本申请的范围。
[0043] 本领域技术人员理解,在本申请的实施例中,下述各步骤的序号的大小并不意味 着执行顺序的先后,各步骤的执行顺序应W其功能和内在逻辑确定,而不应对本申请实施 例的实施过程构成任何限定。
[0044] 另外,本申请中的"第一"、"第二"等术语仅用于区别不同步骤、设备或模块等,既 不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
[0045] 图1是本申请一个实施例所述的建立情感模型的方法,参见图1,所述方法包括:
[0046] S100 ;确定至少一训练文本;
[0047] S120 ;对所述至少一训练文本进行预处理,确定每一个训练文本的文字向量和每 一个训练文本的情感向量;
[0048] S140;根据每一个训练文本的所述文字向量、每一个训练文本的所述情感向量W 及每一个训练文本的发布时间,确定用户情感随时间演变的模型。
[0049] 可选的,在本申请的一个可选实施例中,上述S100中确定至少一训练文本,可W 包括;从互联网上获取一段时间内发布的内容,作为训练文本。当然,也可W是用其他的方 式获取训练文本,例如,用户手动导入至少一文本作为训练文本,本申请的实施例对此不作 限定。上述内容可W包括;新闻、社交网络发言(博客或者微博等等)或者网络论坛的帖子 等等。
[0050] 获得训练文本后,就可W进行预处理,确定每一个训练文本的文字向量和每一个 训练文本的情感向量(S120)。
[0051] 可选的,上述文字向量可W为每一个训练文本的有效单词。例如,每一个训练文本 的文字向量可W表示为:
[0052] d = {wl, w2, w3, wl, w4, w5, w5, w2...}。
[0化3] 可选的,上述情感向量可W为用户预先阅读了每一个训练文本后产生的至少一种 情感倾向。例如,每一个训练文本的情感向量可W表示为:
[0054] e={el:n 1 ,e2:n2,e3:n3,e4:n4...}
[005引其中,nl、n2、n3、n4…可W表示产生该情感倾向的数量,示例性的,上述某一种情 感倾向的数量,可W是产生该情感倾向的统计数量,或者,还可W是该情感倾向产生的归一 化数量,例如,该归一化数量可W是该情感倾向产生的统计数量占所有情感倾向统计数量 的比例。
[0化6] 对于文本向量来说,通常情况下,一个文本中,去除掉一些无意义的单词(例如, "的""了"之类的单词)之后,剩下的就是有效单词了。
[0化7] 而对于情感向量来说,用户在阅读训练文本之后,可W通过如图2所示的交互界 面选择最能代表自己情感倾向的选项,因此就可W根据用户反馈的数据进行统计,得到每 一个训练文本的情感向量。又或者,用户阅读训练文本后,可W通过文字等形式发表自己的 评论,对用户的评论进行分类,就可W得到每一个训练文本的情感向量。
[0化引在本申请一个可选实施例中,在确定了每一个训练文本的文字向量和每一个训练 文本的情感向量后,将每一个训练文本的文字向量中的每一个有效单词和每一个训练文本 的训练文本的情感向量W及发布时间绑定,得到训练文本的一个元组;(是t,w)。如果训练 文本d有Nd个单词,那么训练文本d的元组(g,t,w)也有Nd个。在一个训练文本的所有元 组中,情感向量京和发布时间t都是相同的。上述发布时间可W具体到"小时"或者"日", 当然也可W粒度大一些,例如,具体到"月"或者具体到"年"等等,本申请的实施例对此不 作具体限定。
[0化9] 在本申请的另一个可选实施例中,可W按照发布时间对训练文本进行划分,归属 于同一个时间段内的训练文本,发布时间可W认为是相同的。针对归属于同一个时间段内 的训练文本单独建立子模型,则本申请所述的用户情感对时间演变的模型就可W包括多个 不同时间段的子模型。在每一个子模型中,由于训练文本的发布时间是相同的,因此,得到 的元组可W只包括有效单词和情感向量,即;馆,W)。
[0060] 在本申请的实施例中,假设文本是由各类主题组成的,此处的"主题"表示一个概 念、一个方面,形象来说,主题可W认为是一个桶,里面装了出现概率较高的元组,该些元组 与该个主题有很强的相关性。通过"主题"该个中介,就可W将文本与元组联系起来。
[0061] 因此,在本申请的实施例中,某一个文本产生某一元组的概率都可化围过"文本W 一定的概率选择了某个主题,该个主题W-定的概率产生了某一元组"该样一个过程得到 的。即:
[006引 P(元组I文本)=2主题P(元组I主题)XP(主题I文本)
[0063] 对每一个训练文本进行统计,确定某个训练文本中某一个元组出现的次数,就可 W得到基于训练文本的P (元组I训练文本)。然后通过一算法,得到P (元组I主题)和 P (主题I训练文本)。根据训练得到的P (元组I主题)和P (主题I训练文本),就可W确 定任一文本产生任一元组的近似后验分布P (元组I文本)。
[0064] 在一个可选实施例中,如图3a所示,上述S140中根据每一个训练文本的所述文字 向量、每一个训练文本的所述情感向量W及每一个训练文本的发布时间,确定用户情感随 时间演变的模型,可W包括:
[00化]S141 ;将第i个训练文本的文字向量中的每一个有效单词和第i个训练文本的情 感向量W及第i个训练文本的发布时间绑定,得到第i个训练文本的多个元组;
[0066] S142 ;对第i个训练文本进行统计,确定所述第i个训练文本中出现元组r的概率 P (元组r I训练文本i);
[0067] S143 ;根据所述P (元组r I训练文本i),通过一算法,确定所述第i个训练文本选 择主题k的概率P (主题k I训练文本i) W及所述主题k产生元组r的概率P (元组r I主 题k);
[00側 S144;用于根据所述P (主题k|训练文本^和所述P (元组r|主题k),确定任一 文本产生任一元组的近似后验分布P (元组I文本)。
[0069] 在另一个可选实施例中,如图3b所示,上述S140中根据每一个训练文本的所述文 字向量、每一个训练文本的所述情感向量W及每一个训练文本的发布时间,确定用户情感 随时间演变的模型,可W包括:
[0070] S145;将每一个训练文本的文字向量中的每一个有效单词和每一个训练文本的情 感向量绑定,得到每一个训练文本的多个元组;
[0071] S146;对至少一时间段发布的训练文本进行统计,确定所述至少一时间段内发布 的第i个训练文本中出现元组r的概率P (元组r I训练文本i);
[0072] S147 ;根据所述P (元组r I训练文本i),通过一算法,确定所述第i个训练文本选 择主题k的概率P (主题k I训练文本i) W及所述主题k产生元组r的概率P (元组r I主 题k);
[007引 S148 ;根据所述P (主题k I训练文本i)和所述P (元组r I主题k),确定至少一时 间段内任一文本产生任一元组的近似后验分布P (元组I文本)。
[0074] 可选的,上述算法,可W是基于采样的算法,或者也可W是变分 EM巧xpectation-maximization,期望最大化)算法。基于采样的算法通过收集后验分布 的样本,W样本的分布求得后验分布的近似,常见的基于采样的算法例如基于吉布斯采样 (Gibbs Sampling)的算法。而变分EM算法则是先假定一族在隐藏结构之上的参数化的分 布,再通过变分思想迭代更新寻找与后验分布最接近的分布。下面W基于吉布斯采样的算 法为例,介绍本申请实施例中确定模型的两种过程。
[0075] (1)假设一训练文本集D,有m个训练文本dl,d2,d3……血,发布时间分别为;tl, t2, 1:3......tm,n 个主题 Zl,Z2, Z3......化。
[0076] 将训练文本集中的每一个训练文本都转化成元组的形式;(吝,t,W)
[0077] 初始时;W均等的概率或者随机为每一个训练文本的每一个元组赋予一个主 题,示例性的,如表1所示:
[007引 表1
[0079]

【权利要求】
1. 一种监控舆情的方法,其特征在于,包括: 确定待评估文本,其中,所述待评估文本至少包括在第一时间段内发布的第一文本集 和在第二时间段内发布的第二文本集; 根据一用户情感随时间演变的模型,至少确定所述第一文本集在所述第一时间段令用 户产生每一种情感倾向的概率分布,以及所述第二文本集在所述第二时间段令用户产生每 一种情感倾向的概率分布; 至少根据所述第一文本集在所述第一时间段令用户产生每一种情感倾向的概率分布, 以及所述第二文本集在所述第二时间段令用户产生每一种情感倾向的概率分布,确定至少 一异常情感倾向; 确定所述至少一异常情感倾向中的每一种异常情感倾向产生于任一时间的概率。
2. 如权利要求1所述的方法,其特征在于,根据一用户情感随时间演变的模型,至少确 定所述第一文本集在所述第一时间段令用户产生每一种情感倾向的概率分布,以及所述第 二文本集在所述第二时间段令用户产生每一种情感倾向的概率分布,包括: 对所述待评估文本进行预处理,确定每一个待评估文本的文字向量和每一个待评估文 本的情感向量; 将每一个待评估文本的文字向量中的每一个有效单词和每一个待评估文本的情感向 量绑定,得到每一个待评估文本的元组; 将每一个待评估文本的元组输入所述用户情感随时间演变的模型中与所述每一个待 评估文本的发布时间对应的子模型,根据所述用户情感随时间演变的模型的输出结果,至 少确定所述第一文本集中在所述第一时间段令用户产生每一种情感倾向的概率分布,以及 所述第二文本集在所述第二时间段令用户产生每一种情感倾向的概率分布。
3. 如权利要求2所述的方法,其特征在于,至少根据所述第一文本集在所述第一时间 段令用户产生每一种情感倾向的概率分布,以及所述第二文本集在所述第二时间段令用户 产生每一种情感倾向的概率分布,确定至少一异常情感倾向,包括: 至少确定第一时间段内发布的文本令用户产生每一种情感倾向的概率分布与第二时 间段内发布的文本令用户产生每一种情感倾向的概率分布的距离; 根据所述第一时间段内发布的文本令用户产生每一种情感倾向的概率分布与第二时 间段内发布的文本令用户产生每一种情感倾向的概率分布的距离,确定至少一异常情感倾 向。
4. 如权利要求1至3中任一所述的方法,其特征在于,所述方法还包括: 建立所述用户情感随时间演变的模型。
5. 如权利要求4所述的方法,其特征在于,所述建立所述用户情感随时间演变的模型, 包括: 确定至少一训练文本; 对所述至少一训练文本进行预处理,确定每一个训练文本的文字向量和每一个训练文 本的情感向量; 根据每一个训练文本的所述文字向量、每一个训练文本的所述情感向量以及每一个训 练文本的发布时间,确定用户情感随时间演变的模型。
6. 如权利要求5所述的方法,其特征在于,所述根据每一个训练文本的所述文字向量、 每一个训练文本的所述情感向量以及每一个训练文本的发布时间,确定用户情感随时间演 变的模型,包括: 将每一个训练文本的文字向量中的每一个有效单词和每一个训练文本的情感向量绑 定,得到每一个训练文本的多个元组; 对至少一时间段发布的训练文本进行统计,确定所述至少一时间段内发布的第i个训 练文本中出现元组r的概率P (元组r |训练文本i); 根据所述P (元组r |训练文本i),通过一算法,确定所述第i个训练文本选择主题k的 概率P (主题k |训练文本i)以及所述主题k产生元组r的概率P (元组r |主题k); 根据所述P (主题k|训练文本i)和所述P (元组r|主题k),确定至少一时间段内任一 文本产生任一元组的近似后验分布P (元组I文本)。
7. -种舆情监控的设备,其特征在于,所述舆情监控的设备包括: 一评估文本确定装置,用于确定至少一待评估文本,其中,所述待评估文本至少包括在 第一时间段内发布的第一文本集和在第二时间段内发布的第二文本集; 一情感概率分布确定装置,用于根据一用户情感随时间演变的模型,至少确定所述第 一文本集在所述第一时间段令用户产生每一种情感倾向的概率分布,以及所述第二文本集 在所述第二时间段令用户产生每一种情感倾向的概率分布; 一异常情感确定装置,用于至少根据所述第一文本集在所述第一时间段令用户产生每 一种情感倾向的概率分布,以及所述第二文本集在所述第二时间段令用户产生每一种情感 倾向的概率分布,确定至少一异常情感倾向; 一时间概率分布确定装置,用于确定所述至少一异常情感倾向中的每一种异常情感倾 向产生于任一时间的概率。
8. 如权利要求7所述的设备,其特征在于,所述情感概率分布确定装置包括: 处理模块,用于对所述待评估文本进行预处理,确定每一个待评估文本的文字向量和 每一个待评估文本的情感向量; 元组确定模块,用于将每一个待评估文本的文字向量中的每一个有效单词和每一个待 评估文本的情感向量绑定,得到每一个待评估文本的元组; 输入模块,用于将每一个待评估文本的元组输入所述用户情感随时间演变的模型中与 所述每一个待评估文本的发布时间对应的子模型,根据所述用户情感随时间演变的模型的 输出结果,至少确定所述第一文本集中在所述第一时间段令用户产生每一种情感倾向的概 率分布,以及所述第二文本集在所述第二时间段令用户产生每一种情感倾向的概率分布。
9. 如权利要求8所述的设备,其特征在于,所述异常情感确定装置包括: 情感倾向波动确定模块,用于至少确定第一时间段内发布的文本令用户产生每一种情 感倾向的概率分布与第二时间段内发布的文本令用户产生每一种情感倾向的概率分布的 距离; 异常情感确定模块,用于根据所述第一时间段内发布的文本令用户产生每一种情感倾 向的概率分布与第二时间段内发布的文本令用户产生每一种情感倾向的概率分布的距离, 确定至少一异常情感倾向。
10. 如权利要求7至9中任一所述的设备,其特征在于,所述监控舆情的设备还包括: 一建立情感模型的装置,用于建立所述用户情感随时间演变的模型。
【文档编号】G06F11/30GK104504031SQ201410773605
【公开日】2015年4月8日 申请日期:2014年12月12日 优先权日:2014年12月12日
【发明者】于魁飞 申请人:北京智谷睿拓技术服务有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1