一种基于观点挖掘的社交媒体信息可信度评估方法及装置的制造方法

文档序号:9687497阅读:287来源:国知局
一种基于观点挖掘的社交媒体信息可信度评估方法及装置的制造方法
【技术领域】
[0001] 本发明涉及通信技术领域,具体涉及一种基于观点挖掘的社交媒体信息可信度评 估方法及装置。
【背景技术】
[0002] 随着第二代互联网WEB2. 0技术的发展和普及,各种类型的社交媒体(如;微博、微 信、Twitter等)不断涌现并深刻地改变着人们发布、获取、交流、表达信息或观点的方式。 特别是随着新一代无线通讯技术的成熟和智能移动设备的广泛使用,社交媒体已经成为人 们日常生活中不可或缺的用来分享信息和表达观点的平台。但是由于该平台上的内容主要 由大批网民自发创造、提取的,所W虚假、不可靠信息广泛存在。如何自动地评估社交媒体 信息的可信度将对后续的信息推荐、市场调查、自动问答等应用系统的效果产生直接的影 响。
[0003] 现有技术提供的信息可信度分析主要针对某一特定领域、特定类型的数据,比如 生物医学实验报告、新闻专线、维基百科等。W生物医学实验报告的可信度评估为例,由于 该类数据有固定的结构和模式,所W可W很容易地提取不同的特征,特别是对于某一个课 题有多篇与之相关的实验报告,所W可W通过实验报告之间的互相验证来鉴别出可信度低 的实验报告。而维基百科信息的可信度主要是通过信息的修改记录来进行表征的。
[0004] 即早期的信息可信度分析工具主要是为了特定结构化的数据而设计的,并没有考 虑到社交媒体信息本身的数据结构特点和语言表达习惯,特别是社交媒体上的文本信息是 一种非结构化的数据,该类数据的处理严重的依赖于自然语言处理技术:比如语义分析和 情感分析等,所W送类早期的技术并不适用于社交媒体信息的可信度评估。因此,有必要提 供一种新的方法对社交媒体信息的可信度进行评估。

【发明内容】

[0005] 有鉴于此,本发明提供了一种基于观点挖掘的社交媒体信息可信度评估方法及装 置,能够对社交媒体信息的可信度进行准确评估。
[0006] 第一方面,本发明实施例提供的基于观点挖掘的社交媒体信息可信度评估方法, 包括:
[0007] 获取待评估信息;
[0008] 计算每条待评估信息的不确定性得分;
[0009] 计算每条待评估信息的发布者的可信度;
[0010] 统计每条待评估信息的评论中支持意见所占的比例;
[0011] 将每条待评估信息的不确定性得分,每条待评估信息的发布者的可信度及每条待 评估信息的评论中支持意见所占的比例输入预先训练好的量化评估模型中进行计算,所述 量化评估模型的输出为每条待评估信息的可信度排序。
[0012] 结合第一方面,在第一方面的第一种实施方式中,在获取待评估信息之前,所述方 法还包括:
[0013] 构建与当前议题相关的主题词库;
[0014] 将所述主题词库中的各个主题词与情感词库中的各个情感词组合形成观点词 对;
[0015] 获取与当前议题相关的社交媒体信息;
[0016] 根据每个观点词对与每条社交媒体信息的相似度及每个观点词对与每条社交媒 体信息的评论的相似度计算每条社交媒体信息的观点值;
[0017] 过滤观点值小于预设阔值的社交媒体信息,将剩余的社交媒体信息作为所述待评 估信息。
[0018] 结合第一方面的第一种实施方式中,在第一方面的第二种实施方式中,所述构建 与当前议题相关的主题词库具体包括:
[0019] 在社交网络中搜索与当前议题相关的社交媒体信息;
[0020] 提取所述社交媒体信息中的关键词并统计每个关键词出现的频率;
[0021] 按照频率从高到低的顺序选取预设数量的关键词作为主题词构建所述主题词库。
[0022] 结合第一方面的第一种实施方式中,在第一方面的第Η种实施方式中,所述根据 每个观点词对与每条社交媒体信息的相似度及每个观点词对与每条社交媒体信息的评论 的相似度计算每条社交媒体信息的观点值具体包括:
[0023] 计算一个观点词对中的主题词与一条社交媒体信息中的每个关键词的相似度,提 取相似度最大值a ;计算所述观点词对中的主题词与所述社交媒体信息的评论中的每个关 键词的相似度,提取相似度最大值X ;
[0024] 计算所述观点词对中的情感词与所述社交媒体信息中的每个情感词的相似度,提 取相似度最大值b ;计算所述观点词对中的情感词与所述社交媒体信息的评论中的每个情 感词的相似度,提取相似度最大值y ;
[0025] 所述观点词对与所述社交媒体信息的相似度为si = λ a+(l-λ) b,λ大于0小于 1,所述观点词对与所述社交媒体信息的评论的相似度为s2 = μ χ+α-μ )y,μ大于0小于 1 ;
[0026] 将所述观点词对与所述社交媒体信息的相似度及所述观点词对与所述社交媒体 信息的评论的相似度相加得到所述社交媒体信息的观点子值;
[0027] 将每个观点词对都做同样处理得到所述社交媒体信息的所有观点子值,将所有观 点子值累加得到所述社交媒体信息的观点值,W此类推,得到每个社交媒体信息的观点值。
[0028] 结合第一方面,或第一方面的第一种实施方式,或第一方面的第二种实施方式,或 第一方面的第Η种实施方式,在第一方面的第四种实施方式中,所述计算每条待评估信息 的不确定性得分包括:
[0029] 确定每条待评估信息中包含的不确定内容的类别;
[0030] 计算每条待评估信息中包含的每类不确定内容的类别得分;
[0031] 将每条待评估信息中包含的每类不确定内容的类别得分乘W预设的权重后累加 得到每条待评估信息的不确定性得分。
[0032] 结合第一方面,或第一方面的第一种实施方式,或第一方面的第二种实施方式,或 第一方面的第Η种实施方式,在第一方面的第五种实施方式中,在将每条待评估信息的不 确定性得分,每条待评估信息的发布者的可信度及每条待评估信息的评论中支持意见所占 的比例输入预先训练好的量化评估模型中进行计算的过程中,所述待评估信息的不确定性 得分越高,所述待评估信息的可信度越低;所述待评估信息的发布者的可信度越低,所述待 评估信息的可信度越低;所述待评估信息的评论中支持意见所占的比例越小,和/或随着 时间的变化,所述待评估信息的评论中支持意见所占的比例越来越小,所述待评估信息的 可信度越低。
[0033] 第二方面,本发明实施例提供的基于观点挖掘的社交媒体信息可信度评估装置, 包括:
[0034] 第一获取单元,用于获取待评估信息;
[0035] 第一计算单元,用于计算每条待评估信息的不确定性得分;
[0036] 第二计算单元,计算每条待评估信息的发布者的可信度;
[0037] 统计单元,用于统计每条待评估信息的评论中支持意见所占的比例;
[0038] 可信度评估单元,用于将每条待评估信息的不确定性得分,每条待评估信息的发 布者的可信度及每条待评估信息的评论中支持意见所占的比例输入预先训练好的量化评 估模型中进行计算,所述量化评估模型的输出为每条待评估信息的可信度排序。
[0039] 结合第二方面,在第二方面的第一种实施方式中,所述装置还包括:
[0040] 词库构建单元,用于构建与当前议题相关的主题词库;
[0041] 词对形成单元,用于将所述主题词库中的各个主题词与情感词库中的各个情感词 组合形成观点词对;
[0042] 第二获取单元,用于获取与当前议题相关的社交媒体信息;
[0043] 第Η计算单元,用于根据每个观点词对与每条社交媒体信息的相似度及每个观点 词对与每条社交媒体信息的评论的相似度计算每条社交媒体信息的观点值;
[0044] 信息过滤单元,用于过滤观点值小于预设阔值的社交媒体信息,将剩余的社交媒 体信息作为所述待评估信息。
[0045] 结合第二方面的第一种实施方式,在第二方面的第二种实施方式中,所述词库构 建单元具体包括:
[0046] 搜索子单元,用于在社交网络中搜索与当前议题相关的社交媒体信息;
[0047] 统计子单元,用于提取所述社交媒体信息中的关键词并统计每个关键词出现的频 率;
[0048] 词库构建子单元,用于按照频率从高到低的顺序选取预设数量的关键词作为主题 词构建所述主题词库。
[0049] 结合第二方面的第一种实施方式,在第二方面的第Η种实施方式中,所述第Η计 算单元具体用于:
[0050] 计算一个观点词对中的主题词与一条社交媒体信息中的每个关键词的相似度,提 取相似度最大值a ;计算所述观点词对中的主题词与所述社交媒体信息的评论中的每个关 键词的相似度,提取相似度最大值X ;
[0051] 计算所述观点词对中的情感词与所述社交媒体信息中的每个情感词的相似度,提 取相似度最大值b;计算所述观点词对中的情感词与所述社交媒体信息的评论中的每个情 感词的相似度,提取相似度最大值y ;
[0052] 所述观点词对与所述社交媒体信息的相似度为si = λ a+(l-λ) b,λ大于0小于 1,所述观点词对与所述社交媒体信息的评论的相似度为s2 = μ χ+α-μ )y,μ大于0小于 1 ;
[0053] 将所述观点词对与所述社交媒体信息的相似度及所述观点词对与所述社交媒体 信息的评论的相似度相加得到所述社交媒体信息的观点子值;
[0054] 将每个观点词对都做同样处理得到所述社交媒体信息的所有观点子值,将所有观 点子值累加得到所述社交媒体信息的观点值,W此类推,得到每个社交媒体信息的观点值。
[0055] 结合第二方面,或第二方面的第一种实施方式,或第二方面的第二种实施方式,或 第二方面的第Η种实施方式,在第二方面的第四种实施方式中,所述第一计算单元具体用 于:
[0056] 确定每条待评估信息中包含的不确定内容的类
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1