一种基于社交网络平台的舆情分析方法及系统的制作方法

文档序号:9922012阅读:290来源:国知局
一种基于社交网络平台的舆情分析方法及系统的制作方法
【技术领域】
[0001]本发明属于计算机互联网技术领域,具体涉及一种基于社交网络平台的舆情分析方法及系统。
【背景技术】
[0002]当今社会,互联网技术高度发达,各种在线社交网络平台的讨论话题也越来越深入和广泛,社交网络平台已成为社会民众言论的一个集散地。
[0003]随着社交网络舆论趋于复杂和多样化,有效的对社交网络平台进行舆情监测和分析,对舆情的言论倾向进行疏导,对于进行有效的社会管理、构建和谐社会均有着重要而深远的意义。现有技术中,尚未出现有效全面对社交网络平台进行舆情分析的方法。

【发明内容】

[0004]针对现有技术存在的缺陷,本发明提供一种基于社交网络平台的舆情分析方法及系统,可对社交网络平台进行多维度舆情分析,从而可对舆情的主要传播途经和社区言论倾向进行良性疏导。
[0005]本发明采用的技术方案如下:
[0006]本发明提供一种基于社交网络平台的舆情分析方法,包括以下步骤:
[0007]SI,采集被分析的社交网络平台在最近历史时期的源数据;
[0008]S2,对所述源数据进行多维度舆情分析,得到多个舆情分析子报告,各个所述舆情分析子报告构成舆情分析报告;其中,所述舆情分析子报告包括基于用户影响力的关键用户排行榜子报告、用户关系分析子报告、用户行为分析子报告、敏感用户排行榜子报告和敏感用户纵向分析子报告;
[0009]S3,基于所述舆情分析报告,对所述社交网络平台的变化趋势进行预测。
[0010]优选的,所述基于用户影响力的关键用户排行榜子报告通过以下方法获得:
[0011]S4.1,从所述源数据中提取主题文章ID以及该主题文章属性的对应关系;其中,所述主题文章属性包括主题作者、主题文章浏览量、主题文章回复量以及主题文章表态量;
[0012]S4.2,对于每个主题文章ID,将其对应的主题文章浏览量、主题文章回复量以及主题文章表态量进行求和计算,计算结果即为该主题文章的用户影响力;
[0013]S4.3,判断同一主题作者所发布的主题文章数量是否为两个以上,如果是,则将该主题作者所发布的各个主题文章的用户影响力进行求和计算,得到该主题作者的用户影响力;如果不是,则该主题作者所发布的主题文章的用户影响力即为该主题作者的用户影响力;
[0014]S4.4,对各主题作者按用户影响力由高到低的顺序排序,将排序位于前面设定数量的主题作者称为关键用户;
[0015]各个所述关键用户及其用户影响力的对应关系即形成所述关键用户排行榜子报生口 O
[0016]优选的,所述用户关系分析子报告通过以下方法获得:
[0017]S5.1,从所述源数据中提取主题文章ID以及该主题文章属性的对应关系;其中,所述主题文章属性包括主题作者ID、回复作者ID、主题作者IP、回复作者IP以及每个回复作者ID对该主题文章ID的回复次数;
[0018]S5.2,将被分析作者ID映射为用户关系拓扑网络图的中心节点;
[0019]获得与该被分析作者进行直接互动的所有第I作者ID,并将所述第I作者ID映射为用户关系拓扑网络图的第I级节点;然后,使用向量分别连接中心节点与各个第I级节点,向量的权重为相互连接的两个节点的互动次数;
[0020]然后,对于每个第I作者ID,获得与该第I作者ID进行直接互动的且除所述被分析作者ID的所有第2作者ID,并将所述第2作者ID映射为用户关系拓扑网络图的第2级节点,然后,使用向量连接第I作者ID与其对应的各个第2作者ID ;向量的权重为相互连接的两个节点的互动次数;
[0021]依此类推,形成以被分析作者ID为中心节点,向外逐渐发散的树状用户关系拓扑网络图;其中,所述第I级节点所对应的作者ID为所述被分析作者ID的直接关系节点,其他各级节点所对应的作者ID为所述被分析作者ID的间接关系节点;
[0022]其中,对于相互连接的两个节点,向量的权重通过以下方法获得:
[0023]将相互连接的两个节点分别记为节点A和节点B ;其中,节点A代表作者A ;节点B代表作者B ;
[0024]则:对于节点B为节点A下级节点的情形,节点A和节点B之间的权重值为作者A对作者B发布的所有主题文章进行回复的次数。
[0025]优选的,所述用户行为分析子报告通过以下方法获得:
[0026]S6.1,从所述源数据中提取版块ID以及该版块属性的对应关系;其中,所述版块属性包括主题文章ID、主题作者、主题文章浏览量、主题文章回复量以及主题文章表态量的对应关系;
[0027]对于每个主题文章ID,将其对应的主题文章浏览量、主题文章回复量以及主题文章表态量进行求和计算,计算结果即为该主题文章的用户影响力;
[0028]S6.2,对于每个版块ID,设定若干个统计时间点,对于每个统计时间点,通过以下方法获得被分析的作者ID在该版块ID的用户影响力:判断作者ID在该版块ID截止到所述统计时间点所发布的主题文章数量是否为两个以上,如果是,则将该作者ID所发布的各个主题文章的用户影响力进行求和计算,得到该作者ID的用户影响力;如果不是,则该作者ID所发布的主题文章的用户影响力即为该作者ID的用户影响力;
[0029]S6.3,以各个统计时间点为横坐标,以用户影响力为纵坐标,建立直角坐标系;将每个统计时间点所对应的用户影响力标识到所述直角坐标系,得到若干个离散点,将各个所述离散点按时间先后顺序连接,得到一条曲线,该曲线即为所述作者ID在所述版块ID的用户影响力随时间的变化趋势线;
[0030]S6.4,在所述直角坐标系中,绘制同一作者ID在不同版块ID的变化趋势线,即得到所述用户行为分析子报告。
[0031]优选的,所述敏感用户排行榜子报告通过以下方法获得:
[0032]S7.1,基于所述源数据获得文章内容以及发布该文章内容的作者ID ;其中,所述文章内容包括主题文章内容和主题文章回复内容;
[0033]S7.2,增量方式运行屏蔽词检索脚本,判断所述文章内容中是否包含所述屏蔽词,如果包含,则记录作者ID、屏蔽词信息以及屏蔽词出现次数的对应关系;
[0034]S7.3,统计得到每个作者ID所对应的屏蔽词出现次数,并按屏蔽词出现次数由高到低的顺序,对作者ID进行排序;将屏蔽词出现次数超过设定阈值的作者ID称为敏感用户ID ;
[0035]各个敏感用户ID及其屏蔽词出现次数的对应关系即形成所述敏感用户排行榜子?艮告。
[0036]优选的,对于S7.3分析得到的每个敏感用户ID,对其进行敏感用户纵向分析的步骤为:
[0037]S8.1,对于被分析的敏感用户ID,获得该敏感用户ID在所述最近历史时期所发布的敏感词汇以及每个敏感词汇的出现次数;
[0038]S8.2,以具体的敏感词汇为横坐标,以每个敏感词汇的出现次数为纵坐标,得到第一直方图,该
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1