一种基于大数据的舆论热点预测方法与流程

文档序号:11582664阅读:825来源:国知局

在进行信息分析和发布的时候,人们通常不清楚要发布什么内容才能引起读者的兴趣,读者对于哪种类型的具体信息内容具有较高的传播热情。例如:明天要开记者招待会了,记者和观众会问哪些相关的主题;在新闻门户、社交媒体平台上,哪些主动设置的议程会成为传播的热点;特定时间,哪些主题会成为当前的舆论热点;对于特定人物,民众经常关注和讨论该人物的什么事项。对于这类信息的预测通常依赖于人的知识与经验,现提出通过计算机技术进行大数据的计算,帮助预测针对某个时间、对象、部门、人物、事件预测什么主题会变成人们关注、讨论和传播的舆论热点。



背景技术:

针对上述需求,现有的预测方法通常预测方法为人工的预测方案,其过程和结果严重依赖用户的知识与经验,准确性及可重复性存在不稳定状态。因此本发明提出一种基于大数据的舆论热点预测方法,帮助预测在某个时间节点对于舆论热点进行预测,以便做出针对性的议程设置和准备应对措施。本发明涉及信息传播、计算机基数、大数据挖掘算法、用户内容倾向模型建模。



技术实现要素:

本发明说要解决的技术问题是:人们如何通过大数据分析发现用户信息需求和信息传播规律,并预测某个主题会成为舆论热点。

预测的对象包含两种:一种是通过大数据分析从海量历史数据中发掘主题,对于历史数据中抽取出的主题成为舆论热点的可能性进行预测,判断该主题在某个时间节点或者时间段是否可以成为舆论热点;另外一种是在当前主动确定的主题,根据用户信息需求模型、信息传播模式的关联关系,通过对历史数据的大数据挖掘分析,来计算该主题与用户的内容倾向和信息传播规律的匹配程度,最终判断该主题是否能够在某个时间节点或者时间段成为舆论热点。

本发明解决上述技术问题所采用的技术方案是:

1.构建大数据数据存储结构,利用爬虫技术、文件格式解析、数据库及其他数据采集技术,对信息和信息传播数据进行采集、去重、格式解析、并结构化存储。

2.利用语义分析技术对数据进行分词、词频统计、情感计算、主题抽取等预处理过程。

3.通过统计分析、关联规则、时间序列分析、聚类、分类分析等大数据挖掘方法,分析历史数据中用户对于内容的需求偏好、舆论热点的传播特征、内容特征和时间特征,用户情感指数等维度,并建立大数据分析模型,模型名称为用户内容倾向分析模型。

4.在第3步中,对预处理过的历史数据进行挖掘,通过时间序列分析,将历史相同时间节点和时间段的主题进行统计和聚类,得出一定时间节点和时间段内具有较高传播热度的主题,并与用户内容倾向的时间序列进行匹配,计算该主题与用户的当前内容倾向及传播特征匹配度,达到或者超过一定阈值,则从历史数据中抽取出该主题能够成为舆论热点。

5.建立数据输入接口,用户将主动设置的主题输入,并对主题进行特征词的输入。

6.从海量历史数据中进行主题特征词的全文检索与相似度计算,抽取历史数据中该主题相似的内容、传播数据及信息发布时间,通过时间序列的分析,计算主题在历史中特定时间节点或者时间段中周期性传播的热度值,如果存在周期性的传播热度超过一定阈值现象,则与用户内容倾向和传播特征进行匹配,达到一定阈值时,再与预测时间进行匹配,如果时间重合度超过一定值,判定该主题可以成为舆论热点。

7.将主动设置的主题与历史数据进行相似度计算,如果在同一类中相似度达到一定阈值,则与用户内容倾向进行匹配,判断与当前用户的内容倾向及传播特征重合程度,如果超过一定阈值,则判断该主题会成为舆论热点。

8.上一步中判断相似度较低的主题,抽取历史数据中相关主题进行聚类分析,计算该主题与历史主题是否同属类似主题,并分析在原有主题上是否增加了新的话题和新细节,如果有,则将新的话题和细节与用户信息内容倾向及传播特征匹配,超过一定阈值,则判定该主题会成为舆论热点。

9.对历史数据中用户的舆论热点进行大跨度时间的内容挖掘,计算用户当前内容倾向的演变规律及时间变化规律,对输入的主题及其特征词与用户内容倾向及传播特征进行对比,如果重合度超过一定阈值,则判定该主题能够成为舆论热点。

与现有技术相比,本发明具有以下优点:

1.本方法克服了现有人工方法效率低下,准确度严重依赖知识经验的弊端,通过大数据及语义分析技术,使用计算机算法实现,大大提升速度、效率及其适用场景。

2.本方法通过大数据技术,采集和分析海量数据,极大扩大了分析的样本数据及案例,充分利用历史积累的大量案例,对于用户内容倾向和舆论热点传播的各方面特征进行挖掘,模型更为科学合理,分析结果不断得到改善,并达到一定准确度。

3.本方法通过语义分析技术,对历史数据进行细粒度的切分与主题抽取,对于舆论热点的更多细节予以覆盖,更为全面的分析舆论热点中用户的内容倾向,对于预测的精细度有更好的掌握。

4、数据来源可以用爬虫技术及其他数据来源,覆盖网络及其他类型数据,通过计算机技术对数据进行自动采集、智能解析、全能结构化及海量存储,解决了信息源的海量覆盖及分析案例的充分积累。为预测的不断改善储备数据和算法学习迭代基础

5、预测过程以用户内容倾向模型为基础,结合舆论热点传播中的时间、内容、传播、用户反馈等各个维度,对于舆论热点的广泛传播特征进行全面分析,提升预测判断的多因素作用及共同作用综合分析,预测结果更为准确和贴近实际。

附图说明

附图1是本方法的计算流程图。

具体实施方式

本发明基于大数据的舆论热点预测方法,其方法要点包括:

a.建立用于供用户输入主题和该主题的相关特征的交互窗口,接受用户提交的文本或者文件。

b.对于不同的历史数据源,可以由爬虫、文件格式解析模块、数据库等对进入的海量数据进行预处理,并形成结构化的存储,并能够更多的细粒度的人工标引,引入大数据体系架构,形成海量数据的存储,自动化的数据抽取,流式计算,提供高性能的舆论热点预测。

c.对于历史数据进行细粒度的切分与标签化。预测的基础在于用户的内容倾向模型,舆论传播的时间特征、内容特征、传播特征,因此数据包含信息本身、时间、发布平台、用户评论、回复、点赞、阅读数及传播过程中产生的其他数据结合,如:发布平台的用户覆盖、转发者的传播力、转发者的内容倾向、平台的传播模式、当前用户整体情绪倾向等。

d.使用统计和语义分析算法,对历史数据进行分词、词性识别、主题抽取,对数据进行预处理,形成后继大数据分析基础。

e.通过时序分析,内容分析、主题挖掘、聚类等技术,对历史舆论热点及其传播过程进行细粒度分析,形成舆论热点传播影响因素体系,包括用户内容倾向、时间特征、传播特征、内容特征构建预测的整体框架,并形成一定的规律与规则,作为预测的计算的标准。

f.在大数据时序分析过程中,就可以从历史数据中发现一定时间周期反复出现的符合用户特定内容倾向的主题,该主题一旦符合当前传播的时间特征、广泛传播特征,则会成为舆论的热点,在一定时间内爆发。

g.周期性舆论热点判断。用户设置的主题,可以从周期性时间规律方面进行吻合度的计算,把待预测主题与历史数据中周期性出现的舆论热点进行吻合度计算,超过一点阈值(c),并提取该主题的传播特征与时间特征、内容特征,能够与一定时间内热点吻合度(k),则该主题是符合周期性舆论热点特征,将会在一定时间内发生并成为热点

h.内容性舆论热点判断。用户输入主题及相关特征,与一定时间用户内容倾向特征进行吻合度计算,一种情况是与热点吻合度较高(c),则容易成为舆论热点,另外一种情况是吻合度达到一定阈值(c),聚类分析之后,与热点主题同为相同主题,但有新的特征(p),具有传播的新颖性,能够吸引用户关注与讨论,并与传播特征吻合,则可以成为舆论热点。

i.传播性舆论热点判断。社会不断发展,用户不断改变,需求也随着演变,信息传播模式可以根据不断补充进来的数据进行实时的分析,挖掘符合用户内容倾向的新传播规律、新现象、新事物的主题及其演变规律,对于用户输入的主题与传播特征进行比较,计算其吻合度(d),并分析其新颖度、创新度、吸引力、传播力,判断其是否能够依靠其新鲜的特质,获得用户的关注与讨论,成为舆论热点。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1