一种基于多源数据的舆情话题传播路径分析系统和方法与流程

文档序号:20017301发布日期:2020-02-25 10:48阅读:418来源:国知局
一种基于多源数据的舆情话题传播路径分析系统和方法与流程

本发明涉及数据分析领域,尤其涉及一种基于多源数据的舆情话题传播路径分析系统和方法。



背景技术:

近年来随着互联网技术的发展和普及,以去中心、交互性和社会化为特点的网络新技术,促使自媒体快速普及的同时,也在改变网络舆论生态,促进公共话语权的转移。新旧媒体交互影响、官民舆论相互对话、舆论表达多源复杂成为当下中国舆论的格局。自媒体传播的草根、及时、互动、平等、分享特征,使网络舆论衍生出许多“新倾向”。舆论话题的生成与扩散不再受制于官方媒体,更自由、灵活、多元,借助非线性的网络化传播,主体分散,这一过程没有明显的中心,没有固定的舆论集散地,更没有传统的把关人,任何人的任何一个微小的“举动”和“信息”,都可能成为引爆舆论的“导火线”,酿成重大舆论事件。

但是话题的传播情况,如关键传播节点及路径,不能直观地被了解,导致后续无法对传播情况进行有效地控制。

因此,本领域亟需一种基于多源数据的舆情话题传播路径分析系统和方法。

因此,有鉴于此,提出本发明。



技术实现要素:

本发明的目的在于提供一种基于多源数据的舆情话题传播路径分析系统和方法,以解决上述至少一个技术问题。

本发明提供了一种基于多源数据的舆情话题传播路径分析系统,包括:

多源数据采集模块,用于对舆情话题进行多源数据采集,获取至少一项来源信息;

传播路径分析模块,用于根据来源信息的类型采用不同的单源传播路径建立方案,得到单源传播路径,多个单源传播路径相互关联,得到交叉传播路径;

传播主路径分析模块,用于分析各个节点的转发关系和转发量,得到舆情话题的关键传播节点,保留根节点与关键传播节点、关键传播节点之间的传播路径,删掉无关路径,得到传播主路径;

路径显示模块,用于显示路径信息。

采用上述方案,所述传播路径分析模块融合多源数据进行舆情话题传播路径分析,根据来源信息类型采用不同的单源传播路径建立方案,提高建立成功率和效率,减少信息存储和内存占用率,先建立单源传播路径再进行多源路径关联,分层次进行,处理方便,效率高,关联得更全面,所述传播主路径分析模块分析其关键传播节点和传播主路径,所述显示模块显示路径信息,所述路径信息包括交叉传播路径、传播主路径等信息,帮助用户更加直观的了解舆情话题的传播情况。

进一步地,所述传播路径分析模块包括以下至少二个单元:

第一单源方案单元,用于通过数据的内容分析数据的转发关系,获取节点名称及转发关系,建立单源传播路径;

第二单源方案单元,用于通过数据的来源网站分析数据是否为转发,若是,则可将该网站所在节点和来源网站所在节点之间建立转发关系,向上依次类推建立单源传播路径;

第三单源方案单元,用于通过数据的发布时间,建立单源传播路径。

采用上述方案,第一单源方案单元,适用于微博类来源的数据,其内容包含了转发关系,第二单源方案单元适用于新闻类来源的数据,数据包含来源网站,第三单源方案适用于微信、贴吧类来源的数据,本身不存在转发关系,可参考数据发布时间先后顺序构造单源传播路径,第三单源方案单元也适用于找不到转发关系的微博类、新闻类的根节点,将标题相同或相似的根节点按其发布时间先后顺序建立单源传播路径,通过上述三种方案单独或组合适用,使单个来源建立转发关系,形成树状结构,结构清晰,便于后续关联时数据访问与存储。

进一步地,所述传播路径分析模块包括以下至少一个单元:

第一关联方案单元,用于通过数据内容中嵌入的链接地址,将不同来源的节点进行关联,将链接地址所在节点作为上层节点,建立传播路径;

第二关联方案单元,用于通过单个用户在不同来源上的认证信息,将不同来源的节点进行关联,按发布时间先后建立传播路径;

第三关联方案单元,用于将不同来源的根节点发布时间进行比较,判断时间差是否超过预设值,若是,将不同来源的根节点进行关联,按发布时间先后建立传播路径;若否,将不同来源的根节点进行关联,建立同级路径。

采用上述方案,将不同来源的数据进行关联,通过一个或多个关联方案单元,形成交叉传播路径,便于查看数据的传播方式,还可观察到时间接近的不同来源的初始发布,传播方式清楚明了。

进一步地,所述传播主路径分析模块包括关键传播节点单元,所述关键传播节点单元用于遍历交叉传播路径,计算每个节点的连接的下级节点个数,判定是否达到设定阈值,若是,将该节点记为关键传播节点。

采用上述方案,所述下级节点不包括多层连接的下级节点,仅包含直接连接的下级节点,达到设定阈值,表明此节点有大量转发,形成2次引爆点,为数据传播的关键节点,具有重要参考意义,便于用户有针对应对,对数据传播进行干涉。

进一步地,所述基于多源数据的舆情话题传播路径分析系统还包括传播层级分布分析模块,传播层级分布分析模块用于遍历交叉传播路径,统计每一层的节点数。

采用上述方案,便于用于查看不同层的节点数,查看转发的爆发层级,便于后续选择不同的层级进行干涉。

进一步,所述路径显示模块包括以下至少一项:

交叉传播路径显示单元,用于利用树形结构对交叉传播路径进行数据存储,记为t,绘图软件读取t,绘制交叉传播路径图;

传播主路径显示单元,用于利用树形结构对传播主路径进行数据存储,记为tm,绘图软件读取tm,绘制传播主路径图;

关键传播节点信息显示单元,用于获取关键传播节点信息,包括节点名称和转发数量,利用表格或统计图进行显示;

传播层级分布信息显示单元,用于获取传播层级每一层的节点数,利用表格或统计图进行显示。

优选地,所述交叉传播路径显示单元包括区分子单元,所述区分子单元用于使关键传播节点与非关键传播节点采用不同的显示方式。

更优选地,根节点可与关键传播节点显示方式相同,也可以与前两者的显示方式均不同。

更优选地,所述不同的显示方式可以为节点大小、颜色、背景或弹出信息至少一项。

优选地,传播主路径显示单元包括下级节点子单元,所述下级节点子单元用于当满足一定条件时,所述关键传播节点显示下级节点情况。

更优选地,所述下级节点情况可为图中下级节点的绘制图或下级节点个数。

优选地,关键传播节点信息显示单元中,获取的关键传播节点信息还包括来源类型、发布时间,并利用表格进行显示。

采用上述方案,路径信息可通过不同的方式显示,用户直观获得所需信息。

具体的,本发明另一方面提供了一种基于多源数据的舆情话题传播路径分析方法,包括以下步骤:

多源数据采集:对舆情话题进行多源数据采集,获取至少一项来源信息;

传播路径分析:根据来源信息的类型采用不同的单源传播路径建立方案,得到单源传播路径,多个单源传播路径相互关联,得到交叉传播路径;

传播主路径分析:分析各个节点的转发关系和转发量,得到舆情话题的关键传播节点,保留根节点与关键传播节点、关键传播节点之间的传播路径,删掉无关路径,得到传播主路径;

路径显示:显示路径信息。

采用上述方案,融合多源数据进行舆情话题传播路径分析,分析其关键传播节点和传播主路径,帮助用户更加直观的了解舆情话题的传播情况,根据来源信息类型采用不同的单源传播路径建立方案,提高建立成功率和效率,减少信息存储和内存占用率,先建立单源传播路径再进行多源路径关联,分层次进行,处理方便,效率高,关联得更全面,所述路径信息包括交叉传播路径、传播主路径等信息,所述来源信息类型包括内容、来源网站、发布时间等。

进一步地,所述单源传播路径建立方案包括以下至少二个方案:

第一单源方案:通过数据的内容分析数据的转发关系,获取节点名称及转发关系,建立传播路径;

第二单源方案:通过数据的来源网站分析数据是否为转发,若是,则可将该网站所在节点和来源网站所在节点之间建立转发关系,向来源依次类推建立传播路径;

第三单源方案:通过数据的发布时间,建立传播路径。

采用上述方案,第一单源方案适合微博类来源的数据,其内容包含了转发关系,第二单源方案适合新闻类来源的数据,数据包含来源网站,第三单源方案适合微信、贴吧类来源的数据,本身不存在转发关系,可参考数据发布时间先后顺序构造单源传播路径,第三单源方案也适用于找不到转发关系的微博类、新闻类的根节点,将标题相同或相似的根节点按其发布时间先后顺序建立单源传播路径,通过上述三种方案单独或组合适用,使单个来源建立转发关系,形成树状结构,结构清晰,便于后续关联时数据访问与存储。

进一步地,所述多个单源传播路径相互关联的方法包括以下至少一个方案:

第一关联方案:通过数据内容中嵌入的链接地址,将不同来源的节点进行关联,将链接地址所在节点作为上层节点,建立传播路径;

第二关联方案:通过单个用户在不同来源上的认证信息,将不同来源的节点进行关联,按发布时间先后建立传播路径;

第三关联方案:将不同来源的根节点发布时间进行比较,判断时间差是否超过预设值,若是,将不同来源的根节点进行关联,按发布时间先后建立传播路径;若否,将不同来源的根节点进行关联,建立同级路径。

采用上述方案,将不同来源的数据进行关联,通过一个或多个关联方案,形成交叉传播路径,便于查看数据的传播方式,还可观察到时间接近的不同来源的初始发布,传播方式清楚明了。

进一步地,所述关键传播节点的判定方法为:

遍历交叉传播路径,计算每个节点的连接的下级节点个数,判定是否达到设定阈值,若是,将该节点记为关键传播节点。

采用上述方案,所述下级节点不包括多层连接的下级节点,仅包含直接连接的下级节点,达到设定阈值,表明此节点有大量转发,形成2次引爆点,为数据传播的关键节点,具有重要参考意义,便于用户有针对应对,对数据传播进行干涉。

进一步地,所述基于多源数据的舆情话题传播路径分析方法还包括以下步骤:

传播层级分布分析:遍历交叉传播路径,统计每一层的节点数。

采用上述方案,便于用于查看不同层的节点数,查看转发的爆发层级,便于后续选择不同的层级进行干涉。

进一步,所述路径信息的显示方法包括以下至少一项:

显示交叉传播路径:利用树形结构对交叉传播路径进行数据存储,记为t,绘图软件读取t,绘制交叉传播路径图;

显示传播主路径:利用树形结构对传播主路径进行数据存储,记为tm,绘图软件读取tm,绘制传播主路径图;

显示关键传播节点信息:获取关键传播节点信息的节点名称和转发数量,利用表格或统计图进行显示;

显示传播层级分布信息:获取传播层级每一层的节点数,利用表格或统计图进行显示。

优选地,所述显示交叉传播路径的过程中,关键传播节点与非关键传播节点采用不同的显示方式。更优选地,根节点可与关键传播节点显示方式相同,也可以与前两者的显示方式均不同。

更优选地,所述不同的显示方式可以为节点大小、颜色、背景或弹出信息至少一项。

优选地,所述显示传播主路径的过程中,当满足一定条件时,所述关键传播节点显示下级节点情况。

更优选地,可采用图中补充绘制下级节点或显示下级节点个数方式显示下级节点情况。

优选地,所述显示关键节点信息的过程中,还获取来源类型、发布时间,利用表格进行显示。

采用上述方案,路径信息可通过不同的方式显示,用户直观获得所需信息。

综上所述,本发明具有以下有益效果:

1、本发明结合数据采集、自然语言处理、机器学习技术,帮助用户更直观了解话题的传播情况和社会影响;

2、所述传播路径分析模块融合多源数据进行舆情话题传播路径分析,根据来源信息类型采用不同的单源传播路径建立方案,提高建立成功率和效率,减少信息存储和内存占用率;

3、先建立单源传播路径再进行多源路径关联,分层次进行,处理方便,效率高,关联得更全面,所述传播主路径分析模块分析其关键传播节点和传播主路径;

4、所述显示模块显示路径信息,帮助用户更加直观的了解舆情话题的传播情况;

5、通过上述三种单源方案单独或组合适用,使单个来源建立转发关系,形成树状结构,结构清晰,便于后续关联时数据访问与存储;

6、将不同来源的数据进行关联,通过一个或多个关联方案单元,形成交叉传播路径,便于查看数据的传播方式,还可观察到时间接近的不同来源的初始发布,传播方式清楚明了。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明基于多源数据的舆情话题传播路径分析系统一种实施方式的示意图;

图2为本发明基于多源数据的舆情话题传播路径分析方法一种实施方式的示意图;

图3为本发明交叉传播路径一种实施方式的示意图;

图4为本发明传播主路径一种实施方式的示意图;

图5为本发明关键传播节点信息一种实施方式的示意图;

图6为本发明传播层级分配信息一种实施方式的示意图;

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

发明中提到的术语进行说明:

(1)节点

数据所在的站点名作为节点,所述数据可为文字、图片、视频、音频或其结合,所述站点为如微博、新闻网站、贴吧等媒体。

(2)传播路径

传播路径中以最早的话题相关数据的站点作为起始节点,将起始节点作为根节点,其它转发节点作为下级节点,并用用线将其连接起来。依次类推,最终会形成以起始节点为圆心,各转发节点追层发散的放射性结构图。

(3)关键传播节点

关键传播节点是指在话题传播过程中起到重要作用的节点,例如话题的2次引爆点。

(4)传播主路径

传播主路径是指从话题根节点(即起始节点)连接到各个关键传播节点的路径图。

(5)传播层级

以传播路径图中的根节点(即起始节点)为起点,所有与根节点连接的节点为第一层级,与第一层级中所有节点连接的节点为第二层级,依次类推。

以下将通过实施例对本发明进行详细描述。

实施例一

参考图1,本实施例提供了一种基于多源数据的舆情话题传播路径分析系统,包括:

多源数据采集模块,用于对舆情话题进行多源数据采集,获取至少一项来源信息;具体地,本模块主要是获取舆情话题相关的新闻、论坛、app新闻、微信、贴吧、博客、微博等媒体发布的信息。

传播路径分析模块,用于根据来源信息的类型采用不同的单源传播路径建立方案,得到单源传播路径,多个单源传播路径相互关联,得到交叉传播路径;

传播主路径分析模块,用于分析各个节点的转发关系和转发量,得到舆情话题的关键传播节点,保留根节点与关键传播节点、关键传播节点之间的传播路径,删掉无关路径,得到传播主路径;

路径显示模块,用于显示路径信息。

采用上述方案,所述传播路径分析模块融合多源数据进行舆情话题传播路径分析,根据来源信息类型采用不同的单源传播路径建立方案,提高建立成功率和效率,减少信息存储和内存占用率,先建立单源传播路径再进行多源路径关联,分层次进行,处理方便,效率高,关联得更全面,所述传播主路径分析模块分析其关键传播节点和传播主路径,所述显示模块显示路径信息,所述路径信息包括交叉传播路径、传播主路径等信息,帮助用户更加直观的了解舆情话题的传播情况。

在本实施例的一个优选实施方式中,所述传播路径分析模块包括以下至少二个单元:

第一单源方案单元,用于通过数据的内容分析数据的转发关系,获取节点名称及转发关系,建立单源传播路径;

第二单源方案单元,用于通过数据的来源网站分析数据是否为转发,若是,则可将该网站所在节点和来源网站所在节点之间建立转发关系,向上依次类推建立单源传播路径;

第三单源方案单元,用于通过数据的发布时间,建立单源传播路径。

采用上述方案,第一单源方案单元,适用于微博类来源的数据,其内容包含了转发关系,第二单源方案单元适用于新闻类来源的数据,数据包含来源网站,第三单源方案适用于微信、贴吧类来源的数据,本身不存在转发关系,可参考数据发布时间先后顺序构造单源传播路径,第三单源方案单元也适用于找不到转发关系的微博类、新闻类的根节点,将标题相同或相似的根节点按其发布时间先后顺序建立单源传播路径,通过上述三种方案单独或组合适用,使单个来源建立转发关系,形成树状结构,结构清晰,便于后续关联时数据访问与存储。

在本实施例的一个优选实施方式中,所述传播路径分析模块包括以下至少一个单元:

第一关联方案单元,用于通过数据内容中嵌入的链接地址,将不同来源的节点进行关联,将链接地址所在节点作为上层节点,建立传播路径;

第二关联方案单元,用于通过单个用户在不同来源上的认证信息,将不同来源的节点进行关联,按发布时间先后建立传播路径;

第三关联方案单元,用于将不同来源的根节点发布时间进行比较,判断时间差是否超过预设值,若是,将不同来源的根节点进行关联,按发布时间先后建立传播路径;若否,将不同来源的根节点进行关联,建立同级路径。

采用上述方案,将不同来源的数据进行关联,通过一个或多个关联方案单元,形成交叉传播路径,便于查看数据的传播方式,还可观察到时间接近的不同来源的初始发布,传播方式清楚明了。

在本实施例的一个优选实施方式中,所述传播主路径分析模块包括关键传播节点单元,所述关键传播节点单元用于遍历交叉传播路径,计算每个节点的连接的下级节点个数,判定是否达到设定阈值,若是,将该节点记为关键传播节点。

采用上述方案,所述下级节点不包括多层连接的下级节点,仅包含直接连接的下级节点,达到设定阈值,表明此节点有大量转发,形成2次引爆点,为数据传播的关键节点,具有重要参考意义,便于用户有针对应对,对数据传播进行干涉。

在本实施例的一个优选实施方式中,所述基于多源数据的舆情话题传播路径分析系统还包括传播层级分布分析模块,传播层级分布分析模块用于遍历交叉传播路径,统计每一层的节点数。

采用上述方案,便于用于查看不同层的节点数,查看转发的爆发层级,便于后续选择不同的层级进行干涉。

在本实施例的一个优选实施方式中,所述路径显示模块包括以下至少一项:

交叉传播路径显示单元,用于利用树形结构对交叉传播路径进行数据存储,记为t,绘图软件读取t,绘制交叉传播路径图,如图3所示;

传播主路径显示单元,用于利用树形结构对传播主路径进行数据存储,记为tm,绘图软件读取tm,绘制传播主路径图,如图4所示;

关键传播节点信息显示单元,用于获取关键传播节点信息,包括节点名称和转发数量,利用表格或统计图进行显示,如图5所示;

传播层级分布信息显示单元,用于获取传播层级每一层的节点数,利用表格或统计图进行显示,如图6所示。

在本实施例的一个优选实施方式中,所述交叉传播路径显示单元包括区分子单元,所述区分子单元用于使关键传播节点与非关键传播节点采用不同的显示方式。

在本实施例的一个优选实施方式中,根节点可与关键传播节点显示方式相同,也可以与前两者的显示方式均不同。

在本实施例的一个优选实施方式中,所述不同的显示方式可以为节点大小、颜色、背景或弹出信息至少一项。具体地,弹出信息可以为名称、个数等。

在本实施例的一个优选实施方式中,传播主路径显示单元包括下级节点子单元,所述下级节点子单元用于当满足一定条件时,所述关键传播节点显示下级节点情况。所述满足一定的条件可以为鼠标单击、右击、鼠标放置位置、触屏点击等条件。

在本实施例的一个优选实施方式中,所述下级节点情况可为图中下级节点的绘制图或下级节点个数。

在本实施例的一个优选实施方式中,关键传播节点信息显示单元中,获取的关键传播节点信息还包括来源类型(即通道)、发布时间,并利用表格进行显示。

采用上述方案,路径信息可通过不同的方式显示,用户直观获得所需信息。

实施例二

参考图2,本实施例提供了一种基于多源数据的舆情话题传播路径分析方法,包括以下步骤:

s101,多源数据采集:对舆情话题进行多源数据采集,获取至少一项来源信息;

具体地,所述多源数据采集,可利用网络爬虫,通过百度、必应、360搜索、搜狗搜索等搜索引擎、微博官网、搜狗微信、百度贴吧、各大主流论坛搜索舆情话题关键词,采集各媒体平台上关于话题的舆情数据,包括标题、内容、来源、发布时间等;

s102,传播路径分析:根据来源信息的类型采用不同的单源传播路径建立方案,得到单源传播路径,多个单源传播路径相互关联,得到交叉传播路径;

s103,传播主路径分析:分析各个节点的转发关系和转发量,得到舆情话题的关键传播节点,保留根节点与关键传播节点、关键传播节点之间的传播路径,删掉无关路径,得到传播主路径;

s105,路径显示:显示路径信息。

采用上述方案,融合多源数据进行舆情话题传播路径分析,分析其关键传播节点和传播主路径,帮助用户更加直观的了解舆情话题的传播情况,根据来源信息类型采用不同的单源传播路径建立方案,提高建立成功率和效率,减少信息存储和内存占用率,先建立单源传播路径再进行多源路径关联,分层次进行,处理方便,效率高,关联得更全面,所述路径信息包括交叉传播路径、传播主路径等信息,所述来源信息类型包括内容、来源网站、发布时间等。

在本实施例的一个优选实施方式中,所述单源传播路径建立方案包括以下至少二个方案:

第一单源方案:通过数据的内容分析数据的转发关系,获取节点名称及转发关系,建立传播路径;

第二单源方案:通过数据的来源网站分析数据是否为转发,若是,则可将该网站所在节点和来源网站所在节点之间建立转发关系,向来源依次类推建立传播路径;

第三单源方案:通过数据的发布时间,建立传播路径。

具体地,所述多源数据进行传播路径分析,分为新闻、微博、其它3类数据进行处理;

对于微博数据,由于其自身特点,从微博内容中可以分析出其转发关系,如微博:“哇真给搞出来了//@等边直角三角饼干://@二十四節記:天呐天呐//@4517_voy吸管管:啊啊啊啊啊啊啊好可爱[泪][泪][泪]太用心了吧”,从内容中可以得到转发关系为:“等边直角三角饼干”->“二十四節記”->“4517_voy吸管管”。通过“//@”转发符号,结合“:提取转发用户昵称和转发关系,构造传播路径;

对于新闻数据,可以通过来源判断这篇新闻是转发还是原创,如果来源字段存在且不是该新闻发布网站,是其它网站,则是该新闻为转发新闻,则可将该新闻网站和来源网站之间建立转发关系,依次类推构造传播路径;

其它数据,如微信、贴吧等,其本身不存在转发关系,因此可参考信息发布时间先后顺序构造传播路径。

采用上述方案,第一单源方案适合微博类来源的数据,其内容包含了转发关系,第二单源方案适合新闻类来源的数据,数据包含来源网站,第三单源方案适合微信、贴吧类来源的数据,本身不存在转发关系,可参考数据发布时间先后顺序构造单源传播路径,第三单源方案也适用于找不到转发关系的微博类、新闻类的根节点,将标题相同或相似的根节点按其发布时间先后顺序建立单源传播路径,通过上述三种方案单独或组合适用,使单个来源建立转发关系,形成树状结构,结构清晰,便于后续关联时数据访问与存储。

在本实施例的一个优选实施方式中,所述多个单源传播路径相互关联的方法包括以下至少一个方案:

第一关联方案:通过数据内容中嵌入的链接地址,将不同来源的节点进行关联,将链接地址所在节点作为上层节点,建立传播路径;

第二关联方案:通过单个用户在不同来源上的认证信息,将不同来源的节点进行关联,按发布时间先后建立传播路径;

第三关联方案:将不同来源的根节点发布时间进行比较,判断时间差是否超过预设值,若是,将不同来源的根节点进行关联,按发布时间先后建立传播路径;若否,将不同来源的根节点进行关联,建立同级路径。

具体地,微博、微信和新闻、其它数据源传播路径之间可先通过短链接和用户认证信息两种方式进行关联。短链接是微博内容中嵌入的新闻、微信等文章链接地址,可以通过短链接将微博和对应的新闻、微信等媒体源的数据进行关联;用户认证信息是有些用户在微博、微信上进行了机构认证,可以通过认证机构与新闻媒体进行关联。若还有未关联的单源传播路径,再将不同来源的根节点发布时间进行比较,判断时间差是否超过预设值,若是,将不同来源的根节点进行关联,按发布时间先后建立传播路径;若否,将不同来源的根节点进行关联,建立同级路径。所示预设值可为1h-48h任意值。

采用上述方案,将不同来源的数据进行关联,通过一个或多个关联方案,形成交叉传播路径,便于查看数据的传播方式,还可观察到时间接近的不同来源的初始发布,传播方式清楚明了。

在本实施例的一个优选实施方式中所述关键传播节点的判定方法为:

遍历交叉传播路径,计算每个节点的连接的下级节点个数,判定是否达到设定阈值,若是,将该节点记为关键传播节点。

采用上述方案,所述下级节点不包括多层连接的下级节点,仅包含直接连接的下级节点,达到设定阈值,表明此节点有大量转发,形成2次引爆点,为数据传播的关键节点,具有重要参考意义,便于用户有针对应对,对数据传播进行干涉。

在本实施例的一个优选实施方式中,所述基于多源数据的舆情话题传播路径分析方法还包括以下步骤:

s104,传播层级分布分析:遍历交叉传播路径,统计每一层的节点数。

采用上述方案,便于用于查看不同层的节点数,查看转发的爆发层级,便于后续选择不同的层级进行干涉。

在本实施例的一个优选实施方式中,所述路径信息的显示方法包括以下至少一项:

显示交叉传播路径:利用树形结构对交叉传播路径进行数据存储,记为t,绘图软件读取t,绘制交叉传播路径图;具体地,利用gephi-toolkit工具绘制交叉传播路径图,如图3所示;

显示传播主路径:利用树形结构对传播主路径进行数据存储,记为tm,绘图软件读取tm,绘制传播主路径图;具体地,利用gephi-toolkit工具绘制传播主路径图,如图4所示;

显示关键传播节点信息:获取关键传播节点信息的节点名称和转发数量,利用表格或统计图进行显示,如图5所示;

显示传播层级分布信息:获取传播层级每一层的节点数,利用表格或统计图进行显示,如图6所示。

在本实施例的一个优选实施方式中,所述显示交叉传播路径的过程中,关键传播节点与非关键传播节点采用不同的显示方式。

在本实施例的一个优选实施方式中,根节点可与关键传播节点显示方式相同,也可以与前两者的显示方式均不同。

在本实施例的一个优选实施方式中,所述不同的显示方式可以为节点大小、颜色、背景或弹出信息至少一项。

在本实施例的一个优选实施方式中,所述显示传播主路径的过程中,当满足一定条件时,所述关键传播节点显示下级节点情况。所述满足一定的条件可以为鼠标单击、右击、鼠标放置位置、触屏点击等条件。

在本实施例的一个优选实施方式中,可采用图中补充绘制下级节点或显示下级节点个数方式显示下级节点情况。

在本实施例的一个优选实施方式中,所述显示关键节点信息的过程中,还获取来源类型、发布时间,利用表格进行显示。

采用上述方案,路径信息可通过不同的方式显示,用户直观获得所需信息。

应当指出,对于本领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1