微博数据的传播路径确定方法和装置与流程

文档序号:11206008阅读:480来源:国知局
微博数据的传播路径确定方法和装置与流程

本发明涉及微博数据传播领域,尤其涉及一种微博数据的传播路径确定方法和装置。



背景技术:

随着互联网的迅猛发展,人们每日通过互联网平台不断转载各种媒体报道的事件,如新浪微博、腾讯微博等互联网平台。

互联网平台具有信息传播快,且用户以虚拟网名进行微博数据的传播等特点,这就使得被转载的微博数据,其传播、扩散的路径难以被全面掌握。若被转载的微博数据中具有负面煽动、不安全威胁性的言论,则其对社会公众安全会形成威胁。

因此,亟需建立可以对微博数据的传播扩散路径进行追踪的方法,以用于对信息溯源并对信息的传播路径进行掌控,保证国家信息安全,保证公众获取到正面且积极的网络信息。



技术实现要素:

本发明提供一种微博数据的传播路径确定方法和装置,用于解决现有技术中对传播速度快,信息量大的微博数据难于掌控其传播路径的问题,本发明通过对微博数据进行分析,能够从微博数据中提取出其被转载的转发关系链,从而实现对互联网传播的微博数据追根溯源,得到微博数据的传播路径,以保证国家及公众的信息安全利益。

本发明提供一种微博数据的传播路径确定方法,包括:

采集微博数据;所述微博数据包括:所述微博数据的内容信息、所述微博数据的属性信息;其中,所述微博数据的属性信息包括:所述微博数据的发布者标识、与所述微博数据的内容信息唯一对应的内容标识;

对采集得到的每一条所述微博数据进行解析,在每一条所述微博数据的 内容信息中确定所述微博数据中是否包含有转发的微博数据;

获取所述转发的微博数据的原创者标识,获取与所述转发的微博数据的内容信息唯一对应的原创内容标识;在所述微博数据的内容信息中确定是否存在从所述发布者标识到所述原创者标识之间的转发用户标识,形成转发关系链;

根据所述原创内容标识,在所有所述微博数据中,确定与所述原创内容标识对应的所有所述转发关系链;

对每个所述原创内容标识对应的所有所述转发关系链进行去重操作,得到每个所述原创内容标识各自对应的微博数据的传播路径。

可选的,所述在所述微博数据的内容信息中确定是否存在从所述发布者标识到所述原创者标识之间的转发用户标识,形成转发关系链,包括:

在所述微博数据的内容信息中确定是否存在从所述发布者标识到所述原创者标识之间的转发用户标识;

若存在,根据所述转发用户标识排列的先后顺序形成转发序列,将所述原创者标识设置在所述转发序列的起始位置,将所述发布者标识设置在所述转发序列的终止位置,形成所述转发关系链;

若不存在,形成仅包含从所述原创者标识到所述发布者标识的所述转发关系链。

可选的,在所述微博数据的内容信息中确定是否存在从所述发布者标识到所述原创者标识之间的转发用户标识,包括:

在所述微博数据的内容信息中定位文本编辑字段;

在所述文本编辑字段中,确定是否存在转发标志;

若存在,提取所述转发标志所标识的所述转发用户标识。

可选的,所述微博数据的属性信息还包括:

所述微博数据的发布时间、所述微博数据的来源网站、所述微博数据的url;

相应的,所述对采集得到的每一条所述微博数据进行解析之前,还包括:

根据所述微博数据的发布时间、所述微博数据的来源网站、所述微博数据的url中的至少一项,对采集得到的所述微博数据进行分类及排序;

所述对采集得到的每一条所述微博数据进行解析,包括:

根据所述分类及排序后的先后顺序,逐一对采集得到所述微博数据进行解析。

可选的,所述对每个所述原创内容标识对应的所有所述转发关系链进行去重操作,得到每个所述原创内容标识各自对应的微博数据的传播路径,包括:

将每个所述原创内容标识对应的所有所述转发关系链两两比对,去除从所述转发关系链中的首位开始,每个转发用户标识及每个转发用户标识的排列先后顺序完全被其他转发关系链包含的转发关系链。

本发明还提供一种微博数据的传播路径确定装置,包括:采集模块,用于采集微博数据;所述微博数据包括:所述微博数据的内容信息、所述微博数据的属性信息;其中,所述微博数据的属性信息包括:所述微博数据的发布者标识、与所述微博数据的内容信息唯一对应的内容标识;

解析模块,用于对采集得到的每一条所述微博数据进行解析;

确定模块,用于在每一条所述微博数据的内容信息中确定所述微博数据中是否包含有转发的微博数据;

获取模块,用于获取所述转发的微博数据的原创者标识,获取与所述转发的微博数据的内容信息唯一对应的原创内容标识;

所述确定模块,还用于在所述微博数据的内容信息中确定是否存在从所述发布者标识到所述原创者标识之间的转发用户标识,形成转发关系链;根据所述原创内容标识,在所有所述微博数据中,确定与所述原创内容标识对应的所有所述转发关系链;

去重模块,用于对每个所述原创内容标识对应的所有所述转发关系链进行去重操作,得到每个所述原创内容标识各自对应的微博数据的传播路径。

可选的,所述确定模块包括:

标识确定子模块,用于在所述微博数据的内容信息中确定是否存在从所述发布者标识到所述原创者标识之间的转发用户标识;

序列确定子模块,用于在所述标识确定子模块确定存在从所述发布者标识到所述原创者标识之间的转发用户标识后,根据所述转发用户标识排列的先后顺序形成转发序列,将所述原创者标识设置在所述转发序列的起始位置,将所述发布者标识设置在所述转发序列的终止位置,形成所述转发关系链;

所述序列确定子模块,还用于在所述标识确定子模块确定不存在从所述发布者标识到所述原创者标识之间的转发用户标识后,形成仅包含从所述原创者标识到所述发布者标识的所述转发关系链。

可选的,所述确定模块包括:

定位子模块,用于在所述微博数据的内容信息中定位文本编辑字段;

标志确定子模块,用于在所述文本编辑字段中,确定是否存在转发标志;

提取子模块,用于在所述标志确定子模块确定存在所述转发标志后,提取所述转发标志所标识的所述转发用户标识。

可选的,所述微博数据的属性信息还包括:

所述微博数据的发布时间、所述微博数据的来源网站、所述微博数据的url;

相应的,所述装置还包括:

分类排序模块,用于根据所述微博数据的发布时间、所述微博数据的来源网站、所述微博数据的url中的至少一项,对采集得到的所述微博数据进行分类及排序;

所述解析模块,具体用于根据所述分类及排序后的先后顺序,逐一对采集得到所述微博数据进行解析。

可选的,所述去重模块,具体用于将每个所述原创内容标识对应的所有所述转发关系链两两比对,去除从所述转发关系链中的首位开始,每个转发用户标识及每个转发用户标识的排列先后顺序完全被其他转发关系链包含的转发关系链。

本发明提供的一种微博数据的传播路径确定方法和装置,通过采集微博数据,并对采集得到的每一条微博数据进行解析,以在每一条微博数据的内容信息中确定出所包含的转发的微博数据,并从转发的微博数据中确定出被转发的微博数据的原创者标识、原创内容标识;再通过在微博数据的内容信息中确定是否存在从发布者标识到原创者标识之间的转发用户标识,以形成该条微博数据的一条转发关系链;再根据原创内容标识,在所有微博数据中,确定与原创内容标识对应的所有转发关系链;对每个原创内容标识对应的所有转发关系链进行去重操作,从而得到每个原创内容标识各自对应的微博数据的传播路径。实现对互联网传播的微博数据追根溯源,掌握微博数据的传 播路径,保证国家及公众的信息安全利益。

附图说明

图1a为本发明微博数据的传播路径确定方法的实施例一的流程图;

图1b为图1a所示实施例一的一种传播路径分布示意图;

图2为本发明微博数据的传播路径确定方法的实施例二的流程图;

图3为本发明微博数据的传播路径确定装置的实施例一的结构示意图;

图4为本发明微博数据的传播路径确定装置的实施例二的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述。需要说明的是,在附图或说明书中,相似或相同的元件皆使用相同的附图标记。

图1a为本发明微博数据的传播路径确定方法的实施例一的流程图,如图1a所示,微博数据的传播路径确定方法,包括:

步骤101、采集微博数据。

在本步骤中,微博数据包括:微博数据的内容信息、微博数据的属性信息;其中,微博数据的属性信息包括:微博数据的发布者标识、与微博数据的内容信息唯一对应的内容标识。该微博数据可以为任意互联网平台上的任意形式的电子数据,例如,图片、文本、视频等。微博数据的发布者标识可以为用户在发布该微博数据的互联网平台上的用户id或与用户id对应的用户名称;例如,用户名称可以为微博用户“张三”;张三的用户id可以为“80651236”;内容标识,是用于对用户发出的每条微博数据的内容进行标识的标识信息,该内容标识的生成可以通过对每条微博数据生成与其唯一对应的数据串得到,例如消息摘要算法第五版md5码(messagedigestalgorithm,简称“md5”),该内容标识与其所对应的微博数据的内容具有唯一对应关系,根据内容标识就可以获知与其对应的微博数据的内容。

步骤102、对采集得到的每一条微博数据进行解析,在每一条微博数据的内容信息中确定微博数据中是否包含有转发的微博数据。

在本步骤中,对采集得到的所有微博数据进行逐条的分析,以建立每条 微博数据的属性信息表,明确每条微博数据的个体特征。该属性信息表中可以包含有该条微博的微博id(相当于上面提到的与微博数据的内容信息唯一对应的内容标识)、微博内容(相当于微博数据的内容信息)、微博用户id(相当于微博数据的发布者标识)、发布时间、来源网站(该微博的发布平台,如新浪、腾讯等)、转发微博id(转发该微博内容的转发者的标识)、统一资源定位符(uniformresourcelocator,简称:“url”)等信息。若对每条微博数据进行解析的过程中,发现微博数据中包含有转载转发的微博数据内容,则对该微博数据进行标记,以备后续在该微博数据中提取出被转发的微博数据,它的传播路径信息。

步骤103、获取转发的微博数据的原创者标识,获取与转发的微博数据的内容信息唯一对应的原创内容标识;在微博数据的内容信息中确定是否存在从发布者标识到原创者标识之间的转发用户标识,形成转发关系链。

在本步骤中,从该微博数据中提取出转发的微博数据的原创者标识,通常来说,对某一微博数据进行转发的过程中,该微博数据的原创者信息是与微博数据的内容信息进行绑定的,因此可以从转发的微博数据中获取到原创者标识,例如,在微博的转发过程中,在转发文稿的首位具有“@张三”的标识,则张三为该转发文稿的原创者标识。同时,在该微博数据的内容信息中包含有两部分内容,一个是该微博数据的发布者自己的观点描述,另一个是该微博数据的发布者转载的他人原创的转发文稿内容;则原创内容标识为与该转发文稿内容唯一对应的标识。此外,很多平台提供有该转发文稿的传播路径信息,可以根据不同平台预设的转发用户标识,在微博数据的内容信息中确定出从发布者标识到原创者标识之间的转发用户标识,以形成包含原创者标识→转发用户标识1→转发用户标识2→转发用户标识3→发布者标识的转发关系链。

步骤104、根据原创内容标识,在所有微博数据中,确定与原创内容标识对应的所有转发关系链。

在本步骤中,根据步骤103中确定出的原创内容标识,在其他微博数据中找到同样对该原创内容标识所对应的转发微博进行了转发操作的其他转发关系链,从而找到如图1b所示的由“和讯网”发出的原创微博的全部转发关系链。

步骤105、对每个原创内容标识对应的所有转发关系链进行去重操作,得到每个原创内容标识各自对应的微博数据的传播路径。

在本步骤中,对获取得到的不同长度的转发关系链,若其中存在重复且具有包含关系的转发关系链,则可以将处于被包含关系的转发关系链去除,保留较长的转发关系链。由于本发明的目的是要确定微博数据的传播路径,则对于被重复的路径,仅保留从头到尾最完整的一条路径即可,去除重复的路径,以减轻对微博数据传播路径的统计数据量。举例来说,若一条转发微博得到的转发关系链为a→b→c→d;而另一条得到的转发关系链为a→b→c→d→e,则保留a→b→c→d→e的转发关系链,去除a→b→c→d的转发关系链。可以看出a→b→c→d→e中已经包含了a→b→c→d的转发路径关系,因此,可以去除a→b→c→d、a→b→c、a→b等多条转发关系链。

本实施例提供的微博数据的传播路径确定方法,通过采集微博数据,并对采集得到的每一条微博数据进行解析,以在每一条微博数据的内容信息中确定出所包含的转发的微博数据,并从转发的微博数据中确定出被转发的微博数据的原创者标识、原创内容标识;再通过在微博数据的内容信息中确定是否存在从发布者标识到原创者标识之间的转发用户标识,以形成该条微博数据的一条转发关系链;再根据原创内容标识,在所有微博数据中,确定与原创内容标识对应的所有转发关系链;对每个原创内容标识对应的所有转发关系链进行去重操作,从而得到每个原创内容标识各自对应的微博数据的传播路径。实现对互联网传播的微博数据追根溯源,掌握微博数据的传播路径,保证国家及公众的信息安全利益。

图2为本发明微博数据的传播路径确定方法的实施例二的流程图,如图2所示,在上述实施例一的基础上,本实施例的方法包括:

步骤201、采集微博数据。

在本步骤中,微博数据包括:微博数据的内容信息、微博数据的属性信息;其中,微博数据的属性信息包括:微博数据的发布者标识、与微博数据的内容信息唯一对应的内容标识;此外,采集得到的微博数据的属性信息中还可以包括:微博数据的发布时间、微博数据的来源网站、微博数据的url等。

步骤202、根据微博数据的发布时间、微博数据的来源网站、微博数据的url中的至少一项,对采集得到的微博数据进行分类及排序。

在本步骤中,对采集得到的微博数据进行分类及排序的方法可由本领域技术人员根据微博数据的分析目标进行设定,例如,需要对某一网络平台发布的微博数据的传播路径进行分析,则可以根据微博数据的来源网站对微博数据进行分类;还可以根据时间先后对微博数据进行排序或根据时间段对微博数据进行分段处理等等。

步骤203、根据分类及排序后的先后顺序,逐一对采集得到微博数据进行解析,以在每一条微博数据的内容信息中确定微博数据中是否包含有转发的微博数据。

在本步骤中,对于采集得到的微博数据一般包含以下三种内容,一种是仅包含由发布者原创的内容a;该内容可以是任何形式的电子数据,图片、视频、文本等;也可以仅包含有由发布者转发的他人原创的内容b;还可以既包含由发布者转发的他人原创的内容b,还包含发布者对该转发的内容的评论内容;该评论内容可视为发布者原创的内容a。则可以清楚得到三种内容形式为:1)仅包含a内容;2)仅包含b内容;3)既包含a内容也包含b内容。

步骤204、获取转发的微博数据的原创者标识,获取与转发的微博数据的内容信息唯一对应的原创内容标识。

在本步骤中,通常各个网络平台对转发的微博数据采用特定的标志符号进行标识,例如新浪微博转发内容中包含有“@xx”标志;腾讯微博转发内容中也包含有“@xx”标志;其中“xx”代表被转发的内容的原创者标识。且该标志符号位于被转发内容的开头位置,通过对网络平台特定的标志符号进行识别并对该标志符号出现的位置进行定位,可以确定出该转发内容的原创者标识。对原创内容标识的确定过程同上,根据各个网络平台的设置属性,找到与转发的微博数据的内容信息唯一对应的原创内容标识所处的位置并获取该标识,例如,很多网络平台将该原创内容标识设置在该原创内容的url中,则通过解析原创内容对应的url可以获取到与其内容唯一对应的标识。需要说明的是,各个网络平台可以有其自定义该原创者标识及原创内容标识的标准,本申请对此不作限定。

步骤205、在微博数据的内容信息中确定是否存在从发布者标识到原创者标识之间的转发用户标识。若存在,执行步骤206;若不存在,执行步骤207。

在本步骤中,在微博数据的内容信息中,尤其在发布者原创的内容a部分存在该被转发的原创内容从原创者开始,传播到该发布者之间的路径关系,例如,新浪微博平台对转发路径的标识为“//@axx//@bxx//@cxx”;腾讯微博平台对转发路径的标识为“||@axx||@bxx||@cxx”。每个“//@”或“||@”后的“axx”、“bxx”、“cxx”为转发该原创内容的转发人物关系链。上述过程的具体实现可以通过,在微博数据的内容信息中定位文本编辑字段;在文本编辑字段中,确定是否存在转发标志;若存在转发标志,提取转发标志所标识的转发用户标识。由于上述指示原创内容传播路径的信息通常包含在发布者原创的内容a部分,也就是发布者可以进行评论或文本编辑的部分;因此发布者可以自己选择是否公开上述转发人物关系链,同时,发布者还可以对该人物关系链进行修改或删除操作。因此,在对该人物关系链进行定位时,可以通过找到微博数据的内容信息中的文本编辑字段,如“text”字段,再在该字段内获取转发标志,如“//@”或“||@”,从而提取到该转发标志后标明的转发用户标识,得到转发人物关系链。

步骤206、根据转发用户标识排列的先后顺序形成转发序列,将原创者标识设置在转发序列的起始位置,将发布者标识设置在转发序列的终止位置,形成转发关系链。

在本步骤中,通常在上一步骤中获取得到的转发人物关系链中标明的是原创者与发布者之间的转发人物,若使该人物关系链完整,则将原创者标识设置在转发序列的起始位置,将发布者标识设置在转发序列的终止位置,形成完整的转发关系链。

步骤207、形成仅包含从原创者标识到发布者标识的转发关系链。

在本步骤中,在步骤205中提及由于转发关系链通常被包含在发布者原创的内容a部分,也就是发布者可以进行评论或文本编辑的部分;因此发布者可以自己选择是否公开上述转发人物关系链,同时,发布者还可以对该人物关系链进行修改或删除操作。因此,很可能在a部分无法获取到该原创内容的传播路径信息,则此时的传播路径为最短传播路径,也就是直接从原创 者到发布者,则形成该仅包含从原创者标识到发布者标识的转发关系链。

步骤208、根据原创内容标识,在所有微博数据中,确定与原创内容标识对应的所有转发关系链。

在本步骤中,由于原创内容标识是与内容唯一对应的标识,因此通过该标识可以找到所有包含有该原创内容标识的微博数据,从而在这些包含有原创内容标识的微博数据中提取出所有关联该原创内容标识的转发关系链,可以根据所有的转发关系链形成与该原创内容标识对应的转发关系拓扑图,如图1b所示的形式。

步骤209、将每个原创内容标识对应的所有转发关系链两两比对,去除从转发关系链中的首位开始,每个转发用户标识及每个转发用户标识的排列先后顺序完全被其他转发关系链包含的转发关系链。

在本步骤中,在所有的转发关系链中进行去重操作,以简化转发关系拓扑图的复杂性,该去重的原则可以由本领域技术人员根据实际统计需要自行设定,也可以为去除从转发关系链中的首位开始,每个转发用户标识及每个转发用户标识的排列先后顺序完全被其他转发关系链包含的转发关系链,例如,一条转发微博得到的转发关系链为a→b→c→d;而另一条得到的转发关系链为a→b→c→d→e,则保留a→b→c→d→e的转发关系链,去除a→b→c→d的转发关系链。可以看出a→b→c→d→e中已经包含了a→b→c→d的转发路径关系,因此,可以去除a→b→c→d、a→b→c、a→b等多条转发关系链。

图3为本发明微博数据的传播路径确定装置的实施例一的结构示意图,如图3所示,本实施例的装置包括:采集模块31,用于采集微博数据;微博数据包括:微博数据的内容信息、微博数据的属性信息;其中,微博数据的属性信息包括:微博数据的发布者标识、与微博数据的内容信息唯一对应的内容标识;解析模块32,用于对采集得到的每一条微博数据进行解析;确定模块33,用于在每一条微博数据的内容信息中确定微博数据中是否包含有转发的微博数据;获取模块34,用于获取转发的微博数据的原创者标识,获取与转发的微博数据的内容信息唯一对应的原创内容标识;确定模块33,还用于在微博数据的内容信息中确定是否存在从发布者标识到原创者标识之间的转发用户标识,形成转发关系链;根据原创内容标识,在所有微博数据中, 确定与原创内容标识对应的所有转发关系链;去重模块35,用于对每个原创内容标识对应的所有转发关系链进行去重操作,得到每个原创内容标识各自对应的微博数据的传播路径。

本实施例的装置,可以用于执行图1a所示方法实施例一的技术方案,其实现原理和技术效果类似,此处不再赘述。

本实施例提供的微博数据的传播路径确定装置,通过采集微博数据,并对采集得到的每一条微博数据进行解析,以在每一条微博数据的内容信息中确定出所包含的转发的微博数据,并从转发的微博数据中确定出被转发的微博数据的原创者标识、原创内容标识;再通过在微博数据的内容信息中确定是否存在从发布者标识到原创者标识之间的转发用户标识,以形成该条微博数据的一条转发关系链;再根据原创内容标识,在所有微博数据中,确定与原创内容标识对应的所有转发关系链;对每个原创内容标识对应的所有转发关系链进行去重操作,从而得到每个原创内容标识各自对应的微博数据的传播路径。实现对互联网传播的微博数据追根溯源,掌握微博数据的传播路径,保证国家及公众的信息安全利益。

图4为本发明微博数据的传播路径确定装置的实施例二的结构示意图,如图4所示,本实施例的装置在图3所示装置的基础上,进一步地,确定模块33包括:标识确定子模块331,用于在微博数据的内容信息中确定是否存在从发布者标识到原创者标识之间的转发用户标识;序列确定子模块332,用于在标识确定子模块331确定存在从发布者标识到原创者标识之间的转发用户标识后,根据转发用户标识排列的先后顺序形成转发序列,将原创者标识设置在转发序列的起始位置,将发布者标识设置在转发序列的终止位置,形成转发关系链;序列确定子模块332还用于在标识确定子模块331确定不存在从发布者标识到原创者标识之间的转发用户标识后,形成仅包含从原创者标识到发布者标识的转发关系链。

可选的,确定模块33包括:定位子模块333,用于在微博数据的内容信息中定位文本编辑字段;标志确定子模块334,用于在文本编辑字段中,确定是否存在转发标志;提取子模块335,用于在标志确定子模块334确定存在转发标志后,提取转发标志所标识的转发用户标识。

可选的,微博数据的属性信息还包括:微博数据的发布时间、微博数据 的来源网站、微博数据的url;相应的,装置还包括:分类排序模块36,用于根据微博数据的发布时间、微博数据的来源网站、微博数据的url中的至少一项,对采集得到的微博数据进行分类及排序;解析模块32,具体用于根据分类及排序后的先后顺序,逐一对采集得到微博数据进行解析。

可选的,去重模块35,具体用于将每个原创内容标识对应的所有转发关系链两两比对,去除从转发关系链中的首位开始,每个转发用户标识及每个转发用户标识的排列先后顺序完全被其他转发关系链包含的转发关系链。

本实施例的装置,可以用于执行图2所示方法实施例二的技术方案,其实现原理和技术效果类似,此处不再赘述。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1