一种事件传播过程中的用户挖掘方法和装置与流程

文档序号:11864896阅读:来源:国知局

技术特征:

1.一种事件传播过程中的用户挖掘方法,其特征在于,包括:

根据预先配置的热点事件获取与所述热点事件相关的关键词;

根据所述关键词从网页信息数据库中爬取到包括所述关键词的信息数据,将爬取到的信息数据保存到所述热点事件对应的本地数据库,每一条所述信息数据对应有一个用户标识,所述爬取到的信息数据包括:发布信息和转发信息,所述发布信息和所述转发信息之间存在转发关系;

根据所述本地数据库中保存的信息数据构建有向转发网络,所述有向转发网络包括:N个节点和所述N个节点之间连接两个节点的有向连边,所述有向转发网络中包括的每一个节点唯一地对应于从所述本地数据库中提取到的一个用户标识,所述有向转发网络中存在转发关系的两个用户标识对应的节点之间通过一条有向连边相连接,所述N为非零的自然数;

将所述有向转发网络中的每条有向连边转换为无向连边,并对转换后的所有无向连边中相同两个节点之间重复的无向连边进行删除,得到无向转发网络;

对所述无向转发网络中N个节点的重要性进行排序,按照重要性排序结果从排序后的N个节点中确定出针对所述热点事件的重要节点,将针对所述热点事件的重要节点对应的用户作为所述热点事件传播的重要用户。

2.根据权利要求1所述的方法,其特征在于,所述根据所述关键词从网页信息数据库中爬取到包括所述关键词的信息数据,将爬取到的信息数据保存到所述热点事件对应的本地数据库,包括:

通过网络爬虫技术在网页信息数据库中爬取包括所述关键词的发布信息,所述发布信息包括:信息发布用户标识、信息发布内容标识、信息发布时间和信息转发列表;

判断所述热点事件对应的本地数据库中是否包括所述发布信息,若不包括,将所述发布信息保存到所述本地数据库中;

从所述信息转发列表中获取转发所述发布信息的转发信息,通过所述发布信息和所述转发信息构成信息数据,所述转发信息包括:信息转发用户标识、信息转发内容标识、信息转发时间和转发的所述信息发布内容标识;

判断所述本地数据库中是否包括所述转发信息,若不包括,将所述转发信息保存到所述本地数据库中。

3.根据权利要求2所述的方法,其特征在于,所述根据所述关键词从网页信息数据库中爬取到包括所述关键词的信息数据,将爬取到的信息数据保存到所述热点事件对应的本地数据库,还包括:

将所述转发信息保存到所述本地数据库中之后,根据所述本地数据库中保存的所有用户标识构建用户搜索列表;

通过所述网页信息数据库提供的应用程序编程接口API获取所述用户搜索列表中每个用户标识对应的关注列表和粉丝列表;

对所述用户搜索列表、所述关注列表和所述粉丝列表进行合并处理以及去除重复用户标识处理,得到信息待爬取列表;

遍历所述信息待爬取列表中的每个待爬取用户标识,通过所述网页信息数据库提供的API获取所述每个待爬取用户标识对应的信息数据;

判断所述每个待爬取用户标识对应的信息数据是发布信息还是转发信息;

若待爬取用户标识对应的信息数据是发布信息,则判断待爬取用户标识对应的发布信息中是否包括所述关键词,当待爬取用户标识对应的发布信息中包括所述关键词时,判断所述本地数据库中是否包括待爬取用户标识对应的发布信息,若没有,将待爬取用户标识对应的发布信息保存到所述本地数据库中;

若待爬取用户标识对应的信息数据是转发信息,则判断待爬取用户标识对应的转发信息所转发的发布信息中是否包括所述关键词,当待爬取用户标识对应的转发信息所转发的发布信息中包括所述关键词时,判断所述本地数据库中是否包括待爬取用户标识对应的转发信息所转发的发布信息,若没有,将待爬取用户标识对应的转发信息所转发的发布信息保存到所述本地数据库中。

4.根据权利要求1至3中任一项所述的方法,其特征在于,所述对所述无向转发网络中N个节点的重要性进行排序,包括:

按照度中心性指标计算所述无向转发网络中每个节点的度值,并按照度值大小对所述N个节点进行重要性排序,得到度中心性排序结果;和/或,

按照特征向量中心性指标计算所述无向转发网络中每个节点的特征向量中心性,并按照特征向量中心性大小对所述N个节点进行重要性排序,得到特征向量中心性排序结果;和/或,

按照K壳中心性指标计算所述无向转发网络中每个节点的K壳值,并按照K壳值大小对所述N个节点进行重要性排序,得到K壳中心性排序结果。

5.根据权利要求4所述的方法,其特征在于,所述重要性排序结果,包括:度中心性排序结果、特征向量中心性排序结果和K壳中心性排序结果;

所述按照重要性排序结果从排序后的N个节点中确定出针对所述热点事件的重要节点,包括:

根据所述度中心性排序结果中度值从大到小排列的N个节点确定第一节点选择集合,所述第一节点选择集合包括:从N个节点中选择的度值从大到小排序的前L个节点,所述L为预置的且小于所述N的自然数;

根据所述特征向量中心性排序结果中特征向量中心性从大到小排列的N个节点确定第二节点选择集合,所述第二节点选择集合包括:从N个节点中选择的特征向量中心性从大到小排序的前L个节点;

根据所述K壳中心性排序结果中K壳值从大到小排列的N个节点确定第三节点选择集合,所述第三节点选择集合包括:从N个节点中选择的K壳值从大到小排序的前L个节点;

从所述第一节点选择集合、所述第二节点选择集合和所述第三节点选择集合中选择三个集合的交集所包括的节点作为针对所述热点事件的重要节点。

6.根据权利要求1至3中任一项所述的方法,其特征在于,所述根据所述本地数据库中保存的信息数据构建有向转发网络之后,所述方法还包括:

根据节点之间的有向连边从所述有向转发网络中搜索发布信息的用户标识,并将搜索到的发布信息的用户标识按照发布时间的先后进行排序,将发布时间早于预置时间点的用户标识确定为热点事件传播的源节点。

7.根据权利要求6所述的方法,其特征在于,所述将发布时间早于预置时间点的用户标识确定为热点事件传播的源节点之后,所述方法还包括:

从所述热点事件传播的源节点中查找出其对应的发布信息被转发过的源节点,得到非孤立源节点;

从所述有向转发网络中查找出转发所述非孤立源节点对应的发布信息、且自身转发量大于预置的异常参数的用户标识,得到一阶重要邻居节点;

从所述有向转发网络中查找出转发所述一阶重要邻居节点对应的发布信息、且自身转发量大于所述异常参数的用户标识,得到二阶重要邻居节点;

从所述有向转发网络中查找出转发所述二阶重要邻居节点对应的发布信息、且自身转发量大于所述异常参数的用户标识,得到三阶重要邻居节点;

若所述有向转发网络中存在具有一阶重要邻居节点、二阶重要邻居节点、三阶重要邻居节点的所述非孤立源节点,则确定具有一阶重要邻居节点、二阶重要邻居节点、三阶重要邻居节点的非孤立源节点为异常用户。

8.一种事件传播过程中的用户挖掘装置,其特征在于,包括:

关键词获取模块,用于根据预先配置的热点事件获取与所述热点事件相关的关键词;

数据库构建模块,用于根据所述关键词从网页信息数据库中爬取到包括所述关键词的信息数据,将爬取到的信息数据保存到所述热点事件对应的本地数据库,每一条所述信息数据对应有一个用户标识,所述爬取到的信息数据包括:发布信息和转发信息,所述发布信息和所述转发信息之间存在转发关系;

有向转发网络构建模块,用于根据所述本地数据库中保存的信息数据构建有向转发网络,所述有向转发网络包括:N个节点和所述N个节点之间连接两个节点的有向连边,所述有向转发网络中包括的每一个节点唯一地对应于从所述本地数据库中提取到的一个用户标识,所述有向转发网络中存在转发关系的两个用户标识对应的节点之间通过一条有向连边相连接,所述N为非零的自然数;

无向转发网络构建模块,用于将所述有向转发网络中的每条有向连边转换为无向连边,并对转换后的所有无向连边中相同两个节点之间重复的无向连边进行删除,得到无向转发网络;

重要用户挖掘模块,用于对所述无向转发网络中N个节点的重要性进行排序,按照重要性排序结果从排序后的N个节点中确定出针对所述热点事件的重要节点,将针对所述热点事件的重要节点对应的用户作为所述热点事件传播的重要用户。

9.根据权利要求8所述的装置,其特征在于,所述数据库构建模块,包括:

网络爬取模块,用于通过网络爬虫技术在网页信息数据库中爬取包括所述关键词的发布信息,所述发布信息包括:信息发布用户标识、信息发布内容标识、信息发布时间和信息转发列表;

存储模块,用于判断所述热点事件对应的本地数据库中是否包括所述发布信息,若不包括,将所述发布信息保存到所述本地数据库中;

转发信息获取模块,用于从所述信息转发列表中获取转发所述发布信息的转发信息,通过所述发布信息和所述转发信息构成信息数据,所述转发信息包括:信息转发用户标识、信息转发内容标识、信息转发时间和转发的所述信息发布内容标识;

所述存储模块,还用于判断所述本地数据库中是否包括所述转发信息,若不包括,将所述转发信息保存到所述本地数据库中。

10.根据权利要求9所述的装置,其特征在于,所述数据库构建模块,还包括:

搜索模块,用于所述存储模块将所述转发信息保存到所述本地数据库中之后,根据所述本地数据库中保存的所有用户标识构建用户搜索列表;

API爬取模块,用于通过所述网页信息数据库提供的应用程序编程接口API获取所述用户搜索列表中每个用户标识对应的关注列表和粉丝列表;

列表合并模块,用于对所述用户搜索列表、所述关注列表和所述粉丝列表进行合并处理以及去除重复用户标识处理,得到信息待爬取列表;

所述API爬取模块,还用于遍历所述信息待爬取列表中的每个待爬取用户标识,通过所述网页信息数据库提供的API获取所述每个待爬取用户标识对应的信息数据;

判断模块,用于判断所述每个待爬取用户标识对应的信息数据是发布信息还是转发信息;

所述存储模块,还用于若待爬取用户标识对应的信息数据是发布信息,则判断待爬取用户标识对应的发布信息中是否包括所述关键词,当待爬取用户标识对应的发布信息中包括所述关键词时,判断所述本地数据库中是否包括待爬取用户标识对应的发布信息,若没有,将待爬取用户标识对应的发布信息保存到所述本地数据库中;

所述存储模块,还用于若待爬取用户标识对应的信息数据是转发信息,则判断待爬取用户标识对应的转发信息所转发的发布信息中是否包括所述关键词,当待爬取用户标识对应的转发信息所转发的发布信息中包括所述关键词时,判断所述本地数据库中是否包括待爬取用户标识对应的转发信息所转发的发布信息,若没有,将待爬取用户标识对应的转发信息所转发的发布信息保存到所述本地数据库中。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1