一种面向微博的异常用户和消息同时检测方法

文档序号:7835403阅读:139来源:国知局
一种面向微博的异常用户和消息同时检测方法
【专利摘要】本发明属于互联网信息安全管理领域,具体涉及一种面向微博的异常用户和消息同时检测方法。本发明包括:(1)数据预处理;(2)交互提取及建模;(3)基于同质交互的异质交互矩阵度量学习;(4)异质交互矩阵三分解;(5)基于先验知识的异常用户和消息识别。本发明从用户和消息两类实体出发,对两类实体产生的同质交互和异质交互进行建模,提出了面向微博的异常用户和消息的同时检测方法。在该方法中,针对异质交互矩阵,采用非负矩阵三分解的方法能够同时给出用户和消息的划分指示矩阵,提高了检测的效率。
【专利说明】一种面向微博的异常用户和消息同时检测方法

【技术领域】
[0001] 本发明属于互联网信息安全管理领域,具体涉及一种面向微博的异常用户和消息 同时检测方法。

【背景技术】
[0002] 随着Twitter的快速流行,我国的新浪微博、腾讯微博等快速崛起。我国的微博用 户超过3个亿,每天发布的大量的微博消息。微博已经深入融入到人民的生活当中。
[0003] 微博具有快速的消息推送机制,使得消息在微博平台中快速传播,产生巨大的影 响力。国内外有大量的研宄针对Twitter进行,而新浪微博作为国内最流行的微博平台,其 发布的内容主题、用户行为等与Twitter差别较大,因此国内需要进一步对其进行深入研 宄。
[0004] 新浪微博平台中每天有大量的活跃用户和消息内容。然而,微博成为日常的社交 平台的同时,平台本身、政府等对安全管理的难度逐渐增大。一些用户为了特定的目的,发 布大量的异常消息。例如微博中包含大量的营销账号、僵尸粉丝等,他们经常发布大量的广 告消息、促销活动消息等。一些用户为了特定的目的,通过水军、营销账号等集体推动某些 消息快速广泛传播,获取巨大利益等。如何检测异常的用户和消息是微博安全管理急需解 决的问题之一。
[0005]目前针对异常用户的检测,提出了一些检测算法。主要从用户的特征属性、用户发 布消息的内容属性和行为属性方面进行研宄,很少涉及异常单条消息的检测。传统的异常 检测方法在检测异常用户和消息时,通常单独进行处理。但是,随着异常用户的智能性越来 越高,很多异常的用户很难检测,异常消息就更难检测。针对异常消息检测时,大多数都是 基于以下假设进行研宄:异常用户发布的消息为异常消息,正常用户发布的消息为正常消 息。显然该假设针对智能异常用户已经失效。例如异常用户为了逃避新浪微博本身的检测, 通常情况下发布大量的正常消息,而只有在特定的情况下才发布异常消息。
[0006] 在异常用户的智能性越来越高的背景下,我们抓住微博中用户和消息两类最重要 的实体,从交互行为分析出发,提出了一种面向微博的异常用户和消息同时检测方法。


【发明内容】

[0007] 本发明的目的在于提供一种提高异常检测准确率的面向微博的异常用户和消息 同时检测方法。
[0008] 本发明的目的是这样实现的:
[0009] 面向微博的异常用户和消息同时检测方法,包括以下步骤:
[0010] (1)数据预处理;
[0011] ⑵交互提取及建模;
[0012] (3)基于同质交互的异质交互矩阵度量学习;
[0013] (4)异质交互矩阵三分解;
[0014] (5)基于先验知识的异常用户和消息识别。
[0015] 数据预处理的步骤为:
[0016] (1. 1)用户消息排序及数据选择,根据用户发布消息时间对消息进行排序,选择用 户最新的消息作为实验数据集;
[0017] (1. 2)用户特征形式化和消息内容形式化:将用户的粉丝数和关注数形式化为一 个特征向量,将消息内容中的链接、图片、标签、提及等形式化为消息内容属性向量。
[0018] 交互提取及建模的步骤为:
[0019] (2. 1)交互提取,分别提取同质交互:关注和转发,异质交互:评论、发布、提及; [0020] (2. 2)交互关系建模,将提取的交互关系采用二部图进行建模。
[0021] 基于同质交互的异构交互矩阵度量学习的步骤为:
[0022] (3. 1)用户相似性和相异性关系度量,根据用户特征向量计算用户的异常值,在此 基础上,计算任意两个用户之间的相似性和相异性值,构建用户的相似性和相异性矩阵;
[0023] (3. 2)消息相似性和相异性关系度量,根据消息属性向量计算消息的异常值,并结 合用户的异常值,计算任意两条消息之间的相似性和相异性值,构建消息的相似性和相异 性矩阵;
[0024] (3. 3)关系距离度量学习,在距离度量学习的基础上,通过用户和消息的相似性和 相异性矩阵学习新的异质交互矩阵。
[0025] 异质交互矩阵三分解为非负矩阵三分解,采用乘法更新迭代求解。
[0026] 基于先验知识的异常用户和消息识别的步骤为:
[0027] (5. 1)基于先验知识的异常用户识别,根据用户的异常值是否超过阈值作为先验 知识指导,结合用户划分指示矩阵得到最终的异常用户检测;
[0028] (5. 2)基于先验知识的异常消息识别,根据消息的异常值是否超过阈值作为先验 知识指导,结合消息划分指示矩阵得到最终的异常消息检测。
[0029] 本发明的有益效果在于:
[0030] 1)本发明从用户和消息两类实体出发,对两类实体产生的同质交互和异质交互进 行建模,提出了面向微博的异常用户和消息的同时检测方法。在该方法中,针对异质交互矩 阵,采用非负矩阵三分解的方法能够同时给出用户和消息的划分指示矩阵,提高了检测的 效率。
[0031]2)本发明在度量用户和消息的相似性和相异性交互基础上,通过距离度量学习, 将同质交互融合到异质交互矩阵中,进一步提高了检测方法的准确率。

【专利附图】

【附图说明】
[0032] 图1系统检测流程图。
[0033] 图2用户-消息交互示意图。
[0034] 图3用户-消息二部图模型。

【具体实施方式】
[0035] 下面结合附图对本发明做进一步描述。
[0036] 鉴于现有的异常检测方法通常从用户的特征属性、内容属性和行为属性方面进行 研宄,但是异常用户的智能性越来越高,传统的方法的准确率越来越低。在该背景下,本发 明提出了一种面向微博的异常用户和消息同时检测方法。该方法中放弃"异常用户发布的 消息为异常消息,正常用户发布的消息为正常消息"的假设。而是抓住微博平台中最重要 的两类实体:用户和消息,重点分析两类实体产生的交互关系。通过对用户和消息之间的 同质交互和异质交互进行建模,采用非负矩阵三分解的方法实现异常用户和消息的同时检 测。在该方法中,通过用户和消息的相似性和相异性度量,将同质交互融合到异质交互矩阵 中,进而提高了异常检测的准确率。
[0037] 本发明的整体检测流程如图1所示,具体分为五个步骤。
[0038] 步骤A:数据预处理;
[0039] 步骤B:交互提取及建模;
[0040] 步骤C:基于同质交互的异构交互矩阵度量学习;
[0041] 步骤D:异质交互矩阵三分解;
[0042] 步骤E:基于先验知识的异常用户和消息识别。
[0043] 所述步骤A包括些下列步骤:
[0044] 步骤A1,用户消息排序及数据选择,根据用户发布消息时间对消息进行排序,选择 用户最新的消息作为实验数据集;
[0045] 步骤A2,用户特征形式化和消息内容形式化。将用户的粉丝数和关注数形式化为 一个特征向量。将消息内容中的链接、图片、标签、提及等形式化为消息内容属性向量。
[0046] 所述步骤B包括些下列步骤:
[0047] 步骤B1,交互关系提取,分别提取同质交互:关注和转发,异质交互:评论、发布、 提及;
[0048] 步骤B2,交互建模,将提取的交互关系采用二部图进行建模。
[0049] 所述步骤C包括些下列步骤:
[0050] 步骤C1,用户相似性和相异性关系度量,根据用户特征向量计算用户的异常值。 在此基础上,计算任意两个用户之间的相似性和相异性值,构建用户的相似性和相异性矩 阵;
[0051] 步骤C2,消息相似性和相异性关系度量,根据消息属性向量计算消息的异常值,并 结合用户的异常值,计算任意两条消息之间的相似性和相异性值,构建消息的相似性和相 异性矩阵;
[0052] 步骤C3,关系距离度量学习。在距离度量学习的基础上,通过用户和消息的相似性 和相异性矩阵学习新的异质关系矩阵。
[0053] 所述步骤D包括些下列步骤:
[0054] 步骤D1,非负矩阵三分解,采用乘法更新迭代求解;
[0055] 所述步骤E包括些下列步骤:
[0056] 步骤E1,基于先验知识的异常用户识别。根据用户的异常值是否超过阈值作为先 验知识指导,结合用户划分指示矩阵得到最终的异常用户检测。
[0057] 步骤E2,基于先验知识的异常消息识别。根据消息的异常值是否超过阈值作为先 验知识指导,结合消息划分指示矩阵得到最终的异常消息检测。
[0058] 为了完成本发明,针对微博的异常用户和消息同时检测进行如下实施,并给出具 体的实施例。
[0059]( -)本发明中抽取用户最近一页的微博消息和用户属性信息。首先对微博消息 按照发布时间序进行排序,并选择最新的20条微博消息。然后对于每一个用户,提取其对 应的特征属性:粉丝数、关注数、用户昵称。
[0060] 针对预处理好的微博数据,主要考虑用户和消息两类实体,抽取实体产生的交互 关系,主要考虑两类交互:同质交互和异质交互。同质交互就是用户与用户之间的交互、消 息与消息之间的交互,包括用户之间的关注关系、消息之间的转发关系。异质交互指两类实 体之间的交互,包括用户发布消息、用户回复消息、消息中提及用户。抽取两类实体产生的 交互示意图如图2所示,为了能够后续叙述方便,P代表发布消息,F代表关注关系,M代表 提及交互,C代表评论交互,R代表转发交互。
[0061] 在提取两类实体产生的交互基础上,本发明中通过二部图进行建模,模型如图3 所示。将同质交互和异质交互都建模在用户-消息二部图模型中,这样方便处理。
[0062] 下面将针对二部图中的交互进行定量度量,用户与消息之间的交互矩阵B定义如 下:
[0063]

【权利要求】
1. 一种面向微博的异常用户和消息同时检测方法,其特征在于,包括以下步骤: (1) 数据预处理; (2) 交互提取及建模; (3) 基于同质交互的异质交互矩阵度量学习; (4) 异质交互矩阵三分解; (5) 基于先验知识的异常用户和消息识别。
2. 根据权利要求1所述的一种面向微博的异常用户和消息同时检测方法,其特征在 于,所述数据预处理的步骤为: (1. 1)用户消息排序及数据选择,根据用户发布消息时间对消息进行排序,选择用户最 新的消息作为实验数据集; (1. 2)用户特征形式化和消息内容形式化:将用户的粉丝数和关注数形式化为一个特 征向量,将消息内容中的链接、图片、标签、提及等形式化为消息内容属性向量。
3. 根据权利要求1所述的一种面向微博的异常用户和消息同时检测方法,其特征在 于,所述交互提取及建模的步骤为: (2. 1)交互提取,分别提取同质交互:关注和转发,异质交互:评论、发布、提及; (2. 2)交互关系建模,将提取的交互关系采用二部图进行建模。
4. 根据权利要求1所述的一种面向微博的异常用户和消息同时检测方法,其特征在 于,所述基于同质交互的异构交互矩阵度量学习的步骤为: (3. 1)用户相似性和相异性关系度量,根据用户特征向量计算用户的异常值,在此基础 上,计算任意两个用户之间的相似性和相异性值,构建用户的相似性和相异性矩阵; (3. 2)消息相似性和相异性关系度量,根据消息属性向量计算消息的异常值,并结合用 户的异常值,计算任意两条消息之间的相似性和相异性值,构建消息的相似性和相异性矩 阵; (3. 3)关系距离度量学习,在距离度量学习的基础上,通过用户和消息的相似性和相异 性矩阵学习新的异质交互矩阵。
5. 根据权利要求1所述的一种面向微博的异常用户和消息同时检测方法,其特征在 于,所述异质交互矩阵三分解为非负矩阵三分解,采用乘法更新迭代求解。
6. 根据权利要求1所述的一种面向微博的异常用户和消息同时检测方法,其特征在 于,所述基于先验知识的异常用户和消息识别的步骤为: (5. 1)基于先验知识的异常用户识别,根据用户的异常值是否超过阈值作为先验知识 指导,结合用户划分指示矩阵得到最终的异常用户检测; (5. 2)基于先验知识的异常消息识别,根据消息的异常值是否超过阈值作为先验知识 指导,结合消息划分指示矩阵得到最终的异常消息检测。
【文档编号】H04L29/06GK104518930SQ201510012386
【公开日】2015年4月15日 申请日期:2015年1月9日 优先权日:2015年1月9日
【发明者】杨武, 申国伟, 王巍, 苘大鹏, 玄世昌 申请人:哈尔滨工程大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1