消息异常度值的获取方法和装置的制造方法

文档序号:9564689阅读:295来源:国知局
消息异常度值的获取方法和装置的制造方法
【技术领域】
[0001] 本发明涉及数据处理技术领域,尤其涉及一种消息异常度值的获取方法和装置。
【背景技术】
[0002] 数据库是组织、存储和管理数据的仓库,其中存储着大量的数据,隐藏着许多重要 信息。从数据库的海量数据中挖掘有用信息的技术,称为数据挖掘。在数据库中,数据表中 可能包含一些数据对象,它们反映着与一般用户行为不一致的行为模型,这些行为被称为 异常行为,从数据库中发现这些行为的过程称为异常行为数据挖掘,它是一种重要的数据 挖掘技术。
[0003] 在实际应用中,大多数信息是以文本形式存储在数据库中的,如电子邮件、Web页 面、即时消息等。数据库中存储的文本数据既包括结构化内容,例如电子邮件文档,这些文 档包含结构字段,如标题、发送人、接收人、发送时间等,也包含大量非结构化文本成分,如 邮件正文内容。这些文本数据具有时序性的特点,不同时间的文本消息之间可能存在一定 的关联,其中可能隐藏着一些具有重要影响的异常行为。因此,需要面向时序文本消息进行 异常行为数据挖掘。
[0004] 常用的异常数据挖掘方法包括:(1)基于统计的方法,对给定的数据集合假设了 一个分布或者概率模型(例如正态分布),然后根据模型采用不一致性检验来确定异常点 数据。(2)基于距离的方法,根据数据对象间的距离确定对象的近邻个数,将近邻个数小于 阈值的对象确定为异常对象。(3)基于偏差的方法,通过观察一个连续序列后,发现其中某 些与其它数据明显不同的异常数据对象。(4)基于密度的方法,基于密度聚类算法,通过获 取对象局部异常因子来确定异常数据,异常因子的值反映了数据的异常程度。
[0005] 基于统计的方法要求数据符合假设的分布模型,基于距离、偏差,以及密度的方法 主要针对属性为数值型的对象,而且它们都面向结构化数据,不适用于非结构化文本数据 的挖掘。而且,传统文本挖掘的研究主要集中于对文本表示、分词、特征选择等算法,没有考 虑在时序文本的应用场景中,不同文本数据之间的关联,即文本上下文的语义信息,因而不 能满足从时序文本中挖掘异常行为的需求。

【发明内容】

[0006] 本发明提供了一种消息异常度值的获取方法和装置,通过从时序文本消息中抽 取主题序列,获取序列的概率支持度和用户行为的异常度,从而实现了从大量非结构化文 本消息中挖掘出异常行为消息。
[0007] 第一方面,本发明提供了一种消息异常度值的获取方法,所述方法包括:
[0008] 从非结构化文本消息中提取消息的主题和所述主题对应的概率;
[0009] 获取所述消息的发送方信息;
[0010] 将相同发送方信息的主题组成主题集合;
[0011] 按照消息的发送时刻将所述主题集合中主题进行排序,以得到主题有序集合;
[0012] 从所述主题有序集合中提取主题序列;
[0013] 利用主题对应的概率计算所述主题序列的概率支持度,其中,所述概率支持度为 所述主题序列发生的概率的最大值;
[0014] 利用所述概率支持度计算全局背景值;
[0015] 利用所述概率支持度和所述全局背景值,获取消息异常度值。
[0016] 结合第一方面,在第一方面的第一种可能的实现方式中,所述按照消息的发送时 刻将所述主题集合中主题进行排序,以得到主题有序集合具体包括:
[0017] 从所述文本消息中提取非结构化文本消息的发送时刻;
[0018] 按照消息发送时刻的先后顺序对主题进行排序,得到所述主题有序集合。
[0019] 结合第一方面,在第一方面的第二种可能的实现方式中,所述从所述主题有序集 合中提取主题序列具体为:
[0020] 从所述主题有序集合的元素中提取一元序列和/或多元序列,构成一组主题序 列,其中,所述一元序列包括一个主题,所述多元序列包括多个主题,且所述多元序列中的 主题均不包括在所述主题集合中的同一个元素内。
[0021] 结合第一方面,在第一方面的第三种可能的实现方式中,所述利用主题对应的概 率计算所述主题序列的概率支持度具体为:
[0022] 根据公式
获取到主题序列的概率支持 度,其中,
a i为第i个主题序列,p j为第j 个主题的概率,L为第i个主题序列集合,IruI为主题序列的数量。
[0023] 结合第一方面的第三种可能的实现方式,在第一方面的第四种可能的实现方式 中,所述利用所述概率支持度计算全局背景值具体为:
[0024] 根据公式
获取到全局背景值,其中,|U|为消息发送方 的数量,U,为第j个发送方。
[0025] 结合第一方面的第四种可能的实现方式,在第一方面的第五种可能的实现方式 中,所述利用所述概率支持度和所述全局背景值,获取所述消息的异常度值具体为:
[0026] 根据公式
获取 到所述消息的异常度值,其中,Tabn为异常行为主题序列集合,sim(a,β)为序列α和序列 β的相似度。
[0028] 结合第一方面的第五种可能的实现方式,在第一方面的第六种可能的实现方式 中,在利用所述概率支持度和所述全局背景值,获取消息异常度值之后,所述方法还包括: [0029] 输出包含所述异常度值的异常信息。
[0030] 结合第一方面至第一方面的第六种可能的实现方式中的任一种,在第一方面的第 七种可能的实现方式中,在从非结构化文本消息中提取消息的主题和所述主题对应的概率 之前,所述方法还包括:
[0031] 从文本消息中提取非结构化文本消息。
[0032] 第二方面,本发明提供了一种消息异常度值的获取装置,所述装置包括:
[0033] 第一提取单元,用于从非结构化文本消息中提取消息的主题和所述主题对应的概 率;
[0034] 第一获取单元,用于获取所述消息的发送方信息;
[0035] 处理单元,用于将相同发送方信息的主题组成主题集合;
[0036] 排序单元,用于按照消息的发送时刻将所述主题集合中主题进行排序,以得到主 题有序集合;
[0037] 第二提取单元,用于从所述主题有序集合中提取主题序列;
[0038] 第二获取单元,用于利用主题对应的概率计算所述主题序列的概率支持度,其中, 所述主题的概率支持度为所述主题序列发生的概率的最大值;
[0039] 还用于利用所述概率支持度计算全局背景值;
[0040] 还用于利用所述概率支持度和所述全局背景值,获取消息异常度值。
[0041] 结合第二方面,在第二方面的第一种可能的实现方式中,所述排序单元具体用 于:
[0042] 从所述文本消息中提取非结构化文本消息的发送时刻;
[0043] 按照消息发送时刻的先后顺序对主题进行排序,以得到排序后的主题有序集合。
[0044] 结合第二方面,在第二方面的第二种可能的实现方式中,所述第二提取单元,具体 用于:从所述主题有序集合的元素中提取一元序列和/或多元序列,构成一组主题序列,其 中,所述一元序列包括一个主题,所述多元序列包括多个主题,且所述多元序列中的主题均 不包括在所述主题集合中的同一个元素内。
[0045] 结合第二方面,在第二方面的第三种可能的实现方式中,所述第二获取单元具体 用于:
[0046] 根据公式
获取到主题序列的概率支持 度,其中,
a i为第i个主题序列,p j为第j 个主题的概率,L为第i个主题序列集合,IruI为主题序列的数量。
[0047] 结合第二方面的第三种可能的实现方式,在第二方面的第四种可能的实现方式 中,所述第二获取单元具体用于:
[0048] 根据公式 获取到全局背景值,其中,|U|为消息发送方 ) 的数量,U,为第j个发送方。
[0049] 结合第二方面的第四种可能的实现方式,在第二方面的第五种可能的实现方式 中,所述第二获取单元具体用于:
[0050] 根据么
获取到所述消息的异常度值,其中,Tabn为异常行为主题序列集合,Sim(a,β)为序列α和 序列β的相似度。
[0051] 结合第二方面,在第二方面的第六种可能的实现方式中,所述装置还包括:
[0052] 输出单元,用于输出包含所述异常度值的异常信息。
[0053] 结合第二方面至第二方面的第六种可能的实现方式中的任一种,在第二方面第七 种可能的实现方式中,所述装置还包括:
[0054] 第三提取单元,用于所述从文本消息中提取非结构化文本消息。
[0055] 第三方面,本发明提供了一种消息异常度值的获取装置,所述装置包括:
[0056] 主节点和从节点;
[0057] 所述主节点包括:分类模块和汇总模块;
[0058] 所述分类模块,用于从非结构化文本消息中提取消息的主题和所述主题对应的概 率;
[0059] 还用于获取所述消息的发送方信息;
[0060] 还用于将相同发送方信息的主题组成主题集合,并将所述主题集合发送到所述从 节点。
[0061] 所述汇总模块,用于对从节点获取到的消息异常度值进行汇总。
[0062] 所述从节点包括:排序模块、提取模块和获取模块;
[0063] 所述排序模块,用于接收所述主节点发送的所述主题集合,按照消息的发送时刻 将所述主题集合中主题进行排序
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1