短信群发监控管理方法与流程

文档序号:14718172发布日期:2018-06-16 02:05阅读:349来源:国知局

本发明涉及网络监控,特别涉及一种短信群发监控管理方法。



背景技术:

近些年移动通信网络取得了令人瞩目的发展速度,逐渐成为人们的日常生活和获取信息的重要手段。同时,骚扰短信及其发送者随着无线网络的发展以各种形式入侵了不同的用户群体。这些骚扰短信发送者利用蓄意的用户行为影响了正常用户的手机使用,或者以传播一些恶意的、错误的信息为目的。某些短信中还包括恶意软件和钓鱼网站链接,虚假回复等。由于低成本和易传播,这些骚扰短信及其发送者变得极为泛滥并且成长迅速。近年还出现了新的协作化、组织化的发送者群体,通过发送某些特定的短信内容来营销产品或者传播特定的观点来影响公众舆情,来获取更大的影响力,而且严重影响用户的信息判断。



技术实现要素:

为解决上述现有技术所存在的问题,本发明提出了一种短信群发监控管理方法,包括:

步骤1,在多个待监控主题中提取关联于骚扰短信发送者群体的可疑主题;

步骤2,在与可疑主题相关联的所有用户中,识别骚扰短信发送者。

优选地,所述在多个待监控主题中提取关联于骚扰短信发送者群体的可疑主题,进一步包括:

基于短信文本出现的每个主题构建群发拓扑网络,记录用户间发送相关主题短信的次数,然后对每个主题的群发拓扑网络,计算相邻时段的群发拓扑网络的关联度。

优选地,所述群发拓扑网络的构建是以短信用户为节点,以用户之间的短信收发关系为边。

优选地,在计算相邻时段的群发拓扑网络的关联度之后,根据各个群发拓扑网络的关联度序列,识别可疑主题。

优选地,根据各个群发拓扑网络的关联度序列,识别可疑主题,进一步包括:

若序列中存在某个关联度小于关联度阈值,则确定该主题为可疑主题。

优选地,所述计算相邻时段的群发拓扑网络的关联度,进一步包括:

首先对两个网络的子拓扑按照节点数量进行排序,分别得到两个网络的子拓扑序列,两个子拓扑的关联度由对应子拓扑序列之间的pearson相关系数来表示。

优选地,所述在与可疑主题相关联的所有用户中,识别骚扰短信发送者,进一步包括:

迭代地根据主题参与的频率来选择候选用户,在每次迭代中选择一个候选用户,从主题集合中移除上个候选用户相关的主题,重复之前的迭代直到主题集合中的主题都被移除;

其中初始候选用户的选择策略是通过迭代使得初始候选用户能够覆盖最多的所得到的可疑主题,初始的输入为步骤1中所确定的可疑主题序列和参加主题的所有用户,每次迭代过程为:计算主题序列中所有用户发送可疑主题的频率,在这些用户中选择频率最高的用户作为初始候选用户,然后从主题序列中删除该用户相关的可疑主题,在初始可疑主题序列中迭代以上过程,直到主题序列中的所有主题被删除。

本发明相比现有技术,具有以下优点:

本发明提出了一种短信群发监控管理方法,基于传播拓扑特性来识别骚扰短信发送者群体,提高的方法适用性,通过将比较网络的关联度转化为比较排序列表的关联度,降低了计算量和复杂度,提升了准确率。

附图说明

图1是根据本发明实施例的短信群发监控管理方法的流程图。

具体实施方式

下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描述。结合这样的实施例描述本发明,但是本发明不限于任何实施例。本发明的范围仅由权利要求书限定,并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本发明的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本发明。

图1是根据本发明实施例的短信群发监控管理方法流程图。本发明的一方面提供了一种短信群发监控管理方法,包括:

步骤1,在多个待监控主题中提取关联于骚扰短信发送者群体的可疑主题,具体步骤如下:

步骤1.1,构建群发拓扑网络,主题Si在时刻t的群发拓扑网络表示为拓扑图Ψt=(Nt,Bt),其中节点集Nt中的任意一个节点表示用户ri在初始时刻到时刻t之间发送主题Si相关的短信,边集Bt中任意一条边(g,k,wg,k)表示用户rk转发了用户rg关于主题Si的短信,wg,k为边的权值,表示用户rk和ug之间转发短信的次数;主题Si的群发拓扑网络表示为Ψt(Si)={Ψ1,Ψ2,…,Ψt};

步骤1.2,对每个主题Si的群发拓扑网络,计算相邻时段的群发拓扑网络的关联度:主题在时刻t的群发拓扑网络Ψt表示为j个子拓扑Ψt={g1t,g2t,…,gjt},其中gjt表示第j个子拓扑;计算相邻时段群发拓扑网络的关联度包括,计算Ψt-1=(Nt-1,Bt-1)和Ψt=(Nt,Bt)之间的关联度liket,首先对两个网络的子拓扑按照节点数量进行排序,分别得到两个网络的子拓扑序列,两个子拓扑的关联度由对应子拓扑序列之间的pearson相关系数来表示;

步骤1.3,根据各个群发拓扑网络的关联度序列,识别可疑主题:通过主题Si的群发拓扑网络Ψt(Si)={Ψ1,Ψ2,…,Ψt}得到相邻网络的关联度序列{like1,like2,…,liket-1},若该序列中存在某个关联度小于关联度阈值,则确定该主题为可疑主题;

步骤2,在与可疑主题相关联的所有用户中,识别骚扰短信发送者,具体步骤如下:

步骤2.1,在群发拓扑网络中定义用户权值:单个群发拓扑网络中的用户权值由该用户在群发拓扑网络中的发送次数来定义,再利用正则化和对数函数进行变形来计算;对单个群发拓扑网络中的用户权值进行加权求和得到该用户的用户总权值;

具体地,用户ri在单个群发拓扑网络Ψh中的权值定义为:

其中表示用户发送次数;|EΨh|为群发拓扑网络中总的边数,相当于所有节点的发送次数和;Z是保证用户权值大于零的正整数,

用户ri在H个群发拓扑网络{Ψ1,Ψ2,…,ΨH}中的总权值定义为:

其中表示用户ri在群发拓扑网络Ψh中发送短信的次数,hri表示用户ri在H个主题中出现的次数;

步骤2.2,在参与所有主题的用户中标注多个初始候选用户rcand={r1,r2,…,rq}:初始候选用户的选择遵循以下策略:迭代地根据主题参与的频率来选择候选用户,在每次迭代中选择一个候选用户,从主题集合中移除上个候选用户相关的主题,重复之前的迭代直到主题集合中的主题都被移除;

其中,初始候选用户的选择策略,是通过迭代使得初始候选用户能够覆盖最多的步骤1中所得到可疑主题,初始的输入为步骤1中所确定的可疑主题序列和参加主题的所有用户,每次迭代过程为:计算主题序列中所有用户发送可疑主题的频率,在这些用户中选择频率最高的用户作为初始候选用户,然后从主题序列中删除该用户相关的可疑主题,在初始可疑主题序列中迭代以上过程,直到主题序列中的所有主题被删除,迭代终止;

步骤2.3,对于初始候选用户集中的每个用户rq,首先获得该用户相关的主题序列S(rq)={S1,S2,…,Srq},对于参与该主题序列的所有用户的权值进行加权求和获得每个用户的用户总权值w(rq),然后对用户总权值列表进行聚类,获得与初始候选用户属于同一类的骚扰短信发送者群体。

所述步骤1.1中,所述群发拓扑网络的构建是以短信用户为节点,以用户之间的短信收发关系为边。

所述步骤1.2中,通过网络中子拓扑排序得到子拓扑序列,通过计算子拓扑序列之间的距离来定义网络之间的关联度,所述子拓扑是指将拓扑图的所有边的方向移除,若子拓扑在移除方向的拓扑图中是联通拓扑,则确定为子拓扑。

所述步骤1.3中,通过判断群发拓扑网络拓扑结构的变化而引起的关联度变化,从而识别关联于骚扰短信发送者群体的可疑主题,所述群发拓扑网络之间的关联度具体计算如下:

ws=1-wv

其中θ表示参与排序的子拓扑中最小的节点数量,g(θ)表示选择节点数量大于θ的子拓扑来排序;wv表示单个节点子拓扑的权值,ws表示出了单个节点的其他子拓扑的权值;wg表示子拓扑g的权值;rankgt-1表示子拓扑g在Ψt-1中的排序,rankgt表示子拓扑g在Ψt中的排序;Nvt-1表示Ψt-1中单个节点的集合,Nvt表示Ψt中单个节点的集合;Nt-1表示Ψt-1中所有节点的集合,Nt表示Ψt中所有节点的集合。

所述步骤2.3中,基于对骚扰短信发送者的用户行为分析,首先获得该用户相关的主题序列S(rq)={S1,S2,…,Srq},对于参与该主题序列的所有用户r(uq)的权值进行加权求和获得每个用户的用户总权值W(uq),然后对用户总权值列表进行聚类获得与初始候选用户属于同一类的骚扰短信发送者群体。

进一步地,在确定关联度阈值后,根据预先设置的骚扰短信文本库,基于文本内容将主题确定为可疑主题。在对短信文本进行归类过程中,进一步包括以下步骤:

1,对短信进行预处理:首先依次对短信文本进行分词、去停用词,以及存储为库文件的操作,然后将所有短信文本加载到数据集市;

2,计算每个词的n位散列值,并根据词频计算该词的逆向词频值,并存储在数据集市中;采用SHA1散列算法对短信文本中的每个词特征进行散列运算,每个词特征对应一个n位散列值;

3,根据训练样本集中每个类下所有短信文本的逆向词频值及n位散列值,计算每个类的n位类向量及散列值:

首先,对于数据集市中的每一行x,遍历x中的每一个元素y,如果元素y的逆向词频值大于0,计算元素y的n位散列值hy;其次,遍历n位散列值hy,如果hy的当前位为1,将元素y所属类向量中与当前位所对应分量的数值加上y的逆向词频值;否则,将元素y所属类向量中与当前位所对应的数值减去y的逆向词频值;最终得到该类的n位类向量Vc;最后,遍历n位类向量Vc,如果Vc的当前分量大于0,则将该类的n位散列值hc的对应位设置为1,否则将hc的对应位设置为0,最终得到该类的n位散列值hc;

4,计算待归类短信文本与每个类的匹配度,得到短信所属类:计算待归类短信文本的特征向量与所有类的n位类向量的特征距离或者待归类短信文本散列值与类型散列值之间的特征距离,选择与待归类短信文本的特征向量特征距离最高或者与待归类短信文本散列值特征距离最高的类作为该待归类短信的类;

其中,在预处理文本阶段,对每个短信进行分词操作,并在数据集市中用每一行表示一条短信,即每一行x表示一条短信,每一个元素y表示短信文本中的一个词。此外,在计算词的散列值时,可根据实际应用环境的性能需求:算法执行时间与分类准确度,选择不同的散列比特位数。

在计算词的逆向词频值时,采用散列映射的方法,将所有的文本特征分别映射到高维向量中,从而方便特征的快速散列和查找;该逆向词频值计算完成之后存储于数据集市中。

优选地,待归类短信的特征向量和类m的类向量之间特征距离的公式表述如下:

其中,Kx与Km分别表示待归类短信文本的特征向量和类m的类向量,Kx,i表示Kx的第i个特征,表示Kx所有特征的均值;表示Km所有特征的均值,散列值之间特征距离的公式表述如下:

其中hx[i]与hm[i]分别表示待归类文本x和类m的第i位散列值,表示“异或”运算。

在用短信用户关系数据构建拓扑图Ψ(Nt,Bt)之后,本发明进一步从文本挖掘与网络分析两个角度对骚扰短信用户加以识别。

计算节点i的度pi和节点i的pi个关系节点间实际存在的关系对数量Mi,即有pi个直接有边相连的关系节点,计算:

Ci=Mi/(pi(pi-1)/2)

而Mi=∑k>jaijajkaki,aij为给定群发拓扑网络的邻接矩阵的元素值;

即两个关系节点也存在关系,则有节点i,j,k和构成关系三角形。待监控用户三角关系越少,越可能称为骚扰短信发送者。即当Ci<C0时,继续进行下一步识别。

接下来,计算互发送比Rb=Nb/Nf,其中Nb和Nf分別代表用户与其他用户相互发送短信的边数与用户单向发送短信的边数。

骚扰短信常常由机器控制发送,发送时刻t有很强的时序特征,严格地固定间隔发短信的用户为骚扰行为的可能性极高。因此继续计算短信发送间隔系数Tr

其中,p(xi)表示将用户xi的时间序列划分为m个子序列、每个子序列中短信数量比例,Ω为正则化因子。

设D是训练集中用户和它们相关联的类标号的集合。每个用户用一个n维特征向量X={x1,x2,…,xn}表示,描述由n个特征A1,A2,...,An。对用户的n个测量。

假定有m个类C1,C2…,Cm,给定用户向量X,预测X属于具有最高后验概率的类。即预测X属于类Ci,当且仅当P(Ci|X)>P(Cj|X),j为区间[1,m]中的任意数值,且j≠i。并且:

P(Ci|X)=P(X|Ci)P(Ci)/P(X)

P(X)对所有类为常数。如果类的先验概率未知,则假定这些类是等概率,即P(C1)=P(C2)=…=P(Cm),并对P(X|Ci)取最大化值。否则,如果类的先验概率已知,则对P(X|Ci)P(Ci)取最大化值。类先验概率可用P(Ci)=|Ci,D|/|D|估计,其中|Ci,D|是训练集D中Ci的短信参与用户数量。

其中,对于P(X|Ci),给定具有多个特征值的短信用户数据,在特征属性值相互独立即不存在依赖关系的情况下,

通过训练集中短信用户数据估计概率P(xk|Ci),xk表示用户X在属性Ak的值。对于每个属性,服从均值为μ、标准差为σ的正态分布:

短信息的创建者和转发者决定了信息传递的规模,所以准确锁定信息的创建者和早期转发者是无线通信舆情分析的重要工作。早期转发者指较早进入转发链且影响力高的重要节点。在一个实施例中,提取创建者和早期转发者包括以下过程:

首先从特定时段内的短信数据中提取出转发链序列,按特征词匹配划分为多个组同主题转发链信息;其次,对特定主题S下转发链序列提取真正的创建者INT;再次,进行兴趣标注、影响力指数和跟随指数计算,从而提取出早期重要转发者TUP;最后,INT和TUP合并整合为可疑用户KT完成短信息追踪。具体包括:

1)按照短信中群发关系进行转发链提取,E是群发拓扑中的边,也可以理解为一个最短的转发链。如果两个现有的转发链有交集则合并为一个转发链,得到一个较大的转发链分支。

2)把相同主题的子拓扑放到一个集合中。应用特征词匹配的方法完成基于主题的子拓扑提取,其核心是把出现相同特征词的转发链放在一个集合中。如主题S的特征词为{k1,k2,k3},则同时含有这3个特征词的所有转发链构成基于主题S的转发链序列ΨT。

3)找到所有的源节点并提取对应时间戳来提取真正创建者。分析所有源节点之间的关系,取消晚于其他参与用户发送相同主题信息的节点作为创建者的标识。

4)为每一条边加注兴趣权值。设短信转发边B={uv}表示u转发给了v,如无回复直接转发则认定为正向兴趣B+,回复部分采用兴趣词表进行匹配计算兴趣倾向。如果回复中含有多个兴趣词,则综合兴趣程度为其平均值,当其大于0.5时记为正向兴趣B→B+,否则记为否定兴趣B→B-。

5)为每个节点计算出影响力指数和跟随指数,对每个节点v,初始化Φ(v)=Γ(v)=1,迭代计算并正则化处理影响力指数Φ(v)和跟随指数Γ(v)。

Φ(v)=Σuv∈B+Ω(u)-Σuv∈B-Ω(u)

Ω(v)=Σvu∈B+Φ(u)-Σvu∈B-Φ(u)

6)找到参与主题时间早且影响力高的节点。如果转发者v在转发链的前n个节点,并且τ=Φ(v)/Γ(v)高于阈值,则提取重要转发者v。

综上所述,本发明提出了一种短信群发监控管理方法,基于传播拓扑特性来识别骚扰短信发送者群体,提高的方法适用性,通过将比较网络的关联度转化为比较排序列表的关联度,降低了计算量和复杂度,提升了准确率。

显然,本领域的技术人员应该理解,上述的本发明的各模块或各步骤可以用通用的计算系统来实现,它们可以集中在单个的计算系统上,或者分布在多个计算系统所组成的网络上,可选地,它们可以用计算系统可执行的程序代码来实现,从而,可以将它们存储在存储系统中由计算系统来执行。这样,本发明不限制于任何特定的硬件和软件结合。

应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1