用于识别论坛用户马甲账号的方法和系统的制作方法

文档序号:6536679阅读:237来源:国知局
用于识别论坛用户马甲账号的方法和系统的制作方法
【专利摘要】本发明提供了一种用于识别论坛用户马甲账号的方法。该方法基于训练集中各用户账号及每个文本的特征向量来训练分类模型,利用训练好的分类模型确定测试集中每个文本被分类到训练集中哪个用户账号,然后基于所述分类结果来识别马甲账号。该方法从论坛用户账号发言的文本数据中选取特征,通过挖掘账号的语言风格的相似性来判断属于同一人的多个账号间的关系,提高了识别马甲账号的概率。而且针对网络语言的语法不严谨,并且有许多的网络用语的特点,通过提取用户发言文本中有效的特征进行分析,规避了词库更新内容和速度跟不上网络语言的流行等问题,减少了维护分词词典的复杂操作,提高了马甲识别的准确率。
【专利说明】用于识别论坛用户马甲账号的方法和系统
【技术领域】
[0001]本发明属于网络安全领域,尤其涉及识别论坛用户马甲账号的方法。
【背景技术】
[0002]如今,全球超过15亿人使用社交网络,全球社交网络的月活跃用户数量早已超过20亿,每天产生大量的言论。社交网站的后台实名注册实施困难,还没有完全普及;即使网站后台是基于实名制的,但是网络言论在网站前台大都是匿名的,不易知道网络上的言论所属网络用户的真实身份。在社交网络中,一个人拥有多个账号(ID)的情况十分常见,或是在同一网站拥有几个账号或是在不同网站均注册账号。一个人在同一网站注册多于2个账号时,常用的账号为主账号,而其余账号称为马甲账号,简称马甲。马甲的功能中一部分是负面的,其中:利用不同身份为自己所开的讨论冲人气或推文;在主账号已有固定的朋友圈或形成固定形象时,使用马甲反对甚至诋毁他人或发表另类见解;注册成千上万个账号来发布不良信息、散布谣言、炒作或者通过卖等级高的马甲账号获益等等。这样的行为既浪费网络资源,又影响网络的安全性和公平性。
[0003]现有的马甲账号识别方法中,主要是基于IP鉴定、基于临时邮箱或基于用户账号行为分析来识别马甲账号。但是在这些方法中,可利用的用户信息仅限于账号曾使用的IP地址、账号的注册信息或账号的操作行为等,因此识别范围小且识别准确率低。

【发明内容】

[0004]因此,本发明的目的在于克服上述现有技术的缺陷,提供一种新的论坛用户马甲识别方法。
[0005]本发明的目的是通过以下技术方案实现的:
[0006]一方面,本发明提供了一种用于识别论坛用户马甲账号的方法,包括:
[0007]步骤1,以来自论坛服务器的一组用户账号发言的文本作为训练集,基于训练集中各用户账号及每个文本的特征向量来训练分类模型,所述分类模型用于判断文本所属的用户账号;
[0008]步骤2,利用训练好的分类模型确定测试集中每个文本被分类到训练集中哪个用户账号;
[0009]步骤3,基于所述分类结果来识别马甲账号。
[0010]上述方法中,所述步骤I可包括:
[0011]11)对训练集中各用户账号的每个文本进行分词及词性标注;
[0012]12)从经分词和词性标注后的各个文本中选取特征词,构建各文本的特征向量;
[0013]13)基于训练集中各用户账号以及所构建的各个文本的特征向量来训练所述分类模型。
[0014]上述方法中,所述步骤12)可包括:
[0015]对于经分词和词性标注后的每个文本,从中提取2-gram词组并统计该词组在该文本中出现的次数,将所提取的出现次数不低于设定的阈值的词组作为特征词;
[0016]从每个文本中提取的特征词共同组成该训练集的特征词表;以及
[0017]基于该训练集的特征词表,构建每个文本的特征向量。
[0018]上述方法中,所述步骤12)可包括:
[0019]从经分词和词性标注后的各个文本中选取长度不低于2的且出现频率不低于2的词语作为特征词,以组成该训练集的特征词表;以及
[0020]基于该训练集的特征词表,构建每个文本的特征向量。
[0021]上述方法中,所述步骤I中所述分类模型可以为支持向量机模型。 [0022]上述方法中,所述训练集与所述测试集可以为同一集合。
[0023]上述方法中,所述步骤2可包括:
[0024]21)基于训练好的分类模型,确定测试集中每个文本被分类到训练集中各个用户账号的概率;
[0025]22)对于每个文本,比较该文本被分到非该文本所属的用户账号的概率,取最大概率值对应的用户账号为该文本所分类到的用户账号。
[0026]上述方法中,所述训练集与所述测试集可以为不同的集合。
[0027]上述方法中,所述步骤2可包括:
[0028]21)基于训练好的分类模型,确定测试集中每个文本被分类到训练集中各个用户账号的概率;
[0029]22)对于测试集中每个文本,取最大概率值对应的训练集中的用户账号为该文本所分类到的用户账号。
[0030]上述方法中,所述步骤3可包括:
[0031]31)对于测试集中每个用户账号的多个文本,按文本所属的用户账号汇总统计出测试集中每个用户账号的文本被分类到训练集中各用户账号的数量;
[0032]32)对于测试集中待识别的用户账号,将所述数量的最大值对应的训练集中的用户账号判断为马甲账号。
[0033]上述方法中,所述步骤3可包括:
[0034]301)对于测试集中每个用户账号的多个文本,按文本所属的用户账号汇总统计出测试集中每个用户账号的文本被分类到训练集中各用户账号的数量;
[0035]302)对于测试集中待识别用户账号,采用下面的两个公式计算该用户账号对训练集中每个用户账号的如下两组相似度:
[0036]
【权利要求】
1.一种用于识别论坛用户马甲账号的方法,所述方法包括: 步骤1,以来自论坛服务器的一组用户账号发言的文本作为训练集,基于训练集中各用户账号及每个文本的特征向量来训练分类模型,所述分类模型用于判断文本所属的用户账号; 步骤2,利用训练好的分类模型确定测试集中每个文本被分类到训练集中哪个用户账号; 步骤3,基于所述分类结果来识别马甲账号。
2.根据权利要求1所述的方法,所述步骤I包括: 11)对训练集中各用户账号的每个文本进行分词及词性标注; 12)从经分词和词性标注后的各个文本中选取特征词,构建各文本的特征向量; 13)基于训练集中各用户账号以及所构建的各个文本的特征向量来训练所述分类模型。
3.根据权利要求2所述的方法,所述步骤12)包括: 对于经分词和词性标注后的每个文本,从中提取2-gram词组并统计该词组在该文本中出现的次数,将所提取的出现次数不低于设定的阈值的词组作为特征词; 从每个文本中提取的特征词共同组成该训练集的特征词表;以及 基于该训练集的特征词表,构建每个文本的特征向量。`
4.根据权利要求2所述的方法,所述步骤12)包括: 从经分词和词性标注后的各个文本中选取长度不低于2的且出现频率不低于2的词语作为特征词,以组成该训练集的特征词表;以及 基于该训练集的特征词表,构建每个文本的特征向量。
5.根据权利要求1所述的方法,所述步骤I中所述分类模型为支持向量机模型。
6.根据权利要求1所述的方法,其中,所述训练集与所述测试集为同一集合。
7.根据权利要求6所述的方法,所述步骤2包括: 21)基于训练好的分类模型,确定测试集中每个文本被分类到训练集中各个用户账号的概率; 22)对于每个文本,比较该文本被分到非该文本所属的用户账号的概率,取最大概率值对应的用户账号为该文本所分类到的用户账号。
8.根据权利要求1所述的方法,其中,所述训练集与所述测试集为不同的集合。
9.根据权利要求8所述的方法,所述步骤2包括: 21)基于训练好的分类模型,确定测试集中每个文本被分类到训练集中各个用户账号的概率; 22)对于测试集中每个文本,取最大概率值对应的训练集中的用户账号为该文本所分类到的用户账号。
10.根据权利要求1所述的方法,所述步骤3包括: 31)对于测试集中每个用户账号的多个文本,按文本所属的用户账号汇总统计出测试集中每个用户账号的文本被分类到训练集中各用户账号的数量; 32)对于测试集中待识别的用户账号,将所述数量的最大值对应的训练集中的用户账号判断为马甲账号。
11.根据权利要求1所述的方法,所述步骤3包括: 301)对于测试集中每个用户账号的多个文本,按文本所属的用户账号汇总统计出测试集中每个用户账号的文本被分类到训练集中各用户账号的数量; 302)对于测试集中待识别用户账号,采用下面的两个公式计算该用户账号对训练集中每个用户账号的如下两组相似度:
12.一种用于识别论坛用户马甲账号的系统,所述系统包括: 训练装置,用于基于训练集中各用户账号及每个文本的特征向量来训练分类模型,所述分类模型用于判断文本所属的用户账号;其中,所述训练集包括来自论坛服务器的一组用户账号发言的文本; 分类装置,用于利用训练好的分类模型确定测试集中每个文本被分类到训练集中哪个用户账号; 马甲识别装置,用于基于所述分类结果来识别马甲账号。
【文档编号】G06F17/30GK103729474SQ201410032746
【公开日】2014年4月16日 申请日期:2014年1月23日 优先权日:2014年1月23日
【发明者】许洪波, 樊茜, 梁英, 程学旗, 张国清 申请人:中国科学院计算技术研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1