微博营销账号的识别方法及系统的制作方法

文档序号:7798886阅读:497来源:国知局
微博营销账号的识别方法及系统的制作方法
【专利摘要】本发明公开了一种微博营销账号的识别方法及系统,所述方法包括:获取群体微博账号中每个微博账号登录时所使用的IP地址;对于每个获取的IP地址,统计登录时使用该IP地址的微博账号的数量;若统计出的数量大于第一阈值,则将登录时使用该IP地址的微博账号的疑似度增加第一步长值;将疑似度大于设定值的微博账号识别为微博营销账号。所述系统包括:第一行为特征统计模块和微博营销账号识别模块。应用本发明,可以提高微博营销账号的识别准确率。
【专利说明】微博营销账号的识别方法及系统
【技术领域】
[0001]本发明涉及互联网技术,尤其涉及一种微博营销账号的识别方法及系统。
【背景技术】
[0002]微博是一种基于用户关系信息分享、传播以及获取的平台。其凭借内容发布的便捷性、信息传播的即时性、信息内容的丰富性等特点赢得了数以亿计的用户。与此同时,无论是企业、团体还是个人都发现了微博平台潜藏的巨大商业价值。为了实现利益诉求,他们通过多种营销手段获得影响力从而牟利。其中,通过微博营销账号(又称,微博水军)进行宣传和炒作来实现营销目标是目前常用的方法。然而,这种方法具有趋利性,往往对竞争对手的微博进行恶意评论、诋毁,或者发布虚假信息,严重损害了他人利益。因此,有效的识别微博账号对净化微博平台环境大有裨益。
[0003]目前,一种识别微博营销账号的方法主要通过对账号属性和发布的博文内容进行判断。具体地,账号属性,即账号注册时的信息,包括:用户名、昵称、年龄、签名、爱好等等。结合账号属性和发布的博文内容,将具有异常属性和发布异常博文的账号归为微博营销账号。然而,由于微博营销账号多数具有隐藏性,注册信息的填写与正常用户的微博账号并无明显差异,仅通过账号属性很难识别出微博营销账号。进一步,微博营销账号各自发布的广告微博内容不同,形式多样,凭借抽取的单个微博账号发布的微博内容,从个体角度进行识别容易对账号造成误判。
[0004]此外,现有技术中还存在一种识别微博营销账号的方法。该方法针对微博账号转发微博、评论微博、关注粉丝等行为制定出行为标准,提取单个待识别微博账号的上述行为与行为标准进行比较,如果该行为超出行为标准,则将该账号认定为微博营销账号。
[0005]然而,上述方法仅适用于识别传统意义的微博营销账号。对于目前出现的具有模拟正常微博账号的转发微博、评论微博、关注粉丝等行为、反识别特征的微博营销账号,则难以识别出来。也就是说,采用该方法对单个微博账号进行识别判断,具有模拟正常微博账号行为的微博营销账号容易被误判成正常微博账号。因此有必要提供能够一种具有更高识别准确率的微博营销账号的识别方法及系统。

【发明内容】

[0006]本发明实施例提供了一种微博营销账号的识别方法及系统,用以提高微博营销账号的识别准确率。
[0007]根据本发明的一个方面,提供了一种微博营销账号的识别方法,包括:
[0008]获取群体微博账号中每个微博账号登录时所使用的IP地址;
[0009]对于每个获取的IP地址,统计登录时使用该IP地址的微博账号的数量;若统计出的数量大于第一阈值,则将登录时使用该IP地址的微博账号的疑似度增加第一步长值;
[0010]将疑似度大于设定值的微博账号识别为微博营销账号。
[0011]在所述将疑似度大于设定值的微博账号识别为微博营销账号之前,还包括:[0012]对于每个微博账号,获取该微博账号的行为日志并进行分析:统计该行为日志中记录的调用接口的次数;若统计出的调用接口的次数大于第二阈值,则将该微博账号的疑似度增加第二步长值。
[0013]在所述获取该微博账号的行为日志并进行分析时,还包括:
[0014]若该行为日志中记录有登录、投放广告记录,但没有广告曝光量的记录,则将该微博账号的疑似度增加第三步长值。
[0015]在所述将疑似度大于设定值的微博账号识别为微博营销账号之前,还包括:
[0016]对于每个微博账号,分别计算该微博账号的博文操作行为特征向量到各样本微博营销账号的博文操作行为特征向量的距离,并将计算出的距离的平均值作为第一距离;并分别计算该微博账号的博文操作行为特征向量到各样本非微博营销账号的博文操作行为特征向量的距离,并将计算出的距离的平均值作为第二距离;若所述第一距离小于所述第二距离,则将该微博账号划分成疑似微博营销账号;否则,将该微博账号划分成非微博营销账号;
[0017]对于每个划分成疑似微博营销账号的微博账号,统计该微博账号的行为日志中关注微博营销账号的数量,若统计出的关注微博营销账号的数量大于第三阈值,则将该微博账号的疑似度增加第四步长值。
[0018]在所述将疑似度大于设定值的微博账号识别为微博营销账号之前,还包括:
[0019]若统计出的登录时使用的IP地址位于同一网段的微博账号的数量大于第四阈值,则将登录时使用的IP地址位于该网段的微博账号的疑似度增加第五步长值。
[0020]在所述将疑似度大于设定值的微博账号识别为微博营销账号之前,还包括:
[0021]获取登录群体微博账号中每个微博账号所使用的客户端的浏览器中的记录标记Cookies ;进而统计出该Cookies中包含的微博账号的数量;若统计出的数量大于第五阈值,则将该Cookies中包含的微博账号的疑似度增加第六步长值。
[0022]根据本发明的另一个方面,还提供了一种微博营销账号的识别方法,包括:
[0023]获取群体微博账号中每个微博账号登录时所使用的互联网协议IP地址;
[0024]对于每个获取的IP地址,统计登录时使用该IP地址的微博账号的数量;若统计出的数量大于第一阈值,则将登录时使用该IP地址的微博账号识别为微博营销账号。
[0025]根据本发明的另一个方面,还提供了一种微博营销账号的识别系统,包括:
[0026]第一行为特征统计模块,用于获取群体微博账号中每个微博账号登录时所使用的IP地址;对于每个获取的IP地址,统计登录时使用该IP地址的微博账号的数量;若统计出的数量大于第一阈值,则将登录时使用该IP地址的微博账号的疑似度增加第一步长值;
[0027]微博营销账号识别模块,用于将疑似度大于设定值的微博账号识别为微博营销账号。
[0028]所述系统还包括:如下模块之一,或如下模块的任意组合:
[0029]第二行为特征统计模块,用于对于每个微博账号,获取该微博账号的行为日志并进行分析:统计该行为日志中记录的调用接口的次数;若统计出的调用接口的次数大于第二阈值,则将该微博账号的疑似度增加第二步长值;
[0030]第三行为特征统计模块,用于对于每个微博账号,获取该微博账号的行为日志并进行分析:若该行为日志中记录有登录、投放广告记录,但没有广告曝光量的记录,则将该微博账号的疑似度增加第三步长值;
[0031]第四行为特征统计模块,用于对于每个微博账号,分别计算该微博账号的博文操作行为特征向量到各样本微博营销账号的博文操作行为特征向量的距离,并将计算出的距离的平均值作为第一距离;以及分别计算该微博账号的博文操作行为特征向量到各样本非微博营销账号的博文操作行为特征向量距离,并将计算出的距离的平均值作为第二距离;若所述第一距离小于所述第二距离,则将该微博账号划分成疑似微博营销账号;否则,将该微博账号划分成非微博营销账号;对于每个划分成疑似微博营销账号的微博账号,统计该微博账号的行为日志中关注微博营销账号的数量,若统计出的关注微博营销账号的数量大于第三阈值,则将该微博账号的疑似度增加第四步长值;
[0032]第五行为特征统计模块,用于获取群体微博账号中每个微博账号登录时所使用的IP地址;若统计出的登录时使用的IP地址位于同一网段的微博账号的数量大于第四阈值,则将登录时使用的IP地址位于该网段的微博账号的疑似度增加第五步长值;
[0033]第六行为特征统计模块,用于获取登录群体微博账号中每个微博账号所使用的客户端的浏览器中的记录标记Cookies ;进而统计出该Cookies中包含的微博账号的数量;若统计出的数量大于第五阈值,则将该Cookies中包含的微博账号的疑似度增加第六步长值。
[0034]根据本发明的另一个方面,还提供了一种微博营销账号的识别系统,包括:
[0035]IP地址获取模块,用于获取群体微博账号中每个微博账号登录时所使用的IP地址;
[0036]微博营销账号识别模块,用于对于所述IP地址获取模块获取的每个IP地址,统计登录时使用该IP地址的微博账号的数量;若统计出的数量大于第一阈值,则将登录时使用该IP地址的微博账号识别为微博营销账号。
[0037]本发明提供的技术方案中,根据微博营销账号的IP聚集性特征,对群体微博账号进行微博营销账号进行识别:若登录时使用相同IP地址的微博账号的数量大于第一阈值,则将登录时使用相同IP地址的微博账号识别为微博营销账号。这样,即使有的微博营销账号模拟正常微博账号发布、转发博文的行为,但通过发现微博账号具有IP地址聚集性特征,则可据此识别出微博营销账号;以提高微博营销账号的识别准确率。
【专利附图】

【附图说明】
[0038]图1为本发明实施例提供的微博营销账号的识别方法的流程示意图;
[0039]图2为本发明实施例提供的微博营销账号的识别系统的结构示意图。
【具体实施方式】
[0040]为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举出优选实施例,对本发明进一步详细说明。然而,需要说明的是,说明书中列出的许多细节仅仅是为了使读者对本发明的一个或多个方面有一个透彻的理解,即便没有这些特定的细节也可以实现本发明的这些方面。
[0041]本申请使用的“模块”、“系统”等术语旨在包括与计算机相关的实体,例如但不限于硬件、固件、软硬件组合、软件或者执行中的软件。例如,模块可以是,但并不仅限于:处理器上运行的进程、处理器、对象、可执行程序、执行的线程、程序和/或计算机。举例来说,计算设备上运行的应用程序和此计算设备都可以是模块。一个或多个模块可以位于执行中的一个进程和/或线程内。
[0042]本发明的发明人发现,对单个微博账号的行为进行分析具有局限性,如果对群体账号的行为特征进行统计,则可以从中发现模拟正常微博账号行为的微博营销账号:对群体微博账号的登录IP(Internet Protocol,互联网协议)地址进行统计,若登录时使用相同IP地址的微博账号的数量大于第一阈值,则将登录时使用相同IP地址的微博账号的识别为微博营销账号。事实上,发明人发现,非微博营销账号的私密性较强,通常不会与其他人的微博账号共同使用同一计算机,具有相同的IP地址;而使用微博营销账号进行营销的人员,其微博私密性较差,通常并不介意多人使用的多个微博营销账号在同一计算机上登录;因此,即使有的微博营销账号模拟正常微博账号发布、转发博文的行为,但通过发现微博账号的IP聚集性特征(使用同一 IP地址登录数量大于第一阈值),则可据此识别出微博营销账号;以提高微博营销账号的识别准确率。
[0043]此外,发明人还发现,微博营销账号模拟正常微博账号发布、转发博文的行为时,其通常还具有调用接口的行为特征,而非微博营销账号通常不具有调用接口的行为特征;或者,微博营销账号模拟正常微博账号投放广告的行为时,其通常还具有无广告曝光量的行为特征,而非微博营销账号通常不具有无广告曝光量的行为特征;或者,微博营销账号模拟正常微博账号关注其它微博账号的行为时,其通常还具有关注微博营销账号的行为特征;而非微博营销账号通常不具有关注微博营销账号的行为特征。因此,为更进一步提高微博营销账号的识别准确率,还可以综合考虑上述行为特征对微博营销账号进行识别:若发现该微博账号具有大于设置值个上述行为特征,则可以据此将该微博账号作为识别出的微博营销账号。这样,以模拟正常微博账号行为的微博营销账号的多种行为特征作为识别依据,不仅能够识别出模拟正常微博账号行为的微博营销账号,而且,相比仅凭借IP聚集性进行识别,识别的准确率更高。
[0044]下面结合附图详细说明本发明的技术方案。
[0045]本发明实施例提供的微博营销账号的识别具体方法,流程如图1所示,包括如下步骤:
[0046]SlOl:获取群体微博账号中每个微博账号登录时所使用的IP地址。
[0047]本步骤中,对于群体微博账号中每个微博账号,获取该微博账号登录时所使用的IP地址,也就是登录该微博账号时所使用的客户端的IP地址。
[0048]S102:统计出登录时使用相同IP地址的微博账号的数量;若该数量超过第一阈值,则将登录时使用相同IP地址的微博账号的疑似度增加第一步长值。
[0049]本步骤中,对于每个获取的IP地址,确定出登录时使用该IP地址的微博账号,进而统计确定出的微博账号的数量。若统计出的数量大于第一阈值,则将登录时使用该IP地址的微博账号的疑似度增加第一步长值(例如,第一步长值等于I)。其中,本领域技术人员可以根据经验对第一阈值和第一步长值进行设定。
[0050]例如,待识别的微博账号中,账号ID (Identification,身份识别号码):2809798682,账号名称:在路上嘉儿素娜;账号ID:2803422050,账号名称:草摩夹;账号ID:2805696821,账号名称:琪琪的微博账号的登录IP地址相同,若此时第一阈值为2,则分别将上述三个微博账号的疑似度增加第一步长值。
[0051]事实上,还可以确定出登录时使用IP地址在同一网段的微博账号,进而统计确定出的微博账号的数量;若统计出的数量大于第四阈值,同样可以将登录时使用IP地址在同一网段的微博账号的疑似度增加第五步长值。其中,本领域技术人员可以根据经验对第四阈值和第五步长值进行设定。
[0052]此外,对于群体微博账号中每个微博账号,还可以获取登录该微博账号所使用的客户端中浏览器的Cookies (记录标记),进而统计出该Cookies中包含的微博账号的数量。若统计出的数量大于第五阈值,则将该Cookies包含的微博账号的疑似度增加第六步长值。其中,本领域技术人员可以根据经验对第五阈值和第六步长值进行设定。
[0053]S103:获取群体微博账号中每个微博账号的行为日志。
[0054]更优地,还可在本步骤中对于群体微博账号中每个微博账号,获取该微博账号的行为日志。其中,行为日志中记录中该微博账号的登录情况、调用接口情况、广告投放情况、广告曝光量情况,以及关注微博营销账号情况。
[0055]S104:对于群体微博账号中每个微博账号,若该微博账号的行为日志中有登录、投放广告记录,但没有广告曝光量记录,则将该待识别微博账号的疑似度增加第三步长值。
[0056]更优地,还可在本步骤中对于正常微博账号,在用户通过该账号观看广告时,在该账号的行为日志中记录中广告投放情况,相应地也记录有广告曝光量情况。因此,若该微博账号的行为日志中有登录、投放广告记录,但没有广告曝光量记录,则将该待识别微博账号的疑似度增加第三步长值。其中,本领域技术人员可以根据经验对第三步长值进行设定。
[0057]S105:对于群体微博账号中每个微博账号,统计该微博账号的行为日志中记录的调用接口的次数,若该次数小于第二阈值,则将该微博账号的疑似度增加第二步长值。
[0058]更优地,还可在本步骤中,对于群体微博账号中每个微博账号,统计该微博账号的行为日志中记录的调用接口的次数。若统计出的该微博账号的行为日志中调用接口的次数小于第二阈值,则将该微博账号的疑似度增加第二步长值。其中,第二阈值具体可以为各样本非微博营销账号的行为日志中记录的调用接口的次数的平均值。其中,本领域技术人员可以根据经验对第二步长值进行设定。
[0059]S106:将群体微博账号进行分类,对于每个划分成疑似微博营销账号的微博账号,统计该微博账号的行为日志中关注微博营销账号的数量,若该数量大于第三阈值,则将该微博账号的疑似度增加第四步长值。
[0060]更优地,还可在本步骤中,利用K-means (K均值聚类)算法,对于群体微博账号中的每个微博账号,分别计算该微博账号的博文操作行为特征向量到各样本微博营销账号的博文操作行为特征向量的距离,并将计算出的上述距离的平均值作为第一距离。同时,分别计算该微博账号的博文操作行为特征向量到各样本非微博营销账号的博文操作行为特征向量的距离,并将计算出的距离的平均值作为第二距离;若计算出的第一距离小于计算出的第二距离,则将该微博账号划分成疑似微博营销账号;否则,将该微博账号划分成非微博营销账号。其中,微博账号的博文操作行为特征向量中的向量元素包括:微博账号月发布博文的次数、微博账号月转发博文的次数、微博账号月评论博文的次数组成。
[0061]对于每个划分成疑似微博营销账号的微博账号,根据步骤S103获取的该微博账号的行为日志,统计出该行为日志中关注微博营销账号的数量,若统计出的关注微博营销账号的数量大于第三阈值,则将该划分成疑似营销账号的微博账号的疑似度增加第四步长值。其中,本领域技术人员可以根据经验对第三阈值和第四步长值进行设定。
[0062]事实上,通过K-means聚类算法将群体微博账号划分成疑似微博营销账号或非微博营销账号后,划分成疑似微博营销账号的微博账号中有很有可能存在误判的账号,因此,需要根据关注微博营销账号数量对划分成疑似微博营销账号的微博账号进行进一步筛查,以提高利用K-means聚类算法对群体微博账号进行分类的准确性。
[0063]S107:将疑似度大于设定值的微博账号识别为微博营销账号。
[0064]本步骤中,对于群体微博账号中每个微博账号,统计出该微博账号的疑似度,若该微博账号的疑似度大于设定值,则将该识别微博账号识别为微博营销账号,并将其加入微博营销账号库中,更新该微博营销账号库。其中,较优地,设定值具体可以为2,或者是本领域技术人员根据经验设置的其它整数值。
[0065]事实上,统计出登录时使用相同IP地址的微博账号的数量大于第一阈值后,便将登录时使用相同IP地址的微博账号且数量大于第一阈值的微博账号识别为微博营销账号。但是为了进一步提高销账号的识别准确率,可以继续后续的方法步骤:综合考虑微博营销账号的其它行为特征,将疑似度大于设定值的微博账号识别为微博营销账号。其中,上述第一、二、三、四、五、六步长值可以为相同值,也可以为不同值。并且上述方法步骤104-106的执行顺序不分先后,可以依次执行,也可以同时执行。
[0066]本发明实施例提供的一种微博营销账号识别系统的内部结构,如图2所示,包括:第一行为特征统计模块201和微博营销账号识别模块202。
[0067]第一行为特征统计模块201用于获取群体微博账号中每个微博账号登录时所使用的IP地址;对于每个获取的IP地址,统计登录时使用该IP地址的微博账号的数量;若统计出的数量大于第一阈值,则将登录时使用该IP地址的微博账号的疑似度增加第一步长值。
[0068]微博营销账号识别模块202用于将疑似度大于设定值的微博账号识别为微博营销账号。
[0069]进一步,本发明实施例提供的一种微博营销账号识别系统还包括如下模块之一,或如下模块的任意组合:第二行为特征统计模块203、第三行为特征统计模块204、第四行为特征统计模块205、第五行为特征统计模块206、第六行为特征统计模块207 ;
[0070]其中,第二行为特征统计模块203用于对于每个微博账号,获取该微博账号的行为日志并进行分析:统计该行为日志中记录的调用接口的次数;若统计出的调用接口的次数大于第二阈值,则将该微博账号的疑似度增加第二步长值。
[0071]第三行为特征统计模块204用于对于每个微博账号,获取该微博账号的行为日志并进行分析:若该行为日志中记录有登录、投放广告记录,但没有广告曝光量的记录,则将该微博账号的疑似度增加第三步长值。
[0072]第四行为特征统计模块205用于对于每个微博账号,分别计算该微博账号的博文操作行为特征向量到各样本微博营销账号的博文操作行为特征向量的距离,并将计算出的距离的平均值作为第一距离;以及分别计算该微博账号的博文操作行为特征向量到各样本非微博营销账号的博文操作行为特征向量距离,并将计算出的距离的平均值作为第二距离;若第一距离小于第二距离,则将该微博账号划分成疑似微博营销账号;否则,将该微博账号划分成非微博营销账号;对于每个划分成疑似微博营销账号的微博账号,统计该微博账号的行为日志中关注微博营销账号的数量,若统计出的关注微博营销账号的数量大于第三阈值,则将该微博账号的疑似度增加第四步长值。
[0073]第五行为特征统计模块206用于获取群体微博账号中每个微博账号登录时所使用的IP地址;若统计出的登录时使用的IP地址位于同一网段的微博账号的数量大于第四阈值,则将登录时使用的IP地址位于该网段的微博账号的疑似度增加第五步长值。
[0074]第六行为特征统计模块207用于获取登录群体微博账号中每个微博账号所使用的客户端的浏览器中的记录标记Cookies ;进而统计出该Cookies中包含的微博账号的数量;若统计出的数量大于第五阈值,则将该Cookies中包含的微博账号的疑似度增加第六步长值。
[0075]此外,本发明实施例提供的另一种微博营销账号识别系统的内部结构,可以包括:IP地址获取模块和微博营销账号识别模块;
[0076]其中,IP地址获取模块用于获取群体微博账号中每个微博账号登录时所使用的IP地址。
[0077]微博营销账号识别模块用于对于IP地址获取模块获取的每个IP地址,统计登录时使用该IP地址的微博账号的数量;若统计出的数量大于第一阈值,则将登录时使用该IP地址的微博账号识别为微博营销账号。
[0078]本发明的技术方案中,根据微博营销账号的IP聚集性特征,对群体微博账号进行微博营销账号进行识别:若登录时使用相同IP地址的微博账号的数量大于第一阈值,则将登录时使用相同IP地址的微博账号识别为微博营销账号。这样,即使有的微博营销账号模拟正常微博账号发布、转发博文的行为,但通过发现微博账号具有IP地址聚集性特征,则可据此识别出微博营销账号;以提高微博营销账号的识别准确率。
[0079]更优地,为了提高微博营销账号识别的准确性,还可以综合考虑微博营销账号调用接口性、无广告曝光量、关注微博营销账号等其它行为特征,对群体微博账号进行微博营销账号的识别:若发现微博账号具有大于设置值个上述行为特征,则可以据此识别出微博营销账号。这样,以模拟正常微博账号行为的微博营销账号的多种行为特征为识别依据,不仅能够识别出模拟正常微博账号行为的微博营销账号,而且,相比仅凭借IP聚集性进行识另IJ,识别的准确率更高。
[0080]本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读取存储介质中,如:R0M/RAM、磁碟、光盘等。
[0081]以上所述仅是本发明的优选实施方式,应当指出,对于本【技术领域】的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
【权利要求】
1.一种微博营销账号的识别方法,其特征在于,包括: 获取群体微博账号中每个微博账号登录时所使用的互联网协议IP地址; 对于每个获取的IP地址,统计登录时使用该IP地址的微博账号的数量;若统计出的数量大于第一阈值,则将登录时使用该IP地址的微博账号的疑似度增加第一步长值; 将疑似度大于设定值的微博账号识别为微博营销账号。
2.如权利要求1所述的方法,其特征在于,在所述将疑似度大于设定值的微博账号识别为微博营销账号之前,还包括: 对于每个微博账号,获取该微博账号的行为日志并进行分析:统计该行为日志中记录的调用接口的次数;若统计出的调用接口的次数大于第二阈值,则将该微博账号的疑似度增加第二步长值。
3.如权利要求2所述的方法,其特征在于,在所述获取该微博账号的行为日志并进行分析时,还包括: 若该行为日志中记录有登录、投放广告记录,但没有广告曝光量的记录,则将该微博账号的疑似度增加第三步长值。
4.如权利要求1-3任一所述的方法,其特征在于,在所述将疑似度大于设定值的微博账号识别为微博营销账号之前,还包括: 对于每个微博账号,分别计算该微博账号的博文操作行为特征向量到各样本微博营销账号的博文操作行为特征向量的距离,并将计算出的距离的平均值作为第一距离;并分别计算该微博账号的博文操作行为特征向量到各样本非微博营销账号的博文操作行为特征向量的距离,并将计算出的距离的平均值作为第二距离;若所述第一距离小于所述第二距离,则将该微博账号划分成疑似微博营销账号;否则,将该微博账号划分成非微博营销账号; 对于每个划分成疑似微博营销账号的微博账号,统计该微博账号的行为日志中关注微博营销账号的数量,若统计出的关注微博营销账号的数量大于第三阈值,则将该微博账号的疑似度增加第四步长值。
5.如权利要求1-3任一所述的方法,其特征在于,在所述将疑似度大于设定值的微博账号识别为微博营销账号之前,还包括: 若统计出的登录时使用的IP地址位于同一网段的微博账号的数量大于第四阈值,则将登录时使用的IP地址位于该网段的微博账号的疑似度增加第五步长值。
6.如权利要求1-3任一所述的方法,其特征在于,在所述将疑似度大于设定值的微博账号识别为微博营销账号之前,还包括: 获取登录群体微博账号中每个微博账号所使用的客户端的浏览器中的记录标记Cookies ;进而统计出该Cookies中包含的微博账号的数量;若统计出的数量大于第五阈值,则将该Cookies中包含的微博账号的疑似度增加第六步长值。
7.一种微博营销账号的识别方法,其特征在于,包括: 获取群体微博账号中每个微博账号登录时所使用的互联网协议IP地址; 对于每个获取的IP地址,统计登录时使用该IP地址的微博账号的数量;若统计出的数量大于第一阈值,则将登录时使用该IP地址的微博账号识别为微博营销账号。
8.一种微博营销账号识别系统,其特征在于,包括:第一行为特征统计模块,用于获取群体微博账号中每个微博账号登录时所使用的IP地址;对于每个获取的IP地址,统计登录时使用该IP地址的微博账号的数量;若统计出的数量大于第一阈值,则将登录时使用该IP地址的微博账号的疑似度增加第一步长值; 微博营销账号识别模块,用于将疑似度大于设定值的微博账号识别为微博营销账号。
9.如权利要求8所述的系统,其特征在于,还包括:如下模块之一,或如下模块的任意组合: 第二行为特征统计模块,用于对于每个微博账号,获取该微博账号的行为日志并进行分析:统计该行为日志中记录的调用接口的次数;若统计出的调用接口的次数大于第二阈值,则将该微博账号的疑似度增加第二步长值; 第三行为特征统计模块,用于对于每个微博账号,获取该微博账号的行为日志并进行分析:若该行为日志中记录有登录、投放广告记录,但没有广告曝光量的记录,则将该微博账号的疑似度增加第三步长值; 第四行为特征统计模块,用于对于每个微博账号,分别计算该微博账号的博文操作行为特征向量到各样本微博营销账号的博文操作行为特征向量的距离,并将计算出的距离的平均值作为第一距离;以及分别计算该微博账号的博文操作行为特征向量到各样本非微博营销账号的博文操作行为特征向量距离,并将计算出的距离的平均值作为第二距离;若所述第一距离小于所述第二距离,则将该微博账号划分成疑似微博营销账号;否则,将该微博账号划分成非微博营销账号;对于每个划分成疑似微博营销账号的微博账号,统计该微博账号的行为日志中关注微博营销账号的数量,若统计出的关注微博营销账号的数量大于第三阈值,则将该微博账号的疑似度增加第四步长值; 第五行为特征统计模块,用于获取群体微博账号中每个微博账号登录时所使用的IP地址;若统计出的登录时使用的IP地址位于同一网段的微博账号的数量大于第四阈值,则将登录时使用的IP地址位于该网段的微博账号的疑似度增加第五步长值; 第六行为特征统计模块,用于获取登录群体微博账号中每个微博账号所使用的客户端的浏览器中的记录标记Cookies ;进而统计出该Cookies中包含的微博账号的数量;若统计出的数量大于第五阈值,则将该Cookies中包含的微博账号的疑似度增加第六步长值。
10.一种微博营销账号识别系统,其特征在于,包括: IP地址获取模块,用于获取群体微博账号中每个微博账号登录时所使用的IP地址;微博营销账号识别模块,用于对于所述IP地址获取模块获取的每个IP地址,统计登录时使用该IP地址的微博账号的数量;若统计出的数量大于第一阈值,则将登录时使用该IP地址的微博账号识别为微博营销账号。
【文档编号】H04L29/08GK103905532SQ201410093704
【公开日】2014年7月2日 申请日期:2014年3月13日 优先权日:2014年3月13日
【发明者】冯术葵, 庄宝玉 申请人:微梦创科网络科技(中国)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1