一种恶意账号的识别方法,及装置的制造方法_2

文档序号：9250971阅读：来源：国知局

效阅读速度为每天的有效阅读字数；上述阅读速度阈值为每天的阅读字数阈值；上述阅读字数阈值以天为周期性生成。
[0042]本发明实施例采用以天为单位周期性生成阅读字数阈值，这样可以通过每天生成阀值，使阈值动态变化，自适应节假日、月末时间阀值的升高或减少。从而更加准确的识别刷书的恶意账号。
[0043]以上实施例是基于网络文学平台内部进行的恶意账号识别，除此之外本发明实施例还提供了采用阅读平台以外的数据进行进一步辅助以提升识别准确率的方案，具体如下:上述确定上述待确认账号为恶意账号之前，上述方法还包括:
[0044]获取已知的恶意账号在上述阅读平台以外的恶意特征信息，并依据上述恶意特征信息确定上述待确认账号的恶意概率；
[0045]若恶意概率大于预定阈值，且上述待确认账号的阅读速度超过上述阅读速度阈值，则确定上述待确认账号为恶意账号。
[0046]本实施例，通过阅读平台以外的恶意特征信息对待确认账号进行进一步确认，防止阅读速度较快的正常账号被误判的几率，从而进一步提升恶意账号识别的准确率。
[0047]在前述实施例中，如果仅采用阅读速度阈值进行恶意账号的判定，为了减少将阅读速度较快的正常账号误判，通常阅读速度阈值会设置得较大，因此是存在漏判风险的，基于本发明实施例采用阅读平台以外的数据进行进一步辅助的方案，本发明实施例可以降低阅读速度阈值来减少漏判的风险，具体实现方案如下:上述依据上述分布数据确定正常账号上限的阅读速度阈值，包括:依据上述分布数据确定正常账号上限的次阅读速度阈值，上述次阅读速度阈值低于阅读速度阈值；
[0048]上述待确认账号的阅读速度超过上述阅读速度阈值包括:待确认账号的阅读速度超过上述次阅读速度阈值。
[0049]本发明实施例还提供了恶意特征信息的具体可选取值，如下:上述恶意特征信息包括:好友关系链、兴趣分布，以及活跃度中至少一项的特征信息。
[0050]本分发明实施例还进一步提供了恶意概率的获得方案，具体如下:上述获取已知的恶意账号在上述阅读平台以外的恶意特征信息，并依据上述恶意特征信息确定上述待确认账号的恶意概率，包括:
[0051]根据贝叶斯分类算法和上述恶意特征信息，训练样本数据得到先验概率；
[0052]获取上述待确认账号的特征信息，并依据上述先验概率确定上述待确认账号的特征信息的恶意概率。
[0053]以上实施例，通过恶意账号在上述阅读平台以外的好友关系链、兴趣分布，以及活跃度作为训练样本；通过恶意的样本贝叶斯分类算法训练得出先验概率，并依据先验概率对待确认账号进行评估，获得待确认账号的特征信息的恶意概率。这种阅读平台外部数据与内部数据结合的方案，可以在防止误判的基础上减少漏判，从而提升恶意账号识别的准确率。
[0054]以下实施例将以腾讯文学为平台的书城为应用背景，来对本发明实施例进行更详细的举例说明。
[0055]本发明实施例主要从业务内和业务外两方面来打击刷书用户。业务内是建立腾讯文学用户阅读行为模型，根据概率论找出刷书行为用户。业务外是利用贝叶斯分类方法，根据刷书用户样本数据，得到刷书用户先验概率，再根据先验概率和用户属性得出此用户是刷书的概率。最后取业务内和业务外刷书用户的并集，放入书城黑中单。具体方案如下:
[0056]一、业务内防刷-高斯分布模型:
[0057]建立用户阅读行为模型，如图2所示的有效阅读字数的用户理论和实际分布图，横轴为有效阅读字数(log)，纵轴为用户分布；其中图1中的曲线为理论分布曲线，黑色纵线组成的图案为用户有效阅读字数的实际分布，在matlab(—种数学软件，用于算法开发、数据可视化、数据分析以及数值计算的高级技术计算语言和交互式环境)中用normplot函数(概率纸检验函数)检验可知，腾讯文学中用户的阅读有效字数符合高斯分布模型，可以用高斯分布的累积分布函数来确定正常用户的范围。例如:可取理论上95%的用户作为正常用户，计算出阅读字数阀值。该模型根据上一周用户的阅读行为，每天生成阀值，动态变化，自适应节假日、月末时间阀值的升高或减少。
[0058]在本发明实施例中，以上95%是可以设定的，为了减少误判可以提高这个比率为了降低漏判可以提高这个比率。综合后续实施例中的业务外防刷，可以设置得较低一些减少漏判。
[0059]二、业务外防刷-贝叶斯分类:
[0060]正常情况下，正常用户不仅只是书城用户，正常用于对于其他应用也有会有一定的活跃度。
[0061]分析已有刷书用户账号，从活跃度，好友关系链，兴趣分布等分析用户特征，根据贝叶斯分类算法，训练样本数据，再根据先验概率求得新用户为刷书用户的后验概率，从而找出刷书用户，有效打击了 CP或者作者中利用小号来刷书。流程如图3所示。
[0062]301:确定特征属性(如活跃度，好友关系链，兴趣分布)，获取刷书用户的训练样本；
[0063]302:计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计(全概率公式)；
[0064]303:根据联合概率的定义，计算出待分类是账号属于刷书账号的概率；
[0065]304:确定属于刷书账号的概率是否大于预定阈值，如果是，进入306，否则进入305 ；
[0066]305:加入正常运营数据；
[0067]306:加入到黑名单。
[0068]本发明实施例，从业务内和业务外两方面来打击刷书用户，业务内根据高斯分布每天动态变化阅读阀值，有效避免了固定阀值的泄漏问题。业务外利用贝叶斯分类算法，根据已有刷书样本的特征属性自动分类新用户，有效打击了刷书小号。通过以上方案，可以减少了腾讯文学中刷书用户对于运营数据和收入的影响，保证了书城运营的正常秩序，提升了网络文学运营平台的整体质量和口碑。
[0069]本发明实施例提供了一种恶意账号的识别装置，如图4所示，包括:
[0070]训练单元401，用于以已知的正常账号集的有效阅读速度为训练样本，确定上述正常账号集的有效阅读速度的分布数据；
[0071]阈值确定单元402，用于依据上述训练单元401确定的分布数据确定正常账号上限的阅读速度阈值；
[0072]判决单元403，用于获取待确认账号的阅读速度，若上述待确认账号的阅读速度超过上述阅读速度阈值，则确定上述待确认账号为恶意账号。
[0073]在本发明实施例中，正常账号集是包含正常账户的一个集合，该集合中的样本数量可以任意设定，通常来说可以设置得较大一些以增加数据的准确性。有效阅读速度可以是字数与时间的比值；其表现形式可以是计算得出的一个值，也可以是以一个时间段为依据获取的有效阅读字数，例如:一天的有效阅读字数。在本发明实施例中“有效”是相对于“无效”而言的，例如:一个账号对同一段文字的重复点击，只应当统计一次字数；那么第一次点击为有效的，除第一次点击以外的重复点击则为无效的，这样可以更准确的统计真实的阅读量。
[0074]根据实际统计，用户的正常阅读速度具有高斯分布的特征，也即是阅读速度集中在一个中间区域，远大于这个区域的人会很少，远小于这个区域的人也会很少。那么可以依据这个分布特征来数据来确定一个阈值，超过这个阈值则可以认为较大可能性为恶意账号。
[0075]本发明实施例，已知的正常账号集的有效阅读速度为训练样本，确定上述正常账号集的有效阅读速度的分布数据；并依据上述分布数据确定正常账号上限的阅读速度阈值。不再使用人工设定的固定阈值，阈值的设定具有基于统计的理论依据不再由人工任意设定，从而能够准确识别刷书的恶意账号。
[0076]本发明实施例还提供了具体如何确定分布数据，以及如何依据分布数据确定阅读速度阈值的具体实现方案，具体如下:可选地，上述训练单元401，用于确定上述正常账号集的有效阅读速度符合高斯分布的分布模型；

完整全部详细技术资料下载

当前第2页1 2 3 4