一种恶意账号的识别方法,及装置的制造方法

文档序号:9250971阅读:621来源:国知局
一种恶意账号的识别方法,及装置的制造方法
【技术领域】
[0001]本发明涉及通信技术领域,特别涉及一种恶意账号识别方法,及装置。
【背景技术】
[0002]网络文学,指新近产生的,以互联网为展示平台和传播媒介的,借助超文本连接和多媒体演绎等手段来表现的文学作品、类文学文本及含有一部分文学成分的网络艺术品。其中,以网络原创作品为主。
[0003]网络文学是随着互联网的普及而产生的。互联网络为上亿网民提供了多如恒沙的各类文学资料信息,与此同时,一种以这种新兴媒体为载体、依托、手段,以网民为接受对象,具有不同于传统文学特点的网络文学悄然勃兴。
[0004]网络文学与传统文学不是对立的两极,而是互相渗透的有机体系。不少传统文学通过电子化成为了网络文学的一部分,网络文学的作者也都接受过传统文学的熏陶。同时,网络文学通过出版进入了传统文学领域;并依靠网络巨大的影响力,成为流行文化的重要组成部分,进而影响到传统文学。
[0005]由于借助强大的网络媒介,网络文学具有多样性、互动性和知识产权保护困难的特点。其形式可以类似传统文学,也可以是博文、帖子等非传统文体。实时回复、实时评论和投票是网络文学的重要特征。由于网络文学传播的便捷,导致知识产权不易受到保护。
[0006]为读者提供优秀的畅销图书电子、最热的网络原创小说在线阅读,为热爱文学写作的网友提供在线创作、在线宣传和在线销售的综合原创文学平台;目前已经出现了大量的网络文学平台。
[0007]原创作者或者CP (content provide,内容提供商)在网络文学平台上发布自己的作品,作为回报,网络文学平台会根据文学作品的有效阅读用户数、阅读字数、收藏订阅等数据确定支付给发布文学作品的一方,使知识产权的所有者能够得到相应的报酬,从而形成良性的创作环境,促进文学的发展。
[0008]但是,发布文学作品的一方存在“刷书”现象。刷书是指:作者或者CP为了自己的书能获得更多收入、更好的排行榜位置和推荐位置,通过不正当手段阅读书籍,使其有效阅读用户数、阅读字数、收藏订阅等数据异常增长的行为。因此,刷书行为不仅扰乱了网络文学平台的正常运营秩序,也极大的损害了未作弊作者或CP的利益,使他们不能获得应用的报酬。因此如何识别那些用来刷书的恶意账号,成为了必要的技术需求。
[0009]目前,识别恶意账号的方式如下:人工设定一个最大字数阀值,如果某一账号阅读的字数超过了这个阈值,则确定为恶意账号。上述最大字数阀值通常来说,是根据经验确定的一个固定值,为了减少误判通常是一个较大的值。
[0010]以上方案中,最高阅读字数的阀值由人工设定,不仅没有理论依据,而且极容易被CP或者作者发现找出其中的规律,调整刷书策略,限定每天刷书字数在阀值以下。所以手工设定阅读字数来区别刷书用户,效果不明显,区分度不高。因此以上方案并不能准确识别恶意账号。

【发明内容】

[0011]本发明实施例提供了一种恶意账号的识别方法,及装置,用于准确识别刷书的恶意账号。
[0012]一种恶意账号的识别方法,包括:
[0013]以已知的正常账号集的有效阅读速度为训练样本,确定所述正常账号集的有效阅读速度的分布数据;
[0014]依据所述分布数据确定正常账号上限的阅读速度阈值;
[0015]获取待确认账号的阅读速度,若所述待确认账号的阅读速度超过所述阅读速度阈值,则确定所述待确认账号为恶意账号。
[0016]一种恶意账号的识别装置,包括:
[0017]训练单元,用于以已知的正常账号集的有效阅读速度为训练样本,确定所述正常账号集的有效阅读速度的分布数据;
[0018]阈值确定单元,用于依据所述训练单元确定的分布数据确定正常账号上限的阅读速度阈值;
[0019]判决单元,用于获取待确认账号的阅读速度,若所述待确认账号的阅读速度超过所述阅读速度阈值,则确定所述待确认账号为恶意账号。
[0020]从以上技术方案可以看出,本发明实施例具有以下优点:已知的正常账号集的有效阅读速度为训练样本,确定所述正常账号集的有效阅读速度的分布数据;并依据所述分布数据确定正常账号上限的阅读速度阈值。不再使用人工设定的固定阈值,阈值的设定具有基于统计的理论依据不再由人工任意设定,从而能够准确识别刷书的恶意账号。
【附图说明】
[0021]为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0022]图1为本发明实施例方法流程示意图;
[0023]图2为本发明实施例有效阅读字数的用户理论和实际分布示意图;
[0024]图3为本发明实施例方法流程示意图;
[0025]图4为本发明实施例装置结构示意图;
[0026]图5为本发明实施例装置结构示意图;
[0027]图6为本发明实施例恶意账号的识别装置结构示意图;
[0028]图7为本发明实施例服务器结构示意图。
【具体实施方式】
[0029]为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0030]本发明实施例提供了一种恶意账号的识别方法,如图1所示,包括:
[0031]101:以已知的正常账号集的有效阅读速度为训练样本,确定上述正常账号集的有效阅读速度的分布数据;
[0032]在本发明实施例中,正常账号集是包含正常账户的一个集合,该集合中的样本数量可以任意设定,通常来说可以设置得较大一些以增加数据的准确性。有效阅读速度可以是字数与时间的比值;其表现形式可以是计算得出的一个值,也可以是以一个时间段为依据获取的有效阅读字数,例如:一天的有效阅读字数。在本发明实施例中“有效”是相对于“无效”而言的,例如:一个账号对同一段文字的重复点击,只应当统计一次字数;那么第一次点击为有效的,除第一次点击以外的重复点击则为无效的,这样可以更准确的统计真实的阅读量。
[0033]102:依据上述分布数据确定正常账号上限的阅读速度阈值;
[0034]根据实际统计,用户的正常阅读速度具有高斯分布的特征,也即是阅读速度集中在一个中间区域,远大于这个区域的人会很少,远小于这个区域的人也会很少。那么可以依据这个分布特征来数据来确定一个阈值,超过这个阈值则可以认为较大可能性为恶意账号。
[0035]103:获取待确认账号的阅读速度,若上述待确认账号的阅读速度超过上述阅读速度阈值,则确定上述待确认账号为恶意账号。
[0036]本发明实施例,已知的正常账号集的有效阅读速度为训练样本,确定上述正常账号集的有效阅读速度的分布数据;并依据上述分布数据确定正常账号上限的阅读速度阈值。不再使用人工设定的固定阈值,阈值的设定具有基于统计的理论依据不再由人工任意设定,从而能够准确识别刷书的恶意账号。
[0037]本发明实施例还提供了具体如何确定分布数据,以及如何依据分布数据确定阅读速度阈值的具体实现方案,具体如下:上述确定上述正常账号集的有效阅读速度的分布数据包括:
[0038]确定上述正常账号集的有效阅读速度符合高斯分布的分布模型;
[0039]上述依据上述分布数据确定正常账号上限的阅读速度阈值包括:
[0040]使用高斯分布的累积分布函数,确定上述分布模型中正常账号上限的阅读速度阈值。
[0041]可选地,上述有
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1