电子文件阅读数非自然增长识别方法

文档序号:9687774阅读:929来源:国知局
电子文件阅读数非自然增长识别方法
【技术领域】
[0001] 本发明设及一种电子文件阅读数监测方法,尤其设及一种电子文件阅读数非自然 增长识别方法。
【背景技术】
[0002] 随着网络技术的深入发展,电子文件网上在线阅读数量越来越大,比如微信、微 博、网络新闻、网络小说等,每天都有成千上万的用户在阅读。对于在线阅读来说,阅读数量 的多少及其增长速度是体现该阅读内容是否具有吸引力的重要参考指标,对于商家来说, 阅读数量的多少及其增长速度更是关系经济收益的重要信息,也正是运个原因,所W部分 媒体或商家通过一些非正常手段来提高阅读数量,或在短期内实现爆发式增长,即实现非 自然增长,W达到谋取暴利的目的。显然,运种行为是不利于网络市场健康发展的,但目前 尚没有合理的手段能够实现对运种阅读数非自然增长进行较为准确的监测和识别,制约了 网络市场的健康发展。

【发明内容】

[0003] 本发明的目的就在于为了解决上述问题而提供一种电子文件阅读数非自然增长 识别方法,运种方法能准确识别电子文件阅读数非自然增长情况。
[0004] 本发明通过W下技术方案来实现上述目的:
[0005] -种电子文件阅读数非自然增长识别方法,包括W下步骤:
[0006] (1)原始数据采集及阅读曲线绘制:对电子文件的公开阅读数进行实时监测,实时 监测的时间间隔可W为一个或多个,定时采集相应的阅读数,最终绘制出电子文件的实时 阅读曲线;
[0007] (2)数据预处理:通过数据归整和清洗,将原始数据处理为每个相同时间间隔的时 间点均有数据与之对应的序列,最终得到包括序列X、更新时间T和阅读数R运Ξ列的数据M; [000引(3)对已绘制的阅读曲线进行趋势分析、特征分析,最后进行非线性拟合,同时将 横坐标的时间转换为自然数序列,建立实时曲线模型如下:
[0009]
[0010]其中C代表时间间隔;
[0011] (4)第一次计算:利用实时曲线模型对坐标系X-Y进行拟合,根据拟合度计算出本 次计算的非自然增长形态的或然率Cl;运里的X代表数据预处理后的序列,Y代表阅读数R;
[0012] (5)第二次计算:依次判断夜间非自然增长形态和白天非自然增长形态,并根据夜 间非自然增长形态和白天非自然增长形态计算得到本次计算的非自然增长形态的或然率
[0013] (6)第Ξ次计算:结合第二次计算的数据,对相邻阅读增量进行差值处理,得到本 次计算的非自然增长形态的或然率C3 ;
[0014] (7)第四次计算:结合第二次计算的数据,计算阅读曲线斜率角度,最后得到本次 计算的非自然增长形态的或然率C4;
[0015] (8)根据上述四次计算得到的非自然增长形态的或然率,得到最终的非自然增长 形态的综合或然率Cf;
[0016] (9)根据非自然增长形态的综合或然率Cf判断电子文件阅读数非自然增长概率,Cf 值越大,电子文件阅读数非自然增长概率越高,反之越低。
[0017] 作为优选,所述步骤(4)中第一次计算的具体方法为:
[0018] 先求出将
-项视为自变量XI,然后利用线性方程y = a-b*xi拟合求出 a、b和预测值r,并计算得出曲线拟合度R2,其计算公式为:
[0019]
[0020] 根据W下公式计算出本次计算的非自然增长形态的或然率:
[0021]
[0022] 所述步骤(5)中第二次计算的具体方法为:
[0023] 如果处理后的数据Μ包括两个或两个W上时间间隔的数据,则数据Μ中取出其中一 个时间间隔的数据,组成新的数据;首先求出相邻时间点的阅读数R的差值,此为相等时间 间隔的阅读增量ΓΛ,即后一个阅读数减去前一个阅读数的差,由此值形成ID列,从而得到相 等时间间隔阅读增量占总阅读的比率rate = γδ/πι3χ (R)及其对应的时间点t和序列号X,并 得到数据列(ID,t,y,rate),其中y即为r,表示阅读量R中的元素;首先判断夜间非自然增长 形态:设置电子文件发布后第一个凌晨从2:00至7:00,且其阅读增量比率阀值为3%,此后 凌晨1:00至7:00的阀值为1.5%,若电子文件第一个凌晨2:00至7 :00和其它凌晨1:00至7: 00的阅读增量N的比率rate超过对应的阀值,则将其记录在向量Η中,根据W下公式得到夜 间非自然增长形态的或然率:
[0024]
[0025] 其次判断白天非自然增长形态:去除电子文件凌晨时刻的数据,首先判断发稿前 2-4个白天时刻数据的阅读增量占总阅读的比率rate是否有大于或等于0.3的数据,若有, 则判断白天非自然增长形态的或然率为0.8,即Cd = 0.8,若没有,贝化d =去掉白天前4个时刻 和夜间的其它时刻的阅读增量比率最大值;
[0026] 最后,根据公式C2 = Cn+Cd得到本次计算的非自然增长形态的或然率C2;若C2大于或 等于1,则都取为1.0,若C2小于1,则取其实际值;
[0027] 所述步骤(6)中第Ξ次计算的具体方法为:
[0028] 根据第二次计算的ID列,即ΓΛ值,对相邻阅读增量进行差值处理,即后一个ΓΛ减去 前一个ΓΛ之差,得到相等时间段下的增量差y2,选出y2列前5个点的最高值max,再从y2的第 五个点W后的所有点中找出所有满足y2〉max/3运一范围的值,该值至少有两个,如只出现 一个则视为自然增长形态,不在此算法识别范围内,求出运几个数的平均值P,则本次计算 的非自然增长形态的或然率C3的计算公式为:
[0029] 〇3=((P-max/3)/(max/2-max/3))=(6P-2max)/max
[0030] 若C3大于或等于1,则为非自然增长形态,当C3介于(0,1)之间则存在非自然增长形 态的可能性,当C3 = 0,则为自然增长形态;
[0031] 所述步骤(7)中第四次计算的具体方法为:
[0032] 根据第二次计算所得数据列(10,*,7,^*6)、10列即'&值,^及处理后的数据¥即 R,根据W下公式计算得到阅读曲线斜率角度:
[0033]
[0034] 对degree四舍五入成整数degree 1,首先判断当degree 1大于或等于20,且相邻两 个degreel的差值小于3度时,将二者的位置和数值分别记录在数据框location_l和value_ 1中,化lue_l的列数i则为连续出现相近阅读增量的最大次数,当i〉= 6时,则cheat_line_l =1.0,当i = 5时,则cheat_line_l = 0.8,当i = 4时,则cheat_line_l = 0.5,当i< = 3时, cheat_l ine_l =0.0;
[0(X3日]记录调整后degreel出现连续小于等于3度的位置(location_2)和值(vaue_2), 化lue_2的列数j则为连续出现斜率角度小于等于3度的最大次数,根据j得出其首次出现小 于等于3度的度数的位置k,k即为阅读量不再出现大幅度增长的最早时刻,若10 = 24,贝。 cheat_line_2 = 0.0,否则cheat_line_2= (24-k)/24,根据W下公式本次计算的非自然增 长形态的或然率C4:
[0036] 〇4=cheat_l ine_l+cheat_l ine_2
[0037] 当〔4〉= 1.0时,则取C4= 1.0;当C4<1.0时,现JC4=cheat_line_l+cheat_line_2;
[0038] 所述步骤(8)中非自然增长形态的综合或然率Cf的具体计算方法为:
[0039] 取四种算法的最高分并赋予权重0.8,再求出其余算法得分的均值并赋予权重 0.2,则四种算法的综合得分即非自然增长形态的综合或然率Cf的计算公式为:
[0040]
[0041] 本发明的有益效果在于:
[0042] 本发明通过对海量的自然增长的阅读曲线进行分析,总结出自然增长阅读曲线的 规律,建立曲线模型,并根据模型找出样本曲线中不符合自然增长曲线模型的点和时间段, 计算出曲线非自然增长的或然率,即电子文件阅读数非自然增长的或然率,从而为精确判 断电子文件阅读数非自然增长概率打下坚实的基础,实现对日益增长的电子文件阅读数非 自然增长进行较为准确的监测和识别,有利于助推网络市场的健康发展。
【具体实施方式】
[0043] 下面W对海量公众号的监测和识别为例,对
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1