电子文件阅读数非自然增长识别方法

文档序号：9687774阅读：929来源：国知局

电子文件阅读数非自然增长识别方法
【技术领域】
[0001] 本发明设及一种电子文件阅读数监测方法，尤其设及一种电子文件阅读数非自然增长识别方法。
【背景技术】
[0002] 随着网络技术的深入发展，电子文件网上在线阅读数量越来越大，比如微信、微博、网络新闻、网络小说等，每天都有成千上万的用户在阅读。对于在线阅读来说，阅读数量的多少及其增长速度是体现该阅读内容是否具有吸引力的重要参考指标，对于商家来说，阅读数量的多少及其增长速度更是关系经济收益的重要信息，也正是运个原因，所W部分媒体或商家通过一些非正常手段来提高阅读数量，或在短期内实现爆发式增长，即实现非自然增长，W达到谋取暴利的目的。显然，运种行为是不利于网络市场健康发展的，但目前尚没有合理的手段能够实现对运种阅读数非自然增长进行较为准确的监测和识别，制约了网络市场的健康发展。

【发明内容】

[0003] 本发明的目的就在于为了解决上述问题而提供一种电子文件阅读数非自然增长识别方法，运种方法能准确识别电子文件阅读数非自然增长情况。
[0004] 本发明通过W下技术方案来实现上述目的：
[0005] -种电子文件阅读数非自然增长识别方法，包括W下步骤：
[0006] (1)原始数据采集及阅读曲线绘制:对电子文件的公开阅读数进行实时监测，实时监测的时间间隔可W为一个或多个，定时采集相应的阅读数，最终绘制出电子文件的实时阅读曲线；
[0007] (2)数据预处理:通过数据归整和清洗，将原始数据处理为每个相同时间间隔的时间点均有数据与之对应的序列，最终得到包括序列X、更新时间T和阅读数R运Ξ列的数据M; [000引（3)对已绘制的阅读曲线进行趋势分析、特征分析，最后进行非线性拟合，同时将横坐标的时间转换为自然数序列，建立实时曲线模型如下：
[0009]
[0010]其中C代表时间间隔；
[0011] (4)第一次计算:利用实时曲线模型对坐标系X-Y进行拟合，根据拟合度计算出本次计算的非自然增长形态的或然率Cl;运里的X代表数据预处理后的序列，Y代表阅读数R;
[0012] (5)第二次计算:依次判断夜间非自然增长形态和白天非自然增长形态，并根据夜间非自然增长形态和白天非自然增长形态计算得到本次计算的非自然增长形态的或然率
[0013] (6)第Ξ次计算:结合第二次计算的数据，对相邻阅读增量进行差值处理，得到本次计算的非自然增长形态的或然率C3 ;
[0014] (7)第四次计算:结合第二次计算的数据，计算阅读曲线斜率角度，最后得到本次计算的非自然增长形态的或然率C4;
[0015] (8)根据上述四次计算得到的非自然增长形态的或然率，得到最终的非自然增长形态的综合或然率Cf;
[0016] (9)根据非自然增长形态的综合或然率Cf判断电子文件阅读数非自然增长概率，Cf 值越大，电子文件阅读数非自然增长概率越高，反之越低。
[0017] 作为优选，所述步骤(4)中第一次计算的具体方法为：
[0018] 先求出将
-项视为自变量XI，然后利用线性方程y = a-b*xi拟合求出 a、b和预测值r，并计算得出曲线拟合度R2,其计算公式为：
[0019]
[0020] 根据W下公式计算出本次计算的非自然增长形态的或然率：
[0021]
[0022] 所述步骤(5)中第二次计算的具体方法为：
[0023] 如果处理后的数据Μ包括两个或两个W上时间间隔的数据，则数据Μ中取出其中一个时间间隔的数据，组成新的数据;首先求出相邻时间点的阅读数R的差值，此为相等时间间隔的阅读增量ΓΛ，即后一个阅读数减去前一个阅读数的差，由此值形成ID列，从而得到相等时间间隔阅读增量占总阅读的比率rate = γδ/πι3χ (R)及其对应的时间点t和序列号X，并得到数据列（ID，t，y，rate)，其中y即为r，表示阅读量R中的元素;首先判断夜间非自然增长形态:设置电子文件发布后第一个凌晨从2:00至7:00,且其阅读增量比率阀值为3%，此后凌晨1:00至7:00的阀值为1.5%，若电子文件第一个凌晨2:00至7 :00和其它凌晨1:00至7: 00的阅读增量N的比率rate超过对应的阀值，则将其记录在向量Η中，根据W下公式得到夜间非自然增长形态的或然率：
[0024]
[0025] 其次判断白天非自然增长形态:去除电子文件凌晨时刻的数据，首先判断发稿前 2-4个白天时刻数据的阅读增量占总阅读的比率rate是否有大于或等于0.3的数据，若有，则判断白天非自然增长形态的或然率为0.8,即Cd = 0.8,若没有，贝化d =去掉白天前4个时刻和夜间的其它时刻的阅读增量比率最大值；
[0026] 最后，根据公式C2 = Cn+Cd得到本次计算的非自然增长形态的或然率C2;若C2大于或等于1，则都取为1.0，若C2小于1，则取其实际值；
[0027] 所述步骤(6)中第Ξ次计算的具体方法为：
[0028] 根据第二次计算的ID列，即ΓΛ值，对相邻阅读增量进行差值处理，即后一个ΓΛ减去前一个ΓΛ之差，得到相等时间段下的增量差y2,选出y2列前5个点的最高值max,再从y2的第五个点W后的所有点中找出所有满足y2〉max/3运一范围的值，该值至少有两个，如只出现一个则视为自然增长形态，不在此算法识别范围内，求出运几个数的平均值P，则本次计算的非自然增长形态的或然率C3的计算公式为：
[0029] 〇3=((P-max/3)/(max/2-max/3))=(6P-2max)/max
[0030] 若C3大于或等于1，则为非自然增长形态，当C3介于(0，1)之间则存在非自然增长形态的可能性，当C3 = 0，则为自然增长形态；
[0031] 所述步骤(7)中第四次计算的具体方法为：
[0032] 根据第二次计算所得数据列（10，*，7，^*6)、10列即'&值，^及处理后的数据￥即 R，根据W下公式计算得到阅读曲线斜率角度：
[0033]
[0034] 对degree四舍五入成整数degree 1，首先判断当degree 1大于或等于20,且相邻两个degreel的差值小于3度时，将二者的位置和数值分别记录在数据框location_l和value_ 1中，化lue_l的列数i则为连续出现相近阅读增量的最大次数，当i〉= 6时，则cheat_line_l =1.0，当i = 5时，则cheat_line_l = 0.8，当i = 4时，则cheat_line_l = 0.5，当i< = 3时， cheat_l ine_l =0.0；
[0(X3日]记录调整后degreel出现连续小于等于3度的位置（location_2)和值（vaue_2)，化lue_2的列数j则为连续出现斜率角度小于等于3度的最大次数，根据j得出其首次出现小于等于3度的度数的位置k，k即为阅读量不再出现大幅度增长的最早时刻，若10 = 24，贝。 cheat_line_2 = 0.0，否则cheat_line_2= (24-k)/24，根据W下公式本次计算的非自然增长形态的或然率C4:
[0036] 〇4=cheat_l ine_l+cheat_l ine_2
[0037] 当〔4〉= 1.0时，则取C4= 1.0;当C4<1.0时，现JC4=cheat_line_l+cheat_line_2;
[0038] 所述步骤(8)中非自然增长形态的综合或然率Cf的具体计算方法为：
[0039] 取四种算法的最高分并赋予权重0.8,再求出其余算法得分的均值并赋予权重 0.2，则四种算法的综合得分即非自然增长形态的综合或然率Cf的计算公式为：
[0040]
[0041] 本发明的有益效果在于：
[0042] 本发明通过对海量的自然增长的阅读曲线进行分析，总结出自然增长阅读曲线的规律，建立曲线模型，并根据模型找出样本曲线中不符合自然增长曲线模型的点和时间段，计算出曲线非自然增长的或然率，即电子文件阅读数非自然增长的或然率，从而为精确判断电子文件阅读数非自然增长概率打下坚实的基础，实现对日益增长的电子文件阅读数非自然增长进行较为准确的监测和识别，有利于助推网络市场的健康发展。
【具体实施方式】
[0043] 下面W对海量公众号的监测和识别为例，对

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王飞;张国鸿;张何君;
技术所有人：成都云堆移动信息技术有限公司;
我是此专利的发明人

上一篇：一种探地雷达(gpr)数据分解的方法
上一篇：确定仪表座遮阳檐长度的方法及装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。