缓存区数据的预处理方法及系统的制作方法

文档序号:9304505阅读:374来源:国知局
缓存区数据的预处理方法及系统的制作方法
【技术领域】
[0001] 本发明涉及一种数据的预处理方法及系统,尤其涉及一种应用于缓存区数据的预 处理方法及系统。
【背景技术】
[0002] 目前数据预处理技术主要是单纯的采用一种技术,而电子商务数据具有突发性强 和瞬间数据负责异常繁重等特点,单纯使用一种处理技术会造成很大的数据处理负担,不 能满足电子商务的需求。
[0003] 先入先出队列是一种传统的按序执行方法,当缓存区数据满时,最先进入缓存区 的数据/指令先完成执行并离开缓存区,跟着才执行第二条数据/指令。是一种先进先出 的数据缓存器,他与普通存储器的区别是没有外部读写地址线,这样使用起来非常简单,但 缺点就是只能顺序写入数据,顺序的读出数据,其数据地址由内部读写指针自动加1完成, 不能像普通存储器那样可以由地址线决定读取或写入某个指定的地址,其不能精确预估在 电子商务数据系统中的用户查询时间、停留时间、查询内容;统计方法,利用数学统计方法, 统计数据的系统频率,把活跃用户信息优选存在缓存区,通过颜色寄存器缓存在缓存器内 与当前访问的物理地址的内存区域的颜色对应的缓存区中,能够提高缓存的使用效率,提 高系统性能,但该方法仍然无法满足电子商务数据的特点。
[0004] 本发明提供了一种缓存区数据的预处理方法,该方法通过机器学习的方法,研究 用户的行为准则,预测用户查询时间,每次工作时间和查询内容等,系统将根据预测信息提 前设置缓存区数据,从而使用户的查询体验最优化。

【发明内容】

[0005] 本发明实施例提供了一种缓存区数据的预处理方法,该方法通过机器学习的方 法,研究用户的行为准则,预测用户查询时间,每次工作时间和查询内容等,系统将根据预 测信息提前设置缓存区数据,从而使用户的查询体验最优化。
[0006] 为达到上述目的,本发明的实施例采用如下技术方案:
[0007] 本发明第一方面提供一种缓存区数据预处理方法,包括:
[0008] 记录构造基础数据,对基础数据预处理;
[0009] 建立最小二乘法模型模拟用户行为,预测用户工作时间和查询内容等参数之间的 数据关系;
[0010] 存储从缓存输入接收的数据到缓存区,按照先进先出顺序从所述缓存区中输出。
[0011] 优选的,根据第一方面,所述记录构造基础数据,具体包括:
[0012] 基础数据是指用户查询时间TimeUserQuery、用户停留时间TimeUserStand和用 户查询内容ContentUserQuery。构造TimeUserQuery,TimeUserStand和ContentUserQuery 接口函数从初始服务器端获取客户端用户的查询时间,停留时间和查询内容;在所述 TimeUserQuery和TimeUserStand函数中预设计时器Timer,并米用cookie控件技术,获取 当前行为中用户的查询时间和停留时间;将收集到的数据通过GET、POST异步的方式发送 到目标服务器端;所述基础数据通过接口以JS0N格式展示到所述目标服务器端。
[0013] 优选的,所述用户查询内容ContentUserQuery,具体包括:
[0014] 系统预设用户可以操作的所有查询内容有Loading、Unloading、Cargo、 Carrier和Route中的一种或其任意组合(不同的行业和需求可预设不同查询内容), ContentUserQuery接口 函数的参数为Loading、Unloading、Cargo、Carrier和Route,根据 用户的不同操作行为,返回和展示的参数值不同,进行了所述查询内容的参数返回值设为 1,没有进行所述查询内容的参数返回值设为0。
[0015] 优选的,根据第一方面,所述对基础数据预处理,具体包括:
[0016] 所述目标服务器接收到返回值和返回内容后,系统使用JObject或JArray的 Parse方法将JS0N字符串转换为JS0N对象,通过所述JS0N对象的方式提取所述基础数 据,分析所述基础数据查询内容和查询时间之间的关联即构造Loading、Unloading、Cargo、 Carrier、Route和TimeUserQuery以及TimeUserStand的关系图。
[0017]优选的,根据第一方面,所述构造Loading、Unloading、Cargo、Carrier、Route和 TimeUserQuery以及TimeUserStand的关系图,一种可能实现方式为:
[0018] 优选的,所述关系图中,TimeUserQuery和TimeUserStand各自作为因变量和 Loading、Unloading、Cargo、Carrier、Route作为自变量,观察图形发现具有一定的线性回 归趋势,考虑用最小二乘法做出预测。
[0019] 优选的,最小二乘法是一种数学优化技术,它通过最小化误差的平方和寻找数据 的最佳函数匹配,利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与 实际数据之间误差的平方和为最小,可以求得目标函数的最优值。
[0020] 步骤1 :所述目标服务器接收到一个用户的多次查询操作,所述用户查询了所述 查询内容的一个或多个,设查询内容为n个,用户查询每个所述查询内容的时间分别记为:
[0021] T= (t1;t2,t3, . . .t;. . . ,tn) (1)
[0022] 其中h表示用户查询所述第i项查询内容时的所述查询时间。
[0023] 步骤2:-个用户的m次查询所述查询内容的所述查询时间表示为:
[0024] y (t1; K, tn;x〇, x1; K, xn) = Xo+Xjt^ A +xntn (2)
[0025] 其中y代表用户查询所述查询内容的工作时间,x。,Xl,K,xn表示模型参数,该参数 使得实际值和观测值差的平方和最小,通常取 X(]= 1,用线性方程组表示为:
[0026] y!= x o+x^!^ A+Xjti^ A+xntln
[0027] y2= x o+Xit;,^ A +X jt2 j+ A +xnt2n
[0028] MM
[0029] Yi= x o+Xit;^ A+Xjt;^ A+xntin (3)
[0030] M
[0031 ] yn= x0+X&+ A +x'+ A +xntnn
[0032] 其中71表示所述用户第i次查询所述查询内容所用的查询时间,t x]表示所述用户 第i次查询所述第j项查询内容所用的查询时间。
[0033] 通常将记作数据矩阵A,所述模型参数x i记作参数矢量X,用户所述查询时间 yi记作Y,则线性方程组可表示为:
[0036] 步骤3 :拟合真实用户行为的查询时间和查询内容的所述模型参数矩阵X的值 为:
[0037] 由最小二乘法模型可定义用户查询所述一项查询内容的观测估计值爲和所述模 型参数的估计值爲:
[0042] 于是得到带有所述模型参数的估计值方程组:
[0043]
W
[0044] 根据(8) (9)得到用户查询所述查询内容所用的时间的观测值和估计值关系为:
[0045] (1〇)
[0046] 根据最小二乘的原理,所述模型参数的值为:
[0047]
(.11)
[0048] 最后得到所述模型参数的估计值是:
[0050] 步骤4 :预测所述用户的TimeUserQuery时间:
[0049] (12)
[0051]
其中h表示用户查询所述第i项查询内容时的所述查询时间。xi 表示第i项所述查询内容对应的所述模型参数,其中X(]= 1。若用户只进行Cargo操作,预 测Cargo查询时间为:
[0052] y3=x0+t3x3。(13)
[0053] 其中为所述查询内容Loading、Unloading、Cargo、Carrier、Route在数据表中分 别设置一个Sessionld。在上述步骤4中直接通过所述Sessionld获取相关参数值,并将得 到的数据作为缓存区输入数据的原始数据。
[0054] 优选的,第二方面,提供一种缓存区数据预处理方法,还包括:
[0055] 主缓存区被配置用于存储从缓存输入接收的数据,缓存控制器用于选择性的从所 述缓冲区将所述接收数据路由到备用缓存区,使得所述从缓存输入接收的数据可以按照 FIFO顺序从所述备用缓存区将所述接收数据输出到所述缓存输出。
[0056] 优选的,所述备用缓存用于存储所述缓存输入或存储主缓存接收的所述接收数 据,并且以与在所述主缓存相同接收数据的顺序将所述接收数据输出到所述缓存输出。
[0057] 优选的,所述缓存控制器的作用是当所述主缓存为空数据状态时,所述主缓存从 缓存输入向所述备用缓存传输数据,或者当所述备用缓存是满数据状态时,所述备用缓存 从缓存输入向所述主缓存传输数据,或者当所述主缓存数据状态为不空时,所述接收数据 从缓存输入向所述主缓存传输数据。
[0058] 优选的,所述主缓存和备用缓存是可以存储不同类型数据的独立的FIFO队列并 且主缓存的数据存储空间大于备用缓存的数据存储空间。
[0059] 优选的,第三方面,提供一种缓存区数据预处理系统,包括:
[0060] 传送装置:将数据发送给缓存区;缓存区:用于从传送装置接收数据,并按照先入 先出的顺序把接收的数据传送给接收装置;接收装置:用于接收来自于缓存区中的数据。
[0061] 其中,所述系统首先对数据进行了训练和处理,由于数据量较大,首先通过传输装
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1