基于中间件的业务数据监控方法和系统的制作方法_4

文档序号:9288371阅读:来源:国知局
Column的 限制,使得不同业务的扩展十分方便。又由于将Business与创建日期及⑶ID组合本身是 MessageData的Key值,所以就很容易找到原始消息中的内容为之后的数据智能监控提供 了不少的帮助。
[0084] 三、根据计算字段的TF-IDF权重值,对业务数据进行分类
[0085] 在MessageData表,已经记录了每条数据的信息,现在为数据建立数据特征,数据 特征包括:数据结构集,数据分类集,数据记录集。首先假设每条记录的数据结构集都不相 同。贝可以建立结构集的特征列表,假设有S代表结构集,用F代表ColumnName(只包含 XMLField部分,以下也是同规则),则每条记录出现一个结构集,列表如下:
[0086] S(l_l) = [Fl,F2,F3,F4. ? ? ?]
[0087] S(l_2) = [Fl,F2,F3,F4. ? ? ?]-----(与S:结构集相同)
[0088] S(l_3) = [Fl,F2,F3,F4. ? ? ?]-----(与S:结构集相同)
[0089] S⑵=[F2,F6,F8.... ?]-----(出现新的结构)
[0090] S⑶=[? ? ?]
[0091] ____
[0092] 建立数据结构集的总集合S。,包含所有的ColumnName集合,并将结果集去掉相同 结构集数据:
[0093] S(0) = [Fl,F2,F3,F4,F5,F6,…?]包含所有的ColumnName。
[0094] S⑴ = [F1,F2,F3,F4….]去掉重复后的结果。
[0095] S(2) = [F2,F6,F8…]
[0096] S⑶=[…]
[0097] ____
[0098] 现在计算每一个ColumnName的词频TF(i),假设freq(i)是Fi在所有数据结 构中出现的频率,令OtherColumns(i)表示是S。中其它ColumnName的集合。最大频率 maxOthers(i)则为:
[0099] max(freq(z),zGOtherColumns(i)
[0100] 最后,计算TF⑴,则为:
[0101]
[0102] 由于有些字段出现概率比较大但却没有多少价值,如是使用反文档频率,设NS 去重后的总的数据结构集数目,n(i)为表示为所有数据结构中ColumnNamei出现的数据 结构集的数量。则反文档频率为:
[0103]
[0104] 则每个字段的权重值为:
[0105] TF_IDF(i) =TF(i)XIDF(i)
[0106] 由于单个数据的ColumnName都不会太多,一般在100以内,也往往大于5个,因 此假设权重值比较重要的字段或者是主键或者是联合主键,所有这里有这样一个方法。将 每个数据结构集权重比较重要的前五个ColumnName组成一个新的集合,不足5个的补空 集。贝1J出现以下列表:
[0107] S(l) = [F1,F4,F7,F9,F10]
[0108] S(2) = [F8,F14,F17,F19,F110]
[0109]
[0110] S(n) = [F1,F4,F7,F9,F10]发现与S(l)的结构一样。
[0111]
[0112] 于是我们比较所有的数据集,发现是一样的,则认为是相同结构,只是版本信息不 一样。如是整个平台的数据结构都能够自动分类,并记录版本信息。并将以上权重信息,数 据结构集信息,数据结构集版本信息,数据结构分类信息都存入到NoSQL数据库中,并计算 出每条MessageData的数据结构分类值。
[0113] 数据结构集分出来后,我们就可以开始算出所有数据的数据分类集合。依然是使 用MessageData中的数据。从数据结构类表取出一个数据结构分类来,然后再在Message Data中找到数据结构分类值相同的所有数据,来进行智能数据建模。S(i)表示我们取到的 一个数据结构分类。R表示我们取到的所有数据集合中R(l) -直到R(N),N为记录数目。 S(i)中所有的ColumnName组成一个新的列表,总数为J。
[0114] S(i) = [F(l),F(2),F(3),F(4),F(5)....F(j)]
[0115] 计算出每个字段下面的value值的数据集F(j) = [V(j, 1), V(j, 2)...V(j,N)],v(j,n)标示第n个数据的第j个ColumnName所对应的值。去掉重复 数据后,即可以为每组ColumnName找出所有的事件模型,去掉单一事件模型以及事件模型 数大于事件模型阀值(默认10000)以上的ColumnName后,就剩下我们要找的数据分类集。 然后按照每个字段的权重进行排列,即可以出现我们希望得到的智能分类数据集。
[0116] 四、根据数据分类建立业务关联模型,以进行轨迹跟踪
[0117] 在业务建模时使用Business表的数据。在上一步骤中,我们已经知道数据结构的 类型以及数据结构中的每个字段的权重值,我们可以在此基础上来建立业务关联模型。在 Business表中,我们已经对同一值的所有数据串联在一起,在此表中通过数据结构的类型 找到一下矩阵表。假设监控到的数据结构为N,数据结构S(n)为其第n个数据结构,数据 结构S(n)含有J个ColumnName,用p(n,j,k)表示数据结构n的j字段是否在数据结构k 中含有率。含有的计算规则是通过j字段值在BusinessData的数据中能够找到k数据的 前5关键字段之一,若找到了者为含有。贝1J:
[0118]
[0119] 用数组矩阵p(n,j)表示数据结构n,j字段与其他所有数据结构的关系集合:
[0120] p(n,j) =[p(n,j, 1)p(n,j, 2). . .p(n,j,k)......p(n,j,K)]
[0121] 用数组矩阵p(n)表示数据结构n与其它数据结构的关系:
[0122]
[0123] 因此当需要通过一个随意输入的值去找我们想要找的数据时,首先会Business Data中找出与之匹配的所有有价值的数据结构的数据,当通过数据结构的数据再去寻找 时,就会列出所有P(n)中所有有价值的信息。例如,在教育行业,当查询到一个学生的学生 信息时,业务建模会自动找到与它相关的老师信息、班级信息、考试信息、专业信息等等。
[0124] 当以上的业务建模与时间关联起来时,我们就很容易跟每一条数据来找到它的生 命轨迹。例如,在医疗中,智能监控到每个患者的医疗史,并且在每个医疗点可以找到相关 的医生、费用、药品等等信息,从而达到轨迹跟踪。这些数据的显示都是很好的为相关业务 人员进行监控数据分析提供帮助。
[0125] 五、建立业务规则预测与时间周期性预测,对业务数据进行监控
[0126] 业务规则预测与时间周期性预测可以在利用第四步的结果进行计算。
[0127] 1)不同业务之间的预测方法如下:在四中我们已经知道业务与业务之间的关联 关系,每个数据结构代表一种业务,监控数据结构中所要监控的Sn出现Sm的样本空间为 S(n,m),若Sn中含有的J个Column,Sm中含有K个字段,用P(j,k)表示第j个Column对 应Sm的k字段在Sn发生时Sm已经出现的概率,用PN(j)表示Sn结构中j字段的权重值, 用PM(k)表示Sm结构中k字段的权重值,S(n,m)表示预测值:
[0128]
[0129] 若用S表示业务规则预测的样本空间,N为S的所有数据结构数目。用Smax,假设 监控的数据中必然出现一对必然概率事件,则S(n,m)能够描述Sn出现Sm的概率大小,贝lj Smax至少也是一个必然概率事件,若Smax为零,则表示系统中的所有事件都相互独立。我 们使用Smax作为样本标准。
[0130] 用S(n,m)/Smax表示Sn出现的化,对应的Sm出现的概率值PNM(n,m),即作为业务 n出现而去预测m出现的概率值。
[0131]
[0132] 计算出系统中的所有P匪值,并设置预警阀值f,假设为0.9。若PW值大于f?则 设置为必须监控对象,即若出现N数据则,则一定要有M数据,否则报警。
[0133] 2)单业务数据预测方法:在步骤四中,已经找到所有数据结构中可以分类的字 段,以及分类字段的所有分类值。现在利用不同字段值的相互关联关系来检查单业务的数 据是否正确。例如,如果地址信息中省的值是广东省,而地址的城市的值是北京,这显然是 有问题。此预测方法可以解决这种问题。每个分类字段代表一种业务,分类字段少于1个 的不做分析。分类字段Fn的值对应分类字段Fm出现的值样本空间为F(n,m),
当前第4页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1