基于中间件的业务数据监控方法和系统的制作方法_4

文档序号：9288371阅读：来源：国知局

Column的限制，使得不同业务的扩展十分方便。又由于将Business与创建日期及⑶ID组合本身是 MessageData的Key值，所以就很容易找到原始消息中的内容为之后的数据智能监控提供了不少的帮助。
[0084] 三、根据计算字段的TF-IDF权重值，对业务数据进行分类
[0085] 在MessageData表，已经记录了每条数据的信息，现在为数据建立数据特征，数据特征包括：数据结构集，数据分类集，数据记录集。首先假设每条记录的数据结构集都不相同。贝可以建立结构集的特征列表，假设有S代表结构集，用F代表ColumnName(只包含 XMLField部分，以下也是同规则），则每条记录出现一个结构集，列表如下：
[0086] S(l_l) = [Fl，F2,F3,F4. ? ? ?]
[0087] S(l_2) = [Fl，F2,F3,F4. ? ? ?]-----(与S:结构集相同）
[0088] S(l_3) = [Fl，F2,F3,F4. ? ? ?]-----(与S:结构集相同）
[0089] S⑵=[F2,F6,F8.... ?]-----(出现新的结构）
[0090] S⑶=[? ? ?]
[0091] ____
[0092] 建立数据结构集的总集合S。，包含所有的ColumnName集合，并将结果集去掉相同结构集数据：
[0093] S(0) = [Fl，F2,F3,F4,F5,F6，…?]包含所有的ColumnName。
[0094] S⑴ = [F1，F2，F3，F4….]去掉重复后的结果。
[0095] S(2) = [F2,F6,F8…]
[0096] S⑶=[…]
[0097] ____
[0098] 现在计算每一个ColumnName的词频TF(i)，假设freq(i)是Fi在所有数据结构中出现的频率，令OtherColumns(i)表示是S。中其它ColumnName的集合。最大频率 maxOthers(i)则为：
[0099] max(freq(z),zGOtherColumns(i)
[0100] 最后，计算TF⑴，则为：
[0101]
[0102] 由于有些字段出现概率比较大但却没有多少价值，如是使用反文档频率，设NS 去重后的总的数据结构集数目，n(i)为表示为所有数据结构中ColumnNamei出现的数据结构集的数量。则反文档频率为：
[0103]
[0104] 则每个字段的权重值为：
[0105] TF_IDF(i) =TF(i)XIDF(i)
[0106] 由于单个数据的ColumnName都不会太多，一般在100以内，也往往大于5个，因此假设权重值比较重要的字段或者是主键或者是联合主键，所有这里有这样一个方法。将每个数据结构集权重比较重要的前五个ColumnName组成一个新的集合，不足5个的补空集。贝1J出现以下列表：
[0107] S(l) = [F1，F4，F7，F9，F10]
[0108] S(2) = [F8,F14,F17,F19,F110]
[0109]
[0110] S(n) = [F1，F4，F7，F9，F10]发现与S(l)的结构一样。
[0111]
[0112] 于是我们比较所有的数据集，发现是一样的，则认为是相同结构，只是版本信息不一样。如是整个平台的数据结构都能够自动分类，并记录版本信息。并将以上权重信息，数据结构集信息，数据结构集版本信息，数据结构分类信息都存入到NoSQL数据库中，并计算出每条MessageData的数据结构分类值。
[0113] 数据结构集分出来后，我们就可以开始算出所有数据的数据分类集合。依然是使用MessageData中的数据。从数据结构类表取出一个数据结构分类来，然后再在Message Data中找到数据结构分类值相同的所有数据，来进行智能数据建模。S(i)表示我们取到的一个数据结构分类。R表示我们取到的所有数据集合中R(l) -直到R(N)，N为记录数目。 S(i)中所有的ColumnName组成一个新的列表，总数为J。
[0114] S(i) = [F(l)，F(2)，F(3)，F(4)，F(5)....F(j)]
[0115] 计算出每个字段下面的value值的数据集F(j) = [V(j, 1)， V(j, 2)...V(j,N)]，v(j,n)标示第n个数据的第j个ColumnName所对应的值。去掉重复数据后，即可以为每组ColumnName找出所有的事件模型，去掉单一事件模型以及事件模型数大于事件模型阀值（默认10000)以上的ColumnName后，就剩下我们要找的数据分类集。然后按照每个字段的权重进行排列，即可以出现我们希望得到的智能分类数据集。
[0116] 四、根据数据分类建立业务关联模型，以进行轨迹跟踪
[0117] 在业务建模时使用Business表的数据。在上一步骤中，我们已经知道数据结构的类型以及数据结构中的每个字段的权重值，我们可以在此基础上来建立业务关联模型。在 Business表中，我们已经对同一值的所有数据串联在一起，在此表中通过数据结构的类型找到一下矩阵表。假设监控到的数据结构为N，数据结构S(n)为其第n个数据结构，数据结构S(n)含有J个ColumnName，用p(n,j,k)表示数据结构n的j字段是否在数据结构k 中含有率。含有的计算规则是通过j字段值在BusinessData的数据中能够找到k数据的前5关键字段之一，若找到了者为含有。贝1J:
[0118]
[0119] 用数组矩阵p(n，j)表示数据结构n，j字段与其他所有数据结构的关系集合：
[0120] p(n,j) =[p(n,j, 1)p(n,j, 2). . .p(n,j,k)......p(n,j,K)]
[0121] 用数组矩阵p(n)表示数据结构n与其它数据结构的关系：
[0122]
[0123] 因此当需要通过一个随意输入的值去找我们想要找的数据时，首先会Business Data中找出与之匹配的所有有价值的数据结构的数据，当通过数据结构的数据再去寻找时，就会列出所有P(n)中所有有价值的信息。例如，在教育行业，当查询到一个学生的学生信息时，业务建模会自动找到与它相关的老师信息、班级信息、考试信息、专业信息等等。
[0124] 当以上的业务建模与时间关联起来时，我们就很容易跟每一条数据来找到它的生命轨迹。例如，在医疗中，智能监控到每个患者的医疗史，并且在每个医疗点可以找到相关的医生、费用、药品等等信息，从而达到轨迹跟踪。这些数据的显示都是很好的为相关业务人员进行监控数据分析提供帮助。
[0125] 五、建立业务规则预测与时间周期性预测，对业务数据进行监控
[0126] 业务规则预测与时间周期性预测可以在利用第四步的结果进行计算。
[0127] 1)不同业务之间的预测方法如下：在四中我们已经知道业务与业务之间的关联关系，每个数据结构代表一种业务，监控数据结构中所要监控的Sn出现Sm的样本空间为 S(n，m)，若Sn中含有的J个Column，Sm中含有K个字段，用P(j，k)表示第j个Column对应Sm的k字段在Sn发生时Sm已经出现的概率，用PN(j)表示Sn结构中j字段的权重值，用PM(k)表示Sm结构中k字段的权重值，S(n，m)表示预测值：
[0128]
[0129] 若用S表示业务规则预测的样本空间，N为S的所有数据结构数目。用Smax，假设监控的数据中必然出现一对必然概率事件，则S(n,m)能够描述Sn出现Sm的概率大小，贝lj Smax至少也是一个必然概率事件，若Smax为零，则表示系统中的所有事件都相互独立。我们使用Smax作为样本标准。
[0130] 用S(n,m)/Smax表示Sn出现的化，对应的Sm出现的概率值PNM(n,m)，即作为业务 n出现而去预测m出现的概率值。
[0131]
[0132] 计算出系统中的所有P匪值，并设置预警阀值f，假设为0.9。若PW值大于f?则设置为必须监控对象，即若出现N数据则，则一定要有M数据，否则报警。
[0133] 2)单业务数据预测方法：在步骤四中，已经找到所有数据结构中可以分类的字段，以及分类字段的所有分类值。现在利用不同字段值的相互关联关系来检查单业务的数据是否正确。例如，如果地址信息中省的值是广东省，而地址的城市的值是北京，这显然是有问题。此预测方法可以解决这种问题。每个分类字段代表一种业务，分类字段少于1个的不做分析。分类字段Fn的值对应分类字段Fm出现的值样本空间为F(n，m)，

完整全部详细技术资料下载

当前第4页1 2 3 4 5