一种基于序列数据进行预测的方法及装置的制造方法_3

文档序号：9375995阅读：来源：国知局

可选地，获取与序列模式匹配的第三基元序列模式之后，按照预设的第一增加标准对第三基元序列模式的模式影响力和模式间关系强度进行调整。
[0134] 可选地，获取排列顺序为第一的第三基元序列模式之后，若排列顺序为第一的第三基元序列模式所对应的候选元素与产生时间晚于第一序列数据的元素相同，对序列模式图中基元序列模式的参数进行调整，具体为：
[0135] 按照预设的第二增加标准对排列顺序为第一的第三基元序列模式的模式影响力和模式间关系强度进行调整；以及按照预设的第三增加标准对与第三基元序列模式有连接关系的基元序列模式的模式影响力和模式间关系强度进行调整。
[0136] 该具体实现中，通过对序列模式图中与序列模式匹配的基元序列模式的影响力和模式间关系强度进行微调整，以及对作出正确预测的基元序列模式以及该作出正确预测的基元序列模式相连接的模式的影响力和模式间关系强度进行较大程度的调整，以提高根据序列模式图进行预测的准确性。
[0137] 第二种具体实现方式中，基元序列模式包括模式影响力或模式间关系强度，根据第三基元序列模式在序列模式图中的位置确定第三基元序列模式所对应的第一候选元素；当第一候选元素为至少两个时，根据第三基元序列模式的模式影响力或模式间关系强度，对第一候选元素进行加权统计，获取第一候选元素的加权统计结果；确定加权统计结果中的最大值所对应的第一候选元素为第二候选元素。相应地，步骤204中将第二候选元素确定为第一序列数据中即将产生的元素。
[0138] 具体地，若序列模式与第三基元序列模式中的全部序列数据相匹配，将与该第三基元序列模式相关联的基元序列模式的第一个元素确定为第一候选元素，将该第三基元序列模式的模式间关系强度作为加权值对该第一候选元素进行加权统计。
[0139] 若序列模式与第三基元序列模式中的部分数据相匹配，将该第三基元序列模式中位置在序列模式相匹配元素之后的第一个元素确定第一候选元素，将该第三基元序列模式的模式影响力作为加权值对该第一候选元素进行加权统计。
[0140] 可选地，若第二候选元素与产生时间晚于第一序列数据的元素相同，对序列模式图中基元序列模式的参数进行调整，具体为：
[0141] 按照预设的第一加分标准对第二候选元素所对应的第三基元序列模式的模式影响力和模式间关系强度进行调整；
[0142] 按照预设的第二加分标准对与第二候选元素所对应的第三基元序列模式有连接关系的基元序列模式的模式影响力和模式间关系强度进行调整。
[0143] 该具体实现中，通过对序列模式图中作出正确预测的基元序列模式以及该作出正确预测的基元序列模式相连接的模式的影响力和模式间关系强度进行不同程度的调整，以提高根据序列模式图进行预测的准确性。
[0144] 具体地，采用第三基元序列模式的影响力或模式间关系强度对所对应的第一候选元素进行加权统计，获得第一候选元素的加权统计值；根据各第一候选元素的加权统计值，计算获得所有第一候选元素的加权统计值的概率分布的熵值；将熵值加1作为第一加分标准所对应的调整值；
[0145] 将第一加分标准所对应的调整值乘以从所对应的第三基元序列模式到与该第三基元序列模式位置相关联的基元序列模式的传播比例，作为第二加分标准的调整值，该传播比例为该第三基元序列模式与位置相关联的基元序列模式之间的模式间关系强度，与该第三基元序列模式的影响力的比值。
[0146] 具体地，计算各第一候选元素的加权统计值之和，得到所有第一候选元素的总加权统计值，以及计算第一候选元素的加权统计值与所有第一候选元素的总加权统计值的比值，得到第一候选元素的得票概率；
[0147] 根据各第一候选元素的得票概率，计算获得所有第一候选元素的总加权统计值的概率分布的熵值。
[0148] 可选地，按照公另
汁算获得所述熵值，其中，Esup表示所述熵值，P(Sprad)表TK某一第一候选兀素的得票概率，Q表TK第一候选兀素的总数量。
[0149] 具体实施中，基于采用挖掘算法得到的基元序列模式构建一个序列模式图，该序列模式图反映了各个基元序列模式在历史中的影响力和相关联强度，假设用记号 (，G，ω，Θ)来表示所要构建的模型结构及其参数。其中，""表示基元序列模式集合，G表示序列模式图结构，ω表示模式影响力，Θ表示模式间关系强度。其中，模式图构建具体为：根据各个基元序列模式在整个序列中所出现的相对位置，将每一个基元序列模式与其它基元序列模式用有向图进行连接，并标识出两个模式之间的关系。
[0150] 以下通过一个具体实施例对本发明实施例中提供的构建序列模式图的过程中，对基元序列模式的影响力或模式间关系强度进行调整的过程进行说明。
[0151] 如图3所示，在不断读入序列元素的过程中，构建序列模式图，具体实施如下：识别出基元序列模式记录所识别出的基元序列模式在整个序列数据S中所有m个起始和终止位置对（(Pstart^nd)1, (Pstart, POTd)2，…，（Pstmt，POTd) n}，根据元素产生的时间从早至Ij晚的顺序，采用从小到大的数值作为元素标记，例如Pstal^P f3nd表示在位置Pstart上的元素出现的时间要早于Pd上的元素。根据该基元序列模式的各个起始和终止位置对分别查找位置对对应的其它基元序列模式β '的起始和终止位置对（P' st^，P' OTd)。根据基元序列模式和其它基元序列模式β '的起始和终止位置对的确定两者的相对位置，并在模式图上连接两个基元序列模式，标记相互关系。如图4所示，如果，Pstart > p' start并且Pend彡p'end则标记为U皮包含在β '中，或β '拥有。如果，Pstart彡p'end并且 pOTd>p' 则标记为β _前向重叠于β '或β '后向重叠于β _。如果，pstot=p' 并且 Pend彡P'end+i则标记为β _前向相邻于β '或β '后向相邻于β _。
[0152] 在构建模式图的过程中，通过估计、验证和传播三个阶段组成一个反馈过程，计算调整各基元序列模式的影响力ω和基元序列模式之间的模式间关系强度Θ。假设各基元序列模式的影响力ω和基元序列模式之间的关系强度Θ，在计算调整之前的初始值为零。
[0153] 可选地，构建序列模式图的过程中，每在已构建的序列模式图中增加一个基元序列模式则需要对已构建的序列模式图中的各基元序列模式的影响力以及模式间关系强度进行调整，具体如下：
[0154] 若序列模式图中已存在的基元序列模式中包含的前缀子序列与待加入的基元序列模式相同，则将该已存在的基元序列模式作为支持模式，并将与该已存在的基元序列模式中的前缀子序列位置相邻的下一个元素作为第一候选元素；
[0155] 若序列数据中出现时间在待加入的基元序列模式之后的元素与第一候选元素相同，将该第一候选元素确定为第二候选元素，将与第二候选元素相关的各支持模式的影响力和模式间关系强度按照第一加分标准增加第一奖励值，以及将与第二候选元素相关的各支持模式位置相关联的基元序列模式的影响力和模式间关系强度按照第二加分标准增加第二奖励值。
[0156] 可选地，采用与第一候选元素相应的各支持模式的影响力或模式间关系强度进行投票，获得第一候选元素的累计总得票；根据各第一候选元素的累计总得票，计算获得所有第一候选元素的累计总得票的概率分布的熵值；将熵值加1作为第一奖励值；将第一奖励值乘以从支持模式到与支持模式位置相关联的基元序列模式的传播比例，作为第二奖励值，该传播比例为该支持模式与位置相关联的基元序列模式之间的模式间关系强度，与该支持模式的影响力的比值。
[0157] 可选地，采用与第一候选元素相应的各支持模式的影响力或模式间关系强度进行投票，具体为：若第一候选元素属于所对应的支持模式，则该支持模式对该第一候选元素的投票权值为该支持模式的影响力；
[0158] 若第一候选元素属于与所对应的支持模式位置相关联的基元序列模式，则该支持模式对第一候选元素的投票权值为该支持模式的模式间关系强度。
[0159] 具体地，计算各第一候选元素的累计总得票之和，得到所有第一候选元素的总得票，以及计算第一候选元素的累计总得票与所有第一候选元素的总得票的比值，得到第一候选元素的得票概率；
[0160] 根据各第一候选元素的得票概率，计算获得所有第一候选元素的累计总得票的概率分布的熵值。
[0161] 可选地，按照公式汁算获得所述熵值，其中，E sup表示所述熵值，P(Sprad)表示某一候选元素的得票概率，Q表示候选元素的总数量。
[0162] 以下通过举例对构建序列模式图的过程进行说明。
[0163] 假设支持模式为 β suppOTt=[su, . . . sv D sv. . . sw]，当前序列为 S=[s。，. . . Sj. . . Si]，支持模式的前缀[su，... sv J与当前序列的最近几个元素[S]. .. S1 J相匹配，所有支持模式将所匹配前缀子序列的下一个元素作为第一候选元素推荐出来，则元素 Sv将被推荐出来作为第一候选元素。
[0164] 如果支持模式i3su_rt=[su，...s vl，sv. ..sw]全部与当前序列的最近几个元素 [S]. .. S1 J相匹配，在模式图中选择与该支持模式相连接的基元序列模式（即邻居模式 e_ghbOT)的首元素作为第一候选元素。
[0165] 假设Sv表示第一候选元素，Psuppwt表示支持模式，i3_ ghbOT表示与支持模式相连接的邻居模式，support_weight (Sv)表示为第一候选元素 Sv从某一基元序列模式得到的票数。如果，第一候选兀素 Sv来自于0suppOTt，则投票权值为ω。如果第一候选兀素 sv来自于 3nf3ighbOT，则投票权值为 θ，公式表示如下：
[0166]
[0167] 假设support_weighta(：(：(sv)表示为第一候选元素 sv从K个模式中得到的累积总票数，公式表示为：
[0168]
[0169] 假设support_weighttotal表示为所有第一候选元素的总得票，P(S pred=Sv)表示某一第一候选元素 Sv的得票概率，公式表示如下：
[0170]
[0171] 假设ε sup表不熵值，P(Sprad)表不某一第一候选兀素的得票概率，Q表不第一候选元素的总数量，公式表示如下：
[0172；
[0173] 若当前序列的下一个序列数据为第一候选元素 Sv，则与该第一候选元素 Sv相关的各支持模式的模式影响力以及模式间关系强度增加第

完整全部详细技术资料下载

当前第3页1 2 3 4 5