用于数据预测的模型选择设备和方法

文档序号:8361447阅读:606来源:国知局
用于数据预测的模型选择设备和方法
【技术领域】
[0001] 本公开一般地涉及数据预测领域,尤其涉及一种用于数据预测的模型选择设备和 方法。
【背景技术】
[0002] 在数据挖掘领域,对于诸如预测、分类等任务,可用的模型很多。例如对于预测任 务而言,常见的可用模型包括线性回归模型、支持向量回归模型、以及诸如极端学习机的基 于神经网络的模型等。
[0003] 这些模型分别有其适用特点,对于不同的数据预测任务,甚至在不同数据集上,效 果存在差异。一般说来,某些特定模型在特定任务和数据集上效果会比别的模型更好。
[0004] 为了达到最好的数据预测效果,常需要在前期对可选模型进行选择,以便使用最 适合当前任务下的当前数据集的最好模型,提高预测准确度。
[0005] 现有的针对数据预测任务的模型选择,大多数依赖一定程度上的人工挑选。例如, 在数据集的一个子集上用初步试验选取效果较好的模型,或者使用交叉验证的方法,将数 据集分成多份,一部分用于训练,一部分用于验证。无论是哪种方法,都要依赖一定程度的 人工干预,并且往往只能通过完整数据集上很小比例的子集结果完成模型选择,局限性较 大。同时,操作起来比较繁琐,时间损耗也较大,效果却很有可能不够准确。

【发明内容】

[0006] 鉴于存在的问题,本公开的目的是提供一种新型的可以广泛应用于数据预测任务 的自动模型选择方法。这种方法和传统方法相比,可以通过自动的、无人工干预的模型选择 过程,实现更高效、更准确的模型选择过程,提高模型使用效果。
[0007] 根据本公开的一个方面,提供一种用于数据预测的模型选择设备,包括:矩阵分 解单元,被配置为对预测矩阵进行奇异值分解,其中,所述预测矩阵的行/列向量是样本向 量,列/行向量是对应维度的特征向量,样本向量之一是包含待预测特征序列的待预测向 量;模型选择单元,被配置为基于由矩阵分解单元通过进行奇异值分解获得的、能够反映预 测矩阵的样本向量的子矩阵来选择要应用于待预测特征序列的预测的模型。
[0008] 由于基于通过奇异值分解获得的子矩阵来选择要应用于待预测特征序列的预测 模型,降低了矩阵计算的维度、去除了噪声,只保留了影响最大的原始数据维度,因而能够 自动、准确地为待预测特征序列的每个维度选择最佳预测模型。
[0009] 在根据本公开的实施例中,模型选择单元可以被配置为:计算子矩阵中对应于已 知向量的各子已知向量和对应于待预测向量的向量之间的相似度,已知向量是样本向量中 待预测向量之外的样本向量;以及相似度最高的若干个子已知向量所对应的已知向量的所 有预测维度的最佳模型作为候选模型,其中,预测维度是已知向量的预测所包含的预测单 JLi〇
[0010] 利用奇异值分解的子矩阵中的向量的意义与原矩阵的向量的意义相对应的特点, 使用子矩阵来计算各向量间的相似度,从而大大减小了计算量。并且使用相似度较高的已 知向量的各维度的最佳预测模型作为待预测向量的预测模型的候选,完成了预测模型的初 步选择。
[0011] 在根据本公开的实施例中,模型选择单元可以被配置为:通过将候选模型在相似 度最高的若干个已知向量中对应预测维度出现的次数按候选模型在所有先前预测中成为 最佳模型的概率加权来计算候选模型的得分;以及将分值最高的候选模型确定为待预测序 列的对应预测维度的最佳模型。
[0012] 在完成模型的初步选择后,为了得到最佳的预测模型,还可以对候选模型进行进 一步打分评估。通过将候选模型在相似度最高的若干个已知向量中对应预测维度出现的次 数按候选模型在所有先前预测中成为最佳模型的概率加权来计算候选模型的得分,同时考 虑了候选模型在历史数据集中出现的概率以及其在对应预测维度出现的概率,使得模型的 选择更加准确。
[0013] 在根据本公开的实施例中,待预测特征序列可以包括维数等于待预测特征个数 的、具有给定初设值的元素。
[0014] 元素的给定初设值的设定能够方便后续的矩阵计算。
[0015] 在根据本公开的实施例中,该模型选择设备还可以包括预测矩阵构造单元,被配 置为利用待预测特征序列与已知样本序列来构造预测矩阵。
[0016] 在根据本公开的实施例中,预测矩阵构造单元可以被配置为:预测矩阵构造单元 被配置为:将已知样本序列与待预测特征序列按特定顺序扩展为第一扩展序列,以用作待 预测向量;参照第一扩展序列的扩展方式对已知样本序列进行扩展,得到第二扩展序列组, 以用作已知向量组;以及将第一扩展序列和第二扩展序列组构造为矩阵,并且,将待预测特 征序列中的各元素设置为给定初设值。
[0017] 通过使用待预测序列和已知数据进行序列的扩展、矩阵的构建来获得包括具有对 应关系的待预测向量和已知向量的预测矩阵,从而为简化预测模型的选择提供了方便。
[0018] 根据本公开的一个方面,还提供一种用于数据挖掘的模型选择方法,包括:对预 测矩阵进行奇异值分解,其中,预测矩阵的行/列向量是样本向量,列/行向量是对应维度 的特征向量,样本向量之一是包含待预测特征序列的待预测向量;基于通过奇异值分解获 得的、能够反映预测矩阵的样本向量的子矩阵来选择要应用于待预测特征序列的预测的模 型。
[0019] 根据本公开的用于数据预测的模型选择设备和模型选择方法可以通过自动的、无 人工干预的模型选择过程,通过对原始数据集的充分利用,实现更高效、准确的模型选择过 程,提高模型使用效果。
【附图说明】
[0020] 参照下面结合附图对本公开的实施例的说明,会更加容易地理解本公开的以上和 其它目的、特点和优点。在附图中,相同的或对应的技术特征或部件将采用相同或对应的附 图标记来表示。在附图中不必依照比例绘制出单元的尺寸和相对位置。
[0021] 图1是例示根据本公开实施例的用于数据预测的模型选择设备的结构框图。
[0022] 图2是例示根据本公开另一实施例的用于数据预测的模型选择设备的结构框图。
[0023] 图3是例示根据本公开实施例的用于数据预测的模型选择方法的流程图。
[0024] 图4是例示根据本公开实施例的用于确定预测候选模型的方法的流程图。
[0025] 图5是例示根据本公开实施例的用于确定预测最佳模型的方法的流程图。
[0026] 图6是例示根据本公开实施例的用于构造预测矩阵的方法的流程图。
[0027] 图7是示出实现本发明的计算机的示例性结构的框图。
【具体实施方式】
[0028] 下面参照附图来说明本公开的实施例。应当注意,为了清楚的目的,附图和说明中 省略了与本公开无关的、本领域技术人员已知的部件和处理的表示和描述。
[0029] 图1示出根据本公开实施例的模型选择设备100的结构框图。模型选择设备100 可以包括矩阵分解单元101和模型选择单元102。矩阵分解单元101被配置为对预测矩阵 进行奇异值分解。模型选择单元102被配置为基于由矩阵分解单元101通过进行奇异值分 解获得的、能够反映预测矩阵的样本向量的子矩阵来选择要应用于待预测特征序列的预测 的模型。
[0030] 奇异值分解可以将一个比较复杂的矩阵用更小更简单的几个子矩阵的相乘来表 示。这些子矩阵描述的是原矩阵的重要的特性。例如,用A表示原矩阵,则矩阵A的奇异值 分解可以用式(1)表示:
[0031] A=UEVt (1)
[0032] 其中,U是左奇异矩阵,U中的向量称为左奇异向量,U的行向量的意义与矩阵A的 行向量的意义相对应;E是奇异值矩阵,其对角线元素为降序排列的奇异值;Vt (V的转置) 是右奇异矩阵,Vt中的向量称为右奇异向量,Vt的列向量的意义与矩阵A的列向量的意义 相对应。
[0033] 由于U的行向量的意义和Vt的列向量的意义分别与矩阵A的行和列向量的意义 相对应,所以对A中某一向量中的未知序列的预测可以用U或Vt中对应的向量来进行。
[0034] 在本公开的实施例中,假设矩阵A是包含待预测向量的原始矩阵(待预测矩阵的 实例)。即,矩阵A由已知历史数据和未知的待预测数据构成;矩阵A的行/列向量是样本 向量,列/行向量是对应维度的特征向量;矩阵A的样本向量之一是包含待预测特征序列的 待预测向量。矩阵A可以由用户预先准备好并输入到模型选择设备100中,以供矩阵分解 单元101进行分解,并将分解结果提供给模型选择单元102进行模型选择。
[0035] 模型选择单元102基于由矩阵分解单元101通过进行奇异值分解获得的、能够反 映预测矩阵A的样本向量的子矩阵(U或Vt)来选择要应用于待预测特征序列的预测的模 型。
[0036] 模型选择单元102具体如何利用奇异值分解所得到的子矩阵中相应的向量来对 预测矩阵A中的待预测向量的预测模型进行选择,本领域技术人员可以根据需要采用不同 的方案。例如,对预测矩阵进行奇异值分解后,可以利用分解后的子矩阵,按照与原矩阵对 应的行或列向量进行聚类或者分类等,找出与待预测序列对应的向量同类的历史向量,根 据同类历史向量的预测模型选择最适合当前待预测序列的预测模型。聚类方法例如可以 使用层次聚类、K平均算法聚类(K-means)等。分类方法例如可以使用K最邻近算法(KNN) 等。或者,也可以直接计算当前待预测序列对应向量与历史向量之间的相似度,选出最相似 的历史向量,再根据这些相似历史向量的预测模型选择最适合当前预测序列的模型。
[0037] 无论采用哪种
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1