用于缩减数据集的数据缩减的制作方法

文档序号:15575405发布日期:2018-09-29 05:25阅读:487来源:国知局

本发明涉及一种用于基于来自包括多个变量的变量集合的变量子集来缩减数据集的数据缩减设备,并且其中,变量表示基于传感器的测量结果的不同类型的数据,变量的实例包括用于预测另外的类型的数据的实例的信息,并且另外的类型的数据与物理实体的特性有关。

本发明还涉及一种基于来自包括多个变量的变量集合的变量子集来缩减数据集的方法,以及一种用于从包括多个变量的变量集合中选择变量子集的计算机程序产品。



背景技术:

在机器学习技术中,历史数据通常用于训练机器以使得机器能够基于最近的数据集来预测事件。在很多情况下,大量的数据是可用的并且用于尽可能好地训练机器。然而,使用如此长的培训历史可能需要相当多的数据存储和处理能力。而且,一些其他预测技术可以直接使用确定的事件和测量值的数据历史。然后,可以使用可用的整个存储的数据历史,并且当必须基于最近的数据集进行预测时,处理整个数据历史以找到最近的数据与数据历史之间的相似性——这需要相当多的处理能力。有必要缩减要存储的历史数据的量,同时保持其预测益处。

一种方法是丢弃与预测事件不太相关的变量数据(例如,特定传感器的测量结果)。这在传统的机器学习中被称为特征选择。在传统的机器学习中有很多方法来完成特征选择。一些范例如下:主成分分析(pca)、线性判别分析(lda)、随机森林,以及最小绝对收缩与选择算子(lasso)。前两种方法的共同之处在于它们着重于方差作为感兴趣变量。lasso着重于最小化平方误差的加和,这与方差相似。随机森林研究随机置换数据的性能损失。

已经表明:上述特征选择解决方案是次优的,并且仍然存在改进的空间,尤其是当人们想要选择将用于预测特定事件的特定特征/变量的集合时。

us2007/0122041a1公开了一种计算机实施的方法,其使稀疏线性判别分析的基数受限组合优化问题的候选解最大化,并且实施上面讨论的pca、lda和派生方法,这些方法都基于使用相关性测量使得剩余数据集的方差最大化。由于方差是二阶统计量,因此不考虑变量的全部信息内容。

上面已经提到预测技术用于预测“事件”。必须指出,必须广义地理解术语“事件”。“事件”可以表示物理实体的特性,例如,“机器的部件将要分解或不分解”,或“工厂的能量消耗将过高或不过高”。这些范例涉及二元预测:“某事物是否真实”。然而,上面讨论的预测技术不限于二元特性,并且还可以预测针对在较高基数系统中具有值的特性的特性,例如,“该城市的能量消耗将是低的、中等的,还是高的”。上面讨论的预测技术也可以应用于基于历史数据获得标量值的回归用例。上述解读也适用于本文的其余部分。



技术实现要素:

本发明的目的是提供改进的设备和/或方法,所述设备和方法用于在必须基于相关变量的(更为近期的)实例来预测另外的类型的数据的实例时必须保留或使用的较大变量集合的相关变量的子集来缩减数据集。在该背景中,“相关”意指:基于选定的相关变量的(更为近期的)实例,可以可靠地预测另外的类型的数据的实例。本发明由独立权利要求来定义。从属权利要求定义有利的实施例。

为此目的,根据本发明的一个方面,提供了一种用于基于变量集合的变量子集来缩减数据集的数据缩减设备。所述多个变量表示不同类型的数据。所述多个变量的实例基于传感器数据并且包括用于预测另外的类型的数据的实例的信息。所述另外的类型的数据与物理实体的特性有关。所述数据缩减设备包括:第一数据集单元、第二数据集单元、搜索单元,以及数据缩减单元。所述第一数据集单元获得包括数据的实例的元组的第一数据集,其中,每个元组包括所述变量集合中的每个变量的实例。所述第二数据集单元获得包括所述另外的类型的数据的实例的第二数据集,其中,所述第二数据集的每个实例对应于所述第一数据集的所述元组中的一个。所述搜索单元获得作为所述变量集合的子集的缩减的变量集合。所述缩减的变量集合表示优化函数的至少局部最优值,所述优化函数是缩减的第一数据集、所述第二数据集和所述缩减的变量集合的函数。所述缩减的第一数据集包括从所述第一数据集的所述元组获得的缩减的元组。所述缩减的元组仅包括所述缩减的变量集合的变量的实例。所述优化函数基于(例如导出自)所述缩减的第一数据集与所述第二数据集之间的第一互信息值和随着所述缩减的变量集合中的变量的数量增大而增大的惩罚值的组合。所述数据缩减单元根据包括数据的实例的元组的数据集来生成缩减的数据集,其中,每个元组包括所述变量集合中的每个变量的实例。所述缩减的数据集包括存在于所述缩减的变量集合中的变量的数据的实例。

为此目的,根据本发明的另一方面,提供了一种基于来自变量集合的变量子集来缩减数据集的方法。所述多个变量表示不同类型的数据。所述多个变量的实例基于传感器数据并且包括用于预测另外的类型的数据的实例的信息。所述另外的类型的数据与物理实体的特性有关。所述方法包括:i)获得包括数据的实例的元组的第一数据集,其中,每个元组包括所述变量集合的每个变量的实例;ii)获得包括所述另外的类型的数据的实例的第二数据集,其中,所述第二数据集的每个实例对应于所述第一数据集的所述元组中的一个;iii)搜索作为所述变量集合的子集的缩减的变量集合,所述缩减的变量集合表示优化函数的至少局部最优值,所述优化函数是缩减的第一数据集、所述第二数据集和所述缩减的变量集合的函数,所述缩减的第一数据集包括从所述第一数据集的所述元组获得的缩减的元组,并且所述缩减的元组仅包括所述缩减的变量集合的变量的实例,所述优化函数基于所述缩减的第一数据集与所述第二数据集之间的第一互信息值和随着所述缩减的变量集合中的变量的数量增大而增大的惩罚值的组合;iv)根据包括数据的实例的元组的数据集来生成缩减的数据集,其中,每个元组包括所述变量集合中的每个变量的实例,所述缩减的数据集包括存在于所述缩减的变量集合中的变量的数据的实例。

用于基于来自变量集合的变量子集来缩减数据集合的数据缩减设备和方法的特征获得了已经被选择为使得缩减的第一数据集与第二数据集之间的互信息仍然比较高的变量子集。因此,缩减的第一集合为可靠地预测另外的类型的数据的实例提供了良好的基础。此外,由于优化函数考虑了在变量子集具有更多变量的情况下惩罚值会增大,因此变量子集很可能小于变量集合,并且因此要存储、使用或保持的(历史)数据可能会减少。通过使用缩减的变量集合来缩减包括元组(类似于第一数据集的元组)的数据集,缩减的数据集相对于另外的类型的数据的实例仍然包括相当多的互信息。因此,缩减的数据集能够很好地用于预测另外的类型的数据的(未知)实例。

应当注意,优化函数基于第一互信息值和惩罚值。取决于确切的优化函数,在搜索缩减的变量集合时,必须找到至少局部最小值或至少局部最大值。在这种背景下,尤其重要的是要注意:如果缩减的第一数据集与第二数据集之间的互信息值增大,则在给定缩减的第一数据集的情况下第二数据集之间的条件熵值减小。例如,优化函数是第一互信息值减去惩罚值的组合。在这种情况下,在搜索缩减的变量集合时,必须为优化函数找到至少局部最大值。在另一范例中,优化函数是在给定缩减的第一数据集的情况下针对第二数据集的第一条件熵加上惩罚值的组合。在这个另一范例中,在搜索缩减的变量集合时,必须为优化函数找到至少局部最小值。

下文讨论所述方法的实施例。数据缩减设备具有对应于所讨论的方法的实施例的实施例。所述设备的实施例具有与所讨论的方法的实施例对应的效果和优点。

任选地,所述缩减的第一数据集与所述第二数据集之间的所述第一互信息值是通过确定所述第二数据集与聚类数据之间的第二互信息值来估计的。所述聚类数据包括基于(例如导出自)所述缩减的第一数据集的聚类。缩减的第一数据集可能针对每个独特元组包括相对少的观察值。然后,在不是不可能的情况下,第一互信息的计算变得相对不可靠。此外,缩减的第一数据集可能包括相当多的观察值,即,元组,这可能导致相对长的处理时间,因为必须计算或估计许多不同的概率和相互概率。发明人已经发现:基于第二互信息值来估计第一互信息值的启发可能是有用的。尤其地,发明人洞察到:尽管将数据聚类在缩减的第一数据集中,但是这种启发仍然得到对互信息的可靠估计。任选地,所述聚类基于(例如导出自)所述缩减的第一数据集与所述第二数据集的组合。发明人已经发现:如果聚类基于这种特定组合,则第一互信息与第二互信息之间的互信息的损失相对低。应当指出,上面讨论的启发是一种保持缩减的第一数据集与第二数据集之间相对大量的互信息的方法。然而,也可以使用其他聚类算法,只要这些其他聚类算法还具有保持缩减的第一数据集与第二数据集之间的相对大量的互信息的效果——例如,在实施例的详细描述中,提供了对由cardinal描述的基于lloyd算法的修改来找到量化值的算法的参考,其中,使用信息理论度量来确定要量化的不同元组(在这种背景下为第一数据集的元组)之间的距离。

任选地,所述聚类表示数据的元组,所述数据的元组是所述缩减的第一数据集的特定元组的组合,所述特定元组被扩展有基于(例如导出自)来自所述第二数据集中的对应于所述缩减的第一数据集的所述特定元组的实例的值。任选地,用于扩展所述缩减的第一数据集的所述元组的所述值与所述缩减的第一数据集的所述元组中的所述实例的所述值具有相同的阶次,即,在相同的数值范围内。

任选地,在被聚类之前,在所述缩减的第一数据集中仅存在所述缩减的第一数据集的独特元组。任选地,所述聚类是基于包括所述缩减的第一数据集的独特元组的数据来形成的,所述独特元组被扩展有基于来自所述第二数据集中的对应于相应的独特元组的实例的值。通过使聚类基于独特元组,显著缩减了通常必须被聚类的数据量,从而能够更高效地执行聚类。

任选地,所述聚类数据是通过k均值聚类算法来获得的。尤其地,k均值聚类算法是用于对数据的实例的元组进行聚类的有效算法。任选地,所述k均值聚类算法使用欧几里德距离度量来确定要被聚类的所述元组之间的距离。应当注意,也可以使用其他距离度量,只要这些其他距离度量具有使互信息丢失处于可接受边界内的有利效果,例如,预计kl距离也是有用的距离度量。

任选地,获得表示所述优化函数的所述至少局部最大值的所述缩减的变量集合是通过以下操作来执行的:应用迭代搜索方法来找到至少局部最大值以找到具有针对所述优化函数的相对大的值的所述缩减的变量集合。迭代搜索方法对于探索解空间的至少部分并在解空间的探索部分内找到至少局部最大值是有用的。应当注意,找到的至少局部最大值可以是优化函数的全局最大值。

任选地,所述迭代搜索方法基于模拟退火。模拟退火在这个特定应用中是有利的迭代搜索算法,因为优化函数可能具有几个局部最大值。模拟退火能够探索解空间的不同区,尽管这些不同区也可以通过具有针对优化函数的相对低的值的解而被彼此分开。因此,模拟退火搜索算法能够以有效且高效的方式找到最佳局部最大值中的一个,从而找到全局最优的概率是相对高的。

任选地,所述迭代搜索方法的每次迭代包括:i)形成对要被评估的所述缩减的变量集合的提议,ii)确定由所提议的缩减的变量集合提供的所述优化函数的值,iii)如果到当前运行的迭代为止,所提议的缩减的变量集合提供针对所述优化函数的最佳值,则存储所提议的缩减的变量集合作为最佳的缩减的变量集合,iv)决定是否接受所提议的缩减的变量集合作为在后续迭代中针对要被评估的所述缩减的变量集合的后续提议的基础。连续存储找到的最佳解,直到特定迭代是有利的为止,因为迭代搜索算法探索解空间的远离所存储的找到的最佳解的部分直到该特定迭代。对缩减的变量集合的提议是探索解空间的一种手段,其也距离所存储的最佳解有一段距离。接受或不接受所提议的缩减的变量集合作为针对后续提议的基础是将迭代搜索算法引导至解空间的某个方向的手段。例如,如果所提议的缩减的变量集合提供针对优化函数的非常差的值,则这可能表明接近这个提议的缩减的变量集合的解也可能是更差的解,因此可以决定不接受这个提议的变量集合作为针对随后提议的缩减的变量集合的基础。例如,如果所提议的缩减的变量集合提供针对优化函数的相对好的值,则这可能表明接近这个提议的缩减的变量集合的解甚至可能更好,因此可以决定接受这个提议的变量集合作为后续提议的缩减的变量集合的基础来探索接近这个提议的缩减的变量集合的解空间的区。

任选地,所述迭代搜索方法利用对所述缩减的变量集合的提议来开始第一次迭代,所述缩减的变量集合包括单个变量,与所述变量集合的其他变量相比,所述单个变量的数据与所述第二数据集之间的互信息是最高的。对缩减的变量集合的第一评估的提议的选择基于以下洞察:如果一个特定变量具有这个特定变量与第二数据集之间的高的互信息,则解空间中最有可能有良好的解(特定的选定变量的集合),得到优化函数的相对高的值并且包括具有最高互信息的相应变量。替代地,针对每个单个变量,形成包括该单个变量的不同的缩减的变量集合,并且针对每个缩减的变量集合,获得针对优化函数的值,并且选择具有针对优化函数的最高值的那个值。这样得到相同的选择,因为基于惩罚值对于仅包含单个变量的所有选择都是相等的。

任选地,在第二次迭代或之后的迭代中,对要被评估的所述缩减的变量集合的所述提议是通过扩展或缩减最后接受的缩减的变量集合来形成的。所述变量集合的变量中的一个是随机选择的。如果随机选择的变量尚未存在于所述最后接受的缩减的变量集合中,则将所述随机选择的变量添加到所述最后接受的缩减的变量集合中。如果所述随机选择的变量存在于所述最后接受的缩减的变量集合中,则从所述最后接受的缩减的变量集合中移除所述随机选择的变量。这个任选的实施例允许迭代搜索算法在解空间中自由移动,使得迭代搜索算法能够找到针对优化函数的最佳局部最大值中的一个。任选地,所述随机选择的变量是通过随机选择来获得的,所述随机选择基于针对每个变量的概率,所述针对每个变量的概率是针对每个变量的均匀概率值的第一部分和取决于(例如导出自)特定变量的数据与所述第二数据集之间的所述互信息的非均匀概率值的第二部分的加和。通过基于特定变量与第二数据集之间的互信息来随机选择变量,并且尤其是在将随机选择的变量添加到所提议的缩减的变量集合中的情况下,则对缩减的集合的提议很可能是更好的解,即,最后接受的解。

根据本发明的另外的方面,提供了一种能用于使得处理器执行上述方法中的一种的计算机程序产品。所述计算机程序产品具有对应于上述设备和方法的实施例的实施例。这些实施例具有与上述设备和方法的实施例对应的效果和优点。

在权利要求中给出了根据本发明的设备和方法的进一步优选的实施例,通过引用将其公开内容并入本文。

附图说明

参考附图并参考在以下描述中以范例的方式描述的实施例,本发明的这些方面和其他方面将变得明显并且得到进一步阐明,在附图中:

图1示意性地示出了用于基于来自包括多个变量的变量集合的变量子集来缩减数据集的数据缩减设备的实施例,

图2示意性地示出了基于来自包括多个变量的变量集合的变量子集来缩减数据集的方法的实施例,

图3示意性地示出了具有多个传感器的两台相同类型的机器,

图4示意性地示出了计算机程序产品的实施例。

这些数字纯粹是图解性的,并未按比例绘制。在附图中,对应于已经描述的元素的元素可以具有相同的附图标记。

具体实施方式

图3示意性地示出了两台相同类型的机器300、350。两台机器都具有多个传感器302...310、352...360。在本文的以下内容中,一个特定传感器的数据被称为变量。一个变量的实例来源于具有相同功能的一种类型的传感器。如果在一个特定时刻,一台机器300、350的所有传感器302...310、352......360都测量并提供值,则收集变量的实例并且将它们一起形成变量实例的元组。在本文中,假定不同的变量具有特定的阶,并且变量的实例在元组中的相同阶上。两台机器也可以具有其特性可以被确定或者可以被预测的物理实体312、362。在本文的以下内容中,确定的物理实体的特性是另外的类型的数据的实例。不需要另外的类型的数据的实例来源于一个特定的物理实体,但是必须是相关的另外的类型的数据的实例来源于一个特定类型的物理实体,这意味着:物理实体彼此相等并且具有相同的功能。物理实体的特定获得的特性属于在相同时刻从相同的机器300、350获得的变量实例的对应元组。

例如,物理实体312、362是电动机,其特性是电动机的运行状态,例如“运行良好”或“故障”。如果电动机例如在相应的机器300、350中驱动传送带,则传感器可以感测可以与预测电动机的运行状态相关的不同特性。例如,第一传感器302、352可以测量电动机的温度。例如,第二传感器304、354可以测量电动机的(电)功率使用。例如,第三传感器306、356可以测量传送带的速度。例如,第四传感器308、358可以测量当前放置在传送带上的货物的重量。例如,第五传感器310、360可以测量电动机附近存在的空气中的灰尘量。因此,变量是:电动机的温度、电动机的功率使用、传送带的速度、传送带上的货物重量,以及电动机附近的灰尘量。在定期的时刻,可以确定电动机的运行状态,并且在相同时刻,所有传感器都会感测它们的特定特性。然后获得变量的实例,并且这些实例形成一个元组,例如5元组(温度、功率、速度、重量、灰尘量)。在该特定时刻,可以确定电动机的运行状态,并且这种确定的特性属于,对应于具有在相同时刻获得/确定的变量的实例的元组。请注意,在相同时刻可能很难获得所有测量结果。人们也可以理解为“在相同的时间间隔内”而不是“在相同的时刻”。

应当注意,在其他实际实施例中,机器300、350具有多个传感器302...310、352...360。每台机器300、350的传感器数量可以是至少一百个传感器的数量级,或者在其他传感器中,至少是一千个传感器的数量级。传感器302...310、352...360可以每隔相对较短的时间间隔或时间(例如,每分钟或每五分钟)提供测量结果。因此,每隔相对短的时间间隔,传感器302...310、352......360就生成大量数据,并且每天必须处理和/或存储大量数据。传感器数据通常被存储在日志文件中,日志文件的大小常常是一个或多个tb的数量级。例如,递送这种数据量的机器的范例是医学扫描器,例如,ct扫描器、pet扫描器、mri扫描器等。

图3是针对物理实体的变量和特性的数据源的范例。该范例将用于随后对本发明的实施例的讨论。

图1示意性地示出了数据缩减设备150的实施例,其包括用于从包括多个变量的变量集合中选择变量子集的设备100。例如,该变量集合是s(并且例如由图3的机器300、350的传感器302...320、352...360定义)。变量集合s中变量的数量用|s|指示。变量用v指示。子集由s*指示,并且优选地,该变量集合s包括多个变量v,并且子集s*包括至少一个变量。假定变量实例与另外的类型的数据的实例之间存在关系。变量的实例包括可以与预测另外的类型的实例相关的信息。数据的另外的类型与物理实体的特性有关,例如分别是机器300、350中的一个的电动机322或362的运行状态。另外的类型的数据的实例用y指示。

设备100包括第一数据集单元102,其用于获得包括数据的实例的元组xi的第一数据集x。每个元组x包括变量集合s中的每个变量vj的实例。元组xi中的变量vj的实例由xij指示。第一数据集x中的每个元组xi包括与变量集合s中的变量数相同数量的实例xij。在图3的背景中,一个元组xi是在特定的时刻或在特定的时间间隔内对所有传感器值的时间的观察值。观察值总数,第一数据集x中元组xi的总数,用数字n指示。元组xi都具有相等的长度:它们都具有等于变量集合s中的变量数的数量的实例。在实施例中,存在于第一数据集中的数据是通过量化传感器提供的连续数据所获得的离散数据。

在实施例中,第一数据集由矩阵x表示:

应当注意,矩阵x中的行是元组xi,列表示变量vj。实施例不限于使用上述矩阵x。使用具有元组作为表示变量的行和列的矩阵仅仅是实施细节,并且技术人员知道矩阵能够被转置或者列之间或行之间的排序也可以改变。

设备100还包括第二数据集单元104,其用于获得包括另外的类型的数据的实例的第二数据集y。如前所述,这种另外的类型的数据指示物理实体的特性,例如,在图3的背景中为机器的特定类型的电动机的运行状态。另外的类型的数据的实例用yi指示。每个实例yi对应于第一数据集x中的元组xi,这意味着该实例是在与获得元组的变量的实例的相同时刻或相同的时间间隔内确定的。由于对于每个元组xi存在另外的类型的数据的对应实例yi,因此在第二数据集y中存在n个另外的类型的实例。换句话说,存在物理实体的特性的n个观察值。物理实体的特性可以用二进制值表示,也可以用来自高阶数值系统的数字表示。如果物理实体的特性是连续值,则可以在用于本文的设备或方法之前量化这些值。

在实施例中,第二数据集y由以下表示:

设备100还包括用于获得缩减的变量集合sr的搜索单元110。搜索单元110被耦合到第一数据集单元102和第二数据集单元104,分别用于接收第一数据集x和第二数据集y。缩减的变量集合是变量集合s的子集,缩减的变量集合sr表示优化函数f的至少局部最大值,该优化函数f是缩减的第一数据集、第二数据集和缩减的变量集合的函数。缩减的第一数据集包括基于第一数据集的元组的缩减的元组,并且缩减的元组仅包括缩减的变量集合的实例。缩减的第一数据集用xr指示,缩减的第一数据集xr中的每个缩减的元组用xri指示。因此,优化函数是f(xr,y,sr)。优化函数f是缩减的第一数据集与第二数据集之间的第一互信息值减去随着缩减的变量集合中变量的数量增大而增大的惩罚值的组合。第一互信息是根据信息论,由i(xr,y)指示。惩罚值是缩减的变量集合中的元素数量的函数,p(|sr|),其中,|sr|是缩减的变量集合sr中的变量数。如果缩减的变量集合中的元素数量较高,则惩罚值也较高。因此,优化函数为f(xr,y,sr)=i(xr,y)-p(|sr|)。在范例中,惩罚值是缩减的变量集合sr中针对变量集合s中的变量的数量进行归一化的元素的数量,因此是p(|sr|)=|sr|/|s|,其中,|s|是变量集合s中变量的数量。

设备100任选地包括输出部112,其用于提供缩减的变量集合sr作为选定的变量子集s*。输出部112被耦合到搜索单元110,其用于接收缩减的变量集合sr。

在范例中,用于从包括多个变量的变量集合中选择变量子集的设备100是数据缩减设备150的部分。数据缩减设备还包括数据缩减单元152,其被耦合到用于接收选定的变量子集s*的输出部112或者被直接耦合到用于接收选定的变量子集s*的搜索器单元。数据缩减单元152被配置为缩减数据集x’中的元组xp以获得缩减的数据集xr’,使得缩减的元组xrp仅包括存在于选定的变量子集s*中的变量的实例xpj。数据缩减单元152可以被配置为存储缩减的数据集xr’。数据缩减单元152可以被配置为将缩减的数据集xr’提供给后续设备,所述后续设备在事件的预测中使用例如缩减的数据集xr’(即,另外的类型的数据的实例y)。在特定实施例中,数据集x’是第一数据集x,因此,数据缩减单元152可以生成能够用作机器学习应用中的训练集的缩减的第一数据集xr。

图2示意性地示出了从包括多个变量vj的变量集合s中选择变量子集s*的方法200的实施例。变量vj表示基于传感器的测量结果的不同类型的数据,例如,图3的机器300、350的传感器302...310、352...360。变量vj的实例xij包括用于预测另外的类型的数据的实例y的信息。另外的类型的数据与物理实体(例如,图3的机器300、350的物理实体312、362)的特性有关。

方法200包括获得202包括数据的实例的元组xi的第一数据集x。每个元组包括变量集合s的每个变量vj的实例xij。

在图1的背景中已经讨论了第一数据集x、第二数据集y、变量集合s和缩减的变量集合s*的更多细节。前面讨论的这些形式的数据的特性也适用于这种方法。在下文中讨论了这些形式的数据的更多细节,并且这些细节也适用于图1的设备100。

方法200包括获得204第二数据集y,第二数据集y包括另外的类型的数据的实例yi。第二数据集y的每个实例yi对应于第一数据集x的元组xi中的一个。

方法200包括搜索206作为变量集合s的子集的缩减的变量集合sr。缩减的变量集合sr表示优化函数f的至少局部最优值,优化函数f是缩减的第一数据集、第二数据集和缩减的变量集合的函数,因此为f(xr,y,sr)。缩减的第一数据集xr包括基于第一数据集x的元组xi的缩减的元组xri。缩减的元组xri仅包括缩减的变量集合sr的变量的实例xij。优化函数f是缩减的第一数据集xr与第二数据集y之间的第一互信息值i减去随着缩减的变量集合中的变量的数量增大而增大的惩罚值pv的组合。因此,f(xr,y,sr)=i(xr,y)-p(|sr|)。

方法200任选地包括将缩减的变量集合sr作为选定的变量子集s*提供220给例如用于缩减第一数据集x中的数据量的数据缩减布置。

方法200包括生成222缩减的第一数据集xr’,如在数据缩减设备150的背景中所讨论的。

借助于将程序加载到计算机中,方法200可以在通用计算机中实施并由通用计算机运行,并且该程序能用于使计算机的处理器执行方法200。计算机的输入/输出接口用于接收第一数据集、第二数据集,以输出缩减的变量集合和/或输出缩减的第一数据集。计算机的存储器用于存储数据集和变量集合。方法200还可以在专用硬件中实施并由专用硬件运行,所述专用硬件被专门设计用于运行方法200。

任选地,针对缩减的变量sr的搜索206基于迭代搜索算法。任选地,迭代搜索算法基于模拟退火。下文讨论了迭代搜索算法的若干细节。应当注意,也能够使用能够找到优化函数的至少局部最大值的其他搜索算法。模拟退火尤其有利,因为它能够探索解空间的许多区,并且能够找到相对良好的局部最大值和可能的全局最大值。具体地,在模拟退火的背景中,在每次迭代期间减小(或保持相等)的假想温度函数以及概率函数是重要的,以接受在当前迭代期间评估的解是否被接受作为针对在随后的迭代中要被评估的解的基础。对于这样的假想的温度函数和概率函数的范例,以及关于模拟退火的更多信息,参考一篇文章:claudej.p.baude的“convergencetheoremsforaclassofsimulatedannealingalgorithmsonrd”(journalofappliedprobability,第29卷,第4期,1992年12月,第885-895页)。通过引用将c.j.p.b.引用将95的文章并入本文。具体地,该文章讨论了针对概率函数的metropolis函数,发明人已经发现:该函数在本文的背景中产生了良好结果。具体地,b体地了良好结讨论了对数冷却时间表,例如,温度被设置为temp/log((floor((t-1)/tmax))*tmax+exp(1))),其中,t是当前迭代步骤,floor()是返回值的整数部分的函数,并且temp和tmax是变量。本发明人已经使用temp=200或temp=100并且tmax=10。必须注意,其他值也可以用于变量temp和tmax。

任选地,在迭代搜索算法的每次迭代期间,使用随后的数据:sr_best、fbest的组合,它们分别是到当前迭代为止找到的最佳缩减的变量集合及其对应的优化函数的值;sr_accepted,其是缩减的变量集合,其在先前的迭代中的一次迭代结束时被接受,作为形成针对必须在当前或后续迭代中评估的缩减的变量集合的当前或后续提议的基础的缩减的变量集合;sr_proposal,其是针对在当前迭代期间必须评估的缩减的变量集合的提议;以及xr_proposal,其是提议的缩减的第一数据集,其包括仅包括所提议的缩减的变量集合sr_proposal的变量实例的提议的缩减的数据元组xrproposed。在这种背景中,“被评估”意味着在迭代中,针对所提议的缩减的变量集合sr_proposal确定针对优化函数的值,并且核查这是否是到当前迭代为止的最佳解,并且核查这是否是一个被接受作为针对后续提议的缩减的变量集合的基础的良好的解。

任选地,迭代搜索算法开始第一次迭代,其中,提出208包括单个变量的缩减的变量集合sr_proposal的提议,与变量集合的其他变量相比,单个变量的数据与第二数据集之间的互信息是最高的。这是要被评估的缩减的变量集合的贪婪的第一选择,并且是用于找到优化函数的至少局部最大值的良好起点。如果假定单个变量vj的数据是并且如前所述,第二数据集则互信息由下式计算:其中,p(yk)是y的值等于yk的值的概率,p(dl)是d的值等于dl的值的概率,并且p(yk,dl)是y的值等于yk并且d的对应值等于dl的概率。在迭代搜索算法的初始化期间,还可以设置在后续迭代中使用的其他数据。例如,在此次迭代之前找到的最佳的缩减的变量集合sr_best被设置为选定的单个变量。可以将属于最佳的缩减的变量集合sr_best的优化函数fbest的值设置为针对基于最佳的缩减的变量集合sr_best的缩减的第一集合的优化函数的值。可接受的缩减的变量集合sr_accepted可以被设置为缩减的变量集合sr_proposal的第一个提议。

任选地,迭代搜索算法的每次迭代包括确定210针对基于所提议的缩减的变量集合sr_proposal的提议的缩减的第一数据集xr_proposal的优化函数的值。确定210针对所提议的缩减的第一数据集xr_proposal的优化函数的值包括形成所提议的缩减的第一数据集xr_proposal,其具有缩减的元组xri_proposal,其中,每个缩减的元组xri_proposal基于第一数据集x的对应元组xi,并且仅包括存在于提议的缩减的变量集合sr_proposal中的变量的实例。因此,在确定210的阶段中,确定f(xr_proposal,y,sr_proposal)。

对优化函数f的值的确定210包括确定所提议的缩减的第一数据集xr_proposal与第二数据集y之间的互信息i。任选地,这种对互信息的确定包括通过确定212第二数据集y与聚类数据q之间的第二互信息i2来估计所提议的缩减的第一数据集xr_proposal与第二数据集y之间的互信息。聚类数据q包括基于所提议的缩减的第一数据集xr_proposal的聚类。因此,i(xr_proposal,y)≈i2(q,y)。

任选地,确定212第二互信息i2的阶段包括对数据进行聚类214。形成聚类q,其至少基于所提议的缩减的第一数据集xr_proposal。在下文中讨论了可以用于对数据进行聚类的启发。发明人已经发现:在下文讨论的启发中,在所提议的缩减的第一数据集xr_proposal与第二数据集y之间保持相对大的部分的互信息,使得i(xr_proposal,y)≈i2(q,y)。应当注意,对数据进行聚类的实施例不限于这种启发。在本文的背景中,重要的是形成聚类,使得保持所提议的缩减的第一数据集xr_proposal与第二数据集y之间的大的部分的互信息。提供了对替代算法的参考,已知如果所提议的缩减的第一数据集xr_proposal通过该算法进行聚类,则该算法能够在所提议的缩减的第一数据集xr_proposal之间保持相对大量的互信息。例如,cardinal(“用信息理论失真度量进行量化”)描述了一种方法,该方法使用修改的lloyd算法来量化数据,使得x与y之间的互信息不会因量化而减小很多。文件“用信息理论失真度量进行量化”(jeancardinal,2002年10月23日)由“布鲁塞尔自由大学”在http://www.ulb.ac.be/di/publications/rt_2002.html网站上发布,并在网站http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.20.3058上发布,通过引用将其包括在本文中。

在该启发中,作为用于形成聚类的基础的数据基于xr_proposal的缩减的元组和第二数据集y的对应实例的组合。作为用于聚类的基础的数据由z数据指示并且z=g(xr_proposal,y),其中,g是生成数据的函数,所述数据基于所提议的缩减的第一数据集xr_proposal的缩减的元组并且基于第二数据集y的对应实例。任选地,z包括数据的实例的元组。

任选地,z中的数据的元组的总数对应于所提议的缩减的第一数据集xr_proposal中的独特元组的数量。

任选地,z中的每个元组以所提议的缩减的第一数据集xr_proposal的独特元组中的一个开始,并且利用基于对应于、属于独特元组中的一个的第二数据集y的数据的实例的值来扩展。例如,在所提议的缩减的第一数据集xr_proposal中,可能存在若干独特元组,并且第一独特元组ux1例如出现两次。然后,在第二数据集y中,存在对应于独特元组ux1的数据的两个实例yk、yl,并且用于扩展数据z中的独特元组ux1的值是yk、yl的函数。在实施例中,将要被添加到独特元组ux1的值与独特元组ux1中的实例的可能值的数量级相同。例如,如果独特元组中的实例的可能值的范围为0到10,则添加的值将被标准化为一个也可能最终在0到10之间的值。

换句话说,在实施例中,将要用于聚类的数据可以是后续数据:其中,m是所提议的缩减的第一数据集xr_proposal中的独特元组的数量;其中,uxl是独特元组中的一个并且形成z行的开始;并且其中,vl是被添加到z的每一行并且基于对应于、属于该行的独特元组uxl的第二数据集y的数据的实例的值。任选地,假定第二数据集y的实例可以具有二元值(例如,0或1),则值vl可以通过下式来计算:仅对于第l个独特序列)vl=p(y的实例yi=1,其中,|s|是变量集合中的变量数;其中,√n是所提议的缩减的第一数据集xr_proposal中的行数(因此,也是第一数据集x中的行数和第二数据集y中的行数,因此,n的值是第一数据集x和第二数据集y中的观察值的数量)的平方根;其中,α是可以被选择以例如将vl的可能值归一化到特定范围的变量;并且其中,仅对于第l个独特序列,p(y的实例yi=1)表示作为对应于、属于独特元组uxl的实例的第二数据集y的实例具有值1的概率。在实际实施例中,α大于0且小于或等于1。如果合适,也可以使用大于1的值。

然后,在对数据z进行聚类214的阶段,形成多个聚类,其中,数据z的元组(例如,矩阵z的行)基于距离度量被分组在一起。因此,每个聚类表示数据z的根据距离度量彼此接近的元组。距离度量可以是欧几里德距离,或者可以是基于信息理论的距离度量,例如,kl失真(有时被称为kl距离)。例如,在聚类的阶段中,形成√n个聚类,其中,n是所提议的缩减的第一数据集xr_proposal中的上述行数/观察数。也可以形成另一数量的聚类,但是从信息论可知,当形成√n个聚类时,维持相对大量的互信息,而聚类的数量相对较小。聚类可以基于使用距离度量的上述范例中的一个的k均值算法。

在随后的描述中,聚类由数据q表示,其可以是其中,p是聚类的编号,换句话说,每个聚类可以由数据q中的元组编号表示。每个聚类由qi表示。随后,重要的是要认识到:每个聚类qi包括来自数据z的多个元组,z的每个元组对应于所提议的缩减的第一数据集xr_proposal中的多个缩减的提议的元组xri_proposal(经由所提议的缩减的第一数据集xr_proposal的独特元组),并且因此每个聚类qi表示所提议的缩减的第一数据集xr_proposal的元组(即,观察值)的数量,并且该数量由|qi|指示。

如果聚类214数据准备就绪,则在确定212第二互信息i2(q,y)的阶段中,能够通过来计算第二互信息,其中,p(q)表示所提议的缩减的第一数据集xr_proposal的元组由段q表示、以段q结束的概率,p(y)表示第二数据集y的实例等于y的概率,p(y,q)表示所提议的缩减的第一数据集xr_proposal的元组由段q表示并且第二数据集y的对应实例等于y的概率。因此,p(q)=|q|/(所提议的缩减的第一数据集xr_proposal中的总数元组)=|q|/n。因此,p(y)=(y中y的出现次数)/(第二数据集y中的总数实例)=(y中y的出现次数)/n。p(y,q)=(段q中的y的出现次数)/(所提议的缩减的第一数据集xr_proposal中的总数元组)=(段q中的y的出现次数)/n。

任选地,在确定针对所提议的变量子集的优化函数的值之后,迭代搜索算法的每次迭代包括:如果到当前运行的迭代为止,所提议的缩减的变量集合sr_proposal提供针对优化函数的最佳值,则存储216所提议的缩减的变量集合sr_proposal作为最佳缩减的变量集合sbest。该阶段包括将在阶段210中确定的优化函数f(xr_proposal,y,sr_proposal)的值与先前存储的优化函数的最佳值fbest进行比较。如果f(xr_proposal,y,sr_proposal)>fbest,则sbest=sr_proposed并且fbest=f(xr_proposal,y,sr_proposal)。

任选地,迭代搜索算法的每次迭代包括决定218所提议的缩减的变量集合sr_proposal是否被接受作为针对后续迭代中要被评估的缩减的变量集合的后续提议的基础。如果提议的缩减的变量集合sr_proposal被接受作为基础,则sr_accepted=sr_proposal。在实施例中,尤其是如果使用模拟退火,则在之前描述的c.j.p.bélisle的文章(“convergencetheoremsforaclassofsimulatedannealingalgorithmsonrd”)中的概率函数能够用作接受函数。在另一实施例中,对所提议的缩减的变量集合sr_proposal的接受可以基于将优化函数f(xr_proposal,y,sr_proposal)的值与优化函数的先前存储的最佳值fbest进行比较。例如,如果优化函数f(xr_proposal,y,sr_proposal)的值大于先前存储的最佳值fbest减去阈值,则所提议的缩减的变量集合sr_proposal被接受作为针对缩减的变量集合的随后提议的基础。

任选地,迭代搜索算法的每次迭代包括决定219是必须做出另一次迭代还是停止迭代且找到的最佳的缩减的变量集合sr_best被认为是搜索206缩减的变量集合sr的结果。在特定实施例中,迭代是否必须停止的决定可以基于到该时刻为止执行的迭代的次数,到该时刻为止所使用的计算能力的量,或者搜索缩减的变量集合sr所花费的时间。另一停止标准可以是迭代搜索算法管理在特定次数的先前迭代期间针对优化函数的最佳值的改进有多大,并且如果改善低于某个阈值,则可以决定停止迭代。在另一实施例中,尤其是如果使用模拟退火,如果温度低于某个阈值温度,则可以停止迭代。

任选地,迭代搜索算法的每次迭代包括形成222对要被评估的缩减的变量集合sr_proposal的提议。为了探索解空间的区,在多次迭代中,所提议的缩减的变量集合sr_proposal不同于先前评估的提议的缩减的变量集合sr_proposal。在实施例中,先前接受的变量集合sr_accepted或者用单个变量放大或者用一个变量缩减。这可以通过随机选择变量集合s的变量vrandom中的一个来完成。如果选定的变量vrandom尚未存在于先前接受的变量集合sr_accepted中,则所提议的缩减的变量集合sr_proposal等于先前接受的变量集合sr_accepted加上选定的变量vrandom。如果选定的变量vrandom已经存在于先前接受的变量集合sr_accepted中,则所提议的缩减的变量集合sr_proposal等于先前接受的变量集合sr_accepted减去选定的变量vrandom。如果这会导致空的提议的缩减的变量集合sr_proposal,则随机选择另一变量vrandom2,并且所提议的缩减的变量集合sr_proposal包括一个变量,即,另一随机选择的变量vramdom2。从变量集合s中随机选择变量可以基于对变量中的一个的均匀选择。在另一实施例中,特定变量被选择的概率可以额外地或替代地取决于该特定变量的数据与第二数据集y之间的互信息。因此,选择概率可以是其中,β是从区间[0,1]中选择的值,用于基于互信息来控制均匀概率和概率的贡献。能够确定i(y,变量v的数据),正如本文之前所讨论的:单个变量的数据是d=(d1,…,dn),第二数据集y=(y1,…,yn),然后通过下式来计算互信息:如果β是接近1的值,则对随机选择的变量vrandom的选择强烈取决于该变量的数据与第二数据集y之间的互信息。如果必须将该变量添加先前接受的缩减的变量集合sr_accepted,则这可能是有利的,因为如果添加该变量,则优化函数的值增大的概率很大,然而,如果必须将该变量从先前接受的缩减的变量集合sr_accepted中移除,则这可能是不利的。因此,明智的做法是使用更接近范围[0,1]的中心而不是该范围的边界的β。在替代实施例中,首先确定是将变量添加到先前接受的缩减的变量集合sr_accepted还是将变量从先前接受的缩减的变量集合sr_accepted中移除——这可以通过使用用于添加和移除的均匀概率来完成。随后,取决于选定的动作,选择概率强烈基于均匀分布概率(用于移除)或者基于强烈取决于变量的数据与第二数据集y的互信息的概率(用于添加)。在又一实施例中,首先(以相等的概率)随机确定是添加变量还是移除变量。随后:如果必须添加变量,则对要添加的变量的随机选择使用强烈基于变量数据与第二数据集y的互信息的概率;如果必须移除变量,则针对随机选择的概率可以与该互信息成反比(例如,与针对给定的单个变量的数据的第二数据集的条件熵h(y|d)成比例)。还可以使用提议缩减的变量集合sr_proposal的其他实施例,例如,实施例不限于每次迭代添加或移除一个变量。

按照以上讨论的确定212第二互信息i2的阶段和聚类214数据的阶段,设备100的搜索单元110可以包括用于确定第二互信息i2的第二互信息确定单元106和用于聚类数据的聚类单元108。第二互信息确定单元106和聚类单元108被配置为执行以上讨论的确定212第二互信息i2的阶段和聚类214数据的阶段的功能,并且具有带有类似效果的类似实施例。

图4示意性地示出了计算机程序产品470的实施例,该程序能用于使得处理器执行先前讨论的方法中的一种。实施例还扩展到计算机程序产品470,尤其是适于将本发明付诸实践的载体470上或载体470中的计算机程序480。计算机程序产品可以包括计算机程序480。该程序可以采用源代码、目标代码、代码中间源和目标代码(例如部分编译的形式)的形式,或者以适用于实施以上讨论的方法中的一种的任何其他形式。还应当理解,这样的程序可以具有许多不同的架构设计。例如,实施方法或设备的功能的程序代码可以被细分成一个或多个子例程。在这些子例程之间分配功能的许多不同方式对于本领域技术人员来说是显而易见的。可以将子例程一起存储在一个可执行文件中以形成自含程序。这样的可执行文件可以包括计算机可执行指令,例如,处理器指令和/或解读器指令(例如,java解读器指令)。替代地,可以将一个或多个或所有的子例程存储在至少一个外部库文件中,并且可以静态地或动态地(例如在运行时)与主程序链接。主程序至少包含一个对至少一个子例程的调用。而且,子例程可以包括彼此的函数调用。涉及计算机程序产品470的实施例包括对应于所阐述的方法中的至少一种的处理步骤中的每个的计算机可执行指令480。这些指令可以被细分成子例程并且/或者被存储在一个或多个可以静态或动态链接的文件中。涉及计算机程序产品470的另一实施例包括对应于所阐述的系统和/或产品中的至少一个的器件中的每个的计算机可执行指令480。这些指令可以被细分成子例程并且/或者被存储在一个或多个可以静态或动态链接的文件中。

计算机程序的载体可以为能够承载程序的任何实体或设备。例如,载体可以包括存储介质,例如,rom(例如,cdrom或半导体rom),或者磁性记录介质(例如,软盘或硬盘)。另外,载体可以为可传输载体,例如,电信号或光信号,它们可以经由电缆或光缆或通过无线电或其他手段来传送。当程序被实施在这样的信号中时,载体可以包括这样的线缆或其他设备或器件。备选地,载体可以为程序被嵌入其中的集成电路,所述集成电路适于执行相关的方法,或者适于在对相关的方法的执行中使用。

计算机程序480可以是用于分布式处理器系统的计算机程序,并且可以包括使得第一处理器系统执行以上讨论的方法的步骤的子集并且使得第二处理器系统执行以上讨论的方法的步骤的另一子集的计算机代码。步骤子集和步骤的另一子集可以是互斥的。

总之,本文提供了从变量集合中选择变量子集的设备和方法。多个变量的实例包括用于预测另外的类型的数据的实例的信息。所述设备包括第一数据集单元、第二数据集单元和搜索单元。所述第一数据集单元获得包含数据的实例的元组的第一集合。所述第二数据集单元获得包括另外的类型的数据的实例的第二集合。所述第二集合的每个实例对应于所述第一集合的所述元组中的一个。所述搜索单元获得表示优化函数的至少局部最优值的缩减的变量集合,所述优化函数是缩减的第一集合与所述第二集合之间的第一互信息值和基于所述缩减的变量集合中的变量的数量的惩罚值的组合。

在下面的条款中定义了另外的实施例:

1、一种用于从包括多个变量的变量集合中选择变量子集的设备(100),所述多个变量表示不同类型的数据,所述多个变量的实例包括用于预测另外的类型的数据的实例的信息,所述另外的类型的数据与物理实体的特性有关,所述设备包括:

-第一数据集单元(102),其用于获得包括数据的实例的元组的第一数据集,其中,每个元组包括所述变量集合中的每个变量的实例,

-第二数据集单元(104),其用于获得包括所述另外的类型的数据的实例的第二数据集,其中,所述第二数据集的每个实例对应于所述第一数据集的所述元组中的一个,

-搜索单元(110),其用于获得作为所述变量集合的子集的缩减的变量集合,所述缩减的变量集合表示优化函数的至少局部最优值,所述优化函数是缩减的第一数据集、所述第二数据集和所述缩减的变量集合的函数,所述缩减的第一数据集包括从所述第一数据集的所述元组获得的缩减的元组,并且所述缩减的元组仅包括所述缩减的变量集合的变量的实例,并且所述优化函数基于所述缩减的第一数据集与所述第二数据集之间的第一互信息值和随着所述缩减的变量集合中的变量的数量增大而增大的惩罚值的组合,以及

-输出部(112),其用于将所述缩减的变量集合作为选定的变量子集提供给例如用于缩减所述第一数据集中的数据量的数据缩减布置。

2、一种从来自包括多个变量的变量集合中选择变量子集的方法(200),所述多个变量表示不同类型的数据,所述多个变量的实例包括用于预测另外的类型的数据的实例的信息,所述另外的类型的数据与物理实体的特性有关,所述方法包括:

-获得(202)包括数据的实例的元组的第一数据集,其中,每个元组包括所述变量集合的每个变量的实例,

-获得(204)包括所述另外的类型的数据的实例的第二数据集,其中,所述第二数据集的每个实例对应于所述第一数据集的所述元组中的一个,

-搜索(206)作为所述变量集合的子集的缩减的变量集合,所述缩减的变量集合表示优化函数的至少局部最优值,所述优化函数是缩减的第一数据集、所述第二数据集和所述缩减的变量集合的函数,所述缩减的第一数据集包括从所述第一数据集的所述元组获得的缩减的元组,并且所述缩减的元组仅包括所述缩减的变量集合的变量的实例,所述优化函数基于所述缩减的第一数据集与所述第二数据集之间的第一互信息值和随着所述缩减的变量集合中的变量的数量增大而增大的惩罚值的组合,并且

-将所述缩减的变量集合作为选定的变量子集提供(220)给例如用于缩减所述第一数据集中的数据量的数据缩减布置。

3、根据条款2所述的选择变量子集的方法(200),其中,所述缩减的第一数据集与所述第二数据集之间的所述第一互信息值是通过确定(212)所述第二数据集与聚类数据之间的第二互信息值来估计的,其中,所述聚类数据包括根据所述缩减的第一数据集导出的聚类。

4、根据条款3所述的选择变量子集的方法(200),其中,所述聚类是根据所述缩减的第一数据集和所述第二数据集的组合导出的。

5、根据条款4所述的选择变量子集的方法(200),其中,所述聚类表示数据的元组,所述数据的元组是所述缩减的第一数据集的特定元组的组合,所述特定元组被扩展有根据来自所述第二数据集中的对应于所述缩减的第一数据集的所述特定元组的实例导出的值。

6、根据条款5所述的选择变量子集的方法(200),其中,所述聚类是基于包括所述缩减的第一数据集的独特元组的数据来形成的,所述独特元组被扩展有根据来自所述第二数据集中的对应于相应的独特元组的实例导出的值。

7、根据条款3至6中的任一项所述的选择变量子集的方法(200),其中,所述聚类数据是通过k均值聚类算法来获得的。

8、根据条款7所述的选择变量子集的方法(200),其中,所述k均值聚类算法使用欧几里德距离度量来确定要被聚类的所述元组之间的距离。

9、根据条款2至8中的任一项所述的选择变量子集的方法(200),其中,其中,搜索(206)表示所述优化函数的所述至少局部最优值的所述缩减的变量集合是通过以下操作来执行的:应用迭代搜索方法来找到至少局部最大值以找到具有针对所述优化函数的相对大的值的所述缩减的变量集合。

10、根据条款9所述的选择变量子集的方法(200),其中,所述迭代搜索方法基于模拟退火。

11、根据条款9或10中的任一项所述的选择变量子集的方法(200),其中,所述迭代搜索方法的每次迭代包括:

-形成(222)对要被评估的所述缩减的变量集合的提议,

-确定(210)由所提议的缩减的变量集合提供的所述优化函数的值,

-如果到当前运行的迭代为止,所提议的缩减的变量集合提供针对所述优化函数的最佳值,则存储(216)所提议的缩减的变量集合作为最佳的缩减的变量集合,

-决定(218)是否接受所提议的缩减的变量集合作为在后续迭代中针对要被评估的所述缩减的变量集合的后续提议的基础。

12、根据条款9或11中的任一项所述的选择变量子集的方法(200),其中,所述迭代搜索方法利用对所述缩减的变量集合的提议来开始(208)第一次迭代,所述缩减的变量集合包括单个变量,与所述变量集合的其他变量相比,所述单个变量的数据与所述第二数据集之间的互信息是最高的。

13、在条款12引用条款11的情况下,根据条款11或12中的任一项所述的选择变量子集的方法(200),其中,在第二次迭代或之后的迭代中,对要被评估的所述缩减的变量集合的所述提议是通过扩展或缩减最后接受的缩减的变量集合来形成的,其中,所述变量集合的变量中的一个是随机选择的,如果随机选择的变量尚未存在于所述最后接受的缩减的变量集合中,则将所述随机选择的变量添加到所述最后接受的缩减的变量集合中,并且如果所述随机选择的变量存在于所述最后接受的缩减的变量集合中,则从所述最后接受的缩减的变量集合中移除所述随机选择的变量。

14、根据条款13所述的选择变量子集的方法(200),其中,所述随机选择的变量是通过随机选择来获得的,所述随机选择基于针对每个变量的概率,所述针对每个变量的概率是针对所有变量的均匀概率值的第一部分和根据特定变量与所述第二数据集之间的所述互信息导出的非均匀概率值的第二部分的加和。

15、一种用于从包括多个变量的变量集合中选择变量子集的计算机程序产品(470),所述程序(280)能用于使得处理器执行根据条款2至14中的一项所述的方法中的一种。

应当注意,本发明可以使用可编程部件被实施在硬件和/或软件中。

应当理解,为了清楚起见,上面的描述已经参考不同的功能单元和处理器描述了本发明的实施例。然而,应当理解,在不偏离本发明的情况下,可以使用不同功能单元或处理器之间的任何合适的功能分布。例如,被图示为由单独的单元、处理器或控制器执行的功能可以由相同的处理器或控制器执行。因此,对特定功能单元的引用仅被视为提供用于提供所描述的功能的合适手段,而不是指示严格的逻辑或物理结构或组织。本发明能够以包括硬件、软件、固件或其任何组合的任何适当形式来实施。

应当注意,在本文中,词语“包括”不排除除了所列出的元素或步骤以外的其他元件或步骤的存在,并且元件之前的词语“一”或“一个”并不排除存在多个这样的元件,任何附图标记不限制权利要求的范围,本发明可以借助于硬件和软件两者来实施,并且若干“器件”或“单元”可以由同一项硬件或软件项目表示,并且处理器可以实施与硬件元件协作的一个或多个单元的功能。另外,本发明不限于这些实施例,并且本发明在于上面描述的或在相互不同的从属权利要求中记载的每个新颖特征或特征组合。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1