特征数据集分类的制作方法

文档序号:27200335发布日期:2021-11-03 13:32阅读:177来源:国知局
特征数据集分类的制作方法
特征数据集分类
1.本技术涉及数据处理领域。
2.可以采用各种方法来基于构成特征数据集的多个特征数据值对输入数据集进行分类。例如,可以在应用贝叶斯定理的朴素贝叶斯分类器的基础上构建装置。常见的实现基于高斯朴素贝叶斯算法,其中贝叶斯公式中似然项的每个因子被建模为(单变量)高斯分布。可以使用训练数据集(其中待预测的所需类是已知的)训练朴素贝叶斯算法实现,然后可以将该训练模型用于新的输入数据集以生成类预测。此类实现在硬件中可能仍然需要显著水平的计算能力,以便处理每个输入数据集并基于训练模型生成预测类。可能存在一些具体实施上下文,其中希望由具有有限数据处理能力的更简单的设备生成类预测。
3.至少一些示例提供了一种装置,该装置包括:特征数据集输入电路,用于接收包括指示一组特征的多个特征数据值的特征数据集,其中每个特征数据值由一组位表示;类检索电路,该类检索电路响应于从特征数据集输入电路接收到特征数据集,以从类指示存储装置检索针对特征数据集中所接收的每个特征数据值的类指示,其中对于每个特征的一组位的每个排列,类指示是预先确定的并且存储在类指示存储装置中;和分类输出电路,该分类输出电路响应于从类检索电路接收到类指示来根据类指示确定分类。
4.至少一些示例提供了一种操作装置的方法,该方法包括:在特征数据集输入处接收包括指示一组特征的多个特征数据值的特征数据集,其中每个特征数据值由一组位表示;从类指示存储装置检索针对特征数据集中所接收的每个特征数据值的类指示,其中对于每个特征的一组位的每个排列,类指示是预先确定的并且存储在类指示存储装置中;以及根据类指示确定分类。
5.至少一些示例提供了一种装置,该装置包括:用于接收包括指示一组特征的多个特征数据值的特征数据集的装置,其中每个特征数据值由一组位表示;用于从用于存储类指示的装置检索针对特征数据集中所接收的每个特征数据值的类指示的装置,其中对于每个特征的一组位的每个排列,类指示是预先确定的并且存储在用于存储类指示的装置中;和用于根据类指示确定分类的装置。
6.将参考如附图所示的本发明的实施方案,结合以下描述阅读,仅以举例的方式进一步描述本技术,其中:
7.图1示意性地示出了根据一些示例性实施方案的装置;
8.图2示意性地示出了训练布置,根据该训练布置,在一些示例性实施方案中,使用特征训练数据集训练高斯朴素贝叶斯模型实现;
9.图3a和图3b示出了在一些示例性实施方案中训练模型可基于的示例性特征分布;
10.图4示意性地示出了在一些示例性实施方案中包括并行访问的多个类查找表的装置;
11.图5示意性地示出了在一些示例性实施方案中包括对多个特征值串行访问的单个类查找表的装置;
12.图6a示意性地示出了一些示例性实施方案中的类值的权重;
13.图6b示意性地示出了在一些示例性实施方案中通过表决在所指示的类之间进行
选择;
14.图7示意性地示出了在一些示例性实施方案中用于接收要用于查找3位类值的5位特征值的低精度实现;
15.图8a示意性地示出了在一些示例性实施方案中生成用于装置的输入特征数据集的一组传感器;
16.图8b示意性地示出了在一些示例性实施方案中具体体现为塑料加工设备的装置;
17.图9示意性地示出了在一些示例性实施方案中被设计为可穿戴设备的装置;并且
18.图10示出了根据一些示例性实施方案的方法采取的一系列步骤。
19.在本文的一个示例中,提供了一种装置,该装置包括:特征数据集输入电路,用于接收包括指示一组特征的多个特征数据值的特征数据集,其中每个特征数据值由一组位表示;类检索电路,该类检索电路响应于从特征数据集输入电路接收到特征数据集,以从类指示存储装置检索针对特征数据集中所接收的每个特征数据值的类指示,其中对于每个特征的一组位的每个排列,类指示是预先确定的并且存储在类指示存储装置中;和分类输出电路,该分类输出电路响应于从类检索电路接收到类指示来根据类指示确定分类。
20.在讨论本技术的特征之前,对于上下文,首先概述朴素贝叶斯算法的核心特征。朴素贝叶斯是基于贝叶斯定理的应用的概率机器学习算法。其使用简化假设,即所有特征一旦以类标签的值为条件,就在统计上是独立的。这将贝叶斯公式简化如下:
[0021][0022]
y*为使公式最大化的类标签,其中y={类集},并且d为特征的数量,并且x
i
为观察到的特征值,p(y)为先验,并且为似然函数。可省略分母项,因为其对最大值没有影响,并且取对数以将乘法转换为加法:
[0023][0024]
高斯朴素贝叶斯是其中似然项的每个因子被建模为(单变量)高斯分布的变体:
[0025][0026]
如果假设特征遵循高斯分布,则每个似然项将被高斯概率密度函数取代,如下所述:
[0027][0028]
最终,这简化成类似以下公式的简单形式:
[0029][0030]
其中c
y
为类的对数先验,并且k0
y,i
、k1
y,i
和k2
y,i
为常数并且为针对每个类/特征组合的系数。一般来讲,虽然这些值可以在训练阶段预先计算并存储在存储器中,但是计算类概率仍然是计算密集型的,需要多个mac操作。
[0031]
在该上下文中,本技术提供了一种装置,该装置接收包括多个特征数据值的特征数据集,并且基于该接收到的特征数据集确定代表该特征数据集的分类(即类)。然而,并非累积所有特征以找到每个可能类的概率,然后确定具有最大概率的类,而是提出了一种方法,其中预先计算每个特征的每个可能值的类概率。也就是说,在所提出的分类器装置中,不是考虑具有多个特征的单个分类器,而是生成多个不同的分类器,并从中选出一个作为代表类。本技术的发明人已经确定,在实现该方法的装置中,这可使得门计数能够减少,并且潜在地使类确定的操作更快。
[0032]
在一些实施方案中,针对每个特征存储在类指示存储装置中的类指示各自被预先确定为最佳类指示,其使用特征训练数据集在训练阶段中最大化用于特征的贝叶斯分类器。因此,在训练阶段预先计算每个特征的类概率,然后可以在其对应的贝叶斯分类器下选择该特征的最佳类:
[0033][0034][0035]
可以实现各种形式的贝叶斯分类器,但是在一些实施方案中,贝叶斯分类器是高斯朴素贝叶斯分类器。
[0036]
可以使用一系列不同的分布类型对一组特征中的每个特征进行建模。在一些实施方案中,贝叶斯分类器基于用于一组特征中的每个特征的单个分布类型。在一些实施方案中,贝叶斯分类器基于用于一组特征的异构分布类型。这些分布类型可采用多种形式,诸如例如高斯分布、指数分布、均匀分布等。所提出的方法不约束每个特征来自特定类型的分布或所有特征来自相同类型的分布,这允许在实现中具有更大的灵活性,例如如果特征的精确分布是已知的。
[0037]
从类指示存储装置检索类指示可以采取各种形式,但是在一些实施方案中,类指示存储装置具有查找表格式,并且类检索电路被布置为针对在特征数据集中所接收的每个特征数据值相对于查找表格式执行查找程序。这允许准备检索预先计算的类指示。
[0038]
在一些实施方案中,类检索电路被布置为并行检索针对特征数据集中所接收的每个特征数据值的类指示。在一些实施方案中,类检索电路被布置为以串行序列检索针对特
征数据集中所接收的每个特征数据值的类指示。因此,根据要并行检索类指示时所需的较大存储装置相对于要以串行序列检索类指示所需的较长检索时间的给定具体实施中的相对优先级,可以在两种不同的方法之间进行选择。
[0039]
一旦从类检索电路中的类指示存储装置中检索到类指示,就可以多种方式确定最终分类,但在一些实施方案中,分类输出电路响应于从类检索电路接收到类指示,以通过在类指示之间的表决来确定分类。表决本身可以具有各种配置,但是例如所选择的类可以是由类检索电路检索的类指示中最频繁的类。换句话讲,它可以是一组类指示的统计模式。
[0040]
在一些实施方案中,类指示被加权。这允许对所选择的最终分类的进一步程度的控制。该权重可在预先计算的意义上预先确定,例如其中使用特征训练数据集在训练阶段中来确定类指示的权重。另选地,这些权重可由用户独立地定义。这允许用户更好地控制类的分配和选择。
[0041]
在一些实施方案中,当表决选择多于一个类指示时,类指示的权重被用作平局决胜。因此,如果基于表决在类指示之间进行选择以确定唯一类指示是不可能的,例如因为在这个过程中不止一个类被选择了相同的次数,则在这种情况下,可以使用类指示的权重作为平局决胜来在它们之间进行决定。
[0042]
本技术的发明人已经发现,即使在以低精度表示每个特征数据值时,也可以保持成功的实现,这是因为它们为给定输入未来数据集的预测类保持有效的高预测精度。例如,在一些实施方案中,每个特征数据值由一组少于10位表示。此外,在一些实施方案中,每个特征数据值由一组5位表示。
[0043]
在一些实施方案中,使用少于5位的表示将类指示存储在类指示存储装置中。在一些实施方案中,使用3位的表示将类指示存储在类指示存储装置中(即,允许定义8个不同的类)。
[0044]
本技术可适用于各种情景,但是在它们可以以特别低复杂性的方式(特别是就所需的门计数而言)来实现的情况下,这些技术可在便携式情景中以及实际上在可穿戴情景中找到实现。因此,在一些实施方案中,该装置是可穿戴设备。
[0045]
特征数据集输入可从多种源提供,但在一些实施方案中,特征数据集输入耦接到多个传感器,每个传感器提供相应的特征数据值。
[0046]
在一些实施方案中,装置具体体现为塑料加工设备。具体体现为塑料的此类数据处理设备(与例如体现为硅基设备相反)可使其特别适于实现为可穿戴设备,无论是嵌入在衣服中还是紧邻皮肤穿戴。
[0047]
例如,在装置被具体体现为包括少于1000个逻辑门的一些实施方案中可以注意到上述装置的低门计数。此外,在一些实施方案中,装置具体体现为包括少于500个逻辑门。
[0048]
在本文的一个示例中,提供了一种操作装置的方法,该方法包括:在特征数据集输入处接收包括指示一组特征的多个特征数据值的特征数据集,其中每个特征数据值由一组位表示;从类指示存储装置检索针对特征数据集中所接收的每个特征数据值的类指示,其中对于每个特征的一组位的每个排列,类指示是预先确定的并且存储在类指示存储装置中;以及根据类指示确定分类。
[0049]
在本文的一个示例中,提供了一种装置,该装置包括:用于接收包括指示一组特征的多个特征数据值的特征数据集的装置,其中每个特征数据值由一组位表示;用于从用于
存储类指示的装置检索针对特征数据集中所接收的每个特征数据值的类指示的装置,其中对于每个特征的一组位的每个排列,类指示是预先确定的并且存储在用于存储类指示的装置中;和用于根据类指示确定分类的装置。
[0050]
现在将参考附图描述一些具体实施方案。
[0051]
图1示意性地示出了一些示例性实施方案中的装置100。该装置包括接收一组特征数据值的特征数据集输入电路101。图1中示出了四个特征数据值(并且为了简化和清楚说明,该示例性数量的输入继续通过此处示出和讨论的各种示例性实施方案),但是本技术不限于特征数据集中的该数量的输入。包括多个特征数据值的该特征数据集被传递到类检索电路102,该类检索电路使用各个特征数据值从类指示存储装置103检索对应的一组类指示。然后将这些类指示传递到分类输出电路104,该分类输出电路基于从类检索电路102接收的那组类指示来确定最终单个预测分类。最终分类可以从装置100输出(如图1所示),但是在其他实施方案中,该分类可以在装置100内用于例如生成用户可以感知的指示。在装置的训练阶段期间预先确定存储在类指示存储装置中的类指示,在训练阶段期间使用特征训练数据集。这将参考图2更详细地描述。
[0052]
图2示意性地示出了用于执行训练阶段的过程,根据该过程在使用模型之前训练模型(具体地,基于修改的高斯朴素贝叶斯模型的本技术的机器学习算法)。应当理解,训练过程的该部分例如在通用计算设备上而不是在诸如图1所示的装置上执行。如图2所示,在步骤200处,使用各种特征训练数据集作为输入。然后在步骤201处,对于特征和类的每个组合,计算全精度常数和系数。然后,迭代过程开始逐步遍历每个特征和类,以确定每个可能输入值的相应类概率(参见上面的公式6)。需注意,在该示例中,输入将被量化为5位值(尽管本技术不限于输入值的这种量化),因此每个输入有32个可能的输入值。本技术的发明人已经发现,当使用此类量化的输入值时,类预测准确度仅下降约1%。因此,在步骤202处的第一次迭代中,第一特征(feature0),在步骤203处的第一输入(input=0),以及在步骤204处的第一类(class0)被设置为被考虑。对于这些参数,在步骤205处,确定对应的类概率(参见上面的公式6)。然后在步骤206处检查现在是否已考虑所有类(针对该特征和输入值组合)。在本文所述的一些实施方案中,存在8个类(尽管本技术不限于该特定数量的类)。当没有达到最后一个类时,步骤207获得要考虑的下一个类,并且流程返回到步骤205。一旦已确定所有类(对于该特征和输入组合)的所有类概率,流程就前进至步骤208,在该步骤中找到具有最大概率的类。然后在步骤209处,将该类(“maxclass”)存储到类指示存储装置中,诸如用于该特征和输入值组合的查找表。在步骤210处,然后确定是否已经达到最后一个输入值(在该5位示例中,这是数字31)。当没有达到最后一个输入值时,步骤211使输入值递增,并且流程返回到步骤204。一旦已达到最后一个输入值,流程就前进至步骤212,在该步骤中确定是否已达到该组中的最后一个特征。当没有达到最后一个特征时,步骤213获取要考虑的下一个特征,并且流程返回到步骤203。一旦达到最后一个特征,则完整的迭代集(在特征、输入值和类上)完成,训练过程的流程在步骤214处结束。
[0053]
本技术使用算法,根据该算法,不是考虑具有d个特征的单个朴素贝叶斯分类器,而是考虑d个不同的贝叶斯分类器,并且聚合它们的预测以选择最终分类。可用的特性是每个特征(由特征值表示)可来源于完全不同的分布(例如,高斯分布、指数分布、均匀分布等)。
[0054]
图3a示出了一组示例性分布,根据该一组示例性分布,假定四个特征值数据集中的每一个由高斯分布表示,而图3b示出了一组四个特征值分布,其中两个是高斯分布,两个是均匀分布。
[0055]
图4示意性地示出了一些示例性实施方案中的装置400。这里,类检索电路401包括4个查找表(lut)402,其中一个查找表被提供用于装置被配置为接收的每个特征数据值,需注意,在该示例中,未明确表示特征数据集输入电路。因此,在接收到特征数据集时,在相应lut 402中的查找中使用每个特征数据值,并且读出来自每个特征数据集的类指示。然后将这组类指示传递到类选择电路304,该类选择电路基于所接收的类指示选择单个代表性类。
[0056]
图5示意性地示出了一些示例性实施方案中的装置500。特征数据值由特征数据输入数据501接收,该特征数据输入数据保持这些值,使得查找控制电路502可依次使用这些值以在单个查找表503中执行查找。也就是说,使用所接收的四个特征数据值,在查找控制502的控制下以串行序列执行查找表503中的四个查找。查找表503中的每个查找的结果被传递到类确定电路504,在该类确定电路中,当正在执行串行查找程序时,所接收的类被临时存储在类存储装置505中。然后从此处检索它们以用于类表决电路506,以基于它们之间的表决来确定用于输出的单个类。在这里,表决由多数人执行,即选择最常见(模式)的类作为输出的获胜类。
[0057]
图6a示意性地示出了一个示例性实施方案,其中权重600

603与在类选择发生之前从类指示存储装置检索到的类相关联。这些权重可作为训练的一部分被学习,例如如图2所示执行,或者可由希望影响类选择的平衡的用户明确设置。因此,对于从类指示存储装置(例如,查找表)接收的每个类,为每个类使用相关联的权重。权重可存储在与类相同的查找表中,或者它们可存储在单独的存储装置中。因此,应当注意,该权重因此被有效地应用于每个相应特征数据值的“重要性”,但类值本身未被修改,因为这些是用于列举可能类的集合的整数值。然后由类选择电路604接收每个类及其相关联的权重,该类选择电路基于类本身的分布及其相关联的权重来执行对所选择的类的确定。例如,权重可指示每个特征数据值因此在最终选择中具有的相对表决权重。除此之外或作为另外一种选择,类选择电路604可以包括平局决胜电路605,在需要平局决胜的情况下,该平局决胜电路可利用权重。当选择程序(例如,模式表决)不能在两个或更多个所选择的类之间进行区分时,发生平局决胜。在这种情况下,各个相关联的权重可用作平局决胜影响。如上所述,从类指示存储装置接收的类指示之间的选择可以采取各种形式,但是在一些实施方案中,诸如图6b所示,该选择是通过表决,例如通过模式表决。
[0058]
图7示意性地示出了一个实施方案中的装置700的一些部件。在该示例中,接收八个特征数据值,每个特征数据值被量化为5位值。这些相应的5位值用于在对应的一组八个查找表(其中仅明确示出了两个查找表701和702,纯粹为了清楚起见)中执行查找,每个查找表(在训练阶段)已针对每个特征值的每个可能值预先填充有3位类指示。换句话讲,在每个查找表中存在32个条目。因此,并行执行八个查找动作以检索八个3位类值,这些3位类值被传递到类表决电路703。类表决电路703然后执行对类预测的最终选择,在该示例中,基于在所接收的八个类指示之间的模式表决。已经证明诸如图7所示的实现(使用本文所述的新算法)具有91%的类预测准确度,这非常接近高斯朴素贝叶斯的准确度。
[0059]
本技术可在各种上下文中找到具体实施,但图8a给出了特征数据集由一组传感器
生成的特定具体实施的示例。因此,示出了从四个传感器801

803接收相应特征数据值的装置800。这些由特征数据集输入804接收,特征数据集输入804将它们传递到类查找表805,以便检索一组四个类指示。类表决电路806(如上所述)然后通过模式表决来选择这些类指示中的单个类指示作为最终类输出。如在图8a的示例中,传感器可在装置外部,但其他示例也是可能的,其中一个在图8b中示出。这里装置810是独立成套的单元,其中四个传感器811

814形成装置810的一部分。如在图8a的示例中那样,这些传感器的输出由特征数据集输入815接收,该特征数据集输入可在将这些值传递到一组类查找表816之前暂时保持这些值,以便读出对应的一组类指示。这些类指示被传递到类表决电路817,然后该类表决电路基于它们之间的表决来确定单个类。在该示例中,装置810还指示四个指示器818

821,该指示器由装置用于指示哪个类被选择。因此,应当理解,在该示例中定义了四个不同的类,但是需注意,本技术不限于该类数量(并且进一步地,从四个传感器示出四个输入的事实完全重合)。这些指示器可采取多种形式,但仅举一个示例,可以是视觉指示,例如照亮灯或改变每个类的小表面区域或不同led的颜色,使得用户可基于当前传感器数据输入感知到已选择特定类。因此,在这样的示例中,类指示可以表征可以链接到传感器数据输入的不同平衡的不同情况。还应当指出的是,装置810可以多种不同的方式物理地构造。这可以例如是具体体现在硅中的小片上系统,但是在其他示例中(具体地诸如下面将参考图9描述的),装置可以替代地具体体现为塑料加工设备。尽管根据现代技术,可通过与硅加工设备进行比较而为塑料加工设备的给定区域提供的逻辑门的数目显著较低,但已发现根据本技术可能具有的尤其低的门数可尤其好地适用于此类塑料加工设备。图7所示的上述具体实施已使用此类塑性技术在硬件中实现。类预测可以在10μs内完成,这比高斯朴素贝叶斯实现快2

8倍。此外,它仅消耗315个门,比高斯朴素贝叶斯实现小10

30倍。
[0060]
图9示出了在装置可为可穿戴设备的示例中用户的躯干区域。因此,在该示例中,可例如根据如上所述的图8b的示例布置的装置901被穿戴在用户900的皮肤上或附近。在仅一个示例性实施方案中,形成装置的一部分的传感器然后被配置为响应于希望监测的本地环境条件。这些可以从一系列已知的传感器进行不同的配置。此处可部署任何可用的传感器,但可设想诸如用于温度、湿度、压力、ecg/emg或特定化学物质的存在的传感器的示例。应当指出的是,图9的示例中的装置的位置仅仅是为了清楚地说明,并且该设备可佩戴在皮肤上或皮肤附近的任何适当位置。例如,在一个设想的示例中,具体体现为塑料加工设备的装置可佩戴在腋下,使得一系列化学传感器可确定存在的化学品的平衡并且激活指示器中的一个以向用户发信号通知关于臂下区域的当前“化学品平衡”的特定消息。
[0061]
图10示出了根据一个示例性实施方案的方法采取的一系列步骤。在步骤1000处,接收特征数据集,然后在步骤1001处,使用每个位集(表示特征数据集中的每个特征值)在类指示的查找表中执行查找。然后在步骤1002处读出对应的一组类指示,并且在步骤1003处,基于读出的一组类指示执行表决以确定所选择的类。然后在步骤1004处输出所选择的类。
[0062]
简而言之,公开了装置和操作此类装置的方法。本发明公开了一种装置,该装置包括特征数据集输入电路以接收特征数据集,该特征数据集包括指示一组特征的多个特征数据值,其中每个特征数据值由一组位表示。类检索电路响应于从特征数据集输入电路接收到特征数据集,以针对特征数据集中所接收的每个特征数据值从类指示存储装置检索类指
示,其中对于每个特征的一组位的每个排列,类指示是预先确定的并且存储在类指示存储装置中。分类输出电路响应于从类检索电路接收到类指示,以根据类指示确定分类。因此,可从简单的装置准确地生成预测类。
[0063]
在本技术中,字词“被配置为...”用于意指装置的元件具有能够执行所限定的操作的配置。在该上下文中,“配置”意指硬件或软件的互连的布置或方式。例如,该装置可具有提供所限定的操作的专用硬件,或者可对处理器或其他处理设备进行编程以执行该功能。“被配置为”并不意味着装置元件需要以任何方式改变以便提供所限定的操作。
[0064]
虽然本文已结合附图详细描述了示例性实施方案,但应当理解,本发明并不限于那些精确的实施方案,并且在不脱离所附权利要求书所限定的本发明的范围的前提下,本领域的技术人员可在其中实现各种变化、添加和修改。例如,在不脱离本发明的范围的情况下,从属权利要求的特征可与独立权利要求的特征一起进行各种组合。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1