离群值检测设备、离群值检测方法和车辆故障诊断系统的制作方法

文档序号：6494846阅读：421来源：国知局

离群值检测设备、离群值检测方法和车辆故障诊断系统的制作方法
【专利摘要】本发明提供了一种离群值检测设备等，该离群值检测设备等辅助或执行在实用时间内的离群值的检测，而不对非线性数据集执行参数调整操作。离群值检测设备（1）针对每一个维度转换数据集中包括的多个数据的每一个，并且基于比特序列来建立用于数据集的观察区域。然后，离群值检测设备（1）从在数据集中包括的多个数据逐个地确定一个目标数据，并且基于当从观察区域去除与目标数据对应的区域时与该目标数据相邻的数据的数据密度来计算该目标数据的偏离度。
【专利说明】离群值检测设备、离群值检测方法和车辆故障诊断系统
【技术领域】
[0001]本发明涉及离群值检测设备等，该离群值检测设备等辅助或执行从包括多个数据的数据集中检测离群值，该多个数据的每一个具有一个或多个维度。
【背景技术】
[0002]离群值检测问题被认为是用于从给定的数据集中找出作为离群值的属于低数据密度区域的数据。用于解决离群值检测问题的技术的应用示例例如包括:用于去除在数据集中包含的噪声数据的处理(用于数据筛选的预处理)；用于从信用交易的数据集中检测进行异常交易的客户的处理；用于从在生产线中的产品的数据集中检测缺陷的处理等。
[0003]作为用于解决离群值检测问题的技术，例如，已知马哈拉诺比斯距离、单类支持向量机(以下缩写为“0C-SVM”)和局部离群因子(以下，缩写为“L0F”)。
[0004]NPLl描述了马哈拉诺比斯距离。在NPLl中，计算整个给定的数据集的质心(平均值)和协方差矩阵，使用协方差矩阵来计算从每一个数据到归一化的质心的距离，并且，将具有大距离的数据看作离群值。
[0005]在马哈拉诺比斯距离中，假定数据集符合多变量正态分布。在不能使用多变量正态分布来描述数据集的情况下，即，在数据集是非线性的情况下，不能检测适当的离群值。
[0006]NPL2描述了 0C-SVM。在NPL2中，通过非线性映射将接收的数据集映射到高阶特征空间F内，并且从其中每一个将映射的数据组与原点分离的超平面中选择相对于原点最远的超平面。在采用OC-SVM来解决离群值检测问题的情况下，以下述方式来确定超平面:允许特定百分比的数据被分组在原点附近，而不是在超平面附近，并且，将被分组在原点附近的数据看作离群值。
[0007]在OC-SVM中，通过求解可以容易找到其解的凸优化问题，可以获得超平面。而且，因为OC-SVM采用非线性映射，所以OC-SVM适合于非线性数据集。
[0008]NPL3描述了 L0F。在NPL3中，从数据x至与数据x相邻的k个数据的距离的平均值被计算为k-最近距离。因此，通过将数据X的k-最近距离除以k个相邻数据的k-最近距离而获得的值被计算为数据X的L0F。从如上所述的处理清楚，随着在数据X的k-最近距离和k个相邻数据的k-最近距离的平均值之间的差(S卩，通过从数据X的k-最近距离减去k个相邻数据的k-最近距离的平均值而获得的值)增大时，LOF呈现更大的值。因此，具有大的LOF的数据被看作离群值。
[0009]LOF也适用于非线性数据集。
[0010]然而，上述的现有技术的三个示例具有下述的问题。
[0011]如上所述，马哈拉诺比斯距离具有问题:在非线性数据集的情况下，不能检测适当的离群值。
[0012]OC-SVM具有未解决的问题:难以选择适当的非线性映射。这导致问题:需要参数调整操作，其中，人通过反复试验来确定用于确定非线性映射的参数。
[0013]而且，在OC-SVM中，在要处理大量数据的情况下，需要长时间来解优化问题。设数据的数量是N，则在OC-SVM中的计算量的数量级是O (N3)，除非不进行调整。
[0014]LOF具有未解决的问题:难以选择适当的k。这也导致问题:需要参数调整操作，就像在OC-SVM中那样。
[0015]而且，LOF需要较高的计算负载。设数据的数量是N，则在LOF中的计算量的数量级是O (N2)，除非不进行调整。
[0016]引用列表
[0017]非专利文献
[0018]NPLl:Mahalanobis, P.C., On the Generalized Distance in Statistics (关于统计中的广义距离)，Proceedings of the National Institute of Science (美国国家科学院院刊)，49-55，1936
[0019]NPL2:Scholkopf, B.等，Estimating the Support of a High-DimensionalDistribution(估计高维分布的支持),Neural Computation(神经计算)，7,1443-1471, 2001
[0020]NPL3:Breunig,M.Μ.等，L0F:1dentifying Density-Based Local OutliersCLOF:基于识别密度的局部离群值)，SIGMOD Conference (SIGMOD会议)，93-104，2000

【发明内容】

[0021]技术问题
[0022]已经鉴于上述问题而设计了本发明，并且本发明的目的是提供一种离群值检测设备等，该离群值检测设备等辅助或执行在实用时间内的离群值的检测，而不对非线性数据集执行参数调整操作。
[0023]对于问题的解决方案
[0024]为了实现上述目的，根据本发明的第一方面，提供了一种离群值检测设备，该离群值检测设备辅助或执行从包括多个数据的数据集中检测离群值，所述多个数据的每一个具有一个或多个维度，所述离群值检测设备包括控制器，所述控制器针对一个或多个维度的每一个将在所述数据集中包括的所述多个数据的每一个转换为比特序列、基于所述比特序列来建立用于所述数据集的观察区域、从在所述数据集中包括的所述多个数据逐个地确定一个目标数据，并且基于当从所述观察区域去除与所述一个目标数据对应的区域时，与所述一个目标数据相邻的数据的数据密度，来计算所述一个目标数据的偏离度。
[0025]根据本发明的第一方面，可以在实用时间内执行离群值的检测的辅助或执行，而不对非线性数据集执行参数调整操作。
[0026]优选的是，在本发明的第一方面中的所述控制器将所述观察区域建立为二分决策图、将通过从每一个节点的局部密度减去等同于单个数据的密度而获得的值定义为去除了单个数据的局部密度，并且基于所述去除了单个数据的局部密度来计算所述一个目标数据的偏离度。
[0027]因此，在本发明的第一方面中的计算量的数量级至少由O(NXD)表示，并且相对于OC-SVM或LOF具有优势,其中，N表示数据的数量,并且D表示节点的数量。
[0028]优选的是，在本发明的第一方面中的所述控制器通过以从最高有效位至最低有效位的顺序针对数值属性的维度对比特序列组进行排序来分级地建立二分决策图、在所述二分决策图中搜索用于表示所述一个目标数据的路径，并且基于等级被改变的节点的去除了单个数据的局部密度来计算所述一个目标数据的偏离度。
[0029]因此，即使在未预先提供关于数据集的特性的信息的情况下，也可以计算适当的偏离度。
[0030]例如，在本发明的第一方面中的所述控制器将等级被改变的节点的去除了单个数据的局部密度中的一些或全部的最大值、中值或平均值定义为所述一个目标数据的偏离度。
[0031]例如，在本发明的第一方面中的所述控制器通过将所述偏离度与阈值作比较来检测尚群值。
[0032]根据本发明的第二方面，提供了一种离群值检测方法，所述离群值检测方法用于辅助或执行从包括多个数据的数据集中检测离群值，所述多个数据中的每一个具有一个或多个维度，所述方法包括:针对所述一个或多个维度中的每一个将在所述数据集中包括的所述多个数据的每一个转换为比特序列；基于所述比特序列来建立用于所述数据集的观察区域、从在所述数据集中包括的所述多个数据确定一个目标数据；并且，基于当从所述观察区域去除与所述一个目标数据对应的区域时与所述一个目标数据相邻的数据的数据密度，来计算所述一个目标数据的偏离度。
[0033]根据本发明的第三方面，提供了一种车辆故障诊断系统，该车辆故障诊断系统包括:离群值检测设备，所述离群值检测设备辅助或执行从包括多个数据的数据集中检测离群值，所述多个数据的每一个具有一个或多个维度；以及，数据收集设备，所述数据收集设备收集车辆数据，其中，所述离群值检测设备包括控制器，所述控制器通过下述方式来检测离群值:针对所述一个或多个维度中的每一个将在所述数据集中包括的所述多个数据的每一个转换为比特序列，由所述数据收集设备收集的车辆数据被定义为所述数据集；基于所述比特序列来建立用于所述数据集的观察区域；从在所述数据集中包括的所述多个数据逐个地确定一个目标数据；基于当从所述观察区域去除与所述一个目标数据对应的区域时与所述一个目标数据相邻的数据的数据密度，来计算所述一个目标数据的偏离度；并且，将所述偏离度与阈值作比较。
[0034]本发明的有益效果
[0035]根据本发明，可以提供离群值检测设备等，该离群值检测设备等辅助或执行在实用时间内的离群值的检测，而不对非线性数据集执行参数调整操作。
【专利附图】

【附图说明】
[0036]图1图示离群值检测设备的硬件配置的示例。
[0037]图2是详细图示由离群值检测设备执行的处理的流程图。
[0038]图3是用于说明转换数据集的处理的图。
[0039]图4是图示卡诺图。
[0040]图5图示二分决策图。
[0041]图6A是用于说明计算最小项(minterm)的数量的处理的图。
[0042]图6B是用于说明计算最小项的数量的处理的图。
[0043]图7图示最小项的数量的计算的结果。
[0044]图8A是用于说明计算局部密度的处理的图。[0045]图SB是用于说明计算局部密度的处理的图。
[0046]图9图示局部密度的计算的结果。
[0047]图10图示LOO密度的计算的结果。
[0048]图11图示表示在二分决策图中的一个目标数据的路径。
[0049]图12图示在卡诺图中的一个目标数据的区域。
[0050]图13A是用于说明要提取的LOO密度的图。
[0051]图13B是用于说明要提取的LOO密度的图。
[0052]图13C是用于说明要提取的LOO密度的图。
[0053]图13D是用于说明要提取的LOO密度的图。
[0054]图14A图示在本发明的第一实施例中的示例I和比较示例中使用的数据集。
[0055]图14B图示在本发明的第一实施例中的示例I和比较示例中使用的数据集。
[0056]图15A图示在示例I中的离群值的检测的结果。
[0057]图15B图示在示例I中的离群值的检测的结果。
[0058]图16A图示在比较示例I中的离群值的检测的结果。
[0059]图16B图示在比较示例I中的离群值的检测的结果。
[0060]图17A图示在比较示例2中的离群值的检测的结果。
[0061]图17B图示在比较示例2中的离群值的检测的结果。
[0062]图18A图示在比较示例3中的离群值的检测的结果。
[0063]图18B图示在比较示例3中的离群值的检测的结果。
[0064]图19A图示在比较示例4中的离群值的检测的结果。
[0065]图19B图示在比较示例4中的离群值的检测的结果。
[0066]图20图示根据本发明的第二实施例的车辆故障诊断系统的配置的示例。
[0067]图21是图示根据第二实施例的由车辆故障诊断系统执行的处理的流程图。
[0068]图22A图示在第二实施例中的离群值的检测的结果。
[0069]图22B图示在第二实施例中的离群值的检测的结果。
[0070]图22C图示在第二实施例中的离群值的检测的结果。
【具体实施方式】
[0071 ] 以下，将参考附图详细描述本发明的实施例。
[0072]在本发明的实施例中，解决了离群值检测问题，离群值检测问题是用于从给定的数据集中找到属于低数据密度区域的数据作为离群值的。
[0073]首先，将以信用交易作为示例来描述“数据集”。例如，关于信用交易的数据集，将描述客户的性别、客户的年龄和在交易中涉及的钱的数量这三种类型的信息的组合被给出作为单个数据的情况。然后，将描述两个数据Xl =(男，25岁，10，000日元)和x2=(女，30岁，20，000元)被给出作为数据集的情况。
[0074]在上述示例中，给出了包括“ 2 ”个数据的数据集，每一个数据具有“ 3 ”个维度。数据的维度也被称为变量(例如，多变量分析表示多维数据的分析)。另外，数据的数量也被称为采样的数量。
[0075]数据的每一个维度或者是类别属性或者是数值属性。在上述示例中，客户的性别是类别属性，并且客户的年龄和在交易中涉及的钱的数量是数值属性。
[0076]数据集的其他示例包括由车辆安装的装置获取的数据集。在该情况下，在特定时刻观察到的车辆速度、转数和自动巡航控制(ACC)的开/关等是维度(变量)。车辆速度和转数是数值属性，并且ACC的开/关是类别属性。在多个时刻观察到的多个数据被给出作为数据集。
[0077]以下，将说明离群值检测设备，其辅助或执行从包括多个数据的数据集中检测离群值，该多个数据每一个具有一个或多个维度。根据本发明的一个实施例的离群值检测设备能够辅助或执行在实用时间内的离群值的检测，而不对非线性数据集执行参数调整操作。
[0078]图1图示离群值检测设备的硬件配置的示例。在图1中所示的硬件配置仅是示例，并且可以根据用途和目的来采用各种配置。
[0079]在离群值检测设备I中，经由总线18连接控制器11、存储单元12、介质输入/输出单元13、通信控制器14、输入单元15、显示单元16、外围装置接口(I/F)单元17等。
[0080]控制器11包括中央处理单元(CPU)、只读存储器(ROM)和随机存取存储器(RAM)
坐寸ο
[0081]CPU将在存储单元12、ROM、记录介质等中存储的程序调用到RAM上的工作存储器区域，并且执行该程序。CPU执行经由总线18连接的各个装置的驱动控制，并且实现要由离群值检测设备I执行的处理，这将在下文描述。
[0082]ROM是非易失性存储器。ROM永久存储用于离群值检测设备I的引导程序、用于BIOS等的程序、数据等。
[0083]RAM是易失性存储器。RAM暂时存储从存储单元12、R0M、记录介质等加载的程序、数据等。RAM包括由控制器11用于执行各种类型的处理所使用的工作区域。
[0084]存储单元12是硬盘驱动器(HDD)。存储单元12存储要由控制器11执行的程序、程序的执行所需的数据、操作系统(OS)等。关于程序，在存储单元12中存储与OS对应的控制程序和用于使得离群值检测设备I执行下文描述的处理的应用程序。
[0085]控制器11根据需要读取和向RAM传送上述程序的程序代码，并且CPU然后读取该程序代码来执行作为各种装置。
[0086]介质输入/输出单兀13 (驱动装置)执行数据的输入和输出。介质输入/输出单元13例如包括介质输入/输出装置，诸如压缩盘(⑶)驱动器(用于⑶-ROM、⑶-R、⑶-RW等)、数字通用盘(DVD )驱动器(用于DVD-ROM、DVD-R、DVD-Rff等)等。
[0087]通信控制器14包括通信控制装置、通信端口等。通信控制器14是允许在离群值检测设备I和网络之间的通信的通信接口，并且控制经由网络与外部计算机的通信。网络可以为有线的或无线的。
[0088]输入单元15接收数据。输入单元15包括输入装置，诸如键盘、诸如鼠标的指示装
置、数字小键盘等。
[0089]利用输入单元15，可以对于离群值检测设备I进行操作指令、行为指令、数据输入
坐寸ο
[0090]显示单元16包括诸如液晶板的显示装置、用于与显示装置相结合地实现离群值检测设备I的视频功能的逻辑电路(视频适配器等)。[0091]外围装置接口单元17是用于将外围装置连接到离群值检测设备I的端口。离群值检测设备I执行数据经由外围装置接口单元17向外围装置的发送和从外围装置的接收。外围装置接口单元17包括通用串行总线(USB)、IEEE1394、RS-232C等。在通常的情况下，提供了多个外围装置接口。离群值检测设备I可以以有线或无线方式与外围装置连接。
[0092]总线18是允许在装置之间的控制信号、数据信号等的传送的路径。
[0093]上面已经描述了离群值检测设备I的硬件配置。被实现为离群值检测设备I的设备不限于上述示例。例如，通过向车辆安装装置、用于家用电器的控制装置、用于检测在生产线中的缺陷的检测装置安装用于实现下述处理的程序，离群值检测设备I可以被实现为汽车、家用电器、生产线等的一部分。而且，例如，离群值检测设备I可以被实现为包括多个计算机的服务器设备。
[0094]以下，将说明通过单个计算机来实现离群值检测设备I的示例。
[0095]图2是详细图示由离群值检测设备I执行的处理的流程图。以下，将根据需要参考图3至13来说明用于数据集的示例的处理。
[0096]如图2中所示，离群值检测设备I的控制器11经由输入装置(介质输入/输出单元13、通信控制器14、输入单元15、外围装置接口单元17等)来接收数据集(步骤SI)。控制器11可以接收在存储单元12中作为文件存储的数据集。
[0097]图3是用于说明转换数据集的处理的图。图3图示数据集21。数据集21包括“19”个数据，每一个数据具有“2”个维度。各个维度是数值属性，并且可以取值在O和7之间的范围内的整数。
[0098]控制器11不必接收如在图2中图示的数据集21的归一化的数据集。控制器11可以接收原始数据集，并且对于接收的原始数据集执行归一化处理。例如，控制器11对于原始数据集执行各种类型的处理，使得原始数据集可以取值在特定范围内的整数。
[0099]在原始数据集的一些维度(变量)是数值属性的情况下，控制器11通过细分来执行原始数据集的离散化，以实现数字化。例如，控制器11将实际值四舍五入为整数，使得计算机可以将该值看作int类型。在要取的值的范围极窄或宽的情况下，控制器11执行与适当系数的相乘，使得该值可以均匀地分布在所假定的范围上。而且，在混和具有不同度量的多个数据的情况下，控制器11执行归一化以具有O的平均值和I的方差。在分布极其偏离的情况下，控制器11执行对数变换等。
[0100]另外，即使关于数值属性的维度(变量)，在要取的值在窄范围中的情况下，例如，在值仅取值在O和3之间的范围内的整数的情况下，控制器11可以将值看作类别属性的维度(变量)。而且，即使关于类别属性的维度(变量)，在向要取的值引入某个距离的概念的情况下，控制器11可以将值看作数值属性的维度(变量)。
[0101]返回参见参考图2的说明，控制器11针对每一个维度(变量)将各个数据转换为比特序列(步骤S2)。在图3中图示与数据Xl对应的比特序列22a和与数据x2对应的比特序列22bο例如,用于数据xl = 6的比特序列22a表示(dl, d2, d3) = (l, I, O)。例如,用于数据 x2 = 2 的比特序列 22b 表示(el, e2, e3) = (0, I, O)。
[0102]控制器11以从最高有效位至最低有效位的顺序来排序数值属性的比特序列组(步骤S3)。在图3中图示排序的比特序列23。例如，对于(dl,d2, d3) = (l, 1,0)的比特序列22a和(el, e2, e3) = (0, I, O)白勺比特序列22b，排序的比特序列23表不(dl, el, d2, e2, d3，e3) = (l，0，I, 1，0，0)。
[0103]以下，使用“最高有效位(MSB)”来指示如dl或el的最左比特，并且使用“最低有效位(LSB)”来指示如d3或e3的最右比特。
[0104]不必执行在步骤S3中的排序处理。因为在步骤S3中的排序处理中以等同的方式来处理所有的维度(变量)，所以在预先提供关于数据集的特性的一些信息的情况下，不执行排序可能更好。例如，在很清楚数据xl的维度(变量)充分呈现数据的特性并且数据χ2的维度(变量)以很小的改变未充分呈现数据的特性的情况下，推荐不执行在步骤S3中的排序处理，并且不等同地处理数据xl和数据χ2。
[0105]当未预先提供关于数据集的特性的信息时，在步骤S3中的排序处理是有效的。
[0106]期望将类别属性的比特序列组与数值属性的比特序列组相区别，并且将类别属性的比特序列排列为优先于数值属性的比特序列。例如，在数据集包括在图3中所示的类别属性的数据x3以及数值属性的数据xl和数据x2的情况下，通过(fl，f2，f3)表示通过转换类别属性的数据x3而获得的比特序列。在该情况下，期望控制器11以(Π，f2, f3, dl, el, d2, e2, d3, e3)的顺序来执行排序。
[0107]类别属性和数值属性彼此相区别，因为通常不能向要取值为类别属性的值的值引入距离的概念，并且因此难以与数值属性的值类似地处理这样的值。
[0108]在未预先提供关于数据集的特性的信息的情况下，可以与优先顺序无关地排列类别属性和数值属性。
[0109]返回参见参考图2的说明，控制器11建立二分决策图(BDD)作为观察区域F (步骤S4)。控制器11可以建立卡诺图等而不是二分决策图作为观察区域F。二分决策图或卡诺图是要用于表达逻辑函数的数据结构。即，观察区域F可以表示逻辑函数。
[0110]如下所述，在建立二分决策图作为观察区域F的情况下，离群值检测设备I能够辅助或执行在实用时间内的离群值的检测，即使数据的数量增加。以下，为了避免不必要地混淆本发明，将描述离群值检测设备I建立二分决策图作为观察区域F的情况。而且，为了清楚地说明由离群值检测设备I执行的处理，也将图示卡诺图。
[0111]图4图示了卡诺图。
[0112]在图4中所示的卡诺图30a中，在图3中所示的比特序列22a垂直排列，并且，在图3中所示的比特序列22b的(el，e2, e3)水平排列。在图3中的一个黑色正方形对应于一个数据。在图4中所示的卡诺图30a中图示了 19个黑色正方形。
[0113]图5图示了二分决策图。基于在图3中所示的排序的比特序列23来建立在图5中所示的二分决策图31。
[0114]因为在计算机中根据指针的排列来表示二分决策图，所以可以减少所需的存储容量的量。在减小的有序二分决策图的情况下，对于逻辑函数的计算需要与图的大小大体成比例的计算时间。图的大小对应于节点的数量。
[0115]在图5中所示的示例中，图示了具有椭圆形状等的节点32。可以将在图3中所示的排序的比特序列23的各个比特看作布尔变量(或者真或者假)。例如，第一比特dl对应于节点32a。
[0116]有序二分决策图被定义为:(1)定义在节点中的总的顺序关系，以及，(2)变量对于从顶节点到常量节点的所有路径出现的顺序与总的顺序关系一致。在图5中所示的示例中，图示了顶节点(根节点)33和常量节点34。在图5中所示的示例中，常量节点表示“I”(真)。因为顶节点和常量节点是特殊的，所以使用与其他普通节点不同的附图标记来指示这些节点。
[0117]减小的二分决策图是对其尽可能多地应用下面两个简化规则的二分决策图:(I)删除所有的冗余节点；以及，(2)共享所有的等同节点。
[0118]因此，在图5中所示的二分决策图是减小的有序二分决策图。
[0119]在图5中所示的二分决策图采用三种类型的分支:被表示为实线的“Then”分支、被表示为宽间隔点线的“Else”和被表示为包括符号的窄间隔点线的“负Else”分支。利用“负Else”分支，执行NOT操作需要短的时间。例如，在图5中图示了“Else”分支35a。
[0120]返回参见参考图2的说明，控制器11计算在二分决策图中对于每一个节点的最小项的数量(步骤S5)。下面参考图6A和6B与图7来说明用于计算最小项的数量的处理。
[0121]图6A和6B是用于说明计算最小项的数量的处理的图。图7图示了最小项的数量的计算。
[0122]最小项是在给出布尔变量集的情况下包括所有布尔变量的字面值的乘积项。例如，对于布尔变量集是(a, b, c)的情况，“a!bc”是最小项,但是“a!b”不是最小项。表达“比”表示非讣”。
[0123]控制器11对于每一个节点计算在从顶节点起经过负分支偶数次的情况下的最小项的数量P和在从顶节点起经过负分支奇数次的情况下的最小项的数量N。
[0124]首先，控制器11计算常量节点的最小项的数量。常量节点的最小项的数量P是2"(η表示布尔变量的数量，即，排序的比特序列23的比特的数量)，并且常量节点的最小项的数量N是“O”。如图3中所示，因为排序的比特序列的比特的数量是“6”，所以对于常量节点的最小项的数量P是26 = 64。因此，对于在图7中所示的常量节点34，最小项的数量P是64,并且最小项的数量N是O。
[0125]接下来，控制器11通过深度优先搜索来递归地计算对于除了常量节点之外的各个节点的最小项的数量。
[0126]如图6Α和6Β中所示，控制器11对于下述情况计算各个节点的最小项的数量:情况(a)，其中，“Else”分支不是负分支；以及，情况(b)，其中，“Else”分支是负分支。
[0127]现在说明在图6A中图示的情况。参见图6A，节点32d是对于其而言要执行计算的节点，通过“Then”分支连接的下节点32b的值P是“t_p”(已知)，节点32b的值N是“t_n”(已知)，通过“Else”分支连接的下节点32c的值P是“e_p”(已知)，并且，节点32c的值N是“e_n”(已知)。此时,控制器11使用等式:P=t_p/2+e_p/2, N=t_n/2+e_n/2,根据对于下节点32b和32c的计算结果来计算节点32d的最小项的数量。
[0128]现在说明在图6B中图示的情况。参见图6B，节点32g是对于其而言要执行计算的节点，通过“Then”分支连接的下节点32e的值P是“t_p”(已知)，节点32e的值N是“t_n”(已知)，通过“负Else”分支连接的下节点32f的值P是“e_p”(已知)，并且，节点32f的值N是“e_n”(已知)。此时,控制器11使用等式:P=t_p/2+e_n/2, N=t_n/2+e_p/2,根据对于下节点32e和32f的计算结果来计算节点32g的最小项的数量。
[0129]例如，在图7中图示的节点32h的情况下，节点32h通过其连接到下节点(=常量节点34)的“Else”分支是负分支。因此，以图6B中所示的计算方法中计算最小项的数量。即，对于节点 32h，P=64/2+0/2=32，并且 N=64/2+0/2=32。
[0130]例如，在图7中图示的节点32i的情况下，节点32i通过其连接到下节点的“Else”分支不是负分支。因此，以图6A中所示的计算方法中计算最小项的数量。即，对于节点32i，P=32/2+64/2=48,并且 N=32/2+0/2=16。
[0131]返回参见参考图2的说明，控制器11计算对于二分决策图的每个节点的局部密度(步骤S6)。下面参考图8A和SB与图9来说明用于计算局部密度的处理。
[0132]图8A和SB是用于说明计算局部密度的处理的图。图9图示了局部密度的计算结果。注意，在图9中所示的P和N的值具有与在图7中所示的P和N的值不同的含义。
[0133]为了方便，图8A使用卡诺图30b来图示了在图7中所示的节点32j的P-连接的局部密度。为了方便，图8B使用卡诺图30c来图示了在图7中所示的节点32k的P-连接的局部密度。
[0134]“P-连接”表示从顶节点到目标节点的路径，其中，负分支被经过了偶数次。“N-连接”表示从顶节点到目标节点的路径，其中，负分支被经过了奇数次。
[0135]现在考虑节点32j。
[0136]从图7清楚，仅存在顺序经过分支35a和35b的路径作为从顶节点33至节点32j的路径。
[0137]分支35a是“Else”分支，其指示布尔变量dl是“O”。类似地，分支35b是“Else”分支，其指示布尔变量el是“O”。其他布尔变量d2、e2、d3和e3 “无关”(“无关”变量可以取值“O”或“I”)。图8A中所示的虚线围绕的矩形区域41a表示与路径对应的区域，其中，布尔变量“dl”表示“0”，布尔变量“el”表示“0”，并且其他布尔变量“无关”。
[0138]当将在卡诺图30a中的矩形区域41a的图案重复四次时获得在图8A中所示的卡诺图30b。节点32j的P-连接的局部密度对应于卡诺图30b的总的密度。S卩，如在图9中所示，节点32j的P-连接的局部密度是“0.25”。
[0139]现在考虑节点32k。
[0140]从图7清楚，存在顺序经过分支35a、35b、35c和35d的第一路径和顺序经过分支35a、35b、35e和35f的第二路径作为从顶节点33至节点32k的路径。
[0141]关于第一路径，布尔变量dl是“0”，布尔变量el是“0”，布尔变量d2是“1”，布尔变量e2是“0”，并且其他布尔变量d3和e3 “无关”。图SB中所示的虚线围绕的矩形区域41b表示与第一路径对应的区域。
[0142]关于第二路径，布尔变量dl是“0”，布尔变量el是“0”，布尔变量d2是“0”，布尔变量e2是“1”，并且其他布尔变量d3和e3 “无关”。图SB中所示的虚线围绕的矩形区域41c表示与第二路径对应的区域。
[0143]当将在卡诺图30a中的矩形区域41b (或41c)的图案重复16次时获得在图8B中所示的卡诺图30c。节点32k的P-连接的局部密度对应于卡诺图30c的总的密度。S卩，如在图9中所示，节点32k的P-连接的局部密度是“0.25”。
[0144]在本发明的实施例中，控制器11在步骤S5中计算在二分决策图31中的各个节点的最小项的数量。因此，控制器11能够通过将二分决策图31的节点的最小项的数量除以2n来计算每一个节点的P-连接的局部密度，其中，η表示比特序列的比特的数量。S卩,控制器11不必利用各个节点的最小项的数量来执行用于建立在图8Α和SB中所示的卡诺图30b和30c的处理。
[0145]例如，节点32j的P-连接的局部密度=节点32j的最小项的数量/2n = 16/26 =0.25。例如，节点32k的P-连接的局部密度=节点32k的最小项的数量/2n= 16/26 =0.25。可以以类似的方式来获得其他节点的局部密度。
[0146]通过“从I减去节点的P-连接的局部密度”来获得每一个节点的N-连接的局部
山/又ο
[0147]返回参见参考图2的说明，控制器11计算通过从局部密度减去等同于单个数据的密度而获得的值作为去除了单个数据的局部密度(步骤S7 )。
[0148]以下，将去除了单个数据的局部密度缩写为“留一(LOO)密度”。将参考图10来描述用于计算LOO密度的处理。
[0149]图10图示了 LOO密度的计算结果。注意，在图10中所示的P和N的值具有与在图7或9中所示的P和N的值不同的含义。
[0150]通过“从局部密度减去等同于单个数据的密度”来获得LOO密度。等同于每一个节点的密度被定义为“2αχΜ)的倒数”，其被求和到等式:L00密度=局部密度-2ttXM)的倒数。M是数值属性的数量。
[0151]控制器11计算各个节点的LOO密度。
[0152]现在说明等级L。如图10中所示，常量节点34被定义为“等级O”。与作为“最低有效位(LSB)”的d3和e3对应的节点被定义为“等级I”。与作为在下一等级中的比特的d2和e2对应的节点被定义为“等级2”。与作为“最高有效位(MSB)”的dl和el对应的节点被定义为“等级3”。即，用于表示数值属性的维度(变量)的比特序列的长度K对应于等级L的最大值，并且等级L取值在O和K之间的范围内的整数。
[0153]将参考图10来说明LOO密度的计算示例。
[0154]例如，通过下述表达式来获得节点32j的P-连接的LOO密度:0.25-1/2(2Χ2)=0.25-1/16=3/16，近似等于 0.19。
[0155]例如，通过下述表达式来获得节点32j的N-连接的LOO密度:0.75-1/2(2Χ2)=0.75-1/16=11/16，近似等于 0.69。
[0156]例如，通过下述表达式来获得节点32k的P-连接的LOO密度:0.25-1/2(1Χ2)=0.25-1/4=0。
[0157]例如，通过下述表达式来获得节点32k的N-连接的LOO密度:0.75-l/2(1X2)=0.75-1/4=0.5。
[0158]使用等式:L00密度=max {O,局部密度_2(LXM)的倒数}来计算常量节点34的LOO密度，以便防止LOO密度取负值。然而,这不是必要的。在本发明中LOO密度取值负值不存在问题
[0159]返回参见参考图2的说明，控制器11基于LOO密度来计算各个数据的偏离度(步骤S8)。将参考图11和12与图13A至13D来说明用于计算偏离度的处理。
[0160]图11图示了用于表示在二分决策图中的一个目标数据的路径。图12图示了用于表示在卡诺图中的一个目标数据的区域。图13A至13D是用于说明要提取的LOO密度的图。
[0161]控制器11从数据集逐个地确定一个目标数据，并且对于该目标数据执行处理。以下，将说明将(dl，el, d2, e2, d3, e3) = (l, 0，0，I, I, 0)确定为一个目标数据x的示例。[0162]控制器11在二分决策图中搜索用于表示一个目标数据X的路径、提取其等级(层)被改变的节点的LOO密度，并且基于所提取的LOO密度来计算该目标数据X的偏离度。
[0163]在图11中所示的示例中，节点32a、321、32m和34的等级(层)改变。
[0164]基于从顶节点起经过负分支的次数来确定关于是否要提取P-连接的LOO密度或是否要提取N-连接的LOO密度。S卩，控制器11在从顶节点起经过负分支偶数次数的情况下提取P-连接的LOO密度，并且在从顶节点起经过负分支奇数次数的情况下提取N-连接的LOO密度。
[0165]对于节点32a，因为经过一个负分支，所以控制器11提取N-连接的LOO密度“0.28”。对于节点321，因为经过一个负分支，所以控制器11提取N-连接的LOO密度“0.38”。对于节点32m，因为经过一个负分支，所以控制器11提取N-连接的LOO密度“0.25”。对于常量节点34，因为经过两个负分支，所以控制器11提取P-连接的LOO密度“O”。
[0166]因此，控制器11 提取(0.28，0.38，0.25，O)。
[0167]将参考图13A至13D来说明各个提取的LOO密度的含义。
[0168]如图13A中所示，当作为单个单位区域(=由目标数据X占据的区域)的矩形区域41d被定义为整个区域时，对于等级O的LOO密度，即，常量节点34的LOO密度对应于在去除目标数据X的情况下的数据密度。
[0169]如图13B中所示，当包括四个单位区域的矩形区域41e被定义为整个区域时，对于等级I的LOO密度，即，节点32m的LOO密度对应于在去除目标数据x的情况下的数据密度。
[0170]如图13C中所示，当包括16个单位区域的矩形区域41f被定义为整个区域时，对于等级2的LOO密度，即，节点321的LOO密度对应于在去除目标数据x的情况下的数据密度。
[0171]如图13D中所示，当包括64个单位区域的矩形区域41g被定义为整个区域时，对于等级3的LOO密度，即，节点32a的LOO密度对应于在去除目标数据x的情况下的数据密度。
[0172]如上所述，可以将提取的LOO密度表达为分级局部密度(HLD)。
[0173]例如，控制器11将提取的LOO密度(HLD)的最大值定义为目标数据的偏离度。在图11中所示的示例中，控制器11将值(0.28，0.38，0.25，O)的最大值“0.38”定义为目标数据的偏离度。
[0174]而且，控制器11可以将提取的LOO密度的平均值或中值而不是提取的LOO密度的最大值定义为目标数据的偏离度。
[0175]而且，控制器11可以基于提取的LOO密度的一些而不是提取的LOO密度的全部来
计算偏离度。
[0176]例如，控制器11可以基于在提取的LOO密度中的在更高等级(层)中的节点的LOO密度来计算偏离度。在图11中所示的示例中，控制器11可以基于在“等级3”和“等级2”中的节点的LOO密度(0.28，0.38)来计算偏离度。也在该情况下，控制器11可以采用最大值、平均值或中值等来用于一个目标数据的偏离度。
[0177]在上面的说明中，将观察区域建立为二分决策图。然而，本发明也可以被应用到使用卡诺图或其他数据结构来建立观察区域的情况。[0178]控制器11可以从在数据集中包括的多个数据逐个地确定一个目标数据，并且基于当从观察区域去除与这一个目标数据对应的区域时与这一个目标数据相邻的数据的数据密度来计算目标数据的偏离度。LOO密度是当从观察区域去除与一个目标数据对应的区域时与这一个目标数据相邻的数据的数据密度的示例。
[0179]返回参见参考图2的说明，控制器11通过将在步骤S8中计算的偏离度与预定阈值作比较来检测离群值(步骤S9)。然而，不必执行步骤S9的处理。例如，控制器11可以经由输出装置(介质输入/输出单元13、通信控制器14、显示单元16、外围装置接口单元17等)来输出在步骤S8中计算的偏离度的列表。用户可以观看偏离度的列表，并且检测离群值。
[0180]在图2中所示的处理步骤中的具有最重的计算负荷的处理步骤是用于在步骤S4中建立二分决策图的处理。用于建立二分决策图的处理的计算量的数量级被表示为O(NXD)，其中，N表示在数据集中的数据的数量，并且D表示在二分决策图中的节点的数量。
[0181]在数据集的维度的数量小的情况下，节点的数量D通常不很大。因此，在给定的数据集的维度的数量大的情况下，可以使用维度减少方法来减少维度的数量。利用适当的维度减少，可以减少维度的数量，而不影响结果。另外，可以通过将数值属性的数据四舍五入以限制比特的数量来减少节点的数量D。
[0182]因此，通过在用于在步骤S4中建立二分决策图的处理的执行之前执行适当的预处理，可以获得关系:D〈〈N。即，可以将计算量的数量级看作O(M)。
[0183]而且，从在图2中所示的各个处理步骤清楚，仅有在步骤S9中使用的阈值是要由用户调整的参数。在步骤S9中使用的阈值是用于确定值是否是离群值的参数而不是用于计算偏离度的参数。即，离群值检测设备I能够计算偏离度，而不执行参数调整操作。
[0184]即使当改变在步骤S9中使用的阈值时，也不必再一次执行步骤SI至S8的处理，并且在步骤S9的处理中的计算负荷是可忽略地小。因此，离群值检测设备I能够辅助或执行在实用时间内的离群值的检测。
[0185]如上所述，在本发明的实施例中，离群值检测设备I针对每一个维度将在数据集中包括的各个数据转换为比特序列，并且基于该比特序列来建立数据集的观察区域。然后，离群值检测设备I从在数据集中包括的多个数据逐个地确定每一个目标数据，并且基于当从观察区域去除与目标数据对应的区域时与目标数据相邻的数据的数据密度来计算目标数据的偏离度。
[0186]因此，离群值检测设备I能够辅助或执行在实用时间内的离群值的检测，而不对非线性数据集执行参数调整操作。
[0187]第一实施例
[0188]以下，在本发明的第一实施例中，将参考图14至19来描述示例I和比较示例。
[0189]图14A和14B每一个图示了在示例I和比较示例中使用的数据集。通过在二维空间中示意地绘制在夜空中的月亮(Moon)和星星(Star)的光来获得在图14A和14B中所示的数据集。以下，在图14A和14B中所示的数据集被称为MoonStar数据集。MoonStar数据集的属性是:人为产生的数据；维度的数量M是2 ;数据的95%被分布在新月形状的区域内，并且数据的5%任意分布；以及，数据的数量N是1000、5000。[0190]图14A图示了包括1000个数据(N = 1000)的数据集，并且在图14A中所示的数据集被称为MoonStarlOOO。图14B图示了包括5000个数据的数据集(N = 5000)，并且在图14B中所示的数据集被称为MoonStar5000。在图14A和14B中，圆圈标记表示各个数据。
[0191]如下所述，为了实现确定准确度的适当的比较，在示例I和比较示例中，将数据的5%确定为离群值(星星)。而且，为了实现计算时间的适当的比较，使用同一计算机来执行处理。
[0192]在示例I中，离群值检测设备I计算偏离度，并且将具有小值(在步骤S9中使用的阈值)的数据集的5%确定为离群值。
[0193]在比较示例I中，在OC-SVM中，用于确定非线性映射的核心参数伽马被设置为“0.5”，并且用于指定离群值的比例的参数V被设置为“0.05”。
[0194]在比较示例2中，在OC-SVM中，用于确定非线性映射的核心参数伽马被设置为“2”，并且用于指定离群值的比例的参数V被设置为“0.05”。
[0195]在比较示例3中，在LOF中，参数k被设置为“ 10”，并且具有大值的数据集的5%被确定为离群值。
[0196]在比较示例4中，在LOF中，参数k被设置为“100”，并且具有大值的数据集的5%被确定为离群值。
[0197]对于在OC-SVM中的所有计算，使用在统计计算语言R的库el071中的svm函数。对于在LOF中的所有计算，使用在统计计算语言R的库dprep中的1factor函数。
[0198]图15A和15B图`示了在示例I中的离群值的检测结果。图15A图示了对于MoonStarlOOO的结果。图15B图示了对于MoonStar5000的结果。在图15和15B中，十字标记表示被检测为离群值(星星)的数据，并且圆形标记表示被确定为月亮(Moon)的数据。为了十字标记(离群值)更清楚的可视化，以光线来图示圆形标记。这适用于图16A和16B、图17A和17B、图18A和18B以及图19A和19B。
[0199]表1表不在不例I中对于MoonStarlOOO的确定结果。表2表不在不例I中对于MoonStar5000的确定结果
[0200][表 I]

确定结果
~MM^
[0201]
一、月焭9437
正确答案---
_星星 _8_ 42
[0202][表2]
_确定结果_
~MM~
[0203]"TI
月焭473218
正确答案---
_星星_32_ 218
[0204]在表1和2的每一个中，在四个单元格中，在左上单元格中的值表示将“Moon (月亮)”检测为“Moon”的结果的数量。在右上单元格中的值表示将“Moon”检测为“Star (星星)”的结果的数量。在左下单元格中的值表示将“Star”检测为“Moon”的结果的数量。在右下单元格中的值表示将“Star”检测为“Star”的结果的数量。在左上单元格和右下单元格中的值的和表示准确的检测结果的数量。在左下单元格和右上单元格中的值的和表示不准确的检测结果的数量。这适用于表3至10。
[0205]在示例I中，对于MoonStarlOOO需要0.03秒的计算时间，并且，对于MoonStar5000需要0.17秒的计算时间。即，因为相对于数据的数量的5倍的增大，呈现出计算时间的大约5.7倍的增大，所以可以说在示例I中的计算时间的数量级是O(M)，其中，N表示数据的数量。
[0206]图16A和16B图示了在比较示例I中的离群值的检测结果。表3图示了在比较示例中对于MoonStarlOOO的确定结果。表4图示了在比较示例中对于MoonStar5000的确定结果。
[0207][表3]
【权利要求】
1.一种离群值检测设备，所述离群值检测设备辅助或执行从包括多个数据的数据集中检测离群值，所述多个数据的每一个具有一个或多个维度，所述设备包括: 控制器，所述控制器针对所述一个或多个维度的每一个将在所述数据集中包括的所述多个数据的每一个转换为比特序列、基于所述比特序列来建立用于所述数据集的观察区域、从在所述数据集中包括的所述多个数据逐个地确定一个目标数据，并且基于当从所述观察区域去除与所述一个目标数据对应的区域时与所述一个目标数据相邻的数据的数据密度来计算所述一个目标数据的偏离度。
2.根据权利要求1所述的离群值检测设备，其中，所述控制器将所述观察区域建立为二分决策图、将通过从每一个节点的局部密度减去等同于单个数据的密度而获得的值定义为去除了单个数据的局部密度，并且基于所述去除了单个数据的局部密度来计算所述一个目标数据的所述偏离度。
3.根据权利要求2所述的离群值检测设备，其中，所述控制器通过以从最高有效位至最低有效位的顺序针对数值属性的维度对比特序列组进行排序来分级地建立所述二分决策图、在所述二分决策图中搜索用于表示所述一个目标数据的路径，并且基于等级被改变的节点的所述去除了单个数据的局部密度来计算所述一个目标数据的所述偏离度。
4.根据权利要求3所述的离群值检测设备，其中，所述控制器将等级被改变的节点的所述去除了单个数据的局部密度中的一些或全部的最大值、中值或平均值定义为所述一个目标数据的所述偏离度。
5.根据权利要求4所述的离群值检测设备，其中，所述控制器通过将所述偏离度与阈值作比较来检测所述离群值。
6.一种离群值检测方法，用于辅助或执行从包括多个数据的数据集中检测离群值，所述多个数据的每一个具有一个或多个维度，所述方法包括: 针对所述一个或多个维度的每一个将在所述数据集中包括的所述多个数据的每一个转换为比特序列；基于所述比特序列来建立用于所述数据集的观察区域；从在所述数据集中包括的所述多个数据确定一个目标数据；并且基于当从所述观察区域去除与所述一个目标数据对应的区域时与所述一个目标数据相邻的数据的数据密度，来计算所述一个目标数据的偏离度。
7.—种车辆故障诊断系统，包括: 离群值检测设备，所述离群值检测设备辅助或执行从包括多个数据的数据集中检测离群值，所述多个数据的每一个具有一个或多个维度；以及，数据收集设备，所述数据收集设备收集车辆数据，其中，所述离群值检测设备包括控制器，所述控制器通过下述方式来检测离群值:针对所述一个或多个维度的每一个将在所述数据集中包括的所述多个数据的每一个转换为比特序列，由所述数据收集设备收集的所述车辆数据被定义为所述数据集；基于所述比特序列来建立用于所述数据集的观察区域；从在所述数据集中包括的所述多个数据逐个地确定一个目标数据；基于当从所述观察区域去除与所述一个目标数据对应的区域时与所述一个目标数据相邻的数据的数据密度，来计算所述一个目标数据的偏离度；以及将所述偏离度与阈值作比较。
【文档编号】G06N7/00GK103493075SQ201280018268
【公开日】2014年1月1日申请日期:2012年2月27日优先权日:2011年5月17日
【发明者】沓名拓郎, 佐藤守一申请人:株式会社丰田中央研究所

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：沓名拓郎;佐藤守一
技术所有人：株式会社丰田中央研究所
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。