处理混合的数值和/或非数值数据的制作方法

文档序号:6406805阅读:226来源:国知局
专利名称:处理混合的数值和/或非数值数据的制作方法
技术领域
本申请涉及借助于计算的智能数据处理技术例如人工神经网络,群集分析,自组织,可视化以及其它的智能数据处理技术。具体地说,本申请涉及利用这些技术的一种或其组合处理混和的数值数据非数值非数值数据的方法和装置。
背景技术
人工神经网络(神经网络)和其它的人工智能技术一直用于处理分类应用领域中的模式格式化信息和数据。一些人提出,神经网络可以高效地用于处理数值模式数据,但是,如果不根据情况进行特定的和复杂的修改,它们不特别适合于非数值数据的处理。
常规的符号处理技术一般涉及这样的构思和定性的关系,它们部分地依赖于在非数值模式内的具有辨识能力的结构,例如在基于规则的或基于情况的推理系统中。不过,具有许多情况,其中需要识别和表示在混和的数值和/或非数值数据的实体之间的关系。例如,在电子媒体中,例如在互联网(或者其它有线的或无线的计算机/电信网络)上,可以得到以混和的数值和/或非数值数据表示的大量的信息。不过,常规的符号处理技术一般不适用于处理这种混和数据形式的信息。
此外,常规的数值或符号处理技术通常预选一种或几种模式结构格式用于处理输入的数据。结果,这种技术不适用于处理具有预选的结构之外的结构的符号模式。
需要一种用于符号处理的方法和系统,其至少能够避免上述的常规符号处理技术的缺点。

发明内容
本申请提供一种用于处理所选任务的混和的数值的与/或非数值的数据(下面称为“混和数据”)的方法和设备。按照一个实施例,用于处理所选任务的混和数据的方法包括把混和数据转换成转换数据,并处理所述转换数据,以便提供用于所选任务的函数输出。
按照一个实施例,用于处理所选任务的混和数据的设备包括适用于把混和数据转换成转换数据的输入变换模块,以及适用于处理所述转换数据,从而提供用于所选任务的函数输出的函数映射模块。所述设备可以是被存储在计算机可读的介质上的和/或通过计算机网络或其它传输介质传输的计算机程序。
按照一个实施例,混和数据通过路标变换被变换成转换数据。设置群集中心作为参考点,从混和数据到各个参考点的距离相应于转换的数据空间的维数。输入变换模块可以通过混和数据训练集的群集被训练。输入变换模块可以使用k-means方法或分级的k-mediods方法确定群集的中心。输入变换模块还可以使用被监控的学习方法来确定群集的结构。
按照另一个实施例,混和数据通过编码方法变换成转换数据。混和数据可以包括消费者简档信息。
输入变换模块和函数映射模块可以包括神经网络的各个层。转换数据可以是一种数值表示。混和数据可以相应于文本。
输入变换模块可以学习,以便把无组织的数据模式组织成相应于多个节点的集,所述节点的各个输出相应于转换数据。所述学习可以是非监控的。每个节点可以具有一个相关的群集注释函数。
函数映射模块可以包括具有至少一个基本函数的计算模型,所述基本函数的参数可以随着所述函数映射模块学习相应于所选任务的采样数据模式的训练集而被调节。所述函数映射模块可以使用回归技术来调节基本函数的参数。所述基本函数可以包括S形函数、小波函数、辐射状基本函数(radial basis function)和/或多项式。
函数映射模块可以包括函数链网络。所述函数链网络可以是正交的。所述函数映射模块的学习可以被监控。函数映射模块可以包括非线性的前馈网络,所述前馈网络可以通过误差的向后传播来学习。或者所述函数映射模块的学习可以通过递归最小平方估算方法例如正交的最小平方方法来实现。
所选任务可以是各种可能的认任务之一或其组合,包括可视化、搜索、调用(recall)、预测、分类等。例如,所选任务可以应用于数据挖掘,数据库检索,有目标的市场营销和/或计算机病毒检测。


由下面参照附图进行的详细说明可以更容易地理解本申请的特征,其中图1A表示按照本申请的一个实施例的用于对于选择的任务处理混和数据的方块图;图1B是一种典型的计算系统或计算机的方块图,其中可以驻存和/或执行在图1A所示的装置的软件实施例;图2是按照本申请的一个实施例用于处理选择的任务的混和数据的方法的流程图;图3是按照本申请的另一个实施例用于处理选择的任务的混和数据的装置的方块图;图4是按照用于处理选择的任务的混和数据的另一个实施例的方法的流程图;以及图5是按照本申请的另一个实施例用于处理选择的任务的混和数据的系统的一部分的方块图。
具体实施例方式
本申请提供一种智能方法和系统,其可以包括人工智能和神经网络技术的一种或其组合,用于处理选择的任务的混和数据。按照本申请的方法可用于例如可视化、检索、调用、预测和分类等任务。这些任务可以在技术和商务领域中找到,例如信息管理,企业管理,存储管理,网络基础设施管理以及处理管理。本申请还可以用于其它的技术和商务领域,例如数据挖掘,计算机病毒检测,有目的的市场预测,医疗诊断,语音和手写识别等。
下面参照图1A、1B说明按照一个实施例的用于处理选择的任务的混和数据的装置。
装置10包括输入转换模块11和函数变换模块13。装置10可以是存储在计算机系统的存储器中的计算机程序,其被存储在计算机可读的介质上和/或以一个或几个部分通过计算机网络和/或其它传输媒体传输,所述部分能够在计算机系统上执行。
图1B表示一个计算系统或或=计算机1,在其上可以执行或存储计算机可执行的代码例如装置10的软件的实施例。计算系统1包括处理器2,存储器3,硬盘4,可除去的存储驱动器5(用于读/访问可除去的存储介质,例如软盘、致密盘、数字通用盘(DVD)等),I/O装置6(例如显示器、键盘、鼠标、麦克风、扬声器等),以及和网络7的有线或无线连接。网络7可以是例如局域网(LAN),广域网(WAN),存储区域网(SAN),内联网,外联网,互联网,和/或任何其它的计算机和/或电信网络,以及这些网络的任意组合。计算机1可以是现有技术中已知的任何计算装置/系统。例如,个人计算机,便携式计算机,工作站计算机,大型机等。要被处理的混和数据例如可以从硬盘4和/或可以通过可除去的存储介质驱动器读/访问的可除去的存储介质,和/或通过网络7从其它的数据库或数据源中检索。此外,可以通过网络7把装置10下载到计算机系统1中。处理器2,存储器3和硬盘4可以被合适地配置(并且作为典型的),用于提供计算和存储能力,以便实施人工智能和神经网络方法。除去装置10之外的计算系统1的元件是常规的,因此,为清楚起见,此处不再详细说明。
在一个实施例中,输入变换模块11以数据变换模式操作,其中混和数据被变换或者被转换成被转换的数据。输入变换模块11可以包括可训练的功能,其可以是群集结构的形式或其它可训练的模块的形式。例如,可训练的模块可以利用群集技术中的一种或这些技术的组合。下面说明利用群集技术的输入变换模块的一个实施例。
如果模块11包括可训练的功能,则该模块能够以两种模式操作训练模式和数据变换模式。在训练模式中,输入变换模块11学习在混和数据的采样和所述采样要被变换成的变换数据之间的变换关系(例如函数,映射等)。如上所述,在数据变换模式中,混和数据被变换或转换成变换数据。这些模式将在下面详细说明。函数变换模块13利用一个或几个函数G(X),以便提供被变换的数据映射到相应于特定选择的任务的至少一个函数输出的函数表示。这种函数的例子包括线性函数、多项式、三角几何或高斯函数。要利用的特定函数的选择可以至少部分地基于特定的任务。
所述函数最好是正交的,并且随着函数映射模块13学习相应于一个选择的任务的采样模式的训练组而被调节。函数变换模块13例如可以是函数链网络(FLN)或者是正交函数链网络(OFLN)。FLN的例子在共同拥有的美国专利4979126,5734796,6134537,6212509中描述了,这些专利的全文被包括在此作为参考。OFLN的例子在共同拥有的美国专利申请序列号(档案号65206-PRO)名称为“AUTOMATICNEURAL-NET MODEL GENERATION AND MAINTENANCE”中描述了。
还可以预期用于提供被变换的数据映射到函数输出的函数表示的其它技术。这种其它技术的例子包括小波变换和多项式网络,其提供用于估算参数的函数表示。
此外,由函数变换模块13执行的功能性可以包括学习元件。例如,函数变换模块13可以和一个训练组一道使用递归的线性回归技术,其调节一个或几个函数的参数。下面参照图1和图2说明按照本申请的一个实施例用于处理选择的任务的混和数据的示例的方法。输入变换模块11变换或转换混和数据成为变换的数据(步S21)。然后变换的数据被函数映射模块13处理,从而提供至少一个功能输出(步S23)。
在实际方法中,需要减少作为用于提取对于选择的任务是有用的信息的前身的原始的混和的数据的复杂性。为了减少混和数据的复杂性,输入变换处理可以利用各种方法。例如,输入变换处理可以使用群集或者其它的自组织技术,例如自组织变换,以便变换数据模式。这种方法可以使用例如欧几里得距离或者使用基于数据点之间的另一种度量的距离的信息,以便推断数据点在多维数据空间中是如何分布的。这些方法的结果是要利用群集特征/属性或和数据模式的分布相关的一些其它信息更精确地描述大量的数据模式。用于输入变换处理的方法可以包括其它维数减少技术。维数减少技术的非限制性的例子可以包括通过Karhunen-Loeve(K-L)变换进行的线性原理元件分析,PCA、SOM的神经网络实现,自相关的变换技术,再生地形变换(GTM),非线性的变量保存变换(NLVC)以及均衡的正交变换(EOM),这些在共同拥有的美国专利5734796,6134537和6212509中描述了,其全部内容被包括在此作为参考,以及非线性变换及其神经网络实现,还有距离比约束变换。
所述输入变换处理可以具有分类和/或特征提取的效果,或者可以帮助进行分类和/或特征提取。分类的任务一般包括把数据模式空间分成相应于离散的各个类的单独的区域。一个类是一组具有某些公共的特性、属性或特征的模式(这些也可以单独地或者任意组合地被称为“特征”、“特性”、“属性”和“特点”)。因此,在一个区域中的数据模式可以按照具有相应的特征进行分类。此外,判别式函数例如线性函数、平方函数、S形曲线函数和/或基于高斯的函数可用于限定在类范围之间的边界。因此,通过对一个模式应用相应的判别式函数,可以确定所述模式是否应该归入选择的类。
特征提取方法一般包括使特征的数量最小,以便对于一个或一组提取的特征以和选择的任务相关的方式描述数据模式。最好是,提取的一组特征足以表征数据模式的相关的特性、属性和/或特征。特征提取可以认为是一种数据减少方法,其保留数据模式的必须的特征,同时消除无关的特性、属性和特征的干扰,使得在下游进行的决定处理容易。在一些例子中,类可以用它们的相应的特征作为类标签来注释。
如上所述,按照一个实施例,输入变换模块可以包括可训练的智能模块,其至少具有两种操作模式训练模式和数据变换模式。
在训练模式,输入变换模块11学习数据模式类。在训练期间,在模块11中输入在选择的任务中可以遇到的或者和选择的任务相关的数据模式的类型的一组代表性的采样。如果训练被监控(例如,采样模式和相应的期望的/所需的作为训练组的模块输出一道被提供),则在代表性的采样组中的每个采样(这里也称为“训练采样”)可以包括采样模式的采样数据模式加上类标签注释(或其它目标信息,例如和采样模式相关的特性、属性和/或特征)。如果训练不被监控,例如当输入变换模块11使用群集技术时,则不在训练组中提供特征。如果在训练模式期间在感兴趣的类内提供足够的采样模式,则模块11可以充分地学习,以便表征这些类,使得在数据变换模式下,被输入到模块11的原始数据模式可以可靠地和重复地在这些类中被分类。
例如,使用群集方法(或其它自组织单独)的输入变换模块11可以学习,以便利用采样数据模式的训练组对数据模式分类。在训练之后,输入变换模块11具有M个群集,其中的每一个一般具有(但不是必须具有)一个相关的注释(特性、属性和/或特征或其它特点)。可以通过利用注释的训练组进行训练来获得注释,或者通过在完成训练之后群集的注释获得注释。
当混和数据模式被输入给处于数据变换模式的输入变换模块11时,数据模式被M个群集的每一个评价(例如确定到每个群集中心的距离),并可以作为具有相应于M个群集评价的构造数据输出评价结果。这样,混和数据模式的空间被变换成(或转换成)根据相应于在输入变换模块11中的M个群集的特征构成的第二空间。
接着,M个元素宽的构造数据被提供给函数映射模块13。神经网络类型的函数映射模块可以包括一个或几个基本函数G(X)。基本函数可以是线性函数、多项式、三角函数或基于放射的函数。基本函数的选择是任务特定的。这些基本函数最好是正交的。当函数映射模块学习相应于选择的任务的采样模式的训练组时,基本函数的参数被调节。
函数映射模块可以是函数链网络,其例如在美国专利5734796,6134537,6212509中描述了。函数链网络是合适的,这是因为其可以支持许多功能(和任务)。也可以使用包括函数表示的其它的技术,在所述函数表示中其参数被估计(例如小波,多项式网络等)。这种技术可以具有学习元件。例如,函数变换模块可以使用递归线性回归技术,其中利用训练组来调节基本函数的参数。
图3表示一个示例的实施例,其中输入变换模块和函数变换模块包括各个层的神经网络。
输入变换层通过混和数据训练组的群集被训练,从而形成N个群集节点c1...cN。这些群集节点可以通过使用非监控的学习技术来形成。每个节点可以具有相关的群集注释函数。或者,所述节点在完成训练之后被注释。在数据变换模式期间,混和数据模式x被输入给群集节点c1...cN。群集节点把数据模式x变换成N个分量的转换数据。
转换数据被输入给函数链网络,其是一个前馈的平面网络(一层),具有基于放射的函数节点f1...fM。当函数链网络学习和所选任务相关的采样模式的训练组时,基本函数的参数被调节。函数链网络的学习可以通过错误的后传播或者通过本领域已知的另一种被监控技术来实现。或者所述学习可以通过递归最小平方估算方法进行,例如正交的最小平方方法,或者通过在本领域中已知的另一种被监控的学习技术进行。
上述的根工具和方法可被修改使得适用于任何任务。
例如,所选任务可以是根据未组织的输入项进行的被分类成N个类的数据库的搜索,或者是被分类为N个范围的信息网络的搜索,或者是合适的关键字/术语的调用。在训练中的输入变换模块可以被监控下被训练,以便使每个采样训练模式和相应的类/域相关。例如,在训练组中的每个采样可以具有一个相关的类/域标签。在数据变换模式下,变换模块把混和数据搜索模式转换成N个元素的输出(转换数据),每个相关元素表示一个在搜索模式和与输出元素相关的类/域之间的相似性/相关性之间的量度。函数变换模块被训练,以便处理N个元素的转换数据,并例如推荐和其相关的N个类/域或关键字/术语中的一个或几个被搜索。
另一个所选任务可以是例如对有目标的市场需求进行分类和/或预测。例如输入变换模块可利用从混和数据的数据库中提取的训练采样被监控地或者非监控地训练,所述混和数据包括或描述用户购买模式。在数据变换模式下,输入变换模块比较混和数据输入模式(和一个被研究的用户的情况相关或者从所述情况中提取的)和在训练期间由所述模块学习的N个购买特性/倾向(例如和产品类相关),并提供N个元素的输出(转换数据),其代表在输入的购买分布模式和N个购买特性/倾向之间的相似性和/或相关性。函数映射模块可变训练,以便处理N个元素的转换数据,并且(i)在一个或几个购买特性/倾向下分类用户的概况,和/或(ii)预测例如研究的顾客可能购买的其它的商品和/或服务(因此可以针对所研究的顾客作所述商品/服务的广告或推销)。
在另一个例子中,可以使所述工具适用于计算机病毒检测软件。输入变换模块可利用从被感染的计算机文件/代码(例如可视的基本的脚本文件,MS Word macro等)的被破坏的部分中提取的采样混和数据模式被训练,从而形成具有相应的病毒特性/特征的群集。在数据变换模式下,输入变换模块比较从一个扫描的文件/代码中提取的混和数据输入模式和在训练期间由模块学习的每个群集,并提供一个输出(转换数据),其代表在输入的数据模式和与各个病毒特性相关的群集之间的相似性和/或相关性。函数映射模块被训练,以便处理转换数据,并确定(a)是否提取的数据模式可能相应于被一个或几个病毒感染,以及(b)如果被感染,则确定病毒的识别或种类。
按照使用路标变换的另一个实施例的一种用于处理所选任务的混和的数值和非数值(例如符号)数据的方法,所述路标变换用于把混和数据变换成在相应于在数据点和路标之间的距离的维数的空间中的转换数据,所述方法可以包括以下步骤(a)确定由所述混和的数值数据和非数值数据覆盖的数据空间的距离的量度,其使得在所述数据空间中的任意两点之间的距离能够被计算(步S41);(b)根据确定的度量群集一个混和数据训练组(根据使用的群集技术,每个群集的计算方法,也可以限定一个相应的质心;群集所得的结果可以根据问题的性质被直接使用)(步S42);(c)使用群集中心作为一组参考点,使得到所述参考点的距离跨过变换的空间的维数(步S43);以及(d)使用神经网络和/或其它的人工智能类型的方法,在所选任务的变换的空间内进行进一步处理(例如可以使用神经网络建立一个用于分类数据点的模型)(步S44)。
在两个数据点之间的距离可以通过在数据空间的各个维数内的距离的组合确定。虽然在原始数据中的每个字段被作为维数来处理,在许多情况下,一些字段比另一些具有较近的关系,因而它们可以被在一起分组,从而形成一个用作一维的合成字段。把字段组合在一起可以减少维数,并且还可以帮助距离量度的确定。例如,当比较地球上位置之间的相对距离时,根据所述位置的纵向值和横向值,两个位置之间的相对距离的一个合适的度量可以是大的圆周距离,来代替两个位置之间的直线距离。
可以标定在每个维数内的距离,以便避免偶然地对一个维数给予更多的加权。对于混和数据,用于每个维数的一种技术是标定在所述维数到间隔
内的距离。当在所有各个维数中的距离被组合而计算两点之间的距离时,可以对某个维数指定附加的加权,以便比其它的更强调它们。因而,对于是合成字段的维数可以给予合适的处理,并且可以应用关于所选字段的相对重要性的先前的知识。
对于数值维数,可以通过缺省欧几里得距离来设置距离量度,这是最常用的一种距离量度,以便减少工作量。不过,根据数值数据的性质,也可以使用定制的距离函数。上述的纵横例子便属于一种这样的情况。其中可以使用其它的量度的数值维数的其它例子例如包括角度、日期和时间。
应当说明的是,一些似乎是数值的字段(例如社会安全数)实际上可以认为是符号的。一般地说,如果是一个数字的序列,而不是数值,这是重要的,则该字段应当被认为是符号的。
对于覆盖符号数据的维数,最可能的距离量度或许基于匹配符号。如果相应于这个维数的数据点的字段可被认为是一个集,则可以使用下式作为分别离开两个的数据点的符号集A和B之间的距离d=|A∪B|-|A∩B||A∩B|---(1)]]>公式(1)表示被标定的一种简单的符号匹配,以便满足距离量度的数学要求。当维数由具有简单的标称值的字段构成时(例如,由轿车的内部和外部颜色构成的维数“轿车颜色”,其中对颜色的数量的唯一的限制可以从制造者得到),该公式能很好地适用这种情况。
如果字段的值不能被认为是一个简单的集合,上述的量度(公式1)可以被一般化。一个例子是信息分类的问题中的自由文本文件。因为具有重复的字,并且一些字可能对于分类具有较大的权重,可以引入对于每个唯一符号的权重。在下面的公式(2)中提出了一种使用加权的可以和公式(1)相比的方法d=ΣiAwAl+ΣjBwBj-ΣkA∩B(wAk+wBk)ΣiAwAi+ΣjBwBj-12ΣkA∩B(wAk+wBk)----(2)]]>其中WAi(和WAk)表示和符号集A中的符号Ai(和Ak)相关的加权,WBj(和WBk)表示和符号集B中的符号Bj以及Bk相关的加权。当每个加权等于1时,公式(2)被简化为d=|A|+|B|-2|A∩B||A|+|B|-|A∩B|----(3)]]>公式(3)相当于公式(1),这是因为以下的事实|A∪B|=|A|+|B|-|A∩B|也可以使用更精确的距离量度进行文本处理。例如,当搜索文本信息的距离时,可能需要保持一个提示字序列。在这种情况下,如果序列被打断,则可以引入处罚,即使所有的提示字存在。这可以大大减少不太相关的或者根本无关的命中数量。
如果可以确定一个合理的距离量度,作为下述的步骤可以容易地被扩展,以便适用于其它类型的非数值数据。
一旦可以计算混和类型的两个数据点之间的距离,则可以借助于群集来分析这种数据点的集合。可以直接使用k-medoids技术。这种技术类似于k-means技术。其差别在于,代替在k-means情况下使用群集中的数据点的平均作为群集的中心,k-medoids技术使用群集中位于最中心的数据点作为群集的中心。位于最中心的数据点是这样的数据点,其具有在群集的点当中为最小的到群集中的所有其它数据点的距离的和。
k-medoids技术的优点在于,其使用数据点之间的距离进行群集,并且对于选出值不敏感。不过,k-medoids技术对于大的数据集的计算量大,因为用于识别medoid的步骤的复杂性为O(n2)数量级。对于大的数据集,可以进行采样,以便减少计算量。CLARA(ClusteringLARge Applications)以及CLARANS(Clustering Large Applicationsbased upon RANdomized Search)技术是k-medoids技术的扩展。
如果可以确定一种用于计算质心的方法,则可以在群集处理中使用更有效的k-means技术。对于数值数据的维数,质心可以简单地是在所述维数中的所有字段的平均值。对于符号数据的维数,质心可以是最能代表该群集的一个选择的模式。最有代表性的模式的构成物可以依赖于数据的性质和格式。
在所有的符号值当中,这样的符号值是最有代表性的数据,其当使用公式(1)作为距离量度时最频繁地发生,或者当使用公式(2)作为距离量度时具有最大的总权重。对于公式(1)是合适的距离量度的情况,可以引入试探,以便减少不经常发生的符号值。试探可以和在一个模式或在频度门限中包含的符号的平均数量相关。对于公式(2)是合适的距离量度的情况,值的符号性质不是大的问题,这是因为加权可以被平均。对于符号的数量是大的情况,例如自由文本,质心的尺寸可能变得太大。因此,可以使用基于符号值的相对加权的某种截断准则。
除去分割方法例如k-means和k-medoids技术之外,也可以应用其它的群集技术例如基于密度的方法。因为不同的群集技术使用不同的参数并且群集的结果可能对于这些参数的设置十分敏感,对于一个特定的问题,一种特定的群集技术可能比其它的更合适。
群集的结果可被直接用于理解(通过可视化)数据的结构、数据压缩、相关的调用以及其它的任务。机群群集结果也可用作用于把符号数据转换成数值形式的基础,使得用于数值数据的技术可被用于进一步处理,如下所述。
许多技术只适用于数值数据,因为它们包含只接收数值输入的函数。标准的隐含层神经网络便是一个这样的例子。因为对于链接的加权只适用于数值数据,并且激励函数只接收数值输入,这类技术不能直接应用于符号数据,并因而不能应用于混和数据。
为了应用现有的神经网络技术于符号或混和数据,数据被变换成数值型的。所述变换可以通过编码进行。一种方法是把每个符号的值转换成一个维数,并且使用1表示符号在模式中出现,而使用0表示不出现。当可能的符号的数量小时,这能很好地应用。对于在自由文本情况下的大量的符号,维数的数量因而问题的复杂性可能使得难于处理。
在转换处理中可以应用路标变换,并且群集的中心是路标布置的自然位置。然后每个符号数据点被转换成数值形式,其中通过计算所述数据点到所有的路标的距离,并且这些距离形成在变换的空间中的这个数据点的座标。
路标变换比编码技术的主要优点是,在变换空间中的维数的数量独立于在数据集中的可能的符号的数量。利用分级的群集或具有不同次数的几个群集结果集,还可以容易地动态地调节细节的值,即调节变换空间的复杂性,使得适合于在数据通路中的下游的方法的需要(见名称为“VIEWING MULTI-DIMENSIONAL DATA THROUGHHIERARCHICAL VISUALIZATION”共同拥有的美国专利申请[档案号66209-RPO]的美国专利申请)。因为座标是距离,这种变换方法还捕捉数据集的结构。
和编码技术相比,路标变换在这样的意义上是不透明的,即,其一般是不可逆的,并且原始的和变换的空间根据距离的定义是不对称的。在变换空间中的两点之间的距离是在原始空间中的“到路标的距离的距离”。这个差异可以使得基于距离的方法受到较大的符号群集结果的影响。只有当目的是研究群集的结构时,才可以使用这种方法。
不过,基于非线性变换的方法,例如神经网络,可以吸收这种差异,甚至从中得到益处。当和神经网络结合使用时,路标变换相当于神经网络的函数链接层。在混和数据集的被监控的学习开始之前,目标可被变换成数值的形式(如果其不是这种形式)。为此目的,可以使用编码技术,因为在这种情况下变换是可逆的。
为了能够更好地利用路标变换的可利用的动态控制,最好是(虽然非必须)使用自适应技术用于被监控的学习,例如正交最小平方(OLS)。OLS可以应用于线性函数链网络结构,并且可以动态地增加节点,直到结果满足某个训练准则。对于其它类型的结构,例如隐含的层网络,可以使用传统的向后传播或者共轭梯度学习技术,虽然如果网络结构改变,这些技术则使用完全的再训练。
除去构建被监控的学习模型之外,也可以在路标变换的下游进行数据的其它研究例如可视化。一些可视化技术,例如均衡正交映射,距离比约束的映射或自动相关的映射,使用具有专门格式化的目标的神经网络,使得它们可以被容易地应用于路标变换。尽管一些方法例如使用距离的自组织映射仍然可被使用,因为可视化群集结构,因而可视化数据是其目标。
为了说明使用上述技术进行的数据分析处理,可以使用来自保险公司的一个用户概况和购买数据集。这是一个混和的数值和符号数据集。数值字段是用户的年龄、工资和退休计划捐款。符号字段是性别和用户购买的保险产品表。目标是预测用户是否对购买一个特定的新的保险产品感兴趣。
一个模式数据集(例如800个用户的记录)可被分成训练数据集和试验数据集(例如2/3用于训练,其余的用于试验)。模式数据集可通过首先对其编码进行预处理。为了限制字段的数量,只识别一个最流行的产品的选择的数量(例如14),其余的被放在字段“其它”之下(总共得到15个产品字段)。符号字段“用户性别”被转换成相应于男、女和未知的3个字段。可以使用一种数值模拟方法例如OLS方法在被编码的数据上构建模型,用于预测用户是否购买新产品。
因为只能得到数据的编码形式,通过使3个用户性别字段和15个产品字段变为1个来形成混和数据集。该数据集首先被群集。对于每个群集,根据和该群集相关的大多数用户是否买过所述新产品,其以两个类之一(例如“买过”或“未买过”来修饰。注释使得群集的结果能够被间接地用于进行预测。当个新的模式落入一个群集中时,其便被指定为该群集的类别。
一种数值模拟技术例如OLS技术可用于根据混和数据和路标变换相结合直接地构建模型。在这种情况下,数值模拟技术不使用人工编码,并且如果可以得到在字段“其它”下的产品的整个表,其结果可被改善。
这里所述的方法还可以用于在企业模型中进行预测和推荐。图5表示按照本申请的另一个实施例用于处理所选任务的混和数据的系统的相关的部分。子系统50包括输入变换模块11和函数映射模块13,它们具有上述的功能和特征。除去历史数据库之外,子系统50包括一个或几个数据收集代理56和数据源57。数据收集代理56收集来自数据源57的数据,并把所述数据存储在历史数据库55中。数据收集可以是连续的、周期的和/或根据指令(例如来自输入变换模块)进行的。收集的数据可以全部地或部分地包括混和数据。在企业模型系统中,数据源可以包括本地机和被代理的装置(例如在网络中的路由器,其用于识别网络中的另一个装置)以及外部源。
输入变换模块11根据由数据收集代理56收集的并存储在历史数据库55中的历史数据学习每个装置的行为,并产生所述装置的行为的模型。输入变换模块11最好具有自适应的学习特征。因而,可以利用随时间而添加的收集数据对装置的模型进行改进。
例如,输入变换模块11可以被训练以便处理从外部信息源接收的混和数据。在企业资源使用中的尖峰和低谷可以和某类大字标题新闻(例如即将发生的战争,金融市场崩溃等)的存在相联系。因而,用于分配网络资源的策略可以包括监视每天的大字标题新闻。相关的数据集当然用混和数据表示。具有相关的企业资源使用数据的采样标题的训练集可以被分类成和企业使用要求相关的群集,其由历史数据表示。群集由标题的历史趋向引发,所述标题含有对企业资源使用具有类似的影响的某些类似的关键字。根据和特定的群集关联的采样标题,其可以由相关的网络资源要求(例如使用和采样标题混和数据相关的企业资源使用数据确定)注释,在查询时落在这个群集中的新闻标题可被合适地分类和推荐给网络分析者,用于调节要被分配的企业资源的程度/数量。
这里所述的方法、设备和系统可用于其中处理混和数据的各种任务,虽然本说明描述了几个示例的实施例,其中本申请的方法、设备和系统被应用于所选的任务中。所述的特定的实施例是说明性的,不脱离所附权利要求的范围或本说明的构思,可以对这些实施例引入许多改变。在本说明和所附权利要求的范围内,不同的说明性的实施例的元件与/或特征可以和每个其它的实施例的组合和/或用每个其它的元件替代。
通过阅读下面的美国临时专利申请,本领域的普通技术人员显然可以作出其它的改变,这些专利申请都被包括在此作为参考(a)2002年4月19日申请的序列号60/374064,名称为“PROCESSING MIXED NUMERIC AND/OR NON-NUMERICDATA”;(b)2002年4月19日申请的序列号60/374020,名称为“AUTOMATIC NEURAL-NET MODEL GENERATION ANDMAINTENANCE”;(c)2002年4月19日申请的序列号60/374024,名称为“VIEWINGMULTI-DIMENSIONAL DATA THROUGH HIERARCHICALVISUALIZATION”;(d)2002年4月19日申请的序列号60/374041,名称为“METHODAND APPARATUS FOR DISCOVERING EVOLUTIONARYCHANGES WITHIN A SYSTEM”;(e)2002年4月19日申请的序列号60/373977,名称为“AUTOMATIC MODEL MAINTENANCE THROUGH LOCALNETS”;以及
(f)2002年4月19日申请的序列号60/373780,名称为“USINGNEURAL NETWORKS FOR DATA MINING”。
权利要求
1.一种用于处理所选任务的混和数据的设备,包括适用于把混和数据变换成转换数据的输入变换模块,以及适用于处理所述转换数据,从而提供用于所选任务的函数输出的函数映射模块。
2.如权利要求1所述的设备,其中所述输入变换模块使用路标变换把混和数据变换成转换数据。
3.如权利要求2所述的设备,其中设置群集中心作为参考点,从混和数据到相应参考点的距离对应于转换的数据空间的维度。
4.如权利要求2所述的设备,其中输入变换模块通过混和数据训练集的群集进行训练。
5.如权利要求4所述的设备,其中输入变换模块使用一种被监控的学习方法。
6.如权利要求4所述的设备,其中输入变换模块使用k-means方法确定群集中心。
7.如权利要求4所述的设备,其中输入变换模块使用k-medoids方法确定群集中心。
8.如权利要求1所述的设备,其中输入变换模块使用编码方法把混和数据变换成转换数据。
9.如权利要求1所述的设备,其中混和数据包括消费者简档信息。
10.如权利要求1所述的设备,其中转换数据采用数值表示。
11.如权利要求1所述的设备,其中混和数据对应于文本。
12.如权利要求1所述的设备,其中输入变换模块学习把混和数据模式组织成对应于多个节点的集,所述节点的相应输出对应于所述转换数据。
13.如权利要求12所述的设备,其中每个节点具有一个相关的群集注释函数。
14.如权利要求12所述的设备,其中所述学习是非监控的。
15.如权利要求1所述的设备,其中函数映射模块包括具有至少一个基本函数的计算模型,并且所述至少一个基本函数的参数随着所述函数映射模块学习和所选任务相关的采样模式的训练集而被调节。
16.如权利要求15所述的设备,其中所述函数映射模块包括函数链网络。
17.如权利要求15所述的设备,其中所述函数映射模块包括正交函数链网络。
18.如权利要求15所述的设备,其中函数映射模块使用回归技术来调节所述至少一个基本函数的参数。
19.如权利要求18所述的设备,其中所述至少一个基本函数包括S形函数。
20.如权利要求18所述的设备,其中所述至少一个基本函数包括小波函数。
21.如权利要求18所述的设备,其中所述至少一个基本函数包括辐射状基本函数。
22.如权利要求18所述的设备,其中所述至少一个基本函数包括多项式。
23.如权利要求15所述的设备,其中所述函数映射模块的学习利用被监控的递归最小平方估计方法进行。
24.如权利要求15所述的设备,其中函数映射模块包括前馈网络。
25.如权利要求24所述的设备,其中所述前馈网络是非线性的。
26.如权利要求24所述的设备,其中所述前馈网络通过误差的向后传播进行学习。
27.如权利要求1所述的设备,其中输入变换模块和函数映射模块包括神经网络的相应层。
28.如权利要求1所述的设备,其中所选任务是数据挖掘。
29.如权利要求1所述的设备,其中所选任务是数据库搜索。
30.如权利要求1所述的设备,其中所选任务是有目标的市场营销。
31.如权利要求1所述的设备,其中所选任务是计算机病毒检测。
32.如权利要求1所述的设备,其中所选任务是可视化、搜索、调用、预测和分类之一。
33.一种用于处理所选任务的混和数据的方法,包括把混和数据变换成转换数据,以及处理所述转换数据,以便提供用于所选任务的函数输出。
34.如权利要求33所述的方法,其中通过路标变换把混和数据变换成转换数据。
35.如权利要求34所述的方法,其中设置群集中心作为参考点,并且从混和数据到相应参考点的距离对应于转换的数据空间的维度。
36.如权利要求33所述的方法,其中通过编码方法把混和数据变换成转换数据。
37.如权利要求36所述的方法,其中混和数据包括消费者简档信息。
38.一种在传输介质中包含的计算机数据信号,其包括可由计算机执行的用于实施权利要求33所述的方法的指令。
39.一种机器可读的程序存储装置,其有形地包括可由机器执行的用于实施权利要求33所述的方法的指令的程序。
40.一种计算系统,包括处理器;以及由所述计算机系统可读的程序存储装置,其有形地包括可由处理器执行的用于实施权利要求33所述的方法的指令的程序。
全文摘要
本发明提供了一种用于处理所选任务的混和数据的设备和方法。输入变换模块把混和数据变换成转换数据。函数映射模块处理所述转换数据而提供用于所选任务的函数输出。所选任务可以是各种可能的任务之一或组合,包括搜索,调用,预测,分类等。例如,所选任务可以用于数据挖掘,数据库搜索,有目标的市场营销,计算机病毒检测等。
文档编号G06N3/00GK1689035SQ03808835
公开日2005年10月26日 申请日期2003年4月18日 优先权日2002年4月19日
发明者孟卓, 段保福, 鲍约翰, 罗纳德·卡斯 申请人:计算机联合思想公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1