信息分析显示装置和信息分析显示程序的制作方法

文档序号:6445635阅读:121来源:国知局
专利名称:信息分析显示装置和信息分析显示程序的制作方法
技术领域
本发明涉及应用电子计算机进行数据分析并显示分析结果。尤其是本发明能被应用于当结果依据关键词和分析进行分类时,显示文档查询结果以及显示与市场分析有关的客户和商品之间的关系。
背景技术
根据词汇和文档定义的关系型矩阵经常被用于文档的分类和分析。这个关系型矩阵是这样被定义的指定词汇为行,文档为列,并记录在相应文档中词汇出现的次数(参见图3)。词汇的矢量表达式可以通过逐一选择矩阵的列来提取,文档的矢量表达式可以通过逐一选择矩阵的行来提取。所以,“A”与“B”两个词汇间的距离可以由向量之间、向量余弦或向量内积间的距离来定义。同样,文档间的距离也可以由向量之间、向量余弦或向量内积间的距离来定义。具体而言,词汇间的距离可以通过由使用的文档组成的向量之间的比较,和由词汇组成的使用的向量之间的比较装置来表示。另外,文档和词汇间的距离可以定义为文档中该词汇出现的次数。
与市场有关的客户与购买的商品之间的关系可以作为以矩阵形式表示的数据的例子。在矩阵中,商品被定义成行,客户被定义成列。如果一个特定客户所购买的具体商品及数量的数据被记录下来,则生成一个客户与商品之间关系的记录(参见图9)。在这种情况下,表示客户或那些相应的商品的矢量表达式都可以被提取。特定客户的向量表示这个客户对某一商品的喜好。具有相同向量长度的客户被认为具有相同的喜好。在这种情况下,客户之间的距离可以通过由商品组成的向量来表示,商品间的距离可以通过由客户组成的向量来表示。
在这个例子中,文档和词汇是通过矩阵中的列和行相互关联的。客户和商品也是以这种方式相互关联的。大量数据组合都以这种关系形式被定义。在以下描述中,将以词汇和文档之间的相互关系为例对矩阵进行描述。
随着IT技术和互联网的繁荣,电子格式产生的文档的数量正在迅猛增加。例如,已经出版的以电子版本形式出现的报刊文章和专利出版物数量已变得十分庞大,而且它们的数量在未来肯定将持续增长。要想有效地使用这些文档必然需要查询、分类和分析装置,从而确保目标文档的目标选择。
以下的方法已广泛地被组合使用,同时可作为对文档查询结果进行分类的装置使用。
(1)第一种方法是预先建立分类标准并根据标准对文档进行分类。图17所示的操作和处理流程图就属于这种方法。在准备阶段,首先手工制定标准(1701)。通常一旦建立了标准,这些标准在通常的几种情况下都可以使用,在查询文档之后(1702),根据该标准自动对一组查询结果分类(1703)。以逐项类别为基础显示查询结果。该方法适用于事先已分类的报刊文章。
(2)第二种方法是通过仅使用文档间的距离对文档总计定位。计算将被重复进行,直到完成总计定位,由此,自组织分类变得切实可行。实现所述第二方法的一些公知的方法包括SOM(自组织变换)[参考文献T.kohonen“Self-organizing map”Springer-Verlag Tokyo,ISBN 4-431-70700-×(1996)]和基于弹性模型的设计[参考文献Peter Eades“A Heuristic for GraphDrawing,”Congressus Numerantium,Vol.42(1984)],[应用文档分析的示例参考文献Isamu WATANABE“Visual Text Mining,”Vol.16,No.2(2001),Joumal ofJSAI(日本社会人工智能)(Japanese Society for Artificial Intelligence)]弹性模型是一种设计方法,特指一个不定向图(与方向无关的图),这个方法应用于文档及词汇的分类和排列。比如,当文档被排列的时候,文档可以认为是图表中的一个节点。该节点可以根据文档间的距离(或相关度)通过弹性连接。图28示出初始状态的一个例子。
如图28所示,节点示意性地代表文档,锯齿状的线示意性地表示弹性。系统由节点组成并且弹性实现了稳定状态;也就是说,各自的弹性状态是由接近其原始长度的长度或者说没有扩张或收缩的长度决定的。因此,类似的文档相互相近,而不类似的文档就彼此相距较远,参见图29中的例子。
从图29所示的例子中,可以确定的是,文档A、B、C彼此类似,但D与它们中的任何一个都不类似。
像SOM和弹性模型这样的方法能够实现对作为查询结果获得的文档进行恰当地排列,因而能在逐项查询的基础上进行灵活的文档分类。在这些方法中,实现自组织分类。这样,分类的结果就没有必要和可以显然为人们所理解的规则保持一致。因此,一组结果可以被标记。
如图18的流程图示出标记操作。具体地讲,首先进行文档查询(1801),然后执行自组织并对上述查询过的文档进行排列(1802)。基于排列的结果,文档被分组(1803),并分别对组进行标记(1804)。最后,显示排列和标记的结果(1805)。在专利文献JP-A-8-263514描述了如上所述的SOM自组织方法的一个例子。在多数情况下,采用SOM方法的结果以如图22所示的蜂窝状的组表示。而弹性模型方法的结果通常显示为如图20示出的数据的空间排列。
(3)第三种方法是根据关键词的接近程度对文档分类。图19的流程图示出该方法的操作和处理流程。首先查询文档(1901),作为查询结果获得的文档是由人工提供的词,或是自动提取的文档关键词(1902),该关键词在空间中以固定点排列(1903),作为查询结果获得的个别的文档将根据关键词的接近程度在相同的空间中被排列(1904)。最后显示排列结果(1905)。在文献JP-A-2000-76279中描述了上述方法。
(4)文献JP-A-10-171823中描述了一种技术,在给定维空间中个根据语义内容的相接近和不相接近,通过可以将以向量形式表示的文档分组成为适当的几组的装置,和针对典型组的中心的应用变换装置进行排列。根据这种技术,首先将要被分析的文档通过向量转换装置3503转换成向量。所述的文档被转换成向量,通过分组装置3504将其分成组。然后通过分组中心提取装置3505提取各自分组的典型向量。当分组中心之间尽可能保持距离不变时,分组中心将以低维空间(low-dimensional space)排列。含有各自的分组的文档在上述已设定的排列和位置和由分组装置3504确定的向量的分类结果的基础上排列。在文档排列的同时,文档与位于所述组附近的文档的向量的分组中心比较。
然而,第一种分类方法仅根据预先确定的标准进行文档分类,这种方式可能适用于对报刊文章分类,例如经济和体育。然而,在总是对文档进行查询的时候会遇到必须根据新标准分类查询结果的情况。甚至当体育类被分为专业体育和业余体育时,奥运会也需要另一个标准,进行改变以便允许专业体育员参加。分类根据环境变化。因此,预先建立标准的方法具有局限。
对于第二种分类方法,在所有文档之间距离的计算必须被重复执行,直到所述的文档位于适当的位置(或文档的定位完成)以便实现自组织分类。当将被分类的文档数量变得很大时,计算将继续直至完成文档定位,这将导致很大的开销。因此,这个方法是不实用的。
如图28中涉及的弹性模型,一个模型具有四个节点。图30是一个具有八个节点的模型的示意图,其中弹性用线表示。从图中可看出,当节点个数翻倍时,即当由四个节点变为八个节点时,弹性的个数就变成四倍,当N个文档通过弹性内部连接时,弹性的个数为{N×(N-1)}/2,所以弹性的个数近似为N的平方。
如图20所示,假如文档能通过使用弹性模型在空间中排列,分组性质的确定就成为一个棘手的问题。即使当文档以图21中方式被分组,分组并不总是能恰当地用标记(字符串)标记来表示分组。由于通过多维向量的计算确定了分组,因此这种分类对个人来讲不能保证是易于理解的。即使试图从文档的标题中提取分类标记,并以文献JP-A-2000-82068的所描述的方式显示如此提取的标记,当分组文档的标记不同或当有许多具有相同标题的文档出现在另一个分组中时,通常也不能提取出恰当的标记。因此,除非在文档已经被分类和排列后进行计算,否则标记问题就无法解决。以上情况也适用于SOM。
第三种分类方法是基于假定关键词被固定显示且他们之间的间隔统一。当一个人指定了关键词时,他就不能去任意设置所需数目的所需分类词,特别是,例如,当选择了六个关键词时,这六个关键词并不总是文档总计的最佳分类词,又可能是相反的。例如当试图对关于体育的报刊文章进行分类时,可能会指定诸如“棒球”、“球类运动”、“高中棒球运动”或“J-League队”这样的一些在概念上或抽象水平上不统一的词,或者说不适用于对文档总计进行分类的词。当计算机提取关键词的情况下,即使提取了适当的关键词,这些在统一空间中的关键词相对于给定文档总计来讲是彼此相互分离的,因此,可能会产生被分成组的文档总计与所述的文档的原始特征不同的情况。尤其是像文献JP-A-2000-76279中描述的方式,假如六个关键词以六角图形的模式排列,六个关键词中只要有一个相对文档总计具有唯一含义,恰当的文档分类和排列就可能不能实现。
在第四种技术中,在对每一个文档进行排列时,该文档都要与它所属的分组相邻的分组中心比较,但它并不会和所有的分组中心比较。因此,即使实际上一个被分成特定的分组的文档向量具有和该文档所属的组的邻近分组外部的分组中心类似的特性,位于邻近分组外部的分组中心它的影响是可以忽略不记的。所以,很难得到一个准确反映文档特性的变换结果。况且,当文档被排列后它们就不会被标记。因此,对于用户而言,被显示的排列结果很不易辨别,为了显示被标记文档,像基于数据排列结果、标记与数据的一致性来确定标记的复杂计算操作是必须的。

发明内容
本发明的提出就是为了解决现有技术中存在的缺陷,其目的在于通过仅使用关于文档总计且高速有效的、对用户来讲是友好标记的信息,实现文档总计的自组织分类,所述的信息适合于使用文档总计,并且根据实际的情况来实现。
为了达到上述目的,根据本发明,两组数据中的其中一组数据被看成数据对象A,另一组为数据对象B,两组数之间的关系可以用一个矩阵中列与行来表示。本发明的操作参见图1,步骤如下首先,考虑到数据对象A之间的距离是不变的,在空间(如,三维或更少能使人确定的空间)中仅使用数据对象A对数据对象A排列(101)。接下来,仅通过利用数据对象A与B之间的距离对数据对象B排列(102),而不使用数据对象B之间的距离,而数据对象A与B之间距离是不变的。最后,显示数据对象A与B(103)。
具体地由以下步骤实现把两类数据对象中数量较少的一类称为数据对象A的步骤;比如通过自组织分类方式对数据对象A排列的步骤;利用并根据数据对象A的排列对数量较多的一类数据对象B排列的步骤。
因此,本发明的信息分析显示装置能通过对数据对象A的排列,高速地对数据对象B排列,所述的对象与一组大容量的数据有关。数据对象A的排列被认为是数据分布属性的标记,因此可以缩小文档查询的范围或数据间关系的分析,这样标记和数据变换可以同时执行。变换的结果作以标记并以客户容易理解的形式显示数据分析。


图1的流程图示出了本发明的处理流程;图2的方框图示出了根据本发明的第一实施例的文档分类装置的结构;图3示出了根据本发明的第一实施例的由文档和词汇组成的矩阵的概念描述;
图4的流程图示出了第一实施例的操作和处理流程;图5的简图示出了根据第一实施例仅使用词汇排列的示例性结果;图6的简图示出了第一实施例的输出结果;图7的简图示出了根据第一实施例对文档排列所需的计算;图8的框图示出了根据第二实施例的市场数据分析器;图9示出了根据第二实施例中商品与客户所组成的矩阵的概念描述;图10的流程图示出了第二实施例操作和处理的流程;图11的简图示出了根据第二实施例仅使用商品排列的示例性结果;图12的简图示出了第二实施例的输出结果;图13示出了在第二实施例中当不显示交易名称时寻找数据的难题;图14的简图示出了根据第二实施例对属于输出结果的GUI的操作;图15的简图示出了根据第二实施例的词汇高亮显示的一个例子;图16的简图示出了根据第二实施例的词汇高亮显示的所述的例子;图17的流程图示出了现有技术文档分类方法的第一实施例的处理流程;图18的流程图示出了现有技术文档分类方法的第二实施例的处理流程;图19的流程图示出了现有技术文档分类方法的第三实施例的处理流程;图20的简图示出了基于现有弹性模型技术的数据和文档的分类、排列的示例性结果;图21的简图示出了在现有技术中,基于弹性模型的数据和文档被分组和分类后的分类、排列的示例性结果;图22的简图示出了利用现有技术SOM方法的分类结果的显示;图23的简图示出了与第一实施例输出结果相关的GUI操作;图24A和24B的简图示出了根据第一实施例再分类和再排列的一个子操作;图25的简图示出了根据第一实施例的相关文档的高亮处理;图26的简图示出了根据第一实施例相关文档的显示范围的处理;图27A和27B的简图示出了根据第一实施例移动词汇和动态重排文档的处理和操作;图28的简图示出了一个弹性模型的物理模型和最初排列;图29的简图示出了弹性模型的物理模型和最终的结果;图30的简图示出了八个节点的弹性模型的物理模型及其初始排列;
图31的简图示出了根据第一实施例存储了词汇之间距离的计算结果的矩阵;图32的简图示出了弹性模型中受力与距离间的关系;图33的流程图示出了根据第一实施例排列词汇的过程;图34的流程图示出了根据本发明的第二实施例排列词汇的过程;以及图35的流程图示出了现有技术中的第四种文档分类方法的处理流程。
在这些附图中,数字201代表输入装置;202是输出装置;203是查询装置;204是查询结果存储装置;205是文档数据存储装置;206是词汇数据存储装置;207是矩阵存储装置;208是距离计算装置;209是关键词提取装置;210是分析排列装置;210a是词汇数据变换装置;210b是文档数据变换装置;211是空间存储装置;801是输入装置;802是输出装置;803是查询装置;804是临时数据存储装置;805是客户数据存储装置;806是商品数据存储装置;807是矩阵存储装置;808是距离计算装置;809是销售数据存储装置;810是分析排列装置;810a是商品数据变换装置;810b是客户数据变换装置;811是空间存储装置。
具体实施例方式
(第一实施例)本发明的第一实施例将在以下详述。该方实施例将针对查询文档、分类并排列查询结果的文档分类装置。
图2方框图示出了第一实施例的装置。
如图2示,该装置包括用于输入查询标准的输入装置201,用于输出查询结果、分类和排列结果的输出装置202;用于执行查询操作的查询装置203;用于存储查询结果的查询结果存储装置204;用于存储文档数据的文档数据的存储装置205;用于存储有关词汇信息的词汇数据存储装置206;用于存储属于词汇和文档的矩阵数据的矩阵存储装置207;用于通过矩阵计算词汇、文档和词汇与文档之间距离的距离计算装置208;用于从文档总计提取关键词的关键词提取装置209;用于根据数据间距离在空间中对数据排列的分析排列装置210;用于存储空间信息的空间存储装置211。分析排列装置210由词汇数据变换装置210a和文档数据变换装置210b构成。在所附的权利要求书中词汇数据变换装置210a被描述成标记变换装置,而文档数据变换装置210b被描述成数据变换装置。
如图3所示,在矩阵存储装置207中,词汇和文档以矩阵中使用的行和列的形式记录在其中。矩阵的元素部分(i,k)表示词汇“i”在文档“k”中出现的次数。
如图4示出了该装置的使用和操作流程图。
(步骤401)首先,客户通过输入装置201输入查询标准。
(步骤402)查询装置203执行查询操作,文档的总计被作为查询结果存储在查询结果存储装置204中。
(步骤403)根据查询结果,关键词提取装置209提取关键词。用于提取关键词(或字符串)的现有技术在文献JP-A-11-25108中公开。
(步骤404)距离计算装置208根据存储在矩阵存储装置207中的信息计算所提取的关键词之间的距离。词汇数据变换装置210a把这些关键词以二维或三维空间的形式排列在空间存储装置211中。公知的弹性模型用于确定空间中关键词的位置,在下面将做具体描述。位于空间的关键词被表示成为指定关键词的符号。图5仅示出位于二维空间的关键词的例子。
(步骤405)距离计算装置208计算定位的关键词和文档之间的距离,所述的文档作为在步骤402执行的查询结果被获得,并且是基于存储在矩阵存储装置207的信息。文档数据变换装置210b位于空间存储装置211的二维或三维空间的文档中,在下面将做具体描述。图6示出在二维空间中文档排列的例子,图中所示的圆圈的代表不同的文档。
(步骤406)最终输出装置202输出排列结果。
以下将具体描述在步骤404执行的在空间中的关键词的定位。
关键词(或词汇)之间的距离可以根据存储在矩阵存储装置207中的信息计算。具体而言,根据词汇的向量表达式定义词汇的距离,也即向量之间的距离、向量间的余弦或向量的内积。所有关键词之间的距离预先通过距离计算装置208来计算。计算的结果以三角矩阵的形式临时被存储,如图31所示。
所有的关键词通过弹性装置内连,所述的弹性装置具有与根据向量之间的关系而计算出的距离相关的长度。在初始状态,关键词排列在合适的位置,比如在二维空间中以相同的间隔的一个圆。图28或30的简图示出这样排列的关键词。对每一个弹性,当它具有与根据向量间关系计算的距离dm相关的长度时,在弹性上没有施力。但是当弹性伸展,弹性间出现产生力;相反,当弹性收缩,则产生斥力。图32示出由伸展和收缩产生的引力和斥力之间的关系。在图32中,水平坐标表示距离,垂直坐标表示引力的长度。距离越长,引力越强。当关键词所在的位置小于适合的距离dm时,产生力为负,也即关键词表现为斥力。在初始状态,关键词位于理想的位置,忽略弹性受力。因此,力表示各自的节点(词汇)。
接下来在由符号和弹性构成的系统中,符号微动并移动到使系统稳定的位置,因此也使整个系统变的稳定。所需的计算操作将参考图33进行描述。
(步骤3301)首先,距离计算装置208根据存储在矩阵存储装置207的信息计算关键词之间的距离。计算的结果以三角矩阵的形式存储在矩阵存装207中,如图31所示。
(步骤3302)把关键词看作符号,系统被示为由通过弹性内联的符号构成,弹性的长度与符号间的距离一致。所述符号位于二维或三维空间的初始位置并且可以是空间的任何位置,比如,在二维空间中初始位置可以是一个圆,在三维空间中,初始位置可以是一个球面。
(步骤3303)在步骤3303,属于步骤3304和3305的操作重复执行R次。
(步骤3304)所有的节点都属于步骤3305的处理。
(步骤3305)所有从一个节点“i”提取的弹性力被计算并且合并成一个网格力。合成的网格力初始化为一个特定的方向,该节点沿着这个方向仅移动微小的k×α(r)×f距离,该距离与网格力的大小相对应。这里“f”代表网格力的大小,“k”代表一个常数,用于将力转换成距离。
步骤3305中使用的参数α(r)是是根据步骤3303中重复的步骤的次数,随着步骤的重复操作逐渐变小的参数。例如,下面给出的公式∂(r)=1-rR]]>R代表将被重复执行操作的次数,“r”代表当前重复操作的次数,作为使用这一参数的结果,移动的距离随着步骤的重复将逐渐缩小,所以这些符号将置于使整个系统稳定的位置。
代替弹性模型的方法是使用现有的SOM方法,在步骤404中对关键词进行排列。
以上的描述作为对步骤404的详细解释,接下来将对步骤405中执行的文档排列进行说明。
如图3所示,词汇和文档间的距离可以通过矩阵计算。词汇“P”和文档“q”之间的距离可以作为一个量定义,它与矩阵的元素(p,q)。具体而言,如果特定的词汇“P”在文档“q”中出现多次,矩阵的元素(p,q)的值将变大,倒数将变小,因此该词汇靠近文档。但是,若特定文档“b”远远大于文档“a”(比如在词汇的数量上),不需再要简单比较文档“a”与文档“b”之间的距离了。因此,所用的矩阵元素一定要标准化,要依据每个文档的大小来分配矩阵的元素。上述处理根据存储在矩阵存储装置207中的信息通过距离计算装置208来计算。
步骤405中所执行的文档排列通过弹性模型应用计算。可以这样设想该系统,其中每个文档与已经定位的词汇,通过与词汇和文档间距离有关的弹性连接相连接。图7的示例表明获得文档的系统的例子。在图7中弹性示例性地用线来表示。该系统与图28和30所示的系统的区别在于图7中的系统的词汇已经定位并固定。因此只需要通过移动一个文档,就能找到弹性稳定的文档的排列。相反如图28所示的系统,若要系统(弹性)的位置变得稳定必须移动所有的节点。
所需的计算将参考图34详述。
(步骤3401)根据存储于矩阵存储装置207中的信息,距离计算装置208计算每一个词汇和文档的距离,并将结果临时性存储。
(步骤3402)所有文档将执行如下操作。
(步骤3403)文档初始化排列,初始排列可在任何位置执行。
(步骤3404)步骤3405的处理将重复执行特定的T次。
(步骤3405)所有与文档有关的弹性力被计算并合并成一个网格力。该网格力初始化为一特定方向。所述节点沿着一方向移动k×α(r)×f距离,该距离与网格力的大小一致。在此,“f”代表网格力量级,“k”代表将力转换成距离的常数。α(r)是类似于步骤3305中使用的衰减参数。
步骤405处理过程的解释在前已做描述。
本发明定义为由步骤404处理的和步骤405所执行的命令。具体而言,通过使用弹性模型,数量不多的关键词被排列。接下来,仅根据已固定关键词的位置关系确定数目多的文档,但不计算文档间的距离。
通常,在大型数据库中查询一篇文档,查询文档Q的数量通常达到上百篇文档。如果通过使用已知的方法计算文档之间的距离,并且所述文档通过弹性模型装置受自组织分类的影响,按规则计算要执行Q×Q次。每个文档只要移动一点距离,文档距离的计算就要重复执行,直到它们之间的距离平衡。也就是说,直到找到了弹性所组成的系统处于稳定的状态。结果,计算必须被执行Q×Q×R次,(R表示直到文档被确定,计算重复的次数),其中Q的值在数百的数量级,R的值在数百到数千的数量级。
如图20和22所示,显示的结果仅是一个文档分类的结果。但有了文档相关的标记,所述结果对于客户就不难理解。假如标记的次数为P,那么需要按P×Q×S(S为一常量)的次的阶数计算,需要按(Q×Q×R+P×Q×S)的次的阶数计算。
与以前相比,本发明中的标记相当于关键词,因此关键词个数可以认为是P。完成自组织排列所需的排列计算就是P×P×R次。另外,通过利用固定的关键词对Q篇文档进行排列需要P×Q×T次的阶数计算(T为常数)。这样,计算操作需要(P×P×R+P×Q×T)次的阶数的计算。
客户可以使用的分类关键词至多为10至30个。假如文档的为上百阶,关键词的阶数小于10,那么P与Q的关系为Q=10×P。
用现有的方法计算操作的阶数是100×P×P×R+10×P×P×S。相反本发明是(P×P×R+10×P×P×T)阶数的计算。由于S或T为常数,这样本发明所需计算次数是现有技术的十分之一或百分之一,最终存储空间也将减少。
同样在图6中,文档也可以是词汇。为了给客户提供一种简单易懂的信息,一个词汇依附于大量文档,即通过使用矩阵作为向量(距离、余、内积)长度的计算的结果的接近大量文档的所定义的词汇能被高亮显示。对于文档间特定词的相关度和文档的数目将立即被计算。在图15中示出了关键词产生大量的文档,即在数字上大于阈值的文档被高亮显示。因此对于文档总计分类所用的关键词的本质就能被分析。
相比之下,未能产生大量文档的关键词也可以高亮显示。原因在于对于文档而言,特定词汇的相关度和文档的数目也能通过使用矩阵存储装置207和距离计算装置208用上述相同的方法快速地得出,参见图2。对于不能产生大量文档的关键词,作为在查询时缩小查询的结果而言是一个有效的词汇。词汇被用来查询的准则被通过高亮的方式例如一个关键字提供给客户。图16显示了一个例子,未能产生大量文档的关键词被高亮。
如图23示出,一旦被GUI(图形客户接口)选择,数据被分类和排列以进一步分析。此外还包括操作和处理,例如在图24A和24B描述的对已经选择的文档的总计重新分类和重新排列,可用的分析操作包括用于从文档总计提取关键词的操作,该文档总计仅仅是被重新查询和重新选择的,仅当选择的项的总计通过删除显示的和选择的文档的总计被作为查询项接受,由此重新选择、排列和查询词汇。
若选择一个词汇,则接近该单词的文档高亮显示(见图25)。相应地接近这个词汇的一个区域的文档也可以被显示(图26)。
首先,选择一个词汇,并将其移到排列上,由此使得文档的排列处于一个动态变化中(见图27A和27B)。
实施例中,在10至20个左右的关键词或大约被定位后被排列。然而,也可能使这种情况,只有文档被根据用于分析大约10个文档的自组织方法被第一次分类,并且这十几个至上百个关键词通过只使用已经随后被排列过的文档被排列。在这种情况下,所述的关键词可以通过排列文档的方法被分组。另外,作为通过使用文档被分组的关键词的结果,关键词可以用于支持概念。采用这种方法,根据自组织方法,只有少部分数据对象第一次被排列。随后大量不同类型的数据对象被排列,由此对必须进行的小数量的计算的数据能够排列和分析。
如所述的,在该实施例中,只有关键词以自组织的方法在空间中排列,而文档根据与关键词的距离逐一地被排列。这样实现了以比对所有文档进行计算而低得多的代价完成计算。另外,文档可以适当地以预先文档为基础的。另外,词汇作为标记的使用增强了排列结果的可读性,同时增加了实用效果。
(第二实施例)以下将描述本发明第二实施例,该实施例主要描述市场数据分析器。
图8方框图示出第二实施例的市场数据分析器。
如图8示,分析器包括用于输入查询标准的输入装801;用于输出查询结果、分类和排列结果的输出装置802;用于执行查询操作的查询装置803;用于存储查询结果的临时数据存储装置804;用于保存客户数据的数据存储装置805;用于存储商品信息的商品数据存储装置806;用于存储商品和客户矩阵数据的矩阵存储数据装置807;用于通过使用矩阵计算商品之间、客户之间及商品与客户之间距离的距离计算装置808;用于存储销售数据的销售数据存储装置809;用于根据数据之间的距离对空间中数据排列的分析排列装置810;用于存储空间信息的空间存储装置811。
其中分析排列装置810包括商品数据变换装置810a和客户数据变换装置810b。在所附的权利要求书中装置810a描述为标记变换装置,装置810b是数据变换装置。
如图9示,存储在矩阵存储装置807的客户和商品数据以列和行的形式记录。矩阵元素(i,k)代表由客户“k”所购买的商品“i”的总量,客户购买商品的数据存储在销售数据存储装置809中。
图10的流程图示了该装置的使用和操作流程图。
(步骤1001)客户首先通过输入装置801输入查询标准。比如输入的标准包括“过去3个月中已售商品前20名的商品”。
(步骤1002),查询装置803在销售数据存储装置809中查询商品和客户的数据,并且对查询出的商品的总计和客户存储到临时数据存储装置804中。
(步骤1003)根据存储在矩阵存储装置807中的信息,距离计算装置808计算查询后的商品之间距离。商品数据变换装置810a在空间存储装置811中将商品数据排列成二维或三维空间形式。现有的弹性模型和SOM(自组织拓朴图)方法都用于在空间中商品的排列。商品在空间的排列可以由商业名称表示。图11示出在二维空间对商品的排列。
(步骤1004)接下来,根据存储在矩阵存装置807中信息,距离计算装置208计算在步骤1002所查询的已排列的商品和客户。客户数据变换装置810b对空间存储装置811中的客户数据排列成二维或三维空间形式。图12示出在二维空间对客户的排列。在该图中,圆圈代表每一个客户。
(步骤1005)最后,商品和客户的排列结果通过输出装置802输出。
在上述本发明中,通过仅使用属于行的数据总计或仅使用属于列的数据总计,以确定将以矩阵形式表示的数据的第一排列的方式,并且通过仅使用属于已经存在的排列的数据保持排列的方式,在空间中使用少量计算分析和排列数据。由此可以在空间中执行使用较少的计算量的数据排列和分析。即使在市场数据领域中,如利用客户和商品的数据,大量的将被分析的客户可以通过将要购买的商品被分组。即使只有客户数据通过子组织分组被分类,这样的组合数据仍然是难于理解的,如图13所示。将要购买的商品名称可以通过容易理解的方式显示,如图12所示。
由此,在市场分析领域中,如图14所示,以选择显示窗口数据的一部分的方式提取显示的数据部分,所述的部分与显示数据的部分相关,通过使用鼠标,这样被提取得数据可以被更详细的分析。
如上所述的本发明的实施例,只有商品在空间中被排列,而客户的数据要根据所排列商品的距离逐一排列。因此完成计算所需的花费要比对所有客户的组合的计算低的多。而且,根据每一个客户的基础恰当地排列客户。因为产品的结果被用作标记,排列的结果变得容易理解,从而增强了实用效果。
根据本发明所述,在空间中少量数据被预先排列,并与一组可以由矩阵形式表示的数据有关,例如词汇和文档,或者是商品与客户。大量的数据也使用这种排列在空间中排列。合适的排列可以实现较小行的计算,通过既对大量数据也对少量数据进行排列,大量和少量的数据都可作为标记使用。因此对客户来说可以获得易于理解的数据排列结果。如果是对大量数据进行排列时,该数据要与标记比较。这样,就需要考虑在较远位置的标记以及近位置的标记的影响了。然后,可以实现更快和更准确地数据分析和分类。实际产生的效果将大大提高。
权利要求
1.一种信息分析显示装置,包括分析排列装置,其包括标记变换装置,用于把存储装置中两组数据里具有较少数据量的一个组作为组A,以用作表示数据分配属性的标记,并且,在保持数据对象A的数据对象之间的相对距离的同时,在不多于三维的空间中变换包括在组A中的相应数据对象A,以及数据变换装置,用于把具有较多数据量的另一组作为组B,以用来进行数据分析,并且,在保持数据对象A与B之间的相对距离的同时,在空间中变换包括在组B中的相应数据对象B。
2.根据权利要求1的信息分析显示装置,其中,数据变换装置使用固定排列和通过所述的标记变换装置执行的变换操作的结果获得的数据对象A的位置对数据对象B进行变换。
3.根据权利要求1或2的信息分析显示装置,进一步包括,输出装置,用于在空间中可视化地显示至少是数据对象A或B的排列和位置,所述的数据对象由分析排列装置排列。
4.根据权利要求1或2的信息分析显示装置,其中,词汇数据可以是数据对象A,也可以是数据对象B,其它数据对象是文档数据。
5.根据权利要求3的信息分析显示装置,其中,词汇数据可以是数据对象A,也可以是数据对象B,其它数据对象是文档数据。
6.根据权利要求1或2的信息分析显示装置,其中,商品数据可以是数据对象A,也可以是数据对象B,其它数据对象是客户数据。
7.根据权利要求3的信息分析显示装置,其中,商品数据可以是数据对象A,也可以是数据对象B,其它数据对象是客户数据。
8.根据权利要求3的信息分析显示装置,其中,输出装置高亮显示具有比数据对象B大的数据对象A的阈值,所述数据对象B在比预定距离近的位置。
9.根据权利要求3的信息分析显示装置,其中,输出装置高亮显示具有比数据对象B小的数据对象A的阈值,所述数据对象B在比预定距离近的位置。
10.一种信息分析显示装置,包括矩阵存储装置,用于从两个数据组中的一个取出数据,并且作为表明对象A的数据分配属性的标记,从剩下的另一个数据组中将被分析的数据取出数据作为数据对象B,将数据对象A作为行,数据对象B作为列,并作为元素以矩阵的形式存储,其值表示数据对象A与B之间的关系;距离计算装置,用于计算数据对象A和数据对象B的距离,并且所有的对象都以举真的形式存储在存储装置中;空间存储装置,用示存储数据对象被排列过的空间;输出装置,用于可视化地输出作为排列结果获得的关于空间的信息;分析排列装置,用于数据对象的空间排列;其中分析排列装置包括,通过仅使用距离计算装置计算的数据对象A之间的距离,对数据空间中的数据对象A排列的标记变换装置;和用于决定数据对象B的排列并通过仅使用距计算装置计算的数据对象A和数据对象B的之间距离,在数据空间中以所述的排列为基础对数据对象B排列的数据变换装置;以及其中所述的输出装置至少显示数据对象A或数据对象B之一。
11.根权利要求10的一种信息分析显示装置,其中词汇数据可以是数据对象A,也可以是数据对象B,另一数据对象则是文档数据,用一个数值表示数据对象A和数据对象B之间的关系,作为在一个文档中一个词出现的频率。
12.根权利要求10的一种信息分析显示装置,其中商品数据可以是数据对象A,也可以是数据对象B,另一数据对象则是客户数据,用一个数值表示数据对象A和数据对象B之间关系,作为客户所购买该商品的频率。
13.根权利要求10的一种信息分析显示装置,其中输出装置高亮显示的数据对象A具有比数据对象B大的阈值,所述数据对象B排列在比预先确定的距离更近的位置。
14.根权利要求10的一种信息分析显示装置,其中输出装置高亮显示的数据对象A具有比数据对象B小的阈值,所述数据对象B排列在比预先确定距离更近的位置。
15.一种由计算机执行的信息分析显示程序,用于使该计算机产生数据的显示分析,所述程序包括标记变换步骤,用于把存储装置中两组数据里数据较少的一组作为表述数据分配属性的标记A组,和当数据对象A的每个数据对象之间的相对距离不变时,在不多于三维的空间中变换与数据组A有关的数据对象A的变换,所述的对象与包括在组A中的数据有关;以及数据变换步骤,当数据对象A与B之间的相对距离不变时,用于把另一组较多的将被分析的数据作为组B,并对数据对象B排列;以及在空间中,至少数据对象A和数据对象B之一的排列可视化显示的步骤。
16.一种信息分析显示程序,用于使计算机中下述装置的功能,以实现数据的显示分析,所述的装置是矩阵存储装置,用于从两组数据集合中取出一个作为表示数据对象A分配属性的标记,从剩下的另一个集合取出将要被分析的数据对象B,用于以矩阵形式将数据对象A设为列,数据对象B设为行,数据对象A与B关系的值存储在矩阵中;距离计算装置,用于计算数据对象A和数据对象B的距离,所有的数据对象被存储在矩阵存储装置中;空间存储装置,用于存储被排列过的数据对象;标记变换装置,用于通过使用矩阵计算装置计算数据对象A的距离,并在空间中对数据对象A变换;数据变换装置,用于在空间中由通过使用基于排列的距离计算装置计算的数据对象A和数据对象B的距离,确定对数据对象B的排列,变换数据对象B;输出装置,用于至少显示数据对象A或数据对象B之一。
17.一种信息分析显示方法,用于分析两组集合的数据并显示分析结果,该方法包括标变换步骤,用于把存储在存储装置里两组数据较少的一组作为A组,该组被用于作为标记显示数据分配属性,当数据对象A的数据之间的距离不变时,在不多于三维的空间里对数据对象A排列,所述的数据对象与包括在A组中的数据有关;数据变换步骤,用于把另一组较多的数据的作为B组,该组被用于作为显示数据分配数据,当数据对象A与B之间的距离不变时,对数据对象B排列,所述的数据对象与包括在B组中的数据有关;以及一个至少在空间中可视化显示数据对象A和数据对象B之一的排列和位置的步骤。
18.一种信息分析显示方法,用于分析两组集合的数据并显示分析结果,该方法包括矩阵存储步骤,用于从两个数据集合取出一个作为数据对象A,剩下的一个作为数据对象B,把数据对象A设成矩阵的列,数据对象B为行,数据对象A与数据对象B关系的值作为矩阵的元素部分;距离计算步骤,用于计算数据对象A和数据对象B之间的距离,并将结果存储在矩阵存储装置中的步骤;空间存储步骤,用于存储变换后的数据对象A和数据对象B;标记变换步骤,用于通过仅使用距离计算步骤计算的数据对象A的距离在空间中对数据对象A变换;数据变换步骤,通过使用在距离计算步骤计算的数据对象A和B之间的距离作为数据对象变换的基础,决定数据对象B的排列,由此,在空间中变换数据对象B;以及至少对数据对象A或数据对象B之一的变换结果显示的输出步骤。
全文摘要
本发明涉及一种装置,用于当一组数据被分类的时候,在适合于该数据的位置,以某种适合于该数据的方式,或者在遇到需要大量计算和难以观察结果的问题时,显示这组数据。本发明所涉及的数据将以矩阵的形式表示,属于列或行的较小量的数据以自组织的方法被排列。剩余的数据仅使用排列的结果进行排列。数据的分类和排列仅需要较小的数据计算量。属于列或行的数据可以通过列或行显示来利用,这样可获得一个更好理解的结果。
文档编号G06F3/00GK1441340SQ0311055
公开日2003年9月10日 申请日期2003年1月23日 优先权日2002年1月23日
发明者饭塚泰树, 福重贵雄 申请人:松下电器产业株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1