信息处理装置和方法,以及程序存储介质的制作方法

文档序号:6567555阅读:157来源:国知局
专利名称:信息处理装置和方法,以及程序存储介质的制作方法
技术领域
本发明涉及信息处理装置和方法以及程序存储介质,并且,具体地,涉
及信息处理装置和方法,以及使能够进行适当的集群(clustering)的程序存 储介质。
背景技术
集群技术在诸如机器学习和数据开发的领域中起着很重要的作用。例如, 在图像识别中、在压缩中的向量量化中、在自然语言处理中的字典的自动生 成中等,集群的能力直接影响它们的精度。
现有集群技术主要被分类为分层类型和分区类型。
在可以定义项之间的距离的情况下,分层集群以作为单独的集群(duster ) 的每个项开始,并将集群合并到连续更大的集群中。
分区集群(见非专利文件1和2)确定在其中定义了距离和绝对位置的 空间上排列的何种程度(degree)的项属于先前所确定的集群中心,并根据其 重复计算集群中心。 MacQueen, J., "Some Method for Classification and Analysis of Multivariate Observations," Proc. of the 5th Berkeley Symposium on Mathematical Statistics and Probability, 281-297页,1967。 Zhang, B. et al., "K-Harmonic Means-a Data Clustering Algorithm, "Hewlett-Packard Labs Technical Report HPL-1999-124, 1999。

发明内容
然而,在分层集群中,根据集群间的距离的定义(例如,在最近相邻方 法、最远相邻方法和组平均方法中所定义的距离)创建了不同的集群模式, 并且用于不同的集群模式的选择标准并不明确。
此外,通常重复合并直到集群的数量降低为一个,但是,在当已经创建
了预定数量的集群时希望停止合并的情况下,通常基于先前以ad hoc为基础 确定的阈值距离或集群数量来停止合并。有时釆用MDL原理或AIC,但是没 有做出它们实际有用的报告。
同样,在分区集群中,需要预先确定集群的数量。
此外,在分层集群和分区集群的每个中,没有可用于从所创建的每个集 群中挑选代表项的标准。例如,在分区集群中,通常选择离最后集群的中心 最近的项作为该集群的代表,但是不清楚这在人类认知中是什么意思。
本发明已经考虑到上述情况,并且实现了集群,以便确定集群的数量和 集群的代表,以符合人类认知模型。
根据本发明的信息处理设备包括第一选择装置,用于依次选择将被集 群的项作为聚焦项;第二选择装置,用于选择在将被集群的项中接近聚焦项 的项作为目标项;计算装置,用于使用基于聚焦项和目标项的普遍性的不对 称距离测量计算从聚焦项到目标项的距离和从目标项到聚焦项的距离;和链 接装置,用于基于由计算装置所计算的距离把聚焦项和目标项链接到一起。
基于由计算装置所计算的距离,链接装置通过将聚焦项和目标项中的一 个作为父母并且另一个作为子女的父母-子女关系把聚焦项和目标项链接到 一起。
第二选择装置可以选择最接近聚焦项的项作为目标项。 第二选择装置可以选择接近聚焦项的预定数量的项作为目标项。 链接装置通过父母-子女关系把聚焦项和目标项链接到一起,同时允许聚 焦项具有多个父母。
可以确定由于所述链接装置对所有将被集群的项进行的链接而获得的集 群根节点是所述集群的代表项。
根据本发明的信息处理方法包括依次选择将被集群的项作为聚焦项的 第一选择步骤;选择在将被集群的项中接近聚焦项的项作为目标项的第二选 择步骤;使用基于聚焦项和目标项的普遍性的不对称距离测量计算从聚焦项 到目标项的距离和从目标项到聚焦项的距离的计算步骤;和基于在计算步骤 中所计算的距离把聚焦项和目标项链接到一起的链接步骤。
根据本发明的程序存储介质包括依次选择将被集群的项作为聚焦项的
第一选择步骤;选择在将被集群的项中接近聚焦项的项作为目标项的第二选 择步骤;使用基于聚焦项和目标项的普遍性的不对称距离测量计算从聚焦项 到目标项的距离和从目标项到聚焦项的距离的计算步骤;和基于在计算步骤 中所计算的距离把聚焦项和目标项链接到一起的链接步骤。
在根据本发明的信息处理装置和方法以及程序中,依次选择将被集群的 项作为聚焦项;选择在将被集群的项中接近聚焦项的项作为目标项;使用基 于聚焦项和目标项的普遍性的不对称距离测量计算从聚焦项到目标项的距离 和从目标项到聚焦项的距离;以及基于所计算的距离把聚焦项和目标项链接 到一起。
根据本发明,能够实现集群,以便确定集群的数量和集群的代表,以符 合人类认知模型。


图1是图示根据本发明的信息处理装置1的示范结构的方框图。
图2是图示根据本发明的集群处理的原理的图。
图3是示出单词模型的例子的图。
图4是图示根据本发明的集群处理的流程图。
图5是示出单词之间的KL分歧的例子的图。
图6是图示父母-子女关系的图。
图7是图示另一父母-子女关系的图。
图8是图示集群结果的图。
图9是图示个人计算机的示范结构的图。
21文件存储部分,22语形学分解部分,23单词模型生成部分,24单词 模型存储部分,25集群部分,26集群结果存储部分,27处理部分
具体实施例方式
图1示出根据本发明的信息处理装置1的示范结构。该信息处理装置集
群给定项,以便确定集群的数量和集群的代表,以符合人类认知模型。
首先,现在将在下面描述根据本发明的集群的原理。基于认知心理学中
的原型语义学进行根据本发明的集群。
原型语义学表明,在一个类别中的概念的人类认知(例如, 一个类别中
的单词)中,有"典型例子"和"周边(peripheral)例子"。
以一个类别、鸟中的"麻雀"、"鸵鸟"、和"企鹅"为例,并^^出以下两 个问题
问题l:"麻雀,,与"鸵鸟"相似吗?;以及
问题2:"鸵鸟"与"麻雀"相似吗?
其中,关于被提问的相似的对象可以互相替换。
然后,如图2A所示,对于问题l得到结果"不相似",而对于问题2得 到结果"相似"。关于"麻雀"和"企鹅",得到类似结果对于问题l ("麻 雀"与"企鹅"相似吗?)的结果"不相似"和对于问题2 ("企鵝"与"麻 雀"相似吗?)的结果"相似"。
简而言之,"麻雀"是鸟中的"典型例子",而"鸵鸟"和"企鵝"是"周 边例子"。
在此,原型语义学中的观念"典型例子"和"周边例子"可以被发展为 如下可以由不对称距离测量表示两个项的认知中的这种方向性(即,通过 相互替换关于被询问的相似的对象而变得不同的答案的性质),其中,在不对 称距离测量中,如图2B所示,从"典型例子"到"周边例子"的距离(即, "典型例子"与"周边例子"相似的程度)比从"周边例子"到"典型例子" 的距离(即,"周边例子"与"典型例子"相似的程度)更长(更短)。
作为对应于项之间的这种方向性的不对称距离测量,存在有 Kullback-Leibler分歧(下文中称为"KL分歧")。
在KL分歧中,在由概率分布Pi(x)和p/x)表示项a;和a」的情况下,如在 公式(1 )中所定义的,距离D (a; II a」)是纯量,并且从"均匀概率分布" 到"非均匀概率分布"的距离趋向于比从"非均匀概率分布"到"均匀概率 分布"的距离更长。普遍项的概率分布是"均匀的",而特殊项的概率分布是
"非均匀的"。 [公式1]
<formula>formula see original document page 7</formula>
=+^0)log,^ (当X是连续变量时)
=!>,(x)k)g, (当x是离散变量时)
义 A(x)
...(1)
例如,在为项ai和a」定义了随机变量zk(k=0、 1 、 2)的情况下,并且当概 率分布p(zk|ai)=(0.3, 0.3, 0.4),概率分布p(zk|a」)=(0.1, 0.2, 0.7),并且概率分布 p(Zklai)比概率分布p(Zklaj)更均匀时(即,当比较项a;与a」,项ai是普遍项(典 型例子)并且项a」是特殊项(周边例子)时),得到结果KL (pi II Pl) =0.0987> KL (pj II pi) =0.0872。
如上所述,在其中从"更普遍的项(典型例子)"到"不太普遍的项(周 边例子)"的距离D (普遍项II周边项)比相反的距离D (周边项II普遍项) 更大的KL分歧对应于原型语义学中的认知模型中的"典型例子"和"周边 例子"之间的不对称方向关系。
也就是,本发明通过把两个项之间的不对称数学距离(例如,KL分歧) 与两个项之间的关系相关联以通过"典型例子"相对于"周边例子"的关系 把两个项链接到一起,实现了集群,以便确定集群的数量和集群的代表,以 符合人类认知模型。
在KL分歧中,对于任意分布p和q,满足KL(pllq) >0,但是一般来 说,KL(pllq) ^KL(qllp),并且对于普遍距离成立的三角不等式不成立; 因此,KL分歧不是严格意义上的距离。
对于距离单调递减的任何形式,例如,比如exp (-KL ( pi II pj))或KL ( Pi II
用于将与两个项相关联的距离的条件将具有对应于原型语义学中的认知 模型的不对称性,即,从"更普遍的项(典型例子)"到"不太普遍的项(周 边例子)"的距离比相反的距离大。除了KL分歧以外,只要满足以上条件, 就可以使用其他信息理论上的纯量、具有带有在向量空间中向量大小的方向 性的作为重量的修改的欧几里德距离(公式(2))等。 [公式2]
D U II a」)叫a; II ara」| …(2) 回到图1,现在将在下面描述信息处理装置1的示范结构。 在此假定进行单词的集群。在随机变量Zk(1^0, 1,…,M-l)是同时
出现的单词的出现概率或PLSA (概率的潜在语义分解)中的潜在变量的情况 下,例如,特定单词(周边例子)的概率分布趋向于是"高度不均匀的",而 普遍单词(即,典型例子)的概率分布趋向于是"均匀的";因此,有可能根 据两个单词之间的数学距离(例如,KL分歧)把两个相比的单词链接到一起, 两个单词中的一个作为"典型例子"(在该示例中,父母),而另一个作为"周 边例子"(子女)。
在由KL分歧定义对于单词Wi和w」的距离D的情况下,例如,如果D (Wi II w」)(=kl (pi ii pP) > d ( Wj II Wi) ( = kl ( Pi ii Pi)),那么单词Wi是 "典型例子",并且单词Wj是"周边例子";因此,这两个单词被链接到一起,
其中单词Wi作为父母并且单词Wj作为子女。
在文件存储部分21中,存储了作为包括将被集群的项(在该示例中,单 词)的源数据的文字(writing)(文本数据)。
语形学分解部分22把被存储在文件存储部分21中的文本数据(文件) 分解成单词(例如,"温暖的"、"温和的"、"暖和"、"野蛮的"、"粗糙的"、 "勇敢的"、"粗鲁的"等),并将它们供应到单词模型生成部分23。
单词模型生成部分23把从语形学分解部分22所供应的每个单词转换成 数学模型,以观察单词之间的关系(距离),并将得到的单词模型存储在单词 模型存储部分24中。
作为单词模型,存在诸如PLSA和SAM (语义集合模型)的概率模型。 在这些之中,潜在变量存在于文字和单词的同时出现或单词的同时出现之后, 并基于其随机出现来确定各个的表达式。
PLSA是在1999年的Hofmann, T. , "Probabilistic Latent Semantic Analysis" Proc. of Uncertainty in Artificial Intelligence中提出的, SAM是在 2002年的Daichi Mochihashi和Yuji Matsumoto, "Imi no Kakuritsuteki Hyogen (Probabilistic Representation of Meanings)", Joho Shori Gakkai Kenkyu Hokoku 2002-NL-147中^是出的。
在SAM的情况下,例如,通过公式(3)使用潜在随机变量c (采用k
个预定值Co, d,…,CH的变量)表示单词Wi和Wj同时出现的概率,并且如公
式(3)和(4)所示,可以定义对于单词w的概率分布P (c|w)并且这变成
了单词模型。在公式(3)中,随机变量c是潜在变量,并且通过EM算法荻 得概率分布P ( w I c )和概率分布P ( c )。 [公式3]
P (wi, wj ) ^尸(c)尸—,lc)尸(w, |c) ... (3)
P (c|w)畔(w|c) P (c) ... (4)
图3示出在k=4的情况下的单词"温暖的"、"温和的"、"暖和"、"野蛮 的"、"粗糙的"、"勇敢的"、和"粗鲁的"的单词模型(即,使用PLSA等的
潜在变量的概率分布)的例子。
作为单词模型,除了诸如PLSA和SAM的概率模型之外,文件向量、同 时出现向量、已经被LSA (潜在语义分解)等降低维数的意义向量(meaning vector)等都是可用的,并且可以任意采用它们中的任何一个。注意,PLSA 和SAM在这种潜在随机变量空间中表示单词;因此,假定用PLSA或SAM 比当使用常规的同时出现向量等时更容易理解语义的倾向。
回到图1,集群部分25基于上述原理集群单词,并把集群结果存储在集 群结果存储部分26中。
处理部分27使用被存储在集群结果存储部分26中的集群结果进行指定 的处理(这将在稍后描述)。
接下来,现在将在下面描述根据本发明的集群处理。将首先参考图4的 流程图描述其概要,并且其后,将再次基于具体例子描述。
在步骤Sl,关注其单词模型被存储在单词模型存储部分24中的单词中 的一个,集群部分25选择该单词Wi的单词模型。
在步骤S2,使用被存储在单词模型存储部分24中的单词模型,集群部 分25选择最接近于(例如,最可能是与其同时出现,或在意思上最相似的)
单词Wj的单词作为单词Wj (目标单词),在下面的处理中将把单词Wj与单词 Wi链接到一起。
具体地,例如,集群部分25选4奪对其而言从单词Wi到单词Wj的距离(例 如,KL分歧)是如公式(5)所示的最小值的单词、或对其而言从单词Wl 到单词Wj的距离与从单词Wj到单词Wj的距离的和是如公式(6)中所示的最 'J、值的单词,作为单词w」。 [公式5]<formula>formula see original document page 11</formula>[公式6]
<formula>formula see original document page 11</formula> …(6)
在步骤S3,集群部分25确定单词Wj是否是单词Wi的父母或子女。
由于在稍后描述的步骤S8或步骤S9中,基于两个单词之间的方向关系
确定作为"典型例子"的单词是父母,并且确定作为"周边例子"的单词是
子女,所以在此确定在任何先前的处理中是否已经确定单词Wj是单词Wi的父
母或子女。
如果在步骤S3中确定单词Wj既不是单词Wi的父母也不是其子女,那么 控制继续到步骤S4。
在步骤S4,集群部分25获得两个单词之间的距离D( Wi II w」)(=KL( Pl II Pi))和距离D ( Wj II Wi) ( = KL ( Pi II Pi)),并确定是否距离D ( w, II Wj)〉距 离D ( Wj II Wj )。
如果在步骤S4确定距离D (Wi II w」) >距离D (Wj II Wj),即,当相互比
较单词Wi与单词Wj时,如果单词Wj是"典型例子"而单词Wj是"周边例子",
那么控制继续到步骤S5。
在步骤S5,集群部分25确定单词Wj (在当前情况中,可能成为子女的 单词)是否具有父母(即,单词w」是否是另一单词Wk的子女),并且如果确 定单词Wj具有父母,那么控制继续到步骤S6。
在步骤S6,集群部分25获得从单词Wj到单词Wj的距离D ( w」II Wi)和 从单词w」到单词Wk的距离D ( wj II Wk), 并确定是否3巨离D ( Wj II Wi) <3巨离 D(Wjllwk),并且如果确定满足该不等式(即,如果到单词Wi的距离比到单 词Wk的距离更短),那么控制继续到步骤S7并且解除单词Wj和单词Wk之间 的父母-子女关系。
如果在步骤S5确定单词Wj没有父母,或者如果在步骤S7解除了 Wj和 单词Wk之间的父母-子女关系,那么控制继续到步骤S8,并且集群部分25
确定单词Wj是单词Wj的父母,并且确定单词Wj是单词Wi的子女,以把单词 Wj和单词Wj链接到 一起。
如果在步骤S4确定不满足距离D ( Wi H Wj) >距离D ( Wj II Wj),那么控 制继续到步骤S9,并且集群部分25确定单词Wi是单词Wj的子女,并且确定
单词Wj是单词Wj的父母,以把单词Wj和单词Wj链接到 一起。
如果在步骤S3确定单词Wj是单词Wi的父母或子女(即,如果单词Wi 和单词Wj已经被链接到一起),如果在步骤S6确定不满足距离D ( Wj II Wj) < 距离D(Wjll Wk)(即,如果到单词Wk的距离比到单词Wi的距离更短),或者 如果在步骤S8或S9单词Wj和单词w」被链接到一起,即,单词Wi已经与单 词Wj或单词Wk链接,那么控制继续到步骤SIO。
在步骤SIO,集群部分25确定被存储在单词模型存储部分24中的所有 单词模型(即,单词)是否都已经被选择,并且如果确定还有将被选择的单 词,那么控制返回到步骤S1,并且选^^下一个单词,并以相似的方式进行步 骤S2和随后的步骤的处理。
如果在步骤S10确定所有单词都已经被选择,那么控制继续到步骤S ] 1, 并且提取被形成作为重复步骤Sl到S10的处理的结果的集群的根节点项(单 词)作为该集群的代表项(单词),并将其与所形成的集群一起存储在集群结 果存储部分26中。
接下来,如图3所示,现在将参考被存储在单词模型存储部分24中的"温 暖的"等的示范单词模型来具体描述集群处理。假定单词"温暖的"、"温和 的"、"暖和"、"野蛮的"、"粗糙的"、"勇l文的"、和"粗鲁的"之间的KL分 歧是图5中所示的那样。在图5中,在每个单元中所示的数值是从相应的行 元素到相应的列元素的KL分歧。
首先,选择单词"温暖的"作为单词Wi(即,选择其单词模型)(步骤 Sl)。在此假定,在步骤Sl,将以下列顺序选择单词的单词模型"温暖的"、 "温和的"、"暖和"、"野蛮的"、"粗糙的"、"勇荐文的"、和"粗鲁的"。
当已经选择"温暖的"Wj时,选择最接近于"温暖的"Wi的单词w」(步
骤S2 )。在此假定选择具有最短的距离D( =KL(单词w, II单词Wj)(公式(5 )) 的单词作为最接近的单词w」。
从"温暖的"Wi到图5中所示的其他单词的距离示出到"暖和"的距离 D(-KL("温暖的"II "暖和")具有最小的值0.0125;选择"暖和"作为单
词Wj。
在当前情况中,"暖和"Wj既不是单词"溫暖的"Wi的父母也不是其子女
(步骤S3);因此,接下来确定这两个单词之间的父母-子女关系(步骤S4)。 距离D ( =KL ("温暖的"Wi II "暖和"Wj))是0.0125,并且距离D ( =KL ("暖和"Wj II "温暖的"Wj))是0.0114,因此D ("温暖的"Wj II "暖和" Wj) >距离D ("暖和"Wj II "温暖的"Wi)(图6A)。因此,接下来确定"暖 和"w」是否具有父母(步骤S5)。
在当前情况中,"暖和,,w」没有父母;因此,确定"温暖的"Wi是"暖和"
Wj的父母,并且"暖和"Wi是"温暖的"Wi的子女,以把"温暖的,,和"暖
和"链接到一起(图6B)(步骤S8)。在图6中,箭头的底部指示"子女" 单词而箭头的尖端指示"父母"单词。这同样适用于图7B。
接下来,选择"温和的"(图3 )作为单词Wi (步骤Sl ),并选择最接近 "温和的"Wi的单词作为单词w」(步骤S2 )。
从"温和的"到图5中所示的其他单词的距离示出到"温暖的"的距离 D卜KL("温和的"II "温暖的"))具有最小的值0.0169;因此,选4奪"溫
暖的"作为单词Wj。
在当前情况中,"温暖的"Wj既不是"温和的"Wi父母也不是其子女(步
骤S3);因此,接下来确定它们之间的父母-子女关系(步骤S4)。
距离D ("温和的"Wi II "温暖的"w」)是0.0169,并且距离D ("温暖 的"w:l II "温和的"w。是0.0174,因此距离D ("温和的"Wj II "温暖的" Wj) <D ("温暖的"Wj II "温和的"w。(图7A)。因此,确定"温和的"w, 是"温暖的"Wj的子女,并且确定"温暖的"w」是"温和的"w,的父母,以 把"温和的"和"温暖的"链接到一起(图7B)(步骤S9)。
接下来,选择"暖和"(图3 )作为单词Wj (步骤Sl ),并且选择最接近
"暖和"Wj的单词作为单词Wj 。
从"暖和"到图5中所示的其他单词的距离示出到"温暖的"距离D具 有最小的值0.0114;因此,选择"温暖的"作为单词Wj。
但是,在当前情况中,在之前的处理中已经确定"温暖的"Wj是"暖和"
Wi的父母(即,已经在它们之间建立了父母-子女关系)(图6B);因此,照 原样维持它们之间的父母-子女关系,并且接下来选择"野蛮的"作为单词 Wi (步骤S1)。
对随后将被选择的"野蛮的"还有"粗糙的"、"勇敢的"、和"粗鲁的" (图3)进行类似处理。
由于对如上所述的"温暖的"到"粗鲁的,,(图3)进行的集群处理,如 图8所示形成由"温暖的"、"暖和"、和"温和的"所组成的集群和由"野蛮
的"、"粗糙的"、"勇敢的"、和"粗鲁的"所组成的集群。也就是,在这七个 单词中形成这两个集群,并且这两个集群的代表单词分别是"温暖的"和"野 蛮的"。
集群的根节点单词(即,"温暖的"和"野蛮的")不允许与其接近的单 词(一个或更多的单词)成为其自身以外的任何单词的子女,并且其没有父 母,因此,集群的根节点单词在根节点的周围空间内,不与除了在子女方向 上的任何其他单词接触,导致了集群的自动分离。
具有更高的抽象度(普遍性)的单词更有可能成为父母。因此,通过确 定根节点作为集群的代表,有可能确定集群中具有最高抽象度(普遍性)的 单词作为集群的代表。
以上述方式,确定集群的数量和集群的代表以符合人类认知。
注意,虽然在以上中已经假定将通过父母-子女关系而与项Wj链接的项
w」仅是最接近的一项(图4中的步骤S2),但是可以选择最接近的前N项(N
小于项的总数)作为项Wj。通过选4奪多个项作为项Wj并在多个项和项Wi之 间建立父母-子女关系,有可能扩展集群的较低部分(换句话说,有可能通过 项的数量调整集群的扩展程度)。注意,当给N分配了太大的数时,最终所 有项可能都被包含在单个集群中。
如果当检查项Wi对于多个邻近项Wj的关系时,允许项Wi成为多个项的
子女(即,项Wi具有多个父母)(例如,如果省略图4中的步骤S5到S7的 处理),那么单个项可能变成同时属于多个集群。在这种情况下,虽然阻止在 除了根节点以外的节点上的父母-子女连接出现在多个不同的集群之间,但是 可以选择能够通过从根部以子女方向追溯而到达的项作为具有该根节点作为 其代表项的集群的成员(例如,图4中的步骤S11)。这实现了在其中某个项 属于多个集群的软集群(soft clustering )。可以把属于的程度定义为相等,或 通过与紧挨其上的单词的相似程度、或与根部单词的相似程度等来定义属于 的程度。
此外,可以在上述集群处理上加入以下限制。
为了阻止完全不相似的项在其间建立父母-子女关系,可以进行项Wj的选
择,以便不选择比预定的阔值距离或更大的距离远的项作为项Wj (图4中的 步骤S2 )。
此外,对于附加的相似程度,例如,可以添加如下限制项中的主要组
分应该具有相同的元素。
例如,假定项Wjk代表项Wj的第k个元素(例如,单词向量的第k个元
素,或者p (ZklWi)),可以使用其中的相等(coincidence)(公式(7))作为 选才奪项Wj的条件。
<formula>formula see original document page 15</formula> …(7)
此外,为了保证父母-子女关系,例如,在由概率分布来表示每个项的情
况下,可以添加如下限制使用作为普遍性指示符的熵(公式(8)),应该必
须确定具有更大熵的项作为父母(图4中的步骤S8和步骤S9 )。
(一Z p(x) log(p(x)) , x ... (8)
例如,在p (zk|Wi) = (0.3, 0.3, 0.4)和p (zk|w」)=(0.1, 0.2, 0.7)
的情况下,其熵分别是0.473和0.348,并且具有普遍分布的项Wj具有更大的
熵。在这种情况下,当这两个单词可以在它们之间建立父母-子女关系时(即,
当与这两个单词的任意一个最接近的单词是另一个时),必须确定项w,作为父母。
此外,在由向量表示每项的情况下,并且就单词而言,例如,可以使用 出现的总频率、文件的x2值的倒数等作为普遍性的衡量。
x 2值是在Nagao et al., "Nihongo Bunken ni okeru Juyogo no Jidou Chushutsu (An Automatic Method of the Extraction of Important Words from Japanese Scientific Documents),,,Joho Shori,Vol.l7,No.2,1976中才是出的。
接下来,现在将在下面描述基于以上述方式所获得的集群结果由图1中 的处理部分27所进行的处理的具体例子。
例如,在音乐CD的评论被存储在文件存储部分21中、形成评论的单词 被集群、并且其结果被存储在集群结果存储部分26中的情况下,处理部分 27使用被存储在集群结果存储部分16中的集群来进行搜索对应于由用户输 入的关4定词的CD的处理。
具体地,处理部分27检测输入的关键词所属的集群,并搜索其评论包括 属于该集群的单词作为其评论的特性单词(即,简要地指示CD内容的单词) 的CD。注意,已经预先确定了简要地指示评论中的CD内容的单词。
不同的评论作者或在书写形式或表述中的微小不一致都可能使筒要地指 示甚至具有相似内容的CD的内容的单词不同。然而,使用才艮据本发明的集
群结果使能够适当地搜索具有相似内容的音乐CD,其中在该集群结果中,假 定简要地指示具有相似内容的音乐CD的内容的单词通常属于同 一集群。
注意,当引入了被搜索的CD时,还可以向用户显示关键词所属的集群 的代表单词。
元数据的单词被集群、并其结果被存储在集群结果存储部分26中的情况下, 处理部分27进行如下处理匹配用户品味的信息与元数据,并基于匹配结果 推荐用户可能会喜欢的内容。
具体地,在匹配时,处理部分27将具有相似意思的单词(即,属于同一 集群的单词)视为单个类型的元数据来匹配。
当照原样使用出现在元数据中的单词时,这些单词对于在项之间成功匹 配来说可能太稀少了。然而,当把具有相似意思的单词视为单个类型的元数 据时,就克服了这种稀少性。此外,在向用户呈现对项之间的匹配起重大作 用的元数据的情况下,代表的(高度普遍的)单词(即,集群的代表单词) 的呈现将允许用户直观地领会该项。
可以由专用硬件或由软件来实现上述诸如集群处理的一 系列处理。例如, 在由软件实现这一系列处理的情况下,通过致使如图9中所示的(个人)计 算机执行程序来实现这一 系列处理。
在图9中,CPU (中央处理单元)111根据被存储在ROM (只读存储器) 112中的程序或被从硬盘114加载到RAM (随机存取存储器)113中的程序 进行各种处理。在RAM 113中,适当时,还存储CPU 111进行各种处理所必 需的数据等。
CPU 111、 ROM 112、和RAM 113通过总线115彼此相连。输入/输出接 口 116也与总线115连才妄。
由键盘、鼠标、输入终端等形成的输入部分118;由诸如CRT(阴极射 线管)或LCD (液晶显示器)的显示器、输出终端、扬声器等形成的输出部 分117;和由终端适配器、ADSL (非对称数字用户环线)调制解调器、LAN (局域网)卡等形成的通信部分119与输入/输出接口 116连接。通信部分119 通过诸如因特网的各种网络进行通信处理。
驱动器120也与输入/输出接口 116连接,并且适当时,诸如石兹盘(包括 软盘)131、光盘(包括CD-ROM (紧致盘-只读存储器)和DVD (数字通用 盘))132、磁光盘(包括MD (迷你盘))133、或半导体存储器之类的可移 动介质(存储介质)被安置在驱动器120上,以便在需要时把从其中读取的 计算机程序安装到硬盘114中。
注意,可以以描述的顺序自然地按顺序进行在本说明书的流程图中所描 述的步骤,但是不是必须按顺序进行。可以并行或相互独立地进行一些步骤。
同样注意,在本说明书中所使用的术语"系统"指的是由多个设备组成 的设备的整体。
权利要求
1.一种信息处理设备,包括第一选择装置,用于依次选择将被集群的项作为聚焦项;第二选择装置,用于选择在将被集群的项中接近所述聚焦项的项作为目标项;计算装置,用于使用基于所述聚焦项和目标项的普遍性的不对称距离测量来计算从聚焦项到目标项的距离和从目标项到聚焦项的距离;以及链接装置,用于基于由所述计算装置所计算的距离把聚焦项和目标项链接到一起。
2. 根据权利要求1所述的信息处理装置,其中,基于由所述计算装置所 计算的距离,所述链接装置通过将聚焦项和目标项中的一个作为父母并且另 一个作为子女的父母-子女关系把聚焦项和目标项链接到一起。
3. 根据权利要求1所述的信息处理装置,其中,所述第二选择装置选择 最接近聚焦项的项作为目标项。
4. 根据权利要求1所述的信息处理装置,其中,所述第二选择装置选择 接近聚焦项的预定数量的项作为目标项。
5. 根据权利要求1所述的信息处理装置,其中,所述链接装置通过父母 -子女关系把聚焦项和目标项链接到一起,同时允许聚焦项具有多个父母。
6. 根据权利要求1所述的信息处理装置,其中,确定由于所述链接装置 对所有将被集群的项进行的链接而获得的集群根节点是所述集群的代表项。
7. —种信息处理方法,包括依次选择将被集群的项作为聚焦项的第 一选择步骤; 选择在将被集群的项中接近聚焦项的项作为目标项的第二选择步骤; 使用基于聚焦项和目标项的普遍性的不对称距离测量计算从聚焦项到目标项的距离和从目标项到聚焦项的距离的计算步骤;以及基于在所述计算步骤中所计算的距离把聚焦项和目标项链接到一起的链接步骤。
8. —种程序存储介质,具有被存储在其中的、将由进行集群处理的处理 器所执行的程序,所述程序包括依次选择将被集群的项作为聚焦项的第 一选择步骤;选择在将被集群的项中接近聚焦项的项作为目标项的第二选择步骤; 使用基于聚焦项和目标项的普遍性的不对称距离测量计算从聚焦项到目标项的距离和从目标项到聚焦项的距离的计算步骤;以及基于在所述计算步骤中所计算的距离把聚焦项和目标项链接到一起的链接步骤。
全文摘要
提供了能够进行集群,以便根据人类认知模型决定集群数量和集群代表的信息处理设备和方法以及程序记录介质。可以把原型语义学中的“典型例子”和“周边例子”(图2中的A)的概念发展为如下。如图中的B所示,可以通过不对称距离量表示两个项的识别之间的方向性,即,从“典型例子”到“周边例子”的距离比从“周边例子”到“典型例子”的距离更长。通过关联两个项之间的不对称数学距离作为这两个项之间的距离,通过“典型例子”和“周边例子”的关系连接这两个项,由此实现在其中根据人类认知模型来决定集群数量和集群代表的集群。
文档编号G06F17/30GK101185073SQ20068001827
公开日2008年5月21日 申请日期2006年3月29日 优先权日2005年3月31日
发明者馆野启 申请人:索尼株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1