信息存储和检索的制作方法

文档序号:6461277阅读:170来源:国知局
专利名称:信息存储和检索的制作方法
技术领域
本发明涉及信息存储和检索。
技术背景有许多已建立的系统feffl于通过按照关键字进行搜索来定位信息(比如文 件、图像、电子邮件、专利、因特网内容或者象音激视频内容这样的媒体内容)。 实例包括例如由"Google" tm或者"Yahoo" tm等这样的公司提供的因特网搜 索"引擎",其中通过关键字执行的搜索导致- 个结果列表,该结果列表被搜 索弓摩按照所察觉的关晚性而进行排序。然而,在经常被称作大量内容收集的、包括大量内容的系统中,可能很难 帝啶有效的检索查询来给出相对短的搜索"命中"列表。例如,在准备当前申 请时,关于关键字"大量文件收集(massive document collection)"的Google 搜索就提取了 243000倾中。如果以后再重复这个搜索,贝滪期此命中的数 £将增长,因为通过因特网所存储的内容的数Sil常会随着时间而增加。检 查这样的命中列表需要耗费高得惊人的时间。总的来说,大量内容M没有被很好禾拥的—些原因是 用户不知道存在相关内容 用户知道相关内##在但不知道它可能位于哪里 用户知道该内 在但不知道它是相关的 用户知道相关内容存在并知道如何找到它,但找到该内容花费很长时间在2000年5月有关神经网络的正EE對艮的第11巻第3期的574—585页, Kohonen等人写的论文'Self Organisation of a Massive Document Collection"("大量文件收集的自组织")公开了一种利用所谓的"自组织映射"(SOM)的技 术。这些利用了所谓的无人管理的自学习神经网络算法,其中表示每个文件的 属性的"特征向量"被日颠寸到SOM的节点上。在Kohonen等人的论文中,第一步是预处理文件文本,然后每个被预处理的文件中得到特征向量。在一种格式中,这可以是 大字典的每个字的发生频率的直方图。si:方图中的^hw值他就魏应字典字的发生频率)变成一个n值向量中的值,其中n是在字典中候选字的总数量(在这个文章所 述的例子中是43222)。或许可以将加TO用到该n个向量值,以强调鹏字的 增加的相关性或者改进的分化。然后该n值向量鹏寸到更小维数的向量上(也就是具有实际上小于n的m 个值(在文章的实例中是500)的向量)。这可以ilii使该向量乘以一个由随机 数的数组所组成的(nXm)"投z徵巨阵"来实现。这个技术已经表明可生, 小维数的向量,其中任意两个縮小维数的向量具有与两个对应的输入向量几乎 相同的向量点积。在1998年UCNN会刊第413—418页中Kaski所写的论文 "Dimensionality Reduction by Random Mapping: Fast Similarity Computation for Clustering"("通过随机鹏縮小维数用于麟的快速相似性计算")中描述 了这个向量鹏t过程。然后该缩小维数的向Ml用"模型"(另一个向量)乘以齡向量的过程 而被映射到SOM上的节点上(^t被称为神经元)。该漠型由学习过程生成, 该学习过程按照相互的相似性将该模型自动排序到SOM上,该SOM通常被 表示为节点的二维网格。这并不是一个平凡的过程,为了一个只有不到七百万 个文件的文件m^库,它使Kohonen等人在具有800MB内存的六处理器i慣 机上花费了六个星期。最终显示了一个由SOM组成的节点的网格,用户旨辦 移近映J寸图的区域并选择一个节点,这使得用户界面提供一个到因特网页面的 M,该页面包含了被链接至娜个节点的文件。发明内容本发明提供了一种信息检索系统,其中一组不同的信息项ffiil该信息项的 相互的相似性而映射到一个节点阵列中的对应节点,使^^似的信息项^f到 该节点阵歹忡在类似ffl处的节点;该系统包括用于在用户显示器上的显示区中,把至少一些节点的表示显示为显示点的 二维显示排列的图形用户界面;用于定义i述示区的二维区域的用户控帝螺; 用于检测位于鄉示区的二维区域中的那些显示点的检测器; 该图形用户界面还显示代表信息项的数据的列表,那些信息项柳划寸到和该显示区的二维区域中所显示的显示点相对应的节点上。那些本领域技术人员将会明白在词"列表"的正常使用中,"代表信息项 的数据"可以是该项自身,如果它具有适于全部显示的大小和属性的话,棘 它可以是指示该项的鹏。本发明还提供了信息存储系统,在其中处理一组不同的信息项以便于M3! 该信息项的相互相似 映射到节点阵列中的对应节点,使得相似的信息项映 射到该节点阵列中相似位置处的节点;该系统包括用于生成从每个信息项所得出的特征向量的装置,该用于信息项的特征向 量表示妇卩个信息项中一组信息特征中每个信息特征的一组出现频率;和用于将每个特征向量鹏錢lj该节点阵列中的节点的装置,在信息项和阵列中的节点之间的鹏t包括一个抖动部分,以使得基本上相同的信息项倾向于映 射到阵列中非常靠近但却不同的节点。通过^^用户界面以允许用户方便地将 屏幕上的显示点与信息项列表中的信息项联系在鬼,并且同时允许用户方便 地区分相似的信息项,由此而在Kohonen等人论文中所述的过程上^1本发 明。本发明另夕卜的於方面禾啭征在随后的权利要求中定义。


现在只是作为实例而参考附图来描述
具体实施例方式
图1示意性地图解说明了信息#1诸和检索系统; 图2是显示自组织B,图(SOM)的生J^的示意性流程图; 图3a和3b示意性地图解说明术语频率直方图; 图4a示意性地图解说明未加工的特征向量;图4b示意性地图解说明减少的特征向量; 图5示意性地图解说明SOM; 图6示意性地图解说明抖动过程;图7到9示意性地图解说明Jif共用户界面来访问由SOM J9f^的信息的 显示屏幕;图10示意性地图解说明作为视频捕获和/或处理设备实例的摄像机;和 图11示意性地图解说明作为便携式,处理设备实例的个人数字助手。 具体实施诚图i是基于通用计^m 10的信息存储和紀案'系统的示意图,通用计 110 具有一个处理器单元20,后者包括了用于f酵和数据的磁盘存储器30、连接 到例如以太网或者因特网这样的网络50上的网络接口卡40,通用iff抓还具 有例如阴极射线管设备这样的显示设备60、键盘70禾,如鼠^ 的用户输入设备80。该系统在sm空制下操作,^m皮存储在纖存储器30上并腿过例如网络50、可移动磁盘(未显示)或:tf页先安装在M:存储器30上来提 供。该存储系统运行在两个普通的操作模式中。在第一个模式中, 一系列信息 项(例如文本信息项)!碟合在磁盘存储器30上離IS^合fflil网络50连 接的网络磁盘驱动器上,并且被分类和索引,准备用于搜索操作。操作的第二 个模式是针对己被索弓l和分类的数据的实际搜索。该实施例可应用于许多类型的信息项。合适的信息类型的非穷尽列表包括 专利、视频材料、电子邮件、报告、因特网内容、广播内容、商业报告、音频 桐料、图形和图片(cHpart)、照片等等,或者是这些类型的任意的组合或者混 合。在本说明书中,将文本信息项或者至少具有文本内容或关联的信息项作为 参考。因此,例如,像音频和/或视频材料这样的一条广播内容可能具有以文本 项定义那个材料的关联的"元数据"。信息项以传统的方式被装载到磁盘存储器30上。t^i也,它们可以被存储 作为允许更容易地进行项的检索和索弓I的数据库结构的一部分,但这不是必需 的。一旦已经如此存储了信息禾顿,贝赃图2中示意性表示l細于排列它们以 便进行赎的过程。将会理解,被索弓1的信息 不必被存储在本地磁盘驱动器30上。 可 存储在经因特网50与系统10相连的远端驱动器上。可替代地,可以以分布的 方式存储信息,例如存储在因特网的各种位置上。如果信息被存储在不同的因 特网或者网謝立置处,贝幅息存储器的第二级别将被用来在本地存fi^条到该 远程信息的"链接"(例如,URL),或许具有相关的概要、摘要或者与这條 接相关联的元数据。因此,远程持有的信息将不被访问,除非用户选择了相关 链接(例如从将在下面描述的结果歹拨260中选择),尽管为了随后的技术描 述的目的,该远程持有的信息或者该摘要/概要/元i^或:t^&妾/URL可以被认 为是"信息项"。换句话说,"信息项"的正式定义题中可以获得特征向量并且被鹏(见下面)以便衝共到SOM的日划f的项。在结果列表260.(见下面)中 的数 据可以是信息项自身(如果被保持在本地并皿于方便的显示足够短),或者 是表示和/赫指向信息项的 ,例如一个體多个元M、 URL、摘要、一 组关键词、表示性的关键标己的图象等。在操作"歹據"中这是固有的,操作 "列表"虽然不总對旦却经常包括列出表示一组项的l^i。在另一个实例中,肖g够跨越例如一个研究组或者合法公司这样的连网的工 作组来存储信息项。 一种混合方案可以包括一些本地存储的信息项和/或者一些 通过局域网而被存储的信息项和/或者一些通过广域网而被存储的信息项。
样的情况下,该系统对于例如在大型多国研究与开发组织中定位由其它Aift行 的相似工作非常有用,相似的研究工作将倾向于被映射到SOM中的相似输出 节点上(见下文)。或者如果正在计划一个新的电视节目,贝体技术能够被用 于通过检测以前具有相似内容的节目来检查其原创性。还应该;鹏,图l的系统10仅仅只是微對顿被索引的信息项的可能系统的—个实例。尽管可以想象,可以通过相当 駄的计tm,很可能JH3i非便携式计算机,来执行初期(编制索引)阶段,但是访问信息的后期阶段可以在 例如"个人数字助理"(用于具有显示器和用户输入设备的数字处理设备的术 语,通常适合放在一只手中)这样的便携式t几器、例如膝上型电脑这样的便携 式计算机或者甚至例如移动电话、视频编辑设备或者摄像机这样的设备上执 行。通常地,具有显示器的ftf可设备实际上都能够用于操作的信息访问阶段。 该过程不受信息项的具体数目的限制。现在将参考图2到6来描述^^及信息项的自组织鹏才(SOM)表示的过程。 图2是图解说明后随SOM鹏寸过程的、被称作"特征提取"过程的示意性流 程图。特征提取是将未加工的数据转换成抽象表示的过程。这些抽 示然后能 iOT于例如模式分类、聚集和识别这样的过程。在这Wf呈中,生^ffi胃的"特 征向量",它是在文件中所用的检索词的频率的抽,示。通过创建特征向量凍形成显现的过程包括 生,索词的"文件 库字典" 根据"文件数据库字典"为旨對虫的文件生成"检索词频率直方图" 禾拥随机鹏寸来^> "检索词频率直方图"的维数 创建信息空间的2维显现。更详细±也考虑这些步骤,依次打Jf^文件(信息项)100。鄉骤110处, 从文件中去除全部的"无用词(stop word)"。无用词是在予舰准备的列褒上.的 那些非常普通的词,例如"一个"、"这"、"然而"、"关于"、"和"以及"该" 等。因为这些词非常普通,所以它们平均起来可能舰够长度的全部文件中表 现出相似的频率。因为这个原因,它们在尝试表征特定文件的内容时几乎不起 作用,因此应该Mi滁。在删除湖词以后,在步骤120舰剩余词提取词干(stem),这包括找到 词的变体的共同词干。例如词"投掷器"(thrower)、"投掷"(thraws)和"投 掷运动"(throwing)具有共同的词干"投掷"(throw)。维护由出现在文件(除去无用词)中的作为词干的词纟M;的"字典"。当重新遇到一个词的时候,它被增加到该字典中,并且还记录这个词已经在齡文 件收集(信息项组)中出现的次数的游动(running)计数。所得的结果是在文件组中用于全部文件的检索词列表,以朋陛检索词出 现的频率。出现频率太高或者太低的词被忽视,也就是说从字典中除去它们并 且它们不参与随后的分析。具有太低频率的词可能是拼错的、虚构的或者与文 件组所表示的领域不相关的。出现频率太高的词不适合在该组中区分文件。例 如,在与广播有关的文件的测试文件组中大约全部文件的三分之一都使用了检 索词"新闻",而其中在测试文件组中只有大约2%的文州吏用了词"足球"。 因此能够设想湘"新闻"相比,"足球"翻于表征文件内容的更好的检索词。 相反的,词"fottbaU"("足球"(football)的错误拼写)只在旨文件组中出 现过一次,因此由于具有太低的出现机率而被删除。此类词可以被定义为那些 具有比出现的平均频率低两个标准偏差或者比出现的平均频率高两个标准偏差 的出现频率的词。然后在步骤130中生^#征向量。为了这样做,而为文件组中的每个文件生成一个检索词频率直方图。ma对存在于字典(与该文件组相关)中的词在单个文件中出现的次数计数来构建 检索词频率直方图。在单个文件中,字典中的大部分检索词都不会出现,因此这些检索词将具有零频率。在图3a和3b中,出用于两个不同文件的检索词频率直方图的示意性实例。从这个实例中育,看出直方图是如何表征文件内容的。通am察实例,能够看出文件1比文件2中出现更多的检索词"MPEG"和"视频",而文件2 自身出现了更多的检索词"元数据"。在该直方图中许多条目是零,因为相应 的词没有出现在文件中。在真实的例子中,实际的检索词频率直方图中具有比在实例中大得多的检 索词数目。典型地,直方图可以绘制超过50000个不同检索词的频率,定出维 50000的直方图。如果姜丰細在SOM信息空间的粒中,贝喧方图的 维数需要被相当大的縮减。检索词频率直方图中的每个条目被用作为表示那个文件的特征向量中的对 应值。这^Hi程的结果是一个(50000X1)向量,它包含对于文件收集中的每 个文件该字典所规定的全部检索词的频率。该向量被称为稀疏向量,因为典型 地大多数值都是零,而其他大多数腿例如1这样糊瞎低的数目。在步骤140处M^特征向量的大小,从而减少检索词频率直方图的维数。 建议了两种方法用于^b直方图的维数。0随机映射一一种借助其而使随机数矩阵乘以直方图的技术。这是计算花 费比较ftt的过程。ii)潜在语义索弓i 一aa寻找在文件中具有很高的同时出现概率的检索词的组来减少直方图维数的技术。然后肖镞舰些词的组縮鹏单一的参数。这是 计算花费较高的过程。在本实施例中被选择用于减少检索词频率直方图的维数的方法是"随机映 射",如在上面提及的Kaski论文中所详细说明的。随机B划寸皿用随机数的 矩阵乘以直方图而成功地M^直方图的维数。組.t戶腿,"未加工的"特征向量(在图4a中示意性所表示的)是典型的 稀疏向量,其大小在具有50000个值的区域中。它能够被减少到大约200 (见 示意图4b)并且 保持该特征向量的相关特性,艮P,例如与其他被类似处理 的特征向量的相关角(向量点积)这样的相互关系。这样之所以行得通是因为 尽管限制了特嫩隹数的正交向量数,但是接近正交的向量的数目非常大。实P示上随着向量维数的增加,招可给定的随机生成的向量组彼此几乎正交。这个特性意味着与这个随inji:矩阵相乘的向量的相关方向将被保持。能够通过査看它们的点积而示出在随机映射之前和之后向量的相似性,由此证实这个性 质。育嫩用逸验方式棘明将稀疏向*/人50000个值M^、到200个值还可保 持它们的相关的相似性。然而,这个B勉t并不完美,但JW于以简单紧凑的方式 征文件内容的目的而言已经足够了。 一旦已经对于文件收集生成了特征向量,且因而也定义了该收集的信息空间,在步骤150他就将它们糊寸到二维SOM来生成语义鹏。随后的部分说 明了通过利用Kohonen自组织日鄉*1¥集该特征向量而日勉寸到2维的过程。还 要参考图5。Kohonen自组织映射被用于群集和组织那些已经被生成用于每个文件的特 征向量。自组织鹏抽在节点的二维阵列或者网格(如二维平面185所图解说明的) 中的输入节点170和输出节点180纟賊。输入节点的数目与,細于训练该日赠寸 的特征向量中的值的数目一样多。眇Jtt的每个输出节点通过^ta权的连接190 (每个连接一个权重)连接到输入节点。最初这些权重的每一个被设置成随机值,然后,通舰代过程而"训练" 权重。M将每1it征向量呈现给0妈t的输入节点来训练鹏t i!31计銷俞入 向量和每个输出节点的权重之间的欧几里德距离来计算最近的输出节点。m^的节点被指定为"获應者"并且通过轻微改变l^值来训练这个节点 的权重以使g们移动得更誕该输入向量。除了获應节点以外,还训练该《鹏 节点邻近的节点,并且使,微移动得更M该输入向量。这个训练过程,不只是训练单个节点的权重,而是训练映射上的节点区域 的权重,这使得日,一旦被训练,就可以保存节点的2维映射中的输入空间的 大部分拓扑结构。一旦映射被训练,每个文件就能够被呈现在映射中以便观察哪个输出节点 最靠近该文件的输入特征向量。权重与特征向量的等同是不大可能的,并且特 征向量和它在映射上皿的节点之间的欧几里德距离被称为"量化误差"。通过将用于每个文件的特征向量呈现在映射上以便观察它位于哪里,产生 用于每个文件的x, y映射位置。当这些x, y ^S随同文件ID —起Mil入査 找表中的时候,这些x, y位置齢说ra于显Ut件之间的关系。最后,在歩骤160处增加抖动部分,将在下面参考图6来描述它。上述过程的潜在问题是两个相同或者基本上相同的信息项可以被映射到SOM的节点阵列中的相同节点上。这不会带来数据的操纵处理的困难,但是 不利于在显示屏上数据的显现(将在下面描述)。尤其是,当在显示屏上显现 数据的时候,已经认i烟U:多个非常棚以的项在特定节点处的单个项上是可识别的将会非常有用。因此,在每个信息项鹏倒的节点體处增加一个"抖动"部分。谢4动部分歸大可以到节点分隔的士l/2的随机加法。因此,参考图6, 卩勉寸过程为:t^糊出节点200的信息项具有被增加的科动部分,以便于实际 上它可以被鹏倒在图6中由虚线所限制的区域210中的ftf可节点位置上。因此,信息项可以被认为是在不同于SOM过程的"输出节点"的节点位 置处^l寸到图6的平面上的位置。可替代的方法可以是左.匕述的SOM IM过程中使用更高密度的"输出节 点"。这将不能在绝对相同的信息项之间提供任何区别,但是可以允许差不多 相同、但不是完全相同的信息项映射到不同的但是十分接近地分开的输出节点 上。图7示意性图解说明了显示屏60上的显示,其中用图表来说明被分MtA SOM的 以便在搜索操作中使用。显示器示出了搜索查洵250、结果列表260 和SOM显示区域270。在操作中,用户将关键字搜索查询输入到查询区域250中。然后用户开始 搜索,例如通过按下體70上的回车或者鹏4顿鼠标80选择屏幕"鄉" 来开始搜索。然后,禾佣标准的关键對叟索技术来比较,體查询框250中的关 键字和 库中的信息项。这样生成结果列表,在列表窗口 260将每一个结果 都作为相应条目280显示。同样地,每个结果在节点显示区域270上都具有对 应的显示点。因为用于生成SOM表示的分,程倾向于在SOM中将互相类似的信息项 集合到一起,所以搜索查询的结果一般倾向于落入像君操290这样的群集中。 这里,注意到区域270上的每个点对应于SOM中与结果列表260中的一^ 果相关的对应条目;并且在区域270中显就点的&fi对应于在节点阵列中那 些节点的阵列^S。图8示意性图解说明用于减少"命中"(结果列表中的结果)数目的技术。用户利用鼠标80围绕着对应于感兴趣的节点的一组显示点画出方框300。在结 果列表区域260中,只显示与方框300中的点相对应的那些结果。如果对这些 结果不再感兴趣,贝U用户可以围绕着不同组的显示点画出另一个方框。注意到,对于在方框300中为之显示了显示点并且满足字搜索区域250中 的搜索标准的那些结果,结果区域260为它们显7,拨条目。方框300可以包 含与位于该节点阵列中的节点相对应的其他显示位置,但是如果这些结果不满 足搜索标准,则它们将^MM示并且不会形皿方框260中显示的结果的m 的一部分。图9示意性图解说明用于在列表窗口 260中捡测条目的节点位置的技术。 在使用图形用户界面领域中的标准技术,尤其在利用所谓的"Windows" IM 操作系统的计算机中,用户可以在结果列表窗口中选择一个或者多个条目。在 所示的实例中,通过用鼠标点击与相关结果相对应的"检查框"310来完成。 然而,这同样可以通过点击以高亮显示整个结果,或者MM击相关结果等来 完成。因为选择了一个结果,所以那些表示节点阵列中的对应节点的相应显示 点被用不同的方式显示。^ilW应于在结果区域260中戶,结果330的两个 显示点320来示意性地示出。夕卜观的改变可能是以更大尺寸显示该点,或者是以相同显示颜色的更强烈 的版本显示该点,或者是以不同的显示颜色显示该点,或者是以这,化属性 的组合来显示该点。在任何时候,3ta^盾上述的步骤(也就是步骤110到140),兽辦将新的 信息项增加到SOM,然后将产生的^!>的特征向量应用到"预训练"SOM模 型,即由日勉;t的自组织准备所产生的一组SOM模型。因此,对于新增加的信 息项,通常不"重新训练"该日划才;而^X寸没有修改的全部SOM t!M使用步 骤150到160。每次增加新的信息项的时候来重新训练SOM需要昂贵的计算 代价,并且有时候对用户还有一些不友善,用户可能要逐渐习惯于该鹏忡通 常被访问的信息项的相对位置。然而,可能会有一种情况,其中适合重新训练过程。例如,如果自首次生 成SOM以来己经将新的检索词(可能是新的新闻项或者新的技术领域)输入 到字典中,则它们可能不会非常好地映射到现有的输出节点组。在新接收的信 息项被日划寸到现有的SOM期间,这玎以被检测为在检观倒的所谓"量化體"中的增长。在本实施例中,该量化误差与阈值误差量相比较。如果它比该阈值量大,贝蜮者(a)禾拥所有的原始信息项和自其生成以后被添加的任荷项来自动重新训练SQM;或者(b)用户被^^便的时间启动重新川练过程。 重新训练过程使用全部相关信息项的特征向量并且完全重新应用步骤150和 160。图10示意性图解说明作为视频捕获和/或处理设备实例的衝斜几500,摄像 机包括具有相鄉竟520的图象捕获设备510;数字/信号鹏器530;磁带存 储器540;磁盘赫其他随机存取存储器550;用户控制器560和具有目镜580 的显示设备570。对于那些本领域技术人员来说传纟,像机的其他特征或者其 他备选实施方式(例如不同的存储介质或者不同的显示屏幕设备)将是寸艮显而 易见的。在使用中,与捕获的视频桐料相关的元im可以被存储在存储器550, 在显示设备570上观察与被存储数据相关的SOM,并且如上戶尸战利用用户控 制器560来控制它。图11示意性图解说明个人数字助理(PDA) 600,作为便携式数据处理设 备的一个实例,它具有包括显示区域620和掛共用户控律啲触敏区域630的显 示屏幕610;以及翻处理和存储(没有显示)。再次地,本领域的技术人员将 很清楚替换的实施方式。该PDA可以如上所述地结合图1的系统来使用。
权利要求
1.一种信息存储系统,其中处理一组不同的信息项以便于通过该信息项的相互相似性来映射到节点阵列中的对应节点,以使得相似的信息项映射到在该节点阵列中相似位置处的节点;系统包括用于生成从每个信息项中所得出的特征向量的装置,该用于信息项的特征向量表示在该信息项中一组信息特征中的每个信息特征的一组出现频率;以及用于将每个特征向量映射到该节点阵列中的节点的装置,在信息项和该阵列中的节点之间的映射包括抖动部分,以使得基本上相同的信息项易于映射到在该阵列中的距离靠近但却不同的节点上。
2. 依据权利要求l的系统,包括用于将新接收的信息项鹏到该节点阵列中的节点的装置; 用于在该新接收的信息项被如此舰时检测鹏误差的装置;禾口 响应于该鹏寸误差^31阈值误差量的检测而启动该组信息项和该新接收的 信息项的重新映射过程的装置。
3. —种便携式 处理设备,包括一个依据权利要求1或2的系统。
4. 一种视频廉集和/或处理设备,包括一个依据权利要求1或2的系统。
5. —种信息存储方法,其中处理一组不同的信息项以便于M:该信息项的相互相似性来映射至U节点阵列中的对应节点,以使得相似的信息项映射到该节 点阵列中相似位置处的节点;该方法包括步骤生成从每^S言息中所得出的特征向量,该用于信息项的特征向量表示在该 信息项中一组信息特征中的每个信息特征的一组出现频率;禾口将每个特征向量鹏寸到该节点阵列中的节点,在信息项和该阵列中的节点 之间的映射包括抖动部分,以使得基本上相同的信息项易于映射到在该阵列中 的距离靠近但却不同的节点上。
全文摘要
一种信息检索系统,其中一组不同的信息项通过该信息项的相互相似性而映射到节点阵列中的对应节点,使得相似的信息项映射到该节点阵列中相似位置处的节点;该系统包括用于在用户显示器上的显示区中,把至少一些节点的表示显示为显示点的二维显示阵列的图形用户界面;用于定义该显示区的二维区域的用户控制器;和用于检测位于该显示区的二维区域中的那些显示点的检测器;该图形用户界面还显示表示信息项的数据列表,那些信息项被映射到与该显示区的二维区域中所显示的显示点相对应的节点。
文档编号G06F12/00GK101251857SQ20081008176
公开日2008年8月27日 申请日期2003年9月19日 优先权日2002年9月19日
发明者D·W·特雷佩斯, J·R·托尔佩 申请人:索尼英国有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1