用于搜索、导航和排名个人网中的文档的方法、系统和计算机程序产品的制作方法

文档序号:6657130阅读:451来源:国知局
专利名称:用于搜索、导航和排名个人网中的文档的方法、系统和计算机程序产品的制作方法
技术领域
一种有助于在文件中进行搜索和导航的方法、设备和计算机程序产品。该方法用于建立连接文档的链接网络,并且至少适用于先前并不存在这样的网络的情形,如,单个用户或小组共享文档。
背景技术
对于个人计算机的任何用户来说,当前的形式是令人泄气的。用户习惯于基本上立即找到存在于网络上的有关任何主题的几乎任何感兴趣的东西,这些是从数目已经超过80亿的一组网络文档中采集出来的,其结果排名如此之好,以至于通常点击率最高的几个正是用户所寻找的。而且,对于已经找到好的点击的用户来说,跟随来自该点击的超链接并因此发现相关的文档很容易。
现在,同一用户在他/她的PC中可能具有数千或数百万的文件。这个用户也需要搜索和导航这些文件。当然,理由是文件的数量使得不可能记住它们都是什么、它们在分级文件系统中的什么地方以及它们包含什么。因此,用户需要帮助a)以寻找特殊文件,及b)以寻找与主题或题目相关的文件。当然,在网络情况下,这个正好是人们从当前的网络搜索引擎所获得的那种帮助。那么,沮丧的用户会问“为什么在我自己的PC上找到些东西就这么困难?”本发明正是瞄准这个需求。换句话说,这个发明提供用于在个人文件中进行搜索和导航的方法。对于由组共享的文件来说,它也适合支持同样的功能。
在帮助搜索和导航个人文件的技术中,当前的技术发展水平是相当有限的。如上所述,目前,在用户对日益增长的个人内容搜索的需求与满足这个需求的当前技术的能力之间,存在着清晰的缺口。最近,许多不同的公司已经意识到这个缺口,并且正努力填平它—因为巨大的、未满足的需求意味着巨大的商业机会。因此,在讨论当前的技术发展水平时,我们将包括今天可能购买和使用的有限技术解决方案,及那些在公众媒体上通告或暗示的方案。出发点是该领域正处于快速增长和改变的状态中。
现在,桌面搜索—意味着在用户自己的PC上本地运行搜索工具—的想法已经存在了一段时间。1998年,最早的因特网搜索引擎之一,AltaVista,在1998年发布了用于个人PC搜索的免费软件,名为AltaVista Discovery。这里,我们看到一个现在被许多人理解的事实的早期认识即使是单个用户所必须涉及的数字文档的纯粹数量已经增长了如此之多,以至于组织和导航文件的古老的分级方法是如此令人绝望的不适当。
十几年前,Microsoft就已经认识到PC用户搜索计算机文件中的信息时所要面临的问题。Microsoft在其Windows操作系统中的统一数据存储的先见之明(Cairo,用OFS-对象文件系统;想法至少回溯到1990年)已成为许多公告的来源。这些公告已经继续到现在,并被不断修订。(经过几次延期之后,当前公告的代号为Longhorn的下一版本的Windows的发布日期为2006年)由Microsoft提供的解决方案是将其Windows操作系统的基础配管替换为从其SQL服务器数据库软件借用而来的技术。当前,文档、网页、e-mail文件、电子数据表以及其它信息是存储在分开的且多为互不相容的软件中。代号为WinFS的新技术承诺在嵌入Windows的单个数据库中统一存储,其更容易搜索、更可靠且可通过公司网和因特网来访问。
2004年10月,Google发布了其Google Desktop Search引擎的测试第二版。与Microsoft的“全面检查(total-overhaul)”策略形成对比的是,Google Desktop Search由相对较小且较易下载的一组软件模块组成,所述模块扫描并索引用户PC的内容。接着,所述索引被用于支持快速搜索。被索引的文档包括文本文件、Word文件、Powerpoint、excel、Outlook邮件文件和所浏览的网络文档。
随后(2004年12月),Microsoft发布了其Microsoft Toolbar Suite的测试第二版,其包括桌面搜索和网络搜索两方面。Microsoft已经事先购买了Lookout桌面搜索技术;Lookout(正如其名字所表明的那样)集中在对Outlook文件的搜索上。
还是在2004年12月,Ask Jeeves公布了可下载桌面搜索引擎的测试第二版。这个引擎很可能集成了Ask Jeeves从Tukaroo公司处购买获得的技术。在同一个月,Yahoo宣布其将在2005的早期发布一个测试版本。Yahoo已经购买了大量的较早的技术,大部分明显是Overture的,Overtur自身具有几个购买的引擎,包括AllTheWeb。Yahoo正在与X1合作来发展其桌面搜索引擎。
许多其它公司也提供桌面搜索产品。上述简短的总结必将在短期内过时;因此我们在此并不试图穷尽。关于桌面搜索公司和产品的综述可以在http://www.goebelgroup.com/desktopmatrix.htm中找到。
一个重要的问题是“这些新的玩家使用的是什么技术?”这些公司在展示给公众的公告中仅披露了很少的信息;并且找到关于使用的实际搜索技术的任何细节都是非常困难的。大多数这些公司看起来无疑提供的是基于关键字的搜索,使用的是各种文件类型上的索引;并且多数提供桌面和企业两种搜索。然而,我们还没有找到任何公司将其搜索结果的排名建立在链接分析的基础上。实际上,一点也不清楚上述公司是否使用链接—或是用于排名或是用于导航。
表面上使用了某些链接的技术是Autonomy公司的。Autonomy最近已经发行了IDOL Enterprise Desktop Search。Autonomy技术包括文档之间的对称“相似性链接(similarity links)”。该相似性量度是复杂的,它使用概念相似的概率量度。而且,在搜索过程中使用概念分析,来代替完全依靠关键字。然而,没有迹象表明其使用了例如本发明中所提到的单向超链接,而且,没有证据表明其使用了链接分析。实际上,Autonomy明确地反对使用任何类型的页面排名技术。换句话说,正如在http://www.autonomy.com/content/Press/Archives/2004/1206.html处可见的新闻稿中所记录的那样“不使用页面排名这种在链接自由企业中已经被证明无效的尝试,Automatic Query Guidance使用概念聚类......”。
因此,正如本发明人所发现的那样,为了能够建立用于各种各样文档的优秀的搜索、排名和导航工具,优选的是在本地文件系统上具有适当的链接结构,该结构可以在链接分析中使用。这种存在于万维网上的链接结构代表了人们了解信息的一种途径,它远优于传统的分级文件系统,在传统的分级文件系统中,每个文档被强制放在分级树的单个位置中。如果这样的链接结构已经存在于今天的PC上,那么用于本地硬盘的基于链接分析的搜索和排名设备将可能已经存在。
到目前为止,提出的解决方案中没有一个建立了必要的链接基础结构,以使得能够对单个用户或小组的文件进行基于链接分析的排名以便搜索和导航。本发明通过提出用于产生本地链接结构的途径来补救这个问题。
如下面详细解释的那样,超链接可以提供两种类型的信息它们可以指明两个文件(对称的)之间的相似性,和/或它们可以暗含一个建议,即开始于文件A的观众可能发现文件B有趣(单向或非对称)。而且,链接可以被用于两个目的它们可以帮助搜索(经由排名)和导航。
当前用于非WWW文档系统的技术不是完全缺少超链接—这样就缺少排名和导航的好处—就是仅使用相似性(如Autonomy)。在后者的情形中,缺少使用人为判断的自由,该判断提供关于文件和关于文件之间关系的建议。没有这样的建议,搜索(排名)和导航两者在质量上都将遭受损害。
链接分析在Google Web搜索引擎的巨大成功中已经扮演了至关重要的角色。在Google之前,对来自搜索的点击进行排名的主要尝试是使用下列中的一个或多个文本关联、“链接广泛度”和人为判断(Yahoo)。文本关联总是重要的,但本质上并不足以提供好的排名结果。链接广泛度的特征在于对指向页面的链接计数。链接广泛度是链接分析的最粗略形式,并且极容易被假的链接所欺骗。最后,人为判断虽然总是有用的,但对具有许多文档和高更新率的分布式文档系统来说,却是过于缓慢和昂贵的。
Google是本发明人所知的通过公知的PageRank算法来使用非平凡链接分析的第一个网站搜索引擎。PageRank—连同其它形式的非平凡链接分析(例如在美国专利10/687,602和10/918,713中引用的那些)—的优点是PageRank使用人为判断的集体形式。即,连接数十亿网页的大量链接中的大多数是由数百万人(网页设计者)制定的。因此,为找到最佳网页,非平凡链接分析是一个利用这些数百万人的劳动的聪明办法,该方法提取他们的集体判断。
在极大程度上,当网络设计者制定了从他自己的页面A至另一页面B的链接时,(从该网络设计者的观点)这意味着,对页面A感兴趣的读者可能也对页面B感兴趣。即,这样的链接可被解释为暗示了下面两个事情的某种混合(i)页面B与页面A相似;和/或(ii)对页面A感兴趣的人可能也对页面B感兴趣。
简而言之,链接分析是有价值的,因为链接传达了两件事相似性和建议。
虽然这些尝试已被应用到网络环境中,但客户面临着进退两难的局面—怎样处理他们个人计算机中的数千或数百万的文件。
正如本发明人认识到的那样,所希望的是开发链接的个人网络(Personal Web)的工具,使得用户能够将来自关键字搜索的点击排名,并且导航这些文件。术语“个人网络”是指由本发明建立的文档之间的链接的网络。个人网络包括下列的组合(i)基于相似性的不定向的加权链接;(ii)定向的加权链接,其可能被或可能不被锚定于所指向的或被指示文档上的文本,且代表建议;和(iii)分配给文档自身的权重(重要性分数)—也代表建议。
在大量信息的世界里,排名和导航将总是重要的功能。所述个人网络以独特而有效的途径支持这两个功能—通过合并相似性和建议这两个至关紧要的方面—如下面详细讨论的那样。
首先我们处理相似性。本发明使用机器算法来评估文档或文件之间的相似性。如上所述,至少一个其它的尝试(Autonomy的那个)使用文档之间的相似性分析来帮助用户在这些文档之间进行寻找和导航。这个相似性的量度与Autonomy的那个不同。另一个不同点是使用加权的相似性链接,它由先前描述的相似性分析产生,作为整体链接分析尝试的一个分量—其反过来支持对来自搜索的点击进行排名。而且,相似性链接在帮助导航时扮演着重要角色。
下面,我们来谈谈建议。建议通常人为完成最好。然而,单个用户评估他/她自己的文件的情况与评估网络上的文件的情况有着很大的不同。网络上,数百万的用户对数十亿的网页贡献了建议。在这个情形下,每个用户仅仅对数目相对较少的其它文档做出了建议。在一个用户的情况下,对用户来说,仔细检查成千上万的预先存在的文件并尝试制定指向其它相关和/或感兴趣的文件的链接通常是不现实和不可行的。即,个人不能简单地仅通过尝试制造一个就像万维网那样的个人网络来创建“桌面上的网络”,因为单个用户所承担的劳动负担太大了。
与WWW的另一个区别也是相关的。即,事实上,单个用户通常是有资格对他/她自己的文件的性质和兴趣进行评估的唯一人—没有其它人和其它机器可以做这件事。用户已经读过—或至少有某种程度的了解—所有这些文件。相反地,在WWW上,任何个人都不可能评估网络上的所有页面。
总结这两个区别在网络上,许多个体进行阅读工作;并且许多个体经由超链接进行建议/评估工作。在单个用户的情况下,一个个体可以被期望进行(虽然当然是不完美的)阅读文件的工作;可是这个个体并不被期望乐于制定从每个文件到其它文件的链接。到目前为止,与万维网不同,推荐人的能力与要被评论/推荐的文档的数目之间的这个失配已经妨碍了到文档系统的超链接的任何系统应用。
为了解决这个失配,本发明包括混合形式的建议。这个混合物向用户提供了设置从任意文件到任意其它文件的超链接的选择权。然而,这个混合物也提供用于建议的另一机制每个文件将被给定一个“文件质量分数”或FQS。每个文件将具有一个缺省值,就FQS的可能尺度来说,该缺省值相当小。这个值可以基于文档的量度(例如近期使用度和/或使用频率)而被自动修改。而且,只要方便,用户可以随意增加(或减少)这个FQS—如,在打开/阅读文件之后。FQS是用于将建议包括到文档系统中的最小劳动密集型的可能方法。本发明通过还包括用户选择超链接的可能性而更加大了灵活性。在这点上讲,该建议系统的一个实施例是混合物它包括有关图(具有其FQS的文档)的节点的权重和节点之间的定向链接(这样从指示文档建议被指示的文档)。

发明内容
一种包括个人网络的用于个人搜索引擎的方法、装置和计算机程序产品,其组成为相似性网络、超链接(手动和自动产生)以及手动和自动更新的文件质量分数。组件包括分析器(从文档中提取文字)、文本关联性分析器、链接分析方法、相似性网络、相似性分析器以及应用于PC上的个人文件的超链接。其它组件包括导航窗口和FQS。所有上面这些的组合可以被合并到工作的个人搜索引擎中。


图1说明在本发明中使用的文档之间的两种超链接。
图2是根据本发明的一个实施例的用于搜索引擎的流程图。
图3是根据本发明的一个实施例的混合网络的代表。
图4是根据本发明的一个实施例的用于导航的流程图。
图5是根据本发明的一个实施例从单个用户的观点所见的单组结构的说明。
图6是根据本发明的一个实施例的在几个组的情况下定义文件子集的两个可能途径的说明,所述文件子集用于建立子图和执行链接分析。
图7是根据本发明的一个实施例的在几个组的情况下用于链接分析的两个可能子图的说明。
图8是在本发明的一个实施例中使用的计算机的方框图。
具体实施例方式
本发明涉及文档的“个人网络”的建立,而这些文档要么将具有很少的链接结构或没有链接结构。个人网络包括下列的组合(i)基于相似性的不定向的加权链接;(ii)定向的加权链接,其可能被或可能不被锚定于所指向的或被指示文档上的文本,且代表建议;和(iii)分配给文档自身的权重(重要性分数)—也代表建议。
我们也使用术语“混合网络”来描述这个结构。可从两个方面来理解个人网络是混合物。首先,它使用加权的对称相似性链接与加权的定向建议链接的杂系混合。其次,建议的重要功能是通过使用定向链接与文件质量分数的杂系混合来实现的。
下面我们详细说明本发明中使用的建议的混合形式。这个混合尝试向用户提供设置从任意文件到任意其它文件的超链接的选择权。(如在下文中所见,这个超链接在任一端可能被或可能不被锚定于特殊文本。)在这个上下文中,我们提供术语“超链接”的精确定义,以避免模糊。逻辑上,超链接是从一个文件(称为文件A)指向另一个文件(称为文件B)的指针。除此之外,个人可以将这个指针与超链接权重(HLM)相关联。无论何时当我们使用术语超链接来描述本发明时,都暗含这个逻辑定义(指针加权重)。物理上来讲,这样的超链接典型地是以元数据的形式实现的,该元数据典型地包括在文件A(指向文件)的元数据中(与文件A的元数据存储在一起)。而且,与超链接相关联的任何权重也被存储为元数据—典型地(再次)用于文件A。
除了超链接,混合建议尝试提供另一个用于建议的机制每个文件将被给予一个文件质量分数或FQS。初始地,每个文件被给予一个缺省值用于其FQS,就FQS的可能尺度来说,该缺省值相当小。接着,用户可以随意提高(或甚至降低)这个FQS。
而且,在本发明的一个实施例中,可以使用用于改变FQS的自动方法。例如,计算机自身可以将在一段时间内文件被打开和/或编辑的次数记录在日志内,并向被频繁打开的文件给予较高的FQS分数。而且,可以使用访问的近期度作为重要性的量度。
这个混合系统的合理性在于下列原因。首先,不需要使人精疲力尽的工作。只有那些用户乐意这样做的文件才获得建议。其次,选择FQS比设置链接要容易—它多半是可能的建议的最低要求形式。但是,甚至是这里也仅需要最小的用户努力。文件以缺省的FQS开始;这个反过来可能被某种机器可测量的重要性指示器修改。只有那些被用户判断为“值得麻烦”的文件才将获得用户修改(典型的是提高)的FQS值。
因此,出现下面的景象。用户他/她毫不迟疑地首次用大量积压的文件来使用“个人网络搜索引擎”。引擎自身则进行扒用户的文件系统的工作,扫描文件的文本,建立倒排索引并建立放置每对文件之间的加权、对称链接的“相似性网络”。有关链接的权重是相似性量度。而且,引擎向每个文件分配一个低的缺省FQS,可以基于来自文件日志的信息来修改这个缺省值。
因此,根本没有任何努力,用户就获得了连接所有文件的相似性网络、每个文件的重要性分数和倒排索引。这些特征已经允许搜索和导航。用户则可以通过储备建议来补充这个起始景象。这么做的动机是它们是“自我的提醒者”。如果用户设置了从文件A到文件B的超链接,则这是提醒者在说“一旦我打开了A,我可能会想要跳到B”。此外,这里所使用的超链接,如同网络上的那些一样,可以被嵌入文本中,使得它们从文件A中的文本中的特殊位置和/或指向文件B中的特殊位置。
文件的读者/拥有者也可以使用FQS来储备建议(给他或她自己)。例如,如果读者选择将文件C的FQS从其给定值提高,这是下面这个形式的提醒,“当我对文件进行搜索时,我想要文件C具有比平均高的出现机会”。同样地,读者可以希望降低被判断为兴趣很少的文件的FQS,即使它不应被删除。
最终的混合网络将具有对称(不定向)链接和单向或定向链接。数学上讲,这样的图仍然是定向图,并且因此可以被适合于定向图的方法(例如那些在先前并入的美国专利中所描述的,所述美国专利为2003年10月29日提交的10/687,602和2004年8月25日提交的10/918,713)处理。
这里涉及一个调整参数,涉及确定与对称相似性链接的相似性权重相比,定向的用户自写的超链接应该具有多大的权重。即本发明的一个实施例使用链接分析来排名文档;并且,链接分析的输入是由不定向相似性链接和定向超链接两者组成的混合网络。这两个类型链接的相对权重将因此影响链接分析的结果。在本发明的优选实施例中,相似性权重将落入0到1的范围内。因而,在本发明的一个实施例中,超链接被给定缺省权重1。可选地(保持相似性权重在同样的0到1到范围内),可以给予超链接缺省的但可调的(即,可由用户调整的)权重HLW。
FQS也给予用于每个文件的第三分数,除了来自链接分析和文本相关性分析的分数,也可使用该分数。即,搜索后的点击排名是基于下列的组合(i)文本相关性分数、(ii)链接分析权重和(iii)FQS。此外,这里有两个调整参数,以用于确定给予这三个权重的相对强度。
随后,我们谈谈导航。本发明的实施例合并了三个帮助导航的机制。
首先,存在被锚定在文本中的那些超链接。锚定的超链接以与用于在WWW上导航的超链接的使用相类似的方式为用户工作文档中的文本被突出,这样传达给用户该文本被耦合到至另一文档(或至同一文档中的另一点)的超链接。其次,该实施例允许用户制定从文件A指向文件B的非锚定的超链接。第三,相似性网络提供从文件A至每个其它文件的链接。
这里我们强调术语“超链接”一般被用于指代被突出的文本,该文本用于提供给用户(在一个界面中)锚定的超链接。在这个文档中,术语“超链接”是指如上所述的逻辑指针(具有权重)。因此,我们将使用术语“活动图标”用于任何被突出的文本(或其它符号),该文本在一个界面中呈现给用户,使得用户可以激活该图标并且因此打开被指向的文件。即,界面中的图标不是由我们所定义的超链接;更确切地,图标“后面”的逻辑(加权)指针才是超链接。
如图1中所示,锚定的超链接被锚定于指示文档3中的文本,并且指向被指示文档4。非锚定的超链接2从指示文档3指向被指示文档4。也可能具有被锚定于被指示文档中的特殊文本的超链接。举例说来,图1中,锚定的超链接5从指示文档3中的文本“text1”指向被指示文档4中的文本“重要”。
为了支持导航,本发明允许打开文件O的用户拉起显示O所链接的文件的导航窗口。这个窗口将具有多达三个的排名列表。一个列表将为最高排名的相似性链接。这些链接将根据相似性权重、链接分析分数和所链接的文件的FQS来排名。第二列表将具有来自O的超链接所指向的最高排名的文件—根据它们的FQS值、它们的链接分析分数LA和它们的超链接权重而排名。第三列表则将具有指向O的最高排名的文件—也是根据它们的FQS、它们的LA分数和超链接权重而进行排名。
现在,我们参照图2更详细地说明本发明的上述组件,图2以搜索引擎及其组件的形式描述了搜索过程和本发明。
用户通过向搜索界面输入关键字223来启动搜索225。该关键字被送入点击列表产生器235。点击列表产生器使用关键字从倒排索引233中提取点击列表237。
倒排索引是一个文件,该文件以一个关键字作为输入,并接着给出包含那个关键字的文件列表作为输出。这是本领域的从业者所熟知的标准技术和使用技术。对多关键字搜索来说,也需要从倒排索引拉出满足关键字的某一布尔组合的所有文件的能力。这里,可以再次使用已知技术。这种布尔排序功能被包含在被称作“倒排索引”的组件中。
为建立倒排索引,需要分析器(图2中的221)。这个组件扫描文件201并识别那些文件中的文字。当前,许多文件类型允许使用分析器—如,Word文件、pdf文件、文本文件、html文件以及Outlook邮件文件。该分析器的动作以及倒排索引的建立和更新发生在不是由搜索启动的后台处理中。
注意,这里个人文件典型地具有大量的非文本文件—特别地,音乐文件和数码相片文件。本发明的一个实施例将能够处理非文本文件,前提是它们具有可以被分析以产生文字的元数据。这个假设适合于许多类型的非文本文件,但不是全部。
在文本相关性计算机239中,本发明中还将使用文本相关性分析。这个模块将关键字223与未被排名的点击列表237一起作为其输入,并且输出相同点击的列表伴随它们的文本相关性分数TR至相关性分数DB 241。对于点击列表上的每个文档,计算文本相关性分数TR,并且相对于给定的关键字来说,使用已知技术。
这里值得指出的是,对于网络搜索来说,文本相关性分析的简单形式并不可取,因为他们容易被“非索要信息”欺骗—即,狡猾的网页设计者在页面中插入某些关键字的许多拷贝,该关键字由网上浏览器(Web crawler)检测但对人类读者来说仍是不可见的。然而对于个人内容之上的个人搜索引擎来说,非索要信息很可能不是问题。用户当然不会向他或她自己兜售非索要信息。而且,任何包含非索要信息且找到自己进入用户收藏的途径的文件都是由用户处理的。因此,文本相关性分析的简单形式可以十分适合于个人搜索引擎。然而,也可以使用更复杂的形式。
下面,我们说明相似性计算机205。这个过程也是在后台运行。相似性测量的问题与文本相关性问题非常接近。在前者中,给予个人一组关键字和文档;并且,个人努力确定文档与关键字所代表的概念有多么相关。计算相似性量度时,给予个人两个文档,并且个人必须确定在一个文档中说明的概念与在另一个文档中说明的概念的重叠程度。本发明的一个实施例使用分析器203在后台进程中成对地检查文档201。该分析器识别文档对中的文字,并且将其结果送入相似性计算机205。
测量概念远比分析和计数关键字更有挑战性。然而(再次),存在适合于个人搜索引擎的简单方法。下面是一种用于相似性测量的简单方法,该方法将被用在本发明的一个实施例中。
以“字典”开始,即,在倒排索引中使用的一组文字。这些是在文件中找到的有用的文字。(非有用的文字的例子是“填塞”文字,例如the、and、he、if等等。)那么对每个文字w和每个文件f,分析器计数文字w在文件f中出现的次数Nf(w)。接着将Nf(w)除以Nf—文件中的文字的总数—用nf(w)表示结果。术语nf(w)被称为文件f的“文字轮廓”。
文件1与文件2之间的相似性S(1,2)是这样定义的S(1,2)=KΣwn1(w)n2(w)]]>这里,常量K是另一个调整参数,该参数设置相似性量度的尺度。在本发明的优选实施例中,常量K为1.在这个情况下,相似性是0和1之间的正数。此外,K取为1时,两个相同文件的相似性就是1。
如上所述,简单性决不是个人文件系统上的搜索和导航中的缺点。在任何情况下,不希望文字频率的非索要信息是一个问题。
系统201中的每个文件都将具有相对于每个其它文件的相似性权重。因此,可能希望完成由相似性链接构成的图。(对于一个完整的图来说,每个节点(文档)被链接至每个其它节点(文档))。然而,可能会出现两个文件的相似性权重刚好为0的情况(当这两个文件没有共同的字典文字时)。可以希望这种情况很少发生。然而,如果有任何权重为0的相似性链接,则该相似性图不再是完整的。(保持非负—即,所有相似性链接具有正的权重或为0的权重)然而,图的完整性并不是为所有节点获得正的链接分析权重的必要条件。而是,必要条件是所述图是“强连接的”。在强连接的图中,对于任意两个节点A和B,都至少有一个从A到B的路径,且至少有一个从B到A的路径(不必是同一路径)。对称的图,例如相似性图,只要它是连接的—即,只要图不能被拆分为互不相连的之间没有链接的段—那它定将是强连接的。
预期出现相似性量度为0的情形很少,以至于相似性图将总是连接的,并且因此是强连接的。然而,作为备份量度,在本发明的一个实施例中,可以施加一个最小的相似性量度δ>0。即,当KΣwn1(w)n2(w)<δ]]>时,可设S(1,2)=δ。这保证了相似性图是完整的并因此是连接的。
相似性量度存储在相似性数据库207中。现在,可以说明定向超链接的添加—它与相似性链接一起,形成用于链接分析213的基础。(非定向)相似性链接连同定向超链接一起,形成连接文档201的混合网络。
本发明的一个实施例允许用户217在任何时间使用超链接产生器209的手动界面来设置超链接。如图1中所示,这些超链接可以被锚定于指示文档中的文本中,和/或被指示文档中。它们也可以是从文件A指向文件B的非锚定的超链接。所有这样手动产生的超链接都存储在超链接DB 211中。如上所述,这些超链接被给定权重HLW—它在本发明的一个实施例中为1。在本发明的其它实施例中,用户可以选择HLW的值。
超链接也由超链接产生器209自动产生,即,使用后台运行的至文件201的自动界面。换句话说,超链接产生器可以在某种程度上识别到文件A明确地参考文件B。例如,在本发明的一个实施例中,邮件文件MF2(另一个邮件文件MF1的回信或转发信)将触发超链接产生器设置从MF2指向MF1的超链接。自动产生的超链接也发送至超链接DB 211。
如上所述,关于由本发明中的混合网络形成的图的性质,相似性链接(当δ>0时)形成了完整的图,因为每个节点(文件)都连接至每个其它的节点(文件)。(当δ=0时,仍可以期望该图是强连接的)。此外,该图是加权(具有非负的权重)且对称的。当单向超链接添加到这个图中时,最终的混合图缺少对称的性质;但它仍是加权的、仍是非负的、且仍是强连接的。既然它是强连接的,它没有汇点。(在定向图中,汇点是只有进路但没有出路的一组节点。)对于链接分析算法来说,汇点是不受欢迎的,因为它们使得不可能为所有节点计算有用的链接分析权重。例如,PageRank算法插入许多额外的人为链接以使图完整。而且,为2004年8月25日提交的美国专利申请10/918,713描述了其他种类的用于具有汇点的图的“汇点补救(sinkremedies)”。
这里值得注意的是,混合图具有两个性质,该性质足以将有意义的链接分析权重给予每个节点混合图是强连接的,且其权重是非负的。因此,对于这个图来说,并不期望需要“汇点补救”。不过,在需要这样的补救的情况下,可使用如美国专利申请10/918,713中描述的那样的汇点补救的应用程序。
关于超链接,有两个类型。
非锚定超链接。这些是从文件A到文件B的那些未附于指示文件A中的任何特殊文本的超链接。(见图1中的例子条目2。)在个人文件系统中设置这样的超链接没有任何技术问题。该超链接成为用于文件A的一类元数据。该超链接的目标(对应于被指向网页的URL)是被指向文件的路径名称。在文件系统中,路径名称是文件系统中的标准对象;它用于指定文件的唯一逻辑地址(其它实用程序则将路径名称翻译成存储文件的物理块)锚定于指示文件中的超链接。这些超链接(图1中的条目1)也可以被表示成用于指示文件A的元数据的形式。然而,为了有用,应该在用户所看到的文件A的图形显示中将锚定于指示文件A中的文本的超链接显示给用户。而且,该显示应该是交互式的—即,耦合到用户输入(典型地是鼠标),以使用户可以激活向被指向文件的跳转。换句话说,通过我们上述的定义,锚文本成为一个“活动图标”。许多文件类型(例如,pdf、Word和PowerPoint文件)支持这个形式的超链接表达。
锚定于被指向文件中的超链接。某些文件类型,例如html,允许超链接锚定于被指向文件的文本中的位置。对于这样的文件类型来说,直接允许从文件A到文件B的超链接指向文件B中的特殊位置(见图1中的条目5)。
所有这些类型的超链接存储在超链接数据库211中。这个数据库具有表格(A=>B;HLW)的表目,即,它列出所有的超链接和它们的权重,而不考虑它们是否被锚定。在本发明的一个可选的实施例中,指示文件和/或被指示文件中的锚文本(如果有的话)也被存储在超链接DB中;这个信息可以与关键字一起在搜索中使用。
超链接加上相似性网络,形成混合网络。图3显示了来自混合网络的两个文档。文档1(条目3)具有指向文档2(条目4)的定向超链接5。而且,如同混合网络中的所有文档对一样,这两个文档通过不定向相似性链接6相关。(一些相似性链接可能具有0权重。)这个混合网络(图,其节点=文档)是链接分析(图2中的213)的起始点。如上所述,混合网络是一种形式的定向图(因为它不是完全对称的)。因此,这里可使用适合于定向图的链接分析方法。
链接广泛度不是适当的选择。原因在于,组成大部分混合网络的相似性网络给予每个节点(文档)许多链接;因此,将节点重要性(集中性)与链接的数目相关联并不明智。
本发明的优选实施例使用2003年10月29日提交的美国专利10/687,602中所描述的算法进行链接分析。实际上,在这个专利申请中,有两个截然不同的算法。测试中显示,每个都给出了良好的结果;但是其结果却显著不同。
这两个算法可以简要地称为“正向”和“反向”。当图被定向时,这两个方法不同。因此,在用户没有设置超链接或设置很少超链接的极端情况下,图是近似对称的,并且这两个方法将给出几乎一样的结果。
因此,本发明的一个仍能给出良好性能的实施例将使用正向操作符。本发明的另一个实施例为每个文档计算两个链接分析权重(使用两种方法),并且接着提供给用户选择哪一个结果(或两者都)是他/她希望在最终的排名结果中看到的。这个可选的实施例可能最适合于对有效搜索具有强烈而积极兴趣的用户。朝着找到最佳的可能搜索结果的目标,这样的用户可能会设置许多链接(给予两种方法之间的有意义差别),并且也对尝试不同算法感兴趣。
最终,出现在另一个极端的用户面前的是什么。换句话说,假设用户对超链接不感兴趣——他/她想要好的搜索和导航结果。没有超链接,混合图成为(对称的)相似性图,加上自动生成的超链接。后者这些链接可能在总数中占少数。因此,在这个情况下,正向和反向方法给出几乎相同的结果,它们反过来与来自社会科学的被称为“特征向量集中性”的方法大体相当。特征向量集中性仍然给出有意义的重要性量度;因此,结果对这类用户仍将有用。
链接分析模块213也作为后台进程运行,即它不依靠搜索的启动。它将相似性DB 207和超链接DB 211作为输入。它的输出是一组链接分析分数LA,每个文档一个。这些LA分数存储在链接分析分数DB215中。
每个文件的文件质量分数或FQS存储在FQS DB 219中。FQS的尺度不由本发明固定;而任何方便于用户的尺度(例如,从1到10)都是适当的,因为FQS的相对权重、相似性和链接分析集中性将由调整参数来确定(见下面)。由用户输入217和来自Log组件240的信息两者来确定FQS。在本发明的一个实施例中,每一次用户关闭打开的文件时,都提示他/她选择用于该文件的FQS。在另一个实施例中,机器可读的量度,例如日期和访问频率可被用于从缺省值改变FQS值。在任何情况下,用户都将具有覆盖任何所选文件的FQS的选项。
返回至搜索进程的描述,用一个或多个关键字223重新唤起用户启动搜索225。点击产生器235则使用关键字223和倒排索引233来产生不排名的点击列表237。这个不排名的点击列表与关键字223一起被送至文本相关性计算机239。文本相关性计算机的输出则是点击列表上的每个文件的一组文本相关性分数TR。这些分数存储在文本相关性分数DB 241中。
现在,可以基于三个不同的分数,对点击进行排名。合并模块229从相关性DB 241取得文本相关性分数,从链接分析DB 215取得链接分析分数LA,并从FQS DB 219取得FQS值FQS。则每个点击的净合成权重W为W=a(TR)+b(LA)+c(FQS)这里看起来有三个调整参数;但是,由于仅有相对权重与排名有关系,因此可以完全自由地选择这三个中的一个;而只有另外两个影响排名结果。在本发明的一个实施例中,用户可选择权重c—即,用户可以决定他/她想要给他/她自己的文件评估多大的权重。
合并模块根据上述公式来计算净权重W。接着,为了降低净权重W,它将点击列表237重新排列为排名列表。最终的排名列表被删节为搜索所给定的尺寸227,并且接着存储在合并排名DB 231中。接着,可以用适当的格式呈现这些搜索结果,(如同网络搜索引擎一样)将结果呈现为链接至相应文件的活动图标。
本搜索过程允许细化搜索的简单形式。即,可以获得先前搜索的点击列表,并建立包含所有这些点击和它们之间的链接(相似性链接和超链接两方面)的子图。接着对于这个子图的新搜索将给出新的结果—即使输入的是同样的关键字—因为链接分析将对子图中的文档彼此相对进行打分。可以如下象征性地表示这个改变对于每个文件,(基于整体图)的链接分析分数LA将由新的链接分析分数LA(子)(来自对于点击所定义的子图执行链接分析)来代替。在限制到点击子图的任何后续搜索中,新的点击根据下式而被排名W=a(TR)+b(LA(sub))+c(FQS)。
对用户来说,能够以这个方式细化搜索可能是非常有用的。经过最初的搜索,用户可以将后续搜索限制到受限文档范围。这个受限文档范围由先前的点击列表定义,并且因此集中于感兴趣的主题。注意,最终这个尝试可能是非常实用的,因为子图不是过长以至于不能开始,或者可通过截断(如,从开始点击列表起,仅保留最高排名的文档)由可处理的尺寸组成。因此,再次重申,在本发明中实际上可以实现实时链接分析所支持的细化搜索。
这完成了搜索进程和所涉及的组件的描述(图2)。图4显示了本发明如何帮助导航。假定用户具有打开的文件O(图4中的41),并且希望找到相关的文件。一个方法—上面已经描述过的—是单击出现在文件的显示中的任何活动图标(代表被锚定的超链接)。然而,可以呈现可从打开的文件O向其跳转的三个其它文件集(i)所有位于从O的出境超链接末端的文件;(ii)所有使用入境超链接指向O的文件;和(iii)经由相似性链接连接至O的所有文件。可以在相应窗口中呈现这些导航选项的每一个,通过调用“导航”按钮而调出所述窗口。
可从超链接DB 47取得通过超链接(入或出)连接至O的所有文件。(这是与图2中编号为211的相同的数据库。)根据把这些文件连接至O的超链接的权重HLW、根据它们的FQS值、还根据它们的链接分析分数LA,可以将这些文件进行排名(用于导航目的)。从FQS DB 45(图2中219)取得FQS分数,并从LA分数DB 48(图2中的215)取得LA分数。那么,可以通过下式来定义用于导航的适当排名参数HNW=d(HLW)+e(LA)+f(FQS),其中,‘HNW’代表‘超链接邻居权重’,而d、e和f为调整参数。排名模块495则执行排名操作(基于权重HNW),并且发送结果至被链接文件的排名列表DB 497。可以经由至用户的界面,与其FQS值一起,作为活动图标来呈现最终的文件排名列表。因此,用户可以找到并跳转到指向打开的文件O或由打开的文件O指向的最重要文件。
总是有许多相似性链接。然而,它们将被排名,因为相似性分数S(1,2)可能被期望在一个大的范围上变动。此外,可以期望用户再次—即在导航以及搜索的上下文中—对文件质量以及相似性的量度—例如他/她自己对于这些文件的FQS分数以及来自链接分析的分数LA的量度感兴趣。因此,可以根据所有这些分数,将相似性链接的文件排名。做这件事的简单方法是,定义从O到文件B的相似性导航权重SNW为SNW(O,B)=g·S(O,B)+h·LA(B)+m·FQS(B)。
参数g、h和m也是调整参数。
这样,导航相似性计算机491从相似性DB 43(图2中的207)、FQS DB 45(图2中的219)以及LA分数DB 48(图2中的215)获得输入,并生成用于每个文件B的相似性导航权重SNW。在本发明的一个实施例中,通过仅获得至O的相似性大于某个阈值Smin的那些文件,从相似性DB取得的文件的数量是受限的。
最后,给定相似性导航权重SNW,导航相似性计算机491将相似文件B的最终列表进行排名,并且将结果发送至相似文件的排名列表DB 493。这个列表再次可以与它们相应FQS值一起作为活动图标经由界面呈现给用户。
注意,在本发明的一个实施例中,导航可被限制到文件的有限域内,就如搜索那样。即,用户可以输入一个或多个关键字至导航界面。如同用于搜索的那样,实时使用这些关键字来产生点击列表。这个点击列表则定义了主题集中的子图的节点。
在细化的导航的一个实施例中,分数SNW不从它们的完整图的值改变—但在被排名的导航列表中显示的文档仅仅是从主题集中的子图的节点获得的,或者,换句话说,是从由关键字产生的点击列表处获得的。
在细化的导航的另一个实施例中,O的合格邻居再次限于子图中的那些文档;但是对于每个这样的合格邻居来说,相对于主题集中的子图,也获得链接分析分数LA(sub)。通过产生如下的新的邻居权重,这些链接分析分数则可用于对将呈现给用户的链接文件进行排名
对超链接邻居HNW(sub)=d(HLW)+e(LA(sub))+f(FQS),而对相似性链接的邻居SNW(sub)(O,B)=g·S(O,B)+h·LA(sub)(B)+m·FQS(B)。
除单个用户以外的情景在所有上面描述中,本发明是用于某一情景的,该情景中单个用户寻求帮助在个人文件中进行搜索和导航。这个情景是普通的,并且具有巨大的未满足的需要。然而,本发明也可以应用于其他情景。下面在这里讨论四个其它的情景,即(i)小的合作组、(ii)网络存储、(iii)企业搜索以及(iv)实体目标。
(i)小组具有计算机文件的普通情形是这些文件“几乎”是个人的—即,仅一小组人访问给定文件集。这个小组中的人差不多总是彼此间多少具有某些关系—如,工作关系或家庭关系—并且因此,所分享的文件集与那个关系是相关的。
共享的访问有两种形式允许读取和允许写入。后者是比前者强的允许(因为具有写入允许意味着具有读取允许,但反之并不成立)。因此,对于给定小组来说,定义文件集的明智方法是选择该小组具有共同读取允许的集。既然搜索和导航都仅需要读取允许,这个定义保证了每个组成员可以在共同文件集中搜索和导航。我们称这个文件集为“组文件”。
当然,可以有不止一个这样的组,所有组都使用共同的文件系统(物理存储和逻辑路径名称结构)。则可以有几个可能相互重叠的组文件集。因此,可考虑一个组和几个组共享一个共同文件系统这两种情况。每个组必须具有某种形式的唯一组ID(名称),我们称之为其gid。
一个组首先可以考虑文件系统由单个组构成的情形。由于组集是由共同的读取允许定义的,本质上可以如同单个用户那样实现任何仅涉及读取文件的进程。例如,那些不要求用户输入的进程—特别地,文件的扫描和分析、倒排索引的建立、相似性分数的产生、FQS的自动更新以及超链接的自动生成—均可以如同单个用户那样在整个文件集上完成。任何关键字搜索则可以使用整个倒排索引;以及所有文件将在一个公共排名方案中被排名。因此,搜索和导航可以在整个文件系统上自由地实现。
与单个用户时的景象的差别出现在需要写入允许的操作上。上述个人搜索引擎的一个实施例具有两个这样的操作(除了编辑文件的明显一个)超链接的写入以及FQS的分配。
超链接不是问题,因为它们在本质上是不排它的。即,用户写入的超链接是建议。因此,允许所有具有文件F的写入允许的用户设置从F指向组集中的任意文件的超链接是合乎道理的。这与网络的情形是一样的允许建议不能写入的文件,并且允许在可写入的文件中设置指针。
排名算法要求单个FQS;但是可以假定每个具有写入允许的用户可以具有至FQS的输入。许多解决方案可用于从几个输入中产生合成FQS。一个解决方案是对于每个文件,对每个具有写入允许的用户存储一个FQS—对那些没有给出输入的用户,存储机器确定的值—并且接着对它们取平均。
图5显示了单个小组的景象。整个组51通过具有共同读取允许来定义。在本发明的一个实施例中,读取允许则限定在搜索或导航请求中寻找文件的允许和用超链接指向该文件的允许。每个用户将还具有对于组文件51的某个子集53的写入允许。对用户具有写入允许的那些文件,他/她可以设置从这些文件指向的超链接,并且也可以改变用于这些文件FQS值。
最后,在本发明的一个可选实施例中,具有读取允许的所有用户可以为一个给定文件提交FQS值。
总之,将上述个人网络搜索引擎的实施例扩展到具有少数用户的组的情况没有任何重大的问题。
几个组现在,可以假定有几个组共享单个文件系统。可以假定组成员的列表如同组文件集那样可以重叠。然而,在这个部分的主旨里,可以假定没有非常多的组,用户总数也不是非常多。
像前面一样,可以为整个文件集完成倒排索引和相似性数据库—用附加的存储要求,对于每个文件来说,就是具有那个文件的读取允许的组的gid的存储要求。举例说来,该倒排索引可具有表格的表目关键字 filel gidl,gid2,......
file2 gid5,gid7,......
而相似性数据库可具有表格的表目filel gidl,gid2,...... file2 gid5,gid7,......simscore(1,2)。
(对单个组来说,可通过去除所有gid表目来描绘同样的数据库。)通过这个数据库结构,关键字搜索总是可以包括暗含的要求,即,除了关键字,对于将要包括的文件,必须存在搜索者的至少一个gid。因此,用户只可以搜索那些他/她具有读取允许的文件(即,只从那些他/她具有读取允许的文件看点击)。
相似的声明对导航也适用。寻求导航帮助的用户将只看到至那些他/她具有读取允许的文件的链接(超链接和相似性链接—作为活动图标呈现)。
涉及写入允许的操作本质上与用于一个组的情形相像。换句话说,关于超链接的设置,允许建议可读但不可写的文件,并且允许在可读的文件中设置指针。而且,可以用与用于一个组的情形一样的方法来处理FQS。
最后,看看文件排名的问题。在一个用户的情形下,使用文本相关性、链接分析和FQS,在彼此比较所有文件的基础上进行排名。无论是否有一个用户或许多用户和组,文本相关性都是一样的;并且,先前的段落已讨论了怎样处理FQS。然而,对于链接分析来说,情形要更复杂。因为组可以重叠且用户可以属于不止一个的组,故对某些用户来说,可能会出现从用户U可读的文件指向U不可读的文件的超链接。类似地,相似性网络跨越所有的组。简而言之,不同组的不同子图将通过链接相连。此外,链接分析给出依赖于整体图的特性的结果。则问题是,相对于用户U的搜索,选择哪个‘整体图’(即从整个图中获得的哪个子图)作为链接分析的起始点。
改述该问题每个用户U想要对文件排名。如果排名是基于附属于每个文档的单个FQS类分数,则文件A和文件B的相对排名将与什么其他文件被包括在排名列表中无关。然而,因为链接分析的本性,改变图的拓扑—例如通过改变存在的文件和链接—可以改变任何两个给定文件A和B的相对排名。因此,必定会问这样的问题,对每个用户U来说,哪个是将被用于产生链接分析权重LA的文件的‘参考集’?下面讨论三个可能的答案1.使用整体图,即,基于共同文件系统中的每个文件。
2.选择被删节的图,该图是根据单个组对其具有读取允许的所有文件建立的。
3.选择被删节的图,该图是根据从用户U是具有读取允许的成员的所有组获得的所有文件建立的。
图6显示了选择2和3。在这个图中,三个组(G1、G2和G3)共享文件;并且,用户U是G1和G3的成员。图6的左侧面61显示了选择2子图是根据组G1对其具有读取允许的所有文件(阴影)建立的。在图6的右侧面63上,U对其具有读取允许的所有文件(即,组G1和G3中的文件)被打上阴影;这些文件用于为用户U产生子图。
图7中显示了删节图的过程。假如希望仅从图7的左侧面71中的阴影节点建立子图;则白色节点以及所有连接至白色节点的链接都必须被去除。图7的右侧面73中显示了结果只有阴影节点以及连接它们的链接被保留在删节的图中。为了说明,可以想像选择3正被使用—那么白色文件就是U不具有读取允许的那些文件,而U对于阴影文件具有读取允许。
选择3看起来建议为每个用户建立一个子图。实际上是对于某用户为其成员之一的组的每个组合建立一个子图。通常,不止一个用户将具有组的相同组合;同样,通常也有许多代表没有用户的组的组合。因此,一般而言,由选择3所限定的子图的数目将小于用户的总数,或可能的组的组合的总数。
下面是对每个选择的明显优点和缺点的讨论。
选择1的优点是,每个节点具有单个唯一的链接分析权重LA,该权重是从整体图的链接分析中获得的。这减少了计算负担和链接分析的数据存储要求。此外,如上所述,可以实现“点击滤波器”,以使由搜索和导航询问产生的点击列表仅显示用户U可能读取的那些文件。
另一方面,如果用户U仅仅具有相对于总数而言少量文件的读取访问,则这个用户可能将获得令人不满意的排名结果—所有他/她可以看到的文件将接收相对于巨大的(对U)不可见文件集而计算的链接分析权重LA。因此,对这个情况来说—如果有非常多的大体相同尺寸的组(根据文件的数量),或者如果组的尺寸大不相同,则可能出现这种情况—选择1似乎是不合需要的。前者的情形通过假设而被排除了—在这个部分,可以假设小的组数目。然而,即使组或用户的数目很小,也可能出现一些用户仅仅具有总文件集的一小部分的读取访问;并且,在这样的情形下,选择1对这样的用户来说可能是令人不满意的。
选择3要求几个链接分析计算—一个用于代表某个用户的组的每个组合。因此,选择3的计算和存储负担大于选择1。然而,选择3和选择1避免了计算用于对每个搜索进行排名的链接分析的负担。代替的是,无论何时在文件集中和/或相关子图的链接中出现改变,都可以更新LA分数。而且,如果没有许多用户,就没有许多必须进行链接分析计算的组的组合。
选择3的优点是每个用户获得一个排名,该排名考虑那个用户所能看到的唯一和所有文件。对多数搜索来说,这可能是个希望要的特点。因此,只要有支持选择3的足够计算和存储能力,选择3很可能是个好选择。
也可以想像选择2具有优势的情形。例如,假设用户U具有位于相同文件系统上的与家庭和工作都相关的文件和组;用户可以想出的关键字给予在家庭组和一个或多个工作组中都可以找到的文件;以及U仅仅想要搜索与家庭相关的文件。在这个情形下,通过仅指定家庭组—即,通过使用选择2来缩小搜索可能是容易和有效的。因此,可以看到(也见图6),选择2提供了集中搜索的新途径。
(ii)网络存储现在可以考虑正被讨论的个人文件没有存储在单个个人PC上的情形。而是它们由这种服务的商业提供商存储。现存的例子是门户网站例如Yahoo,或搜索提供商例如Google。这些公司当前仅仅提供邮件文件的存储;但由此向提供所有种类个人文件的存储仅是一小步。这个种类的存储被称为‘网络存储’。
网络存储的一个优点是可靠的备份。另一个优点是可以在世界上任何具有因特网连接的地方访问这样的文件。而且,使用网络存储容易创建几种先前部分中所描述的小组共享。举例说来,家庭可以存储相簿,该相簿随后对所定义的家庭组的任何成员来说都是可访问的,无论他们是来自几个家庭的哪一个,并且,该相簿对旅行中的家庭成员也是可访问的。
因此,个人文件的网络存储允许较高的移动性—内容不固定于单个硬盘—更确切地说,无论何时、无论何地,只要用户具有网络访问,则这些用户都可获得所述内容。在这点上讲,文件的网络存储与移动电话类似(对内容来说)连接与用户在一起,不是与设备。并且,实际上,这启发我们在对网络上存储的个人文件使用本发明时,本发明的有希望的用途对这些文件的访问,包括对它们的搜索和导航服务,可以使用适当的接口经由移动电话或装备无线局域网的设备来实现。
网络存储的再一个优点是,存储提供商可以提供辅助服务—例如,本发明中所描述的搜索和导航服务给用户。这将用户从当前他/她必须等待由Microsoft来引入期望特征的近乎垄断的境遇中解脱出来。此外,用户可以用无需费力的方式来利用这样的新服务,而不必购买和学习全新的操作系统—并且,不会面临新的垄断。
下面说明使用本发明的思想,通过个人文件的网络存储来解决提供搜索和导航所涉及的技术考虑。这里,强调的主要点是,所有先前的技术考虑本质上不依赖于文件被物理存储的位置。因此,可以认为,这个部分中迄今所描述的搜索和导航技术—单个用户的情形和小组的情形—适用于网络存储以及单个PC上的存储。
可以看到,对于搜索和导航来说,网络存储至少有一个技术优点优于个人PC存储。即,在前者的情形中,可以期望实现规模经济。举例说来,用于文本相关性分析、相似性计算以及链接分析的软件不再需要在每个PC上存在。而且,对于单个PC来说,涉及的数据库可以超乎想像的大;和/或在单个的集中安装处可以有更有效的办法来存储许多这样的个人数据库。
图像文件是网络存储的最有可能的应用之一。图像文件是巨大的;用户对大量的图像文件都具有强烈的愿望;并且,对于用于帮助用户组织、寻找和导航这些文件的好的管理工具具有清晰的需求。因此,这里简要地讨论一下图像文件。需要注意的是,多数下面的讨论也适于其它种类的非文本文件,例如视频或音乐文件;但是,为简短起见,下面仅讨论图像。
先前所有的讨论都针对文本或基于文本的文件。特别地,本发明中的搜索是由关键字和倒排索引来引导的。因此,只有当图像文件具有文本形式(或至少可以被分析器识别为文本)的元数据时,本发明才适用于这些图像文件。这看起来像是现存的用于搜索图像文件的系统所共有的限制。
未来的技术可能被期望提供下列进步中的一个或两个(i)用于为用户改善写入图像文件的元数据的容易度的软件;或(ii)用于通过图像的机器分析来自动写入元数据的软件。第一个改善无疑正在进行。与第二个相似的进步最近也在进行,StreamSage正使用机器声音分析来从视频文件中产生文本。图像的机器分析是个更困难的问题,它被期望以较慢速度向前发展。
简而言之,只要用户以文字形式进行输入,图像文件(以及其它种类的非本文文件,例如视频和音乐文件)的搜索将依赖于元数据。本发明因此依赖于某组件—交互式界面,或更复杂的方法—来提供用于图像的元数据。给定元数据,则建立倒排索引和相似性网络是水到渠成的。
本发明的两个其它方面与所涉及的文件性质无关。首先,FQS的使用与文件性质无关;因此,对图像文件可以像对任何其它文件一样来使用FQS。其次,用户可以设置来自图像文件和指向图像文件的超链接。然而,当只有文本是元数据时,打算将超链接锚定于相关文本可能是没有用的。
总之,假定一个提供元数据的机制,图像(及其它非文本)文件仍然可以与相似性链接、手动和/或自动超链接以及文件质量分数一起被合并到这里所描述的混合个人网络中,以帮助搜索和导航。还要注意,不必为非文本文件建立一个单独的网络只要具有用于非文本文件的有意义的元数据—即使只是几个文字—仍然可以在与所有其它相似性分数相同的尺度上计算有用的相似性分数。
(iii)企业搜索到目前为止,本发明已经有关私人用户或小组进行了讨论。然而,企业搜索与这些先前讨论的情况有许多共同之处。因此,为方便起见,这里必须考虑在企业搜索的上下文中使用本发明的可能性。因此,如同上面讨论的较小且较受限的组的情形一样,可以集中于公司的所有成员都可读的文档集(大概很大)。
企业的搜索环境与网络相似之处在于,(如果不是大部分则对于许多文件来说),有许多用户具有读取允许,但仍只有相对较少的用户具有写入允许。逻辑上则看起来,条件适合于用户写入(建议)的超链接的应用;许多用户,每个能够评论(建议)许多文件。而且,如同网络的情形一样,不是所有的文件对所有用户都可读,但许多文件是可读的。
看起来网络搜索与企业搜索之间的主要区别是这些许多用户的动机。即,网页的撰写者有设置超链接的动力,并且不仅仅是对他们自己的页面;然而,对企业来说,不十分清楚文档的撰写者具有同样的动力。然而,不给这些用户自己设置超链接的机会就难以回答这个问题。
如果这个景象是正确的,那么本发明中所描述的混合网络可以提供一个极好的途径来沟通从非共享企业搜索到共享企业搜索的转换。由相似性网络、自动生成的超链接和用户写入的超链接引导的搜索和导航系统允许轻松启动—因为相似性链接和自动超链接已经在搜索(排名)和导航中提供了大量的帮助。使用这个系统的用户也可以认识到他们向自己觉得有价值的文件设置超链接是有益的。照这样,令人信服地,可以逐渐建立起设置超链接的强烈参与意识,而相似性链接提供启动进程的基础。
在这个景象中,FQS的使用看起来也像是不必要的。而且,在这个许多用户、很少写入但很多读取的环境中,FQS具有缺点例如,谁开始对给定文件评分?以及怎样避免支持其自身文件的“非索要信息”分数?当从逻辑上讲不可能使用超链接来完全执行建议功能时,FQS是有用和必要的。在企业搜索的情形下,该逻辑对超链接来说是正确的;为他们建立使用文化才真是个问题。超链接自身为用户提供了分散的、民主的、共享的途径来表达他们的建议—并且,超链接还具有强迫用户在指示文件的上下文中放置建议的优点。
(iv)实体目标本发明的另一个应用是支持对一组实体目标进行搜索和导航。
这个思想的基础如下。诸如RFID(射频识别)标签的技术允许大量的实体目标被用电子可读元数据加标签。读取这样的元数据给出实体目标收集的数字表示。因此,可以将本发明应用于在这个收集中进行搜索,这在很大程度上与上文讨论的非文本文件(例如图像)的情形一样。可以使用混合网络的所有特点相似性网络、代表建议的超链接以及每个目标的质量分数。最终的混合网络可以用于如上所述的搜索和导航。
作为一个说明的例子,考虑以零售方式出售葡萄酒的商店的情形。当出现一个客户请求—客户正在面对不止一个可能葡萄酒时—商店职员可以使用这里描述的搜索引擎来调出与客户标准相匹配的葡萄酒的排名列表。该排名可以基于“文本相关性”(与该客户的要求相匹配的程度)、链接分析以及质量分数。链接分析可以合并两种类型的链接相似性链接(使用元数据产生)和超链接。后者再次代表建议并且可以由学识渊博的人来设置,对这些人来说,给他们葡萄酒(或伴随的碟子),就能够建议其它的也可能同样感兴趣的葡萄酒。
最后,在这个上下文中,导航也是可能的。给定一个目标(一类葡萄酒),个人可能对有关其它葡萄酒的信息感兴趣,而那些葡萄酒正是通过相似性或建议与给定的葡萄酒有关。
图8示出可以实现本发明实施例的计算机系统1201。在通过参考已经全文并入本文的STALLINGS,W.,Computer Organization andArchitecture,4th ed.,Upper Saddle River,NJ,Prentice Hall,1996中,详细讨论了计算机设计。所述计算机系统1201包括总线1202或用于传输信息的其它通信机制、和与总线1202耦合以便处理信息的处理器1203。计算机系统1201还包括耦合至总线1202的主存储器1204,例如随机存取存储器(RAM)或其它动态存储设备(例如动态RAM(DRAM)、静态RAM(SRAM)和同步DRAM(SDRAM)),用于存储信息和将由处理器1203执行的指令。此外,主存储器1204可以用于在由处理器1203执行指令期间存储临时变量或其它中间信息。计算机系统1201另外包括耦合至总线1202的只读存储器(ROM)1205或其它静态存储设备(例如可编程ROM(PROM)、可擦写PROM(EPROM)和可电擦写PROM(EEPROM)),用于存储静态信息和处理器1203的指令。
计算机系统1201还包括耦合至总线1202的盘控制器1206,以控制用于存储信息和指令的一个或多个例如磁硬盘1207的存储设备,和可拆卸介质驱动1208(例如,软盘驱动、只读CD驱动、读/写CD驱动、CD自动电唱机、磁带驱动和可拆卸磁-光驱动)。使用合适的设备接口(例如,小型计算机系统接口(SCSI)、集成设备电子器件(IDE)、增强型IDE(E-IDE)、直接存储器存取(DMA)或超DMA),可以将存储设备添加至计算机系统1201。
计算机系统1201还可以包括特殊目的逻辑设备(例如特殊应用集成电路(ASIC))或可配置逻辑设备(例如简单可编程逻辑设备(SPLD)、复杂可编程逻辑设备(CPLD)和现场可编程栅阵列(FPGA))。
计算机系统1201还可以包括耦合至总线1202的显示控制器1209,以控制例如阴极射线管(CRT)、用于向计算机用户显示信息的显示器1210。所述计算机系统包括输入设备,例如键盘1211和指示设备1212,用于与计算机用户交互并向处理器1203提供信息。所述指示设备1212可以是鼠标、操纵杆或指示棒,用于向处理器1203传输方向信息和命令选择,并用于控制显示器1210上的光标移动。此外,打印机可以提供计算机系统1201所存储和/或生成的数据的打印列表。
计算机系统1201响应于执行包含在例如主存储器1204的存储器中的一个或多个指令的一个或多个序列的处理器1203,执行本发明的部分或全部处理步骤。可以将所述指令从诸如硬盘1207或可拆卸介质驱动1208的另一计算机可读介质读入主存储器1204中。也可以采用多处理设置中的一个或多个处理器来执行包含在主存储器1204中的指令序列。在可替换的实施例中,可以使用硬布线电路来代替软件指令或与软件指令结合。因此,实施例不限于硬件电路和软件的任何特殊组合。
如上所述,计算机系统1201包括至少一个计算机可读介质或存储器,用于保存根据本发明的教导编程的指令,和用于包含数据结构、表格、记录或这里所述的其它数据。计算机可读介质的例子是CD、硬盘、软盘、磁带、磁-光盘、PROM(EPROM、EEPROM、闪EPROM)、DRAM、SRAM、SDRAIVI,或任何其它磁介质、CD(例如CD-ROM),或任何其它光学介质、穿孔卡片、纸带,或其它具有孔图案的物理介质、载波(如下述),或任何其它计算机可以对其读取的介质。
存储在计算机可读介质的任何一个或组合上,本发明包括软件,用于控制计算机系统1201、用于驱动一个或多个设备以实现本发明和用于使计算机系统1201能够与人类用户(例如打印生成人员)进行交互。所述软件可以包括但不限于设备驱动器、操作系统、开发工具和应用软件。所述计算机可读介质还包括本发明的计算机程序产品,用于执行实现本发明所执行的所有和部分(如果处理被分配的话)处理。
本发明的计算机代码设备可以是任何可译或可执行的代码机制,包括但不限于脚本、可解释程序、动态链接库(DLL)、Java class和全部可执行程序。此外,为了更好的性能、可靠性和/或更低的成本,可以对本发明处理的各部分进行分配。
这里所用的术语“计算机可读介质”是指任何参与向处理器1203提供用于执行的指令的介质。计算机可读介质可以采取许多形式,包括但不限于非易失性介质、易失性介质和传输介质。非易失性介质包括例如光、磁盘和磁-光盘,例如硬盘1207或可拆卸介质驱动1208。易失性介质包括动态介质,例如主存储器1204。传输介质包括同轴电缆、铜线和光纤,包括构成总线1202的线。传输介质还可以采取声波或光波的形式,例如那些在无线电波和红外数据通信期间所生成的。
计算机可读介质的各种形式用于将一个或多个指令的一个或多个序列发送至处理器1203以供执行。例如,可以最初将指令装载在远程计算机的磁盘上。远程计算机可以将用于实现本发明的部分或全部的指令远程装载入动态存储器中并使用调制解调器在电话线上发送指令。计算机系统1201本地的调制解调器可以接收电话线上的数据并使用红外发送器将数据转换为红外信号。耦合至总线1202的红外检测器可以接收在红外信号中承载数据并将数据放在总线1202上。总线1202将数据装载至主存储器1204,处理器1203从该主存储器1204检索并执行指令。在由处理器1203执行之前或之后,可以有选择地将由主存储器1204接收的指令存储在存储设备1207或1208上。
计算机系统1201还包括耦合至总线1202的通信接口1213。通信接口1213提供耦合至网络链接1214的双向数据通信,网络链接1214连接至例如局域网(LAN)1215或例如因特网的其它通信接口1213。例如,通信接口1213可以是网络接口卡,以附于任何分组切换LAN。作为另一个例子,通信接口1213可以是非对称数字用户线路(ADSL)卡、集成服务数字网络(ISDN)卡或调制解调器,以向相应类型的通信线路提供数据通信连接。还可以实现无线链接。在任何一个这样的实现中,通信接口1213发送和接收电、电磁或光信号,该信号载有表示各种类型信息的数字数据流。
典型地,网络链接1214通过一个或多个网络向其它数据设备提供数据通信。例如,网络链接1214可以通过本地网络1215(例如LAN)或通过由通过通信网络1216提供通信服务的服务提供者操作的设备来提供与另一台计算机的连接。本地网络1214和通信网络1216使用例如载有数字数据流的电、电磁或光信号和相关的物理层(例如CAT5电缆、同轴电缆、光纤等)。载有到和来自计算机系统1210的数字数据的经过各种网络的信号和网络链接1214上和经过通信接口1213的信号可以以基带信号或基于载波的信号来实现。所述基带信号将数字数据作为未调制的电脉冲传送,其表示数字数据比特流,其中术语“比特”广义指符号,其中每个符号运载至少一个或多个信息比特。数字数据也可用于调制载波,例如利用幅度、相位和/或频移键控信号,其在传导介质上传播,或经过传播介质作为电磁波传输。因此,可以经过“有线”通信通道将数字数据作为未调制基带数据发送,和/或通过调制载波在不同于基带的预定频带内发送。计算机系统1201可以通过网络1215和1216、网络链接1214和通信接口1213传输和接收包括程序代码的数据。而且,网络链接1214可以经过LAN 1215提供与例如个人数字助理(PDA)、膝上电脑或蜂窝电话的移动设备1217的连接。
在个人PC、存储在网络上的个人内容或公司文档系统上成功地实现本发明使得用户以与在万维网上进行查找和导航可比的方式,更加有效地搜索相关文档。在当前缺少链接结构的任何环境中,本发明将桥接建立块表示为基于链接分析的排名的完全利用,以及基于链接的导航。
本发明还可应用于个人内容的分布式(网络)存储。想象这样一种网络存储器,用户可以从任何类型终端对其进行访问,并且网络操作者可以对其进行管理和备份。用户可以将他/她的所有内容(照片、文档、演示、视频、MP3等)上载至该网络存储器。本发明表示了在实现使用基于链接分析的排名来搜索网络存储器中的用户内容的搜索和导航应用中的关键因素。本发明还可以提供一种新的而且明显更好的方法来进行企业搜索。
根据上述教导,本发明的各种修改和变化都是可能。因此,可以明了的是,在所附的权利要求的范围内,除非有特殊说明否则可以实现本发明。
权利要求
1.一种用于搜索存储在计算环境中的电子材料的方法,包括基于相似性,确定至少两个文档之间的不定向加权链接;确定所述至少两个文档之间的定向加权链接;以及计算所述至少两个文档的每一个的权重。
2.如权利要求1所述的方法,进一步包括经由链接分析、文本相关性分析和文件质量分析中的至少一个,来计分所述至少两个文档的每一个。
3.如权利要求2所述的方法,其中,所述链接分析基于混合网络,所述混合网络包括文档之间的两种链接,即,定向链接和不定向链接。
4.如权利要求3所述的方法,进一步包括建立第一文档和第二文档之间的超链接,其中,所述建立超链接的步骤包括下列之一在所述第一文档和第二文档之一的文本内锚定所述超链接,用未锚定的超链接来链接所述第一文档和第二文档,其中,所述建立超链接的步骤还包括下列之一经由输入终端输入所述超链接,和自动建立所述超链接。
5.如权利要求4所述的方法,其中,所述定向加权链接可能被或可能不被锚定于指示文档或被指示文档上的文本。
6.如权利要求4所述的方法,进一步包括在链接结构数据库中存储超链接信息(指向文件、被指向文件、超链接权重和锚定文本)。
7.如权利要求3所述的方法,进一步包括执行前进和反向链接分析中的至少一个。
8.如权利要求3所述的方法,进一步包括扒一个文件系统;扫描所述文件系统内的文件的文本;和建立倒排索引。
9.如权利要求8所述的方法,进一步包括成对地比较文档;和获得相似性分数。
10.如权利要求9所述的方法,进一步包括在相似性分数数据库中存储所述相似性分数。
11.如权利要求9所述的方法,其中,所述成对地比较文档的步骤包括计数文字w在文件f中出现的次数Nf(w);以及Nf(w)除以文档中的文字总数Nf以获得文档f的轮廓nf(w)。
12.如权利要求11所述的方法,其中,所述获得相似性分数的步骤包括如下计算第一文档和第二文档之间的相似性S(1,2)S(1,2)=KΣwn1(w)n2(w)]]>其中,K是一个调整参数。
13.如权利要求12所述的方法,进一步包括建立最小相似性量度δ>0,使得当KΣwn1(w)n2(w)<δ]]>时,S(1,2)=δ。
14.如权利要求2所述的方法,其中,所述文本分析包括基于与一组关键字的相关性来计分文档。
15.如权利要求2所述的方法,其中,所述文件质量分析包括给文件质量分数分配缺省值。
16.如权利要求15所述的方法,进一步包括自动地或手动地调整所述文件质量分数。
17.如权利要求16所述的方法,其中,所述调整步骤包括确定文件被最后打开或编辑的时间;和向最近被打开或编辑的文件分配较高的文件质量分数。
18.如权利要求16所述的方法,其中,所述调整步骤进一步包括将在一段时间内文件被打开或编辑的次数记录在日志内;和向被频繁打开或编辑的文件分配较高的文件质量分数。
19.如权利要求2所述的方法,进一步包括将关键字输入搜索界面中;把所述关键字送入点击列表产生器;以及输出相同点击的点击列表,伴随有文本相关性分数的相应列表。
20.如权利要求19所述的方法,进一步包括扒一个文件系统;扫描所述文件系统内的文件的文本;以及建立倒排索引。
21.如权利要求20所述的方法,其中,所述输出相同点击的点击列表的步骤包括使用关键字从所述倒排索引中提取所述点击列表。
22.如权利要求20所述的方法,其中,所述倒排索引包括从非文本文件的元数据中提取的文本。
23.如权利要求21所述的方法,进一步包括为每个文档计算一个权重W,其中W=a(TR)+b(LA)+c(FQS),TR=来自文本分析的文本相关性分数,LA=链接分析分数,FQS=文件质量分数,以及a、b和c是调整参数。
24.如权利要求23所述的方法,进一步包括调整任一权重a、b或c。
25.如权利要求24所述的方法,进一步包括将所述点击列表重新排列为被排名列表。
26.如权利要求25所述的方法,进一步包括删节所述被排名列表。
27.如权利要求26所述的方法,进一步包括显示所述被排名列表。
28.如权利要求21所述的方法,进一步包括将第二关键字输入搜索界面;把所述第二关键字送入点击列表产生器;以及输出相同点击的第二点击列表,伴随有文本相关性分数的相应第二列表。
29.如权利要求28所述的方法,其中,所述输出相同点击的点击列表的步骤包括使用第二关键字从所述倒排索引中提取所述第二点击列表。
30.如权利要求29所述的方法,进一步包括从所述第二点击列表和所述第二点击列表中的文档间的所有链接形成子图,通过对所述子图执行链接分析,为所述第二点击列表中的每个所述文档获得受限的链接分析分数LA(sub),以及为每个文档计算第二权重W,其中W=a(TR)+b(LA(sub))+c(FQS),TR=来自文本分析的文本相关性分数,LA(sub)=子图的链接分析分数,FQS=文件质量分数,以及a、b和c是调整参数。
31.如权利要求30所述的方法,进一步包括调整任一权重a、b或c。
32.如权利要求31所述的方法,进一步包括将所述第二点击列表重新排列为第二被排名列表。
33.如权利要求32所述的方法,进一步包括删节所述第二被排名列表。
34.如权利要求33所述的方法,进一步包括显示所述第二被排名列表。
35.如权利要求2所述的方法,进一步包括在所述计分步骤中计分的文档之间进行导航。
36.如权利要求2所述的方法,其中,所述导航步骤包括在起始文件O处开始,所述起始文件O是初始文件或当前打开的文件中的一个。
37.如权利要求36所述的方法,其中,所述导航步骤进一步包括识别起始文件O的邻居B,所述邻居B具有相对于文件O的相似性分数S(O,B),该分数大于阈值Smin。
38.如权利要求37所述的方法,其中,所述相似性分数S(O,B)非零。
39.如权利要求36所述的方法,其中,所述识别邻居B的步骤包括识别起始文件O的邻居,所述邻居B至少具有下列中的至少一个从B指向O的定向链接,和从O指向B的定向链接。
40.如权利要求37所述的方法,其中,所述导航步骤进一步包括成对地比较文档;和获得相似性分数。
41.如权利要求40所述的方法,其中,所述成对地比较文档的步骤包括计算文字w在文件f中出现的次数Nf(w),和Nf(w)除以文档中的文字总数Nf以获得文档f的轮廓nf(w)。
42.如权利要求41所述的方法,其中,所述获得相似性分数的步骤包括计算第一文档和第二文档之间的相似性S(1,2)如下S(1,2)=KΣwn1(w)n2(w).]]>
43.如权利要求42所述的方法,进一步包括建立最小相似性量度δ>0,使得当KΣwn1(w)n2(w)<δ]]>时,S(1,2)=δ。
44.如权利要求40所述的方法,进一步包括在相似性分数数据库中存储所述相似性分数。
45.如权利要求44所述的方法,进一步包括计算相似性导航权重SNW(O,B),其中SNW(O,B)=g·S(O,B)+h·LA(B)+m·FQS(B),LA(B)是B的链接分析分数,FQS(B)是B的文件质量分数,g、h和m是调整参数。
46.如权利要求45所述的方法,进一步包括对相似性链接的文件进行排名以提供被排名的相似性链接的文件。
47.如权利要求46所述的方法,进一步包括删节所述被排名的相似性链接的文件。
48.如权利要求47所述的方法,进一步包括显示所述被排名的相似性链接的文件。
49.如权利要求48所述的方法,进一步包括跳转至相似性链接的文件。
50.如权利要求37所述的方法,进一步包括输入关键字,获得所述关键字的点击列表,以及将要显示的邻居限制为那些在点击列表上找到的邻居。
51.如权利要求50所述的方法,进一步包括从所述点击列表和所述点击列表中的文档间的所有链接,形成子图,通过对所述子图执行链接分析,为每个所述文档获得受限的链接分析分数LA(sub),以及根据子图的相似性邻居权重SNW(sub)(O,B)=g·S(O,B)+h·LA(sub)(B)+m·FQS(B),对邻居进行排名。
52.如权利要求51所述的方法,进一步包括对相似性链接的文件进行排名,以提供被排名的相似性链接的文件。
53.如权利要求52所述的方法,进一步包括删节所述被排名的相似性链接的文件。
54.如权利要求53所述的方法,进一步包括显示所述被排名的相似性链接的文件。
55.如权利要求54所述的方法,进一步包括跳转至相似性链接的文件。
56.如权利要求39所述的方法,进一步包括建立第一文档和第二文档之间的超链接,其中,所述建立超链接的步骤包括下列步骤之一在所述第一文档和第二文档之一的文本中锚定所述超链接以及通过未锚定的超链接来链接所述第一文档和第二文档,其中,所述建立超链接的步骤还包括下列之一经由输入终端输入所述超链接,和自动建立所述超链接。
57.如权利要求56所述的方法,其中,所述定向的加权链接可能被或可能不被锚定于指示文档或被指示文档上的文本。
58.如权利要求56所述的方法,进一步包括在链接结构数据库中存储超链接信息(指向文件、被指向文件、超链接权重和锚定文本)。
59.如权利要求58所述的方法,进一步包括识别起始文件O的超链接邻居,所述超链接邻居由下列中的至少一个组成具有指向O的定向链接的所有文件B,和被O指向的所有文件B。
60.如权利要求59所述的方法,其中,根据下列公式为所述超链接邻居中的每个文件计算超链接邻居权重(HNW)HNW=d(HLW)+e(LA)+f(FQS),其中,HLW=超链接权重,LA是邻居的链接分析分数,FQS等于邻居的文件质量分数,而d、e和f为调整参数。
61.如权利要求60所述的方法,进一步包括根据相应的超链接邻居权重,对所述超链接邻居进行排名。
62.如权利要求61所述的方法,进一步包括删节所述超链接邻居。
63.如权利要求62所述的方法,进一步包括显示所述超链接邻居。
64.如权利要求63所述的方法,进一步包括跳转至在所述超链接邻居内的文件。
65.如权利要求59所述的方法,进一步包括输入关键字,获得所述关键字的点击列表,以及将要显示的邻居限制为那些在点击列表上找到的邻居。
66.如权利要求65所述的方法,进一步包括扒一个文件系统;扫描所述文件系统内的文件的文本;以及建立倒排索引。
67.如权利要求66所述的方法,其中,所述获得点击列表的步骤包括使用关键字从所述倒排索引中提取所述点击列表。
68.如权利要求66所述的方法,其中,所述倒排索引包括从非文本文件的元数据中提取的文本。
69.如权利要求67所述的方法,进一步包括从所述第二点击列表和所述第二点击列表中的文档间的所有链接,形成一个子图,通过对所述子图执行链接分析,为在所述第二点击列表中的每个所述文档获得受限的链接分析分数LA(sub),以及根据子图的超链接邻居权重HNW(sub)=d(HLW)+e(LA(sub))+f(FQS),对邻居进行排名。
70.如权利要求69所述的方法,进一步包括根据相应的子图的超链接邻居权重,对所述超链接邻居进行排名。
71.如权利要求70所述的方法,进一步包括删节所述超链接邻居。
72.如权利要求71所述的方法,进一步包括显示所述超链接邻居。
73.如权利要求72所述的方法,进一步包括跳转至所述超链接邻居内的文件。
74.如权利要求19所述的方法,进一步包括搜索共同位于一个公共环境中的一个或多个被定义组的共享访问文件;搜索存储在网络上的文件;搜索企业文件;以及搜索实体目标。
75.如权利要求35所述的方法,其中,所述导航的步骤包括在共同位于一个公共环境中的一个或多个被定义组的共享访问文件中进行导航;在存储在网络上的文件中进行导航;在企业文件中进行导航;以及在实体目标中进行导航。
76.如权利要求74或75所述的方法,其中,所述在一个或多个被定义组的共享访问文件中搜索或导航的步骤包括将所述一个或多个被定义组的第一子图与所述一个或多个被定义组的第二子图连接。
77.如权利要求76所述的方法,进一步包括建立从所选文件指出的超链接;以及修改所选文件的文件质量分数,其中所述建立和修改步骤限于对所选文件具有写入允许的用户。
78.如权利要求77所述的方法,其中,所述修改文件质量分数的步骤包括对多个文件质量分数取平均。
79.如权利要求77所述的方法,进一步包括由任何具有文件读取允许的用户修改所述文件质量分数。
80.如权利要求77所述的方法,其中,所述用户是至少两个组的成员,每个组具有不同的读取和写入特权。
81.如权利要求80所述的方法,进一步包括执行包括所述至少两个组可获得的所有文件的图的链接分析。
82.如权利要求80所述的方法,进一步包括执行包括在相应的第一读取许可下所述至少两个组的第一个可获得的所有文件的子图的链接分析;以及执行包括在相应的第二读取许可下所述至少两个组的第二个可获得的所有文件的子图的链接分析。
83.如权利要求80所述的方法,进一步包括执行包括用户可获得的所有文档的子图的链接分析。
84.一种包括计算机可读介质的计算机程序产品,该计算机可读介质包含用于搜索存储在计算环境中的电子材料的指令,所述指令包括用于下列的指令基于相似性,确定至少两个文档之间的不定向加权链接;确定所述至少两个文档之间的定向加权链接;以及计算所述至少两个文档的每一个的权重。
85.如权利要求84所述的计算机程序产品,进一步包括经由链接分析、文本相关性分析和文件质量分析中的至少一个,对所述至少两个文档中的每一个计分。
86.如权利要求85所述的计算机程序产品,其中,所述链接分析基于混合网络,所述混合网络包括文档之间的两种链接,即,定向链接和不定向链接。
87.如权利要求85所述的计算机程序产品,其中,所述文本分析包括基于与一组关键字的相关性来计分文档。
88.如权利要求85所述的计算机程序产品,其中,所述文件质量分析包括向文件质量分数分配一个缺省值。
89.如权利要求85所述的计算机程序产品,进一步包括用于下列的指令将关键字输入搜索界面;把所述关键字送入点击列表产生器;以及输出相同点击的点击列表,伴随有文本相关性分数的相应列表。
90.如权利要求85所述的计算机程序产品,进一步包括用于下列的指令在所述计分步骤中被计分的文档之间进行导航。
91.一种配置用于搜索存储在计算环境中的电子材料的搜索装置,包括基于相似性而确定至少两个文档之间的不定向加权链接的部件;确定所述至少两个文档之间的定向加权链接的部件;以及计算所述至少两个文档的每一个的权重的部件。
92.如权利要求91所述的搜索装置,进一步包括用于下列的指令经由链接分析、文本相关性分析和文件质量分析中的至少一个,计分所述至少两个文档中的每一个的部件。
93.如权利要求92所述的搜索装置,其中,所述链接分析基于混合网络,所述混合网络包括文档之间的两种链接,即,定向链接和不定向链接。
94.如权利要求92所述的搜索装置,其中,所述文本分析包括基于与一组关键字的相关性来计分文档的部件。
95.如权利要求92所述的搜索装置,其中,所述文件质量分析包括向文件质量分数分配一个缺省值。
96.如权利要求92所述的搜索装置,进一步包括将关键字输入搜索界面的部件;把所述关键字送入点击列表产生器的部件;以及输出相同点击的点击列表,伴随有文本相关性分数的相应列表的部件。
97.如权利要求92所述的搜索装置,进一步包括在所述计分步骤中被计分的文档之间进行导航的部件。
全文摘要
一种用于包括混合网络的个人搜索引擎的方法、装置和计算机程序产品,混合网络由相似性网络和定向超链接组成。组件包括分析器(从文档中提取字);文本相关性分析器;链接分析方法;相似性网络;相似性分析器和超链接。其它组件包括导航窗口和FQS。上面所有这些的组合可被并入工作的个人搜索引擎中。
文档编号G06F17/30GK101044481SQ200580035492
公开日2007年9月26日 申请日期2005年8月25日 优先权日2004年9月16日
发明者杰弗里·坎瑞特, 肯特·恩格-蒙森 申请人:特里诺尔公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1