用于搜索多个数据记录的方法和搜索引擎的制作方法

文档序号:6361452阅读:208来源:国知局
专利名称:用于搜索多个数据记录的方法和搜索引擎的制作方法
用于搜索多个数据记录的方法和搜索引擎本发明涉及一种用于搜索多个数据记录的计算机实施的方法。另外,本发明涉及一种可以由一台计算机执行的适当的搜索引擎。例如在称作网上商店的活动中,搜索多个数据记录是非常重要的。多个产品的一位供应商使用数据记录来记录提供在一个数据库中的产品。一位用户随后可以使用他的计算机经由一个网络(如互联网)来建立到该网上商店的连接并且从该数据库中再调用这些数据记录。如果该数据库包括非常大的数据库存,并且如果单独的数据记录具有一个相对复杂的结构,则对该用户来说能够使用一个搜索引擎来搜索这些数据记录是必要的。在这种情况下,该用户将一个搜索查询传送到该网上商店。该网上商店或连接到其上的一个系统处理该搜索查询并且当符合时将以一种特殊方式排序的数据记录返回给该用户。在这种背景下,引起确定与来自该用户的搜索查询具体相关的数据记录的问题。此外,已知的实践是不但搜索一个网上商店的数据库而且搜索可以经由互联网接收的数据。这类搜索引擎称为互联网搜索引擎。对于所有这些搜索引擎而言,出现搜索查询频繁地模糊并且遭受不确定性的问题。在搜索查询中的搜索词语频繁地与有待搜索的数据记录中出现的词语不精确地相对应。此外,这些搜索词语可能包含打字错误或也可能旨在表示语法上不同形式的搜索词语。当处理搜索查询时,因此始终要尽力考虑到搜索查询的模糊性和不确定性的因素。EP1095326B1描述了一种用于检索以文本格式存储的信息的搜索系统。为了检索这些信息,该搜索系统涉及将一个树形结构作为用于文本的一个数据结构使用。另外,使用一个量度来确定一个查询和检索到的信息之间的匹配程度,其中该量度确定用于文本中的词或符号与查询之间的一个近似匹配程度的一个间隔量度和用于文本中的词或符号的顺序与一个查询顺序之间的一个匹配近似程度的另一个间隔量度的一个组合。EP1208465B1描述了一种用于搜索文件集合的搜索引擎。在这种搜索引擎的情况下,数据处理单元形成连接在一个网络中的多组节点。搜索引擎被定制,这样使得它可以相对于供搜索查询的数据体和查询速度来被按比例缩放。EP1341009B1描述了一种用于操作互联网搜索引擎的方法。该方法涉及借助一个智能代理处理的互联网上的网站之间的链路。被访问的网站内容被过滤以便确定内容的关联性。在这种情况下确认的关联网站被编索引,并且被编索引的主题特定的信息被存储在一个数据库之中。这种过滤允许一个网站的内容通过基于字典的一个主题特定的过滤,所述过滤将该网站的内容与在该字典中查找到的术语相比较。EP1459206B1描述了一种用于搜索项目集合的计算机实施的方法,在该集合中每一个项目均具有一个属性集合。该方法涉及从两个或更多个属性的一个第一集合中形成的一个查询的接收。距离函数随后被应用到该集合中的项目的一个或多个上,并且一个所得项目或多个所得项目基于该距离函数而被识别。在这种情况下,确切地基于集合中的具有在属性的第一集合与用于该项目的属性的集合之间的交集内的所有属性的项目的数量,距离函数确定该查询与该集合中的一个项目之间的距离。最终,EP1622054A1、W02008/085637A2以及 W02008/137395A1 描述了用于搜索数据记录的另外搜索方法和搜索引擎。最终,Tuan-Quang Nguyen等人的“在扩展的布尔模型中使用扩充词语的查询扩展(Query expansion using augmented terms in an extended Boolean model),,,韩国信息科学家和工程师计算科学与工程韩国研究所杂志,第2卷,第I期,2008年3月(2008-03),第26-43页,国际标准期刊编号:1976-4677披露一种涉及首先由例如选自检索词典的词语扩展的原始搜索查询的搜索方法。这些添加的词语的选择考虑到与原始搜索词语的相似性的因素。最终,考虑到在文件中搜索词语的共同出现的因素而添加另外的词语(扩充词语)。随后为以这种方式扩展的搜索查询中的词语提供加权,为原始查询词语提供加权I并且为所添加的词语提供取决于与原始搜索词语的相似性的一个加权。然而,不利的是,这个文献中的方法没有解决尤其以下问题:在一个搜索查询中的拼写错误的词导致对于该拼写错误的词的一个非常高水平的关联性,因为不正确拼写的词在文件中根本不出现或很少出现。本发明是基于提供一种用于搜索多个数据记录的计算机实施的方法和一种适当搜索引擎的技术问题的,该搜索引擎可以由一台计算机执行并且获得该多个数据记录并且输出与一个接收到的搜索查询尽可能相关的特殊数据记录。本发明借助于一种具有权利要求1的特征的方法和一种具有权利要求12的特征的搜索引擎解决了这个技术问题。有利的优化和发展可以在从属权利要求中发现。根据本发明的方法涉及一种含有被接收的至少一个搜索词语的搜索查询。其次,根据一个参考集合确认含有相似于或相同于该搜索词语的词语的一个子集。如果该搜索查询含有多个搜索词语,则分别针对每一个搜索词语来确认一个参考集合。对于该子集中的每一个词语而言,随后确定与该搜索词语的一个相似性量度并且确定该词语的出现概率。取决于该词语的一个加权分布随后被应用到该子集中的词语上,其中与具有一个较低相似性量度的词语相比,具有一个较高相似性量度的词语被更强地加权。在这之后,根据该子集中的这些词语的加权的概率来确定针对该词语的一个修改的概率。其次,根据本发明的方法涉及被评定其与搜索查询的关联性的数据记录。这个评定涉及一个检查以确定在子集中的这些词语是否在该数据记录中出现,并且如果该子集中的一个词语在该数据记录中出现,则针对该词语的一个较低的修改概率导致针对该数据记录的一个较高的关联性评定值。最终,至少一个数据记录子集基于其关联性评定值而被输出。对于一个搜索查询中的一个搜索词语的关联性而言,重要的是在含有这类词语的集合中有多频繁地出现这个搜索词语。如果一个词语通常非常频繁地出现,则与通常非常少地出现在词语集合中的搜索查询中的一个搜索词语相比,处理该搜索查询是不太相关联的。根据本发明的方法通过确定针对该子集中的每一个词语的一个出现概率而考虑到搜索词语发生的不同频率的因素。举例来说,这些词语概率可以使用含有多个词语的特殊集合而预先确定,例如使用预先选择的其中词频率已经被确定的文本。与词语出现的概率相关的集合可以进而由出现在有待搜索的数据记录中的所有词语形成。这些数据记录可以被预先搜索并且编索引。在这种情况下,对于一个数据记录中的每一个词语而言,进而可能确定这个词语已经在数据记录中出现的频率。然而,在这种情况下,可能首先出现有待搜索的数据记录可能含有错误并且其次在一个搜索查询中的搜索词语也可能含有错误的问题。举例来说,这些错误可能为拼写错误或打字错误。例如,一个词可能包含于一个数据记录中的一个不正确的拼写中。如果目前确定了这些词语的出现频率,则在一个搜索词语中的一个拼写错误的词将会导致这个词具有与该搜索查询的一个特别高水平的关联性,因为该词出现得非常少。当根据数据记录中出现的所有词语确定一个词语的出现概率时,相同状况发生。如果数据记录含有一个拼写错误的词,则这个词出现得非常少,这意味着这个词的出现概率是非常低的并且因此该词与一个搜索查询的关联性是非常高的。根据本发明的方法不但通过考虑到一个搜索查询中的一个词语的发生概率或频率的因素,而且通过针对该搜索查询中的每一个搜索词语而根据一个参考集合确认含有多个词语的一个子集来解决这个问题,该参考集合在随后的相对于这个搜索词语的数据记录的关联性评定过程中被考虑到。举例来说,可以使用一个字典来确定该子集。在这种情况下,结果为含有一个拼写错误的词的一个搜索词语将不包含在子集中,而是该子集中将仅含有拼写正确的类似的词。也为了考虑到一个搜索词语中的一个词的其他语法形式的因素,该参考集合具体地含有多个词的所有语法形式。该子集将因此不但含有一个搜索词语中的一个词而且含有这个词的其他语法形式,因为这些形式与该搜索词语相类似。根据本发明的方法随后不考虑在针对搜索词语的数据记录的关联性评定过程中在这个如此确定的子集中的每一个词语的因素,而是本发明以一种特殊方式考虑到这个子集中的这些词语的因素:由于该子集中的每一个词语均具有与被确定而用于其的相关搜索词语的一个相似性量度,所以该子集中的这些词语可以基于其相似性量度而排序。随后使用加权分布,以便基于该词语来确定在确定修改概率时如何考虑到该子集中的其他词语的因素。在这种情况下,与具有一个较低相似性量度的词语相比,具有一个较高相似性量度的词语被更强地加权。以这种方式,例如,甚至在含有一个打字错误的一个搜索词语的情况下,可能得到针对这个词语的一个适当的修改概率,该概率最终被作为用于确定这些数据记录的关联性的一个基础。原因为,与含有一个打字错误的一个搜索词语相关的子集具有也含有拼写正确词语和其变体的一个高概率。当确定修改概率时,随后也考虑到该子集含有的这些词语的因素,这意味着含有打字错误的搜索词语的极少出现不会导致这个词语具有用于数据记录的评定的一个非常高水平的关联性。以相同方式,也可能防止出现在有待搜索的数据记录中的打字错误导致针对这样一类数据记录的评定的不适合结果。根据依据本发明的方法的一个优化,加权分布呈一种形式,这样使得一个词语的修改概率的确定不仅考虑到该词语本身的概率的因素而且也考虑到与这一个词语相比具有一个较高相似性量度的多个其他词语的概率因素。在这种情况下,加权分布可以因此为一个阶跃函数,例如针对子集本身中的词语并且也针与这个词语相比具有一个较高的相似性量度的其他词语输出加权1,并且针对具有一个较低相似性量度的子集中的词语输出加权0,其结果为具有一个较低相似性量度的这些词语在确定修改概率时被忽略。当确定针对一个词语的修改概率时,该词语本身的概率因此首先被考虑到并且在子集中的与这个词语相比具有一个较高概率量度的每个其他词语概率也被考虑到。根据依据本发明方法的一个优选优化,通过一个S形函数来确定加权,通过该加权一个第二词语tk的概率得到一个第一词语的修改概率,评估中心为该第二词语tk的相似性量度与该第一词语h的相似性量度的差集。与一个不连续阶跃函数相反,由于S形函数具有从值O到值I的连续转变,所以根据本发明的方法的这个优化也可以考虑到该子集中的与修改概率被确定的词语相比具有一个稍微较低相似性量度的词语的因素。这允许在数据记录的关联性方面的另一个改进,该数据记录关联性是基于修改概率而评定的。根据依据本发明的方法的另一个优化,加权分布呈一种形式,这样使得一个词语的修改概率的确定也考虑到具有一个较低相似性量度的拥有一个较低加权的其他词语的概率因素,具有一个较低相似性量度的另一个词语的加权取决于修改概率被确定的词语的相似性量度与该另一个词语的相似性量度之间的差。具体地,具有一个较低相似性量度的另一个词语与修改概率被确定的词语的相似性量度的差的绝对值越小,该另一个词语的加权将越高。这意味着通过应用任何其他函数,可能考虑到具有一个较低相似性量度的词语的因素,以便确定该子集中的每一个词语的修改概率,并且因此以便评定这些数据记录的关联性。一个给定词语的修改词语概率是与搜索词语的相似性(在广义意义上)大于该给定词语的相似性的所有词语的组合的概率。然而,对于评定一个数据记录而言,确认含有这样一类词语的一个数据记录的概率是有意义的。由于一个数据记录含有许多词语,所以这个概率是较大的。就这一点而言,根据依据本发明的方法的一个发展,修改概率的计算另外涉及一个中间步骤的引入,该中间步骤考虑到针对有待搜索的数据记录的每数据记录的词语数量的分布因素。具体地,这考虑了一个数据记录可能同时含有多个相似词语的事实。举例来说,一个数据记录的评定值可以从相关词语的修改概率的对数绝对值中获得。这使得组合有待考虑因素的词语的不同概率更加轻松,以用于确定一个词语的修改概率。子集中词语的出现概率具体地通过与从参考集合或数据记录中的词语频率中预先确认的词语相关的并且被存储在一个存储器中的概率而确定,并且针对该词语的存储概率随后从该存储器中读取。概率的这个预先确定允许该方法的执行得到加速并且简化。此夕卜,参考集合的选择使得诉诸于例如关于集合中的词语,即文本中词的出现频率的一般分析成为可能。最终,通过考虑到这些数据记录中的词语的出现频率因素,可能确认被定制给特定数据记录的概率。如果这些数据记录为例如一个产品数据库,则具体词的出现频率可以不同于已经从另一个类型的通用文本中确定的频率。根据依据本发明的方法的一个发展,搜索查询含有多个搜索词语。在这种情况下,针对每一个搜索词语分别确定一个部分评定值。另外,对从搜索词语中汇编的搜索查询确定另一个部分评定值。该搜索查询的评定值随后从这些部分评定值中确定。此外,在该方法过程中,当子集中的一个词语在被更高地评定的一个数据记录中更频繁地出现时,数据记录的关联性评定值可以涉及这个数据记录。举例来说,该子集中的一个词语在一个数据记录中出现得越频繁,这个数据记录可以被评定得越高。以这种方式,可能的是,不但该子集中的一个词语和多个另外词语的出现概率,而且有待评定的数据记录中的一个词语的特定出现频率均被用于评定这些数据记录的关联性。这个量度也引起在这些数据记录的关联性的评定方面的另一个改进。举例来说,一个数据记录每次可以含有多个字段。举例来说,特别地当这些数据记录关于一个产品数据库时尤其如此。在这种情况下,对于这些数据记录的关联性评定而言,特殊字段是比较重要的,并且相比之下其他字段较不重要。为此,在这种情况下,根据本发明的方法优选地涉及一个数据记录的关联性进而基于字段来评定,在该字段中,子集中的一个词语在该数据记录中出现。如果一个词语在特别重要的字段中出现,则与如果该词语在一个较不重要的字段中出现相比,这会导致该数据记录被更高地评定。另外,本发明涉及一种计算机程序产品,该计算机程序产品具有程序代码,该程序代码在由一台计算机执行时用于实施上述方法。具体地,该计算机程序产品可以是用于计算机软件的任何存储介质。可以由一台计算机执行的本发明的搜索引擎包括用于接收含有至少一个搜索词语的一个搜索查询的一个接收单元。举例来说,该搜索查询可以经由如互联网的一个网络接收。此外,该搜索引擎包括用于确认含有相似于或相同于该搜索词语的多个词语的一个子集的装置。具体地,根据一个参考集合来确认这个子集。此外,根据本发明的搜索引擎包括用于确定针对子集中的每一个词语的一个修改概率的装置。用于确定修改概率的这些装置呈一种形式,这样使得针对该搜索词语的对应词语的一个相似性量度可以被确定,词语的出现概率可以被确定,取决于词语的一个加权分布可以被应用到该子集中的这些词语,其中与具有一个较低相似性量度的词语相比,具有与该搜索词语的一个较高相似度量度的这些词语被更强地加权,并且针对该词语的修改概率可以从该子集中的词语的加权的概率中确定。此外,根据本发明的搜索引擎包括用于针对数据记录与搜索查询的关联性来评定数据记录的一个评定单元。具体地,这个评定单元可以用于检查该子集中的词语是否在数据记录中出现,并且如果该子集中的一个词语在该数据记录中出现,则该词语的一个较低的修改概率导致该数据记录被更高地评定。最终,根据本发明的搜索引擎包括用于基于一个数据记录子集的关联性评定输出该数据记录子集的一个输出单元。具体地,根据本发明的搜索引擎呈一种形式,这样使得其可以执行上述方法。因此,该搜索引擎也具有如以上所指示的方法的相同优点。根据依据本发明的搜索引擎的一个优化,该搜索引擎包括一个存储器,该存储器存储含有多个词语的参考集合或含有出现在数据记录中的词语的一个集合,并且也存储与这些词语相关的概率。在这种情况下,这些概率具体地从参考集合或有待搜索的数据记录中的词语出现频率中获得。现在将参考附图使用示例性实施例来解释本发明。

图1示意性示出根据本发明的一个示例性实施例的搜索引擎的基本设计,并且图2示出用于实施根据本发明的方法的一个示例性实施例的步骤。以下描述的示例性实施例涉及一个产品数据库D的搜索。对于每一个产品而言,这个产品数据库D存储一个数据记录屯。每一个数据记录Cl1可以进而被分成多个字段中,这些字段可能例如关于产品的价格、产品的颜色、产品的材料或产品的其他关联特征。产品数据库D被提供给与一个网上商店连接的一个用户。如在图1中示意性地示出,该用户可以使用他的计算机3来经由互联网2访问由该网上商店的一个中央单元I提供的一个网站。该用户可以使用他的计算机3来将一个搜索请求Q经由互联网2传送到该网上商店,该搜索请求由网上商店的中央单元I中的一个接收单元4接收。接收单元4将搜索请求Q传送到一个装置5,目的为确认含有相似于或相同于搜索请求Q中的一个搜索词语1的词语的一个子集V。为了这个目的,中央单元I被连接到一个存储器11上。这个存储器11可以首先含有产品数据库D。其次,这个存储器11包含含有词语t的一个参考集合T。举例来说,该参考集合T是一个词数据库,该词数据库基本含有一种语言或多种语言形式的所有词,或者含有可能在一个产品数据库中出现的所有词。在这种情况下,词语t因此具体地为多个词。另外,存储器11针对每一个词语存储一个概率P”针对一个词语的这个概率h指示出现在含有多个词语的一个集合中的这个词语t的概率是什么。具体地,这些概率Pj可以从一个特殊的词在一种特殊语言的文本中出现的频率中导出。这些出现频率本身已知并且可以预先存储在存储器11中。可替代地,将可能确定一个特殊词语h在数据库D中出现的频繁程度。从这个出现频率中将随后可能确定该词语tj出现在数据库D中的概率Pj。当装置5已经确定含有词语tj的一个子集V时,装置6用来针对该子集V中的每一个词语h确定针对该对应词语的一个相似性量度。该相似性量度指示词语&与搜索查询Q中的一个搜索词语^的相似程度。装置6被连接到能够确定词语tj的出现概率Pj的一个装置7上。举例来说,该装置7可以容易地从存储器11中读取这个概率IV该存储器存储如预先所确认的这些概率,如以上所解释。装置7被连接到一个装置8上,在装置8中,取决于子集V中的一个词语tj的一个加权分布可以被应用到子集V中的所有词语tk。通过应用该加权分布Xp获得针对子集V中的词语tk的加权概率。根据这些加权概率,装置8可以确定修改词语概率P'。此外,该装置可以考虑到每数据记录的词语数量的因素(例如通过访问存储器11)。这产生一个词语tj或者出现在一 个数据记录中的一个更相似词语的修改概率P’ JO修改概率P’」由装置8传送到一个评定单元9。该评定单元9针对数据记录Cl1与搜索查询Q的关联性来评定这些数据记录。为了这个目的,评定单元9访问存储器11,并且针对产品数据库D中的每一个数据记录Cl1检查子集V中的词语tj是否出现在数据记录Cl1中。如果子集V中的一个词语tj出现在数据记录Cl1中,则评定单元9通过考虑到出现的词语&的修改概率p’ j的因素来评定数据记录屯。评定单元9将关联性评定传送到一个输出单元10。该输出单元10基于一个数据记录子集的关联性评定来确定该数据记录子集。举例来说,该输出单元可以输出一个特定数量的数据记录Cl1,这些数据记录以其关联性评定的顺序被提供有最高关联性评定。这个输出可以经由互联网2供用户的计算机3使用,例如借助于显示在用户计算机3上的一个网站上的一个显示。下文结合根据本发明的方法的一个示例性实施例的阐释对关于以上描述的中央单元I的这些装置的细节进行描述:随后假定产品数据库D含有多个服装货品的多个数据记录屯。举例来说,该产品数据库D能够含有300个数据记录。该产品数据库D因此包括这些数据记录Clpd2......,
d300。另外,随后假定该产品数据库D中的15个数据记录含有词“衬衫(Shirt) ”并且该产品数据库中的60个数据记录含有词“蓝色(blaues)”。因此,这些数据记录的5%含有词“衬衫(Shirt)”并且这些数据记录的20%含有词“蓝色(blaues)”。此外,为了省事,最初假定这些词在每个数据记录Cl1中出现不超过一次。在这种情况下,对于多个搜索引擎考虑到文档频率倒数的实践是已知的。这涉及与含有一个更频繁出现的词的这些数据记录Cl1相比被指派一个较高相关性的含有一个罕见词的多个数据记录屯。在以上实例中,含有词“衬衫(Shirt) ”的这些数据记录因此与含有词“蓝色(blaues)”的这些数据记录Cl1相比被指派一个较高的相关性。此外,确认了哪些数据记录Cl1含有“蓝色(blaues) ”和“衬衫(Shirt) ”这两个词。假定这两个词不是相关的,则能够预期的是精确地是三个数据记录。这根据出现在这些数据记录Cl1中的这些词的两个概率的乘积计算出,即概率P衬衫(shirt) = 0.05乘以概率P蓝色(blaues) = 0.2。这两个词包含在一个数据记录Cl1中的概率因此是0.01 (I % )。当出现在一个数据记录Cl1中并且一个搜索查询Q与其相关的这些词的概率的乘积很小时,这个数据记录Cl1与该搜索查询的相关性是高度精确的。一个数据记录d越具体,则其相关性越高。为了能够更容易将这些单独的概率联系起来,因此优选的是形成概率的对数的绝对值。这个绝对值随相关性而增大并且另外地朝向这些单独的概率表现。在该先前实例中,含有词“蓝色(blaues) ”的一个数据记录Cl1的对数概率是0.7,含有词“衬衫(Shirt) ”的一个数据记录Cl1的对数概率是1.3,并且含有这两个词的一个数据记录Cl1的对数概率是2。现在下文将参照图2对根据本发明的方法进行详细的阐释,所述方法修改考虑到多个词语的出现频率倒数的一种已知方法:在步骤20中,一位用户生成含有这些搜索词语qi的一个搜索查询Q,其中i是一个自然数。如在以上所描述的实例中,搜索词语Q1可以是“衬衫(Shirt) ”并且搜索词语q2可以是“蓝色(blaues)”。在步骤21中,然后根据参考集T来确认含有与第一搜索词语Q1相似或相同的多个词语tj的一个子集V。如以上所阐释,该参考集T可以是含有一种语言的所有词的一个词数据库。用于两个特征串的相似性的自动评定的方法是本身已知的。在这种情况下,该子集V是通过确认一个搜索词语qi与该参考集T中的所有这些词语h的相似性来确认的。在一个特定相似性范围中的这些词语h包括在该子集V之中。例如,其披露内容通过引用结合在此的W02007/144199A1中描述了一种用于自动评定相似性的方法。该子集V因此可以含有例如三个词语tx、ty以及tz。在以上描述的实例中,可以针对该搜索词语“衬衫(Shirt) ”来确认以下子集V: {衬衫(Shirt, Shirts)、T恤衫}。可以针对第二搜索词语“蓝色(blaues) ”来确认以下子集V: {蓝色(blaues, blau, blaue)}。应指出的是该子集V可以仅含有该参考集T的多个元素。因此,如果该搜索查询Q含有一个拼写错误的词,则该子集V中不包括这个词,因为该参考集T中不含有该词。这允许一个搜索查询Q中的多个拼写错误的词被消除这样使得它们不会被指派一个非常高的相关性,因为它们极少出现。然而,在评定产品数据库D的相关性时,也考虑到多个拼写错误的词的因素,因为考虑到的不是该拼写错误的词而是含有与该拼写错误的词相似的多个词语的一个子集V的因素。在这方面,根据本发明的方法是容错的。针对用于评定该产品数据库D中的这些数据记录Cl1的相关性的方法,考虑到该子集V中的这些词语tx、ty以及tz的因素,但是针对这个评定而分别地确定了该子集V中的每个词语h的相关性,这意味着不是该子集V中的每一个词语h都需要具有用于评定该产品数据库D的相同的相关性。在这点上,针对该子集V中的每个词语在步骤22中确定了在这个词语h与潜在的搜索词语^之间的一个相似性量度Aijtl举例来说,使用W02007/144199A1中所描述的一种方法也是可以确定这个相似性量度Aij的。该子集V然后可以基于所含有的这些词语&与一个搜索词语^的相似性量度^^皮存储。如果该搜索词语Qi本身被包含在该子集V中,则该子集V中的这个词语h将会具有最高相似性量度Aij,因为该词语与该搜索词语Qi相同。随着相似性量度Au降低,一个子集V中的其他词语tj的相似性量度跟着降低。因此针对搜索词语“蓝色(blaues) ”,例如可以获得以下所存储的子集V:1.蓝色(blaues) >2.蓝色(blaue) >3.蓝色(blau)。在步骤23中,然后确定该子集V中的这些词语tj的概率ρ」。如果词语tj是随机选择的,则这是该词语从该数据库D·中被拉出的概率Pj。相比之下,在以上描述的相关性量度(文档频率倒数)的情况下,考虑到了这些文档的频率,即数据记录。如以上所阐释,这包括提前存储的、从存储器11中所读出的该子集T中的该词语tj的出现(即在特定文本中或在这些数据记录Cl1中)的概率Pj。在在此确切地描述的方法的情况下,举例来说,可能的是词“蓝色(blaues) ”以0.02的一个概率出现,词“蓝色(blaue) ”以0.01的一个概率出现并且词“蓝色(blau)”同样地以0.01的一个概率出现。此外,可以另外确定这些词“蓝色(blaues) ”、“蓝色(blaue) ”、“蓝色(blau) ”中的一个的出现概率。这个概率是0.04。在步骤24中,然后针对该子集V中的每个词语tj应用一个加权分布X」。在这种情况下,加权分布Xj的类型取决于该子集V中被考虑到的词语\_。在最简单的情况下,该加权分布Xj是针对被考虑到的词语h并且还针对该子集V中的这类其他词语tk(因为与当前被考虑到的该词语\相比具有一个较高相似性量度Aik)而输出加权I的一个阶梯函数。在这种情况下,该加权分布然后充当一个过滤,该过滤过滤出该子集V中与在考虑中的该词语^相比具有一个较低相似性量度A的所有这些词语tk。然后在步骤25中根据这些加权的概率确定一个修改的词语概率P',即针对该词语&确定该修改的概率P’当词“蓝色(blaues) ”在具体实例中被考虑时,其结果是这个词具有最高相似性量度A,因为该词与搜索词语“蓝色(blaues)”相同。该词“蓝色(blaues) ”的修改的词语概率P” x因此与该词“蓝色(blaues) ”的概率px —致。在另一方面,当词“蓝色(blaue)”被考虑时,其结果是词“蓝色(blaue)”具有一个较高相似性量度A,而词“蓝色(blau) ”具有一个较低相似性量度A。因此在确定针对词“蓝色(blaue) ”的修改的词语概率p” y时,针对词“蓝色(blaue) ”的修改的词语概率P” y的确定考虑到针对词“蓝色(blaue)”用I加权的概率Py的因素,并且还考虑到针对词“蓝色(blaues) ”用I加权的概率Px的因素。最后,当针对词“蓝色(blau) ”而确定修改的词语概率p”z时,其结果是这些词“蓝色(blaues)”和“蓝色(blaue)”与词“蓝色(blau) ”相比具有较高的相似性A,这意味着针对词“蓝色(blau)”的修改的词语概率p”z的确定考虑到各自用I加权的这些词“蓝色(blau) ”、“蓝色(blaue) ”以及“蓝色(blaues) ”的所有这些概率的因素。
所以,针对词“蓝色(blaues) ”所获得的修改的词语概率p”x是0.02 (针对词“蓝色(blaues)”的概率),针对词“蓝色(blaue)”所获得的修改的概率p”,是0.03 (针对词“蓝色(blaue)”或“蓝色(blaues) ”的概率)并且针对词“蓝色(blau) ”所获得的修改的概率p” z是0.04 (针对词“蓝色(blau) ”、“蓝色(blaue) ”或“蓝色(blaues) ”的概率)。步骤26:为了评定多个数据记录,计算一个数据记录含有一个词语的概率是有意义的,并且为此考虑到每数据记录中词语的数量的因素是有意义的。这具有可以提前被确认并且被存储的一个分布。举例来说,可以确认每数据记录中词语的平均数量。可替代地,一个精确的计算是可以的。对于具有300个数据记录的实例来说,这些数据记录中的150个被认为具有5个词语并且另外150个被认为具有10个词语。通过以下:l-(l-p’x)~5能够计算出5个词语的含有一个给定词语(例如‘蓝色(blaues)’)的一个组合的概率。括号中的表达式指示明显不是‘蓝色(blaues)’的一个词语的概率。指数5然后给出5个词语的不含有词语‘蓝色(blaues) ’的一个组合的概率。然后整个表达式给出长度为5的一个数据记录含有该词语的相关概率。对于长度为10的多个数据记录来说,所获得的表达式如下:1-(1-ρ’ ΧΓ10。然而,在该实例中,150个数据记录各自具有的长度为5并且150个数据记录各自具有的长度为10。那么,这产生如下含有该词语‘蓝色(blaues)’的任何数据记录的一个总体概率:
权利要求
1.一种用于搜索多个(D)数据记录(Cl1)的计算机实施的方法,其中 -接收含有至少一个搜索词语( )的搜索查询(Q), -根据参考集(T)来确认含有与该搜索词语( )相似或相同的词语(tj的子集(V), -针对该子集(V)中的每个词语(tp -确定与该搜索词语(Qi)的相似性量度(Aj), -确定该词语(tj的出现概率(P,.), -将取决于所述词语(h)的加权分布(XJ应用到所述子集(V)中的这些词语(tk)上,其中具有较高相似性量度(Ak)的这些词语(tk)与具有较低相似性量度(Ak)的词语(tk)相比被更强地加权,以及 -根据所述子集(V)中的这些词语(tk)的这些加权的概率来确定所述词语(tj的修改的概率(P’ -对这些数据记录(Cl1)针对它们与所述搜索查询(Q)的相关性(R)进行评定,其中-执行一个检查来确定所述子集(V)中的这些词语(tp是否出现在所述数据记录(Cl1)中,以及 -如果所述子集(V)中的词语(tj出现在所述数据记录(Cl1)中,那么所述词语(tp的较低修改的概率(P’ ρ P')导致所述数据记录(Cl1)的较高相关性评定值,以及 -基于至少一个数据记录子集的相关性评定值(R)来输出所述至少一个数据记录子集。
2.按权利要 求1所述的方法, 其特征在于 所述加权分布(XP处于一种形式以使得词语(tp的修改的概率(P’ ρ P')的确定仅考虑所述词语(tp本身的概率(Pj)的因素并且还考虑与这个词语(tp相比具有一个较高相似性量度(Ak)的其他词语(tk)的概率(pk)的因素。
3.按权利要求1所述的方法, 其特征在于 通过对一个S形函数的评估来确定所述加权(xp,第二词语(tk)的概率(Pk)通过所述加权得到第一词语Ui)的修改的概率(P’ yP'),评估中心是所述第一词语(tj的相似性量度(Ak)与所述第二词语Ui)的相似性量度(Ap的差集。
4.按权利要求1或2所述的方法, 其特征在于 所述加权分布(XP处于一种形式以使得词语(tp的修改的概率(P’ ρ P')的确定还考虑具有较低加权的其他词语(tk)的概率(pk)的因素,所述较低加权具有较低相似性量度(Ak),具有较低相似性量度的另一个词语(tk)的加权取决于其修改的概率(P’ ρ P')被确定的所述词语(tp的相似性量度(k)与另一个词语(tk)的相似性量度(Ak)之间的差。
5.以上权利要求中任一项所述的方法, 其特征在于 所述修改的概率(P’ ρ P')的确定涉及一个中间步骤的插入,在所述中间步骤中考虑了每数据记录中的词语的数量的分布的因素。
6.以上权利要求中任一项所述的方法,其特征在于 一个数据记录(Cl1)的评定值是根据相关联词语(tp的修改的概率(P’ P P')的对数的绝对值获得的。
7.以上权利要求中任一项所述的方法, 其特征在于 凭借与所述子集(V)中的词语(tp相关联的概率(Pp来确定所述词语(tp的概率(Pj),所述相关联的概率是根据所述词语(tp出现在所述参考集(T)中或这些数据记录((I1)中的频率而提前被确认的并且被存储在一个存储器(11)中,并且从所述存储器(11)读出所述词语(tp的所存储的概率(Pj)。
8.以上权利要求中任一项所述的方法, 其特征在于 当所述子集(V)中的词语(tp在被更高评定的一个数据记录中较频繁地出现时,这些数据记录(Cl1)的相关性评定值包含所述数据记录。
9.以上权利要求中任一项所述的方法, 其特征在于 这些数据记录(Cl1)各自含有多个字段,并且在于一个数据记录(Cl1)的相关性(Γι)进一步基于字段被评定,在所述字段中所述子集(V)中的词语(tp出现在所述数据记录(Cl1)之中。
10.以上权利要求中任一项所述的方法, 其特征在于 所述搜索查询(Q)含有多个搜索词语(Qi),在于针对每个搜索词语(Qi)分别地确定部分评定值,在于针对根据这些搜索词语( )编译的所述搜索查询(Q)来确定另一个部分评定值并且在于根据这些部分评定值来确定所述搜索查询(Q)的评定值(R)。
11.一种计算机程序产品,其具有程序代码,所述程序代码用于在由计算机执行所述程序代码时执行如权利要求1至10中任一项所述的方法。
12.一种搜索引擎,其可以由计算机来执行,所述搜索引擎具有 -接收单元(4),所述接收单元用于接收含有至少一个搜索词语( )的搜索查询(Q),-装置(5),所述装置用于确认含有与所述搜索词语( )相似或相同的词(tp的一个子集(V), -装置出至8),这些装置用于确定所述子集(V)中的每个词语(tj的修改的概率(p’j;P ”」),这些装置能够被用于 -确定与所述搜索词语( )的相似性量度(Aj), -确定所述词语(tj的出现概率(Pj), -将取决于所述词语Ui)的加权分布(X)应用到所述子集(V)中的这些词语(tk)上,其中具有较高相似性量度(Ak)的这些词语(tk)与具有较低相似性量度(Ak)的词语(tk)相比被更强地加权,并且 -根据所述子集(V)中的这些词语(tk)的这些加权概率来确定所述词语(\)的所述修改的概率(P’ -评定单元(9),所述评定单元用于针对数据记录(Cl1)与所述搜索查询(Q)的相关性来对它们进行评定,其中 -可以检查所述子集(V)中的这些词语(tj)是否出现在所述数据记录(Cl1)中,并且-如果所述子集(V)中的词语(tj出现在所述数据记录(Cli)中,那么所述词语(tp的较低修改的概率(P’ ρ P')导致所述数据记录(Cl1)的较高评定值(^),以及 -输出单元(10),所述输出单元用于基于至少一个数据记录子集的相关性评定值(R)来输出所述至少一个数据记录子集。
13.按权利要求12所述的搜索引擎, 其特征在于 所述搜索引擎包括存储器(11),所述存储器存储含有词语(tp的参考集(T)或含有出现在这些数据记录(Cl1)中的这些词语(tj的集,并且还存储与这些词语(tj相关联的这些概率(P j)。
全文摘要
本发明涉及一种由计算机实施的、用于在多个(D)数据集(d1)中进行搜索的方法,其中接收具有至少一个搜索词语(qi)的一个搜索查询(Q),根据一个参考量(T)推导出具有与该搜索词语(qi)相似或相同的多个词语(tj)的一个部分量(V),针对该部分量(V)的每个词语(tj)确定与该搜索词语(qi)的一个相似性量度(Aj),确定该词语(tj)的出现概率(pj),将取决于该词语(tj)的一个加权分布(Xj)应用到该部分量(V)的这些词语(tk)上,其中具有一个较大相似性量度的这些词语(tk)与具有一个较小相似性量度的多个词语(tk)相比被更重地加权,并且根据该部分量(V)的这些词语(tk)的这些加权概率来确定该词语(tj)的一个修改的概率(p’j,P”j)。另外对这些数据集(di)就其与该搜索查询(Q)的相关性(R)来进行评估,其中做出关于该部分量的这些词语(tj)是否出现在该数据集(dj)中的一个检查,并且如果该部分量(Q)的一个词语(tj)出现在该数据集(d1)中,则该词语(tj)的一个较小修改的概率(p’j,P”j)导致该数据集(d1)的一个较大相关性值,并且至少一个部分数据集量作为其相关性值(R)的一个函数被输出。本发明进一步涉及一种用于执行所述方法的搜索引擎。
文档编号G06F17/30GK103098052SQ201180040712
公开日2013年5月8日 申请日期2011年8月17日 优先权日2010年8月25日
发明者埃明·卡拉耶尔, 卡斯滕·海因茨, 马蒂亚斯·克林斯 申请人:欧米克数据质量有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1