应用语义向量和关键字分析关联数据集的方法和装置的制作方法

文档序号:6476083阅读:227来源:国知局

专利名称::应用语义向量和关键字分析关联数据集的方法和装置的制作方法
技术领域
:本发明涉及用来识别根据上下文相关联的数据集的方法和系统,例如,文档、网页、电子邮件、搜索问题、广告等,并且尤其涉及通过分析所述数据集的唯一语义向量和包含所述数据集中代表性关键字的信息的关键字语义表示,来识别根据上下文与主题数据集相关联的数据集的方法和系统。
背景技术
:诸如由微软公司、谷歌公司、振动媒体(VibrantMedia)或雅虎公司开发的搜索引擎或广告布置系统被广泛地用来识别与用户输入的搜索问题潜在相关联的文档或文件,或者被用来选择和显示广告,该广告根据上下文关联到用户已经或正在浏览或操作的一个或多个数据集,例如文档、电子邮件消息、RSS消息源、或网页。然而,即使在开发和修改多年之后,现有的搜索引擎或广告布置系统仍然远不能令人满意。搜索的结果或识别的广告经常与用户输入的搜索问题或用户正在或已经浏览的文档或网页缺乏足够的关联。
发明内容本发明描述各种实施例,它们通过分析代表数据集的唯一语义向量和包含有数据集中代表性关键字的信息的语义表示,有效地识别一个或多个数据集,例如文档、网页、电子邮件等,这些数据集可能根据上下文关联到主题数据集,例如搜索问题、用户正在浏览的网页。根据本发明的一个示例性的方法,控制数据处理系统使得从一组数据集中的至少一个数据集关联到主题数据集。每个数据集或所述主题数据集包括至少一个关键字。该方法获取代表所述主题数据集的语义向量和代表所述组中每个单独数据集的各个语义向量。代表所述组中每个单独数据集的每个语义向量包括所述单独数据集中的所述至少一个关键字的每一个与预先确定目录之间关系的集合信息,在所述单独数据集中的所述至少一个关键字的每一个都可能关联到所述目录。代表主题数据集的所述语义向量包括所述主题数据集中的所述至少一个关键字的每一个与预先确定目录之间关系的共同信息,在所述主题数据集中的所述至少一个关键字的每一个都可能关联到所述目录,并且代表所述主题数据集或所述组中的每个单独数据集的所述语义向量具有与所述预先确定目录的数目相等的维。对于所述组的每个数据集,通过比较与所述主题数据集关联的所述语义向量和与所述组中的每个数据集关联的所述语义向量,来确定所述主题数据集与所述组中的每个数据集之间的第一相似性。该示例性方法进一步获取所述主题数据集的关键字语义表示和所述组中的每个单独数据集的关键字语义表示。所述主题数据集的所述关键字语义表示或所述组中的每个单独数据集的所述关键字语义表示包括指示所述主题数据集或所述组中的每个单独数据集的有代表性关键字的信息,并且所述主题数据集的所述关键字语义表示或所述组中的每个单独数据集的所述关键字语义表示以不同于所述主题数据集的所述语义向量或所述组中的每个单独数据集的所述语义向量的方式构成。对于所述组的每个单独数据集,通过比较所述主题数据集的所述关键字语义表示和所述组中的每个数据集的所述关键字语义表示来确定在所述主题数据集与所述组中的每个数据集之间的第二相似性。根据所述主题数据集与所述组中的每个数据集之间的所述第一相似性和所述主题数据集与所述组中的每个数据集之间的所述第二相似性选择所述组中数据集的至少一个数据集。该方法将所述组中的该至少一个被选数据集关联到所述主题数据集。所述数据集中的所述至少一个数据集可以和所述主题数据集同时呈现给用户或者在向用户呈现所述主题数据集之后呈现。所述数据集中的所述至少一个数据集或所述主题数据集可以以语音形式、可视形式、视频形式、触觉形式或其任何组合形式呈现给用户。在一个实施例中,所述组中所述数据集的至少一个数据集是广告,并且所述主题数据集是文档、网页、电子邮件、RSS新闻消息源、数据流、广播数据或与用户相关信息;或一个或多个文档、网页、电子邮件、RSS新闻消息源、数据流、广播数据或与用户相关信息的一部分或其组合。还根据另一个实施例,该示例性方法传送所述至少一个被选数据集或与所述被选数据集关联的文件以及所述主题数据集或与所述主题数据集关联的文件给用户。所述至少一个被选数据集可以通过显示所述至少一个被选数据集、播放根据所述至少一个被选数据集的语音信号或提供所述至少一个被选数据集的链接而被传送给用户。在一个实施例中,所述至少一个关键字包括字、短语、字符串、预分配关键字、子数据集、元信息(meta信息)和基于包含在所述单独数据集中的链接取回的信息中的至少一个。在另一个实施例中,每个数据集的所述语义向量被预先计算并且被包含在所述单独数据集中。所述语义向量可以在运行中动态生成。根据一个实施例,代表所述组中的每个单独数据集的所述语义向量是基于所述组中的每个单独数据集的至少一个关键字和已知关键字与预先确定目录之间的已知关系构成的,所述已知关键字可能关联到的所述目录,以及代表主题数据集的所述语义向量是基于所述主题数据集的至少一个关键字和已知关键字与预先确定目录之间的所述已知关系构成的,所述已知关键字可能关联到的所述目录。根据另一个实施例,与所述单独数据集关联的所述语义向量是进一步基于与至少一个用户相关的信息或链接到所述单独数据集的至少一个数据集生成的。所述与至少一个用户相关的信息包括之前浏览过的文档、之前搜索请求、用户优先选择和个人信息中的至少一个。根据一个实施例,根据所述主题数据集与所述组中的每个数据集之间的所述第一相似性、所述主题数据集与所述组中的每个数据集之间的所述第二相似性来选择所述组中的所述数据集的至少一个数据集的步骤包括,指定所述第一相似性和所述第二相似性中的一个作为主要相似性、而另一个作为次要相似性,获取所述主要相似性的多个预置关联级别的信息;对于所述组中的每个数据集,根据所述主要相似性映射所述主要相似性到所述预置关联级别中的一个;根据所述组中的所述数据集各自映射的预置关联级别,对所述组中的所述数据集进行排序;在每个关联级别里,根据所述数据集的所述次要相似性对每个关联级别里的所述数据集进行排序;以及根据在每个关联级别里所述数据集排序的结果选择所述组中的所述数据集的至少一个数据集。根据另一个实施例,根据所述主题数据集与所述组中的每个数据集之间的第一相似性、以及根据所述主题数据集与所述组中的每个数据集之间的第二相似性来选择所述组中数据集的至少一个数据集的步骤,包括指定第一相似性和第二相似性中的一个作为主要相似性,而另一个作为次要相似性;根据所述主要相似性对所述组中的所述数据集进行排序;根据预置标准从所述排序后的数据集中选择至少一个候选数据集;根据所述次要相似性对所述至少一个候选数据集进行排序;根据所述至少一个候选数据集排序的结果选择所述组中所述数据集的所述至少一个数据集。还根据另一个实施例,根据所述主题数据集与所述组中的每个数据集之间的第一相似性、以及根据所述主题数据集与所述组中的每个数据集之间的第二相似性来选择所述数据集的至少一个数据集的步骤,包括对于所述组中的每个数据集,根据预置公式基于所述数据集的各自第一相似性和所述数据集的各自第二相似性计算复合相似性;根据所述数据集的各自复合相似性选择所述组中的所述数据集的所述至少一个数据集。一个示例性数据处理系统,用来将一组数据集中的至少一个数据集关联到主题数据集。每个数据集或所述主题数据集包括至少一个关键字。该系统包括配置用来处理数据的数据处理器和配置用来存储由数据处理器执行指令的数据存储系统,该系统控制所述数据处理器执行指定的步骤。这些步骤包括获取代表所述主题数据集的语义向量和代表所述组中每个单独数据集的各个语义向量,其中代表所述组中的每个单独数据集的每个语义向量包括集合信息,该集合信息具有所述单独数据集中的所述至少一个关键字的每一个与预先确定目录之间的关系,所述单独数据集的所述至少一个关键字的每一个可能关联到所述目录,代表所述主题数据集的所述语义向量包括集合信息,该集合信息具有所述主题数据集的所述至少一个关键字的每一个与预先确定目录之间的关系,所述主题数据集的所述至少一个关键字的每一个可能关联到所述目录,以及代表所述主题数据集或在所述组中的所述每个单独数据集的语义向量具有与预先确定目录的数目相等的维;对于所述组中的每个数据集,通过将与所述主题数据集关联的所述语义向量和与所述组中的每个数据集关联的所述语义向量进行比较,来确定所述主题数据集与所述组中的每个数据集之间的第一相似性;获取所述主题数据集的关键字语义表示和所述组中的每个单独数据集的关键字语义表示,其中所述主题数据集的关键字语义表示或所述组中的每个单独数据集的关键字语义表示包括指示所述主题数据集或所述组中的所述单独数据集的有代表性关键字的信息,以及所述主题数据集的所述关键字语义表示或所述组中的每个单独数据集的所述关键字语义表示以一种不同于所述主题数据集的所述语义向量或所述组中的每个单独数据集的所述语义向量的方式构成;对于所述组中的每个数据集,通过将所述主题数据集的关键字语义表示和所述组中的每个数据集的关键字语义表示进行比较,来确定所述主题数据集与所述组中的每个数据集之间的第二相似性;以及根据所述主题数据集与所述组中的每个数据集之间的所述第一相似性和所述主题数据集与所述组中的每个数据集之间的所述第二相似性,选择所述组中的所述数据集的至少一个数据集;以及将所述至少一个被选择的数据集关联到所述主题数据集。这里描述的示例性系统可以用一个或多个计算机系统和/或适当软件来执行。本发明的一个实施例一种携带指令的机器可读介质,数据处理系统执行所述指令,该机器可读介质控制所述数据处理系统执行机器实现的步骤,以将一组数据集的至少一个数据集关联到主题数据集。每个数据集或所述主题数据集包括至少一个关键字。这些步骤包括存储代表所述主题数据集的语义向量和代表所述组中每个单独数据集的各个语义向量,其中代表所述组中的每个单独数据集的每个语义向量包括集合信息,该集合信息具有所述单独数据集的所述至少一个关键字的每一个与预先确定目录之间的关系,所述单独数据集的所述至少一个关键字的每一个可能关联到所述预先确定目录,代表所述主题数据集的所述语义向量包括集合信息,该集合信息具有所述主题数据集的所述至少一个关键字的每一个与预先确定目录之间的关系,所述主题数据集的所述至少一个关键字的每一个可能关联到所述目录,以及代表所述主题数据集或所述组中的每个单独数据集的语义向量具有与预先确定目录的数目相等的维;对于所述组中的每个数据集,通过将与所述主题数据集关联的所述语义向量和与所述组中的每个数据集关联的所述语义向量进行比较,来确定所述主题数据集与所述组中的每个数据集之间的第一相似性;获取所述主题数据集的关键字语义表示和所述组中的每个单独数据集的关键字语义表示,其中所述主题数据集的关键字语义表示或所述组中的每个单独数据集的关键字语义表示包括指示所述主题数据集或所述组中的所述单独数据集的有代表性关键字的信息,以及所述主题数据集的所述关键字语义表示或所述组中的每个单独数据集的所述关键字语义表示以一种不同于所述主题数据集的所述语义向量或所述组中的每个单独数据集的所述语义向量的方式构成;对于所述组中的每个数据集,通过将所述主题数据集的关键字语义表示和所述组中的每个数据集的关键字语义表示进行比较,来确定所述主题数据集与所述组中的每个数据集之间的第二相似性;以及根据所述主题数据集与所述组中的每个数据集之间的所述第一相似性和所述主题数据集与所述组中的每个数据集之间的所述第二相似性,选择所述组中的所述数据集的至少一个数据集;以及将所述至少一个被选择的数据集关联到所述主题数据集。在下面的描述中将部分地阐明本发明额外的优点和新颖特征,并且在下面的分析中对本领域的普通技术人员来说,部分额外的优点和新颖特征将是显然的,或者可以通过对本发明的实践所学习。所示和所描述的实施方式提供了对执行本发明的最佳模式的阐述。这里描述的每个特征和实施方式都可以被单独执行或与其他特征或实施方式联合执行。在不脱离本发明精神及其范围的情况下,本发明可以在各种明显的方面被修改。附图和描述实质上将被认为是示例性的,而不被认为是限制性的。依照尤其在附加的权利要求中指出的手段和结合,可以认识和获得本发明的优点。参照附图对本发明采用的实例方式进行说明,但并不局限于此,其中,全文具有相同参考数字标记的元件代表相似的元件,并且其中图1是示例性广告布置系统的方框图;图2表示根据本发明的示例性广告布置系统的实施例;图3阐述根据本发明的示例性广告布置系统的另一个实施例的操作;图4是表示字和目录之间关系的示例性表格;图5是表示与图4的字的意义相应的值的示例性表格;图6阐述了在语义空间中图4的字的表示的示例性表格;以及图7是在其上可以执行示例性广告布置系统的示例性计算机系统的方框图。具体实施例方式在下面的描述中,为了解释之目的,为了提供对本发明彻底地理解,对很多具体的细节进行阐明。然而,显而易见的,对本领域的技术人员来说,在没有这些具体细节情况下,可以实践或执行本发明的概念。在其他的实施例中,为了避免本发明难以理解,以方框图形式显示公知的结构和设备。当应用在这里的描述中时,术语“数据集”指的是人和/或机器可读和/或可理解的表述的集合,而术语“关键字”指的是一个或多个元素,例如数据集中原文的或象征的元素、数字等。例如,如果数据集是文档,那么关键字可以是包含在文档中的一个或多个的字、短语、标点符号、符号和/或句子。数据集可以是各种不同类型数据集的集合,或更大数据集的一部分。数据集可以是总结或描述另一个数据集内容的概述和/或标签。关键字对用户来说可以是直接可视的或可以不是直接可视的。例如,关键字可以是视频文件的隐藏式字幕或隐藏字幕的一部分、音频文件的歌词或Word文档相关的元数据的元素。在人或机器可以确定或处理关键字之前,可以进行附加的处理。例如,为了便于人或机器进行处理和/或识别,可以应用光特性识别或声音识别将某种元素从第一格式转换到第二格式。数据集的例子包括网页、视频、语音或多媒体文件、广告、电子邮件、文档、RSS消息源、多媒体文件、相片、图像、画像、电子计算机文档、声音录音带、广播、视频文件、元数据等,或上述的一个或多个的集合。关键字的例子包括字、短语、符号、术语、超级链接、元数据信息、和/或包括在数据集中或与数据集关联的显示或不显示的术语。在本发明的上下文中,“网页”被理解为是指能够在例如微软IE的网页(WEB)浏览器显示的信息的联合或集合,其内容可以包括但不限于:超文本链接标记语言(HTMj)页、Jara描述语言、I页、电子邮件消息、和RSS新闻消息源。当应用在本发明时,术语“主题数据集”指的是一个或多个数据集,示例性的系统打算从一组数据集中的识别出所述一个或多个数据集,该一组数据集上下文相关到所述主题数据集。例如,主题数据集可以是搜索问题,用户输入该搜索问题,打算找到与该搜索问题相关的文档;或是一个或多个网页,根据本发明的示例性系统打算找到合适的广告来与该网页一起显示。用于说明之目的,下面的例子描述实施例中的操作,该实施例基于对代表所述网页和所述广告的唯一语义向量,例如训练语义向量(TSV),和包含所述网页和所述广告的有代表性关键字信息的语义表示的分析,识别根据上下文关联到主题数据集,例如用户正在浏览的网页,的一个或多个数据集,例如广告。可以执行各种公式和统计操作来识别重要的或有代表性的关键字,以便它们能够比其他有更大的权重。可以理解,相似的途径和方法可以应用到不同类型数据集和/或主题数据集。例如,可以用相似途径识别根据上下文关联到用户输入的一个或多个搜索问题(所述主题数据集)的文档或网页;或识别可能潜在关联到一个或多个广告的网页。训练语义向量(TSV)是数据集的语义表示的唯一类型,并且是基于包含在数据集里的数据点和已知数据点与预先确定目录之间的已知关系生成的。关于训练语义向量的结构和特性的细节描述参见提交于2000年5月2日的美国专利号6,751,621、名称为“训练语义向量的结构和分类”、以及提交于2005年5月11日,美国专利申请序列号11/126184(代理人案件目录第55653-019)、和名称为“应用语义分析的广告布置方法和系统”中,其全部内容以引用方式并入文中。图1是示例性的广告布置系统10,其被配置用来基于分析广告12和网页11的至少两种类型的语义表示包括广告12及网页11的代表性关键字信息的多个语义表示和多个TSV,从一组广告12中确认根据上下文关联到用户正在浏览的网页11的一个或多个广告。广告12可以由媒体,例如文本、声音或动画等,的任意组合组成。基于这些分析的结果,系统10生成识别根据上下文关联到网页12的被选广告的匹配结果。选择用于特殊数据集或网页的一个或多个广告可以发生在数据集呈现给用户之时、或数据集呈现给用户之前或数据集呈现给用户之后。在另一个实施例中,广告布置系统10用来选择根据上下文关联到网页11的一个或多个广告12,以便该网页与该一个或多个被选广告一起被显示或该网页被链接到该一个或多个被选广告。被识别作为关联到主题数据集的那些数据集与所述主题数据集一起被传送或呈现给用户,并且该传送或呈现的次数与所述主题数据集被传送或呈现的次数不同。可以以各种形式或格式传送或呈现这些数据集给用户,例如,语音形式、视频形式、视觉形式、触觉形式、机器可读格式,或者其任意组合寸。可以预先计算或在运行中计算关联到每个广告12或网页11的TSV。在一个实施例中,每个网页或广告包括它们各自预先计算的多个TSV的嵌入或关联信息。在另一个实施例中,与网页11关联的TSV由系统10动态计算。图2是广告布置系统10的一个实施例的详细方框图。如图2所示,广告布置系统10包括用来识别和取回广告12或网页11的关键字的术语抽取器102、112。术语抽取器102,112执行关于广告12或网页11的内容的语言学分析,以便从广告12或网页11将语句分割成较小的单元,例如字、短语等。可以用预置停止列表删除使用频率高的术语,例如像“the”,“a”等等的语法性字。如果广告12或网页11包括不是实际内容的信息(例如,HTML标记标签或Java脚本),那么可以将该信息删除。对于本领域的技术人员来说,用于执行术语抽取的软件是可以广泛获得和知晓的。广告布置系统10进一步包括基于术语抽取器102、112的输出用来为广告12或网页11计算TSV的TSV生成器103、113。系统10可以对广告12和网页11都使用共同的TSV生成器。可选地,可以分别使用独立的TSV生成器处理广告12和网页11的输出。广告布置系统10包括TSV索引器114和TSV索引数据库118,用于组织和存储所生成的TSV以进行高效搜索。可以应用全数据库管理系统(DBMS)或仅应用用于大规模数据记录管理的软件包来执行TSV索引器114,而TSV索引数据库118可以与包括其链接和广告12的TSV的数据库存储TSV索引文件一起被执行。可以应用不同的检索方案加速搜索。例如,一个常规检索TSV的方案是在它们引用的每个语义目录下对它们进行列表。输入与每个广告12关联的TSV和与网页11关联的TSV到TSV匹配器104来确定网页11与每个广告之间的各自TSV相似性。这些相似性可以是关联分数的形式。在一个实施例中,基于各语义向量(各TSV)之间的距离确定各TSV之间的相似性或关联,例如,确定各TSV之间的N维欧几里德距离,这里N是语义空间或预先确定目录的维数。网页11的TSV和广告的TSV之间的距离越短,网页11和广告之间越相似。也可以应用其他的比较方法,例如余弦测量、汉明距离、明可夫斯基(Minkowski)距离、或马哈拉诺比斯(Mahalanobis)距离。可以做各种最优化来提高比较时间,包括在比较之前减少TSV的维以及在比较之前或之后使用过滤器删除确定的广告。基于TSV比较结果,TSV匹配器104生成TSV匹配列表105,该匹配列表包括根据匹配广告各自与网页11的TSV相似性,从广告12中选择的匹配广告的排序列表。可以应用预置阈值来仅选择在预置阈值之上具有一定程度相似性的那些广告。广告布置系统10进一步包括不同于TSV类型的、用来为网页11和广告12确定和比较文本表示的装置。在一个实施例中,广告布置系统10生成语义表示,该语义表示包括网页11和广告12的有代表性关键字的信息。如图2所示,关键字选择器115、106输入由术语抽取器102、112取回的术语,并且根据一个或多个韵律,从网页11或广告12的内容选择关键字子集来代表网页11或每个广告12,该韵律为,例如术语频率(在页中术语出现频率),逆向文档频率(包括术语的集合中页占的部分),或者本领域技术人员公知的其他方法。例如,关键字选择器115、106可以计算网页11或每个广告中的每个文本出现的频率或数目,以及基于每个文本的出现所计算的频率或数目选择的有代表性的关键字。另外一个例子是用停止列表删除提供很少关于网页11或广告12的主题信息的关键字。术语抽取器102、112维持或具有入口至停止列表,停止列表包括提供很少关于主题信息的最常规出现的字。包括在停止列表的关键字不是好的搜索术语。停止列表可以由语言专家、自动分析(例如统计学上的)、或用户或这三者的组合来创建。可以理解可以应用本领域的技术人员已知的其他方法来从网页11或广告12中选择关键字用于代表网页11或广告12。在关键字选择器115识别了每个广告的有代表性关键字之后,提供关键字索引数据库117来存储有代表性的关键字和与各个广告12的链接。如图2所示,提供关键字匹配器107来基于代表每个单独广告和网页11的被选关键字的信息,确定网页11和每个广告12的之间的关键字相似性。在一个实施例中,关键字匹配器107在关键字索引数据库117中查询网页11的被选关键字的组,并且根据一个或多个已知算法,为每个广告和网页11生成关键字关联分数。例如,基于匹配数目或包含在广告和网页中的常见关键字(一个术语,一票)计算两组有代表性关键字之间的关联分数。在另一个实施例中,关键字匹配器107采用更精细的投票方案(选举团、权重分配、带有绝对否决权的特权、支持的响度)来确定在每个广告和网页11之间的相似程度。其他类型的计算,例如向量空间模型,可以用直接或修改的余弦相似性计算关联分数。在关键字匹配器107计算网页11与每个单独广告之间各自的相似性之后,关键字匹配器107生成关键字匹配列表108,该列表基于广告与网页11的各自相似性或广告各自关联分数,对广告12进行排序。发送TSV匹配列表105和关键字匹配列表108到联合器109,该联合器根据关键字匹配列表108和TSV匹配列表105包含的信息生成的最终匹配列表110。在一个实施例中,对于TSV匹配列表105或关键字匹配列表110的每个广告,联合器109基于在TSV匹配列表105和关键字匹配列表110中其关联分数,计算合成关联分数。然后根据广告的各个合成关联分数生成最后的匹配列表110。在一个实施例中,该合成关联分数由下式计算如果在TSV匹配列表105和关键字匹配列表108中都包括广告,那么联合-分数=ai*TSV_分数+b,关键字_分数+C1(1)如果仅在TSV匹配列表105中包括广告,那么联合-分数=a2*TSV_分数+C2(2)如果仅在关键字匹配列表108中包括广告,那么联合-分数=b3*关键字-分数+C3(3)在某种程度上,这些系数、a2、bpb3、C1,c2,C3可以被按下述方式选择,即方程式(2)和(3)是方程式(1)的特殊情况。在每个或所有匹配列表的关联分数可以被规范到W,1]范围。可以应用有条件的或无条件的阈值到每个或所有匹配列表的关联分数来缩小列表。根据广告的合成分数得到最终匹配列表110。在另一个实施例中,对TSV匹配列表105和关键字匹配列表108中的广告,利用专有公式重新排列以形成示例性的最终匹配列表110。在TSV匹配列表105和关键字匹配列表108中的每个广告被关联到各自TSV关联分数和关键字关联分数。TSV匹配列表105根据它们各自TSV关联分数对广告进行排序,而关键字匹配列表108基于它们各自关键字关联分数对广告进行排序。TSV关联分数和关键字关联分数的其中之一被命名为主要关联分数而另一个被命名为次要关联分数。表1表示了将TSV关联分数作为主要关联分数、关键字关联分数作为次要关联分数时的示例性排序列表。为了便于说明之目的,将关联分数规范在W,1]范围里。表1<table>tableseeoriginaldocumentpage16</column></row><table>将每个广告的主要关联分数映射到相应于关联分数的特定范围的预置关联级别。然后根据广告的映射关联级别对广告进行排序。应用每个单独广告的次要关联分数在每个关联级别内对广告进行排序。例如,表1所示的例子,TSV关联分数被映射到三个不同关联级别如果关联分数<0.4,那么关联级别=1如果0.4<=关联分数<0.7,那么关联级别=2如果关联分数>=0.7,那么关联级别=3在转换之后,根据它们各自关联级别对广告进行重新排序。然后,根据广告各自次要关联级别对每个单独关联级别内的广告进行重新排序。表2表示重新排序的结果。表2的第1栏是广告的最终关联排序。表2<table>tableseeoriginaldocumentpage17</column></row><table>然后广告布置系统10为了关联到网页11,根据最终匹配列表110的排序,从最终匹配列表110选择一个或多个广告。根据一个实施例,被选广告与网页11一起显示或链接到网页11。可以理解,在其他实施例中,可以命名关键字关联分数为主要关联分数,而命名TSV关联分数为次要关联分数。也可以理解,可以根据设计需要用范围级别的不同数字来转换关联分数。也可以理解,可以应用有条件的或无条件的阈值到每个或所有匹配列表的关联分数来缩小列表。在另一个实施例中,系统10主要依照于TSV匹配列表105和关键字匹配列表108其中之一可以生成最终匹配列表100。例如,系统10依照关键字匹配列表108,该列表根据广告的各自关键字关联分数选择广告的预置数,仍然计算每个广告的TSV关联分数。然后基于它们各自的TSV关联分数对在关键字排序列表108的广告进行重新排序。系统10输出重新排序的匹配列表作为最终匹配列表110。图3表示另一个示例性广告布置系统20,用于基于广告根据上下文的关联将一个或多个广告12关联到网页11。为了简化讨论,具有相同参考数字标记的单元代表之前讨论过的相同单元。在系统20,广告12的TSV和关键字语义表示被存储在数据库212内。对于每个广告,数据库212提供两个数据域,一个给TSV、一个给关键字语义表示。广告布置系统20进一步包括TSV和关键字索引器211,用于组织和管理TSV和关键字语义表示。TSV和关键字索引器211执行时可以应用全数据库管理系统(DBMS)或仅应用用于大规模数据记录管理的软件包,而数据库212可以与数据库一起被执行。可以应用不同的检索方案加速搜索。系统20包括术语抽取器102和112,TSV生成器103和113,关键字选择器106和115,全部具有相应于图2中先前描述的相同功能。对于每个广告,TSV和关键字联合器210将它的TSV和关键字语义表示合适地关联到该广告。类似地,对于网页11,TSV生成器103生成TSV以及关键字选择器106生成关键字语义表示。TSV和关键字联合器205将它的TSV和关键字语义表示关联或链接到网页11。关联到网页11和广告12的多个TSV和关键字语义表示的信息被TSV和关键字匹配器206处理,该关键字匹配器执行的功能相似于先前相对于图2讨论的那些TSV匹配器104和关键字匹配器107。可以以与相对于图2描述的那些类似的方法计算TSV和关键字语义表示的关联分数。如先前参照图2已讨论的,TSV和关键字匹配器206生成最终匹配列表213。在另一个实施例中,可以通过联合关键字语义表示和在相同向量空间的数据集的语义向量表示来计算每个广告或每个候选或目标数据集的联合关联分数。例如,关键字表示和广告的语义向量表示被视为在相同向量空间的向量,并且被联合形成该广告的信号联合语义向量表示。在计算该联合语义向量表示时,可以给语义向量表示和关键字语义表示配置不同的权重。对于每个广告,基于该广告的联合语义向量表示和目标数据集的联合语义向量表示计算关联分数。TSV和关键字匹配器206根据广告的各自联合关联分数生成最终匹配列表213。可以理解,基于关键字或TSV比较生成的匹配列表可以由其他已知方法进一步完善或重新排序。例如,可以根据在最终排序的网页之间的链接信息,利用算法重新排列排序列表中的数据集或网页,例如描述在美国专利号6285999、名称为“在链接数据库中节点排序的方法”的Google公司开发的页排序(PageRank)算法,其全部内容以引用方式被包含在文中。TSV的结构现在描述数据集的TSV的结构。美国专利号6751621和US专利申请序列号11/126184中描述了TSV的进一步细节,它们的内容已在前通过引用并入文中。在准备生成数据集的TSV时,应用语义字典查找相应于包含在数据集中的数据点的TSV。该语义字典包括多个已知数据点和多个预先确定目录之间的已知关系。换句话说,该语义字典包含相应字和短语的“定义”,例如,TSV。现在描述用TSV生成器生成数据集的TSV的示例性处理。该数据集可以是广告、网页、或任意类型的数据集。为了说明之目的,用“字”作为包括在文档中的关键字的例子。可以理解很多其它类型的数据点或关键字可以被包含在文档中,例如,字、短语、符号、术语、超链接、元数据信息、图形和/或任何显示或不显示的项或其任意组合。基于该文档的输入关键字,TSV生成器基于所述语义字典提供的定义,识别在语义字典中的相应关键字并且找回包含在文档中的每个关键字的各自TSV。TSV生成器103通过联合包含在文档内的关键字的各自TSV生成该文档的TSV。例如,可以定义该文档的TSV为包含在该文档内的所有关键字的各自TSV的向量附加。现在描述创建语义字典的处理。在一个实施例中,通过合适地确定多个已知数据集中的每一个所属的预先确定的一个或多个目录组生成所述语义字典。样本数据集可以属于多于一个的预先确定目录,或所述样本数据集可以被限制为关联到单个目录。例如,根据报道的内容以及根据预先确定的目录涉及一家电脑公司的关于专利侵权诉讼的新闻报道可以属于包括“知识产权法律”、“贸易争端”、“操作系统”、“经济问题”等的目录。一旦确定将样本数据集将被关联到某个预先确定的一个或多个目录时,包含在样本数据集的所有关键字被关联到相同的预先确定的目录。在所有样本数据集中执行相同的处理。在一个实施例中,可以通过分析开放目录工程(ODP)确定样本文档与目录之间的关系,开放目录工程由专家编辑人员分配成千上万个网页给丰富的主题分层结构。这些具有分配目录的样本网页被称为确定关键字与预先确定目录的关系的训练文档。对于本
技术领域
的技术人员来说,应该清楚可以以类似的方法应用其他在线分层结构、分类方案和本体将样本训练文档关联到目录。下面的步骤描述为了生成TSV语义字典之目的,ODP分层结构是怎样被变换的。1.下载ODP网页。保持每个网页与网页属于的ODP目录之间的关联。删除任何不正确下载的网页,并且传输URLS给内部路径名。2.可选地,下载被任意上述的ODP网页参考的所有网页,并且在每个新网页和源ODP网页属于的ODP目录之间创建关联。可选地,过滤网页仅保留那些与源ODP网页所起源的网页具有相同目录的新网页。删除任何不正确下载的网页,并且传输URLS给内部路径名。3.可选地删除不期待的目录。在处理之前,某些类型的ODP目录被删除。这些被删除的目录可以包括空目录(没有相应文档的目录)、字母栏目录(“以A、B开始...的电影标题”具有没用的语义区别),以及不包含用于识别语义内容(例如,空目录、以不期待的外国语言显示的地区性页)的有用信息的其他目录或包含错误引导或不正确信息(例如,成人内容页)的其他目录。4.删除不适于训练的页。在一个实施例中,仅具有至少最小数量内容的页被用来做训练。在另一个实施例中,训练页必须具有被转换文本的至少1000字节,和最大5000个分隔用空白字。5.可选地,删除任何不是以英文书写的页。这可以通过标准方法来做,例如HTML元标签、自动语言检测、过滤URL域名、过滤字符范围、或其它本领域技术人员熟悉的技术。6.可选地,删除重复。如果页出现在超过一个ODP目录中,那么页是被不明确地分类了以及可能不是好的训练候选。7.识别候选TSV的维。运行下面描述的压缩_修剪(collaps-trim)算法自动地使ODP分层结构变平并且识别候选TSV的维。8.可选地,调整TSV的维。基于那些维的预期的语义特性,检查自动生成的TSV的维和手动地压缩、分离、或者删除某些维。调整的类型可能包括,但是不局限于,如下所述。第一,如果某些字频繁地出现在源目录名,那么那些目录可以被压缩到它们的父节点(不是因为它们都讨论相同的事情就是因为它们在语义上是没有意义的)。第二,某些特殊的目录可以被压缩到它们的父节点(通常因为它们太特殊)。第三,在ODP分层结构内独立的某些目录组可以被合并在一起(例如,“艺术/杂志和E简报/E简报”可以被合并为“艺术/在线作品/E简报”)。9.创建TSV训练文件。对于每个潜在的训练页,将那页与页的目录所压缩至的TSV的维相关联。然后从将被用来训练那些维的每个TSV维中选择页,小心不要过度训练或采样过少。在一个实施例中,我们随机选择具有至少1000字节的转换文本的300页(如果少于300页,我们选择它们全部)。我们删除超过5000个分隔用空白字的任何页,并且我们为整个维保留最大200000个分隔用空白字,以最小页开始并且当累积字数达到200000时停止。10.可选地重新用标签标明维。每个维以与该维起源的ODP目录的本体路径相同的标签开始。在一个实施例中某些标签被手动调整来减小它们,使得它们更可读,并且确保它们反映被联合或被删除的不同子目录。例如,“顶部/购物/车辆/摩托车/零件和附件/哈利_戴维森”的源标签可以被写成“哈利戴维森,零件和附件”。在一个实施例中,压缩_修剪算法自下而上穿过ODP分层结构在每个目录节点寻找直接可用页的数量。如果在那个节点存储至少100页,那么我们保留那个节点作为TSV的维。否则我们将它压缩进父节点。在执行样本数据集对预先确定目录(维)的分配之后,创建数据表,以存储指示包含在一个或多个样本数据集中的关键字与基于该分配结果的预先确定目录之间关系的信息。数据表的每个入口建立关键字与预先确定目录之一之间的关系。例如,数据表的每个入口可以相应于在目录内样本数据集的数目,该样本数据集包含特殊关键字。当预先确定目录相应于语义空间的维时,关键字相应于样本数据集的内容。为了在构造可训练语义向量上的应用,可以用数据表生成语义字典,该语义字典包含对每个字、字段或在由预先确定目录形成的特殊语义空间内其他关键字的“定义”。图4表示用于构造语义字典的示例性数据表。为了简单和便于理解,图4中字的数目和预先确定目录的数目被减小到5,实际中,这些可以是成千上万个术语或预先确定目录。如图4所示,表200包含相应于预先确定目录Cat1,Cat2,Cat3,Cat4和Cat5的行410和表示字W1,W2,W3,W4和W5的列412。在表200里的每个入口414相应于文档数目,该文档具有出现在相应目录的特殊字,例如字W1,W2,W3,W4和W5的一个或多个。经过每个行410的整个列412的总数提供包含了行410所表示的字的文档总数,这些值表示在列416。参考图4,字W1在目录Cat2中出现20次,而在在目录Cat5中出现8次。字W1不出现在目录Cat1,Cat3和Cat4中。参考列416,字W1遍及所有目录总共出现28次。换句话说,28个被分类的文档包含字W1。对示例性列412的检查,例如Cat1,揭示字W2仅出现在目录Cat1I次,字W3在目录Cat1出现8次,和/或W5在目录Cat1出现2次。字W1根本未出现在目录1。参考行418,相应于目录Cat1的入口指示有11个文档被分类在目录Cat1。根据一个实施例,在创建数据表之后,数据表的每个入口的意义都被确定了。在某些情况下,可以考虑所述入口的意义为字在特别目录中出现的相对强度,或者字与特别目录的关联性。然后,这样的关系不应该被考虑为限制性的。每个入口的意义仅仅被限制到实际的数据集和目录(例如,特征,其被认为在表示和描述目录时是重要的)。根据本发明的一个实施例,基于遍及所有目录的字的统计行为确定了每个字的意义。这可以根据下面公式通过第一计算出现在每个目录的关键字的百分比u=概率(入口I目录)=(入口n,目录m)/目录mtotal接下来,遍及所有目录的关键字出现的概率分布根据下面公式计算ν=概率(目录I入口)=(入口,目录J/入口ntotal1!和ν都表示字与特别目录关联的强度。例如,如果字仅仅出现在一个目录的小数目的数据集中而不出现在任何其他的目录中,那么对于那个目录它将有高的V值和低的U值。如果入口不但出现在一个目录的大数目的数据集中也出现在几个其他的目录中,那么对于那个目录它将有高的U值和低的V值。依赖于被表示信息的数量和类型,可以执行附加的数据操作来提高每个字的确定意义。例如,每个目录的u值可以被关键字的所有值的总数标准化(例如,被整除),因此允许被阐释为概率分布。根据下面公式,可以应用U和ν的权重均值来确定关键字的意义α(V)+(I-Ct)U变量α是权重因子,其可以基于表示和分析的信息被确定。根据本发明的一个实施例,权重因子的值大概在0.75左右。可以根据各种因素选择其他的值,例如信息的类型和数量、或表示所述信息必要细节的级别。通过从实验收集的完整证据,发明人已经确定u和ν向量的权重均值可以比仅用U、或仅用V、或用u和ν不加权组合所达到的结果产生更好的效果。基于图4的数据,图5表示上面描述的操作处理。在图5中,表230存储指示每个字关于目录的相对强度的值。特别地,出现在每个目录中(例如,u)关键字的百分比是以每个字的向量形式存在。在u向量内每个入口的值根据下面公式被计算U=概率(字I目录)=(字η,目录J/目录m—t。tal表230也以每个字的向量形式呈现遍及所有目录的关键字出现的概率分布(例如,V)。在V向量内每个入口的值根据下面公式被计算V=概率(目录I入口)=(字n,目录J/字n—t。tal现在转向图6,显示了表250用于阐述语义表示或图4中字的“定义”。表250是5个TSV组合,该TSV相应于遍及语义空间的每个字的语义表示。例如,第一行相应于字W1的TSV。每个TSV具有相应于预先确定目录的维。额外地,根据本发明一个实施例,计算字W1,w2,W3,W4和W5WTSV,其中调整入口来最优化关于特别目录的字的意义。更特别地,用下面的公式计算该值α(V)+(I-Ct)U基于存储在表230的实际值计算每个TSV的入口。从而,表250显示的TSV相应于表示在图4中的示例性字W1,W2,W3,W4和W5的“定义”,示例性字W1,W2,W3,W4和W5对应于每个预先确定目录或向量维,预先确定目录或向量维为由预先确定目录形成的向量空间组合地组成语义字典。有时候希望在文档中布置广告,文档对被广告的产品的市场来说是本地的。这可以通过在广告中嵌入图形信息(例如,邮政区码、城市/国家名)或利用图形区域获取和关联用户的IP地址来完成。然而,不是所有的文档以适当的形式包含图形信息,不是所有的用户有相应于他们本地区域的IP地址。在这种情况下,在如上述语义字典形成期间,可以在预先确定目录中包括关联到图形区域的附加目录。每个图形区域变成语义空间内的维,并且标记有图形信息的样本数据集被用于创建该语义字典。可以用语义字典来产生数据集和广告的TSV,其反映了那些数据集和广告关联到不同的图形区域具有的强度。TSV的应用不仅限于一种语言。一旦合适的样本数据集是可以获得的,为不同的语言创建语义字典是可能的。例如,从开放目录工程的英语样本数据集在生成语义字典时可以用其他语言的适合的样本数据集来取代。对每种语言可以有独立的语义字典。可选地,用于所有语言的关键字可以归在单个共同字典中。不同的语言可以分享相同的预先确定目录或语义维,或者可以有完全不同的预先确定目录或语义维,根据它们是否分享相同语义字典和是否被期望比较跨语言的语义向量。在创建语义字典之后,TSV生成器103可以获取到语义字典以找到包含在目标文档的关键字的相应TSV。在一个实施例中,联合包含在目标文档的关键字的TSV来生成目标文档的TSV。联合TSV的方式取决于具体的实现。例如,可以用向量附加操作联合TSV。在这种情况下,用于文档的TSV可以由下式表示TSV(文档)=TSV(Wl)+TSV(W2)+TSV(W3)···+TSV(WN)这里W1、W2、W3...WN是包含在文档里的字。数据集的TSV的生成可以利用包含数据集关键字的多种类型的信息、基于包含在广告和数据集的关键字所取回的信息和分配给数据集的附加信息。例如,可以基于如下执行广告的TSV的生成包含但不局限于在广告中显示的字,关联到每个广告的一组关键字,广告标题,广告简要描述,描述正在被广告的物件或其正被售出至的观众的与广告关联的行销文字,可以被广告参考的网站信息。可以基于如下执行网页的TSV的生成基于包含但不局限于,出现在网页上的一些或所有的实际文本,与网页关联的元文本域,例如,标题、关键字、和描述、从其他网页链接到的或由该网页链接到的文本等。为了加快操作速度,当修改、增加、或删除广告时,广告的TSV可以离线生成和升级。但可选地TSV也可以在广告布置的时间生成。类似地,网页或其他数据集的TSV也可以离线生成或在运行中生成。根据一个实施例,这里公开的示例性系统基于背景文章的最终匹配列表,分析数据集的各部分,例如网页或显示的文档,以及自动将每部分的一个或多个描述链接到一组背景文章,例如来自Wikipedia(http://www.wikipedia.com)的百科全书文章。对于本
技术领域
的技术人员来说,可以理解这里公开的方法和系统可以应用到各种目的,例如,将一个或多个广告关联到一个或多个网页或文档,或反之亦然;基于用户搜索问题取回的相关联的文档;找到用于数据集的不同部分的背景信息及等同项。也可以理解这里用的数据集可以仅包括单一类型的数据集,例如网页或文档,或不同类型数据集的组合,例如电子邮件和网页,文档和广播数据的组合。根据本发明的另一个实施例,利用所谓“标签钥匙”的改进表示来代表和索引数据集,例如广告12和网页11。标签钥匙将关联关键字至数据集,该关键字包括在具有一个或多个数据集可用的特殊语义目录的所述数据集中。例如,术语“bank”可以表示多种不同的意思,但当它标记在例如财政机构的语义目录中时,"bank"将不再与标记为例如地质结构的语义目录相匹配。当分析数据集,例如网页11或广告12,如先前相对于图3所讨论的,关键字选择器115或106从每个广告或网页11选择候选关键字,该候选关键字被认为代表网页或广告。在一个实施例中,可以基于每个关键字在特别的数据集或文档中出现的频率来选择候选关键字。根据本发明的示例性的系统,为关联预先确定语义目录的信息和其与候选关键字的关系,获取语义字典。例如,具有N个候选关键字和M个预先确定目录的数据集,有MxN个关键字和目录(可能为标签钥匙)对可以使用。可以使用过滤器来删除与关键字关联较小的目录。可以利用指定最小关联要求的阈值来识别足以关联到关键字的目录。一种为关键字选择目录的示例性方法是仅仅在上述讨论的语义字典中查找,其包括用于给定的语义目录的特定术语的选择强度的信息。在一个实施例中,用于关键字的最强选择的目录或目录组将是标签的主要候选。例如,假设文档包含两个关键字Kl和K2。然后将在语义字典查询Kl和K2来看哪个目录关联哪个关键字,如果有的话。如果关键字关联至超过一个目录,例如目录C1、C2、C3和C4,那么有几种选择(1)选择与关键字关联最强的目录;(2)选择超出最小阈值之上的关联的所有目录;(3)不管关联的强度选择所有的目录。这样的结果将是用于代表数据集的成对的目录和关键字、标签钥匙的列表,例如K1+C1、K1+C2、和K2+C4等。每个标签钥匙可被视为相应于关键字的语义向量,并且候选关键字的语义向量可以被联合,例如向量附加,以形成该数据集的语义向量表示。可以以类似于本发明已描述的那些方式使用该语义向量表不。图7是表示计算机系统100的方框图,在该系统上可以执行本发明的示例性系统。计算机系统100包括总线702或用于信息通信的其他通信装置,和与总线702连接的处理器704,用于处理信息。计算机系统100也包括连接到总线702的用于存储信息和被处理器704执行的指令的主存储器706,例如随机存取存储器(RAM)或其他动态存储装置。在处理器704执行指令期间,也可以用主存储器706来存储临时变量或其他中间信息。计算机系统100进一步包括只读存储器(ROM)708,或其他连接到总线702的用于存储静态信息和处理器704的指令的静态存储装置。提供连接到总线的用于存储信息和指令的存储装置710,例如磁盘或光盘。计算机系统100可以经由总线702连接到显示器712,例如阴极射线管(CRT),该显示器用于向计算机用户显示信息。输入装置714,包括字母与数字符号构成的键和其他的键,连接到总线702,用于信息通信和向处理器704命令选择。另一种类型的用户输入装置是光标控制716,例如鼠标、轨迹球、或光标方向键,用于方向信息通信和向处理器704命令选择以及用于控制光标在显示器712上的移动。这种输入装置典型地在两个轴上有两个自由度,第一轴(例如χ)和第二轴(例如y),允许该装置具体指定平面上的位置。根据本发明的一个实施例,计算机系统100响应处理器704执行的一个或多个指令的一个或多个序列,提供TSV的结构和语义的操作,该指令包含在主存储器706或存储装置710内、或从网络链120接收得到。这些指令可以被从例如存储装置710的另外计算机可读介质读入主存储器706。包含在主存储器706内的指令序列的执行导致处理器704执行此处描述的处理步骤。也可以应用一个或多个处理器以多处理布置方式执行包含在主存储器706内的指令序列。在一个可选的实施例中,可以使用硬连接电路取代或结合软件指令以实现本发明。因此,本发明的实施例不局限于硬件电路和软件的任何具体结合。如此处使用的术语“计算机可读介质”是指任何参与给处理器704提供指令以执行的介质。这样的介质可以有多种形式,包括但不仅限于,非易失性介质、易失性介质、和传输介质。例如,非易失性介质包括光盘或磁盘,如存储装置710。易失性介质包括动态存储器,如主存储器706。传输介质包括同轴电缆、铜线和光纤,包括组成总线702的线。计算机可读介质的普通形式包括,例如,软盘、柔性盘、硬盘、磁带、任何其他的磁介质、CD-ROM、DVD、任何其他的光学介质、穿孔卡片、纸带、任何其他带有洞图案的物理介质、RAM、PROM、和EPROM、FLASH-EPROM,任何其他存储芯片或卡带、或任何其他计算机可读的介质。各种形式的计算机可读介质可以涉及传送一个或多个指令的一个或多个序列至处理器704以执行。例如,指令最初可以形成于远程计算机的磁盘。远程计算机可以加载指令到它的动态存储器和使用调制解调器在电话线上发送指令。计算机系统100的本地调制解调器可以在电话线上接收数据并且用红外转换器将数据转换为红外信号。连接到总线702的红外探测器可以接收红外信号携带的数据并且将数据放置在总线702上。总线702将数据传送到主存储器706,处理器704从主存储器706取回并执行指令。主存储器706接收到的指令可选地可以在处理器704执行之前或之后被存储在存储装置710。计算机系统100也包括连接到总线702的通信接口718。通信接口718提供两路数据通信,其耦接到连接至局域网722的网络链接120。例如,通信接口718可以是综合业务数字网(ISDN)卡或者提供连接到相应类型电话线的数据通信的调制解调器。如另一个例子,通信接口718可以是本地局域网(LAN)卡,以提供连接到兼容LAN的数据通信。也可以执行无线链接。在任何其他实施中,通信接口718发送和接收电子的、电磁的或光学的信号,该信号携带表示各种类型信息的数字数据流。网络链接120典型地通过一个或多个网络向其他数据装置提供数据通信。例如,网络链接120可以通过局域网722向主计算机724或向由服务提供商(ISP)726操作的数据设备提供连接。ISP726反过来通过全球封装数据通信网,现在通常指“因特网”728,提供数据通信服务。本地局域网722和因特网728都使用携带数字数据流的电子的、电磁的或光学的信号。通过各种网络的信号和在网络链接120上的信号及通过通信接口718的信号,是传输信息的携带波的示例性形式,所述信号传输数字数据至计算机系统100和从计算机系统100发送出数字数据。计算机系统100可以通过网络、网络链接120、和通信接口718发送消息和接收数据,包括程序代码。在因特网例子中,服务器130可能通过因特网728、ISP726、局域网722和通信接口718为应用程序传送请求的代码。依照本发明,一个这样的下载应用提供创建TSV以及执行如此处描述的各种语义操作。处理器704可以执行下述代码该处理器接收的代码,和/或被存储在存储装置710的代码、或存储在其他非易失性存储器用于后续执行的代码。以这样的方式,计算机系统100可以以携载波的形式获得应用代码。为了提供对本发明彻底的理解,在前面的描述中,提出了具体数量化的细节,例如,材料、结构、处理等。然而,正如本
技术领域
的技术人员认识的,本发明不需要按照特别提出的细节可以被实践。在另一个例子中,为了不会不必要地混淆本发明,已经详细地描述了公知的处理结构。本发明仅显示和描述了本发明示例性的实施例和它们多功能的例子。可以理解,本发明可以应用在其他组合和环境并且能够在本
发明内容的范围内如此处解释地进行改变和修改。权利要求一种机器执行方法,用于控制数据处理系统以便将一组数据集的至少一个数据集关联到主题数据集,其中每个数据集或所述主题数据集包括至少一个关键字,该方法包括以下机器执行的步骤获取代表所述主题数据集的语义向量和代表所述组中每个单独数据集的各个语义向量,其中代表所述组中的每个单独数据集的每个语义向量包括在所述单独数据集的所述至少一个关键字的每一个与预先确定目录之间的关系的集合信息,所述单独数据集的所述至少一个关键字的每一个都可能关联到所述目录;代表所述主题数据集的所述语义向量包括集合信息,该集合信息具有所述主题数据集的所述至少一个关键字的每一个与预先确定目录之间的关系,所述主题数据集的所述至少一个关键字的每一个都可能关联到的所述目录,以及代表所述主题数据集或所述组中每个单独数据集的所述语义向量具有与预先确定目录的数目相等的维;对于所述组中的每个数据集,通过将与所述主题数据集关联的所述语义向量和与所述组中的每个数据集关联的所述语义向量进行比较,来确定所述主题数据集与所述组中的每个数据集之间的第一相似性;获取所述主题数据集的关键字语义表示和所述组中的每个单独数据集的关键字语义表示,其中所述主题数据集的关键字语义表示或所述组中的每个单独数据集的关键字语义表示包括指示所述主题数据集或所述组中单独数据集的有代表性关键字的信息,以及所述主题数据集的所述关键字语义表示或所述组中的每个单独数据集的所述关键字语义表示以一种不同于所述主题数据集的所述语义向量或所述组中的每个单独数据集的所述语义向量的方式构成;对于所述组中的每个数据集,通过将所述主题数据集的关键字语义表示和所述组中的每个数据集的关键字语义表示进行比较,来确定所述主题数据集与所述组中的每个数据集之间的第二相似性;以及根据所述主题数据集与所述组中的每个数据集之间的所述第一相似性和所述主题数据集与所述组中的每个数据集之间的所述第二相似性,选择所述组中的所述数据集的至少一个数据集;以及将所述至少一个被选择的数据集关联到所述主题数据集。2.根据权利要求1所述的方法,其中在所述组中的所述数据集的至少一个数据集是广告,并且所述主题数据集是文档、网页、电子邮件、RSS新闻消息源、数据流、广播数据或与用户相关的信息;或一个或多个文档、网页、电子邮件、RSS新闻消息源、数据流、广播数据或与用户相关的信息的一部分或其组合。3.根据权利要求1所述的方法,其中所述主题数据集是文档、网页、电子邮件、RSS新闻消息源、数据流、广播数据或与用户相关的信息的一部分。4.根据权利要求1所述的方法进一步包括如下步骤传送所述至少一个被选数据集或与所述被选数据集关联的文件以及所述主题数据集或与所述主题数据集关联的文件给用户。5.根据权利要求4所述的方法,其中所述至少一个被选数据集通过显示所述至少一个被选数据集、播放根据所述至少一个被选数据集的语音信号或提供所述至少一个被选数据集的链接而被传送给用户。6.根据权利要求1所述的方法,其中所述至少一个关键字包括字、短语、字符串、预分配关键字、子数据集、元信息和基于包含在所述单独数据集中的链接取回的信息中的至少一个。7.根据权利要求1所述的方法,其中每个数据集的所述语义向量被预先计算并且被包含在所述单独数据集中。8.根据权利要求1所述的方法,所述语义向量是动态生成的。9.根据权利要求1所述的方法,其中,代表所述组中的每个单独数据集的所述语义向量是基于所述组中的每个单独数据集的至少一个关键字和已知关键字与预先确定目录之间的已知关系构成的,所述已知关键字可能关联到的所述目录,以及,代表主题数据集的所述语义向量是基于所述主题数据集的至少一个关键字和已知关键字与预先确定目录之间的所述已知关系构成的,所述已知关键字可能关联到的所述目录。10.根据权利要求1所述的方法,其中,与所述单独数据集关联的所述语义向量是进一步基于与至少一个用户相关的信息或链接到所述单独数据集的至少一个数据集生成的。11.根据权利要求10所述的方法,其中,与所述至少一个用户相关联的所述信息包括之前浏览过的文档、之前搜索请求、用户优先选择和个人信息中的至少一个。12.根据权利要求1所述的方法,其中根据所述主题数据集与所述组中的每个数据集之间的所述第一相似性、所述主题数据集与所述组中的每个数据集之间的所述第二相似性,来选择所述组中的所述数据集的至少一个数据集的步骤,包括指定所述第一相似性和所述第二相似性中的一个作为主要相似性、而另一个作为次要相似性,获取所述主要相似性的多个预置关联级别的信息;对于所述组中的每个数据集,根据所述主要相似性映射所述主要相似性到所述预置关联级别的其中一个;根据所述组中的所述数据集各自映射的预置关联级别,对所述组中的所述数据集进行排序;在每个关联级别里,根据所述数据集的所述次要相似性对每个关联级别里的所述数据集进行排序;以及根据在每个关联级别里所述数据集排序的结果选择所述组中的所述数据集的至少一个数据集。13.根据权利要求1所述的方法,其中根据所述主题数据集与所述组中的每个数据集之间的第一相似性、以及根据所述主题数据集与所述组中的每个数据集之间的第二相似性,来选择所述数据集的至少一个数据集的步骤,包括指定第一相似性和第二相似性中的一个作为主要相似性、而另一个作为次要相似性;根据所述主要相似性对所述组中的所述数据集进行排序;根据预置标准从所述排序后的数据集中选择至少一个候选数据集;根据所述次要相似性对所述至少一个候选数据集进行排序;根据所述至少一个候选数据集排序的结果选择所述组中的所述数据集的所述至少一个数据集。14.根据权利要求1所述的方法,其中根据所述主题数据集与所述组中的每个数据集之间的第一相似性、以及根据所述主题数据集与所述组中的每个数据集之间的第二相似性来选择所述数据集的至少一个数据集的步骤,包括对于所述组中的每个数据集,根据预置公式基于所述数据集的各自第一相似性和所述数据集的各自第二相似性计算复合相似性;基于预置标准根据所述数据集的各自复合相似性选择所述组中的所述数据集的所述至少一个数据集。15.根据权利要求1所述的方法,进一步包括与所述主题数据集一起同时提供所述数据集的所述至少一个数据集给用户。16.根据权利要求1所述的方法,进一步包括在向用户提供所述主题数据集之后,提供所述数据集的所述至少一个数据集给用户。17.根据权利要求1所述的方法,其中,所述数据集的所述至少一个数据集或所述主题数据集被以音频形式、可视形式、视频形式、触觉形式或其任意组合的形式提供给用户。18.一种数据处理系统,用于将一组数据集的至少一个数据集关联到主题数据集,其中每个数据集或所述主题数据集包含至少一个关键字,该系统包括配置用来处理数据的数据处理器;和配置用来存储指令的数据存储器系统,由所述数据处理器执行的所述指令,该系统控制所述数据处理器执行如下步骤获取代表所述主题数据集的语义向量和代表所述组中每个单独数据集的各个语义向量,其中代表所述组中的每个单独数据集的每个语义向量包括集合信息,该集合信息具有所述单独数据集中的所述至少一个关键字的每一个与预先确定目录之间的关系,所述单独数据集的所述至少一个关键字的每一个可能关联到的所述目录;代表所述主题数据集的所述语义向量包括集合信息,该集合信息具有所述主题数据集的所述至少一个关键字的每一个与预先确定目录之间的关系,所述主题数据集的所述至少一个关键字的每一个可能关联到所述目录,以及代表所述主题数据集或在所述组中的所述每个单独数据集的语义向量具有与预先确定目录的数目相等的维;对于所述组中的每个数据集,通过将与所述主题数据集关联的所述语义向量和与所述组中的每个数据集关联的所述语义向量进行比较,来确定所述主题数据集与所述组中的每个数据集之间的第一相似性;获取所述主题数据集的关键字语义表示和所述组中的每个单独数据集的关键字语义表示,其中所述主题数据集的关键字语义表示或所述组中的每个单独数据集的关键字语义表示包括指示所述主题数据集或所述组中的所述单独数据集的有代表性关键字的信息,以及所述主题数据集的所述关键字语义表示或所述组中的每个单独数据集的所述关键字语义表示以一种不同于所述主题数据集的所述语义向量或所述组中的每个单独数据集的所述语义向量的方式构成;对于所述组中的每个数据集,通过将所述主题数据集的关键字语义表示和所述组中的每个数据集的关键字语义表示进行比较,来确定所述主题数据集与所述组中的每个数据集之间的第二相似性;以及根据所述主题数据集与所述组中的每个数据集之间的所述第一相似性和所述主题数据集与所述组中的每个数据集之间的所述第二相似性,选择所述组中的所述数据集的至少一个数据集;以及将所述至少一个被选择的数据集关联到所述主题数据集。19.一种携带指令的机器可读介质,数据处理系统执行所述指令,该机器可读介质控制所述数据处理系统执行机器实现的步骤,以将一组数据集的至少一个数据集关联到主题数据集,其中每个数据集或所述主题数据集包含至少一个关键字,所述步骤包括获取代表所述主题数据集的语义向量和代表所述组中每个单独数据集的各个语义向量,其中代表所述组中的每个单独数据集的每个语义向量包括集合信息,该集合信息具有所述单独数据集的所述至少一个关键字的每一个与预先确定目录之间的关系,所述单独数据集的所述至少一个关键字的每一个可能关联到的所述预先确定目录;代表所述主题数据集的所述语义向量包括集合信息,该集合信息具有所述主题数据集的所述至少一个关键字的每一个与预先确定目录之间的关系,所述主题数据集的所述至少一个关键字的每一个可能关联到所述目录,以及代表所述主题数据集或所述组中的每个单独数据集的语义向量具有与预先确定目录的数目相等的维;对于所述组中的每个数据集,通过将与所述主题数据集关联的所述语义向量和与所述组中的每个数据集关联的所述语义向量进行比较,来确定所述主题数据集与所述组中的每个数据集之间的第一相似性;获取所述主题数据集的关键字语义表示和所述组中的每个单独数据集的关键字语义表示,其中所述主题数据集的关键字语义表示或所述组中的每个单独数据集的关键字语义表示包括指示所述主题数据集或所述组中的所述单独数据集的有代表性关键字的信息,以及所述主题数据集的所述关键字语义表示或所述组中的每个单独数据集的所述关键字语义表示以一种不同于所述主题数据集的所述语义向量或所述组中的每个单独数据集的所述语义向量的方式构成;对于所述组中的每个数据集,通过将所述主题数据集的关键字语义表示和所述组中的每个数据集的关键字语义表示进行比较,来确定所述主题数据集与所述组中的每个数据集之间的第二相似性;以及根据所述主题数据集与所述组中的每个数据集之间的所述第一相似性和所述主题数据集与所述组中的每个数据集之间的所述第二相似性,选择所述组中的所述数据集的至少一个数据集;以及将所述至少一个被选择的数据集关联到所述主题数据集。20.一种机器执行方法,用于控制数据处理系统以便将一组数据集的至少一个数据集关联到主题数据集,其中每个数据集或所述主题数据集包括至少一个关键字,该方法包括以下机器执行的步骤获取代表所述主题数据集的语义向量和代表所述组中每个单独数据集的各个语义向量,其中代表所述组中的每个单独数据集的每个语义向量包括集合信息,该集合信息具有所述单独数据集的所述至少一个关键字的每一个与预先确定目录之间的关系,所述单独数据集的所述至少一个关键字的每一个可能关联到所述目录,代表所述主题数据集的所述语义向量包括集合信息,该集合信息具有所述主题数据集的所述至少一个关键字的每一个与预先确定目录之间的关系,所述主题数据集的所述至少一个关键字的每一个可能关联到所述目录,以及代表所述主题数据集或所述组中每个单独数据集的语义向量具有与预先确定目录的数目相等的维;获取所述主题数据集的关键字语义表示和所述组中的每个单独数据集的关键字语义表示,其中所述主题数据集的关键字语义表示或所述组中的每个单独数据集的关键字语义表示包括指示所述主题数据集或所述组中的所述单独数据集的有代表性关键字的信息,以及所述主题数据集的所述关键字语义表示或所述组中的每个单独数据集的所述关键字语义表示以一种不同于所述主题数据集的所述语义向量或所述组中的每个单独数据集的所述语义向量的方式构成;对于每个数据集,根据关联到每个数据集所述语义向量和每个数据集的所述关键字语义表示,生成所述数据集的联合向量表示;对于所述主题数据集,根据关联到所述主题数据集的所述语义向量和所述主题数据集的所述关键字语义表示,生成所述主题数据集的联合向量表示;通过比较所述主题数据集的所述联合向量表示和所述组中的每个数据集的所述联合向量表示,确定所述主题数据集与所述组中的每个数据集之间的相似性;以及根据所述确定的相似性,选择所述组中的所述数据集的至少一个数据集;以及关联所述组中的所述数据集的至少一个被选择的数据集到所述主题数据集。21.一种携带指令的机器可读介质,由数据处理系统执行所述指令,该机器可读介质控制所述数据处理系统。执行机器实现的步骤,以将一组数据集中的至少一个数据集关联到主题数据集,其中每个数据集或所述主题数据集包含至少一个关键字,所述步骤包括获取代表所述主题数据集的语义向量和代表所述组中每个单独数据集的各个语义向量,其中代表所述组中的每个单独数据集的每个语义向量包括集合信息,该集合信息具有所述单独数据集的所述至少一个关键字的每一个与预先确定目录之间的关系,所述单独数据集的所述至少一个关键字的每一个可能关联到所述目录,代表所述主题数据集的所述语义向量包括集合信息,该集合信息具有所述主题数据集的所述至少一个关键字的每一个与预先确定目录之间的关系,所述主题数据集的所述至少一个关键字的每一个可能关联到所述目录,以及代表所述主题数据集或所述组中的所述每个单独数据集的语义向量具有与预先确定目录的数目相等的维;获取所述主题数据集的关键字语义表示和所述组中的每个单独数据集的关键字语义表示,其中所述主题数据集的关键字语义表示或所述组中的每个单独数据集的关键字语义表示包括指示所述主题数据集或所述组中的所述单独数据集的有代表性关键字的信息,以及所述主题数据集的所述关键字语义表示或所述组中的每个单独数据集的所述关键字语义表示以一种不同于所述主题数据集的所述语义向量或所述组中的每个单独数据集的所述语义向量的方式构成;对于每个数据集,根据关联到每个数据集的所述语义向量和每个数据集的所述关键字语义表示,生成所述数据集的联合向量表示;对于所述主题数据集,根据关联到所述主题数据集的所述语义向量和所述主题数据集的所述关键字语义表示,生成所述主题数据集的联合向量表示;通过比较所述主题数据集的所述联合向量表示和所述组中的每个数据集的所述联合向量表示,确定所述主题数据集与所述组中的每个数据集之间的相似性;以及根据所述确定的相似性,选择所述组中的所述数据集的至少一个数据集;以及关联所述组中的所述数据集的至少一个被选择的数据集到所述主题数据集。22.一种机器执行方法,用于控制数据处理系统以便将一组数据集的至少一个数据集关联到主题数据集,其中每个数据集或所述主题数据集包括至少一个关键字,该方法包括以下机器执行的步骤获取代表所述主题数据集的标签关键表示和代表所述组中的每个单独数据集的各个标签关键表示,其中代表所述组中的每个单独数据集的每个所述标签关键表示集合信息,该集合信息包括每个单独数据集的有代表性关键字中的每一个与预先确定目录之间的关系,所述每个单独数据集的有代表性关键字的每一个关联到所述目录;代表所述主题数据集的所述标签关键表示包括集合信息,该集合信息具有所述主题数据集的有代表性关键字的每一个与预先确定目录之间的关系,所述主题数据集的有代表性关键字的每一个可能关联到所述目录,对于所述组中的每个数据集,通过将与所述主题数据集关联的所述标签关键表示和与所述组中的每个数据集关联的所述标签关键表示进行比较,来确定所述主题数据集与所述组中的每个数据集之间的相似性等级;根据所述主题数据集与所述组中的每个数据集之间的确定的相似性等级,选择所述组中的所述数据集的至少一个数据集;以及关联所述组中的所述数据集的至少一个被选择的数据集到所述主题数据集。23.一种携带指令的机器可读介质,由所述数据处理系统执行所述指令,机器可读介质控制所述数据处理系统执行机器实现的步骤,以将一组数据集的至少一个数据集关联到主题数据集,其中每个数据集或所述主题数据集包含至少一个关键字,所述步骤包括获取代表所述主题数据集的标签关键表示和代表所述组中的每个单独数据集的各个标签关键表示,其中代表所述组中的每个单独数据集的每个所述标签关键表示包括集合信息,该集合信息具有每个单独数据集的有代表性关键字的每一个与预先确定目录之间的关系,所述每个单独数据集的有代表性关键字的每一个关联所述目录;代表所述主题数据集的所述标签关键表示包括集合信息,该集合信息具有所述主题数据集的有代表性关键字的每一个与预先确定目录之间的关系,所述主题数据集的有代表性关键字的每一个可能关联到所述目录,对于所述组中的每个数据集,通过将与所述主题数据集关联的所述标签关键表示和与所述组中的每个数据集关联的所述标签关键表示进行比较,来确定所述主题数据集与所述组中的每个数据集之间的相似性等级;根据所述主题数据集与所述组中的每个数据集之间确定的相似性等级,选择所述组中的所述数据集的至少一个数据集;以及关联所述组中的所述数据集的至少一个被选择的数据集到所述主题数据集。24.一种机器执行方法,用于控制数据处理系统以生成包含至少一个关键字的数据集的标签关键表示,该方法包括从至少一个关键字识别有代表性的关键字,用于代表所述数据集;获取数据,该数据识别每个已知关键字与预先确定目录之间的已知关系的;通过参考所述获取到的数据,确定每个有代表性关键字与所述预先确定目录之间的关系;根据每个有代表性关键字与所述预先确定目录之间的关系,创建所述数据集的标签关键表示;以及使用所述创建的标签关键表示代表所述数据集。25.一种携带指令的机器可读介质,由数据处理系统执行所述指令,该机器可读介质控制所述数据处理系统执行机器实现的步骤,以将一组数据集的至少一个数据集关联到主题数据集,其中每个数据集或所述主题数据集包含至少一个关键字,所述步骤包括从至少一个关键字识别有代表性的关键字,用于代表所述数据集;获取数据,该数据识别每个已知关键字与预先确定目录之间的已知关系;通过参考所述获取到的数据确定每个有代表性关键字与所述预先确定目录之间的关系;根据每个有代表性关键字与所述预先确定目录之间的关系,创建所述数据集的标签关键表示;以及使用所述创建的标签关键表示代表所述数据集。全文摘要本发明公开了一种基于分析专有语义向量和语义表示来识别一个或多个数据集的系统和方法,该数据集,如广告,根据上下文关联到主题数据集,如用户正在浏览的网页;该专有语义向量,如可训练语义向量(TSV),代表网页和广告,该语义表示包括所述广告和所述网页的有代表性关键字的信息。文档编号G06F7/00GK101802776SQ200880001312公开日2010年8月11日申请日期2008年7月29日优先权日2008年7月29日发明者克里特普瑞特斯·马,咖贝尔·斯汀伯格,安德鲁劳伦斯·法瑞斯,文圆,杰拉德弗朗斯·荷利三世申请人:特克斯特怀茨有限责任公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1