从横向概念和主题进行语义广告选择的制作方法

文档序号:6359564阅读:162来源:国知局
专利名称:从横向概念和主题进行语义广告选择的制作方法
从横向概念和主题进行语义广告选择
背景技术
在线广告已经成为网络浏览体验的重要方面。当前多个广告传递系统运行以选择并传递内容关联广告(contextual advertisement),以便放置在例如网页和搜索结果页面上。在网页的场景中,广告传递系统运行以分析网页的文本来识别关键词,该关键词被用于选择放置在网页上的广告。在搜索的场景中,当用户提交搜索查询给搜索引擎时,基于搜索查询的词语和/或基于搜索结果的内容来识别关键词。该关键词被用于选择与用户查询的普通搜索结果一起被呈现的广告。典型地,广告传递系统提供商基于按效果付费(pay-per-performance)模式(例如,按点击付费cost-per-click或者按行动付费cost-per_action模式)从广告者处得到支付。在这样的模式中,与针对特定搜索查询的搜索结果一起返回的广告包括至包含广告者的内容的着陆页的链接。当用户点击广告者的广告以访问着陆页和/或在访问着陆页之后以别的方式执行一些动作(例如购买广告者的产品)时,搜索引擎提供商从广告者处得到 支付。在按效果付费模式中,广告传递系统基于货币化(monetization)选择用于网页和搜索查询的广告。换句话说,广告被选择以最大化广告收入。这通常是通过竞价过程而执行的。作为针对特定网页或搜索查询选择广告和确定广告将要被显示的顺序的一种方式,广告者为特定词和/或短语出价。出价通常作为按点击付费的承诺。即,广告者出价其愿意支付的用户每次选择或点击被显示的广告(其作为网页或特定搜索查询的结果的一部分而被选择和呈现)的美元数额。在一些情况中,一些网页和搜索查询的分析可能只识别出没有被广告者出价的关键词,或者可能只产生极少的被广告者出价的关键词。结果,只有极少的或者没有广告被选择而在这些网页上或与这些搜索查询的搜索结果一起呈现。

发明内容
该发明内容被提供以按照简化的方式引入概念的选择,其将在下面的具体实施方式
中被进一步描述。该发明内容不意图标识请求保护的主题的关键特征或必要特征,也不意图被用作辅助确定请求保护的主题的保护范围。本发明的实施方式涉及使用针对搜索查询和网页识别出的横向概念(LATERALCONCEPT)和主题作为短语,以便选择在搜索结果页面和网页上呈现的广告。在搜索的场景中,当接收到搜索查询时,针对该搜索查询识别出横向概念和主题。该横向概念和主题被用作用于广告选择的短语。所选择的广告在搜索结果页面上与响应于搜索查询的搜索结果一起被提供。在网页的场景中,当接收到网页的指示时,针对网页识别出横向概念和主题。该横向概念和主题被用作用于广告选择的短语。所选择的广告被提供在网页上。


下面参照附图详细地描述本发明,其中图I是适于在实现本发明实施方式中使用的示例性计算环境的框 图2是根据本发明的实施方式用于传递广告的示例性系统的框 图3是根据本发明的实施方式的示例性横向概念生成器的框 图4是根据本发明的实施方式的示例性语义主题引擎的框 图5是示出根据本发明的实施方式用于选择广告的整个方法的流程 图6是示出根据本发明的实施方式用于生成在选择广告中使用的横向概念的方法的流程 图7是示出根据本发明的实施方式用于生成在选择广告中使用的横向概念的另一个 方法的流程 图8是示出根据本发明的实施方式用于识别在选择广告中使用的主题的方法的流程
图9是示出根据本发明的实施方式用于命名部分主题的方法的流程 图10是示出根据本发明的实施方式用于计算独立关键短语的方法的流程 图11A-11C包括示出根据本发明的实施方式用于确定在选择广告中使用的搜索查询的主题的方法的流程 图12是图示性的屏幕显示,其示出根据本发明的实施方式选择的具有广告的搜索结果页面;
图13是图示性的屏幕显示,其示出根据本发明的实施方式选择的具有广告的网页。
具体实施例方式此处具体性地描述本发明的主题以满足法定的要求。然而,描述本身并不意图限制该专利的范围。而是,发明人已经考虑到请求保护的主题也可能以其它方式体现以与其它现有或将来的技术相结合地包括与该文件中所描述的步骤类似的不同步骤或步骤的组合。而且,虽然词语“步骤”和/或“框”在此处可被使用以意味着所使用的方法的不同元素,但是该词语不应当被解释为暗示了在此处公开多个步骤中或步骤之间的任何特定次序,除非各步骤的次序被明确地描述。本发明实施方式一般地指向基于针对搜索查询和网页识别的横向概念和主题而识别用于广告选择的短语。在搜索的场景中,当接收到搜索查询时,针对搜索查询识别横向概念和主题,其被用作选择置于响应于搜索查询的搜索结果页面上的广告的短语。在网页的场景中,当接收到网页的标识时,针对网页识别横向概念和主题,其被用作选择置于网页上的广告的短语。如此处使用的,词语“横向概念”指的是表示搜索查询或网页的正交主题(orthogonal topic)的词或短语。横向概念提供与接收到的搜索查询(和/或相应于搜索查询的内容)或者与将在其上放置广告的所标识的网页正交的概念。在一些实施方式中,横向概念可以被存储在指针指向一个或多个搜索查询和/或网页的索引中。因此,响应于在搜索引擎处接收到的随后的搜索查询一类似于先前的查询一或者响应于网页请求,存储的横向概念可以被识别。在一些针对搜索查询确定横向概念的实施方式中,响应于搜索查询提供的搜索结果页面还包括所识别的横向概念的指示。横向概念允许用户导航具有结构化数据、半结构化数据和非结构化数据的大的内容集合。计算机系统通过处理与用户提供的搜索查询相匹配的内容集合并选择内容的类别而生成横向概念。横向概念包括所选择的类别的子集。横向概念与匹配搜索查询的搜索结果一起呈现给用户。横向概念允许搜索引擎提供与搜索查询或者相应于搜索查询的内容正交的概念。然后,用户可以选择横向概念之一以在结构化、非结构化和半结构化数据的组合中搜索对应于所选择的横向概念的内容。例如,搜索引擎可从用户接收针对西雅图太空针(Seattle Space Needle)的搜索查询。搜索引擎处理该查询以识别横向概念和搜索结果。横向概念可以从与针对西雅图太空针的内容一起存储的元数据结构中选择,和/或横向概念可以从通过解析与搜索查询关联的搜索结果而生成的特征向量中选择。存储结构可以包括元数据,例如针对西雅图太空针的内容属性。西雅图太空针内容属性可以包括高楼属性、西雅图吸引力属性和结构属性。高楼属性可以包括指定西雅图太空针和其它高楼(诸如台北101、帝国大厦、Burj和上海环球金融中心)的名称和高度的数据。西雅图吸引力属性可以包括西雅图其它风光(诸如西雅图太空针、派克市场、西雅图美术馆和国会山)的名称和位置的数据。结构属性可以包括在高楼属性中所包括的针对每 个高楼的建筑类型(现代、古老等)的数据。任意西雅图太空针内容属性都可以作为横向概念由搜索引擎返回。可选择地,搜索结果可以由计算机系统处理以生成与搜索结果一起返回的横向概念。解析与搜索结果关联的内容以识别特征向量。特征向量包括与内容关联的类别元素。特征向量被用于比较搜索结果和计算在搜索结果之间或者在搜索结果和查询之间的相似性分值。计算机系统基于相似性分值选择特征向量中的类别,并响应于搜索查询将该类别作为横向概念返回。如上面提到的,也可以针对搜索查询和网页识别主题,并将其用作广告选择的短语。在本发明的多个实施方式中,可以以多种不同的方式识别主题。在一些实施方式中,当接收到搜索查询或者网页的标识时,确定是否已经存在针对搜索查询或者网页的本体映射。例如,对于与接收到的搜索查询相匹配的搜索查询或者对于标识的网页,多个主题可能已经被手动或者利用算法生成并缓存。在这些实施方式中,从已有的本体匹配中取得主题。在另一些实施方式中,与主题的本体和/或部分主题的本体相结合地分析搜索查询或标识的网页,以识别相关的主题。在又另一些实施方式中,分析搜索查询或标识的网页以识别独立关键短语,并选择关键短语主题。当大量主题被识别出时,这些主题被分级,并且选择最闻等级的主题。所选择的主题可以被用作广告选择的短语。在一些实施方式中,所选择的主题还可以被用于生成响应于搜索查询的搜索结果的内容的表格。当接收到搜索查询时,取得搜索结果。附加地,与搜索查询和搜索结果相关联的主题被识别出,从所识别的主题中生成内容的表格。响应于搜索查询,搜索结果页面被返回,其包括搜索结果和生成的内容表格。用户可以从内容表格中选择主题以查看与每个主题有关的不同搜索结果。在一些实施方式中,当用户从内容表格中选择不同的主题以查看不同的搜索结果的子集时,内容表格是静态的,由此允许用户在初始搜索查询的上下文中导航搜索结果。据此,在一个方面,本发明的一个实施方式指向一个或多个计算机可读介质,其存储有计算机可用指令,当由一个或多个计算设备使用时,该指令使得一个或多个计算设备执行方法。该方法包括接收搜索查询或者网页的指示。该方法还包括基于该搜索查询或网页的内容识别一个或多个横向概念,其中每个横向概念被识别为为了广告选择目的的候选短语。该方法进一步包括基于搜索查询或者网页的内容识别一个或多个主题,其中每个主题被识别为为了广告选择目的的候选短语。该方法还包括从识别出的候选短语中选择一个或多个短语。该方法还包括使用该一个或多个选择的短语查询广告目录以选择一个或多个广告。该方法又再包括提供该一个或多个广告以呈现给用户。在另一个实施方 式中,本发明的一个方面指向包括一个或多个处理器和一个或多个计算机可读介质的计算机系统,其被配置以选择并传递广告。该计算机系统包括短语生成器以基于搜索查询或识别的网页生成候选短语。短语生成器包括横向概念生成器和语义主题引擎。横向概念生成器被配置以从与存储器中的内容相关联的类别中基于所存储内容的相似性分值选择横向概念。语义主题引擎被配置以通过利用主题的本体和部分主题的本体分析搜索查询或网页以及通过生成关键短语主题而识别主题。横向概念和主题被识别为候选短语。计算机系统还包括短语选择组件,其被配置以从候选短语中选择一个或多个短语。计算机系统还包括广告传递系统,其包括广告选择组件和广告传递引擎。广告选择组件被配置以使用一个或多个短语查询广告目录从而选择一个或多个广告。广告传递引擎被配置以传递该一个或多个广告以呈现给用户。本发明的另一个实施方式指向一个或多个计算机可读介质,其存储有计算机可用指令,当由一个或多个计算设备使用时,指令使得一个或多个计算设备执行一个方法。该方法包括接收搜索查询并使用该搜索查询执行搜索以从存储器中识别相应于该搜索查询的内容。该方法还包括识别与获取的内容相关联的多个类别,并选择多个所识别的类别的子集作为横向概念,其中横向概念被识别为用于广告选择的候选短语。该方法进一步包括从搜索中接收多个文件片段。该方法还包括通过将一个或多个文件片段与主题的本体相比较而识别一个或多个候选主题的第一集合,通过将一个或多个文件片段与部分主题的本体相比较而识别一个或多个候选主题的第二集合,通过从一个或多个文件片段中生成关键短语主题而识别一个或多个候选主题的第三集合。该方法进一步包括从候选主题的第一、第二和第三集合中选择主题作为用于广告选择的候选短语。该方法又进一步包括从所识别的候选短语中选择一个或多个短语,使用该一个或多个选择的短语查询广告目录以选择一个或多个广告,并提供该一个或多个广告以呈现给用户。已经简单地描述了本发明的实施方式的概要,在下面描述可实现本发明实施方式的示例性操作环境,以便提供本发明的各个方面的通用场景。初始地参照图1,特别地,用于实现本发明实施方式的示例性操作环境被示出并且一般地被指定为计算设备100。计算设备100仅是合适的计算环境的一个例子,并且不意图表明对于本发明的使用或功能性的范围的任何限制。计算设备100也不应被解释为关于所示出的组件的任意一个或其组合具有任何依赖或需求。本发明可在计算机代码或机器可用指令(包括诸如程序模块的计算机可执行指令,由计算机或诸如个人数据助理或其它手持设备等其它机器执行)的通常场景中被描述。通常地,包括例行程序、程序、对象、组件、数据结构等的程序模块指的是执行特定任务或实现特定抽象数据类型的代码。本发明可以在多种系统配置中实践,包括手持设备、消费者电子装置、通用计算机、更专用计算设备等。本发明还可以在分布式计算环境中实践,其中任务由通过通信网络链接的远程处理设备执行。参照图1,计算设备100包括总线110,其直接地或间接地耦合以下设备存储器112、一个或多个处理器114、一个或多个呈现组件116、输入/输出端口 118、输入/输出组件120和示例性电源122。总线110表示一种或多种总线(诸如地址总线、数据总线或其组合)。虽然为了清楚的目的,图I的各个框使用线条示出,实际上,这些框表示逻辑组件,并非一定表示实际的组件。例如,可以认为诸如显示设备的呈现组件是I/O组件。同样,处理器具有存储器。我们认识到这是本领域的本性,并重申图I的图表仅仅是能够与本发明的一个或多个实施方式结合地使用的示例性计算设备的图示。在如“工作站”、“服务器”、“膝上型电脑”、“手持设备”等这些类别之间没有区别,因为全部都在图I的范围内被考虑并被称为“计算设备”。计算设备100典型地包括多种计算机可读介质。计算机可读介质能够是任意可用的介质,其能够由计算设备100访问并且包括在用于存储信息(诸如计算机可读指令、数据 结构、程序模块或其它数据)的任意方法或技术中实现的易失和非易失介质、可移除和非可移除介质。计算机可读介质包括但不限于RAM、ROM、EEPR0M、闪存或其它存储技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储装置、磁盒、磁带、磁盘存储或其它磁存储设备、或者能够被用于存储所需要的信息并且能够被计算设备100访问的任何其它媒介。以上的任意组合也应当被包括在计算机可读介质的范围内。存储器112包括易失和/或非易失存储器形式的计算机存储介质。该存储器可以是可移除的、不可移除的或者其组合。示例性硬件设备包括固态存储器、硬盘驱动、光盘驱动等。计算设备100包括一个或多个处理器,其从诸如存储器112或I/O组件120等各种实体中读取数据。(多个)呈现组件116呈现数据指示给用户或其它设备。示例性呈现组件包括显示设备、扬声器、打印组件、震动组件等。I/O端口 118允许计算设备100逻辑地耦合至包括I/O组件120 (其中一些可以是内建的)的其它设备。例示的组件包括麦克风、摇杆、游戏手柄、碟型卫星天线、扫描仪、打印机、无线设备等。现在参照图2,提供了一个框图,图示了可以使用本发明的实施方式的示例性系统200。应当理解此处描述的这种和其它布置仅是作为例子而提出。其它布置和元件(例如机器、接口、功能、次序和功能组合等)能够附加于或代替所图示的这些而使用,一些元件可以被全部忽略。进一步地,此处描述的许多元件是功能实体,其可以被实现为离散的或分布的组件或者与其它组件相结合,并且处于任何合适的组合和位置。此处描述的由一个或多个实体执行的各种功能可以由硬件、固件、和/或软件实现。例如,各种功能可以由执行存储在存储器中的指令的处理器来实现。除了未示出的组件,系统200可以包括用户设备202、内容服务器204、搜索引擎206、短语生成器208、短语选择组件210、广告传递系统212和存储装置214。在图2中示出的每个组件可以被具体实现为任何类型的计算设备,例如诸如参照图I描述的计算设备100。组件可以经由网络216彼此通信,网络216可以包括但不限于一个或多个局域网(LAN)和/或广域网(WAN)。这种网络环境在办公室、企业级计算机网络、内联网和互联网中是常用的。应当理解在本发明的范围内,任意数量的用户设备、内容服务器、搜索引擎、短语生成器、短语选择组件、广告传递系统和存储装置可以在系统200中被使用。每个可以包括单个设备或者在分布式环境中协作的多个设备。例如,系统200可以包括布置在分布式环境中的多个设备,其共同地提供此处描述的系统200的功能性。另外地,未示出的其它组件也可以被包括在系统200中。根据本发明的实施方式,用户可以使用用户设备202以提交搜索查询至搜索引擎206,并且响应地接收带有搜索结果和广告的搜索结果页面。例如,用户可以使用在用户设备202上的网络浏览器以访问搜索输入网页并输入搜索查询。作为另一个例子,用户可以经由位于例如网络浏览器、用户设备202的桌面或其它位置中的搜索引擎工具栏提供的搜索输入框输入搜索查询。本领域技术人员将认识到在本发明的实施方式的范围内,各种其它方式也可以被使用以提供搜索查询。当搜索引擎206从诸如用户设备202的用户设备接收搜索查询时,搜索引擎206在搜索系统索引228、知识库230和/或包含在存储装置214中维护的可搜索内容的其它数据存储装置上执行搜索。搜索系统索引228通常可包含非结构化和/或半结构化数据,而知识库230通常可包含结构化数据。因此,搜索引擎206响应于接收到的搜索查询识别多个搜索结果。附加地,广告被选择以包含在搜索结果页面中,如下面将会进一步详细描述 的。响应于搜索查询,搜索结果页面可以被提供给用户设备202,其包括带有所选择的广告的搜索结果。用户还可以使用用户设备202以查看通过内容服务器托管的网页,诸如在内容服务器204上被托管的网页218。例如,用户可以使用在用户设备202上的网络浏览器以从内容服务器204请求网页218。在本发明的实施方式中,当网页218在用户设备202上被呈现给用户时,广告被选择(如下面将会进一步详细描述的)以包括在网页218上。短语生成器208、短语选择组件210和广告传递系统212—般地运行以选择和传递在搜索结果页面和网页上的广告。短语生成器208包括横向概念生成器220和语义主题引擎222,其分析搜索查询(和/或关联的搜索结果)或网页(和/或相关的内容)以识别可以被用于广告选择的短语。横向概念生成器220识别用于搜索查询或网页的横向概念,语义主题引擎222识别用于搜索查询或网页的主题。在搜索场景中的一些实施方式中,横向概念可以被包括在搜索结果页面上以允许用户使用横向概念以在结构化、非结构化和半结构化内容的组合上反复操作。在搜索场景中的一些实施方式中,可以基于识别的主题生成内容的表格,并且内容的表格可以被包括在搜索结果页面上。内容的表格列出识别出的主题并允许用户选择主题和查看与每个主题相关联的搜索结果。由横向概念生成器220和语义主题引擎222识别出的横向概念和主题被视为用于广告选择的候选短语。短语选择组件210运行以分析候选短语并选择将被用于广告选择的短语。在实施方式中,短语选择组件210将候选短语分级,该等级被用于选择短语以进一步处理。在本发明的一些实施方式中,基于货币化将候选短语分级。换句话说,候选短语被分析以估计使用每个候选短语选择广告将产生广告收入的程度。被确定更可能产生较高广告收入的候选短语的等级较高。在多个实施方式中,基于等级选择一个或多个候选短语。在一些实施方式中,最高的N个等级的候选短语(例如最高的5个等级的候选短语)被选择。在其它实施方式中,具有大于阈值的等级的候选短语被选择。在其它实施方式中,具有比其它候选短语明显较高的等级的候选短语被选择。以上任一和全部变形,以及其它考虑方式,可以被使用以从候选短语组中选择短语。
广告传递系统212从短语选择组件210接收短语,选择广告,并传递所选择的广告以呈现在响应于搜索查询的搜索结果页面上或者呈现在响应于网页指示的网页上。广告传递系统212包括广告选择组件224,其使用所选择的短语查询广告目录234以选择将被传递以呈现给用户的广告。广告目录234可以存储广告和与每个广告关联的元数据。为广告存储的元数据可以包括在广告选择中使用的信息,诸如例如广告者的出价的值、点击率等。在本发明的实施方式中,广告选择组件224基于广告与选择的短语的关联性和/或基于货币化(即,估计广告将产生广告收入的程度)选择广告。广告系统当前使用的竞价过程可以被用于选择广告。这个过程对于本领域技术人员是公知的,因此在此处将不再进一步详细讨论。广告传递系统还包括广告传递引擎226,其便于传递所选择的广告以呈现给用户。在搜索的场景中,生成搜索结果页面,其包括响应于用户的搜索查询的搜索结果和所选择的广告。在网页的场景中,广告被传递以包括在为呈现广告所提供的网页的区域中。如上面提到的,横向概念生成器220响应于搜索查询和/或针对网页生成横向概念。在一个实施方式中,诸如图3中所示出的,横向概念生成器220包括初始处理组件302、 相似性引擎304和索引引擎306。横向概念生成器220从存储装置214中接收类别和内容。继而,内容和类别由横向概念生成器220的一个或多个组件302、304和306处理。初始处理组件302被配置以定位匹配搜索查询或网页的内容,分析该内容,并使用一个或多个数据处理方法提取信息。在这点上,初始处理组件302可以被用于分析内容并从以下三类数据中提取信息由存储装置214维护的非结构化数据、结构化数据和半结构化数据。非结构化数据可以包括具有一系列文本行的文件。包括在非结构化数据的类别中的文件可以具有较少或没有元数据。另一方面,结构化数据可以包括传统的数据库,其中信息是结构化的和引用的。半结构化数据可以包括诸如研究论文或者证券交易委员会文件档案等文件,其中文件的一部分包括多行文本,文件的一部分包括用于图示的表格和图形。在半结构化数据的情况中,文件的结构化组分可以按照结构化数据被分析,文件的非结构化组分可以按照非结构化数据被分析。特征向量被用于比较匹配搜索查询或网页的内容。特征向量可以包括以下元素一组词、概念和分值。一组词表不内容的摘要或米样。概念分类该内容,分值包含对于内容和匹配搜索查询或网页的附加内容的相似性度量。例如,对于太空针内容的特征向量可以包括一组词“为世界博览会建造的纪念碑”,概念“高楼”和分值“空”。特征向量的概念元素可以基于分配给特征向量的分值而被选择作为横向概念。特征向量的元素的值可以被手动地或自动地生成。主题专家可以手动地填入特征向量的元素。可选择地,特征向量的元素可以由横向概念生成器220自动地填入。初始处理组件302可以包括词汇分析、语言分析、实体提取分析和属性提取分析。在一个实施方式中,初始处理组件302为存储装置214中的内容创建特征向量。初始处理组件302自动地填入特征向量的词和概念。在某些实施方式中,初始处理组件242从存储装置214的本体存储装置232中的一个或多个本体中选择概念或者从内容中提取词。相似性引擎304计算相似性分值,其填入特征向量的分值元素。相似性引擎304是横向概念生成器220的一个组件。相似性引擎304计算相似性分值,其存储在针对从存储装置214获取的内容的特征向量中。相似性分值可以表示对于与接收到的搜索查询或标识的网页相匹配的存储装置214中的其它内容的相似性、对于搜索查询的相似性、或者对于诸如网页218的网页的相似性。继而,相似性分值被用于从与匹配搜索查询或网页的内容相关联的特征向量中识别的概念中选择多个类别。所选择的类别被标识为横向概念。
在一个实施方式中,相似性引擎304可以使用特征向量计算在匹配搜索查询或网页的内容之间的相似性。可以使用多维向量的毕达哥拉斯定理基于特征向量之间的距离来计算相似性分值。例如,当存储装置214包括匹配接收到的搜索查询或网页218的内容时,横向概念生成器220可以基于分配给多个类别的每个类别中的内容的分值而返回多个类别。横向概念生成器220从存储装置214中获得匹配的内容和相应的类别。继而,横向概念生成器220为匹配的内容生成特征向量。同样,横向概念生成器220使用与匹配的内容相关联的类别生成内容集合。在内容集合中的每个内容由横向概念生成器220处理以创建特征向量。继而,对于内容集合的每个特征向量与匹配内容的特征向量相比较以生成相似性分值。继而,使用由相似性引擎302计算的相似性分值来更新针对内容集合的特征向量。相似性引擎302可以选择每个类别中具有高相似性分值的多个特征向量,平均这些分值,将平均分值分配给该类别。在一个实施方式中,相似性引擎302选择每个类别中分配有最高分值的三个特征向量,以计算分配给所述类别的平均分值。因此,作为例子,具有最高分值的前5个类别可以被识别为横向概念。 在另一个实施方式中,相似性引擎304可以计算在内容和接收到的搜索查询或诸如网页218的网页之间的相似性。相似性分值可以使用多维向量的毕达哥拉斯定理基于在特征向量之间的距离来计算。例如,当存储装置214不包括匹配搜索查询或网页218的内容时,横向概念生成器220可以基于分配给多个类别的每个类别中的内容的分值而返回多个类别。横向概念生成器220从存储装置214中获取与搜索查询或网页218相关的预定数量的内容和相应的类别。在一个实施方式中,横向概念生成器220从存储装置214中获取预定数量(例如50)的内容项,其对于网页218的搜索查询具有高的相似性分值。继而,横向概念生成器220生成搜索查询或网页218的特征向量。同样,横向概念生成器220使用与获得的内容相关联的类别来取得内容的集合。在内容集合中的内容被横向概念生成器220处理以创建特征向量。继而,对于内容集合中的内容的特征向量与搜索查询或网页218的特征向量相比较以生成相似性分值。继而,使用由相似性引擎304计算的相似性分值来更新内容集合的特征向量。相似性引擎304可以选择在每个类别中具有高相似性分值的多个特征向量,平均这些分值,并将所平均的分值分配给所述类别。在一个实施方式中,相似性引擎304选择在每个类别中分配有最高分值的三个特征向量以计算被分配给所述类别的平均分值。继而,具有最高分值的前5个类别被标识为横向概念。相似性引擎304可以使用词频以计算存储装置214中内容的查询相似性分值。在一个实施方式中,当对于搜索查询的匹配没有保存在存储装置214中时,相似性引擎304计算查询相似性分值(Sq)
Sq = ^freq(W)Klo g(docfreq(w)),其中freq(w)是在存储装置中查询(W)的频率,docfreq是
在被选择用于比较的内容中查询的频率。分配有最大Sq的内容被相似性引擎244收集,头50个文件被用于生成横向概念。索引引擎306是横向概念生成器220的可选组件。索引引擎306从相似性引擎304接收横向概念,并将横向概念与生成该横向概念的搜索查询或网页一起存储在存储装置214中。继而,类似于先前处理的搜索查询或网页的随后的搜索查询或网页请求可以绕过横向概念生成器220并获得存储在存储装置214中的横向概念。在实施方式中,存储装置214提供内容和先前生成的横向概念。存储装置214存储内容、本体和广告。在某些实施方式中,存储装置214包括一个或多个数据存储,诸如关系数据库和/或平面文件数据库等等,其存储每个内容的主题、对象和谓语。存储装置214可以与先前生成的横向概念一起引用内容。该内容可以包括结构化、半结构化和非结构化数据。在一些实施方式中,该内容可以包括具有存储在平面文件数据库中的属性的视频、音频、文件、表格和图像。计算机系统200可以利用算法生成横向概念,或者内容属性可以被用作横向概念。例如,西雅图太空针或特定股票的内容属性可以被存储在存储装置214中。分别地,响应于对于西雅图太空针或特定股票的搜索查询,内容属性可以被提供作为横向概念。西雅图太空针的内容属性可以包括高楼属性、西雅图吸引力属性和结构属性。高塔属性可 以包括指定西雅图太空针和其它高楼(诸如台北101、帝国大厦、Burj和上海环球金融中心)的名称和高度的数据。西雅图吸引力属性可以包括西雅图其它吸引力(诸如西雅图太空针、派克市场、西雅图美术馆和国会山)的名称和位置的数据。结构属性可以包括在高楼属性中所包括的每个高楼的结构类型的数据,现代、古老等。任意西雅图太空针内容属性都可以作为横向概念返回。特定股票可以包括股票内容属性。例如,MSFT内容属性可以包括类型属性、工业属性和市盈率(PE)属性。类型属性包括商业类型的数据,例如企业、公司、股份有限公司等。工业属性可以指定行业,例如食品、娱乐、软件等,PE属性包括PE的值。任意股票内容属性可以作为横向概念返回。由横向概念生成器220利用算法生成的横向概念可以被存储在存储装置214中。继而,搜索引擎220接收到的随后的搜索查询或者网页请求在某些实施方式中可以以存储在存储装置214中的横向概念响应。对于特定搜索查询或网页,存储装置214可以存储多个横向概念。因此,存储装置214可以被访问以获取用于接收到的搜索查询或请求的网页的横向概念的列表。在一些实施方式中,横向概念可以作为搜索结果页面的一部分被提供以使得用户能够导航存储装置214中的内容。在本体存储器232中的本体包括对应于存储装置214中的内容的词或短语。与存储装置214中的内容相关联的类别可以从多个本体中选择。每个本体包括对于域的分类和域中词或短语之间的关系。分类指定在域中词或短语之间的关系。域可以包括医学、艺术、计算机等。继而,与内容相关联的类别可以由横向概念生成器220基于相似度分配分值。在一个实施方式中,横向概念生成器220基于对响应于接收的搜索查询或请求的网页而获得的内容的相似度计算分值。在另一个实施方式中,横向概念生成器220基于对搜索查询或网页的相似度计算分值。横向概念生成器220基于分值选择多个类别作为横向概念。短语生成器208还包括语义主题引擎222,其针对接收的搜索查询或诸如网页218的网页选择主题。由语义主题引擎222识别的主题可以被用于选择广告,以便包括在响应于搜索查询的搜索结果页面上或者包括在请求的网页上,诸如网页218。在一些实施方式中,语义主题引擎222为搜索查询识别的主题被用于生成包括在搜索结果页面上便于用户导航搜索结果的内容表格。在这样的实施方式中,响应于搜索查询,搜索结果页面可以被提供给用户设备202,其包括带有内容表格的搜索结果,该内容表格包括由语义主题引擎222识别的主题。如上面提到的,语义主题引擎222识别与接收的搜索查询或标识的网页相关的主题。如在图4中示出的,语义主题引擎222通常包括本体映射组件402、本体主题识别组件404、本体部分主题识别组件406、关键短语主题识别组件408和主题分级/选择组件410。语义主题引擎222使用组件402、404、406和408中的任一个来识别语义主题。在本发明的一些实施方式中,组件402、404、406、408中的每个可以被使用以识别特定搜索查询或网页的主题,并且识别的主题可以被分级/选择组件410分级和选择特定主题。在其它实施方式中,主题可以仅由组件402、404、406和408的一部分识别。例如,在一个实施方式中,一旦阈值数量的主题被组件402、404、406和408中的一个或多个识别,由剩余组件的进一步分析就不再执行。在另外的实施方式中,语义主题引擎222可以只包括图4中示出的组件402,404,406和408的一部分。这些变形的任一个或全部都被考虑为处于本发明的实施方式的范围内。当搜索查询被接收到或者网页被识别,本体映射组件402运行以识别对于搜索查 询或网页是否已经存在本体映射。例如,搜索查询可以是高端查询,对于该查询,搜索系统人员已经手动地识别出针对搜索查询的内容的主题的相关主题。另一个例子,接收到的搜索查询或网页可以对应于相关主题已经针对搜索查询或网页被识别和缓存的搜索查询或网页。如果本体映射组件402确定对于接收的搜索查询或网页已经存在本体映射,则基于该本体映射取得主题。在一些实施方式中,只有通过本体映射组件402取得或使用的主题。在其它实施方式中,另外的主题由其它组件404、406和/或408的一个或多个识别,如下面进一步详细描述的。本体主题识别组件404针对接收的搜索查询和网页、结合存储在本体存储器232中的主题的本体而运行,以识别搜索查询或网页相关的主题。本体存储器232可以存储一个或多个本体,其被本体主题识别组件404使用以识别语义概念作为接收的搜索查询或标识的网页的主题。每个本体包括定义概念和概念间关系的词和短语的集合。在一些实施方式中,在搜索系统索引228、知识库230和/或存储装置214中的其它内容上执行搜索以取得接收的搜索查询的搜索结果,本体主题识别组件404与主题的本体相结合地分析搜索结果以识别搜索查询的相关主题。在另外的实施方式中,在存储装置214中的内容可以被分析以识别与网页相关的内容,其可以被本体主题识别组件404结合主题的本体使用以识别网页的相关主题。本体部分主题识别组件406以类似于本体主题识别组件404的方式执行功能,但是使用部分主题的本体代替主题的本体。如此处使用的,部分主题指的是部分命名的主题。每个部分主题包括部分主题标识符词,其可以与其它的词或短语组合以创建主题。例如,“评论”可以是部分主题。当在上下文中分析时,部分主题标识符词“评论”可以与另外的词诸如“专家”或“用户”组合以生成主题“专家评论”或“用户评论”。据此,一旦针对搜索查询或网页识别了部分主题,则本体部分主题识别组件406或相关联的组件对该部分主题命名。关键短语主题识别组件408分析针对接收的搜索查询的搜索结果或者网页的内容(和可能相关的内容)以生成候选的关键短语。通常,关键短语主题识别组件408从搜索结果或网页的内容中生成关键短语,并识别独立关键短语。独立关键短语被评估以识别候选的主题。通过本体映射组件402、本体主题识别组件404、本体部分主题识别组件406和/或关键短语主题识别组件408,可以针对接收的搜索查询或识别的网页识别出多个主题。在一些例子中,所有识别的主题都可以被短语选择组件210作为候选短语考虑。在其它例子中,可识别出大量的主题,只有识别的主题的子集被短语选择组件210作为候选短语考虑。在一些实施方式中,语义主题引擎222包括主题分级/选择组件410,其运行以分级和选择主题作为进一步处理的候选短语。根据本发明的多个实施方式,可以使用多种不同的要素分级主题。通过仅为示例而非限制的方式,可以基于分配给每个主题的文件的总量来分级每个主题。分配给特定主题的较大量文件可提供主题的较高等级。还可以基于分配给主题的每个搜索结果(或者搜索结果的选择-例如头N个搜索结果)的分级来分级主题。每个搜索结果的等级对应于每个搜索结果与搜索查询的相关性。据此,分配给特定主题的更高相关性的搜索结果可提供该主题的较高等级。每个主题的长度(例如词的数量)可以进一步被用于对主题分级。任一和全部这些变形都被考虑为处在本发明的实施方式的范围内。在对候选主题分级之后,主题分级/选择组件410选择短语以进一步处理。
·
现在转向图5,提供一个流程图,其图示了根据本发明的实施方式选择置于搜索结果页面或网页上的广告的整个方法500。初始地,如框502处所示出的,搜索查询被接收或者网页被识别,针对它们,广告将被选择并传递以便呈现。对于搜索查询或网页,由诸如图2的横向概念生成器220的横向概念生成器识别横向概念,如在框504处所不出的。横向概念可以例如按照在下面参照图6的方法600和/或图7的方法700进一步详细描述的来识别。对于搜索查询或网页还由诸如图2的语义主题引擎222的语义主题引擎识别相关主题,如在框506处所示出的。主题可以例如按照下面分别参照图8、9、10和11的方法800、900、1000和1100进一步详细描述的来识别。在框504和506处识别的横向概念和主题作为框508处广告选择的候选短语被考虑。特别地,来自横向概念和主题的候选短语被分级,并且该等级被用于选择短语以进一步处理。在本发明的一些实施方式中,候选短语基于货币化被分级。换句话说,候选短语被分析以估计每个候选短语被用于选择广告将产生广告收入的程度。确定更可能产生较高广告收入的候选短语被分级较高的等级。在多种实施方式中,基于等级选择一个或多个候选短语。在一些实施方式中,在框508处最高等级的N个候选短语(例如,最高等级的5个候选短语)被选择。在其它实施方式中,在框508处具有高于阈值的相关性的候选短语被选择。在另外的实施方式中,具有比其它候选短语明显高的等级的候选短语被选择。以上的任一和所有这些变形,以及其它考虑方式,都可以用于从一组候选短语中选择短语。在框510处使用所选择的短语查询广告目录以选择将被传递以呈现给用户的广告。在本发明的实施方式中,可以基于广告与所选择的短语的相关性和/或基于货币化(即对于广告将产生广告收入的程度的估计)选择广告。当前由广告系统使用的竞价过程可以被用于选择广告。该过程对于本领域技术人员是公知的,因此在此处将不再进一步详细讨论。如在框512处所示出的,所选择的广告被传递以呈现给用户。在搜索的场景中,搜索结果页面被生成,其包括响应于用户的搜索查询的搜索结果和所选择的广告。在网页的场景中,广告被传递以包括在为了广告呈现而提供的网页的区域中。计算机系统可以执行至少两个计算机可执行方法以动态地生成横向概念。在第一个实施方式中,基于在匹配查询的内容和存储器中的其它内容的特征向量之间的分值选择横向概念。参照图6,提供了一个流程图,其图示了根据本发明的实施方式生成横向概念的方法600。当计算机系统连接至客户端设备的网络时,方法开始于框602处。在框604处,搜索查询或者网页的标识被接收。继而,计算机系统从存储装置中获取相应于用户查询或网页的内容,如框606处所示的。在框608处,计算机系统识别与获得的相应于接收的搜索查询或标识的网页的内容相关联的类别。在一个实施方式中,类别包括在一个或多个本体中的短语。在另一个实施方式中,类别包括获得的相应于接收的搜索查询或标识的网页的内容的属性。继而,计算机系统从存储装置中取得相应于每个识别的类别的内容集合,如在框610处所示的。在框612处,计算机系统基于分配给内容集合中的内容的分值选择多个识别的类别作为横向概念。在一个实施方式中,横向概念可以包括正交概念。横向概念可以被存储在计算机系统的存储装置中。 在某些实施方式中,内容被表示为特征向量,基于在特征向量之间的相似性将分值分配给内容。在实施方式中,横向概念被使用以识别用于选择广告的短语,如上文中所讨论的。在一些实施方式中,横向概念也可以例如在响应于搜索的带有搜索结果的搜索结果页面中被提供给用户。在这种实施方式中,带有横向概念显示的内容可以由计算机系统基于分配给内容的相似性分值来过滤。在一些实施方式中,计算机系统可以通过识别相应于获得的内容的特征向量的平面的法线(normal)而选择正交概念。继而,创建平面的内容集合的特征向量(其平行于由法线创建的平面)被计算机系统处理以获得与那些特征向量关联的内容的类别。基于分配给类别中的内容的分值,这些类别中的多个可以作为横向概念被返回。该方法终止于框614。如上面提到的,计算机系统可以执行至少两个计算机实现的方法以动态地生成横向概念。在第二实施方式中,基于在搜索查询或网页和存储装置中的内容的特征向量之间的分值选择横向概念。当存储装置不包含对搜索查询或网页的匹配时,计算机系统可以执行这个方法。在一些实施方式中,不使用包括在搜索查询或网页中的词语的词干确定匹配。因此,计算机系统的存储装置可以包括其它匹配,这些匹配基于包括在搜索查询或网页中的词语的词干。这些其它匹配可以被使用以生成横向概念。参照图7,提供了一个流程图,其图示了根据本发明的实施方式用于生成知识内容的可替代的计算机实现方法700。当计算机系统连接至客户端设备的网络时,该方法开始于框702处。在框704处接收搜索查询或网页的标识。在框706处,计算机系统计算在存储装置中的内容与搜索查询或网页之间的相似性。在框708处,计算机系统创建内容集合,其具有与搜索查询或网页相似的预订数量的内容。继而,计算机系统识别相应于内容集合中的内容的每个类别,如框710处所示的。在框712处,计算机系统基于分配给内容集合中的内容的分值选择若干识别的类别作为横向概念。在某些实施方式中,搜索查询或网页和内容被表示为特征向量,基于在搜索查询或网页和内容的特征向量之间的相似性将分值分配给内容。在实施方式中,横向概念被用作用于广告选择的短语,如上文中讨论的。在一些实施方式中,横向概念还可以在响应于搜索查询的搜索结果页面中呈现给用户。在这些实施方式中,带有横向概念显示的内容可以由计算机系统基于分配给内容的相似性分值来过滤。在一个实施方式中,正交概念可以被包括在横向概念中。通过识别相应于查询的特征向量的平面的法线而选择正交概念。继而,创建平面的内容集合的特征向量(其平行于由法线创建的平面)被计算机系统处理以获得与那些特征向量关联的内容的类别。基于分配给所述类别的内容的分值,这些类别的多个可以作为横向概念被返回。该方法终止于框714 处。转向图8,提供了一个流程图,其图示了根据本发明的实施方式用于识别搜索查询或网页的主题的方法800。如在框802处所示的,接收到搜索查询或者网页的标识。根据图8中示出的实施方式,在框804处确定关于对于搜索查询或网页是否已经存在本体映射。例如,搜索查询可以是高端搜索查询,搜索系统人员针对其已经手动地识别了该搜索查询的相关主题。可替换地,接收的搜索查询或网页可以相应于先前已经被处理的搜索查询或 网页以识别相关主题,该系统可能已经缓存了针对该搜索查询或网页的识别的主题。在框806处如果确定本体映射已经存在,则在框808处取得该搜索查询或网页的主题。在一些实施方式中,只有在框808处取得的主题被作为候选短语用于广告选择,且处理结束。在其它实施方式中,处理在框810处继续,另外的主题利用算法来识别。如果在框806处确定对于搜索查询或网页不存在本体映射(或者如果在框808处取得主题之后处理继续),则搜索查询或网页结合主题的本体(或主题本体的集合)被进一步分析以识别来自本体的任何主题是否与所述搜索查询或网页相关,如在框810处所示的。在接收搜索查询的实施方式中,识别为与搜索查询相关的搜索结果和/或其它内容与主题的本体相比较以识别相关主题。在网页被标识的实施方式中,被识别为与网页相关的网页的内容和/或存储的内容与主题的本体相比较以识别相关主题。识别来自主题本体的主题与搜索查询或网页相关可以在本发明实施方式的范围内以多种不同方式来执行。通过仅为示例而非限制的方式,在一个实施方式中,基于在内容中包含的词,与搜索查询或网页相关联的内容被转换为一个或多个特征向量。每个特征向量与本体中的主题相比较以确定特征向量与主题之间的距离。肯定的主题识别可以基于确定特征向量处于特定主题的预定距离内。在框810处的分析可以从主题的本体中识别零或更多个主题与搜索查询或网页相关。在框812处,搜索查询或网页与部分主题的本体(或部分主题本体的集合)相比较。如上面指出的,部分主题是只有部分地被命名的主题。每个部分主题包括部分主题标识符词,其可以与另外的词或短语组合以创建主题。从部分主题的本体识别部分主题与搜索查询或网页相关可以在本发明的实施方式的范围内以多种不同方式执行。通过仅为示例而非限制的方式,在一个实施方式中,基于在内容中包含的词,与搜索查询或网页相关联的内容被转换为一个或多个特征向量。每个特征向量与本体中的部分主题相比较以确定特征向量与部分主题之间的距离。肯定的部分主题识别可以基于确定特征向量处于特定部分主题的预定距离内。在框812处的分析可以从部分主题的本体中识别零或更多个部分主题与搜索查询或网页相关。在框812处识别的部分主题被命名,如在框814处所示的。在图9中提供了一个流程图,图示了根据本发明的实施方式用于命名部分主题的方法900。如在框902处所示的,在与搜索结果(在接收的搜索查询的情况中)和/或网页的内容和/或识别为与网页相关的内容(在标识网页的情况中)相关联的搜索结果和/或内容中的部分主题标识符词的出现被识别。例如,部分主题标识符词可以是“评论”,该词语的每次出现被识别。在框904处,部分主题标识符词附近的一个或多个词和/或短语被提取。每个提取的词和/或短语的频率被计数,如在框906处所示的。在一些实施方式中,每个提取的词和/或短语相对于部分主题标识符词的位置被跟踪和计数。特别地,词或短语可能出现在部分主题标识符词之前或之后。系统可以分别地跟踪每个词和/或短语出现在部分主题标识符词之前多少次以及每个词和/或短语出现在部分主题标识符词之后多少次。在搜索结果和/或内容已经被分析之后,最频繁地使用的词或短语被选择,如在框908处所示的。另外,使用部分主题标识符词和最频繁地使用的词或短语来命名部分主题,如在框910处所示的。部分主题标识符词和最频繁地使用的词或短语的次序可以基于在分析的文本中的多数排序而确定。例如,如果比起在部分主题标识符词之后,选择的词或短语更经常地出现在部分主题标识符词之前,则部分主题名称的次序将包括所选择的词或短语在前,随后是部分主题标识符词。 回到图8,通过从与搜索查询相关的搜索结果和/或内容中或者从识别的网页的内容和/或与网页相关的其它内容中提取关键短语,主题被识别,如在框816处所示的。识别关键短语主题可以通过计算独立关键短语并基于独立关键短语选择主题而执行。在框816处的处理可以产生零或更多关键短语主题。参照图10,提供了一个流程图,其图示了根据本发明的实施方式用于计算独立关键短语的方法1000。如在框1002中所示的,从搜索查询的搜索结果和/或其它内容中或者从识别的网页的内容和/或与网页相关的其它内容中生成候选关键短语。根据本发明的一些实施方式,基于马尔科夫链(Markov chain)的方法被用于生成候选关键短语。候选关键短语被估计独立性,如在框1004中所示的。根据本发明的实施方式,候选关键短语的独立性可以使用多种度量被估计。例如,可以基于以下度量的任意组合来确定独立性在候选关键短语之间共有的词的数量、在关键短语中词的首字母缩写词的分析和候选关键短语共享的文件的数量。对于每组互相关的关键短语,在框1006处,互相关的关键短语被合并。这样,从互相关的关键短语的组中选择最频繁的关键短语作为进一步分析的关键短语,如在框1008处所示的。合并互相关的关键短语以识别供进一步分析的关键短语的处理被重复执行,直至再没有互相关的关键短语存在。方法1000的结果是一个或多个独立关键短语的集合,其可以被作为可能的主题而进一步估计。再次参照图8,作为上面描述的过程的结果,提供候选主题的集合,其可以包括根据现有的本体映射、主题的本体的分析、部分主题的本体的分析和/或关键短语生成来识别的主题。在一些例子中,比所需要的更大数量的主题可以已经被识别。这样,在一些实施方式中的处理继续,通过分级和选择主题供进一步分析。如在框818处示出的,候选主题被分级。可以根据本发明各种实施方式使用多个不同的要素分级候选主题。通过仅为示例而非限制的方式,每个候选主题可以基于在特征向量与主题的距离而分级。候选主题还可以基于识别为与每个候选主题相关的内容项的总数量而分级。分配给特定候选主题的较大数量的文件可以为候选主题提供较高的等级。在搜索的场景中,候选主题还可以基于分配给候选主题的每个文件的等级(或文件的选择——例如顶部N个文件)而分级。每个文件的等级相应于每个文件与搜索查询的相关性。据此,被分配给特定候选主题的更高相关性的文件可以为候选主题提供较高的等级。每个候选主题的长度(例如词的数量)可以进一步被使用以分级候选主题。任何和全部这种变形都考虑在本发明的实施方式的范围中。如在框820处示出的,基于分级从候选主题的列表选择主题。在一些实施方式中,预定数量的主题被选择。例如,具有最高等级的5个主题可以被选择。在其它实施方式中,所有具有满足预定或动态阈值的等级的主题可以被选择。在另一个实施方式中,具有比其它主题明显高的等级的主题被选择。基于分级选择主题的上述和/或其它方式的任意组合可以在本发明的实施方式中使用。经由方法800选择的主题可以被进一步处理以选择广告,如上文中讨论的。另外,在一些实施方式中,可以基于选择的主题生成内容的表格。内容的表格可以被包括在响应于搜索查询而生成的搜索结果页面上。例如,内容的表格可以呈现在邻近搜索结果的侧面板中或者在搜索结果页面的另一个部分中。现在参照图11,提供了一个流程图,其图示根据本发明的另一个实施方式针对搜索系统中接收的搜索查询识别主题的方法1100。如在框1102中示出的,接收搜索查询。根据图11中示出的实施方式,在框1104处确定关于本体映射是否对于搜索查询已经存在。例如,搜索查询可以是高端搜索查询,搜索系统人员已经手动地识别针对该搜索查询的相关主题。可替换地,接收的搜索查询可以对应于先前已经由搜索系统处理以识别相关主题的搜索查询,并且搜索系统可能已经缓存识别的搜索查询的主题。在框1106处如果确定本体映射已经存在,则在框1108处取得搜索查询的主题。在一些实施方式中,只有在框1108处取得的主题被用于广告选择,并且处理结束。在其它实施方式中,在框1110处处理继续,利用算法来识别另外的主题。如果在框1106处确定不存在搜索查询的本体映射(或者如果在框1108处取得主题之后处理继续),则使用搜索查询执行搜索,如在框1110处所示的。搜索查询的搜索结果被返回,在框1112处,来自搜索的头N个文件片段被接收作为要被分析的文件集。如在框1114处示出的,在文件集中的每个文件片段与主题的本体(或者本体的集合)相比较以识别是否每个文件片段映射本体中的主题。识别文件片段与主题的本体中的主题相关联可以在本发明的实施方式的范围内以多种不同的方式来执行。通过仅为示例而非限制的方式,在一个实施方式中,基于包含在文件片段中的词,文件片段被转换为特征向量,特征向量与本体中的主题相比较以确定特征向量对于主题的距离。通过确定文件片段的特征向量位于特定主题的预定距离内,针对特定文件片段确定肯定的主题识别。如果在框1116处基于文件片段和本体的分析针对特定文件片段的主题识别是肯定的,则该文件片段被分配给所识别的主题,如在框1118处所示出的。另外,在框1120处文件片段从文件集中被移除。在为特定文件片段识别相关主题(例如经由框1116-1120)或者确定本体中没有主题与文件片段是足够相关的(例如经由框1116)之后,在框1122处关于分析的文件片段是否是被分析的文件集中的最后一个文件片段做出确定。如果还留有附加的文件片段要分析,则框1116-1122的处理重复执行直到文件集中的所有文件片段已经与主题的本体进行了比较。在文件集中的所有文件片段都已经与主题的本体进行了比较之后,从主题的本体中识别的主题被加入到候选主题的列表中供考虑,如在框1124处所示的。在一些实施方式中,所有识别的主题被加入至列表中。在其它实施方式中,只有部分主题被加入。例如,在一些实施方式中,只有具有预定数量的分配的文件片段的主题被加入至主题的列表。如在框1126处所示出的,在文件集中每个剩余的文件片段与部分主题的本体(或本体的集合)相比较。如上面指出的,部分主题是只有部分地被命名的主题。每个部分主题包括部分主题标识符词,其可以与另外的词或短语组合以创建主题。在框1128处,确定特定文件片段是否与部分主题的本体中的部分主题相关联。识别文件片段与部分主题相关联可以在本发明的实施方式的范围内以多个不同的方式来实现。通过仅示例而非限制的方式,在一个实施方式中,基于包含在文件片段中的词,文件片段被转换为特征向量,该特征向量与部分主题的本体中的部分主题相比较以确定特征向量对于部分主题的距离。通过确定文件片段的特征向量位于特定部分主题的预定距离内,对于特定文件片段确定肯定的部分主题识别。如果在框1128处基于文件片段和部分主题的 本体的分析针对特定文件片段的部分主题识别是肯定的,则该文件片段被分配给所识别的部分主题,如在框1130处所示出的。另外,在框1132处文件片段从文件集中被移除。在为特定文件片段识别相关部分主题(例如经由框1128-1132),或者确定本体中没有部分主题与特定文件片段是足够相关的(例如经由框1128)之后,在框1134处关于分析的文件片段是否是被分析的文件集中的最后一个文件片段做出确定。如果还留有附加的文件片段要分析,则框1128-1134的处理重复执行直到文件集中的所有文件片段已经与部分主题的本体进行了比较。在文件集中剩余的每个文件片段都已经对于部分主题的本体进行了比较之后,在框1136处命名部分主题。在一些实施方式中,所有识别的部分主题被命名。在其它实施方式中,只有部分主题被命名,而其它的不再考虑用于进一步的分析。例如,在一些实施方式中,只有具有预定数量的分配的文件片段的部分主题被命名并被考虑用于进一步的分析。可以如上面参照图9所讨论的那样命名部分主题。命名的部分主题被加入至主题的列表,如在框1138处所示的。在文件片段与主题的本体和部分主题的本体的比较之后,在框1140处从文件集中剩余的文件片段中生成独立关键短语。独立关键短语可以如上面参照图10讨论的那样生成。在从独立关键短语中识别候选主题之后,在文件集中剩余的文件片段被分配给关键短语主题,如在框1142处所示的。识别文件片段与关键短语相关联可以在本发明的实施方式的范围内以多种不同的方式来执行。通过仅示例而非限制的方式,在一个实施方式中,基于包含在文件片段中的词,文件片段被转换为特征向量,该特征向量与关键短语相比较以确定特征向量对于关键短语的距离。通过确定文件片段的特征向量位于特定关键短语的预定距离内,针对特定文件片段确定肯定的关键短语识别。关键短语主题被识别(如在框1144处所示的)并在框1146处被加入至主题的列表。在一些实施方式中,所有独立关键短语被识别为关键短语主题,并被加入至主题的列表中。在其它实施方式中,只有部分关键短语被识别为主题并加入主题的列表中。例如,在一些实施方式中,只有具有预定数量的分配的文件片段的关键短语被识别为关键短语主题并被加入至主题的列表中。
作为上面描述的处理的结果,提供了候选主题的列表,其可以包括从现有的本体映射、主题的本体的分析、部分主题的本体的分析和/或关键短语生成中识别的主题。在一些例子中,比所需要的更大数量的主题可以已经被识别。这样,在一些实施方式中处理继续,通过分级和选择主题以进一步分析。如在框1148处示出的,候选主题被分级。可以根据本发明各种实施方式使用多个不同的要素分级候选主题。通过仅为示例而非限制的方式,每个候选主题可以基于分配给每个候选主题的文件总数来分级。分配给特定候选主题的较大数量的文件可以为候选主题提供较高的等级。候选主题还可以基于分配给候选主题的每个文件的等级(或文件的选择——例如头N个文件)而分级。每个文件的等级相应于每个文件与搜索查询的相关性。据此,被分配给特定候选主题的更高相关性的文件可以为候选主题提供较高的等级。每个候选主题的长度(例如词的数量)可以进一步被使用以分级候选主题。任何和全部这种变形都考虑在本发明的实施方式的范围中。如在框1150处示出的,基于分级从候选主题的列表选择主题。在一些实施方式中,预定数量的主题被选择。例如,具有最高等级的5个主题可以被选择。在其它实施方式中,所有具有满足预定或动态阈值的等级的主题可以被选择。在另外的实施方式中,具有比其它主题明显高的等级的主题被选择。基于分级选择主题的上述和/或其它方式的任意组 合可以在本发明的实施方式中使用。经由方法1100选择的主题可以被进一步处理以选择广告,如上文中讨论的。另夕卜,在一些实施方式中,可以基于选择的主题生成内容的表格。所述内容的表格可以被包括在响应于搜索查询而生成的搜索结果页面上。例如,所述内容的表格可以呈现在邻近搜索结果的侧面板中或者在搜索结果页面的另一个部分中。通过图示,图12和13包括示例性的屏幕显示,其示出根据本发明的实施方式选择的广告的呈现。本领域普通技术人员将理解和认识到图12和13的屏幕显示仅是通过示例的方式提供,并不意图以任何方式限制本发明的范围。初始地参照图12,提供了一个示例性屏幕显示,其示出了包括根据本发明的实施方式选择的广告的搜索结果页面1200。如图12中所示的,搜索结果页面1200已经响应于搜索查询1202 “Sammamish fun”而提供。响应于搜索查询1202,搜索结果页面1200包括在搜索结果区域1204中提供的对搜索查询1202的多个搜索结果。另外,搜索结果页面1200包括左侧面板,其提供内容的表格1208,其列出了针对搜索查询识别的主题和横向概念区域1210中的横向概念(具体的横向概念已经从搜索结果页面1200中省略)。在图12的屏幕显示中,“所有结果”当前正被显示在搜索结果区域1204中。如果用户从内容的表格1208中选择主题,与所选择的主题相关的搜索结果将会显示在搜索结果区域1204。可替换地,如果用户从横向概念区域1210中选择横向概念,与所选择的横向概念相关的内容将会显示在搜索结果页面1204中。搜索结果页面1200还包括广告1206。根据本发明的实施方式,已经使用基于主题和横向概念的短语选择了广告。如在图12中所示的,搜索结果页面1200可以包括进一步的特征,诸如例如相关搜索查询1212和搜索历史1214。这些部分的细节已经从搜索结果页面1200中省略。转向图13,提供了一个示例性屏幕显示,其示出包括根据本发明的实施方式选择的广告的网页1300。如在图13中所示的,网页1300包括内容1302。在本例子中,内容1302是关于大学足球运动员受伤的新闻事件。注意到新闻事件的细节已经从图13中的网页1300中省略。网页1300还包括多个广告1304,其已经基于根据本发明的实施方式从内容1302中识别的横向概念和主题而被选择。能够理解,本发明的实施方式提供了基于横向概念和主题选择和传递在搜索结果页面和网页上的广告,该横向概念和主题是基于搜索查询和网页的分析而识别。本发明已经关于特定实施方式被描述,其在所有方面都意图是说明性的而非限制性的。对于本发明所属领域的普通技术人员,可替换的实施方式将变得明显,而不脱离它的范围。

从前述中,将看到这个发明良好地适合于与系统和方法明显和固有的其它优势一起获得上面提出的所有目的和目标。将理解某些特征和子组合是实用的并且可以与其它特征和子组合无关地使用。这由权利要求的范围考虑在内并位于权利要求的范围中。
权利要求
1.一个或多个计算机可读介质,存储有计算机可用指令,当由一个或多个计算设备使用时,指令使得一个或多个计算设备执行方法,包括 接收搜索查询或网页的指示; 基于搜索查询或网页的内容识别一个或多个横向概念,其中每个横向概念被识别为为了广告选择目的的候选短语; 基于搜索查询或网页的内容识别一个或多个主题,其中每个主题被识别为为了广告选择目的的候选短语; 从所识别的候选短语中选择一个或多个短语; 使用该一个或多个选择的短语查询广告目录以选择一个或多个广告;和 提供该一个或多个广告以呈现给用户。
2.权利要求I的一个或多个计算机可读介质,其中识别一个或多个横向概念包括 从存储装置中获取与用户查询或网页的内容相对应的第一内容集合; 识别与获取的第一内容集合相关联的多个类别;以及 选择所识别的多个类别的子集作为横向概念。
3.权利要求I的一个或多个计算机可读介质,其中识别一个或多个横向概念包括 计算在存储装置中的内容和用户查询或网页的内容之间的相似性; 创建内容的集合,其具有与用户查询或网页的内容相似的预定数量的内容; 识别与内容集合中的内容对应的多个类别; 选择多个所识别的类别作为横向概念。
4.权利要求I的一个或多个计算机可读介质,其中接收搜索查询并且其中识别一个或多个主题包括 确定搜索查询的本体映射是否存在; 如果搜索查询的本体映射存在,则基于本体映射取得第一主题集合并且将第一主题集合加入至主题列表中; 使用搜索查询执行搜索以获取多个搜索结果,每个搜索结果对应于文件片段; 接收文件片段的至少一部分作为文件集以供进一步分析; 将文件集中的每个文件片段与主题的本体相比较; 对于确定了肯定的主题识别的每个文件片段,分配文件片段至相应的主题并将该文件片段从文件集中移除; 将从主题的本体识别的至少一个主题加入至主题列表; 将文件集中剩余的每个文件片段与部分主题的本体相比较; 对于确定了肯定的部分主题识别的每个文件片段,分配文件片段至相应的部分主题并将该文件片段从文件集中移除; 命名至少一个具有一个或多个分配的文件片段的部分主题; 将至少一个命名的部分主题加入至主题列表; 从文件集中剩余的文件片段中计算独立关键短语; 分配文件至独立关键短语; 识别至少一个关键短语主题;和 将至少一个关键短语主题加入至主题列表。
5.权利要求4的一个或多个计算机可读介质,其中命名部分主题包括 对于分配给部分主题的一个或多个文件片段中的部分主题,识别部分主题标识符词的发生; 在一个或多个文件片段中,提取在识别的部分主题标识符词的发生的附近出现的词和/或短语; 对每个提取的词和/或短语的频率计数; 选择最频繁使用的词或短语;和 使用部分主题标识符和最频繁使用的词或短语命名部分主题。
6.权利要求5的一个或多个计算机可读介质,其中对每个提取的词和/或短语的频率计数包括跟踪与部分主题标识符词相关的每个所提取的词和/或短语的位置,其中命名部分主题包括基于最频繁使用的词或短语的位置信息来排序部分主题标识符词和最频繁使用的词或短语。
7.权利要求4的一个或多个计算机可读介质,其中从文件集中剩余的文件片段计算独立关键短语包括 从文件集中剩余的文件片段中生成候选关键短语; 估计候选关键短语的独立性; 合并互相关的候选关键短语;和 为合并的互相关关键短语的每个组识别最频繁的候选关键短语。
8.权利要求I的一个或多个计算机可读介质,其中从候选短语中选择一个或多个短语包括 基于对每个候选短语将产生广告收入的程度的估计来对每个候选短语分级;和 基于该分级选择一个或多个短语。
9.权利要求I的一个或多个计算机可读介质,其中使用一个或多个选择的短语查询广告目录以选择一个或多个广告包括基于每个广告与该一个或多个短语的相关性以及基于与每个广告相关联的货币化因素来执行竞价处理以选择一个或多个广告。
10.权利要求I的一个或多个计算机可读介质,其中搜索查询被接收,并且其中提供一个或多个广告以呈现给用户包括提供一个或多个广告以呈现在包括响应于搜索查询的搜索结果的搜索结果页面上,其中搜索结果页面包括一个或多个横向概念,其允许用户访问与一个或多个横向概念相关联的内容,并且其中搜索结果页面包括在内容表格中的一个或多个主题,其允许用户从所述一个或多个主题中选择主题以查看与所选择的主题相关联的内容。
11.一种计算机系统,包括一个或多个处理器以及一个或多个计算机可读介质,其被配置以选择和传递广告,该计算机系统包括 短语生成器,用于基于搜索查询或识别的网页生成候选短语,其中该短语生成器包括横向概念生成器和语义主题引擎,其中横向概念生成器被配置以基于存储内容的相似性分值从与存储装置中的内容相关联的类别中选择横向概念,其中语义主题引擎被配置以通过使用主题的本体和部分主题的本体来分析搜索查询或网页以及通过生成关键短语主题来识别主题,其中横向概念和主题被识别为候选短语; 短语选择组件,被配置以从候选短语中选择一个或多个短语;广告传递系统,包括广告选择组件和广告传递引擎,其中广告选择组件被配置以使用一个或多个短语查询广告目录以选择一个或多个广告,其中广告传递引擎被配置以传递所述一个或多个广告以呈现给用户。
12.权利要求11的计算机系统,其中广告传递系统传递广告以呈现在包括响应于搜索查询的搜索结果的搜索结果页面上,其中搜索结果页面包括横向概念和列出主题的内容表格。
13.—个或多个计算机可读介质,存储有计算机可用指令,当由一个或多个计算设备使用时,所述指令使得一个或多个计算设备执行方法,包括 接收搜索查询; 使用搜索查询执行搜索以从存储装置中识别对应于搜索查询的内容; 识别与所获得的内容相关联的多个类别; 选择多个所识别的类别的子集作为横向概念,其中横向概念被识别为用于广告选择的候选短语; 从搜索中接收多个文件片段; 通过将一个或多个文件片段与主题的本体相比较,识别一个或多个候选主题的第一集合; 通过将一个或多个文件片段与部分主题的本体相比较,识别一个或多个候选主题的第二集合; 通过从一个或多个文件片段中生成关键短语主题,识别一个或多个候选主题的第三集合; 从候选主题的第一、第二和第三集合中选择主题用于广告选择; 从识别的候选短语中选择一个或多个短语; 使用一个或多个所选择的短语查询广告目录以选择一个或多个广告;和 提供该一个或多个广告以呈现给用户。
14.权利要求13的一个或多个计算机可读介质,其中通过从一个或多个文件片段中生成关键短语主题来识别一个或多个候选主题的第三集合包括从文件集中剩余的文件片段通过如下方式计算独立关键短语; 使用基于马尔科夫链的方法,从一个或多个文件片段生成候选关键短语; 估计候选关键短语的独立性; 合并互相关的候选关键短语;和 对于合并的互相关的关键短语的每个组,识别最频繁的候选关键短语。
15.权利要求13的一个或多个计算机可读介质,其中提供所述一个或多个广告以呈现给用户包括提供所述一个或多个广告以呈现在包括响应于搜索查询的搜索结果的搜索结果页面上,其中搜索结果页面包括横向概念,其允许用户访问与横向概念相关联的内容,并且其中搜索结果页面包括在内容表格中的主题,其允许用户从内容表格中选择主题以查看与所选择的主题相关联的搜索结果。
全文摘要
基于从针对搜索结果页面和网页而识别的横向概念和主题生成的短语,选择广告以呈现在搜索结果页面和网页上。接收搜索查询或网页的指示,将针对其提供广告。基于搜索查询或网页的内容来识别横向概念和主题。横向概念和主题被用作短语以便从广告目录中选择广告。所选择的广告被提供以呈现在响应搜索查询的搜索结果页面上或者在初始识别的网页上。
文档编号G06Q30/02GK102763103SQ201180008427
公开日2012年10月31日 申请日期2011年1月19日 优先权日2010年2月5日
发明者A.C.苏伦德兰, A.斯里瓦斯塔瓦, M.斯里肯思, P.瓦达迪, R.普拉萨德, T.纳姆, V.瓦拉马尼 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1