新鲜因特网内容的有效检索的制作方法

文档序号:13041825阅读:317来源:国知局
新鲜因特网内容的有效检索的制作方法与工艺



背景技术:

常规的搜索引擎用于定位各种类型的信息(例如新闻、社交帖、音乐、文档、演示文稿、人、公司、产品等)。通常通过搜索日志的分析来观察查询意图,该搜索日志包括搜索项、搜索结果和点击信息的列表。搜索引擎有可能返回用户不感兴趣的结果。为了查找特定信息,用户通常必须点击链接来查看相应的文档。如果所期望的信息并不位于所访问的第一个文档中,用户可能必须多次重复该过程。



技术实现要素:

提供发明内容部分是为了以简化的形式来介绍一些概念,这些概念在下文的详细描述中将被进一步描述。发明内容无意标识要求保护的主题的关键特征或主要特征,也无意单独地使用以帮助确定要求保护的主题的范围。

本文中描述的技术的各方面通过确定新鲜内容是否可能响应于用户的查询来提高搜索会话的效率。提高搜索会话的效率降低了数据中心内用于促进搜索引擎的能量消耗和处理负载,这是通过减少用户提交的查询数目以及由此产生的处理查询和生成搜索结果的需求来实现。考虑到主搜索引擎接收到的大量搜索查询,即使小幅度的效率提高也能够在一天、一个月或一年的时间内显著节省大量的能量。

新鲜内容是否可能响应于特定查询是通过检索响应于查询的一组社交媒体帖子并且确定社交媒体帖子是否包括病毒式(viral)帖子来确定的。可以通过比较社交媒体帖子被重新传送的次数来确定社交媒体帖子的病毒性(virality)。

在确定在阈值数目以上的病毒式社交媒体帖子被包括在响应于搜索查询的多个社交媒体帖子中时,搜索查询被确定为查找新鲜内容。新鲜内容是在从查询被提交时起在新鲜度阈值内发布或生成的因特网内容。当查询被确定为查找新鲜内容时,搜索引擎可以转换到返回较新内容的新鲜搜索模式。

查询可以是一般查询,其不会专门查找社交媒体结果。此外,响应于查询而呈现的最终结果页面不需要包括任何社交媒体帖子。换言之,响应于查询的结果集合中的病毒式社交媒体帖子的存在可以被用作代理来确定用户有检索新鲜内容的意图,即使新鲜内容不包括社交媒体帖子。

附图说明

以下参考附图详细描述技术的各方面,在附图中:

图1是适于实现本文中描述的技术的各方面的示例性计算环境的框图;

图2是描绘根据本文中描述的技术的一方面的用于新鲜因特网内容的有效检索的分布式计算环境的图;

图3是描绘根据本文中描述的技术的一方面的示出新鲜内容的搜索结果页面的图;

图4是描绘根据本文中描述的技术的一方面的用于选择协作机制的决策过程的流程图;以及

图5是描绘根据本文中描述的技术的一方面的用于呈现包括新鲜内容的搜索结果的方法的流程图。

具体实施方式

本文中描述的技术的主题在本文中被具体描述以满足法定要求。然而,描述本身并非旨在限制本专利的范围。相反,发明人已经考虑到,要求保护的主题还可以以其他方式来实施,以结合其他现有或未来的技术,将与本文档中描述的步骤不同的步骤、或类似的步骤的组合包括在内。此外,尽管在本文中术语“步骤”和/或“块”可以用于表示所采用的方法的不同元素,但是该术语不应当被解释为暗示本文中公开的各种步骤之间的任何特定顺序,除非明确地描述了各个步骤的顺序和除了这样的明确描述之外。

本文中描述的技术的各方面通过确定新鲜内容是否可能响应于用户的查询来提高搜索会话的效率。提高搜索会话的效率降低了搜索引擎的数据中心内的能量消耗和过程负载,这是通过减少用户提交的查询数目以及由此产生的处理查询和生成搜索结果的需求来实现。考虑到主搜索引擎接收到的大量搜索查询,即使是小幅度的效率提高也能够显著节省大量的能量。

新鲜内容是否可能响应于特定查询是通过检索响应于查询的社交媒体帖子来确定的。社交媒体帖子的病毒性会被评估,这种病毒性是社交媒体帖子从一个因特网用户被快速且广泛地传播到另一因特网用户的一种趋势。也就是说,社交媒体帖子被评估,以确定在响应于查询的社交媒体帖子中是否存在病毒式社交媒体帖子。

社交媒体帖子的病毒性可以通过比较社交媒体帖子已经被各个用户重新传送的次数来确定。根据所涉及的社交媒体帖子,重新传送可以采取不同的形式。例如,facebook帖子可以被点赞或分享。点赞和分享都可以是重新传送的形式,因为点赞和分享可以使原始媒体帖子被其他用户注意到。在twitter中,推文(tweet)可以被转发或标记为收藏,这两者都可以是重新传送的形式。类似的重新传送方法存在于其他社交媒体平台中并且可以在本文中描述的技术的各方面用作重新传送事件。

本文中描述的技术的各方面可以使用社交媒体帖子的重新传送速率来确定它是否是病毒式的。具体地,可以将社交媒体帖子的重新传送速率与病毒性阈值相比较,以确定社交媒体帖子是否是病毒式的。例如,如果病毒性阈值是每小时80次重新传送,那么每小时100次重新传送的重新传送速率可以指示社交媒体帖子是病毒式的。随着社交媒体帖子变旧,可以使用不同的重新传送速率阈值。例如,对于社交媒体帖子存在的前五分钟,可以使用每分钟10次重新传送的病毒性阈值。当社交媒体帖子的年龄在五分钟到三十分钟之间时,可以使用每分钟20次重新传送的病毒性阈值。对于不同的年龄范围可以使用其他病毒性阈值。

在一个方面,通过回顾性分析被指定为病毒式的多个社交媒体帖子来确定病毒性阈值。在一个方面,出于分析的目的,用户将社交媒体帖子指定为是病毒式的。病毒式社交媒体帖子的平均重新传送速率可以针对不同的年龄范围来确定。在一个方面,针对年龄范围的病毒性阈值是比在该年龄范围期间的病毒式社交媒体帖子的平均重新传送速率低一个标准差。重新传送速率在病毒性阈值以上的任何新的社交媒体帖子可以被指定为是病毒式的。

在确定在阈值数目以上的病毒式社交媒体帖子被包括在响应于搜索查询的多个社交媒体帖子中时,该搜索查询被确定为查找新鲜内容。当该查询被确定为查找新鲜内容时,搜索引擎可以转换到新鲜搜索模式。在一个方面,与较旧的内容相比,新鲜搜索模式增加了新鲜搜索结果的相关度,否则的话,较旧的内容由于高的点击率、高数目的链接或可以随时间增加的其他相关度指标而可能具有较高的相关度,并且如果被使用的话,会使较新或新鲜的内容不太相关。较新的内容可以是任何类型的内容,包括新闻文章、网页、社交媒体帖子、博客帖子、视频、图片等。

新鲜内容是从查询被提交时起的新鲜度阈值时间内发布或生成的任何因特网内容。例如,从查询被提交时起的三个小时内发布的新闻文章可以被认为是新鲜内容。在一个方面,新鲜度阈值小于一天,例如小于二十个小时、或小于十二个小时、或小于六个小时、或小于三个小时、或小于一个小时、或小于三十秒。不同的新鲜度阈值可以应用于不同类型的在线内容。例如,当计算新鲜度阈值时,可以考虑新闻站点的刷新率。每三个小时更新一次文章的新闻网站可以被分配的新鲜度阈值是六个小时,这表示在最后两个刷新周期内发布的任何新闻文章都可以认定为新鲜内容。

查询可以是不查找社交媒体结果的一般查询。此外,响应于查询而呈现的最终结果页面不需要包括任何社交媒体帖子。响应于查询的结果集合中的病毒式社交媒体帖子的存在可以被用作代理来确定用户有检索新鲜内容的意图,即使新内容不包括社交媒体帖子。

定义部分

已经简要地描述了本文中描述的技术的概述,将明确定义一些经常使用的术语来使读者能够获得定位。定义部分中没有包括的术语可以在其他地方定义,包括通过示例来定义。

社交媒体平台:社交媒体平台存储和分发社交帖子。社交帖子可以通过网站或应用而被访问。网站或应用还可以允许用户生成社交媒体帖子。社交帖子的发布可以是向公众或向指定的个人群体。个人可以由社交媒体帖子的作者来指定,或者由于他们对从作者接收社交帖子的决定来指定。社交媒体平台可以包括微博(microblog)网站。微博网站的示例包括twitter、tumblr,plurk、squeeler、beeing和jaiku。诸如facebook、myspace和linkedin等社交网站也生成社交媒体帖子。

社交媒体帖子:社交媒体帖子是用户生成的通过社交媒体平台分发的通信。社交媒体帖子可以包含文本、多媒体和到其他内容的链接。社交媒体帖子还可以包含元数据,如用户的位置和语言。可选地,用户可以在社交媒体帖子内包括主题标签(hashtag)。主题标签可以指定帖子的主题,并且可以用于标识相关帖子。在一个方面,采用社交媒体帖子形式的广告不被视为社交媒体帖子。

微博帖子:微博帖子是被限制在特定数目的字符的一种社交媒体帖子类型。微博帖子主要在大小方面不同于传统的博客条目。微博帖子可以是句子、片段、若干单词、或简短的多媒体,诸如短视频。微博帖子具有有限数目的字符,并且可以公开或半公开地被发布,例如发布给用户的追随者(follower)。微博帖子通常可以具有有限数目的字符,诸如大约250个字符或更少,或大约200个字符或更少,或大约160个字符或更少,或大约140个字符或更少,或大约100个字符或更少。微博条目可以包含文本、多媒体和到其他内容的链接。微博条目还可以包含元数据,如用户的位置和语言。推文是微博帖子的一个示例。在一个方面,微博帖子可以是通过社交媒体平台提供的状态更新。

社交媒体馈送:社交媒体馈送是一种实时数据流,其在新的社交媒体帖子(例如,微博帖子)被发布在社交媒体网站上时传送这些博客帖子。社交媒体馈送由社交媒体平台来发布。社交媒体馈送可以被处理以生成可搜索的索引,但索引不是馈送。此外,馈送不是网站爬虫分析所发布的媒体帖子的结果。

重新传送速率:重新传送速率是每单位时间发生的重新传送事件的数目。例如,重新传送速率可以是每小时100次重新传送、每分钟200次重新传送、每秒50次重新传送等。当用户使第一社交媒体帖子被重新分发到用户的社交网络或公众时,发生重新传送事件。例如,用户可以转发推文,如帖子等。

新鲜内容:新鲜内容在从查询被提交时起的一个阈值时间段内被生成。例如,新鲜内容可以是在查询被提交之前不到两小时生成的任何内容。内容可以是在其首次通过因特网公开可获得时被生成。内容还可以认为是在先前可获得的内容更新时被生成。新鲜内容可以是任何类型的内容,包括新闻文章、网页、社交媒体帖子、博客帖子、视频、图片等。

各方面可以定义具有固定或滑动阈值的新鲜度。固定阈值可以是一天、十二个小时、六个小时、一个小时等。滑动阈值可以基于针对病毒式现象的零小时确定而被使用。例如,被确定为与查询相关的病毒式社交帖子的发布时间可以认为是零小时。在此方面,只有在零小时之后生成的内容才被认为是新鲜的。

已经简要地描述了本文中描述的技术的各方面的概述,下面描述适于实现本文中描述的技术的各方面的示例性操作环境。

示例性操作环境

总体上参考附图,并且首先具体参考图1,示出了用于实现本文中描述的技术的各方面的示例性操作环境,其总体上被表示为计算设备100。但是,计算设备100仅是合适的计算环境的一个示例,而无意对本文中描述的技术的使用或功能的范围提出任何限制。计算设备100不应被解读为具有与所示部件中的任何一个或它们组合相关的任何依赖性或要求。

本文中描述的技术可以在计算机代码或机器可用指令的一般上下文中被描述,该计算机代码或机器可用指令包括由计算机或其他机器(诸如个人数据助理或其他手持设备)执行的计算机可执行指令,诸如程序部件。通常,程序部件(包括例程、程序、对象、部件、数据结构等)指代执行特定任务或实现特定抽象数据类型的代码。本文中描述的技术的各方面可以被实现在各种系统配置中,包括手持设备、消费电子产品、通用计算机、专业计算设备等。本文中描述的技术的各方面还可以被实现在分布式计算环境中,在该分布式计算环境中,任务由通过通信网络链接的远程处理设备来执行。

继续参考图1,计算设备100包括直接或间接地耦合以下设备的总线110:存储器112、一个或多个处理器114、一个或多个呈现部件116、输入/输出(i/o)端口118、i/o部件120和说明性电源122。总线110表示可以是一个或多个总线(诸如地址总线、数据总线或其组合)的部件。尽管为了清楚起见,用线条示出图1的各个块,但实际上,描绘的各个部件并非如此清楚,并且隐喻地,这些线条更准确地将是灰色的和模糊的。例如,可以将诸如显示设备等呈现部件视为i/o部件120。此外,处理器具有存储器。本申请的发明人认识到,这是本领域的本质,并且重申,图1的图仅是可以结合本文中描述的技术的一个或多个方面来使用的示例性计算设备的说明。在诸如“工作站”、“服务器”、“笔记本电脑”、“手持设备”等类别之间不做区别,因为所有这些类别均被认为在图1的范围内并且均指代“计算机”或“计算设备”。

计算设备100通常包括各种计算机可读介质。计算机可读介质可以是可由计算设备100访问的任何可用介质,并且包括易失性和非易失性介质、可移除和不可移除介质。作为示例而非限制,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括易失性和非易失性、可移除和不可移除介质两者,这些介质以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术来实现。

计算机存储介质包括ram、rom、eeprom、闪存或其他存储器技术、cd-rom、数字通用盘(dvd)或其他光盘存储装置、磁带盒、磁带、磁盘存储装置或其他磁存储设备。计算机存储介质不包括传播的数据信号。

通信介质通常在诸如载波或其他传输机制等调制数据信号中实施计算机可读指令、数据结构、程序模块或其他数据,并且包括任何信息传递介质。术语“调制数据信号”是指以在该信号中编码信息的方式设置或改变该信号的特性中的一个或多个特性的信号。作为示例而非限制,通信介质包括有线介质(诸如有线网络或直接有线连接)以及无线介质(诸如声学、rf、红外和其他无线介质)。上述中的任意的组合也应当被包括在计算机可读介质的范围内。

存储器112包括易失性和/或非易失性存储器形式的计算机存储介质。存储器112可以是可移除的、不可移除的或其组合。示例性存储器包括固态存储器、硬盘驱动器、光盘驱动器等。计算设备100包括从诸如总线110、存储器112或i/o部件120等各种实体读取数据的一个或多个处理器114。(多个)呈现部件116向用户或其他设备呈现数据指示。示例性呈现部件116包括显示设备、扬声器、打印部件、振动部件等。i/o端口118允许计算设备100在逻辑上耦合到其他设备、包括i/o部件120,其中一些设备可以是内置式的。

说明性i/o部件包括麦克风、操纵杆、游戏手柄、卫星天线、扫描仪、打印机、显示设备、无线设备、控制器(诸如触控笔、键盘和鼠标)、自然用户界面(nui)等。在一些实施例中,为了数字地捕获徒手用户输入,提供了笔数字转换器(未示出)和附带的输入工具(也未示出,但仅作为示例,可以包括笔或触笔)。笔数字转换器与(多个)处理器114之间的连接可以是直接的,或者经由利用本领域已知的串行端口、并行端口和/或其他接口和/或系统总线的耦合。此外,数字转换器输入部件可以是与诸如显示设备等输出部件分离的部件,或者在一些实施例中,数字转换器的可用输入区域可以与显示设备的显示区域共同延伸、与显示设备集成,或者可以作为覆盖或以其他方式附接到显示设备的单独设备而存在。任何和所有这样的变化及其任何组合都被认为在本文中描述的技术的范围内。

nui处理由用户生成的空中手势、语音或其他生理输入。适当的nui输入可以被解释为与计算设备100相关联地呈现的墨迹笔画。这些请求可以被传输到适当的网络元件以用于进一步处理。nui实现以下各项的任何组合:语音识别、触摸和触笔识别、面部识别、生物识别、屏幕上和屏幕附近的手势识别、空中手势、头部和眼睛跟踪、以及与计算设备100上的显示相关联的触摸识别。计算设备100可以配备有深度相机,诸如立体相机系统、红外相机系统、rgb相机系统、以及这些的组合,用于手势检测和识别。此外,计算设备100可以配备有能够检测运动的加速度计或陀螺仪。加速度计或陀螺仪的输出可以被提供给计算设备100的显示器,以渲染沉浸式增强现实或虚拟现实。

计算设备可以包括无线电设备。无线电设备传输和接收无线电通信。计算设备可以是适于通过各种无线网络来接收通信和媒体的无线终端。计算设备1100可以经由诸如码分多址(“cdma”)、全球移动通信系统(“gsm”)或时分多址(“tdma”)等无线协议来与其他设备进行通信。无线电通信可以是近距离连接、远距离连接、或近距离和远距离无线电信连接的组合。当提及“近”和“远”类型的连接时,不是指代两个设备之间的空间关系。相反,通常将近距离和远距离称为不同类别或类型的连接(即,主连接和辅助连接)。近距离连接可以包括与提供对无线通信网络的接入的设备(例如,移动热点)的连接,诸如使用802.11协议的wlan连接。与其他计算设备的蓝牙连接是近距离连接的第二示例。远距离连接可以包括使用cdma、gprs、gsm、tdma和802.16协议中的一个或多个的连接。

现在转到图2,提供了根据本文中描述的技术的一方面的适合响应于查找新鲜内容的查询来有效地返回新鲜内容的计算环境200。计算环境200包括搜索服务205、社交媒体平台207、社交媒体馈送210、网络221、用户设备1240、用户设备2242、用户设备3244和用户设备n246。搜索服务205包括社交媒体接口212、社交媒体索引214、新鲜度意图部件216、社交媒体搜索引擎218、新闻搜索引擎220、照片搜索引擎222、搜索输入接口224、搜索结果部件226、网络爬虫228、通用搜索引擎230和搜索索引232。在一个方面,用户设备通过网络221向搜索服务205传送查询并且进而接收搜索结果。

搜索服务205是在一个或多个数据中心中运行的一系列计算机程序,这些数据中心在因特网上连接到通过其可以接收查询的用户设备。计算机程序收集与因特网上可用的内容有关的信息,对内容编索引,并且使用这些索引来生成响应于查询的搜索结果。搜索服务205可以包括专门针对特定类型的内容的程序。例如,搜索服务205可以提供垂直搜索(searchvertical),该垂直搜索允许用户明确指定要搜索的类别的内容,诸如新闻、购物、社交媒体等。

社交媒体平台207是在一个或多个数据中心中运行的一系列计算机程序,这些数据中心在因特网上连接到通过其可以生成和分发社交媒体内容的用户设备。社交媒体平台207可以跟踪用户账户和用户之间的关系。社交媒体平台207还存储由用户生成的社交媒体帖子,并且允许公众或与生成内容的用户具有指定关系的用户访问社交媒体帖子。

社交媒体馈送210是来自社交媒体平台207的社交媒体帖子的数据流。社交媒体馈送210可以包括在帖子被生成时由社交媒体平台207的用户生成的所有社交媒体帖子的记录。

社交媒体接口212接收社交媒体馈送210并且处理该馈送,以供搜索服务205使用。示例性处理包括垃圾邮件检测和令人反感的内容的检测。垃圾邮件和令人反感的内容可以被处理以避免通过搜索服务205的意外分发。社交媒体接口212可以生成社交媒体索引214。

社交媒体索引214包括以由社交媒体搜索引擎218能够搜索的格式存储的社交媒体帖子的记录。

新鲜度意图部件216是确定查询是否涉及新鲜内容的程序。在本文中,涉及新鲜内容的查询可以被描述为具有新鲜度意图。为了确定查询是否具有新鲜度意图,对响应于查询的社交媒体帖子进行病毒性评估。新鲜度意图部件216可以评估各个社交媒体帖子以确定个体帖子是否是病毒式的。要评估的多个社交媒体帖子可以由社交媒体搜索引擎218生成。在一个方面,新鲜度意图部件216确定个体帖子的重新传送速率。重新传送速率可以通过以下来确定:分析社交媒体馈送210以确定个体社交媒体帖子已经被用户重新传送多少次。个体帖子的重新传送速率可以与用于确定帖子是否是病毒式的重新传送速率阈值相比较。如上所述,根据个体社交媒体帖子的年龄,可以使用不同的病毒性阈值。当在新鲜度阈值以上的社交媒体帖子是病毒式时,新鲜度意图部件216可以检测到新鲜度意图。在一方面,新鲜度阈值可以是一。

社交媒体搜索引擎218是被优化以返回响应于查询的社交媒体内容的专用搜索装置。社交媒体内容可以来自单个社交媒体平台或多个社交媒体平台。社交媒体搜索引擎218可以将结果限制到用户的社交网络,或返回公共可获得的社交媒体内容。社交媒体搜索引擎218可以访问社交媒体馈送210,并且还可以使用社交媒体内容的索引来生成搜索结果。在本文中描述的技术的一方面,社交媒体搜索引擎218可以运行由诸如新闻搜索引擎220、照片搜索引擎222或通用搜索引擎230等不同的搜索引擎接收到的查询,以返回相关的社交媒体内容。如前所述,可以通过新鲜度意图部件216来评估社交媒体内容是否为病毒式内容。

新闻搜索引擎220是被优化以标识响应于查询的新闻文章的专用搜索装置。新闻搜索引擎220可以使用仅包括被分类为新闻文章的内容的索引。在一个方面,新闻搜索引擎220具有多种搜索模式,包括新鲜搜索模式。新鲜搜索模式可以使新闻搜索引擎220仅返回新鲜的新闻文章。本文中描述的技术的各方面可以定义具有固定或滑动阈值的新鲜度。固定阈值可以是一天、十二个小时、六个小时、一个小时等。滑动阈值可以基于针对病毒式现象的零小时确定而被使用。例如,被确定为与查询相关的病毒式社交帖子的发布时间可以认为是零小时。在此方面,当新闻搜索引擎220处于新鲜模式时,仅返回在零小时之后生成的新闻内容。

照片搜索引擎222是被优化以返回诸如照片等视觉内容的专用搜索装置。照片搜索引擎222可以使用基于与照片相关联的元数据的照片索引来返回响应于查询的照片。在一个方面,照片搜索引擎222使用照片分类算法来标识在线照片中的内容。每张照片可以与发布日期或照片搜索引擎222首次获知该照片的日期相关联。照片搜索引擎222可以使用爬虫来探索不同的网站并且检索照片的索引。照片可以不与发布日期相关联,但取而代之,可以使用爬虫检索照片的日期。或者,时间可以与爬虫访问特定网站的时间之间的照片相关联。例如,如果照片在爬虫分析网站时的第一时间不存在但是在第二时间存在,则照片可以被分配有在第一次和第二次访问之间的发布日期。

搜索输入接口224是被配置为从用户计算设备接收搜索查询的计算机程序。搜索输入接口224可以生成具有搜索框的网页,通过该搜索框可以提交查询。搜索输入接口224还可以能够接收来自在用户设备上运行的应用的查询。示例性应用包括语音搜索应用和数字助理应用。在数字助理应用的语音搜索的情况下,该应用可以将语音转换为文本,或者仅为搜索输入接口224传送音频内容,用以转译为文本。搜索输入接口224将查询传送到适当的搜索引擎。在一个方面,搜索输入接口224包括初始确定用户可能感兴趣的主题(诸如新闻、购物、照片或社交内容)的分类特征。然后,该查询被提交给与主题相对应的搜索引擎。搜索输入接口224还可以包括允许用户明确选择用于搜索的主题的部件。主题选择可以被描述为选择垂直搜索。

搜索结果部件226是从搜索引擎接收搜索结果并且将这些结果输出到用户计算机设备的程序。在一个方面,搜索结果部件226生成用户设备可访问的搜索结果网页。搜索结果网页可以列出片段形式的一系列搜索结果,这些片段概括了内容以及允许用户访问内容的链接。或者,搜索结果可以以用户设备上运行的应用可消费的格式来传送。

网络爬虫228是自动浏览网页内容并且生成诸如搜索索引232等索引的程序。网页爬虫228可以开始于一系列url并且然后追随着url列表上的链接来查找附加内容。所浏览的每个页面都可以被添加成索引。因特网上的内容不断变化,使得保持索引更新成为一个挑战。网络爬虫228可以基于观察到的改变的频率来对网页进行优先级排序。与频繁改变的页面相比,不频繁改变的页面可能不太频繁被访问。虽然在此被列出为单独的部件,但是网络爬虫也可以是搜索引擎的关联部分或要考虑的部分。例如,可以使用一系列网络爬虫来为特定于主题的搜索引擎索引照片、新闻或其他信息。应当注意,社交媒体馈送210不是由网络爬虫生成的,而是被直接提供给社交媒体接口212。换言之,社交媒体馈送210可以在没有网络爬虫访问社交媒体平台的情况下被生成。

通用搜索引擎230是被设计为检索与查询有关的搜索结果的系统。与特定于主题的搜索引擎不同,通用搜索引擎230可以检索不同类型的内容,包括照片、新闻、社交媒体或其他内容。

搜索索引232是内容的有组织的数据存储库。搜索索引232可以由网页爬虫228填充,并且包括描述被索引的每个内容的信息。搜索索引232可以包括多个索引,或者以其他方式根据不同的主题类别或垂直搜索来对内容进行分类。例如,搜索索引232可以包括社交媒体索引、照片索引、新闻索引、购物索引、新鲜索引或其他索引。

现在转到图3,示出了根据本文中描述的技术的实施例的显示新鲜结果部分的搜索结果页面。显示新鲜结果的部分是在查询被确定为查找新鲜结果时呈现新鲜结果的一种可能的方法。在另一替代方案中,所有呈现的结果都是新鲜的。搜索结果页面300可以由网络浏览器来显示。在所示的示例中,用户已经提交了搜索查询310“低碳饮食”。在本文中描述的技术的各方面,响应于查询“低碳饮食”的多个社交帖子被返回,但不被立即呈现。这些社交帖子被分析以确定是否在阈值数目以上的社交帖子是病毒式的。在一个方面,该阈值数目为一。其他阈值也是可能的。

对于该示例,多个社交帖子包括与低碳饮食相关的若干病毒式推文,因为一位知名医生最近批评了低碳饮食的减肥益处。因此,搜索引擎转换到新鲜内容模式并且生成新鲜搜索结果页面,该新鲜搜索结果页面不同于在查询被确定不查找新鲜内容时返回的标准搜索结果页面。

作为响应,示出了两组结果。主结果部分320和新鲜结果部分355。主结果部分320示出了基于文档对搜索查询310的整体响应性而选择出的搜索结果。主结果部分320包括搜索结果330、搜索结果340和搜索结果350。每个搜索结果描述与低碳饮食相关的文档。这些文档可以是新闻文章、网页、博客帖子等。

新鲜结果部分355显示了具有最近发布日期的文档。“最近”的含义在本文中描述的技术的不同实施例中可以变化。例如,最近的文档可以在前一天、一周或甚至几个小时内被发布。关键在于使用一种方法来区分“最近”和“非最近”的文档。在所示的实施例中,在新鲜结果部分355中的每个搜索结果均示出有发布日期。搜索结果360在三小时之前被发布。搜索结果370在三小时之前被发布。搜索结果380在十二小时之前被发布。搜索结果390在47分钟之前被发布。搜索结果395在两小时之前被发布。

可以看出,新鲜结果部分355中的搜索结果可能没有严格地按照它们的发布日期来排序。相反,在所示的示例中,发布日期充当了过滤器。换言之,发布日期超过阈值时段的文档不够资格被包括在新鲜结果部分355中。在一个实施例中,最近发布的文档按照新鲜结果部分355内的响应性而被排序。随后将更详细描述对用户要接收新鲜搜索结果的这一意图的计算或确定。

现在转到图4,示出了根据本文中描述的技术的一方面的呈现包括新鲜内容的搜索结果的方法400。方法400可以由在一个或多个数据中心中操作的搜索服务(诸如搜索服务205)来执行。搜索服务可以通过广域网、诸如因特网来与用户设备通信。

在步骤410,搜索服务接收非社交媒体搜索查询。非社交媒体查询不涉及社交媒体内容。查询在被提交到社交媒体垂直搜索时涉及社交媒体内容,或者包括指示查找社交媒体结果的指示,诸如主题标签。类似地,非社交媒体查询不由社交媒体应用提交或不通过社交媒体平台上的界面来提交。该查询可以通过由搜索服务提供的搜索界面页面来接收。另一方面,该查询从用户设备上运行的应用接收。可以向搜索服务传送查询的应用包括数字助理、文本搜索应用和语音搜索应用。

在步骤420,多个社交媒体帖子被生成。这些社交媒体帖子包括响应于非社交媒体搜索查询的社交媒体帖子。社交媒体帖子可以由被优化以从一个或多个社交媒体平台搜索社交媒体内容的搜索引擎生成。在一个方面,返回社交媒体帖子的搜索引擎访问社交媒体馈送,以生成搜索结果。访问社交媒体馈送可以包括在社交媒体馈送被接收到时实时地生成或更新社交媒体帖子索引。各方面可以包括直接搜索社交媒体索引或社交媒体馈送。在一个方面,社交媒体帖子包括微博条目,诸如推文。

在步骤430,确定是否在阈值数目以上的社交媒体帖子是病毒式的。当社交媒体帖子的重新传送速率在每单位时间的重新传送事件的阈值以上时,社交媒体帖子是病毒式的。在一个方面,对于具有不同年龄范围的内容,每单位时间的重新传送事件的阈值是不同的。例如,年龄范围可以包括年龄小于五分钟的第一范围,在五分钟到小于三十分钟之间的第二范围,在三十分钟到少于六十分钟之间的第三范围,在六十分钟到十二小时之间的第四范围,和在十二小时到二十四小时之间的第五范围。这些年龄范围中的每一个可以被分配不同的重新传送速率阈值。通常,年龄范围越大,重新传送速率越大。

如上所述,每个年龄范围的重新传送速率可以通过回顾性分析病毒式媒体帖子来导出。可以将多个病毒式媒体帖子作为该分析的输入。多个病毒式媒体帖子的平均重新传送速率可以被确定在每个期望的年龄范围内。平均重新传送速率可以用作评估针对新的社交媒体帖子的病毒性的阈值。

在步骤440,响应于上述确定,使搜索引擎使用新鲜内容模式来生成包括非社交媒体内容的搜索结果。在一个方面,使用新鲜模式的指令被传送给搜索引擎。非社交媒体内容可以是任何类型的内容,包括新闻文章、网页、社交媒体帖子、博客帖子、视频、图片等。

在步骤450,搜索引擎使用新鲜内容模式生成非媒体搜索结果。在一个方面,新鲜内容模式包括通过新鲜搜索引擎来运行非社交媒体查询,该新鲜搜索引擎从新鲜索引检索内容,该新鲜索引仅索引满足新鲜准则的内容。新鲜准则可以是年龄,诸如一天。新鲜准则还可以与初始返回的多个社交媒体帖子中的病毒式社交媒体帖子的年龄有关。例如,如果最早的病毒式媒体帖子的年龄是三个小时,则新鲜度准则可以基于最早的病毒式媒体帖子的年龄而被设置为三个小时或另一数字。例如,新鲜准则可以是最早的病毒式媒体帖子的年龄+2个小时。换言之,如果最早的病毒式媒体帖子是三个小时,则新鲜度准则可以是五个小时。

作为使用新鲜索引的替代方案,各方面可以使用修改后的相关度排序算法,该算法与默认排序算法相比对内容的年龄赋予更多的权重。与使用默认排序算法可以给出的排序新内容相比,修改后的相关度排序算法可以增加新内容的相关度排序。生成新鲜结果的其他方法可以是可能的。

在步骤460,将搜索结果传送给提交查询的计算设备。

现在转到图5,提供了根据本文中描述的技术的一方面的呈现包括新鲜内容的搜索结果的方法500。方法500可以由在一个或多个数据中心中操作的搜索服务(诸如搜索服务205)来执行。搜索服务可以通过广域网(诸如因特网)与用户设备通信。

在步骤510,搜索引擎通过网络接收搜索查询。该搜索查询源自于用户计算设备。在一个方面,搜索查询是非媒体搜索查询。

在步骤520,通过以下来生成多个社交媒体帖子:通过社交媒体搜索引擎运行该查询,该社交媒体搜索引擎能够访问社交媒体平台的社交媒体馈送。多个社交媒体帖子包括响应于该搜索查询的社交媒体帖子。在一个方面,社交媒体帖子包括微博条目,诸如推文。

在步骤530,确定在阈值数目以上的社交媒体帖子满足病毒性准则。在一个方面,阈值数目的社交媒体帖子是一个或多个病毒式社交媒体帖子。个体社交媒体帖子的病毒性准则可以是社交媒体帖子的重新传送速率在每单位时间的重新传送事件的阈值以上。每单位时间的重新传送事件的阈值可以根据社交媒体帖子的年龄而改变。

在步骤540,响应于上述确定,使搜索引擎使用新鲜内容模式来生成包括非社交媒体内容的搜索结果。如上所述,新鲜内容模式可以返回在新鲜索引中列出的内容,或者在确定内容相关度时赋予较新的内容更多的权重。

在步骤550,由搜索引擎使用新鲜内容模式来生成搜索结果。搜索结果可以仅包括一般的非社交媒体内容。在步骤560,通过网络向用户计算设备输出搜索结果。

在一个方面,通过分析被确定为病毒式的多个社交媒体帖子,来确定病毒性准则或阈值。病毒式帖子被收集和分析,以确定在一个或多个年龄范围(例如第一年龄范围)期间的平均重新传送速率。可以重复该方法以计算每个期望范围的平均重新传送速率。确定针对第一年龄范围期间的平均重新传送速率的标准差,并且将针对年龄在第一年龄范围内的社交媒体帖子的病毒性准则设置为比第一年龄范围期间的平均重新传送速率低一个标准差。在另一方面,使用平均值而不是标准差。

在一个方面,收集多个病毒式社交媒体帖子的步骤包括通过计算机接口向一个或多个人传送多个社交媒体帖子并且从一个或多个人接收这些社交媒体帖子是病毒式还是非病毒式的分类。

已经关于特定实施例描述了本文中描述的技术的实施例,这些实施例在所有方面意在说明性的而不是限制性的。对于本文中描述的技术所属的本领域普通技术人员来说,在不脱离本文中描述的技术的范围的情况下,替代实施例将是显而易见的。

实施例1.一种或多种存储计算机可执行指令的计算机存储介质,所述计算机可执行指令在由具有处理器的计算设备执行时使所述计算设备执行呈现包括新鲜内容的搜索结果的方法,所述方法包括:在搜索引擎处接收非社交媒体搜索查询;生成响应于所述非社交媒体搜索查询的多个社交媒体帖子;确定在阈值数目以上的所述社交媒体帖子是病毒式的,其中当社交媒体帖子的重新传送速率在每单位时间的重新传送事件的阈值以上时,所述社交媒体帖子是病毒式的;响应于所述确定,使所述搜索引擎使用新鲜内容模式来生成包括非社交媒体内容的搜索结果;在所述搜索引擎处使用所述新鲜内容模式来生成非社交媒体搜索结果;以及向提交所述非社交媒体查询的远程计算设备输出所述非社交媒体搜索结果。

实施例2.根据实施例1所述的介质,其中在所述搜索引擎处使用所述新鲜内容模式的所述生成包括通过新鲜搜索引擎来运行所述非社交媒体查询,所述新鲜搜索引擎从新鲜索引来检索内容,所述新鲜索引仅索引满足新鲜准则的内容。

实施例3.根据上述实施例中任一项所述的介质,其中包括社交媒体帖子的所述多个社交媒体帖子通过以下来生成:通过社交媒体搜索引擎运行所述非社交媒体搜索查询。

实施例4.根据实施例3所述的介质,其中所述社交媒体搜索引擎能够访问社交媒体馈送,所述社交媒体馈送包括在社交媒体平台内的所有公共社交帖子的实时记录。

实施例5.根据上述实施例1中任一项所述的介质,其中在所述搜索引擎处使用所述新鲜内容模式的所述生成包括通过所述搜索引擎来运行所述非社交媒体查询并且使用新鲜排序算法向响应内容分配相关度,与在所述搜索引擎不处于所述新鲜内容模式时所使用的默认排序算法相比,所述新鲜排序算法向内容的年龄赋予更多的权重。

实施例6.根据上述实施例中任一项所述的介质,其中对于具有不同年龄范围的社交媒体帖子,所述每单位时间的重新传送事件的阈值是不同的。

实施例7.根据实施例6所述的介质,其中所述不同年龄范围包括年龄小于五分钟的第一范围,在五分钟到小于三十分钟之间的第二范围,在三十分钟到少于六十分钟之间的第三范围,在六十分钟到十二小时之间的第四范围,和在十二小时到二十四小时之间的第五范围。

实施例8.一种呈现包括新鲜内容的搜索结果的方法,所述方法包括:由搜索引擎通过网络接收搜索查询,所述搜索查询源自于用户计算设备;通过以下来生成响应于所述搜索查询的多个社交媒体帖子:通过社交媒体搜索引擎运行所述搜索查询,所述社交媒体搜索引擎能够访问社交媒体平台的社交媒体馈送;确定在阈值数目以上的所述社交媒体帖子满足病毒性准则;响应于所述确定,使所述搜索引擎使用新鲜内容模式来生成包括非社交媒体内容的搜索结果;由所述搜索引擎使用所述新鲜内容模式来生成搜索结果;以及通过所述网络向所述用户计算设备输出所述搜索结果。

实施例9.根据实施例8所述的方法,其中针对个体社交媒体帖子的所述病毒性准则是所述社交媒体帖子的重新传送速率在每单位时间的重新传送事件的阈值以上。

实施例10.根据实施例9所述的方法,其中所述每单位时间的重新传送事件的阈值根据社交媒体帖子的年龄而改变。

实施例11.根据实施例8-10中任一项所述的方法,其中所述阈值数目的所述社交媒体帖子是一个或多个病毒式社交媒体帖子。

实施例12.根据实施例8-11中任一项所述的方法,其中所述搜索查询是非社交媒体搜索查询。

实施例13.根据实施例8-12中任一项的方法,其中所述方法还包括通过以下来确定所述病毒性标准:收集多个病毒式社交媒体帖子;对于所述社交媒体帖子的第一年龄范围,确认在所述第一年龄范围期间的平均重新传送速率;确定在所述第一年龄范围期间的所述平均重新传送速率的标准差;将针对年龄在所述第一年龄范围内的社交媒体帖子的所述病毒性准则设置为比所述第一年龄范围期间的所述平均重新传送速率低一个标准差。

实施例14.根据实施例8-13中任一项所述的方法,其中所述方法还包括通过以下方式来确定所述病毒性标准:收集多个病毒式社交媒体帖子;对于所述社交媒体帖子的第一年龄范围,确认在所述第一年龄范围期间的平均重新传送速率;以及将针对年龄在所述第一年龄范围内的社交媒体帖子的所述病毒性准则设置为在所述第一年龄范围期间的所述平均重新传送速率。

实施例15.根据实施例8-14中任一项所述的方法,其中所述收集多个病毒式社交媒体帖子包括通过计算机接口向一个或多个人传送多个旧的社交媒体帖子并且从所述一个或多个人接收所述社交媒体帖子是病毒式还是非病毒式的分类。

实施例16.一种计算系统,被配置为响应于被分类为与新鲜内容相关的查询来生成新鲜搜索结果,所述系统包括:搜索输入接口,被配置为从远程计算设备接收查询;社交媒体接口,被配置为从社交媒体平台接收社交媒体馈送;社交媒体搜索引擎,被配置为标识与所述查询相关的社交媒体帖子并且向所述社交媒体帖子分配相关度等级;新鲜意图部件,被配置为:(1)从所述社交媒体搜索引擎接收响应于所述查询的社交媒体帖子,(2)确定满足病毒性阈值的所述社交媒体帖子的数目,(3)当所述数目超过新鲜度阈值时,将所述查询分类为新鲜查找,以及(4)指令搜索引擎处理所述查询以生成新鲜搜索结果;搜索引擎,被配置为以新鲜内容模式进行操作,运行所述查询,并且生成包括新鲜内容的搜索结果集合;以及搜索结果界面,被配置为向所述远程计算设备传送所述搜索结果集合。

实施例17.根据实施例16的计算系统,其中所述新鲜内容具有小于一天的年龄。

实施例18.根据实施例15-17中任一项所述的计算系统,其中所述新鲜度阈值是一个或多个病毒式社交媒体帖子。

实施例19.根据实施例15-18中任一项所述的计算系统,其中针对个社交媒体帖子的所述病毒性阈值是:所述个体社交媒体帖子的重新传送速率在每单位时间的重新传送事件的阈值以上。

实施例20.根据实施例15-19中任一项所述的计算系统,其中所述个体社交媒体帖子是微博帖子。

本文中描述的技术的各方面已经被描述为说明性而非限制性的。应当理解,某些特征和子组合是有用的并且可以在不参考其他特征和子组合的情况下被采用。这可从权利要求中预期到并且在权利要求的范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1