网页处理方法、装置和电子设备与流程

文档序号:19991543发布日期:2020-02-22 02:20阅读:290来源:国知局
网页处理方法、装置和电子设备与流程

本申请涉及互联网技术领域,尤其涉及移动互联网技术领域。



背景技术:

在互联网技术领域,搜索引擎根据一定的策略和算法从互联网上搜集信息,对信息进行组织处理后,为用户提供搜索结果内容。目前业界的内容索引能力主要在服务端完成,搜索引擎的职责实现了对网页的爬取、分析、提取、入库等工作。以用户输入关键词查找信息为例,搜索引擎基于该关键词在数据库中进行搜寻,找到与该关键词相符的网页后,采用特定算法计算出各网页对应的相关度,根据相关度高低、权重系数等对各网页进行排序,最后按顺序显示各个网页的链接,作为搜索结果页提供给用户。如果用户点击搜索结果页中的某个链接,可新建页面显示该链接的网页。

目前,随着智能手机的快速普及,移动互联网已经逐渐成为大众获取信息的主要途径。在内容搜索领域,由于获取信息的终端由个人电脑pc逐渐转变为移动设备如手机,以往搜索结果页中相关性最好的网页,已不一定是用户浏览体验最好的网页,以往质量最优的网页,已不一定是最优,网页的有效性、可用性随着时间的推移快速发生变化。当移动端出现低质或无效的搜索结果页面时,严重影响用户对搜索结果内容的快速获取,影响搜索引擎产品的可用度。



技术实现要素:

有鉴于此,本申请实施例提供一种网页处理方法、装置、电子设备和存储介质。

第一方面,本申请实施例提供一种网页处理方法,应用于服务器,方法包括:

在处理搜索请求的过程中,接收来自终端的网页异常信息,网页异常信息包括第一网页的信息,第一网页被终端诊断为存在异常;

对第一网页进行诊断,以确认第一网页是否存在异常;

如果确认第一网页存在异常,则确定异常所属的类型;

根据异常所属的类型,对第一网页进行处理。

本申请的实施例在终端对网页进行诊断,发现异常时将异常信息上报至服务器,服务器启动针对异常网页的诊断分析,并根据异常网页的类型对异常网页实施干预处理。本申请实施例以终端对打开网页的主动诊断为出发点,可及时发现异常并及时上报,服务器确认异常后进行相应处理,能够在最大程度上排除低质网页,本申请实施例可应用在用户网络搜索过程中,可提高整个搜索过程的效率,提升用户满意度。

根据本申请实施例的方法,对第一网页进行诊断,以确认第一网页是否存在异常,包括:

根据接收到的多个网页异常信息,对第一网页进行诊断,以确认第一网页是否存在异常;其中,多个网页异常信息来自多个终端,多个终端中的至少两个终端不同;多个网页异常信息中的每个网页异常信息均包括第一网页的信息。

这样处理的好处是,由于上述过程中有多个终端参与了上报和诊断,共同得到该网页异常的诊断结果,因此诊断结果准确度更高。

根据本申请实施例的方法,对第一网页进行诊断,以确认第一网页是否存在异常,包括:对第一网页进行仿真加载,如果仿真加载过程中出现异常,确认第一网页存在异常。

这样处理的好处是,服务器对异常网页进行仿真加载,可确保对异常网页的诊断结果更为可靠,避免可能发生的链接删除、链接降序或网页移除等操作造成误伤。

根据本申请实施例的方法,在确认第一网页存在异常之后,方法还包括:确定与第一网页相关的其他网页和/或与第一网页相关的站点是否存在异常。

这样处理的好处是,服务器针对异常网页进行相关性分析,提前查明与该异常网页相关的站点和其他网页是否已出现问题,可根据结果提前处理受影响的网页。

根据本申请实施例的方法,对第一网页进行诊断,以确认第一网页是否存在异常,包括:根据接收到的第一网页的网页异常信息的数量在第一网页被选中的总量中的占比,确认第一网页是否存在异常。

这样处理的好处是,通过占比的大小可表征网页的可用性高低,占比越大,说明该第一网页出现异常的次数越多,说明该第一网页的可用性越差。

根据本申请实施例的方法,对第一网页进行诊断,以确认第一网页是否存在异常,包括:

计算在预定时间段内,针对第一网页接收到网页异常信息的次数与第一网页在多个搜索结果页中被选中的次数的比值;

如果比值大于第一预设阈值,则确认第一网页存在异常。

本申请实施例中计算得到的比值越大,说明多用户搜索过程中该网页出现异常的次数越多,说明该网页的可用性越低。

根据本申请实施例的方法,确定异常所属的类型,包括:

如果第一网页对应的比值小于或等于第二预定阈值,第一网页属于不稳定的网页;

根据异常所属的类型,对网页进行处理,包括:

将第一网页在搜索结果页中删除或降序。

根据本申请实施例的方法,确定异常所属的类型,包括:

如果第一网页对应的比值大于或等于第三预定阈值,第一网页属于不可用的网页;将第一网页从搜索数据库中移除。

这样处理的好处是,对于不稳定的异常网页,一定时间之后可能恢复稳定,因此仅将其从搜索结果页中删除或降序,后续用户仍有可能将其检出;对于不可用的网页,恢复的可能性较低,从数据库中移除,可避免用户再次检出。

根据本申请实施例的方法,方法还包括:

接收多个终端发送的对第一网页的诊断结果,诊断结果包括以下多项中的至少一项:

对网页内容解析状态的诊断结果、对网页内容处理状态的诊断结果、对终端网络层状态的诊断结果、对终端系统状态的诊断结果、对终端联网状态的诊断结果;

接收多个终端发送的用户信息和/或配置信息;

其中,确定异常所属的类型,包括:

根据接收到的诊断结果、用户信息和/或配置信息,确定异常所属的类型。

这样处理的好处是,服务器接收终端发送的诊断结果信息、终端的用户信息和/或配置信息等,在此情况下,服务器可基于接收到的信息对异常网页做更可靠、全面的诊断分析,用于确定异常网页所属的类型。

根据本申请实施例的方法,类型包括以下各项中的至少一项:用户地域、网络运营商、联网方式。

这样处理的好处是,可对用户特征、网络特征、网页特征、运营商特征等进行多维度考量,使处理结果与实际需求相符。

第二方面,本申请实施例提供一种网页处理方法,应用于终端,方法包括:

在处理搜索请求的过程中,在搜索结果页接收到针对第一链接的选中操作后,加载第一链接对应的第一网页;

对第一网页的加载内容和加载环境进行诊断,以确认第一网页是否存在异常;

如果确认第一网页存在异常,向服务器发送网页异常信息,网页异常信息包括第一网页的信息。

本申请实施例的方法将被动处理变为主动处理,以往有内容不可用时,需用户手动上报,本申请实施例由终端主动上报,对异常网页的干预能力更主动。

根据本申请实施例的方法,终端还将对第一网页的加载内容和加载环境的诊断结果发送给服务器,诊断结果包括以下多项中的至少一项:对网页内容解析状态的诊断结果、对网页内容处理状态的诊断结果、对终端网络层状态的诊断结果、对终端系统状态的诊断结果、对终端联网状态的诊断结果。

根据本申请实施例的方法,终端还向服务器发送终端的用户信息和/或终端的配置信息。

第三方面,本申请实施例还提供一种电子设备,包括:

至少一个处理器;以及

与至少一个处理器通信连接的存储器;其中,

存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如上的对话引导模型的训练样本构建方法或者执行如上的网页处理方法。

第四方面,本申请实施例还提供一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行如上的对话引导模型的训练样本构建方法或者执行如上的网页处理方法。

上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案,不构成对本申请的限定。其中:

图1是本申请实施例的网页处理方法在服务器侧的处理流程图;

图2是本申请实施例的网页处理方法在终端侧的处理流程图;

图3是本申请实施例的网页处理装置10的结构框图;

图4是本申请实施例的网页处理装置20的结构框图;

图5是本申请实施例的网页处理方法的场景图。

图6是用来实现本申请实施例的网页处理方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

经申请人研究发现,移动端容易出现低质或无效搜索结果的原因有多种,涉及到多方面的因素,例如:手机等移动设备的屏幕小,显示空间有限,对页面的可用性会产生显著影响;移动设备由用户随身携带,不同网络运营商条件下,网络不稳定的情况时有发生,会对页面的可用性产生影响;对于同一网站,不同地域的网页内容可能动态配置,地域因素也会影响网页的可用性,等等。

本申请实施例提出一种网页处理方法,其中,终端(有时称为用户设备、客户端、浏览器应用端)不仅从服务端获取数据,同时也作为数据的提供者,向服务端(例如云端)提供内容,用于对搜索结果的可用性状态评估,服务端根据终端上报的信息进行分析和处理,可实现对网页可用性的自动化评估能力。

参考图1,本申请实施例提供的网页处理方法,服务器侧的处理过程包括如下步骤:

s101,在处理搜索请求的过程中,接收来自终端的网页异常信息,网页异常信息包括第一网页的信息,第一网页被终端诊断为存在异常;

s102,对第一网页进行诊断,以确认第一网页是否存在异常;

s103,如果确认第一网页存在异常,则确定异常所属的类型;

s104,根据异常所属的类型,对第一网页进行处理。

本申请的实施例终端对网页进行诊断,发现异常时将异常信息上报至服务器,服务器启动针对异常网页的诊断分析,并根据异常网页的类型对异常网页实施干预处理。本申请实施例以终端对打开内容的主动诊断为出发点,可及时发现异常并及时上报,服务器确认异常后进行相应处理,使得用户搜索结果页中的链接能够在最大程度上排除低质网页,本申请实施例应用于搜索过程中,可提高整个搜索过程的效率,提升用户满意度。

参考图2,本申请实施例提供的网页处理方法,终端侧的处理过程包括如下步骤:

s201,在处理搜索请求的过程中,在搜索结果页接收到针对第一链接的选中操作后,加载第一链接对应的第一网页;

s202,对第一网页的加载内容和加载环境进行诊断,以确认第一网页是否存在异常;

s203,如果确认第一网页存在异常,向服务器发送网页异常信息,网页异常信息包括第一网页的信息。

本申请实施例的方法将被动处理变为主动处理,以往有内容不可用时,需用户手动上报,本申请实施例由终端主动上报,对异常网页的干预能力更主动。

在本申请的一种实施例中,根据接收到的多个网页异常信息,对第一网页进行诊断,以确认第一网页是否存在异常;多个网页异常信息来自多个终端,多个终端中的至少两个终端不同;多个网页异常信息中的每个网页异常信息均包括第一网页的信息。

由于上述过程中有多个终端参与了上报和诊断,共同得到该网页异常的诊断结果,因此诊断结果准确度更高。

在本申请的一种实施例中,对第一网页进行诊断,以确认第一网页是否存在异常,包括:

根据接收到的第一网页的网页异常信息的数量在第一网页被选中的总量中的占比,确认第一网页是否存在异常。

通过占比的大小可表征网页的可用性高低,占比越大,说明该第一网页出现异常的次数越多,说明该第一网页的可用性越差。

在本申请的一种实施例中,对第一网页进行诊断,以确认第一网页是否存在异常,包括:

计算在预定时间段内,针对第一网页接收到网页异常信息的次数与第一网页在多个搜索结果页中被选中的次数的比值;

如果比值大于第一预设阈值,则确认第一网页存在异常。

本申请实施例中计算得到的比值越大,说明多用户搜索过程中该网页出现异常的次数越多,说明该网页的可用性越低。

为便于理解本申请实施例的终端侧和服务器侧的交互过程,以下以搜索过程为例对终端和服务端的交互处理进行描述。

当终端接收到用户的搜索请求时,终端基于搜索请求(例如搜索文本、语音或图片等)向服务器请求搜索结果;

服务器收到终端的搜索请求后,在数据库中进行搜索,形成搜索结果页返回给终端,其中,搜索结果页包括经过排序的多个网页链接,大部分为与搜索请求相关的网页链接,相关性越大排序越靠前;

终端将搜索结果页显示在屏幕上,供用户查看;

当终端接收到用户选择了搜索结果页中的第一链接时,终端向服务器请求加载该第一链接的网页(或称页面);

接收到服务器反馈后,终端开始加载该第一链接的网页,并将加载结果显示在屏幕上,其中,在终端开始加载该第一链接的网页后,终端对加载过程中的网页内容的状态进行诊断分析,目的是确认网页内容是否存在异常;终端还可以对网页的加载环境进行诊断分析,目的是确认网页加载环境是否存在异常;

通过终端的诊断分析,如果终端发现存在异常,终端向服务器上报网页异常信息;

在本申请的实施例中,终端向服务器上报的网页异常信息可能有以下情况中的至少一种:

①该网页无法访问;

②该网页中的内容包含错误提示信息;

③该网页访问超时,例如30秒内无响应;

接收到终端上报的网页异常信息后,服务器对该网页进行再次诊断分析,目的是确认该网页是否存在异常;

通过服务器再次诊断分析,如果服务器确认该网页存在异常,则服务器对该网页进行处理。在本申请的实施例中,服务器可以对异常网页进行如下处理:将异常网页对应的链接从搜索结果页中删除;还可以将异常网页对应的链接在搜索结果页中降序(或者降权);还可以将异常网页从搜索数据库中移除,达到提高用户搜索结果内容质量的目的。

其中,服务器对网页的再次诊断分析可以包括:计算在预定时间段内,针对同一个网页上报异常信息的上报次数与该网页在全网搜索结果页中被选中(或称被用户点出)的次数的比值,如果该比值大于预设阈值,则服务器确认该网页存在异常。

在本申请的实施例中,终端可为智能手机、平板电脑、智能可穿戴设备等移动终端设备,也可为pc、电脑笔记本等传统的非移动终端设备,本申请实施例可用于提高各类终端设备的搜索结果的内容质量。

作为示例,以下以终端设备为智能手机、服务端的预设阈值为90%为例,对上述过程进行描述和说明。

假设用户张三使用智能手机,在手机应用app中输入搜索关键词:玫瑰花;其中所使用的app可为搜索引擎类app,也可为浏览器app;

在搜索结果页中,展示了若干条与“玫瑰花”相关的链接,张三点击了第三条链接,请求加载网页;

手机端向搜索服务器请求加载该第三条链接的网页,但是加载失败,得到的网页显示为“未找到该页面”;手机端诊断第三条链接的网页存在异常,立即将异常信息上报到云端;

云端接收到该异常信息后,进行再次诊断,诊断条件为:在3分钟内针对该第三条链接的网页上报异常信息的上报次数与该网页在搜索结果页中被点出的次数的比值大于90%。诊断发现,在3分钟之内,在张三上报异常信息之前,该第三条链接在搜索结果页中已被点出了2次,且已经接收到2名用户(李四和王五)针对该第三条链接分别上报了异常信息,则,加上本次张三上报的异常信息,在3分钟之内,共有3人在各自的搜索结果页中点出了该第三条链接,且共有3人上报异常,计算上报该网页存在异常的上报次数3与该网页在搜索结果页中被选中的次数3的比值为1(3/3=1),大于预设的阈值90%,因此云端诊断后确认该网页存在异常。

这里,由于上述过程中有多名用户(3名)的搜索行为参与了验证,共同得到该网页异常的诊断结果,因此,本申请实施例中将上述服务器对网页进行再次诊断的过程称为对网页的“多方认证”过程。

对于“多方认证”处理中计算得到的上述比值,该比值越大,说明全网搜索过程中该网页出现异常的次数越多,说明该网页的可用性越差。

举例来说,如果“多方认证”得到的比值低于60%,比如为30%,异常网页可能是由于诸如网络状态、用户设备问题等原因,处于不稳定状态;如果“多方认证”得到的比值高于90%,则很有可能该网页的站点已关闭下线,该网页已不可用。

因此,如果服务器“多方认证”的结果为大于预设阈值,该网页存在异常,则需对异常网页进行进一步处理,以避免用户再次点出异常网页,影响用户浏览体验。

进一步处理的具体方式如前,将该网页对应的链接从搜索结果页中删除,也可以将该网页对应的链接在搜索结果页中降序,也可以将该网页从搜索数据库中移除。

再进一步,在本申请的实施例中,还可以分别设置为:对于低于第一预定阈值的异常网页,多为不稳定的网页,将其在搜索结果页中删除或降序;对于高于第二预定阈值的异常网页,多为不可用的网页,将其从搜索数据库中移除。

这样处理的好处是,对于不稳定的异常网页,一定时间之后可能恢复稳定,因此仅将其从搜索结果页中删除或降序,后续用户仍有可能将其检出;对于不可用的网页,恢复的可能性较低,从数据库中移除,避免用户再次检出。

以下将分别侧重于终端侧和服务器侧,对本申请实施例的具体实现过程进行详细描述。

首先侧重描述终端侧的内容,在本申请的实施例中,终端上报的网页异常信息可能是相关网页无法访问,也可能是相关网页中的内容包含错误提示信息,也可能是相关网页访问超时,造成这些异常的原因有可能是多种多样的,以下举例进行说明。

在本申请的实施例中,终端可以对网页内容进行诊断,还可以对网页加载环境进行诊断,从中可以发现一些造成网页异常的原因。

具体来看,终端对网页内容的诊断可以有:对网页内容解析状态的诊断、对网页内容处理状态的诊断;终端对网页加载环境的诊断可以有:对终端网络层状态的诊断、对终端系统状态的诊断、对终端联网状态的诊断,等等。

通过上述一项或多项的诊断,终端能够得到一些诊断结果,可推断造成网页异常的原因,例如,诊断发现浏览器无法完成网页内容解析(可能是由于该网站已关闭下线,导致网页无法完成加载);又如,诊断发现终端联网状态异常(可能是由于终端设备与网络的连接断开,导致网页无法完成加载),那么,终端向服务器上报网页异常时,可以将异常诊断的内容也进行上报,供服务器进一步诊断和处置用。

进一步,终端还可以将自身的用户信息和/或配置信息等也上报给服务器,例如:终端用户归属地、终端所在地、网络运营商、联网类型(如无线网络wifi或者流量数据等)、用户代理(useragent,ua)参数,等等,供服务器进一步诊断和处置用。

对于服务器侧的处理,在本申请的实施例中,服务器接收到来自终端上报的网页异常信息后,将对该网页做诊断分析,以确认该网页是否确实存在异常,如前,本申请实施例设计了以“多方认证”的方式对网页进行诊断分析,计算在预定时间段内,上报该网页存在异常的上报次数与该网页在搜索结果页中被选中的次数的比值,如果该比值大于预设阈值,认定该网页存在异常。

经过“多方认证”,如果服务器确认该网页存在异常,服务器对异常网页进行处理,处理方式再次列举如下:

a.将异常网页的链接从搜索结果页中删除;

b.将异常网页的链接在搜索结果页中降序;

c.将异常网页从搜索数据库中移除。

对于上述三种情况,服务器何时宜选择何种处理方式,本申请实施例的另一种处理逻辑如下。

在本申请的实施例中,服务器接收终端发送的网页异常信息时,还可能接收终端发送的终端对网页的诊断结果信息;进一步,还可能接收终端发送的该终端的用户信息和/或配置信息等。在此情况下,服务器可基于接收到的信息,对异常网页做更为可靠、全面的诊断分析,从而确定采取合适的方式对异常网页进行处理。以下分别具体说明。

一方面,在“多方认证”过程中,服务器可以根据多方认证的来源(也就是多个用户终端)发送的诊断结果、多个用户终端的户信息和/或配置信息,对异常进行分类,从而对异常网页进行合理处置。

其中,异常所属的类型可能包括以下各项中的至少一项:地域、网络运营商、联网方式。以下以多方认证的多个用户所属地域不同为例,进行解释说明,但并不排除其他因素也可能不同的情况,例如网络运营商也可能不同、联网类型也可能不同,等等。

在本申请的某个实施例中,服务器接收到关于同一个网页的多个用户上报的多个异常信息,均为该网页无法访问,其中,黑龙江地区用户数量为100个,北京地区用户数量为3个,移动用户数量为5个,wifi用户数量为1个;在服务器的“多方认证”处理过程中,服务器计算得到在预定时间段内,黑龙江地区的用户上报该网页存在异常的上报次数(100次)与该网页在黑龙江地区范围内被搜索选中的次数(也为100次)的比值为1,大于预设的阈值99%。则可能的情况是由于该网页的站点出现地域性因素导致的故障,黑龙江地区的用户无法正常访问该网页,而其他地区的用户能够正常访问该网页。

对此,较佳的处理方式是,服务器将该网页在黑龙江地区用户的搜索结果页中删除,但并不将该网页从搜索数据库中移除,以供黑龙江地区以外的用户正常搜索浏览。如此,可避免直接从数据库移除网页造成误伤,可对用户特征、网络特征、网页特征、运营商特征等进行多维度考量,使处理结果与实际需求相符。

另一方面,经过“多方认证”,在服务器确认该网页存在异常之后,为了验证判断是否属实,服务器可以对异常网页进行仿真加载。

具体地,服务器可以根据终端上报的用户信息和/或配置信息等(例如网络参数、ua参数)进行配置,在服务器侧实施对异常网页的仿真加载,如果仿真加载过程出现异常,说明该网页存在异常属实;如果仿真加载过程没有出现异常,说明该网页存在异常不属实,该网页还可用。

本申请实施例的服务器对异常网页进行仿真加载,可确保对异常网页的诊断结果更为可靠,避免可能发生的链接删除、链接降序或网页移除等操作造成误伤。

再一方面,经过“多方认证”,在服务器确认异常网页确实存在异常之后,服务器还可分析与异常网页相关的其他网页是否已出现问题,从而提前将可用性差的网页排除在用户搜索结果页之外。这里,可将对异常网页相关的其他网页是否已出现问题的分析简称为“相关性分析”,例如对异常网页的上级页面和/或下级页面进行分析,还可对异常网页的站点根页面和/或子页面进行分析,还可对异常页面的其他有可能相关的页面进行分析。

具体地,当服务器确认网页存在异常之后,服务器可对该异常网页的上级页面进行仿真加载,查明是否加载正常,如果不能正常加载,则说明上级网页存在异常;另外,还可对该异常网页的站点的根页面进行仿真加载,如果不能正常加载,说明该站点存在故障或已关闭,其下所有网页均有可能存在异常。此外,服务器也可以从终端上报的异常信息中查找相关的页面信息,提前仿真加载以预估相关页面的有效性。

举例说明,在本申请某次实施例中,终端上报其搜索结果页中的一条链接访问超时,为方便描述将该链接地址表示为www.aaa.com/bbb/ccc/eee.html,为进行相关性分析,其上级页面有:www.aaa.com(站点根页面),www.aaa.com/bbb、www.aaa.com/bbb/ccc等相关页面,服务器对这些页面分别进行仿真加载,对不能正常加载的异常页面进行处理,可从用户搜索结果页中降权或删除。

其中,如果站点根页面www.aaa.com出现问题,则与根页面相关的子页面均可能受到影响,服务器可根据预估结果提前处理受影响的网页。

在本申请的实施例中,对于在用户搜索结果页中被删除、降序或从搜索数据库中移除的网页,还可以设置针对性的恢复机制,例如,服务器重新仿真加载,如果能够正常加载,则恢复为正常网页。

与以上内容相对应地,本申请实施例还提供一种网页处理装置10,应用于服务器,参考图3,网页处理装置10包括:

接收模块12,用于在处理搜索请求的过程中,接收来自终端的网页异常信息,网页异常信息包括第一网页的信息,第一网页被终端诊断为存在异常;

诊断模块14,用于对第一网页进行诊断,以确认第一网页是否存在异常;

类型确认模块16,用于在诊断模块确认第一网页存在异常的情况下,确定异常所属的类型;

处理模块18,用于根据异常所属的类型,对第一网页进行处理。

在本申请的实施例中,诊断模块14用于根据接收到的多个网页异常信息,对第一网页进行诊断,以确认第一网页是否存在异常;其中,多个网页异常信息来自多个终端,多个终端中的至少两个终端不同;多个网页异常信息中的每个网页异常信息均包括第一网页的信息。

在本申请的实施例中,诊断模块14用于对第一网页进行仿真加载,如果仿真加载过程中出现异常,确认第一网页存在异常。

在本申请的实施例中,还包括相关处理模块,用于在确认第一网页存在异常之后,确定与第一网页相关的其他网页和/或与第一网页相关的站点是否存在异常。

在本申请的实施例中,诊断模块14用于根据接收到的第一网页的网页异常信息的数量在第一网页被选中的总量中的占比,确认第一网页是否存在异常。

在本申请的实施例中,诊断模块14用于计算在预定时间段内,针对第一网页接收到网页异常信息的次数与第一网页在多个搜索结果页中被选中的次数的比值;如果比值大于第一预设阈值,则确认第一网页存在异常。

在本申请的实施例中,类型确认模块16用于在第一网页对应的比值小于或等于第二预定阈值的情况下,确定第一网页属于不稳定的网页;处理模块18用于将第一网页在搜索结果页中删除或降序。

在本申请的实施例中,类型确认模块16用于在第一网页对应的比值大于或等于第三预定阈值的情况下,确定第一网页属于不可用的网页;处理模块18用于将第一网页从搜索数据库中移除。

在本申请的实施例中,接收模块12还用于接收多个终端发送的对第一网页的诊断结果,诊断结果包括以下多项中的至少一项:

对网页内容解析状态的诊断结果、对网页内容处理状态的诊断结果、对终端网络层状态的诊断结果、对终端系统状态的诊断结果、对终端联网状态的诊断结果;

接收模块12还用于接收多个终端发送的用户信息和/或配置信息;

其中,类型确认模块16用于根据接收到的诊断结果、用户信息和/或配置信息,确定异常所属的类型。

在本申请的实施例中,类型包括以下各项中的至少一项:用户地域、网络运营商、联网方式。

与以上内容相对应地,本申请实施例还提供一种网页处理装置20,应用于终端,参考图4,网页处理装置20包括:

加载模块22,用于在处理搜索请求的过程中,在搜索结果页接收到针对第一链接的选中操作后,加载第一链接对应的第一网页;

诊断模块24,用于对第一网页的加载内容和加载环境进行诊断,以确认第一网页是否存在异常;

发送模块26,用于在确认第一网页存在异常的情况下,向服务器发送网页异常信息,网页异常信息包括第一网页的信息。

利用本申请的实施例,可在满足移动搜索用户的根本需求同时,结合用户真实浏览的内容及状态,实时的对低质或不可用的内容进行实时统筹分析评估,并影响一些低质或不可用的内容在搜索结果页中的排序,最终实现为用户提供高质内容的目的。

在本申请的实施例中,发送模块26还用于将对第一网页的加载内容和加载环境的诊断结果发送给服务器,诊断结果包括以下多项中的至少一项:对网页内容解析状态的诊断结果、对网页内容处理状态的诊断结果、对终端网络层状态的诊断结果、对终端系统状态的诊断结果、对终端联网状态的诊断结果。

在本申请的实施例中,发送模块26还用于向服务器发送终端的用户信息和/或终端的配置信息。

图5是本申请实施例的网页处理方法的场景图,移动设备不仅从服务端获取数据,同时也作为数据的提供者,通过app向云端提供内容,用于对搜索结果的可用性状态评估,云端根据终端上报的信息进行分析和处理,可实现对网页可用性的自动化评估能力。

与当前业界的搜索结果内容质量评估法对比,本申请实施例设计的主要价值在于从客户端实现对打开的内容(页面)的异常状态进行分析上报。同时云端基于客户端的上报驱动,可进行多方认证、仿真加载、相关性分析等处理,实现有效的对搜索内容可用性评估的方式,从“重依赖于入库时的内容与搜索关键字的相关性排序”进化为“用户真实浏览内容与搜索关键字的相关性评估”,能够改善用户浏览体验,提升用户满意度。

本申请实施例对搜索结果页的优化,体现为以下方面:(1)针对用户搜索的内容,对搜索结果落地页的内容进行实时的用效性评估,监控工作在客户端进行,具备内容真实性的优势;(2)多用户开启预估能力协同,多方评估,共同对搜索结果内容质量负责;(3)多维度考量,包括用户特征,网络特征,网页特征,运营商特征等;(4)云端定制评估结果,统一计算、评估,为其它用户服务,结合用户的搜索内容及相关特征,进行搜索结果进行排序。

本申请实施例对搜索落地页体验评估的影响,可分为两部分;(1)由云端进行相关性排序,改为客户端实时监控,云端统一计算,快速发现针对某一关键字对应的不可用网页;(2)搜索引擎的职责不止是实现快速找到所需,还需要包含对搜索到的结果负责,在移动客户端上实现实时的内容质量评估能力,实现了快速的筛除低质、无相关的内容,使好的内容得到应有的排序及展现,可为用户找到质量更好的网页。

本发明实施例各装置中的各模块的功能可以参见上述方法中的对应描述,在此不再赘述。

根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。

图6是根据本申请实施例的网页处理方法的电子设备的框图。如图6所示,电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图6所示,该电子设备包括:一个或多个处理器1001、存储器1002,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示图形用户界面(graphicaluserinterface,gui)的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器1001为例。

存储器1002即为本申请所提供的非瞬时计算机可读存储介质。其中,存储器存储有可由至少一个处理器执行的指令,以使至少一个处理器执行本申请所提供的网页处理方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的网页处理方法。

存储器1002作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的网页处理方法对应的程序指令/模块(例如,附图3所示的接收模块12、诊断模块14、类型确认模块16和处理模块18)。处理器1001通过运行存储在存储器1002中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的网页处理方法。

存储器1002可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据搜索结果的分析处理电子设备的使用所创建的数据等。此外,存储器1002可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器1002可选包括相对于处理器1001远程设置的存储器,这些远程存储器可以通过网络连接至搜索结果的分析处理电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

网页处理方法的电子设备还可以包括:输入装置1003和输出装置1004。处理器1001、存储器1002、输入装置1003和输出装置1004可以通过总线或者其他方式连接,图6中以通过总线连接为例。

输入装置1003可接收输入的数字或字符信息,以及产生与搜索结果的分析处理电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1004可以包括显示设备、辅助照明装置(例如,led)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(liquidcrystaldisplay,lcd)、发光二极管(lightemittingdiode,led)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用集成电路(applicationspecificintegratedcircuits,asic)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(programmablelogicdevice,pld)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(cathoderaytube,阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(localareanetwork,lan)、广域网(wideareanetwork,wan)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1