一种网页内容过滤的方法、装置及服务器与流程

文档序号:16209369发布日期:2018-12-08 07:32阅读:249来源:国知局
一种网页内容过滤的方法、装置及服务器与流程

本发明涉及互联网信息技术领域,尤其涉及一种网页内容过滤的方法、装置、服务器及计算机可读存储介质。

背景技术

随着网络技术的发展,由搜索引擎在因特网中查询数据成为最常使用的数据搜索方法。当在搜索网站中输入关键词后,搜索网站便会将搜索结果显示在网页上。然而,现有技术在搜索结果中包含禁止访问的网页链接时仅会给予相应的提示,用户仍会看到该禁止访问的网页链接,实际过滤效果并不理想;并且在判定搜索结果中包含禁止访问的网页链接时,往往还会同时限制用户访问当前的网页,用户的体验感也不佳。

故有必要提出一种新的技术方案,以解决上述技术问题。



技术实现要素:

鉴于此,本发明实施例提供了一种网页内容过滤的方法、装置及服务器,可以在判断出当前网页内容信息中包含禁止访问的网页链接时及时进行删除操作,从而提高对网页内容的过滤效果。

本发明实施例的第一方面提供了一种网页内容过滤的方法,包括:

接收客户端通过预设浏览器发送的网页访问请求消息;

将所述网页访问请求消息发送至对应的目标服务器;

接收所述目标服务器返回的与所述网页访问请求信息对应的网页内容信息;

判断所述网页内容信息中是否存在禁止访问的网页链接;

若所述网页内容中存在禁止访问的网页链接,则删除该网页链接,并将删除该网页链接后的网页内容信息发送至所述客户端进行显示。

本发明实施例的第二方面提供了一种网页内容过滤的装置,所述装置包括:

第一接收模块,用于接收客户端通过预设浏览器发送的网页访问请求消息;

第一发送模块,用于将所述网页访问请求消息发送至对应的目标服务器;

第二接收模块,用于接收所述目标服务器返回的与所述网页访问请求信息对应的网页内容信息;

判断模块,用于判断所述网页内容信息中是否存在禁止访问的网页链接;

删除模块,用于若所述网页内容中存在禁止访问的网页链接,则删除该网页链接,并将删除该网页链接后的网页内容信息发送至所述客户端进行显示。

本发明实施例的第三方面提供了一种服务器,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,上述处理器执行上述计算机程序时实现上述第一方面提及的方法。

本发明实施例的第四方面提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,上述计算机程序被处理器执行时实现上述第一方面提及的方法。

本发明实施例与现有技术相比存在的有益效果是:在本实施例中,首先通过接收客户端通过预设浏览器发送的网页访问请求消息,然后将所述网页访问请求消息发送至对应的目标服务器,再接收所述目标服务器返回的与所述网页访问请求信息对应的网页内容信息,最后判断所述网页内容信息中是否存在禁止访问的网页链接,在所述网页内容信息中存在禁止访问的网页链接时,删除该网页链接,并将删除该网页链接后的网页内容信息发送至所述客户端进行显示。与现有技术相比,通过本发明实施例可以智能滤掉网页中包含的禁止访问的网页链接,能够在保证用户不会看到该禁止访问的网页链接的同时还可使原网页仍可正常访问,从而提高对网页内容的过滤效果,给用户带来了较佳的体验感,具有较强的易用性和实用性。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例一提供的网页内容过滤的方法的流程示意图;

图2为本发明实施例二提供的网页内容过滤的方法的流程示意图;

图3位本发明实施例三提供的网页内容过滤的方法的流程示意图;

图4为本发明实施例四提供的网页内容过滤的装置的结构示意图;

图5为本发明实施例五提供的服务器的结构示意图。

具体实施方式

以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。

应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

应理解,本实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。

需要说明的是,本实施例中的“第一”、“第二”等描述,是用于区分不同的区域、模块等,不代表先后顺序,也不限定“第一”和“第二”为不同的类型。

为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。

实施例一

图1是本发明实施例一提供的网页内容过滤的方法的流程示意图,流程的执行主体为服务器,该方法可以包括以下步骤:

s101:接收客户端通过预设浏览器发送的网页访问请求消息。

其中,预设浏览器为一定制的浏览器,安装在所述客户端上。该定制的浏览器在接收到用户发送的网页访问请求消息后,不会直接将其发送至对应的第三方网站的服务器而是先将其发送至本申请中所述的服务器,由其进行处理后再发送至第三方网站的服务器。

s102:将所述网页访问请求消息发送至对应的目标服务器。

其中,所述目标服务器为第三方网站的服务器,它存储有与所述网页访问请求信息对应的网页内容信息。

s103:接收所述目标服务器返回的与所述网页访问请求信息对应的网页内容信息。

其中,所述网页内容信息中包含有超链接文本数据。

s104:判断所述网页内容信息中是否存在禁止访问的网页链接。

若判断结果为“是”,则表明所述网页内容信息中存在禁止访问的网页链接,此时执行步骤s105;若判断结果为“否”,则表明所述网页内容信息中不存在禁止访问的网页链接,此时执行步骤s106。

s105:删除该网页链接,并将删除该网页链接后的网页内容信息发送至所述客户端进行显示。

s106:将所述网页内容信息发送至所述客户端进行显示。

由上可见,本发明实施例中,通过判断所述网页内容信息中是否存在禁止访问的网页链接,在存在禁止访问的网页链接时,删除该网页链接,并将删除该网页链接后的网页内容信息发送至客户端进行显示,从而可以保证用户不会看到禁止访问的网页链接,并且还能使原网页仍可正常访问,极大地提高了对网页内容的过滤效果,给用户带来了较佳的体验感,具有较强的易用性和实用性。

实施例二

图2是本发明实施例二提供的网页内容过滤的方法的流程示意图,是对上述实施例一中的步骤s104的进一步细化和说明,该方法可以包括以下步骤:

s201:接收客户端通过预设浏览器发送的网页访问请求消息。

s202:将所述网页访问请求消息发送至对应的目标服务器。

s203:接收所述目标服务器返回的与所述网页访问请求信息对应的网页内容信息。

其中,上述步骤s201-s203与实施例一中的步骤s101-s103相同,其具体实施过程可参见步骤s101-s103的描述,在此不作重复赘述。

s204:提取所述网页内容信息中的网页链接,获取每一个网页链接的内容,判断所述网页链接的内容中是否包含预设的敏感词汇。

在一个实施例中,网页链接的提取可以通过已有的或未来可能用到的链接提取算法进行。

在一个实施例中,可以通过网络爬虫工具遍历所有从所述网页内容信息中提取出来的网页链接。

在一个实施例中,所述预设的敏感词汇包括与打架、斗殴、淫秽、国家安全和政治有关的词语。

在一个实施例中,可以预先判断所述网页链接的内容中包含的主题中是否有预设的敏感词汇。

在一个实施例中,当所述网页链接的内容中首次出现预设的敏感词汇时,将其判定为禁止访问的网页链接。

在一个实施例中,可以同时判断所述网页链接的内容中是否包含预设的敏感词汇及不被允许查看的图片。

需要说明的是,在任一网页链接的内容中包含预设的敏感词汇时,该判断结果都将为“是”,并确定包含预设敏感词汇的网页链接为禁止访问的网页链接,执行步骤s205;在全部网页链接的内容中均不包含预设的敏感词汇时,该判断结果为“否”,表明所述网页内容信息中不存在禁止访问的网页链接,所述网页内容信息中包含的网页链接均为允许访问的网页链接,执行步骤s206。

s205:删除该网页链接,并将删除该网页链接后的网页内容信息发送至所述客户端进行显示。

s206:将所述网页内容信息发送至所述客户端进行显示。

由上可见,本申请实施例二相比于实施例一,给出了判断所述网页内容信息中是否存在禁止访问的网页链接的具体实现方式,可以在所述网页链接中包含预设的敏感词汇时,删除该网页链接,并将删除该网页链接后的网页内容信息发送至客户端进行显示,从而可以在保证用户不会看到禁止访问的网页链接的同时还可使原网页仍可正常访问,有效地提高了对网页内容的过滤效果,给用户带来了较佳的体验感,具有较强的易用性和实用性。

实施例三

图3为本发明实施例三提供的网页内容过滤的方法的流程示意图,该方法可以包括以下步骤:

s301:接收客户端通过预设浏览器发送的网页访问请求消息。

s302:将所述网页访问请求消息发送至对应的目标服务器。

s303:接收所述目标服务器返回的与所述网页访问请求信息对应的网页内容信息。

其中,上述步骤s301-s303与实施例一中的步骤s101-s103相同,具体可参见实施例一中的相关描述,在此不作重复赘述。

s304:创建黑名单和白名单。

其中,所述黑名单中包含有禁止访问的网页链接,所述白名单中包含有允许访问的网页链接。

s305:提取所述网页内容信息中的网页链接,并判断所提取的网页链接是否在所述黑名单中。

若判断结果为“是”,则表明所述网页链接在所述黑名单中,所述网页内容信息中存在禁止访问的网页链接,执行步骤s306。

s306:删除该网页链接,并将删除该网页链接后的网页内容信息发送至所述客户端进行显示。

s307:判断所提取的网页链接是否在所述白名单中。

在执行完上述步骤s305后,若判断结果为“否”,则表明所述网页链接不在所述黑名单中,为了提高判断的准确性,本实施例在判断结果为“否”时,执行上述步骤s307将继续判断所提取的网页链接是否在所述白名单中,若判断结果为“否”,则表明所述网页链接不在所述白名单中,该网页链接为禁止访问的网页链接,继续执行上述步骤s306;若判断结果为“是”,则表明所述网页链接在所述白名单中,所述网页内容信息中不存在禁止访问的网页链接,执行步骤s308。

s308:将所述网页内容信息发送至所述客户端进行显示。

由上可见,本申请实施例三相比于实施例一,给出了进一步判断所述网页内容信息中是否存在禁止访问的网页链接的具体实现方式,可以在所述网页链接不在所述白名单中时,仍删除该网页链接,并将删除该网页链接后的网页内容信息发送至客户端进行显示,从而可以最大程度地保证用户不会看到禁止访问的网页链接,并且还可使原网页仍可正常访问,地提高了对网页内容的过滤效果,给用户带来了较佳的体验感,具有较强的易用性和实用性。

实施例四

图4是本发明实施例四提供的网页内容过滤的装置的结构示意图,为了便于说明,仅示出了与本发明实施例相关的部分。

该网页内容过滤的装置可以是内置于服务器内的软件单元、硬件单元或者软硬结合的单元,也可以作为独立的挂件集成到所述服务器中。

所述网页内容过滤的装置包括:

第一接收模块41,用于接收客户端通过预设浏览器发送的网页访问请求消息;

第一发送模块42,用于将所述网页访问请求消息发送至对应的目标服务器;

第二接收模块43,用于接收所述目标服务器返回的与所述网页访问请求信息对应的网页内容信息;

判断模块44,用于判断所述网页内容信息中是否存在禁止访问的网页链接;

删除模块45,用于若所述网页内容中存在禁止访问的网页链接,则删除该网页链接,并将删除该网页链接后的网页内容信息发送至所述客户端进行显示。

在一个实施例中,所述判断模块44具体包括:

第一提取单元,用于提取所述网页内容信息中的网页链接;

获取单元,用于获取每一个网页链接的内容;

第一判断单元,用于判断所述网页链接的内容中是否包含预设的敏感词汇;

删除单元,用于若任一网页链接的内容中包含预设的敏感词汇,则确定包含预设的敏感词汇的网页链接为禁止访问的网页链接;否则确定所述网页链接为允许访问的网页链接。

在一个实施例中,所述装置还包括:

创建模块,用于创建黑名单和白名单,所述黑名单中包含有禁止访问的网页链接,所述白名单中包含有允许访问的网页链接。

在一个实施例中,所述判断模块44具体包括:

第二提取单元,用于提取所述网页内容信息中的网页链接;

第二判断单元,用于判断所提取的网页链接是否在所述黑名单中,如果在所述黑名单中,则确定该网页链接为禁止访问的网页链接。

在一个实施例中,所述第二判断单元还用于:

如果所提取的网页链接不在所述黑名单中,则判断所提取的网页链接是否在所述白名单中,如果在所述白名单中,则确定该网页链接为允许访问的网页链接,如果不在所述白名单中,则确定该网页链接为禁止访问的网页链接。

在一个实施例中,所述装置包括:

第二发送模块,用于若所述网页内容信息中不存在禁止访问的网页链接,则将所述网页内容信息发送至所述客户端进行显示。

实施例五

图5是本发明实施例五提供的服务器的结构示意图。如图5所示,该实施例的服务器5包括:处理器50、存储器51以及存储在所述存储器51中并可在所述处理器50上运行的计算机程序52。所述处理器50执行所述计算机程序52时实现上述方法实施例一中的步骤,例如图1所示的步骤s101至s106。或者,实现上述方法实施例二中的步骤,例如图2所示的步骤s201至s206。或者,实现上述方法实施例三中的步骤,例如图3所示的步骤s301至s308。所述处理器50执行所述计算机程序52时实现上述各装置实施例中各模块/单元的功能,例如图4所示模块41至45的功能。

示例性的,所述计算机程序52可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器51中,并由所述处理器50执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序52在所述服务器5中的执行过程。例如,所述计算机程序52可以被分割成第一接收模块、第一发送模块、第二接收模块、判断模块和删除模块,各模块具体功能如下:

第一接收模块,用于接收客户端通过预设浏览器发送的网页访问请求消息;

第一发送模块,用于将所述网页访问请求消息发送至对应的目标服务器;

第二接收模块,用于接收所述目标服务器返回的与所述网页访问请求信息对应的网页内容信息;

判断模块,用于判断所述网页内容信息中是否存在禁止访问的网页链接;

删除模块,用于若所述网页内容中存在禁止访问的网页链接,则删除该网页链接,并将删除该网页链接后的网页内容信息发送至所述客户端进行显示。

所述服务器可包括,但不仅限于,处理器50、存储器51。本领域技术人员可以理解,图5仅仅是服务器5的示例,并不构成对服务器5的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述服务器还可以包括输入输出设备、网络接入设备、总线等。

所述处理器50可以是中央处理单元(centralprocessingunit,cpu),还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器51可以是所述服务器5的内部存储单元,例如服务器5的硬盘或内存。所述存储器51也可以是所述服务器5的外部存储设备,例如所述服务器5上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。进一步地,所述存储器51还可以既包括所述服务器5的内部存储单元也包括外部存储设备。所述存储器51用于存储所述计算机程序以及所述服务器所需的其他程序和数据。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各实施例的模块、单元和/或方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。

以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1