本发明涉及网络标引技术,尤其涉及一种网络资源内容洞察系统及方法。
背景技术:
互联网作为一种分布式的信息网络空间,已经成为全球范围内传播信息的主要渠道。随着大数据时代的到来,互联网上的信息呈指数级数增长,随之而产生的信息垃圾也越来越多,使得用户迫切地需要在海量信息中准确地、快速地搜索到符合自己要求的信息内容。
目前通常利用计算机系统进行自动标引来检索网络资源信息。自动标引基于抽词思想,从目标文本中抽取关键词作为检索标志,根据关键词自动地在海量信息中进行检索,能够快速地获取用户需求的相关信息。
自动标引基于抽词思想,标引范围往往仅限于目标文本本身,不能全面地对网络资源信息进行标引,导致网络资源标引的准确率不高。
技术实现要素:
本发明提供的网络资源内容洞察系统及方法,将标引范围扩大到URL和目标文本本身,扩充了标引范围,可以全面地对网络资源信息进行标引,网络资源标引的准确率更高。
第一方面,本发明提供一种网络资源内容洞察系统,包括:
开放接口模块、URL预处理模块、URL洞察库模块以及结果输出模块;
所述开放接口模块,用于接收目标URL,并将所述目标URL发送给所述URL预处理模块;
所述URL预处理模块,用于判断所述目标URL的协议类型是否为目标协议类型,若是,则将所述目标URL发送给所述URL洞察库模块;
所述URL洞察库模块,用于对所述目标URL进行查询匹配,所述URL洞察库模块包括参考URL和参考标引信息的对应关系,若所述目标URL与所述URL洞察库模块中的一个参考URL匹配成功,则将所述参考URL对应的参考标引信息作为目标标引信息发送给所述结果输出模块;
所述结果输出模块,用于输出所述目标标引信息。
进一步地,所述网络资源内容洞察系统,还包括:
域名处理模块、URI处理模块、参数处理模块、内容感知分析模块、分析结果整合模块以及标引规则库模块;
相应地,所述URL预处理模块还用于:若所述目标URL与任一参考URL不匹配,则将所述目标URL拆分成域名、URI、参数三部分,并将所述域名、所述URI、所述参数以及所述目标URL分别发送给所述域名处理模块、所述URI处理模块、所述参数处理模块以及所述内容感知分析模块;
所述域名处理模块,用于轮询所述域名,获取所述域名的关键词作为第一标引关键词,并将所述第一标引关键词在所述标引规则库模块中进行匹配,所述标引规则库模块包括参考标引关键词和参考标引信息的对应关系,若所述第一标引关键词与所述标引规则库模块中的一个参考标引关键词匹配成功,则将所述参考标引关键词对应的参考标引信息作为第一标引信息发送给所述分析结果整合模块;
所述URI处理模块,用于轮询所述URI,获取所述URI的关键词作为第二标引关键词,并将所述第二标引关键词在所述标引规则库模块中进行匹配,若所述第二标引关键词与所述标引规则库模块中的一个参考标引关键词匹配成功,则将所述参考标引关键词对应的参考标引信息作为第二标引信息发送给所述分析结果整合模块;
所述参数处理模块,用于轮询所述参数,获取所述参数的关键词作为第三标引关键词,并将所述第三标引关键词在所述标引规则库模块中进行匹配,若所述第三标引关键词与所述标引规则库模块中的一个参考标引关键词匹配成功,则将所述参考标引关键词对应的参考标引信息作为第三标引信息发送给所述分析结果整合模块;
所述内容感知分析模块,用于分析所述URL指向的网页内容,获取所述网页内容的关键词作为第四标引关键词,并通过所述第四标引关键词进行标引,获取第四标引信息,并将所述第四标引信息发送给所述分析结果整合模块;
所述分析结果整合模块,用于将所述第一标引信息、所述第二标引信息、所述第三标引信息以及所述第四标引信息进行组合,生成所述目标标引信息,并将所述目标标引信息发送给所述结果输出模块。
可选地,所述分析结果整合模块,还用于:
在生成所述目标标引信息之后,将所述目标URL和所述目标标引信息写入所述URL洞察库模块。
可选地,所述域名处理模块,还用于:
若所述第一标引关键词与任一参考标引关键词不匹配,则将第一计数加一;
若所述第一计数大于第一预设阈值,则根据所述第一标引关键词进行标引,获取所述第一标引信息,并将所述第一标引关键词和所述第一标引信息写入所述标引规则库模块。
可选地,所述URI处理模块,还用于:
若所述第二标引关键词与任一参考标引关键词不匹配,则将第二计数加一;
若所述第二计数大于第二预设阈值,则根据所述第二标引关键词进行标引,获取所述第二标引信息,并将所述第二标引关键词和所述第二标引信息写入所述标引规则库模块。
可选地,所述参数处理模块,还用于:
若所述第三标引关键词与任一参考标引关键词不匹配,则将第三计数加一;
若所述第三计数大于第三预设阈值,则根据所述第三标引关键词进行标引,获取所述第三标引信息,并将所述第三标引关键词和所述第三标引信息写入所述标引规则库模块。
优选的,所述URL预处理模块还用于:在将所述目标URL发送给所述URL洞察库模块之前,将所述目标URL转码成固定长度的目标字符串,对所述目标字符串进行查询匹配;
相应地,所述URL洞察库模块还包括参考字符串和参考标引信息的对应关系,若所述目标字符串与所述URL洞察库模块中的一个参考字符串匹配成功,则将所述参考字符串对应的参考标引信息作为目标标引信息发送给所述结果输出模块。
第二方面,本发明提供一种网络资源内容洞察方法,包括:
接收目标URL,并将所述目标URL发送给所述URL预处理模块;
判断所述目标URL的协议类型是否为目标协议类型,若是,则将所述目标URL发送给所述URL洞察库模块;
对所述目标URL进行查询匹配,所述URL洞察库模块包括参考URL和参考标引信息的对应关系,若所述目标URL与所述URL洞察库模块中的一个参考URL匹配成功,则将所述参考URL对应的参考标引信息作为目标标引信息发送给所述结果输出模块;
输出所述目标标引信息。
进一步地,所述的网络资源内容洞察方法,还包括:
若所述目标URL与任一参考URL不匹配,则将所述目标URL拆分成域名、URI、参数三部分,并将所述域名、所述URI、所述参数以及所述目标URL分别发送给所述域名处理模块、所述URI处理模块、所述参数处理模块以及所述内容感知分析模块;
轮询所述域名,获取所述域名的关键词作为第一标引关键词,并将所述第一标引关键词在所述标引规则库模块中进行匹配,所述标引规则库模块包括参考标引关键词和参考标引信息的对应关系,若所述第一标引关键词与所述标引规则库模块中的一个参考标引关键词匹配成功,则将所述参考标引关键词对应的参考标引信息作为第一标引信息发送给所述分析结果整合模块;
轮询所述URI,获取所述URI的关键词作为第二标引关键词,并将所述第二标引关键词在所述标引规则库模块中进行匹配,若所述第二标引关键词与所述标引规则库模块中的一个参考标引关键词匹配成功,则将所述参考标引关键词对应的参考标引信息作为第二标引信息发送给所述分析结果整合模块;
轮询所述参数,获取所述参数的关键词作为第三标引关键词,并将所述第三标引关键词在所述标引规则库模块中进行匹配,若所述第三标引关键词与所述标引规则库模块中的一个参考标引关键词匹配成功,则将所述参考标引关键词对应的参考标引信息作为第三标引信息发送给所述分析结果整合模块;
分析所述URL指向的网页内容,获取所述网页内容的关键词作为第四标引关键词,并通过所述第四标引关键词进行标引,获取第四标引信息,并将所述第四标引信息发送给所述分析结果整合模块;
将所述第一标引信息、所述第二标引信息、所述第三标引信息以及所述第四标引信息进行组合,生成所述目标标引信息,并将所述目标标引信息发送给所述结果输出模块。
可选地,所述生成所述目标标引信息之后,还包括:
将所述目标URL和所述目标标引信息写入所述URL洞察库模块。
本发明提供的网络资源内容洞察系统及方法中,通过将目标URL在URL洞察库模块中进行查询匹配,URL洞察库模块存储参考URL和参考标引信息的对应关系,把被匹配中的参考URL对应的参考标引信息作为目标标引信息输出。其中,URL洞察库模块存储的参考标引信息对应的标引范围为URL和目标文本本身,扩充了标引范围,实现了全面地对网络资源信息进行标引,从而提高了网络资源标引的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图;
图1为本发明实施例一所提供的网络资源内容洞察系统的结构示意图;
图2为本发明实施例二所提供的网络资源内容洞察系统的结构示意图;
图3为本发明实施例二提供的网络资源内容洞察系统中域名处理模块的域名处理方法流程图;
图4为本发明实施例二提供的网络资源内容洞察系统中URI处理模块的URI处理方法流程图;
图5为本发明实施例二提供的网络资源内容洞察系统中参数处理模块的参数处理方法流程图;
图6为本发明实施例二提供的网络资源内容洞察系统中内容感知分析模块的分析方法流程图;
图7为本发明实施例二提供的网络资源内容洞察系统中URL预处理模块的URL预处理方法流程图;
图8为本发明实施例三所提供的网络资源内容洞察方法的流程图;
图9为本发明实施例四所提供的网络资源内容洞察方法的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
图1为本发明实施例一所提供的网络资源内容洞察系统的结构示意图。本发明实施例针对自动标引的标引范围仅限于目标文本本身,导致网络资源信息标引不全面,提供了网络资源内容洞察系统。如图1所示,本实施例的系统包括:开放接口模块1、URL预处理模块2、URL洞察库模块3以及结果输出模块4。
开放接口模块1,用于接收目标URL,并将目标URL发送给URL预处理模块2。
URL预处理模块2,用于判断目标URL的协议类型是否为目标协议类型,若是,则将目标URL发送给URL洞察库模块3。
URL洞察库模块3,用于对目标URL进行查询匹配,URL洞察库模块3包括参考URL和参考标引信息的对应关系,若目标URL与URL洞察库模块3中的一个参考URL匹配成功,则将参考URL对应的参考标引信息作为目标标引信息发送给结果输出模块4。
结果输出模块4,用于输出目标标引信息。
本实施例中,开放接口模块1是本系统提供的一个开放接口,用户只需将目标URL作为参数调用该接口即可。
本系统只能处理特定的目标协议类型的URL。例如本系统可以处理头部协议为HTTP或HTTPS的URL,URL预处理模块2首先判断目标URL头部协议是否为HTTP或HTTPS协议,若是,则进行后续处理,若不是,则退出本系统并提示无法解析。
URL洞察库模块3需要预先建立,在HBase数据库中存储参考URL和参考标引信息,即可组成URL洞察库模块3。
本实施例提供的网络资源内容洞察系统,通过将目标URL在URL洞察库模块3中进行查询匹配,把被匹配中的参考URL对应的参考标引信息作为目标标引信息输出。其中,URL洞察库模块3存储的参考标引信息对应的标引范围为URL和目标文本本身,扩充了标引范围,实现了全面地对网络资源信息进行标引,从而提高了网络资源标引的准确率。
实施例二
图2为本发明实施例二所提供的网络资源内容洞察系统的结构示意图。如图2所示,在上述实施例的基础上,网络资源内容洞察系统还可以包括:域名处理模块5、URI处理模块6、参数处理模块7、内容感知分析模块8、分析结果整合模块9以及标引规则库模块10。
相应地,URL预处理模块2还用于:若目标URL与任一参考URL不匹配,则将目标URL拆分成域名、URI、参数三部分,并将域名、URI、参数以及目标URL分别发送给域名处理模块5、URI处理模块6、参数处理模块7以及内容感知分析模块8。
本实施例中,从目标URL输入到目标标引信息输出,网络资源内容洞察系统共分为十大模块,当目标URL在URL洞察库模块3中查询匹配不成功时,域名处理模块5、URI处理模块6、参数处理模块7以及内容感知分析模块8并行处理,提高了系统的标引效率。
域名处理模块5,用于轮询域名,获取域名的关键词作为第一标引关键词,并将第一标引关键词在标引规则库模块10中进行匹配,标引规则库模块10包括参考标引关键词和参考标引信息的对应关系,若第一标引关键词与标引规则库模块10中的一个参考标引关键词匹配成功,则将参考标引关键词对应的参考标引信息作为第一标引信息发送给分析结果整合模块9。
可选地,域名处理模块5,还用于:若第一标引关键词与任一参考标引关键词不匹配,则将第一计数加一;若第一计数大于第一预设阈值,则根据第一标引关键词进行标引,获取第一标引信息,并将第一标引关键词和第一标引信息写入标引规则库模块10。
图3为本发明实施例二提供的网络资源内容洞察系统中域名处理模块5的域名处理方法流程图。如图3所示,域名处理模块5执行域名处理方法具体步骤如下:
S101、域名处理模块5轮询顶级域名,获取顶级域名关键词。
考虑到顶级域名必然存在,域名处理模块5从顶级域名开始,采用从后往前的方式轮询域名,其中,顶级域名所含信息较少,其处理的内容主要针对目标URL所属机构的性质。
S102、顶级域名关键词在标引规则库模块10中进行匹配,若匹配成功,则暂存该顶级域名关键词对应的标引信息。
在本实施例中,标引规则库模块10存储参考标引关键词和参考标引信息的对应关系。首先,为不同类型网站建立基于网站结构的标引规则库,标引规则有多种实现方式,可灵活扩展,例如,针对新闻、百科等文本型网站采用NLP技术进行标引;针对多媒体型网站采用DOM树结构分析技术进行标引;针对电子商务类型网站采用NLP技术、DOM树结构分析和特定词库的方式进行标引,然后根据网站域名结构、分类匹配标引规则库。
S103、若匹配不成功,可将匹配失败的顶级域名写入数据库中,并将该顶级域名匹配失败的计数加1。
在本实施例中,计数的初始值为0,系统可以预设一个阈值,若计数大于预设阈值,则根据顶级域名关键词进行标引,获取相应的标引信息,并将顶级域名关键词和相应的标引信息写入标引规则库模块10,从而实现了对标引规则库模块10中存储信息的补充,以便于再次对该顶级域名进行标引时,可以直接从标引规则库模块10中进行匹配获取相应的标引信息,从而提供标引效率。补充标引规则库模块10中存储信息可以通过多种方法实现,也可以将写入数据库中的顶级域名按照匹配失败的计数降序排列,对Top-N的顶级域名进行标引。
S104、判断顶级域名是否轮询完毕,若是,则域名处理模块5轮询二级域名,获取二级域名关键词。若否,则返回继续执行步骤S101。
顶级域名轮询完毕,同理,对二级域名进行轮询。二级域名通常能辨识出目标URL所属的机构,具有较好的识别性,因此赋予较高权重。
S105、二级域名关键词在标引规则库模块10中进行匹配,若匹配成功,则暂存该二级域名关键词对应的标引信息。
S106、若匹配不成功,可将匹配失败的二级域名写入数据库中,并将该二级域名匹配失败的计数加1。
S107、判断二级域名是否轮询完毕,若是,则域名处理模块5轮询三级域名,获取三级域名关键词;若否,则返回继续执行步骤S104。
二级域名轮询完毕,同理,对三级域名进行轮询。三级域名大多为www形式,该形式不包含有效信息,处理过程中可将该形式的三级域名去除,但其他形式的三级域名可能会包含目标URL所属的类别,对目标URL类型分类具有重要的意义。
S108、三级域名关键词在标引规则库模块10中进行匹配,若匹配成功,则暂存该三级域名关键词对应的标引信息。
S109、若匹配不成功,可将匹配失败的三级域名写入数据库中,并将该三级域名匹配失败的计数加1。
S110、判断三级域名是否轮询完毕,若是,将暂存的所有标引信息汇总发送给分析结果整合模块9;若否,则返回继续执行步骤S107。
URI处理模块6,用于轮询URI,获取URI的关键词作为第二标引关键词,并将第二标引关键词在标引规则库模块10中进行匹配,若第二标引关键词与标引规则库模块10中的一个参考标引关键词匹配成功,则将参考标引关键词对应的参考标引信息作为第二标引信息发送给分析结果整合模块9。
可选地,URI处理模块6,还用于:若第二标引关键词与任一参考标引关键词不匹配,则将第二计数加一;若第二计数大于第二预设阈值,则根据第二标引关键词进行标引,获取第二标引信息,并将第二标引关键词和第二标引信息写入标引规则库模块10。
图4为本发明实施例二提供的网络资源内容洞察系统中URI处理模块6的URI处理方法流程图。如图3所示,URI处理模块6执行URI处理方法具体步骤如下:
S201、轮询URI,获取URI关键词。
URI为网站发布人存储资源时的文件分布位置,为便于维护资源分布,发布人通常将URI定义为易于被管理的路径,部分发布人还会将资源进行手工分类,并定义类型名称,而这些名称最终将显示在URI部分,获取URI上的分类名称,可以补充目标URL的属性内容。
S202、URI关键词在标引规则库模块10中进行匹配,若匹配成功,则暂存该URI关键词对应的标引信息。
S203、若匹配不成功,可将匹配失败的URI写入数据库中,并将该URI匹配失败的计数加1。
其中,计数的初始值为0。系统可以预设一个阈值,若计数大于预设阈值,则根据URI关键词进行标引,获取相应的标引信息,并将URI关键词和相应的标引信息写入标引规则库模块10,从而实现了对标引规则库模块10中存储信息的补充,以便于再次对该URI进行标引时,可以直接从标引规则库模块10中进行匹配获取相应的标引信息,从而提供标引效率。
S204、判断URI是否轮询完毕,若是,将暂存的标引信息发送给分析结果整合模块9;若否,则返回执行步骤S201。
参数处理模块7,用于轮询参数,获取参数的关键词作为第三标引关键词,并将第三标引关键词在标引规则库模块10中进行匹配,若第三标引关键词与标引规则库模块10中的一个参考标引关键词匹配成功,则将参考标引关键词对应的参考标引信息作为第三标引信息发送给分析结果整合模块9。
可选地,参数处理模块7,还用于:若第三标引关键词与任一参考标引关键词不匹配,则将第三计数加一;若第三计数大于第三预设阈值,则根据第三标引关键词进行标引,获取第三标引信息,并将第三标引关键词和所述第三标引信息写入所述标引规则库模块10。
图5为本发明实施例二提供的网络资源内容洞察系统中参数处理模块7的参数处理方法流程图。如图3所示,参数处理模块7执行参数处理方法具体步骤如下:
S301、轮询参数,获取参数关键词。
参数是客户端对服务器端发送get请求时所附带的数据,由于服务器或浏览器对URL的长度有所限制,所以该部分的有效信息较少。但由于get请求较为方便,在众多搜索引擎中,参数部分能起到一定的信息提取作用,例如,在一些含分页的网站中,页码等信息可能会包含在参数部分。
S302、将参数关键词在标引规则库模块10中进行匹配,若匹配成功,则暂存该参数关键词对应的标引信息。
本实施例中,需要判断该参数关键词对应标引信息是否为分页、页码等有效信息,若是,则暂存该参数关键词对应的标引信。
S303、若匹配不成功,可将匹配失败的参数写入数据库中,并将该参数匹配失败的计数加1。
本实施例中,计数的初始值为0。系统可以预设一个阈值,若计数大于预设阈值,则根据参数关键词进行标引,获取相应的标引信息,并将参数关键词和相应的标引信息写入标引规则库模块10,从而实现了对标引规则库模块10中存储信息的补充,以便于再次对该参数进行标引时,可以直接从标引规则库模块10中进行匹配获取相应的标引信息,从而提供标引效率。
S304、判断参数是否轮询完毕,若是,将暂存的标引信息发送给分析结果整合模块9;若否,则返回执行步骤S301。
内容感知分析模块8,用于分析URL指向的网页内容,获取网页内容的关键词作为第四标引关键词,并通过第四标引关键词进行标引,获取第四标引信息,并将第四标引信息发送给分析结果整合模块9。
图6为本发明实施例二提供的网络资源内容洞察系统中内容感知分析模块8的分析方法流程图。如图6所示,内容感知分析模块8执行分析方法具体步骤如下:
S401、分析URL指向的网页内容,获取网页编码。
URL的信息在大多是人为规定的,因此仅对URL进行特征提取得到的信息具有一定的主观性,所以结合对该URL指向的网页内容的分析,提取出一些较客观且和网页内容有关联的信息,能有效增强提取结果的可信度。
S402、通过URL和网页编码爬取网页信息。
S403、调用外部内容分析引擎对内容进行分析。
S404、判断网页类型是否是文本信息,若是,则调用长文本网页信息爬取接口爬取网页内容关键词。
S405、若否,则调用图片、视频类网页信息爬取接口爬取网页内容关键词。
S406、将网页内容关键词发送给外部文本处理引擎,对网页内容关键词进行自动标引,获取标引信息。
S407、将标引信息发送给分析结果整合模块9。
分析结果整合模块9,用于将第一标引信息、第二标引信息、第三标引信息以及第四标引信息进行组合,生成目标标引信息,并将目标标引信息发送给结果输出模块4。
可选地,分析结果整合模块9,还用于:在生成目标标引信息之后,将目标URL和目标标引信息写入URL洞察库模块3。
本实施例中,分析结果整合模块9将接收到的标引信息进行合并,将目标标引信息发送给结果输出模块4,同时将目标URL和目标标引信息写入URL洞察库模块3,从而实现了对URL洞察库模块3中存储信息的补充,以便于后续对该目标URL进行标引时,可以直接从URL洞察库模块3中进行匹配获取相应的标引信息,从而提供标引效率。
优选地,在将目标URL发送到URL洞察库模块3之前,URL预处理模块2还可以将目标URL转码成固定长度的目标字符串,对目标字符串进行查询匹配。
相应地,URL洞察库模块3还包括参考字符串和参考标引信息的对应关系,若目标字符串与URL洞察库模块3中的一个参考字符串匹配成功,则将参考字符串对应的参考标引信息作为目标标引信息发送给结果输出模块4。
图7为本发明实施例二提供的网络资源内容洞察系统中URL预处理模块2的URL预处理方法流程图。如图7所示,URL预处理模块2执行URL预处理方法具体步骤如下:
S501、URL预处理模块2分析目标URL的头部协议。
S502、判断URL的头部协议是否为HTTP或者HTTPS协议,若是,则去除目标URL的头部协议并且将目标URL转化为固定长度的目标字符串。
本实施例中可以采用MD5将目标URL转化成32位的MD5码,不但可以克服长短不一的URL在匹配时耗费时间长的问题,而且使数据的私密性增强。
S503、若否,则退出系统并提示无法解析。
S504、目标字符串在URL洞察库模块3中进行匹配,若匹配成功,则将该目标字符串对应的标引信息输出到结果输出模块4。
S505、若匹配不成功,则将分成域名、路径、参数三部分分别输出到域名处理模块5、URI处理模块6、参数处理模块7,并将目标URL输出到内容感知分析模块8。
本实施例提供的网络资源内容洞察系统,当目标URL在URL洞察库模块3中匹配不成功时,将目标URL拆分成域名、URI、参数三部分,分别发送给域名处理模块5、URI处理模块6、参数处理模块7,从而获取以目标URL为标引范围的标引信息,同时将目标URL发送给内容感知分析模块8,从而获取以目标文本本身为标引范围的标引信息,实现了全面地对网络资源信息进行标引,从而提高了网络资源标引的准确率,并且域名处理模块5、URI处理模块6、参数处理模块7以及内容感知分析模块8并行处理,提高了系统的标引效率。
实施例三
图8为本发明实施例三所提供的网络资源内容洞察方法的流程图。如图8所示,本实施例的方法包括如下步骤:
S601、接收目标URL,并将所述目标URL发送给所述URL预处理模块。
S602、判断所述目标URL的协议类型是否为目标协议类型,若是,则将所述目标URL发送给所述URL洞察库模块。
S603、对所述目标URL进行查询匹配,所述URL洞察库模块包括参考URL和参考标引信息的对应关系,若所述目标URL与所述URL洞察库模块中的一个参考URL匹配成功,则将所述参考URL对应的参考标引信息作为目标标引信息发送给所述结果输出模块。
S604、输出所述目标标引信息。
本实施例中的网络资源内容洞察方法具体可以利用实施例一所述的网络资源内容洞察系统执行,其实现原理和技术效果类似,此处不再赘述。
图9为本发明实施例四所提供的网络资源内容洞察方法的结构示意图。如图9所示,本实施例的方法包括S701~S710,本实施例方法中的S701~S704分别与上述实施例三中的S601~S604相同,此处不再赘述,本实施例的方法还包括如下步骤:
S705、若所述目标URL与任一参考URL不匹配,则将所述目标URL拆分成域名、URI、参数三部分,并将所述域名、所述URI、所述参数以及所述目标URL分别发送给所述域名处理模块、所述URI处理模块、所述参数处理模块以及所述内容感知分析模块。
S706、轮询所述域名,获取所述域名的关键词作为第一标引关键词,并将所述第一标引关键词在所述标引规则库模块中进行匹配,所述标引规则库模块包括参考标引关键词和参考标引信息的对应关系,若所述第一标引关键词与所述标引规则库模块中的一个参考标引关键词匹配成功,则将所述参考标引关键词对应的参考标引信息作为第一标引信息发送给所述分析结果整合模块。
S707、轮询所述URI,获取所述URI的关键词作为第二标引关键词,并将所述第二标引关键词在所述标引规则库模块中进行匹配,若所述第二标引关键词与所述标引规则库模块中的一个参考标引关键词匹配成功,则将所述参考标引关键词对应的参考标引信息作为第二标引信息发送给所述分析结果整合模块。
S708、轮询所述参数,获取所述参数的关键词作为第三标引关键词,并将所述第三标引关键词在所述标引规则库模块中进行匹配,若所述第三标引关键词与所述标引规则库模块中的一个参考标引关键词匹配成功,则将所述参考标引关键词对应的参考标引信息作为第三标引信息发送给所述分析结果整合模块。
S709、分析所述URL指向的网页内容,获取所述网页内容的关键词作为第四标引关键词,并通过所述第四标引关键词进行标引,获取第四标引信息,并将所述第四标引信息发送给所述分析结果整合模块。
S710、将所述第一标引信息、所述第二标引信息、所述第三标引信息以及所述第四标引信息进行组合,生成所述目标标引信息,并将所述目标标引信息发送给所述结果输出模块。
可选地,所述生成所述目标标引信息之后,还包括:
将所述目标URL和所述目标标引信息写入所述URL洞察库模块。
本实施例中的网络资源内容洞察方法具体可以利用实施例二所述的网络资源内容洞察系统执行,其实现原理和技术效果类似,此处不再赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。