网络资源内容洞察系统及方法与流程

文档序号:12470113阅读:来源:国知局

技术特征:

1.一种网络资源内容洞察系统,其特征在于,包括:

开放接口模块、URL预处理模块、URL洞察库模块以及结果输出模块;

所述开放接口模块,用于接收目标URL,并将所述目标URL发送给所述URL预处理模块;

所述URL预处理模块,用于判断所述目标URL的协议类型是否为目标协议类型,若是,则将所述目标URL发送给所述URL洞察库模块;

所述URL洞察库模块,用于对所述目标URL进行查询匹配,所述URL洞察库模块包括参考URL和参考标引信息的对应关系,若所述目标URL与所述URL洞察库模块中的一个参考URL匹配成功,则将所述参考URL对应的参考标引信息作为目标标引信息发送给所述结果输出模块;

所述结果输出模块,用于输出所述目标标引信息。

2.根据权利要求1所述的系统,其特征在于,还包括:

域名处理模块、URI处理模块、参数处理模块、内容感知分析模块、分析结果整合模块以及标引规则库模块;

相应地,所述URL预处理模块还用于:若所述目标URL与任一参考URL不匹配,则将所述目标URL拆分成域名、URI、参数三部分,并将所述域名、所述URI、所述参数以及所述目标URL分别发送给所述域名处理模块、所述URI处理模块、所述参数处理模块以及所述内容感知分析模块;

所述域名处理模块,用于轮询所述域名,获取所述域名的关键词作为第一标引关键词,并将所述第一标引关键词在所述标引规则库模块中进行匹配,所述标引规则库模块包括参考标引关键词和参考标引信息的对应关系,若所述第一标引关键词与所述标引规则库模块中的一个参考标引关键词匹配成功,则将所述参考标引关键词对应的参考标引信息作为第一标引信息发送给所述分析结果整合模块;

所述URI处理模块,用于轮询所述URI,获取所述URI的关键词作为第二标引关键词,并将所述第二标引关键词在所述标引规则库模块中进行匹配,若所述第二标引关键词与所述标引规则库模块中的一个参考标引关键词匹配成功,则将所述参考标引关键词对应的参考标引信息作为第二标引信息发送给所述分析结果整合模块;

所述参数处理模块,用于轮询所述参数,获取所述参数的关键词作为第三标引关键词,并将所述第三标引关键词在所述标引规则库模块中进行匹配,若所述第三标引关键词与所述标引规则库模块中的一个参考标引关键词匹配成功,则将所述参考标引关键词对应的参考标引信息作为第三标引信息发送给所述分析结果整合模块;

所述内容感知分析模块,用于分析所述URL指向的网页内容,获取所述网页内容的关键词作为第四标引关键词,并通过所述第四标引关键词进行标引,获取第四标引信息,并将所述第四标引信息发送给所述分析结果整合模块;

所述分析结果整合模块,用于将所述第一标引信息、所述第二标引信息、所述第三标引信息以及所述第四标引信息进行组合,生成所述目标标引信息,并将所述目标标引信息发送给所述结果输出模块。

3.根据权利要求2所述的系统,其特征在于,所述分析结果整合模块,还用于:

在生成所述目标标引信息之后,将所述目标URL和所述目标标引信息写入所述URL洞察库模块。

4.根据权利要求2所述的系统,其特征在于,所述域名处理模块,还用于:

若所述第一标引关键词与任一参考标引关键词不匹配,则将第一计数加一;

若所述第一计数大于第一预设阈值,则根据所述第一标引关键词进行标引,获取所述第一标引信息,并将所述第一标引关键词和所述第一标引信息写入所述标引规则库模块。

5.根据权利要求2所述的系统,其特征在于,所述URI处理模块,还用于:

若所述第二标引关键词与任一参考标引关键词不匹配,则将第二计数加一;

若所述第二计数大于第二预设阈值,则根据所述第二标引关键词进行标引,获取所述第二标引信息,并将所述第二标引关键词和所述第二标引信息写入所述标引规则库模块。

6.根据权利要求2所述的系统,其特征在于,所述参数处理模块,还用于:

若所述第三标引关键词与任一参考标引关键词不匹配,则将第三计数加一;

若所述第三计数大于第三预设阈值,则根据所述第三标引关键词进行标引,获取所述第三标引信息,并将所述第三标引关键词和所述第三标引信息写入所述标引规则库模块。

7.根据权利要求1-6任一项所述的系统,其特征在于,所述URL预处理模块还用于:在将所述目标URL发送给所述URL洞察库模块之前,将所述目标URL转码成固定长度的目标字符串,对所述目标字符串进行查询匹配;

相应地,所述URL洞察库模块还包括参考字符串和参考标引信息的对应关系,若所述目标字符串与所述URL洞察库模块中的一个参考字符串匹配成功,则将所述参考字符串对应的参考标引信息作为目标标引信息发送给所述结果输出模块。

8.一种网络资源内容洞察方法,其特征在于,包括:

接收目标URL,并将所述目标URL发送给所述URL预处理模块;

判断所述目标URL的协议类型是否为目标协议类型,若是,则将所述目标URL发送给所述URL洞察库模块;

对所述目标URL进行查询匹配,所述URL洞察库模块包括参考URL和参考标引信息的对应关系,若所述目标URL与所述URL洞察库模块中的一个参考URL匹配成功,则将所述参考URL对应的参考标引信息作为目标标引信息发送给所述结果输出模块;

输出所述目标标引信息。

9.根据权利要求8所述的方法,其特征在于,还包括:

若所述目标URL与任一参考URL不匹配,则将所述目标URL拆分成域名、URI、参数三部分,并将所述域名、所述URI、所述参数以及所述目标URL分别发送给所述域名处理模块、所述URI处理模块、所述参数处理模块以及所述内容感知分析模块;

轮询所述域名,获取所述域名的关键词作为第一标引关键词,并将所述第一标引关键词在所述标引规则库模块中进行匹配,所述标引规则库模块包括参考标引关键词和参考标引信息的对应关系,若所述第一标引关键词与所述标引规则库模块中的一个参考标引关键词匹配成功,则将所述参考标引关键词对应的参考标引信息作为第一标引信息发送给所述分析结果整合模块;

轮询所述URI,获取所述URI的关键词作为第二标引关键词,并将所述第二标引关键词在所述标引规则库模块中进行匹配,若所述第二标引关键词与所述标引规则库模块中的一个参考标引关键词匹配成功,则将所述参考标引关键词对应的参考标引信息作为第二标引信息发送给所述分析结果整合模块;

轮询所述参数,获取所述参数的关键词作为第三标引关键词,并将所述第三标引关键词在所述标引规则库模块中进行匹配,若所述第三标引关键词与所述标引规则库模块中的一个参考标引关键词匹配成功,则将所述参考标引关键词对应的参考标引信息作为第三标引信息发送给所述分析结果整合模块;

分析所述URL指向的网页内容,获取所述网页内容的关键词作为第四标引关键词,并通过所述第四标引关键词进行标引,获取第四标引信息,并将所述第四标引信息发送给所述分析结果整合模块;

将所述第一标引信息、所述第二标引信息、所述第三标引信息以及所述第四标引信息进行组合,生成所述目标标引信息,并将所述目标标引信息发送给所述结果输出模块。

10.根据权利要求9所述的方法,其特征在于,所述生成所述目标标引信息之后,还包括:

将所述目标URL和所述目标标引信息写入所述URL洞察库模块。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1