一种网页内容展示方法及系统与流程

文档序号:16263879发布日期:2018-12-14 21:47阅读:301来源:国知局
一种网页内容展示方法及系统与流程

本发明涉及互联网信息技术领域,特别是涉及一种网页内容展示方法及系统。

背景技术

随着internet的发展及其广泛应用,网络上的信息呈爆炸式增长,互联网已经成为了人们获取信息的重要来源。为了帮助人们快速找到所需要的信息,搜索引擎技术就应运而生了。搜索引擎方便了人们查找自己所需要的信息,节省了处理时间,已经成为了人们使用频繁的网上服务。

但是据互联网信息中心统计报告显示,重复结果太多是用户在使用搜索引擎时遇到的主要问题。据统计,internet上大约有30%左右的重复网页,大部分是由于转载造成的。网页重复问题对搜索引擎带来了一定的影响,重复网页不仅浪费了存储空间,也增加了搜索引擎的处理时间。同时搜索引擎的检索结果包含了很多内容重复的网页,降低了检索质量,所以网页消重已经成为搜索引擎中一项必不可少的工作。

当前,高质量的网页消重都是将网页正文文本作为消重对象的,是基于内容的文本复制检测。两个网页之间存在重复,表现为网页正文文本间内容完全相同或部分相同。网页消重的核心任务是判断网页正文文本之间的相似度,所谓相似度是指网页正文文本内容相同和相关的比例,文本间相似度越大,文本复制的可能性越大,相似度越小,文本复制的可能性越小。网页消重技术一般不是将整个网页作为处理对象的,而是从网页中抽取足以代表该网页的特征,然后对这些特征进行相似度的计算,关键技术就是网页正文内容的特征提取算法及特征相似度比较算法。

现有技术方案中,主要有基于特征句和基于标点的消重算法。

在基于特征句的消重算法中,首先,提取网页正文,对网页正文进行分词。其次,为了抽取出每个网页文本的特征词,而要考虑每个词语的词频信息(frequency)、位置信息(location)、是否在标题中出现(title)以及其他一些特殊的标识性信息。然后,综合考虑上述四个选项,分别赋予不同的比例,计算得到特征词的权值,并从中找出权值最大的特征词。接着,在网页正文中寻找该特征词第一次出现的位置,以其第一次出现所在的句子作为该网页的特征句。然后,将两篇网页的比较转换为两个句子的最长公共子序列的比较。当匹配度达到设定的阈值时,则认为该网页与重复网页数据库中的网页重复,将该网页与原网页合并,如果整个网页数据库中都没有与之重复的网页,则将该网页加入到网页数据库中。

另外,网页正文部分一般都会包含标点符号。基于标点的网页消重算法就是利用标点符号出现在网页文本中的特点,在文章中特定的位置提取出一些字符,将这些字符组成代表该字符串的字符串来唯一的标识网页。然后比较字符串之间的相似度来判断是否为重复网页。

然而,现有技术中均存在一定的技术问题。

例如,基于特征词的网页消重算法,特征的选取比较复杂,需要考虑较多的因素,同时特征词的比较算法时间复杂度较高,当网页规模达到几十万的时候,由于需要与网页集合中的特征句两两比较会导致时间复杂度急剧增加。

例如,基于标点的网页消重算法只适用于网页正文含有标点符号,且内容不会改变的情况,如果网页正文内容发生变化(语句前后顺序变化等),会导致抽取的标点特征字符串发生变化导致判断错误。同时也存在比较特征字符串时间复杂度高的问题。

由此可见,现有方案的比较对象都是网页正文文本,如果网页正文文本提取不准确,存在网页噪声,会导致判断准确度不高。基于特征句的方法由于需要将待判断的网页特征句与网页集合中的特征句集合两两比较,当集合规模较大时,时间复杂度会很高。基于标点的消重算法适用范围有限,当网页正文语句顺序发生变化时,标点特征字符串会发生较大的变化,导致准确度下降,同时由于也需要与网页集合中的标点特征字符串集合两两比较,时间复杂度较高。



技术实现要素:

为了解决上述技术问题,本发明提供了一种网页内容展示方法,包括如下步骤:

获取输入元素的对象数组,所述对象数组中包含所述输入元素对应的检索结果中包含的所有网页源代码;

提取所述对象数组中的所有网页源代码;

遍历所述所有网页源代码,并根据所述所有网页源代码利用相似度计算方法消除重复网页;

展示消除重复网页后的其它网页内容。

进一步地,根据所述所有网页源代码利用相似度计算方法消除重复网页,包括如下步骤:

根据所述网页源代码提取所述网页中的至少部分正文内容;

将所述至少部分正文内容与在先网页中的对应内容进行相似度计算;

在相似度大于或等于一预设相似度时,将该至少部分正文内容对应的网页进行删除操作。

进一步地,根据所述网页源代码提取所述网页中的至少部分正文内容,包括如下步骤:

对所述源代码进行解析,并标定所述源代码的多个预定位置;

提取所述源代码中的所述多个预定位置对应的正文内容,每一预定位置对应的正文内容是所述网页中的全部正文内容的一部分。

进一步地,对所述源代码进行解析,并标定所述源代码的多个预定位置,包括如下步骤:

对所述源代码进行校对,去除噪音参数;

将去除所述噪音参数的源代码进行排版;

对排版后的源代码进行预定位置的标定。

进一步地,所述预定位置选择为排版的中心位置。

相应地,本发明还提供了一种网页内容展示系统,包括:

获取模块,用于获取输入元素的对象数组,所述对象数组中包含所述输入元素对应的检索结果中包含的所有网页源代码;

提取模块,用于提取所述对象数组中的所有网页源代码;

计算模块,用于遍历所述所有网页源代码,并根据所述所有网页源代码利用相似度计算方法消除重复网页;

展示模块,用于展示消除重复网页后的其它网页内容。

进一步地,所述计算模块包括:

提取单元,用于根据所述网页源代码提取所述网页中的至少部分正文内容;

计算单元,用于将所述至少部分正文内容与在先网页中的对应内容进行相似度计算;

删除单元,用于在相似度大于或等于一预设相似度时,将该至少部分正文内容对应的网页进行删除操作。

进一步地,所述提取单元包括:

解析子单元,用于对所述源代码进行解析,并标定所述源代码的多个预定位置;

提取子单元,用于提取所述源代码中的所述多个预定位置对应的正文内容,每一预定位置对应的正文内容是所述网页中的全部正文内容的一部分。

进一步地,所述解析子单元包括:

校对子单元,用于对所述源代码进行校对;

去除子单元,用于去除噪音参数;

排版子单元,用于将去除所述噪音参数的源代码进行排版;

标定子单元,用于对排版后的源代码进行预定位置的标定。

进一步地,所述预定位置选择为排版的中心位置。

本发明的网页展示方法可以在搜索时避免产生展示重复网页内容的情况,可以在输入元素后在后台直接删除重复网页,从而极大提高了用户使用体验。通过网页正文提取方法,从而提高了提取的准确性及效率,从而使得正文特征的提取更加方便快速,提高了算法效率,降低了特征串两两比较的时间复杂度。

根据下文结合附图对本发明具体实施例的详细描述,本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本发明的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解,这些附图未必是按比例绘制的。附图中:

图1是根据本发明一个实施例的网页内容展示方法的示意性流程图;

图2是根据本发明一个实施例的网页内容展示系统的示意性结构图。

具体实施方式

图1示出了根据本发明一个实施例的网页内容展示方法的示意性流程图。如图1所示,本发明提供了一种网页内容展示方法,包括如下步骤:

s100,获取输入元素的对象数组,所述对象数组中包含所述输入元素对应的检索结果中包含的所有网页源代码;

s200,提取所述对象数组中的所有网页源代码;

s300,遍历所述所有网页源代码,并根据所述所有网页源代码利用相似度计算方法消除重复网页;

s400,展示消除重复网页后的其它网页内容。

根据所述所有网页源代码利用相似度计算方法消除重复网页,包括如下步骤:

根据所述网页源代码提取所述网页中的至少部分正文内容;

将所述至少部分正文内容与在先网页中的对应内容进行相似度计算;

在相似度大于或等于一预设相似度时,将该至少部分正文内容对应的网页进行删除操作。

根据所述网页源代码提取所述网页中的至少部分正文内容,包括如下步骤:

对所述源代码进行解析,并标定所述源代码的多个预定位置;

提取所述源代码中的所述多个预定位置对应的正文内容,每一预定位置对应的正文内容是所述网页中的全部正文内容的一部分。

对所述源代码进行解析,并标定所述源代码的多个预定位置,包括如下步骤:

对所述源代码进行校对,去除噪音参数;

将去除所述噪音参数的源代码进行排版;

对排版后的源代码进行预定位置的标定。

所述预定位置选择为排版的中心位置。

相应地,如图2所示,本发明还提供了一种网页内容展示系统,包括:

获取模块,用于获取输入元素的对象数组,所述对象数组中包含所述输入元素对应的检索结果中包含的所有网页源代码;

提取模块,用于提取所述对象数组中的所有网页源代码;

计算模块,用于遍历所述所有网页源代码,并根据所述所有网页源代码利用相似度计算方法消除重复网页;

展示模块,用于展示消除重复网页后的其它网页内容。

所述计算模块包括:提取单元,用于根据所述网页源代码提取所述网页中的至少部分正文内容;计算单元,用于将所述至少部分正文内容与在先网页中的对应内容进行相似度计算;删除单元,用于在相似度大于或等于一预设相似度时,将该至少部分正文内容对应的网页进行删除操作。

所述提取单元包括:解析子单元,用于对所述源代码进行解析,并标定所述源代码的多个预定位置;提取子单元,用于提取所述源代码中的所述多个预定位置对应的正文内容,每一预定位置对应的正文内容是所述网页中的全部正文内容的一部分。

所述解析子单元包括:校对子单元,用于对所述源代码进行校对;去除子单元,用于去除噪音参数;排版子单元,用于将去除所述噪音参数的源代码进行排版;标定子单元,用于对排版后的源代码进行预定位置的标定。

所述预定位置选择为排版的中心位置。

本发明的网页展示方法可以在搜索时避免产生展示重复网页内容的情况,可以在输入元素后在后台直接删除重复网页,从而极大提高了用户使用体验。通过网页正文提取方法,从而提高了提取的准确性及效率,从而使得正文特征的提取更加方便快速,提高了算法效率,降低了特征串两两比较的时间复杂度。

至此,本领域技术人员应认识到,虽然本文已详尽示出和描述了本发明的多个示例性实施例,但是,在不脱离本发明精神和范围的情况下,仍可根据本发明公开的内容直接确定或推导出符合本发明原理的许多其他变型或修改。因此,本发明的范围应被理解和认定为覆盖了所有这些其他变型或修改。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1