一种自动处理网页文本的内链的方法及装置的制作方法

文档序号:6355482阅读:161来源:国知局
专利名称:一种自动处理网页文本的内链的方法及装置的制作方法
—种自动处理网页文本的内链的方法及装置
技术领域
本发明涉及互联网技术领域,特别涉及一种自动处理网页文本的内链的方法及装置。
背景技木
随着互联网的广泛应用,人们开始进入知识爆炸的时代。每天各种各样的信息随着网络迅速传播,无论是有关经济、政治的,还是有关科技、娱乐的信息,只要通过网络,人们都可以轻易地获取到。人们除了采用主动查找的方式获取自己想要的信息以外,随着各个网站建设得愈加完善,一种被动的信息传播方式也越来越普遍,那就是网页制作者在网页文本描述的信息中,对网页文本中出现的关键词给予ー个指向另ー个网页的链接,人们在阅读这个网页文本时,如果对这个带有链接指向的关键词感兴趣,则可以不需要采取主动查询的方式去获取那个关键词的信息,而是通过直接点击那个关键词就可以跳转到那个关键词的相关页面。这种位于ー个网页文本内的链接,也被称之为内链。在传统的有关网页文本内链的处理中,无论是内链的添加,还是内链的删除,都是采用人工的方式进行的,即网页制作者对网页文本的内容进行分析,为其认为有需要的关键词添加上内链,或者将其认为不良的内链删除。这种方法首先带有较大的主观随意性,因为每个人对哪些词是适合添加内链的关键词的理解都是不一样的,同样的,对何种内链属于不良内链的认定标准也不一致,此外,采用人工的方式处理内链,必然降低处理效率,更增加了出错的可能性。以我们常见的百科网页为例,例如维基百科上,会以词条为网页単位来组织信息,每个词条网页文本中都包含了很多的内链,这些内链指向与本词条内容相关的另一个词条网页。为了方便读者了解相关信息,在这类型的网页上,内链通常是比较多的,又由于词条网页的内容常常变动,一些内链有可能随着时间的推移而变得没有价值,因此,如果有ー种科学合理的方法来删除添加的内链,就可以大大提高词条页面的内链的质量,使得内链对用户的引导作用更加有效。

发明内容本发明所要解决的技术问题是提供一种自动处理文本内链的方法,以提高文本内链的质量,改善文本内链对用户的引导效果,使得用户可以更好地通过文本内链的方式找到自己想要的信息。本发明为了解决上述技术问题,采用的技术手段是提供了一种自动处理网页文本的内链的方法,包括步骤a.获取用户行为日志;b.根据所述行为日志统计所述网页文本的点击数据;c.根据所述点击数据判断所述网页文本是否满足删除条件,以得到待删除内链的网页文本集合,d.从所述网页文本集合中的子文本的所有内链中抓取出低质量的内链;e.删除所述低质量的内链。根据本发明之一优选实施例,所述删除条件进ー步包括第一子条件,所述第一子条件是指在一定时间内所述文本的所有内链的总点击量大于第一阈值且所述文本的总页面浏览量大于第二阈值且所述文本的平均内链数大于第三阈值。根据本发明之一优选实施例,在所述第一子条件不满足的情况下,所述删除条件进ー步包括第二子条件,所述第二子条件是指 当前时间减去上一次发生删除行为的时间大于第四阈值且在上一次发生删除行为的时间至当前时间内所述文本的所有内链的总点击率大于第五阈值。根据本发明之一优选实施例,所述步骤d进ー步包括dll.选择所述子文本的固定区域;dl2.对所述固定区域的所有内链计算与所述内链的点击量相关的统计量;dl2.根据所述统计量按照预定的选取策略从所述固定区域的所有内链中选出所述低质量内链。根据本发明之一优选实施例,所述选取策略为当所迷子文本的子内链的所述统计量小于所述子文本的所有内链的所述统计量的平均值时,认定所述子内链为低质量内链。根据本发明之一优选实施例,所述步骤d进ー步包括d21.选择包含所述子文本的子内链的第一区域与第二区域,所述的第二区域大于所述的第一区域;d22.计算所述第一区域内除所述子内链外的剰余内链对所述子内链的点击量的贡献值与所述第二区域内所有内链的平均点击量;d23.当所述子内链的点击量与所述贡献值的和小于所述第二区域内所有内链的平均点击量时,选取所述子内链为所述低质量内链。根据本发明之一优选实施例,所述步骤d进ー步包括d31.选取所述子文本的固定区域;d32.在所述固定区域中划分上方区域和下方区域,井分别统计上方点击量与下方点击量,其中所述上方点击量是指所述上方区域包含的所有内链的平均点击量,所述下方点击量是指所述下方区域包含的所有内链的平均点击量;d32.当所述下方点击量大于所述上方点击量时,选取所述上方区域中点击量最低的内链为所述低质量内链。根据本发明之一优选实施例,所述方法进ー步还包括为所述文本添加内链。根据本发明之一优选实施例,所述添加内链的方法进ー步包括gll.对所述网页文本进行分词处理以获取候选添加词;gl2.将所述候选添加词与指定的类别库进行匹配验证,并将通过验证的子候选添加词选择为链接导入词;gl3.为所述链接导入词添加链接。根据本发明之一优选实施例,所述添加内链的方法进ー步包括g21.对所述网页文本进行分词处理以获取候选添加词;g22.通过实体识别技术找出所述候选添加词中的实体词,并将所述实体词选择为链接导入词;g23.为所述链接导入词添加链接。根据本发明之一优选实施例,所述添加内链的方法进ー步包括g21.对所述网页文本进行分词处理以获取候选添加词;g22.在所述网页文本中的第一文本关联第二文本的情况下验证所述第一文本中出现的子候选添加词与第二文本中出现的子内链词是否匹配,在匹配的情况下将所述子候选添加词选择为链接导入词;g23.为所述链接导入词添加链接。本发明还提供了一种自动处理网页文本的内链的装置,包括接收单元,用于获取用户行为日志;统计单元,用于根据所述行为日志统计所述网页文本的点击数据;判断単元,用于根据所述点击数据判断所述网页文本是否满足删除条件,以得到待删除内链的网页文本集合;抓取単元,用于从所述网页文本集合中的子文本的所有内链中抓取出低质量的内链;删除单元,用于删除所述低质量的内链。
根据本发明之一优选实施例,所述抓取単元进ー步包括选取范围单元,用于选取所述子文本的固定区域;计算统计量单元,用于对所述固定区域的所有内链计算与所述内链的点击量相关的统计量;选择内链单元,用于根据所述统计量按照预定的选取策略从所述子文本的所有内链中选出所述低质量内链。根据本发明之一优选实施例,所述抓取単元进ー步包括选取范围单元,用于选择包含所述子文本的子内链的第一区域与第二区域,所述的第二区域大于所述的第一区域;计算点击量单元,用于计算所述第一区域内除所述子内链外的剰余内链对所述子内链的点击量的贡献值与所述第二区域内所有内链的平均点击量;选择内链单元,用于当所述子内链的点击量与所述贡献值的和小于所述第二区域内所有内链的平均点击量时,选取所述子内链为所述低质量内链。根据本发明之一优选实施例,所述抓取単元进ー步包括选取范围单元,用于选取所述子文本的固定区域;计算点击量单元,用于在所述固定区域中划分上方区域和下方 区域,井分别计算上方点击量与下方点击量,其中所述上方点击量是指所述上方区域包含的所有内链的平均点击量,所述下方点击量是指所述下方区域包含的所有内链的平均点击量;选择内链单元,用于当所述下方点击量大于所述上方点击量时,选取所述上方区域中点击量最低的内链为所述低质量内链。根据本发明之一优选实施例,所述装置进ー步还包括添加単元,用于为所述文本添加内链。根据本发明之一优选实施例,所述添加単元进ー步包括分词单元,用于对所述网页文本进行分词处理以获取候选添加词;类别匹配验证单元,用于将所述候选添加词与指定的类别库进行匹配验证,并将通过验证的子候选添加词选择为链接导入词;添加链接单元,用于为所述链接导入词添加链接。根据本发明之一优选实施例,所述添加単元进ー步包括分词单元,用于对所述网页文本进行分词处理以获取候选添加词;识别单元,用于通过实体识别技术找出所述候选添加词中的实体词,并将所述实体词选择为链接导入词;添加链接单元,用于为所述链接导入词添加链接。根据本发明之一优选实施例,所述添加単元进ー步包括分词单元,用于对所述网页文本进行分词处理以获取候选添加词;内链推导验证单元,用于在所述网页文本中的第一文本关联第二文本的情况下验证所述第一文本中出现的子候选添加词与第二文本中出现的子内链词是否匹配,在匹配的情况下将所述子候选添加词选择为链接导入词;添加链接単元,用于为所述链接导入词添加链接。由以上技术方案可以看出,通过利用用户对文本内链的点击信息,采用内链分析的手段自动抓取低质量的内链进行删除,可以很好地提高文本内链的质量,改善文本内链对用户的引导效果。同时通过自动添加内链_>自动删除内链两种行为的不断迭代,不仅大大节省了人工成本,減少了内链处理行为的主观性,更是在保证文本内链质量的基础上大大提高了内链的时效性。

图I是本发明实施例中自动处理网页文本的内链的方法流程示意图2是本发明实施例中抓取低质量内链的实施例一的流程示意图;图3是本发明实施例中抓取低质量内链的实施例二的流程示意图4是本发明实施例中抓取低质量内链的实施例三的流程示意图;图5是本发明实施例中添加内链的实施例一的流程示意图; 图6是本发明实施例中添加内链的实施例二的流程示意图;图7是本发明实施例中添加内链的实施例三的流程示意图;图8是本发明实施例中自动处理网页文本的内链的装置结构示意框图;图9是本发明实施例中抓取单元的实施例一的结构示意框图;图10是本发明实施例中抓取单元的实施例二的结构示意框图;图11是本发明实施例中抓取单元的实施例三的结构示意框图;图12是本发明实施例中添加单元的实施例一的结构示意框图;图13是本发明实施例中添加单元的实施例二的结构示意框图;图14是本发明实施例中添加单元的实施例三的结构示意框图。
具体实施方式为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。图I为本发明实施例提供的一种自动处理网页文本的内链的方法流程示意图。在本发明中所述的网页文本,可以是任意的网页文本,例如基于知识共享方式建立的百科网页,网页的表现形式为词条文本;也可以是任意的新闻网页或其他包含内链的任意网页文本。如图I所示,自动处理网页文本内链的方法包括步骤101 :获取用户行为日志。用户行为日志是用来记录用户发生在网页上的所有行为的文件,其中包含了用户点击网页的时间,点击网页的次数,点击网页内链的情况等。本发明通过用户的行为对网页内链的质量进行分析,因此,获取用户行为日志是进行后续操作的前提。步骤102 :根据用户行为日志统计网页文本的点击数据。网页文本的点击数据包括每个网页文本的每个内链的总点击数量、最近X天内的点击数量等。这一步骤就是把用户行为日志中凌乱的数据整理为对后续的处理有意义的数据,以方便后续的操作可以基于这些数据做出合理的判断。步骤103 :根据点击数据判断网页文本是否满足删除条件,以得到待删除内链的网页文本集合。本发明并不是一次对网站的所有网页的内链都进行选取并删除其中不好的内链。由于一个网站包含的网页数量可能是非常巨大的,而且一次对所有网页的每一个内链都进行分析,既没有必要,也浪费了资源,所以在本发明中,将通过设置删除条件来选取出待删除内链的网页文本集合。在本发明中可以采用下面的删除条件来判断网页文本是否属于待删除内链的文本在一定时间内,如果文本所有内链的总点击量大于阈值X1,且文本总浏览量PV (page view)大于阈值X2,且文本的平均内链数大于阈值X3,则文本属于待删除内链的文本。Xp X2、X3是三个可以根据具体需要自由设置的值;所谓的文本总浏览量指的是在上述的一定时间内用户对网页文本的浏览量的总和;文本的平均内链数指的是由于文本存在被修改的可能,如果在上 述的一定时间内,文本的版本变化导致内链数目发生了变化,那么文本的平均内链数就等于该段时间内文本所有版本的内链总数除以版本数,假设在该段时间内文本的版本并未发生变化,那么所谓的文本平均内链数也就是文本的内链数目。上述的一定时间可以根据具体需要来设定,通常指的是从上次删除内链的行为发生的时间到当前时间之间的一段时间。如果网页文本不满足上面所说的删除条件,但是从上一次删除内链的行为发生的时间到当前时间超过阈值T同时网页文本所有内链的总点击量大于阈值X4的网页文本,也将作为待删除内链的网页文本。步骤104 :从待删除内链的网页文本集合中的子文本的所有内链中抓取出低质量的内链。子文本指的是网页文本集合中的一个待删除内链的网页文本。下面还将对步骤104的具体实施方式
进行详细说明。步骤105 :删除低质量内链。应该注意的是,所述删除低质量内链并不是指将内链的链接词删除,而是指通过在网页文本中去掉带有链接含义的标签,将链接词变为普通的文本词。为了实现抓取低质量的内链的目的,上面所述的步骤104可以有多种实施方式,如图2所示,为抓取低质量内链的实施例一的流程示意图。在该实施例中,步骤104进一步包括步骤10401 :选择子文本的一个固定区域。这个固定区域可以根据不同的网页文本类型来确定。例如对于百科网页的词条文本来说,可以选择为某个块结构的区域,如概述部分或正文部分等。对于新闻网页或其他网页,固定区域也可以为内链集中的区域或整个新闻页面等。步骤10402 :对固定区域的所有内链计算与内链的点击量相关的统计量。下面给出了一种用于产生上述统计量的方法,例如统计量
权利要求
1.一种自动处理网页文本的内链的方法,其特征在于,所述方法包括步骤 a.获取用户行为日志; b.根据所述行为日志统计所述网页文本的点击数据; c.根据所述点击数据判断所述网页文本是否满足删除条件,以得到待删除内链的网页文本集合, d.从所述网页文本集合中的子文本的所有内链中抓取出低质量的内链; e.删除所述低质量的内链。
2.根据权利要求I所述的自动处理网页文本的内链的方法,其特征在于,所述删除条件进ー步包括第一子条件,所述第一子条件是指在一定时间内所述文本的所有内链的总点击量大于第一阈值且所述文本的总页面浏览量大于第二阈值且所述文本的平均内链数大于第三阈值。
3.根据权利要求2所述的自动处理网页文本的内链的方法,其特征在干,在所述第一子条件不满足的情况下,所述删除条件进ー步包括第二子条件,所述第二子条件是指当前时间减去上一次发生删除行为的时间大于第四阈值且在上一次发生删除行为的时间至当前时间内所述文本的所有内链的总点击率大于第五阈值。
4.根据权利要求I所述的自动处理网页文本的内链的方法,其特征在于,所述步骤d进ー步包括 dll.选择所述子文本的固定区域; dl2.对所述固定区域的所有内链计算与所述内链的点击量相关的统计量; dl2.根据所述统计量按照预定的选取策略从所述固定区域的所有内链中选出所述低质量内链。
5.根据权利要求4所述的自动处理网页文本的内链的方法,其特征在干,所述选取策略为当所述子文本的子内链的所述统计量小于所述子文本的所有内链的所述统计量的平均值时,认定所述子内链为低质量内链。
6.根据权利要求I所述的自动处理网页文本的内链的方法,其特征在于,所述步骤d进ー步包括 d21.选择包含所述子文本的子内链的第一区域与第二区域,所述的第二区域大于所述的第一区域; d22.计算所述第一区域内除所述子内链外的剰余内链对所述子内链的点击量的贡献值与所述第二区域内所有内链的平均点击量; d23.当所述子内链的点击量与所述贡献值的和小于所述第二区域内所有内链的平均点击量时,选取所述子内链为所述低质量内链。
7.根据权利要求I所述的自动处理网页文本的内链的方法,其特征在于,所述步骤d进ー步包括 d31.选取所述子文本的固定区域; d32.在所述固定区域中划分上方区域和下方区域,井分别统计上方点击量与下方点击量,其中所述上方点击量是指所述上方区域包含的所有内链的平均点击量,所述下方点击量是指所述下方区域包含的所有内链的平均点击量; d32.当所述下方点击量大于所述上方点击量时,选取所述上方区域中点击量最低的内链为所述低质量内链。
8.根据权利要求I所述的自动处理网页文本的内链的方法,其特征在于,所述方法进ー步还包括为所述文本添加内链。
9.根据权利要求8所述的自动处理网页文本的内链的方法,其特征在于,所述添加内链的方法进ー步包括 gll.对所述网页文本进行分词处理以获取候选添加词; gl2.将所述候选添加词与指定的类别库进行匹配验证,并将通过验证的子候选添加词选择为链接导入词; gl3.为所述链接导入词添加链接。
10.根据权利要求8所述的自动处理网页文本的内链的方法,其特征在于,所述添加内链的方法进ー步包括 g21.对所述网页文本进行分词处理以获取候选添加词; g22.通过实体识别技术找出所述候选添加词中的实体词,并将所述实体词选择为链接导入词; g23.为所述链接导入词添加链接。
11.根据权利要求8所述的自动处理网页文本的内链的方法,其特征在于,所述添加内链的方法进ー步包括 g21.对所述网页文本进行分词处理以获取候选添加词; g22.在所述网页文本中的第一文本关联第二文本的情况下验证所述第一文本中出现的子候选添加词与第二文本中出现的子内链词是否匹配,在匹配的情况下将所述子候选添加词选择为链接导入词; g23.为所述链接导入词添加链接。
12.—种自动处理网页文本的内链的装置,包括 接收单元,用于获取用户行为日志; 统计单元,用于根据所述行为日志统计所述网页文本的点击数据; 判断単元,用于根据所述点击数据判断所述网页文本是否满足删除条件,以得到待删除内链的网页文本集合; 抓取単元,用于从所述网页文本集合中的子文本的所有内链中抓取出低质量的内链; 删除单元,用于删除所述低质量的内链。
13.根据权利要求12所述的自动处理网页文本的内链的装置,其特征在于,所述抓取单元进ー步包括 选取范围单元,用于选取所述子文本的固定区域; 计算统计量单元,用于对所述固定区域的所有内链计算与所述内链的点击量相关的统计量; 选择内链单元,用于根据所述统计量按照预定的选取策略从所述子文本的所有内链中选出所述低质量内链。
14.根据权利要求12所述的自动处理网页文本的内链的装置,其特征在于,所述抓取单元进ー步包括 选取范围单元,用于选择包含所述子文本的子内链的第一区域与第二区域,所述的第ニ区域大于所述的第一区域; 计算点击量单元,用于计算所述第一区域内除所述子内链外的剰余内链对所述子内链的点击量的贡献值与所述第二区域内所有内链的平均点击量; 选择内链单元,用于当所述子内链的点击量与所述贡献值的和小于所述第二区域内所有内链的平均点击量时,选取所述子内链为所述低质量内链。
15.根据权利要求12所述的自动处理网页文本的内链的装置,其特征在于,所述抓取单元进ー步包括 选取范围单元,用于选取所述子文本的固定区域; 计算点击量单元,用于在所述固定区域中划分上方区域和下方区域,井分别计算上方点击量与下方点击量,其中所述上方点击量是指所述上方区域包含的所有内链的平均点击量,所述下方点击量是指所述下方区域包含的所有内链的平均点击量; 选择内链单元,用于当所述下方点击量大于所述上方点击量时,选取所述上方区域中点击量最低的内链为所述低质量内链。
16.根据权利要求12所述的自动处理网页文本的内链的装置,其特征在于,所述装置进ー步还包括添加単元,用于为所述文本添加内链。
17.根据权利要求16所述的自动处理网页文本的内链的装置,其特征在于,所述添加单元进ー步包括 分词单元,用于对所述网页文本进行分词处理以获取候选添加词; 类别匹配验证单元,用于将所述候选添加词与指定的类别库进行匹配验证,并将通过验证的子候选添加词选择为链接导入词; 添加链接单元,用于为所述链接导入词添加链接。
18.根据权利要求16所述的自动处理网页文本的内链的装置,其特征在于,所述添加单元进ー步包括 分词单元,用于对所述网页文本进行分词处理以获取候选添加词; 识别单元,用于通过实体识别技术找出所述候选添加词中的实体词,并将所述实体词选择为链接导入词; 添加链接单元,用于为所述链接导入词添加链接。
19.根据权利要求16所述的自动处理网页文本的内链的装置,其特征在于,所述添加单元进ー步包括 分词单元,用于对所述网页文本进行分词处理以获取候选添加词; 内链推导验证单元,用于在所述网页文本中的第一文本关联第二文本的情况下验证所述第一文本中出现的子候选添加词与第二文本中出现的子内链词是否匹配,在匹配的情况下将所述子候选添加词选择为链接导入词; 添加链接单元,用于为所述链接导入词添加链接。
全文摘要
本发明提供了一种自动处理网页文本的内链的方法,包括步骤a.获取用户行为日志;b.根据所述行为日志统计所述网页文本的点击数据;c.根据所述点击数据判断所述网页文本是否满足删除条件,以得到待删除内链的网页文本集合,d.从所述网页文本集合中的子文本的所有内链中抓取出低质量的内链;e.删除所述低质量的内链。通过上述方式,大大节省了人工成本,减少了内链处理行为的主观性,并且很好地提高了文本内链的质量,改善了文本内链对用户的引导效果。
文档编号G06F17/30GK102654875SQ201110052159
公开日2012年9月5日 申请日期2011年3月4日 优先权日2011年3月4日
发明者严冰, 刘晓东, 李忠红, 李永强, 田孟月, 耿磊, 苏上海, 闫江波 申请人:北京百度网讯科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1