软文展现次数统计方法和装置与流程

文档序号:12596110阅读:来源:国知局

技术特征:

1.一种软文展现次数统计方法,其特征在于,包括:

获取多个网页内容,其中,所述多个网页内容为搜索结果页中的多个网页的内容;

分别计算所述多个网页内容中各个网页内容和目标软文的文本编辑距离;

分别根据所述多个网页内容中各个网页内容和所述目标软文的文本编辑距离判断所述各个网页内容是否与所述目标软文相同;以及

统计所述多个网页内容中与所述目标软文相同的网页内容的数量,作为所述目标软文的展现次数。

2.根据权利要求1所述的方法,其特征在于,所述多个网页内容包括第一网页内容,分别根据所述多个网页内容中各个网页内容和所述目标软文的文本编辑距离判断所述各个网页内容是否与所述目标软文相同包括:

统计所述目标软文的长度;

计算所述第一网页内容和所述目标软文的文本编辑距离与所述目标软文的长度的比值;

判断所述第一网页内容和所述目标软文的文本编辑距离与所述目标软文的长度的比值是否小于第一阈值;

当判断出所述第一网页内容和所述目标软文的文本编辑距离与所述目标软文的长度的比值小于所述第一阈值时,则确定所述第一网页内容与所述目标软文相同;以及

当判断出所述第一网页内容和所述目标软文的文本编辑距离与所述目标软文的长度的比值不小于所述第一阈值时,则确定所述第一网页内容与所述目标软文不相同。

3.根据权利要求1所述的方法,其特征在于,所述多个网页内容包括第一网页内容,分别计算所述多个网页内容中各个网页内容和目标软文的文本编辑距离包括计算所述第一网页内容和所述目标软文的文本编辑距离,计算所述第一网页内容和所述目标软文的文本编辑距离包括:

分别对所述第一网页内容和所述目标软文进行分块,得到第一内容块列表和第二内容块列表,其中,所述第一内容块列表为所述第一网页内容分块后得到的内容块列表,所述第二内容块列表为所述目标软文分块后得到的内容块列表;以 及

分别计算所述第一内容块列表中各个内容块与所述第二内容块列表中各个内容块的文本编辑距离。

4.根据权利要求3所述的方法,其特征在于,分别根据所述多个网页内容中各个网页内容和所述目标软文的文本编辑距离判断所述各个网页内容是否与所述目标软文相同包括:

根据所述第一内容块列表中各个内容块与所述第二内容块列表中各个内容块的文本编辑距离获取所述第二内容块列表中与所述第一内容块列表中的内容块相同的内容块;

分别统计所述第二内容块列表中与所述第一内容块列表中的内容块相同的内容块的长度和所述目标软文的长度;

计算所述第二内容块列表中与所述第一内容块列表中的内容块相同的内容块的长度和所述目标软文的长度的比值;

判断所述第二内容块列表中与所述第一内容块列表中的内容块相同的内容块的长度和所述目标软文的长度的比值是否大于第二阈值;

当判断出所述第二内容块列表中与所述第一内容块列表中的内容块相同的内容块的长度和所述目标软文的长度的比值大于所述第二阈值时,则确定所述第一网页内容与所述目标软文相同;以及

当判断出所述第二内容块列表中与所述第一内容块列表中的内容块相同的内容块的长度和所述目标软文的长度的比值不大于所述第二阈值时,则确定所述第一网页内容与所述目标软文不相同。

5.根据权利要求4所述的方法,其特征在于,所述第二内容块列表包括第一内容块,根据所述第一内容块列表中各个内容块与所述第二内容块列表中各个内容块的文本编辑距离获取所述第二内容块列表中与所述第一内容块列表中的内容块相同的内容块包括:

统计所述第一内容块的长度;

分别计算所述第一内容块列表中各个内容块与所述第一内容块的文本编辑距离与所述第一内容块的长度的比值,得到多个比值;

判断所述多个比值中是否存在小于第三阈值的比值;

当判断出所述多个比值中不存在小于所述第三阈值的比值时,则确定所述第一内容块列表中不存在与所述第一内容块相同的内容块;以及

当判断出所述多个比值中存在小于所述第三阈值的比值时,则确定所述第一内容块列表中存在与所述第一内容块相同的内容块,并获取所述第一内容块。

6.根据权利要求1所述的方法,其特征在于,在统计所述多个网页内容中与所述目标软文相同的网页内容的数量,作为所述目标软文的展现次数之后,所述方法还包括:

分别获取所述多个网页内容中与所述目标软文相同的网页内容的排名;以及

展示所述目标软文的展现次数和所述多个网页内容中与所述目标软文相同的网页内容的排名。

7.一种软文展现次数统计装置,其特征在于,包括:

第一获取单元,用于获取多个网页内容,其中,所述多个网页内容为搜索结果页中的多个网页的内容;

计算单元,用于分别计算所述多个网页内容中各个网页内容和目标软文的文本编辑距离;

判断单元,用于分别根据所述多个网页内容中各个网页内容和所述目标软文的文本编辑距离判断所述各个网页内容是否与所述目标软文相同;以及

统计单元,用于统计所述多个网页内容中与所述目标软文相同的网页内容的数量,作为所述目标软文的展现次数。

8.根据权利要求7所述的装置,其特征在于,所述多个网页内容包括第一网页内容,所述判断单元包括:

第一统计模块,用于统计所述目标软文的长度;

第一计算模块,用于计算所述第一网页内容和所述目标软文的文本编辑距离与所述目标软文的长度的比值;

第一判断模块,用于判断所述第一网页内容和所述目标软文的文本编辑距离与所述目标软文的长度的比值是否小于第一阈值;以及

第一确定模块,用于当判断出所述第一网页内容和所述目标软文的文本编辑距离与所述目标软文的长度的比值小于所述第一阈值时,则确定所述第一网页内容与所述目标软文相同,当判断出所述第一网页内容和所述目标软文的文本编辑 距离与所述目标软文的长度的比值不小于所述第一阈值时,则确定所述第一网页内容与所述目标软文不相同。

9.根据权利要求7所述的装置,其特征在于,所述多个网页内容包括第一网页内容,所述计算单元包括:

分块模块,用于分别对所述第一网页内容和所述目标软文进行分块,得到第一内容块列表和第二内容块列表,其中,所述第一内容块列表为所述第一网页内容分块后得到的内容块列表,所述第二内容块列表为所述目标软文分块后得到的内容块列表;以及

第二计算模块,用于分别计算所述第一内容块列表中各个内容块与所述第二内容块列表中各个内容块的文本编辑距离。

10.根据权利要求9所述的装置,其特征在于,所述判断单元包括:

获取模块,用于根据所述第一内容块列表中各个内容块与所述第二内容块列表中各个内容块的文本编辑距离获取所述第二内容块列表中与所述第一内容块列表中的内容块相同的内容块;

第二统计模块,用于分别统计所述第二内容块列表中与所述第一内容块列表中的内容块相同的内容块的长度和所述目标软文的长度;

第三计算模块,用于计算所述第二内容块列表中与所述第一内容块列表中的内容块相同的内容块的长度和所述目标软文的长度的比值;

第二判断模块,用于判断所述第二内容块列表中与所述第一内容块列表中的内容块相同的内容块的长度和所述目标软文的长度的比值是否大于第二阈值;以及

第二确定模块,用于当判断出所述第二内容块列表中与所述第一内容块列表中的内容块相同的内容块的长度和所述目标软文的长度的比值大于所述第二阈值时,则确定所述第一网页内容与所述目标软文相同,当判断出所述第二内容块列表中与所述第一内容块列表中的内容块相同的内容块的长度和所述目标软文的长度的比值不大于所述第二阈值时,则确定所述第一网页内容与所述目标软文不相同。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1