软文展现次数统计方法和装置与流程

文档序号:12596110阅读:365来源:国知局
软文展现次数统计方法和装置与流程

本申请涉及数据处理领域,具体而言,涉及一种软文展现次数统计方法和装置。



背景技术:

软文是一种文字广告,例如,在报纸、杂志或网络等宣传载体上刊登的用于提升企业品牌形象和知名度,或促进企业销售的一些宣传性、阐释性文章,包括特定的新闻报道、深度文章、付费短文广告、案例分析等。一些企业基于提高品牌声誉度或增加品牌曝光量等原因,会制作出一批基于品牌关键词或者产品关键词的软文,然后将软文在众多外部网站上进行投放。

为了分析软文的投放效果,通常需要统计所投放的软文在搜索端的这些特定关键词的搜索结果中的展现次数和排名情况。现有技术中通过人工搜索关键词,然后打开搜索结果页的每一个链接,查看相应网页内容并统计软文的展现数量以及软文的排名情况。这种人工操作的方式不仅效率低,而且统计结果容易出错。

针对相关技术中通过人工方式统计软文的展现次数效率较低的问题,目前尚未提出有效的解决方案。



技术实现要素:

本申请的主要目的在于提供一种软文展现次数统计方法和装置,以解决相关技术中通过人工方式统计软文的展现次数效率较低的问题。

为了实现上述目的,根据本申请的一个方面,提供了一种软文展现次数统计方法。该方法包括:获取多个网页内容,其中,多个网页内容为搜索结果页中的多个网页的内容;分别计算多个网页内容中各个网页内容和目标软文的文本编辑距离;分别根据多个网页内容中各个网页内容和目标软文的文本编辑距离判断各个网页内容是否与目标软文相同;以及统计多个网页内容中与目标软文相同的网页内容的数量,作为目标软文的展现次数。

进一步地,多个网页内容包括第一网页内容,分别根据多个网页内容中各个网页内容和目标软文的文本编辑距离判断各个网页内容是否与目标软文相同包括:统计目标软文的长度;计算第一网页内容和目标软文的文本编辑距离与目标软文的长度的比值;判断第一网页内容和目标软文的文本编辑距离与目标软文的长度的比值是否小于 第一阈值;当判断出第一网页内容和目标软文的文本编辑距离与目标软文的长度的比值小于第一阈值时,则确定第一网页内容与目标软文相同;以及当判断出第一网页内容和目标软文的文本编辑距离与目标软文的长度的比值不小于第一阈值时,则确定第一网页内容与目标软文不相同。

进一步地,多个网页内容包括第一网页内容,分别计算多个网页内容中各个网页内容和目标软文的文本编辑距离包括计算第一网页内容和目标软文的文本编辑距离,计算第一网页内容和目标软文的文本编辑距离包括:分别对第一网页内容和目标软文进行分块,得到第一内容块列表和第二内容块列表,其中,第一内容块列表为第一网页内容分块后得到的内容块列表,第二内容块列表为目标软文分块后得到的内容块列表;以及分别计算第一内容块列表中各个内容块与第二内容块列表中各个内容块的文本编辑距离。

进一步地,分别根据多个网页内容中各个网页内容和目标软文的文本编辑距离判断各个网页内容是否与目标软文相同包括:根据第一内容块列表中各个内容块与第二内容块列表中各个内容块的文本编辑距离获取第二内容块列表中与第一内容块列表中的内容块相同的内容块;分别统计第二内容块列表中与第一内容块列表中的内容块相同的内容块的长度和目标软文的长度;计算第二内容块列表中与第一内容块列表中的内容块相同的内容块的长度和目标软文的长度的比值;判断第二内容块列表中与第一内容块列表中的内容块相同的内容块的长度和目标软文的长度的比值是否大于第二阈值;当判断出第二内容块列表中与第一内容块列表中的内容块相同的内容块的长度和目标软文的长度的比值大于第二阈值时,则确定第一网页内容与目标软文相同;以及当判断出第二内容块列表中与第一内容块列表中的内容块相同的内容块的长度和目标软文的长度的比值不大于第二阈值时,则确定第一网页内容与目标软文不相同。

进一步地,第二内容块列表包括第一内容块,根据第一内容块列表中各个内容块与第二内容块列表中各个内容块的文本编辑距离获取第二内容块列表中与第一内容块列表中的内容块相同的内容块包括:统计第一内容块的长度;分别计算第一内容块列表中各个内容块与第一内容块的文本编辑距离与第一内容块的长度的比值,得到多个比值;判断多个比值中是否存在小于第三阈值的比值;当判断出多个比值中不存在小于第三阈值的比值时,则确定第一内容块列表中不存在与第一内容块相同的内容块;以及当判断出多个比值中存在小于第三阈值的比值时,则确定第一内容块列表中存在与第一内容块相同的内容块,并获取第一内容块。

进一步地,在统计多个网页内容中与目标软文相同的网页内容的数量,作为目标软文的展现次数之后,该方法还包括:分别获取多个网页内容中与目标软文相同的网页内容的排名;以及展示目标软文的展现次数和多个网页内容中与目标软文相同的网 页内容的排名。

为了实现上述目的,根据本申请的另一方面,提供了一种软文展现次数统计装置。该装置包括:第一获取单元,用于获取多个网页内容,其中,多个网页内容为搜索结果页中的多个网页的内容;计算单元,用于分别计算多个网页内容中各个网页内容和目标软文的文本编辑距离;判断单元,用于分别根据多个网页内容中各个网页内容和目标软文的文本编辑距离判断各个网页内容是否与目标软文相同;以及统计单元,用于统计多个网页内容中与目标软文相同的网页内容的数量,作为目标软文的展现次数。

进一步地,多个网页内容包括第一网页内容,判断单元包括:第一统计模块,用于统计目标软文的长度;第一计算模块,用于计算第一网页内容和目标软文的文本编辑距离与目标软文的长度的比值;第一判断模块,用于判断第一网页内容和目标软文的文本编辑距离与目标软文的长度的比值是否小于第一阈值;以及第一确定模块,用于当判断出第一网页内容和目标软文的文本编辑距离与目标软文的长度的比值小于第一阈值时,则确定第一网页内容与目标软文相同,当判断出第一网页内容和目标软文的文本编辑距离与目标软文的长度的比值不小于第一阈值时,则确定第一网页内容与目标软文不相同。

进一步地,多个网页内容包括第一网页内容,计算单元包括:分块模块,用于分别对第一网页内容和目标软文进行分块,得到第一内容块列表和第二内容块列表,其中,第一内容块列表为第一网页内容分块后得到的内容块列表,第二内容块列表为目标软文分块后得到的内容块列表;以及第二计算模块,用于分别计算第一内容块列表中各个内容块与第二内容块列表中各个内容块的文本编辑距离。

进一步地,判断单元包括:获取模块,用于根据第一内容块列表中各个内容块与第二内容块列表中各个内容块的文本编辑距离获取第二内容块列表中与第一内容块列表中的内容块相同的内容块;第二统计模块,用于分别统计第二内容块列表中与第一内容块列表中的内容块相同的内容块的长度和目标软文的长度;第三计算模块,用于计算第二内容块列表中与第一内容块列表中的内容块相同的内容块的长度和目标软文的长度的比值;第二判断模块,用于判断第二内容块列表中与第一内容块列表中的内容块相同的内容块的长度和目标软文的长度的比值是否大于第二阈值;以及第二确定模块,用于当判断出第二内容块列表中与第一内容块列表中的内容块相同的内容块的长度和目标软文的长度的比值大于第二阈值时,则确定第一网页内容与目标软文相同,当判断出第二内容块列表中与第一内容块列表中的内容块相同的内容块的长度和目标软文的长度的比值不大于第二阈值时,则确定第一网页内容与目标软文不相同。

本申请通过获取多个网页内容,其中,多个网页内容为搜索结果页中的多个网页的内容;分别计算多个网页内容中各个网页内容和目标软文的文本编辑距离;分别根 据多个网页内容中各个网页内容和目标软文的文本编辑距离判断各个网页内容是否与目标软文相同;以及统计多个网页内容中与目标软文相同的网页内容的数量,作为目标软文的展现次数。本申请通过自动获取与搜索关键词匹配的所有网页内容,并根据与搜索关键词匹配的所有网页内容与目标软文的文本编辑距离来统计目标软文的展现次数,相比于现有技术中通过人工方式统计软文展现次数,速度更快,解决了相关技术中通过人工方式统计软文的展现次数效率较低的问题,进而达到了提高统计软文的展现次数的效率的效果。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1是根据本申请实施例的软文展现次数统计方法的流程图;以及

图2是根据本申请实施例的软文展现次数统计装置的示意图。

具体实施方式

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请实施例,提供了一种软文展现次数统计方法。图1是根据本申请实施例的软文展现次数统计方法的流程图,如图1所示,该方法包括如下的步骤S102至步骤S108:

步骤S102,获取多个网页内容,其中,多个网页内容为搜索结果页中的多个网页的内容。

本申请实施例的搜索结果页为基于搜索关键词进行搜索得到的搜索结果页,其中,搜索关键词可以是与目标软文相关联的关键词,例如,如果目标软文是基于某个品牌关键词投放的软文,则搜索关键词可以是该品牌关键词、或是该品牌关键词相关联的关键词等,如果目标软文是基于某个产品关键词投放的软文,搜索关键词可以是该产品关键词、或是该产品关键词相关联的关键词等。需要说明的是,本申请实施例的搜索关键词可以是一个,也可以是多个。

具体地,本申请实施例可以在接收到外部输入的搜索关键词后,通过网络爬虫去爬取该搜索关键词对应的搜索结果页中每个网页链接中的网页内容(即与搜索关键词匹配的多个网页内容),其中,本申请实施例的网页内容是指网页中的文本内容。

步骤S104,分别计算多个网页内容中各个网页内容和目标软文的文本编辑距离。

本申请实施例的文本编辑距离是指两个字符串之间,由一个字符串转成另一个字符串所需的最少编辑操作次数,其中,允许的编辑操作包括将一个字符替换成另一个字符、插入一个字符和删除一个字符,例如,两个字符串分别为ABC与ABCD,由字符串ABC变换为字符串ABCD仅需要增加字符D,即仅需执行一次操作,则字符串ABC和字符串ABCD的文本编辑距离为1。通常,文本编辑距离越小,两个字符串的相似度越大。本申请实施例的目标软文可以是指当前需要进行投放效果监测的软文。

本申请实施例在获取到与搜索关键词匹配的多个网页内容之后,分别计算上述多个网页内容中各个网页内容和目标软文的文本编辑距离,得到多个文本编辑距离,例如,存在10篇网页内容(即网页内容1至网页内容10)与搜索关键词匹配,则分别计算网页内容1至网页内容10中各个网页内容与目标软文的文本编辑距离,得到10个文本编辑距离。

优选地,为了提高统计结果的准确性,在分别计算多个网页内容中各个网页内容和目标软文的文本编辑距离之前,可以分别过滤多个网页内容和目标软文中的无效字符,其中,无效字符可以是标点符号、空格等,再根据过滤无效字符后的多个网页内容和过滤无效字符后的目标软文计算文本编辑距离。

步骤S106,分别根据多个网页内容中各个网页内容和目标软文的文本编辑距离判断各个网页内容是否与目标软文相同。

本申请实施例在得到多个网页内容中各个网页内容和目标软文的文本编辑距离之后,可以分别根据各个网页内容和目标软文的文本编辑距离判断上述各个网页内容是否与目标软文相同,例如,分别将各个文本编辑距离与阈值比较,如果某个网页内容 与目标软文的文本编辑距离小于阈值,则确定该网页内容与目标软文相同,否则,则确定该网页内容与目标软文不相同。

步骤S108,统计多个网页内容中与目标软文相同的网页内容的数量,作为目标软文的展现次数。

具体地,搜索关键词对应的搜索结果页中与目标软文相同的网页内容的数量即表示该目标软文在搜索结果页的展现次数。在与搜索关键词匹配的网页内容数量较大时,本申请实施例不仅可以大大提高统计效率,节省人工成本,而且可以提高统计结果的准确性。

本申请实施例通过获取多个网页内容,其中,多个网页内容为搜索结果页中的多个网页的内容;分别计算多个网页内容中各个网页内容和目标软文的文本编辑距离;分别根据多个网页内容中各个网页内容和目标软文的文本编辑距离判断各个网页内容是否与目标软文相同;以及统计多个网页内容中与目标软文相同的网页内容的数量,作为目标软文的展现次数。本申请通过自动获取与搜索关键词匹配的所有网页内容,并根据与搜索关键词匹配的所有网页内容与目标软文的文本编辑距离来统计目标软文的展现次数,相比于现有技术中通过人工方式统计软文展现次数,速度更快,解决了相关技术中通过人工方式统计软文的展现次数效率较低的问题,进而达到了提高统计软文的展现次数的效率的效果。

可选地,多个网页内容包括第一网页内容,分别根据多个网页内容中各个网页内容和目标软文的文本编辑距离判断各个网页内容是否与目标软文相同包括:统计目标软文的长度;计算第一网页内容和目标软文的文本编辑距离与目标软文的长度的比值;判断第一网页内容和目标软文的文本编辑距离与目标软文的长度的比值是否小于第一阈值;当判断出第一网页内容和目标软文的文本编辑距离与目标软文的长度的比值小于第一阈值时,则确定第一网页内容与目标软文相同;以及当判断出第一网页内容和目标软文的文本编辑距离与目标软文的长度的比值不小于第一阈值时,则确定第一网页内容与目标软文不相同。

本申请实施例的第一网页内容可以是上述多个网页内容中任意一个网页内容,以下以第一网页内容为例对本申请实施例进行说明。本申请实施例的目标软文的长度可以是目标软文的字符数,其中,字符可以包括文字、字母和数字等。

具体地,本申请实施例通过计算第一网页内容和目标软文的文本编辑距离与目标软文的长度的比值,并将该比值与第一阈值比较,如果该比值小于第一阈值,则确定第一网页内容与目标软文相同,如果该比值不小于第一阈值,则确定第一网页内容与目标软文不相同,其中,第一阈值可以根据目标软文的长度进行设置,例如,目标软 文的长度较长(例如,目标软文的长度超过2000)时,相应地可以将第一阈值设置的大一些(例如,设置第一阈值为0.38),目标软文的长度较短(例如,目标软文的长度小于500)时,相应地可以将第一阈值设置的小一些(例如,设置第一阈值为0.3),其他条件下则将第一阈值设置为0.35。

本申请实施例通过直接计算第一网页内容和目标软文的文本编辑距离,根据第一网页内容和目标软文的文本编辑距离与目标软文的长度的比值,并通过将该比值与第一阈值进行比较来判断第一网页内容和目标软文是否相同,执行速率较快。

优选地,为了提高统计结果的准确性,多个网页内容包括第一网页内容,分别计算多个网页内容中各个网页内容和目标软文的文本编辑距离包括计算第一网页内容和目标软文的文本编辑距离,计算第一网页内容和目标软文的文本编辑距离包括:分别对第一网页内容和目标软文进行分块,得到第一内容块列表和第二内容块列表,其中,第一内容块列表为第一网页内容分块后得到的内容块列表,第二内容块列表为目标软文分块后得到的内容块列表;以及分别计算第一内容块列表中各个内容块与第二内容块列表中各个内容块的文本编辑距离。

本申请实施例通过先对第一网页内容和目标软文进行分块,例如,按照断句符(例如,逗号、句号、分号等)将第一网页内容和目标软文分成多个内容块,得到第一内容块列表和第二内容块列表。优选地,本申请实施例可以在将第一网页内容和目标软文分成多个内容块之后,去除每个内容块内的无效字符(例如,引号、空格等),并基于去除了无效字符的内容块计算文本编辑距离。具体地,本申请实施例可以遍历第二内容块列表,并计算第二内容块列表中的每个内容块分别与第一内容块列表中各个内容块的文本编辑距离。

本申请实施例在得到第一内容块列表中各个内容块与第二内容块列表中各个内容块的文本编辑距离之后,即可以基于第一内容块列表中各个内容块与第二内容块列表中各个内容块的文本编辑距离判断第一网页内容和目标软文是否相同。

优选地,分别根据多个网页内容中各个网页内容和目标软文的文本编辑距离判断各个网页内容是否与目标软文相同包括:根据第一内容块列表中各个内容块与第二内容块列表中各个内容块的文本编辑距离获取第二内容块列表中与第一内容块列表中的内容块相同的内容块;分别统计第二内容块列表中与第一内容块列表中的内容块相同的内容块的长度和目标软文的长度;计算第二内容块列表中与第一内容块列表中的内容块相同的内容块的长度和目标软文的长度的比值;判断第二内容块列表中与第一内容块列表中的内容块相同的内容块的长度和目标软文的长度的比值是否大于第二阈值;当判断出第二内容块列表中与第一内容块列表中的内容块相同的内容块的长度和目标软文的长度的比值大于第二阈值时,则确定第一网页内容与目标软文相同;以及 当判断出第二内容块列表中与第一内容块列表中的内容块相同的内容块的长度和目标软文的长度的比值不大于第二阈值时,则确定第一网页内容与目标软文不相同。

具体地,可以遍历第二内容块列表,分别获取第二内容块列表中各个内容块与第一内容块列表中各个内容块的文本编辑距离,并第二内容块列表中各个内容块与第一内容块列表中各个内容块的文本编辑距离判断第二内容块列表中各个内容块是否与第一内容块列表中各个内容块相同,以下第二内容块列表中第一内容块为例进行说明,其中,第一内容块可以是第二内容块列表中任意一个内容块。

优选地,根据第一内容块列表中各个内容块与第二内容块列表中各个内容块的文本编辑距离获取第二内容块列表中与第一内容块列表中的内容块相同的内容块包括:统计第一内容块的长度;分别计算第一内容块列表中各个内容块与第一内容块的文本编辑距离与第一内容块的长度的比值,得到多个比值;判断多个比值中是否存在小于第三阈值的比值;当判断出多个比值中不存在小于第三阈值的比值时,则确定第一内容块列表中不存在与第一内容块相同的内容块;以及当判断出多个比值中存在小于第三阈值的比值时,则确定第一内容块列表中存在与第一内容块相同的内容块,并获取第一内容块。

本申请实施例的第一内容块的长度可以是第一内容块的字符数。具体地,在得到第一内容块的长度之后,可以分别计算第一内容块与第一内容块列表中各个内容块的文本编辑距离与第一内容块的长度的比值,得到多个比值,如果这多个比值中不存在小于第三阈值的比值时,则说明该第一内容块与第一内容块列表中各个内容块均不相同,如果这多个比值中存在小于第三阈值的比值时,则说明第一内容块列表中存在与第一内容块相同的内容块,即第一内容块为第二内容块列表中与第一内容块列表中的内容块相同的内容块,获取第一内容块。需要说明的是,上述第三阈值可以根据实际情况进行设置,例如,设置第三阈值为0.35。通过对第二内容块列表中各个内容块均执行上述操作,即可以得到第二内容块列表中与第一内容块列表中的内容块相同的所有内容块。

在得到第二内容块列表中与第一内容块列表中的内容块相同的所有内容块之后,统计第二内容块列表中与第一内容块列表中的内容块相同的所有内容块的长度,例如,第二内容块列表中存在10个内容块与第一内容块列表中的内容块相同,则统计这10个内容块的长度,具体地,可以分别统计这10个内容块中每个内容块的长度,并进行求和得到这10个内容块的长度。本申请实施例通过计算第二内容块列表中与第一内容块列表中的内容块相同的内容块的长度和目标软文的长度的比值,并与第二阈值进行比较,其中,第二阈值可以根据实际情况进行设置,例如,设置第二阈值为0.8,即存在80%以上的内容相同时即认为该第一网页内容与目标软文内容相同,否则,则认为 该第一网页内容与目标软文内容不相同。

本申请实施例通过对多个网页内容中各个网页内容分别执行上述操作来判断是否与目标软文相同,在完成对多个网页内容中各个网页内容的判断之后,即可以统计上述多个网页内容中与目标软文相同网页内容的数量,从而可以得到目标软文的展现次数。

优选地,为了便于用户直观的查看软文的投放效果,在统计多个网页内容中与目标软文相同的网页内容的数量,作为目标软文的展现次数之后,该方法还包括:分别获取多个网页内容中与目标软文相同的网页内容的排名;以及展示目标软文的展现次数和多个网页内容中与目标软文相同的网页内容的排名。

本申请实施例可以在通过网络爬虫爬取网页内容时,同时爬取该网页内容的排名(即在搜索结果页中的排名),在统计出目标软文的展现次数后,将目标软文的展现次数以及排名情况共同展现给用户查看。

根据本申请又一实施例的软文展现次数统计方法,包括如下步骤:

步骤S202,用户输入需要查询的关键词。

上述需要查询的关键词即搜索关键词。

步骤S204,网络爬虫根据关键词去抓取搜索结果页的网页内容,并返回所有抓取的网页内容和序号。

上述序号即网页内容在搜索结果页中的排名。

步骤S206,将上述任一网页内容按照断句符(例如,句号、逗号、分号等)划分成若干内容块。

步骤S208,去除内容块内无效字符(例如,引号、空格等)。

步骤S210,将上述去除无效字符的内容块组成内容块列表1。

步骤S212,同样对目标软文进行分块以及去除每个内容块内的无效字符,得到内容块列表2。

步骤S214,计算将内容块列表1中的每个内容块与内容块列表2中的每个内容块的文本编辑距离。

例如,两个字符串ABC与ABCD的文本编辑距离为1。

步骤S216,根据内容块列表1中的每个内容块与内容块列表2中的每个内容块的文本编辑距离获取内容块列表1和内容块列表2中的相同内容块。

具体地,计算内容块列表1中的每个内容块与内容块列表2中的每个内容块的文本编辑距离之后,将各个文本编辑距离除以对应的原字符串长度,得到多个比值,其中,原字符串长度可以是用于计算该文本编辑距离的内容块列表1中的内容块的长度,也可以是用于计算该文本编辑距离的内容块列表2中的内容块的长度,例如,通过内容块列表1中的内容块1和内容块列表2中的内容块2计算得到文本编辑距离,则可以该文本编辑距离除以内容块1的长度,也可以是用该文本编辑距离除以内容块2的长度。

在得到多个比值后,即可以将多个比值分别与阈值1(即上述第三阈值)比较,例如,将多个比值分别与0.35比较,如果存在某个比值小于0.35,则说明该比值对应的内容块列表1中的内容块和内容块列表2中的内容块相同,否则,则说明该比值对应的内容块列表1中的内容块和内容块列表2中的内容块不相同。

步骤S218,在得到内容块列表1和内容块列表2中的相同内容块之后,将相同内容块的字符数除以总的字符数得到重复率。

步骤S220,将上述重复率与阈值2比较,如果重复率大于阈值2则认为上述网页内容与目标软文相同。

具体地,可以将阈值2设置为0.8(即80%),如果重复率大于80%则认为上述网页内容与目标软文相同。

步骤S222,对上述步骤S204爬取的所有网页内容执行步骤S206至步骤S220,可以得到爬取的所有网页内容中与目标软文相同的网页内容。

步骤S224,统计爬取的所有网页内容中与目标软文相同的网页内容的数量,作为目标软文的展现次数。

需要说明的是,本申请实施例可以采用不同的分块方法对网页内容和目标软文进行分块,也可以不进行分块直接计算网页内容和目标软文的文本编辑距离以判断网页内容和目标软文是否相同,判断方法同上,在此不再赘述。此外,本申请实施例还可以爬取全网络的网页内容进行目标软文的展现次数的统计。

本申请实施例通过自动抓取网页内容并与目标软文进行内容匹配,实现了目标软文展现次数的快速统计,此外,本申请实施例对网页内容和目标软文进行切块并运算处理后进行比对,可以提高比对正确率,从而进一步提供统计结果的准确率。

由上述描述可知,本申请实施例可以实现更精确地文本匹配判断,并且能够自动地进行文本匹配。

需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的 计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

根据本申请实施例的另一方面,提供了一种软文展现次数统计装置,该软文展现次数统计装置可以用于执行本申请实施例的软文展现次数统计方法,本申请实施例的方法也可以通过本申请实施例的软文展现次数统计装置来执行。

图2是根据本申请实施例的软文展现次数统计装置的示意图,如图2所示,该装置包括:第一获取单元10、计算单元20、判断单元30和统计单元40。

第一获取单元10,用于获取多个网页内容,其中,多个网页内容为搜索结果页中的多个网页的内容。

计算单元20,用于分别计算多个网页内容中各个网页内容和目标软文的文本编辑距离。

判断单元30,用于分别根据多个网页内容中各个网页内容和目标软文的文本编辑距离判断各个网页内容是否与目标软文相同。

统计单元40,用于统计多个网页内容中与目标软文相同的网页内容的数量,作为目标软文的展现次数。

本申请实施例通过第一获取单元10获取多个网页内容,其中,多个网页内容为搜索结果页中的多个网页的内容;计算单元20分别计算多个网页内容中各个网页内容和目标软文的文本编辑距离;判断单元30分别根据多个网页内容中各个网页内容和目标软文的文本编辑距离判断各个网页内容是否与目标软文相同;以及统计单元40统计多个网页内容中与目标软文相同的网页内容的数量,作为目标软文的展现次数。本申请通过自动获取与搜索关键词匹配的所有网页内容,并根据与搜索关键词匹配的所有网页内容与目标软文的文本编辑距离来统计目标软文的展现次数,相比于现有技术中通过人工方式统计软文展现次数,速度更快,解决了相关技术中通过人工方式统计软文的展现次数效率较低的问题,进而达到了提高统计软文的展现次数的效率的效果。

优选地,多个网页内容包括第一网页内容,判断单元30包括:第一统计模块,用于统计目标软文的长度;第一计算模块,用于计算第一网页内容和目标软文的文本编辑距离与目标软文的长度的比值;第一判断模块,用于判断第一网页内容和目标软文的文本编辑距离与目标软文的长度的比值是否小于第一阈值;以及第一确定模块,用于当判断出第一网页内容和目标软文的文本编辑距离与目标软文的长度的比值小于第一阈值时,则确定第一网页内容与目标软文相同,当判断出第一网页内容和目标软文的文本编辑距离与目标软文的长度的比值不小于第一阈值时,则确定第一网页内容与目标软文不相同。

优选地,多个网页内容包括第一网页内容,计算单元20包括:分块模块,用于分别对第一网页内容和目标软文进行分块,得到第一内容块列表和第二内容块列表,其中,第一内容块列表为第一网页内容分块后得到的内容块列表,第二内容块列表为目标软文分块后得到的内容块列表;以及第二计算模块,用于分别计算第一内容块列表中各个内容块与第二内容块列表中各个内容块的文本编辑距离。

优选地,判断单元30包括:获取模块,用于根据第一内容块列表中各个内容块与第二内容块列表中各个内容块的文本编辑距离获取第二内容块列表中与第一内容块列表中的内容块相同的内容块;第二统计模块,用于分别统计第二内容块列表中与第一内容块列表中的内容块相同的内容块的长度和目标软文的长度;第三计算模块,用于计算第二内容块列表中与第一内容块列表中的内容块相同的内容块的长度和目标软文的长度的比值;第二判断模块,用于判断第二内容块列表中与第一内容块列表中的内容块相同的内容块的长度和目标软文的长度的比值是否大于第二阈值;以及第二确定模块,用于当判断出第二内容块列表中与第一内容块列表中的内容块相同的内容块的长度和目标软文的长度的比值大于第二阈值时,则确定第一网页内容与目标软文相同,当判断出第二内容块列表中与第一内容块列表中的内容块相同的内容块的长度和目标软文的长度的比值不大于第二阈值时,则确定第一网页内容与目标软文不相同。

所述软文展现次数统计装置包括处理器和存储器,上述第一获取单元、计算单元、判断单元和统计单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来统计软文的展现次数。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。

本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:获取多个网页内容,其中,多个网页内容为搜索结果页中的多个网页的内容;分别计算多个网页内容中各个网页内容和目标软文的文本编辑距离;分别根据多个网页内容中各个网页内容和目标软文的文本编辑距离判断各个网页内容是否与目标软文相同;以及统计多个网页内容中与目标软文相同的网页内容的数量,作为目标软文的展现次数。

上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。

在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有 详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1