一种检测内容变更的方法和装置的制作方法

文档序号:6375461阅读:143来源:国知局
专利名称:一种检测内容变更的方法和装置的制作方法
技术领域
本发明涉及自然语言处理领域,尤其涉及一种检测内容变更的方法和装置。
背景技术
在检测内容变更时通常采用通过建立的向量空间模型来计算文档间的相似性,进而确定某一篇的文档内容是否有变更。向量空间模型是一种自然语言处理中常用的模型,将文档内容的处理简化为空间中的向量运算,并且以空间上的相似度表达文档内容中语义的相似度。当文档被表示为 文档空间的向量时,可以通过计算向量之间的相似性来度量文档间的相似性。具体的,在向量空间模型中,两个文档之间的语义内容相似度以两个向量之间的夹角的余弦值表示。然而,在采用通过向量空间模型来确定广告主内容变更时,由于广告主内容中某一个广告创意页面内容会远少于广告主网站内容,每个词项的词频在两者中差异很大,导致计算广告创意与广告主网站内容的相似度时,获得的相似度值会很小,且两者共有的词项数目远少于广告主网站中出现的词项数目,所以若利用余弦相似度计算两者相似度,得出的相似度值会和实际情况相差很大,导致出现错误报警,不能准确识别广告主内容是否有变更。

发明内容
本发明的实施例提供一种检测内容变更的方法和装置,可以提高识别广告主内容变更的准确率,降低错误报警。为达到上述目的,本发明的实施例采用如下技术方案一种检测内容变更的方法,包括分别获取任一广告创意的内容的创意文本集合,以及所述广告创意对应的广告主网站内容的网站文本集合;分别对所述创意文本集合和所述网站文本集合进行文本向量化,得到创意向量和网站向量;根据所述创意向量和所述网站向量,以及所述创意向量和所述网站向量中共同元素的个数,确定所述广告创意内容与所述广告主网站内容的相似度;当所述相似度小于预设阈值时,确定所述广告主网站内容发生变更。一种检测内容变更的装置,包括文本集合获取单元,用于分别获取任一广告创意的内容的创意文本集合,以及所述广告创意对应的广告主网站内容的网站文本集合;向量获取单元,用于分别对所述创意文本集合和所述网站文本集合进行文本向量化,得到创意向量和网站向量;相似度确定单元,用于根据所述创意向量和所述网站向量,以及所述创意向量和所述网站向量中共同元素的个数,确定所述广告创意内容与所述广告主网站内容的相似度;判决单元,用于当所述相似度小于预设阈值时,确定所述广告主网站内容发生变更。本发明实施例提供一种检测内容变更的方法和装置,通过分别获取任一广告创意的内容的创意文本集合,以及所述广告创意对应的广告主网站内容的网站文本集合;分别对所述创意文本集合和所述网站文本集合进行文本向量化,得到创意向量和网站向量;根据所述创意向量和所述网站向量,以及所述创意向量和所述网站向量中共同元素的个数,确定所述广告创意内容与所述广告主网站内容的相似度;当所述相似度小于预设阈值时,确定所述广告主网站内容发生变更。与现有技术中在采用通过向量空间模型来确定广告主内容变更时,由于广告主内容中某一个广告创意页面内容会远少于广告主网站内容,每个词项的词频在两者中差异很·大,导致计算广告创意与广告主网站内容的相似度时,获得的相似度值会很小,且两者共有的词项数目远少于广告主网站中出现的词项数目,所以若利用余弦相似度计算两者相似度,得出的相似度值会和实际情况相差很大,导致出现错误报警,不能准确识别广告主内容是否有变更相比,本发明实施例提供的方案采用改进的向量空间模型以及新的相似度值计算方法检测广告主内容变更,可以提高识别广告主内容变更的准确率,降低错误报警。


为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图I为本发明实施例I提供的一种检测内容变更的方法的流程图;图2为本发明实施例I提供的一种检测内容变更的装置的框图;图3为本发明实施例2提供的一种检测内容变更的方法的流程图;图4为本发明实施例2提供的三级页面示意图;图5为本发明实施例2提供的对创意文本集合进行向量化的方法的流程图;图6为本发明实施例2提供的一种检测内容变更的装置的框图。
具体实施例方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。实施例I本发明实施例提供一种检测内容变更的方法,如图I所示,该方法包括以下步骤步骤101,分别获取任一广告创意的内容的创意文本集合,以及所述广告创意对应的广告主网站内容的网站文本集合;本步骤中,根据任一广告创意的内容,获取并解析广告创意目标页面以及所述广告创意目标页面内链接指向的页面,得到创意文本集合;根据所述广告创意对应的广告主网站内容以及预设周期,获取并解析广告主网站首页、所述广告主网站首页的二级页面以及三级页面,得到网站文本集合,所述预设周期为更新所述网站文本集合的周期。步骤102,分别对所述创意文本集合和所述网站文本集合进行文本向量化,得到创意向量和网站向量;本步骤中,对所述创意文本集合和所述网站文本集合中的每篇文本进行切词;统计预设词库中每个词在切词后的每篇文本中的词频;根据统计的所述每个词的所述词频,分别计算所述每个词在所述创意文本集合和所述网站文本集合中的总词频;
将所述创意文本集合和所述网站文本集合映射到向量空间模型上,得到创意向量和网站向量。进一步的,将所述创意文本集合和所述网站文本集合映射到向量空间模型上,得到创意向量和网站向量包括将所述创意文本集合和所述网站文本集合映射到向量空间模型上,得到第一创意向量和第一网站向量;获取所述第一创意向量中第一阈值参数个词频最高的元素,并将所述第一阈值参数个词频最高的元素的值设置为1,将除所述第一阈值参数个词频最高的元素之外所述第一创意向量中的元素的值设置为0,得到创意向量;获取所述第一网站向量中第二阈值参数个词频最高的元素,并将所述第二阈值参数个词频最高的元素的值设置为1,将除所述第二阈值参数个词频最高的元素之外所述第一网站向量中的元素的值设置为0,得到网站向量;其中,所述第一阈值参数小于所述第二阈值参数。步骤103,根据所述创意向量和所述网站向量,以及所述创意向量和所述网站向量
中共同元素的个数,确定所述广告创意内容与所述广告主网站内容的相似度;
N本步骤中,根据Sim(VpV2)=#确定所述广告创意内容与所述广告主网站内容的
相似度;其中,V1为所述创意向量,V2为所述网站向量,N3为所述创意向量与所述网站向量中值为I的共同元素的个数,N1为所述第一阈值参数。步骤104,当所述相似度小于预设阈值时,确定所述广告主网站内容发生变更。进一步的,当确定所述广告主网站内容发生变更之后,提出报警。当所述相似度大于或者等于预设阈值时,确定所述广告主内容未发生变更。本发明实施例提供一种检测内容变更的方法,通过采用改进的向量空间模型以及新的相似度值计算方法检测广告主内容变更,可以提高识别广告主内容变更的准确率,降低错误报警。本发明实施例提供一种检测内容变更的装置,如图2所示,该装置包括文本集合获取单元201,向量获取单元202,相似度确定单元203,判决单元204 ;文本集合获取单元201,用于分别获取任一广告创意的内容的创意文本集合,以及所述广告创意对应的广告主网站内容的网站文本集合;所述文本集合获取单元201用于根据任一广告创意的内容,获取并解析广告创意目标页面以及所述广告创意目标页面内链接指向的页面,得到创意文本集合;根据所述广告创意对应的广告主网站内容以及预设周期,获取并解析广告主网站首页、所述广告主网站首页的二级页面以及三级页面,得到网站文本集合,所述预设周期为更新所述网站文本集合的周期。向量获取单元202,用于分别对所述创意文本集合和所述网站文本集合进行文本向量化,得到创意向量和网站向量;其中,所述向量获取单元202中的切词模块,用于对所述创意文本集合和所述网站文本集合中的每篇文本进行切词;所述向量获取单元202中的词频统计模块,用于统计预设词库中每个词在切词后的每篇文本中的词频;所述向量获取单元202中的总词频获取模块,用于根据统计的所述每个词的所述 词频,分别计算所述每个词在所述创意文本集合和所述网站文本集合中的总词频;所述向量获取单元202中的向量获取模块,用于将所述创意文本集合和所述网站文本集合映射到向量空间模型上,得到创意向量和网站向量。进一步的,所述向量获取模块中的映射子模块,用于将所述创意文本集合和所述网站文本集合映射到向量空间模型上,得到第一创意向量和第一网站向量;所述向量获取模块中的向量元素值设置单元,用于获取所述第一创意向量中第一阈值参数个词频最高的元素,并将所述第一阈值参数个词频最高的元素的值设置为1,将除所述第一阈值参数个词频最高的元素之外所述第一创意向量中的元素的值设置为0,得到创意向量;所述向量元素值设置单元还用于,获取所述第一网站向量中第二阈值参数个词频最高的元素,并将所述第二阈值参数个词频最高的元素的值设置为1,将除所述第二阈值参数个词频最高的元素之外所述第一网站向量中的元素的值设置为0,得到网站向量;其中,所述第一阈值参数小于所述第二阈值参数。相似度确定单元203,用于根据所述创意向量和所述网站向量,以及所述创意向量和所述网站向量中共同元素的个数,确定所述广告创意内容与所述广告主网站内容的相似度;
N具体的,根据Sim(兄,V2)=#确定所述广告创意内容与所述广告主网站内容的相
似度;其中,V1为所述创意向量,V2为所述网站向量,N3为所述创意向量与所述网站向量中值为I的共同元素的个数,N1为所述第一阈值参数。判决单元204,用于当所述相似度小于预设阈值时,确定所述广告主网站内容发生变更。所述判决单元204还用于,当所述相似度大于或者等于预设阈值时,确定所述广告主内容未发生变更。本发明实施例提供一种检测内容变更的装置,通过文本集合获取单元,用于分别获取任一广告创意的内容的创意文本集合,以及所述广告创意对应的广告主网站内容的网站文本集合;向量获取单元,用于分别对所述创意文本集合和所述网站文本集合进行文本向量化,得到创意向量和网站向量;相似度确定单元,用于根据所述创意向量和所述网站向量,以及所述创意向量和所述网站向量中共同元素的个数,确定所述广告创意内容与所述广告主网站内容的相似度;判决单元,用于当所述相似度小于预设阈值时,确定所述广告主网站内容发生变更。本发明实施例通过采用改进的向量空间模型以及新的相似度值计算方法检测广告主内容变更,可以提高识别广告主内容变更的准确率,降低错误报警。实施例2本发明实施例提供一种检测内容变更的方法,如图3所示,该方法包括步骤301,获取任一广告创意的内容的创意文本集合;广告创意是指通过独特的技术手法或巧妙的广告创作脚本,更突出体现产品特性和品牌内涵,并以此促进产品销售。本步骤中,根据任一广告创意,可以采用爬虫程序获取广告创意目标页面以及所述广告创意目标页面内链接指向的页面,通过解析广告创意目标页面以及所述广告创意目标页面内链接指向的页面,得到创意文本集合D1 = ((I1, d2, ···, dn},其中,(I1, d2,…,(^分别表示创意文本。爬虫程序是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成部分。步骤302,获取所述广告创意对应的广告主网站内容的网站文本集合;广告主是广告活动的发布者,是在网上销售或宣传自己产品和服务的商家,是联盟营销广告的提供者。任何推广、销售其产品或服务的商家都可以作为广告主。根据所述广告创意对应的广告主网站内容,可以采用爬虫程序获取广告主网站首页、所述广告主网站首页的二级页面以及三级页面,通过解析广告主网站首页、所述广告主网站首页的二级页面以及三级页面,得到网站文本集合D2 = {屯,d2,…,dj,其中,屯,d2,…,dn分别表示网站文本。如图4所示,PO为广告主网站首页,P1、P2、P 3和P4为广告主网站首页的二级页面,P11、P12、P13、P21、P22、P23、P31、P32、P33、P41、P42 和 P43 为广告主网站首页的三级页面,其中,P11、P12、P13为Pl的下一级页面,P21、P22、P23为P2的下一级页面,P31、P32、P33为P 3的下一级页面,P4UP42和P43为P4的下一级页面·进一步的,为了检测广告主内容变更情况,需要持续不断地获取广告主网站文本集合,因此可以设置一个预设周期,根据预设周期来持续不断地获取广告主网站文本集合。其中所述预设周期为更新所述网站文本集合的周期,可以根据经验设置。步骤303,对所述创意文本集合进行文本向量化,得到创意向量;本步骤中,对所述创意文本集合进行文本向量化,得到创意向量,如图5所示,具体包括以下步骤步骤3031,对创意文本集合D1 = {屯,d2,…,dn}中每篇文本进行切词;切词指的是将一个汉字序列切分成一个一个单独的词。例如,对“对所述创意文本集合进行文本向量化”这句话切词,可以得到“对、所述、创意、文本、集合、进行、文本、向量化”这八个单独的
ο步骤3032,根据预设词库,例如现有大小为K个词的词库,统计词库中的每个词在切词后的每篇文本中的词频(Term Frequency, TF);词频为词在文本中出现的次数。步骤3033,根据统计的所述每个词的所述词频,计算所述每个词在所述创意文本集合中的总词频;
也就是将每个词在每篇文本中的词频相加,获得该词在创意文本集合D1中的总词频。步骤3034,将所述创意文本集合映射到向量空间模型上,得到创意向量V1 ;本步骤中,具体的,将所述创意文本集合映射到向量空间模型上,得到第一创意向量V ;向量维度为词库的大小K,向量元素的值为元素对应的词项在创意文本集合中的总词频TF』PV/ = (t1; TF1 ;t2, TF2 ; -tK, TFk)。其中,该向量可以简写为V/ = (TF1,TF2, ...TFK)。根据V/中元素值的大小,获取所述第一创意向量中第一阈值参数个词频最高的元素,并将所述第一阈值参数个词频最高的元素的值设置为1,将除所述第一阈值参数个词 频最高的元素之外所述第一创意向量中的元素的值设置为0,得到创意向量V1 ;创意向量'中元素值仅包含I和O。其中,第一阈值参数可以根据经验设置,第一阈值参数表示广告创意内容中高频词的个数阈值。步骤304,对所述网站文本集合进行文本向量化,得到网站向量;具体的本步骤的操作与步骤303的操作相同,不同的是步骤303中为对创意文本集合进行文本向量化,而本步骤为对网站文本集合进行文本向量化。对网站文本集合1)2= (Cl17Cl2, -,dj中的每篇文本进行切词,然后统计预设词库中每个词在切词后的每篇文本中的词频,根据统计的所述每个词的所述词频,计算所述每个词在所述网站文本集合中的总词频,将所述网站文本集合映射到向量空间模型上,得到第一网站向量V2’ ;获取所述第一网站向量中第二阈值参数个词频最高的元素,并将所述第二阈值参数个词频最高的元素的值设置为1,将除所述第二阈值参数个词频最高的元素之外所述第一网站向量中的元素的值设置为0,得到网站向量V2;创意向量V2中元素值仅包含I和O。其中,第二阈值参数可以根据经验设置,第二阈值参数表示广告主网站内容中高频词的个数阈值。所述第一阈值参数小于所述第二阈值参数。步骤305,根据所述创意向量和所述网站向量,以及所述创意向量和所述网站向量
中共同元素的个数,确定所述广告创意内容与所述广告主网站内容的相似度;
N本步骤中可以根据V: )=#确定所述广告创意内容与所述广告主网站内容
的相似度;其中,V1为所述创意向量,V2为所述网站向量,N3为所述创意向量与所述网站向量中值为I的共同元素的个数,即广告创意内容与广告主网站内容中共同出现并且为高频词的个数。现有技术采用向量之间的夹角的余弦值获取相似度,即Sim(F1Jr2)= =;^·2 η获取相似度,计算较复杂,计算效率较低,而本发
々Σ,λ Σλ-
明采用的根据Sim(VlsV2)=I确定所述广告创意内容与所述广告主网站内容的相似度,计
算较简单,使得计算效率提高。步骤306,判断所述相似度是否小于预设阈值;
其中预设阈值为根据经验设置的值。步骤307,当所述相似度小于预设阈值时,确定所述广告主网站内容发生变更;当所述相似度小于预设阈值时,表示广告创意内容与广告主当时审核状态不一致,广告主网站内容发生变更,则提出报警。步骤308,当所 述相似度大于或者等于预设阈值时,确定所述广告主内容未发生变更。需要说明的是,本实施例可以不断获取广告主网站的网站文本集合,从而不断更新广告创意内容与广告主网站内容的相似度公式,从而可以实时检测广告主内容是否变更。本发明实施例提供一种检测内容变更的方法,通过采用改进的向量空间模型,以及新的相似度计算方法检测广告主内容变更,可以提高识别广告主内容变更的准确率,降低错误报警,使得广告创意与广告主网站内容相关性更强,提升用户体验增加点击概率。本发明实施例提供一种检测内容变更的装置,如图6所示,该装置包括文本集合获取单元601,向量获取单元602,切词模块6021,词频统计模块6022,总词频获取模块6023,向量获取模块6024,映射子模块60241,向量元素值设置单元60242,相似度确定单元603,判决单元604 ;文本集合获取单元601,用于分别获取任一广告创意的内容的创意文本集合,以及所述广告创意对应的广告主网站内容的网站文本集合;进一步的,所述文本集合获取单元601用于根据任一广告创意的内容,采用爬虫程序获取并解析广告创意目标页面以及所述广告创意目标页面内链接指向的页面,得到创意文本集合;以及根据所述广告创意对应的广告主网站内容以及预设周期,采用爬虫程序获取并解析广告主网站首页、所述广告主网站首页的二级页面以及三级页面,得到网站文本集合,所述预设周期为更新所述网站文本集合的周期。向量获取单元602,用于分别对所述创意文本集合和所述网站文本集合进行文本向量化,得到创意向量和网站向量;进一步的,所述向量获取单元602中的切词模块6021,用于对所述创意文本集合和所述网站文本集合中的每篇文本进行切词;所述向量获取单元602中的词频统计模块6022,用于统计预设词库中每个词在切词后的每篇文本中的词频;所述向量获取单元602中的总词频获取模块6023,用于根据统计的所述每个词的所述词频,分别计算所述每个词在所述创意文本集合和所述网站文本集合中的总词频;所述向量获取单元602中的向量获取模块6024,用于将所述创意文本集合和所述网站文本集合映射到向量空间模型上,得到创意向量和网站向量。进一步的,所述向量获取模块6024中的映射子模块60241,用于将所述创意文本集合和所述网站文本集合映射到向量空间模型上,得到第一创意向量和第一网站向量;所述向量获取模块6024中的向量兀素值设置单兀60242,用于获取所述第一创意向量中第一阈值参数个词频最高的元素,并将所述第一阈值参数个词频最高的元素的值设置为1,将除所述第一阈值参数个词频最高的元素之外所述第一创意向量中的元素的值设置为0,得到创意向量;
所述向量值设置单元60242还用于,获取所述第一网站向量中第二阈值参数个词频最高的元素,并将所述第二阈值参数个词频最高的元素的值设置为1,将除所述第二阈值参数个词频最高的元素之外所述第一网站向量中的元素的值设置为0,得到网站向量;其中,第一阈值参数可以根据经验设置,第一阈值参数表示广告创意内容中高频词的个数阈值;第二阈值参数可以根据经验设置,第二阈值参数表示广告主网站内容中高频词的个数阈值,所述第一阈值参数小于所述第二阈值参数。相似度确定单元603,用于根据所述创意向量和所述网站向量,以及所述创意向量和所述网站向量中共同元素的个数,确定所述广告创意·内容与所述广告主网站内容的相似度;进一步的,所述相似度确定单元603用于根据SinVW:)=#确定所述广告创意内容与所述广告主网站内容的相似度;其
中,V1为所述创意向量,V2为所述网站向量,N3为所述创意向量与所述网站向量中值为I的共同元素的个数,N1为所述第一阈值参数。判决单元604,用于当所述相似度小于预设阈值时,确定所述广告主网站内容发生变更;当所述相似度小于预设阈值时,表示广告创意内容与广告主当时审核状态不一致,广告主网站内容发生变更,则提出报警。进一步的,所述判决单元604还用于,当所述相似度大于或者等于预设阈值时,确定所述广告主内容未发生变更。其中预设阈值为根据经验设置的值。本发明实施例提供一种检测内容变更的装置,通过文本集合获取单元分别获取任一广告创意的内容的创意文本集合,以及所述广告创意对应的广告主网站内容的网站文本集合;向量获取单元分别对所述创意文本集合和所述网站文本集合进行文本向量化,得到创意向量和网站向量;根据所述创意向量和所述网站向量,以及所述创意向量和所述网站向量中共同元素的个数,相似度确定单元确定所述广告创意内容与所述广告主网站内容的相似度;当所述相似度小于预设阈值时,判决单元确定所述广告主网站内容发生变更。本发明实施例通过采用改进的向量空间模型以及新的相似度值计算方法检测广告主内容变更,可以提高识别广告主内容变更的准确率,降低错误报警。以上所述,仅为本发明的具体实施方式
,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
权利要求
1.一种检测内容变更的方法,其特征在于,包括 分别获取任一广告创意的内容的创意文本集合,以及所述广告创意对应的广告主网站内容的网站文本集合; 分别对所述创意文本集合和所述网站文本集合进行文本向量化,得到创意向量和网站向量; 根据所述创意向量和所述网站向量,以及所述创意向量和所述网站向量中共同元素的个数,确定所述广告创意内容与所述广告主网站内容的相似度; 当所述相似度小于预设阈值时,确定所述广告主网站内容发生变更。
2.根据权利要求I所述的方法,其特征在于,所述分别获取任一广告创意的内容的创意文本集合,以及所述广告创意对应的广告主网站内容的网站文本集合包括 根据任一广告创意的内容,获取并解析广告创意目标页面以及所述广告创意目标页面内链接指向的页面,得到创意文本集合; 根据所述广告创意对应的广告主网站内容以及预设周期,获取并解析广告主网站首页、所述广告主网站首页的二级页面以及三级页面,得到网站文本集合,所述预设周期为更新所述网站文本集合的周期。
3.根据权利要求2所述的方法,其特征在于,所述分别对所述创意文本集合和所述网站文本集合进行文本向量化,得到创意向量和网站向量包括 对所述创意文本集合和所述网站文本集合中的每篇文本进行切词; 统计预设词库中每个词在切词后的每篇文本中的词频; 根据统计的所述每个词的所述词频,分别计算所述每个词在所述创意文本集合和所述网站文本集合中的总词频; 将所述创意文本集合和所述网站文本集合映射到向量空间模型上,得到创意向量和网站向量。
4.根据权利要求3所述的方法,其特征在于,所述将所述创意文本集合和所述网站文本集合映射到向量空间模型上,得到创意向量和网站向量包括 将所述创意文本集合和所述网站文本集合映射到向量空间模型上,得到第一创意向量和第一网站向量; 获取所述第一创意向量中第一阈值参数个词频最高的元素,并将所述第一阈值参数个词频最高的元素的值设置为1,将除所述第一阈值参数个词频最高的元素之外所述第一创意向量中的元素的值设置为O,得到创意向量; 获取所述第一网站向量中第二阈值参数个词频最高的元素,并将所述第二阈值参数个词频最高的元素的值设置为1,将除所述第二阈值参数个词频最高的元素之外所述第一网站向量中的元素的值设置为O,得到网站向量; 其中,所述第一阈值参数小于所述第二阈值参数。
5.根据权利要求4所述的方法,其特征在于,所述根据所述创意向量和所述网站向量,以及所述创意向量和所述网站向量中共同元素的个数,确定所述广告创意内容与所述广告主网站内容的相似度包括N 根据Sim(VpV2)=I确定所述广告创意内容与所述广告主网站内容的相似度;其中,V1为所述创意向量,V2为所述网站向量,N3为所述创意向量与所述网站向量中值为I的共同元素的个数,N1为所述第一阈值参数。
6.根据权利要求1-5所述的方法,其特征在于,所述方法还包括 当所述相似度大于或者等于预设阈值时,确定所述广告主内容未发生变更。
7.—种检测内容变更的装置,其特征在于,包括 文本集合获取单元,用于分别获取任一广告创意的内容的创意文本集合,以及所述广告创意对应的广告主网站内容的网站文本集合; 向量获取单元,用于分别对所述创意文本集合和所述网站文本集合进行文本向量化,得到创意向量和网站向量; 相似度确定单元,用于根据所述创意向量和所述网站向量,以及所述创意向量和所述网站向量中共同元素的个数,确定所述广告创意内容与所述广告主网站内容的相似度;判决单元,用于当所述相似度小于预设阈值时,确定所述广告主网站内容发生变更。
8.根据权利要求7所述的装置,其特征在于,所述文本集合获取单元用于 根据任一广告创意的内容,获取并解析广告创意目标页面以及所述广告创意目标页面内链接指向的页面,得到创意文本集合; 根据所述广告创意对应的广告主网站内容以及预设周期,获取并解析广告主网站首页、所述广告主网站首页的二级页面以及三级页面,得到网站文本集合,所述预设周期为更新所述网站文本集合的周期。
9.根据权利要求8所述的装置,其特征在于,所述向量获取单元包括 切词模块,用于对所述创意文本集合和所述网站文本集合中的每篇文本进行切词; 词频统计模块,用于统计预设词库中每个词在切词后的每篇文本中的词频; 总词频获取模块,用于根据统计的所述每个词的所述词频,分别计算所述每个词在所述创意文本集合和所述网站文本集合中的总词频; 向量获取模块,用于将所述创意文本集合和所述网站文本集合映射到向量空间模型上,得到创意向量和网站向量。
10.根据权利要求9所述的装置,其特征在于,所述向量获取模块包括 映射子模块,用于将所述创意文本集合和所述网站文本集合映射到向量空间模型上,得到第一创意向量和第一网站向量; 向量元素值设置单元,用于获取所述第一创意向量中第一阈值参数个词频最高的元素,并将所述第一阈值参数个词频最高的元素的值设置为1,将除所述第一阈值参数个词频最高的元素之外所述第一创意向量中的元素的值设置为0,得到创意向量; 所述向量元素值设置单元还用于,获取所述第一网站向量中第二阈值参数个词频最高的元素,并将所述第二阈值参数个词频最高的元素的值设置为1,将除所述第二阈值参数个词频最高的元素之外所述第一网站向量中的元素的值设置为0,得到网站向量; 其中,所述第一阈值参数小于所述第二阈值参数。
11.根据权利要求10所述的装置,其特征在于,所述相似度确定单元用于 N 根据确定所述广告创意内容与所述广告主网站内容的相似度;其中,V1为所述创意向量,V2为所述网站向量,N3为所述创意向量与所述网站向量中值为I的共同元素的个数,N1为所述第一阈值参数。
12.根据权利要求7-11所述的装置,其特征在于,所述判决单元还用于 当所述相似度大于或者等于预设阈值时,确定所述广告主内容未发生变更。
全文摘要
本发明公开一种检测内容变更的方法和装置,涉及自然语言处理领域,可以提高识别广告主内容变更的准确率,降低错误报警。本发明实施例通过分别获取任一广告创意的内容的创意文本集合,以及所述广告创意对应的广告主网站内容的网站文本集合;分别对所述创意文本集合和所述网站文本集合进行文本向量化,得到创意向量和网站向量;根据所述创意向量和所述网站向量,以及所述创意向量和所述网站向量中共同元素的个数,确定所述广告创意内容与所述广告主网站内容的相似度;当所述相似度小于预设阈值时,确定所述广告主网站内容发生变更。本发明实施例适合检测广告主内容是否变更时采用。
文档编号G06F17/30GK102902714SQ20121029981
公开日2013年1月30日 申请日期2012年8月21日 优先权日2012年8月21日
发明者孙翔, 吴欢琴 申请人:盘古文化传播有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1