本发明涉及网络广告技术领域,尤其涉及一种网络广告的审核方法及系统。
背景技术:
网络的高速发展为各大公司平台带来了大量的用户,同时,互联网广告技术也逐渐的走向成熟,通过网络将广告信息传递给用户的高科技广告运作方式,其充分利用了网络的高效和传播广泛的优势,目前已成为互联网公司最重要的盈利方式。由于在客户商业广告中存在大量商业化垃圾广告和低俗内容,为了营造良好的网络环境,部分商业广告需要人工审核通过方可投放,广告审核系统应运而生。
目前使用的广告审核系统都是人工审核机制,根据指定的广告审核规范人为的判定广告的上下线,审核顺序是按照广告素材的提交时间作为审核先后顺序进行审核的,没有从广告素材本身的内容出发进行审核排序,对于先投放后审核的广告,可能广告投放了很长时间才能审核到,大大提升了非法广告投放的风险。
技术实现要素:
本发明的目的是提供一种网络广告的审核方法及系统,通过计算广告素材的风险值,并优先选择高风险值的广告进行审核,来降低先投放后审核的方式存在的风险。
为达到上述目的,一方面,本发明实施例提供一种网络广告的审核方法,包括:
获取待审核的网络广告的基本信息,所述基本信息包括URL链接、文案Ttxt以及图片;其中,所述图片包括文字图片和/或二维码图片;
识别所述文字图片中的文本Tpic,以及统计所述二维码图片的个数k;
通过网络爬虫提取出所述URL链接的目的地址中的文字内容Turl;
确定文本集T={Tpic,Turl,Ttxt}的风险值Tkscore;
确定图片风险值Ikscore,具体通过公式计算,其中α为二维码图片的基础风险值;
确定该网络广告的创意风险值Dk,具体通过公式计算;
根据确定出的创意风险值Dk对该网络广告进行审核。
优选的,所述计算文本集T={Tpic,Turl,Ttxt}的风险值Tkscore包括以下步骤:
将所述文本集T进行分词处理,得到m个单词的词库W={W1,W2,L,Wm};
确定每个单词的风险值,具体通过公式Mi=Mj×sim(Wi,Pj)计算;其中,sim(Wi,Pj)为分词得到的词库W中的单词Wi与广告规范中的敏感词库A中与Wi相似度最高的敏感词Pj的相似度,Mj为敏感词Pj的风险值;敏感词库A可表示为A={P1,P2,L,Pi,L,Pn};
对每个单词的风险值进行求和,得到所述文本集T的风险值,具体通过以下公式计算:
优选的,所述识别所述文字图片中的文本Tpic,以及统计所述二维码图片的个数k之前,还包括:
判定所述图片为二维码图片或文字图片。
优选的,所述识别所述文字图片中的文本Tpic,以及统计所述二维码图片的个数k,包括:
逐一识别所述文本图片,若识别出的文本Tpic为微信号或微博号,则将相应的文本图片计入所述二维码图片的个数k中,而不将相应的文本Tpic加入所述文本集T;
逐一识别所述二维码图片,若识别出的二维码为文字,则将识别出的文字作为文本Tpic加入所述文本集T,而不将相应的二维码图片计入所述二维码图片的个数k中;若识别出的二维码为微信号或微博号,则将相应的二维码图片计入所述二维码图片的个数k中。
优选的,所述根据该网络广告的创意风险值Dk对该网络广告进行审核,包括:
优先选择创意风险值Dk最高的网络广告进行审核;
若至少两条网络广告的创意风险值同为最高,则优先选择提交时间最早的网络广告进行审核。
另一方面,本发明提供一种网络广告的审核系统,包括:
素材获取单元,获取待审核的网络广告的基本信息,所述基本信息包括URL链接、文案Ttxt以及图片;其中,所述图片包括文字图片和/或二维码图片;
图片处理单元,用于识别所述文字图片中的文本Tpic,以及统计所述二维码图片的个数k;
链接处理单元,用于通过网络爬虫提取出所述URL链接的目的地址中的文字内容Turl;
文本风险值计算单元,用于确定文本集T={Tpic,Turl,Ttxt}的风险值Tkscore;
图片风险值计算单元,确定图片风险值Ikscore,具体通过公式计算,其中α为二维码图片的基础风险值;
创意风险值计算单元,用于确定该网络广告的创意风险值Dk,具体通过公式计算;
审核单元,用于根据确定出的创意风险值Dk对该网络广告进行审核。
优选的,所述文本风险值计算单元包括:
分词子单元,用于将所述文本集T进行分词处理,得到m个单词的词库W={W1,W2,L,Wm};
单词风险值计算子单元,用于确定每个单词的风险值,具体通过公式Mi=Mj×sim(Wi,Pj)计算;其中,sim(Wi,Pj)为分词得到的词库W中的单词Wi与广告规范中的敏感词库A中与Wi相似度最高的敏感词Pj的相似度,Mj为敏感词Pj的风险值;敏感词库A可表示为A={P1,P2,L,Pi,L,Pn};
求和子单元:用于对每个单词的风险值进行求和,得到所述文本集T的风险值,具体通过以下公式计算:
优选的,所述图片处理单元还用于:
在所述识别所述文字图片中的文本Tpic,以及统计所述二维码图片的个数k之前,判定所述图片为二维码图片或文字图片。
优选的,所述图片处理单元还用于:
逐一识别所述文本图片,若识别出的文本Tpic为微信号或微博号,则将相应的文本图片计入所述二维码图片的个数k中,而不将相应的文本Tpic加入所述文本集T;
逐一识别所述二维码图片,若识别出的二维码为文字,则将识别出的文字作为文本Tpic加入所述文本集T,而不将相应的二维码图片计入所述二维码图片的个数k中;若识别出的二维码为微信号或微博号,则将相应的二维码图片计入所述二维码图片的个数k中。
优选的,所述审核单元包括:
风险值对比子单元,用于优先选择创意风险值Dk最高的网络广告进行审核;
提交时间对比子单元,用于当至少两条网络广告的创意风险值同为最高时,优先选择提交时间最早的网络广告进行审核。
上述技术方案具有如下有益效果:
通过:获取广告信息,所述广告信息包括URL链接、文案Ttxt以及图片;识别所述图片中的文本Tpic和/或二维码图片的个数k;通过网络爬虫提取出所述URL链接的目的地址中的文字内容Turl;计算文本集T={Tpic,Turl,Ttxt}的风险值以及图片风险值;计算该广告的创意风险值;根据该广告的创意风险值Dk进行审核,可以根据广告信息计算其风险值,并优先处理风险值高的广告,降低了未经审核的非法广告的投放风险,降低了广告供应平台可能的经济损失。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一种网络广告的审核方法的流程图;
图2是本发明实施例一种网络广告的审核系统的结构图;
图3是本实施例中文本风险值计算单元的结构示意图;
图4为本实施例中审核单元的结构示意图。
具体实施方式
传统的广告审核系统是基于广告主对于广告的提交时间进行审核排序的,即广告创建时间越早则审核的越早,但对于社交网络广告的粉丝经济业务的先投放后审核机制而言,如果投放出去的广告涉嫌非法,同时该广告的审核在审核任务流中优先级在最后,则该条广告在推广到较大范围后才会被发现,引起客户投诉,损害公司的形象。因此,对于这种涉嫌非法的广告希望能尽快审核拒绝并下线,将非法广告的负面影响范围控制到最低,这就需要审核系统有广告风险评估的过程来打乱传统的按时间排序的审核工作流,将高风险的审核任务优先处理,避免非法广告的对公司形象和业务的负面影响。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
如图1所示,为本发明实施例一种网络广告的审核方法的流程图,包括以下步骤:
步骤101,获取待审核的网络广告的基本信息,所述基本信息包括URL链接、文案Ttxt以及图片;其中,所述图片包括文字图片和/或二维码图片;
步骤102,识别所述文字图片中的文本Tpic,以及统计所述二维码图片的个数k;
步骤103,通过网络爬虫提取出所述URL链接的目的地址中的文字内容Turl;
URL链接主要是判断链接地址是否涉黄或涉及敏感话题,本实施优选的,只提取网页上的文本内容即可。当然,本领域技术人员也可以依照本发明的技术方案,进一步判断链接地址中的图片,这也应当属于本发明的保护范围。
步骤104,确定文本集T={Tpic,Turl,Ttxt}的风险值Tkscore;
步骤105,确定图片风险值Ikscore,具体通过公式计算,其中α为二维码图片的基础风险值;
本实施例优选的,α=100。
图片的风险主要来自于其中的文字及二维码图片,二维码图片可以链接到各种公众号、各种页面。
步骤106,确定该网络广告的创意风险值Dk,具体通过公式计算;
步骤107,根据确定出的创意风险值Dk对该网络广告进行审核。
优选的,所述计算文本集T={Tpic,Turl,Ttxt}的风险值Tkscore包括以下步骤:
将所述文本集T进行分词处理,得到m个单词的词库:W={W1,W2,L,Wm};
确定每个单词的风险值,具体通过公式Mi=Mj×sim(Wi,Pj)计算;其中,sim(Wi,Pj)为分词得到的词库W中的单词Wi与广告规范中的敏感词库A中与Wi相似度最高的敏感词Pj的相似度,Mj为敏感词Pj的风险值;敏感词库A可表示为A={P1,P2,L,Pi,L,Pn};
对每个单词的风险值进行求和,得到所述文本集T的风险值,具体通过以下公式计算:
优选的,所述识别所述文字图片中的文本Tpic,以及统计所述二维码图片的个数k之前,还包括:
判定所述图片为二维码图片或文字图片。
优选的,所述识别所述文字图片中的文本Tpic,以及统计所述二维码图片的个数k,包括:
逐一识别所述文本图片,若识别出的文本Tpic为微信号或微博号,则将相应的文本图片计入所述二维码图片的个数k中,而不将相应的文本Tpic加入所述文本集T;
逐一识别所述二维码图片,若识别出的二维码为文字,则将识别出的文字作为文本Tpic加入所述文本集T,而不将相应的二维码图片计入所述二维码图片的个数k中;若识别出的二维码为微信号或微博号,则将相应的二维码图片计入所述二维码图片的个数k中。
本实施例优选的,利用google的zxing包识别图片中是否包含二维码。
本实施例优选的,利用OCR技术识别图片中的文字。
优选的,所述根据该网络广告的创意风险值Dk对该网络广告进行审核,包括:
优先选择创意风险值Dk最高的网络广告进行审核;
若至少两条网络广告的创意风险值同为最高,则优先选择提交时间最早的网络广告进行审核。
实施例二
如图2所示,为本发明实施例一种网络广告的审核系统的结构图,包括以下单元:
素材获取单元201,获取待审核的网络广告的基本信息,所述基本信息包括URL链接、文案Ttxt以及图片;其中,所述图片包括文字图片和/或二维码图片;
图片处理单元202,用于识别所述文字图片中的文本Tpic,以及统计所述二维码图片的个数k;
链接处理单元203,用于通过网络爬虫提取出所述URL链接的目的地址中的文字内容Turl;
文本风险值计算单元204,用于确定文本集T={Tpic,Turl,Ttxt}的风险值Tkscore;
图片风险值计算单元205,确定图片风险值Ikscore,具体通过公式计算,其中α为二维码图片的基础风险值;
本实施例优选的,α=100。
创意风险值计算单元206,用于确定该网络广告的创意风险值Dk,具体通过公式计算;
审核单元207,用于根据确定出的创意风险值Dk对该网络广告进行审核。
图3为本实施例中文本风险值计算单元的结构示意图,如图所示,所述文本风险值计算单元204包括:
分词子单元2041,用于将所述文本集T进行分词处理,得到m个单词的词库W={W1,W2,L,Wm};
单词风险值计算子单元2042,用于确定每个单词的风险值,具体通过公式Mi=Mj×sim(Wi,Pj)计算;其中,sim(Wi,Pj)为分词得到的词库W中的单词Wi与广告规范中的敏感词库A中与Wi相似度最高的敏感词Pj的相似度,Mj为敏感词Pj的风险值;敏感词库A可表示为A={P1,P2,L,Pi,L,Pn};
本实施例优选的,Mi的取值范围为<20,150>,
求和子单元2043:用于对每个单词的风险值进行求和,得到所述文本集T的风险值,具体通过以下公式计算:
优选的,所述图片处理单元202
还用于:
在所述识别所述文字图片中的文本Tpic,以及统计所述二维码图片的个数k之前,判定所述图片为二维码图片或文字图片。
优选的,所述图片处理单元202具体用于:
逐一识别所述文本图片,若识别出的文本Tpic为微信号或微博号,则将相应的文本图片计入所述二维码图片的个数k中,而不将相应的文本Tpic加入所述文本集T;
逐一识别所述二维码图片,若识别出的二维码为文字,则将识别出的文字作为文本Tpic加入所述文本集T,而不将相应的二维码图片计入所述二维码图片的个数k中;若识别出的二维码为微信号或微博号,则将相应的二维码图片计入所述二维码图片的个数k中。
图4为本实施例中审核单元的结构示意图,如图所示,所述审核单元207包括:
风险值对比子单元2071,用于优先选择创意风险值Dk最高的网络广告进行审核;
提交时间对比子单元2072,用于当至少两条网络广告的创意风险值同为最高时,优先选择提交时间最早的网络广告进行审核。
上述技术方案具有如下有益效果:
通过获取广告信息,所述广告信息包括URL链接、文案Ttxt以及图片;识别所述图片中的文本Tpic和/或二维码图片的个数k;通过网络爬虫提取出所述URL链接的目的地址中的文字内容Turl计算文本集T={Tpic,Turl,Ttxt}的风险值以及图片风险值;计算该广告的创意风险值;根据该广告的创意风险值Dk进行审核,可以根据广告信息计算其风险值,并优先处理风险值高的广告,降低了未经审核的非法广告的投放风险,降低了广告供应平台可能的经济损失。
本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrative logical block),单元,和步骤可以通过电子硬件、电脑软件,或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability),上述的各种说明性部件(illustrative components),单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本发明实施例保护的范围。
本发明实施例中所描述的各种说明性的逻辑块,或单元都可以通过通用处理器,数字信号处理器,专用集成电路(ASIC),现场可编程门阵列或其它可编程逻辑装置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。
本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中,ASIC可以设置于用户终端中。可选地,处理器和存储媒介也可以设置于用户终端中的不同的部件中。
在一个或多个示例性的设计中,本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现,这些功能可以存储与电脑可读的媒介上,或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如,这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置,或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外,任何连接都可以被适当地定义为电脑可读媒介,例如,如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘,磁盘通常以磁性复制数据,而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。