1.一种网络广告的审核方法,其特征在于,包括:
获取待审核的网络广告的基本信息,所述基本信息包括URL链接、文案Ttxt以及图片;其中,所述图片包括文字图片和/或二维码图片;
识别所述文字图片中的文本Tpic,以及统计所述二维码图片的个数k;
通过网络爬虫提取出所述URL链接的目的地址中的文字内容Turl;
确定文本集T={Tpic,Turl,Ttxt}的风险值Tkscore;
确定图片风险值Ikscore,具体通过公式计算,其中α为二维码图片的基础风险值;
确定该网络广告的创意风险值Dk,具体通过公式计算;
根据确定出的创意风险值Dk对该网络广告进行审核。
2.根据权利要求1所述的方法,其特征在于,所述计算文本集T={Tpic,Turl,Ttxt}的风险值Tkscore包括以下步骤:
将所述文本集T进行分词处理,得到m个单词的词库W={W1,W2,L,Wm};
确定每个单词的风险值,具体通过公式Mi=Mj×sim(Wi,Pj)计算;其中,sim(Wi,Pj)为分词得到的词库W中的单词Wi与广告规范中的敏感词库A中与Wi相似度最高的敏感词Pj的相似度,Mj为敏感词Pj的风险值;敏感词库A可表示为A={P1,P2,L,Pi,L,Pn};
对每个单词的风险值进行求和,得到所述文本集T的风险值,具体通过以下公式计算:
3.根据权利要求1所述的方法,其特征在于,所述识别所述文字图片中的文本Tpic,以及统计所述二维码图片的个数k之前,还包括:
判定所述图片为二维码图片或文字图片。
4.根据权利要求1所述的方法,其特征在于,所述识别所述文字图片中的文本Tpic,以及统计所述二维码图片的个数k,包括:
逐一识别所述文本图片,若识别出的文本Tpic为微信号或微博号,则将相应的文本图片计入所述二维码图片的个数k中,而不将相应的文本Tpic加入所述文本集T;
逐一识别所述二维码图片,若识别出的二维码为文字,则将识别出的文字作为文本Tpic加入所述文本集T,而不将相应的二维码图片计入所述二维码图片的个数k中;若识别出的二维码为微信号或微博号,则将相应的二维码图片计入所述二维码图片的个数k中。
5.根据权利要求1所述的方法,其特征在于,所述根据该网络广告的创意风险值Dk对该网络广告进行审核,包括:
优先选择创意风险值Dk最高的网络广告进行审核;
若至少两条网络广告的创意风险值同为最高,则优先选择提交时间最早的网络广告进行审核。
6.一种网络广告的审核系统,其特征在于,包括:
素材获取单元,获取待审核的网络广告的基本信息,所述基本信息包括URL链接、文案Ttxt以及图片;其中,所述图片包括文字图片和/或二维码图片;
图片处理单元,用于识别所述文字图片中的文本Tpic,以及统计所述二维码图片的个数k;
链接处理单元,用于通过网络爬虫提取出所述URL链接的目的地址中的文字内容Turl;
文本风险值计算单元,用于确定文本集T={Tpic,Turl,Ttxt}的风险值Tkscore;
图片风险值计算单元,确定图片风险值Ikscore,具体通过公式计算,其中α为二维码图片的基础风险值;
创意风险值计算单元,用于确定该网络广告的创意风险值Dk,具体通过公式计算;
审核单元,用于根据确定出的创意风险值Dk对该网络广告进行审核。
7.根据权利要求6所述的系统,其特征在于,所述文本风险值计算单元包括:
分词子单元,用于将所述文本集T进行分词处理,得到m个单词的词库W={W1,W2,L,Wm};
单词风险值计算子单元,用于确定每个单词的风险值,具体通过公式Mi=Mj×sim(Wi,Pj)计算;其中,sim(Wi,Pj)为分词得到的词库W中的单词Wi与广告规范中的敏感词库A中与Wi相似度最高的敏感词Pj的相似度,Mj为敏感词Pj的风险值;敏感词库A可表示为A={P1,P2,L,Pi,L,Pn};
求和子单元,用于对每个单词的风险值进行求和,得到所述文本集T的风险值,具体通过以下公式计算:
8.根据权利要求6所述的系统,其特征在于,所述图片处理单元还用于:
在所述识别所述文字图片中的文本Tpic,以及统计所述二维码图片的个数k之前,判定所述图片为二维码图片或文字图片。
9.根据权利要求6所述的系统,其特征在于,所述图片处理单元具体用于:
逐一识别所述文本图片,若识别出的文本Tpic为微信号或微博号,则将相应的文本图片计入所述二维码图片的个数k中,而不将相应的文本Tpic加入所述文本集T;
逐一识别所述二维码图片,若识别出的二维码为文字,则将识别出的文字作为文本Tpic加入所述文本集T,而不将相应的二维码图片计入所述二维码图片的个数k中;若识别出的二维码为微信号或微博号,则将相应的二维码图片计入所述二维码图片的个数k中。
10.根据权利要求1所述的系统,其特征在于,所述审核单元包括:
风险值对比子单元,用于优先选择创意风险值Dk最高的网络广告进行审核;
提交时间对比子单元,用于当至少两条网络广告的创意风险值同为最高时,优先选择提交时间最早的网络广告进行审核。