广告图片鉴定方法、电子装置及可读存储介质与流程

文档序号:15163956发布日期:2018-08-14 17:12阅读:146来源:国知局

本发明涉及计算机技术领域,尤其涉及一种广告图片鉴定方法、电子装置及可读存储介质。



背景技术:

目前,对于大型互联网金融企业,在各种业务流程中会涉及到大量业务图片,而业务图片中有可能会夹杂各种广告图片,这些广告图片中包含各种广告信息、垃圾信息等,会干扰正常的业务处理,必须有效鉴定并剔除。传统的鉴定广告图片的方式是由人工对大量业务图片进行逐一审核以筛选出其中的广告图片,这种人工检测成本高,且比较耗时,效率较低。



技术实现要素:

本发明的目的在于提供一种广告图片鉴定方法、电子装置及可读存储介质,旨在提高鉴定广告图片的效率。

为实现上述目的,本发明提供一种电子装置,所述电子装置包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的广告图片鉴定系统,所述广告图片鉴定系统被所述处理器执行时实现如下步骤:

在收到待分析图片后,对所述待分析图片进行光学字符识别,识别出所述待分析图片中的文字;

对识别出的文字进行分词处理;

将各个分词与预先建立的广告关键词库中的各个广告关键词进行匹配,得到与预先建立的广告关键词库中广告关键词相匹配的分词;并根据匹配结果按预设匹配评分规则分配对应的关键字匹配评分;

识别出所述待分析图片中各个文字的不同字体大小,并根据相匹配的分词的字体大小按预设字体评分规则分配对应的字体评分;

根据所述关键字匹配评分、字体评分,利用预设规则判断所述待分析图片是否为广告图片。

优选地,所述识别出所述待分析图片中各个文字的不同字体大小包括:

对所述待分析图片进行高斯模糊处理,画出经高斯模糊处理后的待分析图片的峰值分布图,按阶梯分布抽取不同层级的峰值分布图;将预设层级的峰值分布图中的字符识别为较大字体,所述待分析图片中的其余字符识别为较小字体;

所述预设字体评分规则包括:

为所述待分析图片中的各个字符按字体大小设置对应的字体评分,其中,较大字体的字符对应的字体评分大于较小字体的字符对应的字体评分。

优选地,所述处理器还用于执行所述广告图片鉴定系统,以实现以下步骤:

对所述待分析图片中进行光学字符识别出的文字,计算每个文字的字体色彩显著度;

将字体色彩显著度大于预设色彩显著度阈值的文字识别为高色彩显著度的文字,将字体色彩显著度小于或等于预设色彩显著度阈值的文字识别为低色彩显著度的文字;

为所述待分析图片中的各个文字按字体色彩显著度设置对应的色彩显著度评分,其中,高色彩显著度的文字对应的色彩显著度评分大于低色彩显著度的文字对应的色彩显著度评分。

优选地,所述预设匹配评分规则包括:

若所述待分析图片的各个分词与预先建立的广告关键词库中相匹配的广告关键词为预设高危级别广告词,则直接判断所述待分析图片是广告图片;

若所述待分析图片的各个分词与预先建立的广告关键词库中相匹配的广告关键词不是预设高危级别广告词,则:

若所述待分析图片的各个分词与预先建立的广告关键词库中的广告关键词相匹配,则分配对应的第一关键字匹配评分;

若所述待分析图片的各个分词与预先建立的广告关键词库中广告关键词的预设相关词相匹配,则分配对应的第二关键字匹配评分;其中,广告关键词的预设相关词包括广告关键词的同义词、近义词、与该广告关键词相关的短语和/或该广告关键词字面产生颠倒或间隔后的变形形态词汇;

若所述待分析图片的各个分词与预先建立的广告关键词库中广告关键词的核心部分或该核心部分的预设相关词相匹配,则分配对应的第三关键字匹配评分;

其中,所述第一关键字匹配评分大于所述第二关键字匹配评分,所述第二关键字匹配评分大于所述第三关键字匹配评分。

此外,为实现上述目的,本发明还提供一种广告图片鉴定方法,所述广告图片鉴定方法包括:

在收到待分析图片后,对所述待分析图片进行光学字符识别,识别出所述待分析图片中的文字;

对识别出的文字进行分词处理;

将各个分词与预先建立的广告关键词库中的各个广告关键词进行匹配,得到与预先建立的广告关键词库中广告关键词相匹配的分词;并根据匹配结果按预设匹配评分规则分配对应的关键字匹配评分;

识别出所述待分析图片中各个文字的不同字体大小,并根据相匹配的分词的字体大小按预设字体评分规则分配对应的字体评分;

根据所述关键字匹配评分、字体评分,利用预设规则判断所述待分析图片是否为广告图片。

优选地,所述识别出所述待分析图片中各个文字的不同字体大小包括:

对所述待分析图片进行高斯模糊处理,画出经高斯模糊处理后的待分析图片的峰值分布图,按阶梯分布抽取不同层级的峰值分布图;将预设层级的峰值分布图中的字符识别为较大字体,所述待分析图片中的其余字符识别为较小字体;

所述预设字体评分规则包括:

为所述待分析图片中的各个字符按字体大小设置对应的字体评分,其中,较大字体的字符对应的字体评分大于较小字体的字符对应的字体评分。

优选地,该方法还包括:

对所述待分析图片中进行光学字符识别出的文字,计算每个文字的字体色彩显著度;

将字体色彩显著度大于预设色彩显著度阈值的文字识别为高色彩显著度的文字,将字体色彩显著度小于或等于预设色彩显著度阈值的文字识别为低色彩显著度的文字;

为所述待分析图片中的各个文字按字体色彩显著度设置对应的色彩显著度评分,其中,高色彩显著度的文字对应的色彩显著度评分大于低色彩显著度的文字对应的色彩显著度评分。

优选地,所述预设匹配评分规则包括:

若所述待分析图片的各个分词与预先建立的广告关键词库中相匹配的广告关键词为预设高危级别广告词,则直接判断所述待分析图片是广告图片;

若所述待分析图片的各个分词与预先建立的广告关键词库中相匹配的广告关键词不是预设高危级别广告词,则:

若所述待分析图片的各个分词与预先建立的广告关键词库中的广告关键词相匹配,则分配对应的第一关键字匹配评分;

若所述待分析图片的各个分词与预先建立的广告关键词库中广告关键词的预设相关词相匹配,则分配对应的第二关键字匹配评分;其中,广告关键词的预设相关词包括广告关键词的同义词、近义词、与该广告关键词相关的短语和/或该广告关键词字面产生颠倒或间隔后的变形形态词汇;

若所述待分析图片的各个分词与预先建立的广告关键词库中广告关键词的核心部分或该核心部分的预设相关词相匹配,则分配对应的第三关键字匹配评分;

其中,所述第一关键字匹配评分大于所述第二关键字匹配评分,所述第二关键字匹配评分大于所述第三关键字匹配评分。

优选地,所述利用预设规则判断所述待分析图片是否为广告图片包括:

按照如下公式计算得到p值:

p=a1*p1+a2*p2+a3*p3

其中,p1为所述待分析图片中相匹配的分词的字体大小对应的字体评分,p2为所述待分析图片中相匹配的分词的字体色彩显著度对应的色彩显著度评分,p3为所述待分析图片中相匹配的分词对应的关键字匹配评分;a1、a2、a3为预先为字体评分p1,色彩显著度评分p2,以及关键字匹配评分p3设置的参数权重;

将计算得到的p值与预先设定的阈值进行比较,若p值大于预先设定的阈值,则判断所述待分析图片是广告图片。

进一步地,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有广告图片鉴定系统,所述广告图片鉴定系统可被至少一个处理器执行,以使所述至少一个处理器执行如上述的广告图片鉴定方法的步骤。

本发明提出的广告图片鉴定方法、系统及可读存储介质,通过对待分析图片进行光学字符识别出文字;对识别出的文字进行分词;将各个分词与预先建立的广告关键词库中的各个广告关键词进行匹配,并根据匹配结果按预设匹配评分规则分配对应的关键字匹配评分;识别出各个文字的不同字体大小,并根据相匹配的分词的字体大小按预设字体评分规则分配对应的字体评分;根据所述关键字匹配评分、字体评分,利用预设规则判断所述待分析图片是否为广告图片。由于一般在图片中出现广告信息时,广告字体与其他正常文字会有所不同,本发明能将待分析图片中的各个分词与预先建立的广告关键词库中的各个广告关键词进行匹配,根据匹配情况分配对应的关键字匹配评分,并根据相匹配的分词的字体大小分配对应的字体评分,结合关键字匹配评分以及字体评分来进行综合鉴定,能更加准确有效地判断出所述待分析图片是否为包含广告信息的广告图片。而且,无需人工进行检测,能自动进行广告图片的鉴定,有效提高检测效率。

附图说明

图1为本发明广告图片鉴定系统10较佳实施例的运行环境示意图;

图2为本发明广告图片鉴定方法一实施例的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。

本发明提供一种广告图片鉴定系统。请参阅图1,是本发明广告图片鉴定系统10较佳实施例的运行环境示意图。

在本实施例中,所述的广告图片鉴定系统10安装并运行于电子装置1中。该电子装置1可包括,但不仅限于,存储器11、处理器12及显示器13。图1仅示出了具有组件11-13的电子装置1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。

所述存储器11为至少一种类型的可读计算机存储介质,所述存储器11在一些实施例中可以是所述电子装置1的内部存储单元,例如该电子装置1的硬盘或内存。所述存储器11在另一些实施例中也可以是所述电子装置1的外部存储设备,例如所述电子装置1上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。进一步地,所述存储器11还可以既包括所述电子装置1的内部存储单元也包括外部存储设备。所述存储器11用于存储安装于所述电子装置1的应用软件及各类数据,例如所述广告图片鉴定系统10的程序代码等。所述存储器11还可以用于暂时地存储已经输出或者将要输出的数据。

所述处理器12在一些实施例中可以是一中央处理器(centralprocessingunit,cpu),微处理器或其他数据处理芯片,用于运行所述存储器11中存储的程序代码或处理数据,例如执行所述广告图片鉴定系统10等。

所述显示器13在一些实施例中可以是led显示器、液晶显示器、触控式液晶显示器以及oled(organiclight-emittingdiode,有机发光二极管)触摸器等。所述显示器13用于显示在所述电子装置1中处理的信息以及用于显示可视化的用户界面,例如待分析图片光学字符识别出的文字、对识别出文字的分词结果、待分析图片中与广告关键词库中广告关键词相匹配的分词(标记)、待分析图片是否为广告图片的最终鉴定结果等。所述电子装置1的部件11-13通过系统总线相互通信。

广告图片鉴定系统10包括至少一个存储在所述存储器11中的计算机可读指令,该至少一个计算机可读指令可被所述处理器12执行,以实现本申请各实施例。

其中,上述广告图片鉴定系统10被所述处理器12执行时实现如下步骤:

步骤s1,在收到待分析图片后,对所述待分析图片进行光学字符识别,识别出所述待分析图片中的文字。

本实施例中,广告图片鉴定系统接收用户发出的包含待分析图片的广告图片鉴定请求,例如,接收用户通过手机、平板电脑、自助终端设备等终端发送的广告图片鉴定请求,如接收用户在手机、平板电脑、自助终端设备等终端中预先安装的客户端上发送来的广告图片鉴定请求,或接收用户在手机、平板电脑、自助终端设备等终端中的浏览器系统上发送来的广告图片鉴定请求。

广告图片鉴定系统在收到用户发出的广告图片鉴定请求后,对广告图片鉴定请求中的待分析图片进行光学字符识别(opticalcharacterrecognition,简称ocr),即针对印刷体字符,采用光学的方式将文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式。

利用ocr对待分析图片进行字符识别,以识别出待分析图片中的文字。其中,本实施例在ocr识别过程中可实施生僻字匹配策略,由于广告信息中为了简单易懂便于宣传,一般较少会出现生僻字,因此,在对待分析图片的ocr识别过程中,若对其中一个文字进行字符识别时出现识别出的与该文字匹配的某生僻字匹配度高,但与该文字匹配的一些常见通用字匹配度低的情况,则判断为ocr识别出错,则将该文字与其周围字符组成词组进入ocr识别匹配的词库检测,当与某词组完成高匹配时,则识别该文字为匹配的词组中相应位置的常见通用字。这样,能提高后续对待分析图片中广告信息的识别精度。

还可对待分析图片中识别出的生僻字进行畸变检测,由于广告信息中有时会对文字进行一些特殊处理,导致该文字畸变,例如,在文字上面画圈、打叉、由广告字库拼装组成等等,可进行检测后去除这些特殊符合,还原文字本身,以便后续进行广告信息的匹配、识别操作。

在一种可选的实施方式中,还可对待分析图片进行二维码检测,一旦检测到待分析图片中含有二维码信息,则直接判定该待分析图片为广告图片,鉴定结束,无需进行后续操作。

步骤s2,对识别出的文字进行分词处理。

本实施例中,对ocr识别提取的文字进行预处理,如对于初步识别的特殊字符做剔除处理,对于字体大小一致且距离较近的字符进行去除换行符处理。对预处理后的文字进行分词。包括:a,从左向右取待切分语句的m个字符作为匹配字段,m为预设的机器词典中最长词条个数。b,将取出的m个字符在机器词典中查找并进行匹配,若匹配成功,则将这个匹配字段作为一个词切分出来;若匹配不成功,则将这个匹配字段的最后一个字去掉,剩下的字符串作为新的匹配字段,进行再次匹配,重复以上过程,直到切分出所有词为止。c,从右向左操作a和b进行分词处理。

进一步地,分词后还可进行二次处理,对连续的大写数字或英文做整体分词,并进行翻译处理,以便识别出利用连续数字或英文进行宣传的广告信息。

本实施例中分词时还可采用n元文法统计模型(n-grammodel)、隐马尔科夫模型(hiddenmarkovmodel,简称hmm)、最大熵模型(maximumentropymodel)来进行分词,分词算法可包括:正向最大匹配,反向最大匹配,双向最大匹配,最短路径算法。

步骤s3,将各个分词与预先建立的广告关键词库中的各个广告关键词进行匹配,得到与预先建立的广告关键词库中广告关键词相匹配的分词;并根据匹配结果按预设匹配评分规则分配对应的关键字匹配评分。

本实施例中,预先可建立广告关键词库,如:可按不同广告类别进行分类建立广告关键词库,如按照产品广告、品牌广告、观念广告、公益广告等分类建立关键词库。还可按不同级别对广告进行定级,如对于网络上流行的黄赌毒、诈骗类非法广告设定为高危级别,必须剔除;对于本业务系统相关的竞品和品牌广告设定为危险级别,对于普通商品广告等设定为普通级别。

利用建立的广告关键词库对待分析图片中的分词进行关键字匹配,并根据待分析图片中的分词与广告关键词库的匹配结果给予评分p3,具体定义的预设匹配评分规则包括:

a,精确包含的情况:若所述待分析图片的各个分词与预先建立的广告关键词库中的广告关键词相匹配,则分配对应的第一关键字匹配评分;即匹配条件是待匹配词完全包含广告关键字库中的关键词时认为精确命中,p3记10分。

b,同义包含的情况:若所述待分析图片的各个分词与预先建立的广告关键词库中广告关键词的预设相关词相匹配,则分配对应的第二关键字匹配评分;其中,广告关键词的预设相关词包括广告关键词的同义词、近义词、与该广告关键词相关的短语和/或该广告关键词字面产生颠倒或间隔后的变形形态词汇。即匹配条件相比精确包含可以适当进行延伸,可扩展至关键词的同义词,近义词,相关词,以及包含关键词的短语,或包含部分字面顺序颠倒或有间隔,等。即匹配条件是待匹配词完全包含广告关键字库中关键词的变形形态(插入、颠倒、同义词、近义词、相关词),p3记8分。

c,核心包含的情况:若所述待分析图片的各个分词与预先建立的广告关键词库中广告关键词的核心部分或该核心部分的预设相关词相匹配,则分配对应的第三关键字匹配评分。即匹配条件是待匹配词包含广告关键字库中关键词的核心部分、关键词核心部分的变形(插入、颠倒、同义词、近义词、相关词),p3记6分。

在完成关键字匹配后,若待分析图片中的分词与广告关键字库中的关键字匹配(无论是精确包含、同义包含或核心包含),且匹配的关键字属于高危级别广告的字库,则直接认定该待分析图片中包含高危级别广告,需进行剔除,鉴定结束,无需进行后续操作。

若匹配的关键字不属于高危级别广告的字库,即属于危险级别和普通级别广告的字库,则可继续进行进一步语义分析。例如,可根据匹配的关键字的上下文意思、或多个关键字的组合判断待分析图片中是否包含广告信息或其广告类别、等级等。还可检测待分析图片中是否包含qq、微信、邮箱、网址、手机等直接联络方式信息,若包含有,则可直接认定待分析图片中包含广告信息,如非业务系统相关广告。具体地,检测是否包含直接联络方式信息的方法如下:当待分析图片中的字符包含连串数字时,检测后面是否有货币单位信息、计量单位信息等,若无则检测是否为电话号码形式。

步骤s4,识别出所述待分析图片中各个文字的不同字体大小,并根据相匹配的分词的字体大小按预设字体评分规则分配对应的字体评分。

在对所述待分析图片利用光学字符识别ocr识别出所述待分析图片中的各个文字时,还可对识别出的各个文字进行字体大小分析,具体地,可对待分析图片先进行高斯模糊处理,如f'(x,y)=f(x,y)*g(x,y),其中g(x,y)=exp(-(x2+y2)/9),对f'(x,y)画出峰值分布图,按阶梯分布抽取不同层级的峰值分布图。即对待分析图片中各个字符的大体轮廓进行分析,区分出待分析图片中各个字符的不同字体大小。如可将预设层级的峰值分布图中的字符识别为较大字体,所述待分析图片中的其余字符识别为较小字体。由于在实际应用中,若业务图片中夹杂有广告信息,则为了引人注目,广告信息一般会采用较大字体来展示。因此,本实施例中针对待分析图片中的字符字体给予字体评分p1,其中,较大字体的字符分配的字体评分高于较小字体的字符的字体评分。例如,较大字体的字符的p1=2,较小字体的字符的p1=1。

进一步地,在一种可选的实施方式中,还可对识别出的各个文字进行字体颜色分析,如对所述待分析图片中进行光学字符识别出的文字,计算每个文字的字体色彩显著度;将字体色彩显著度大于预设色彩显著度阈值的文字识别为高色彩显著度的文字,将字体色彩显著度小于或等于预设色彩显著度阈值的文字识别为低色彩显著度的文字;为所述待分析图片中的各个文字按字体色彩显著度设置对应的色彩显著度评分,其中,高色彩显著度的文字对应的色彩显著度评分大于低色彩显著度的文字对应的色彩显著度评分。具体地,对于ocr检测出的字体,计算字体的色彩显著度,例如,当字体的drgb=([rgb(x,y-[rgb(s,t))^2大于某一特定阈值时认定该字体的色彩显著度高。在实际应用中,广告信息可能会通过提高色彩显著度来获得更好的宣传效果。因此,本实施例中针对待分析图片中的字符字体颜色给予色彩显著度评分p2,其中,色彩显著度高的字符分配的色彩显著度评分高于色彩显著度低的字符的色彩显著度评分。例如,色彩显著度高的字符的p2=1,色彩显著度低的字符的p1=0.5。

步骤s5,根据所述关键字匹配评分、字体评分,利用预设规则判断所述待分析图片是否为广告图片。

本实施例中,在利用预设规则判断所述待分析图片是否为广告图片时,可按照如下公式计算得到p值:

p=a1*p1+a2*p2+a3*p3

其中,p1为所述待分析图片中相匹配的分词的字体大小对应的字体评分,p2为所述待分析图片中相匹配的分词的字体色彩显著度对应的色彩显著度评分,p3为所述待分析图片中相匹配的分词对应的关键字匹配评分;a1、a2、a3为预先为字体评分p1,色彩显著度评分p2,以及关键字匹配评分p3设置的参数权重,例如,可设置a1=0.2,a2=0.1,a3=0.7。

预先设定一阈值,当计算得到的p值达到该阈值时,则判定待分析图片为包含广告信息的广告图片,并进行预警。此外,还可结合所述待分析图片中相匹配的分词的字体、颜色、关键字级别、关键字个数等来综合评估广告信息,并通过制定广告分类及广告级别可以对不同广告采取不同措施。

与现有技术相比,本实施例通过对待分析图片进行光学字符识别出文字;对识别出的文字进行分词;将各个分词与预先建立的广告关键词库中的各个广告关键词进行匹配,并根据匹配结果按预设匹配评分规则分配对应的关键字匹配评分;识别出各个文字的不同字体大小,并根据相匹配的分词的字体大小按预设字体评分规则分配对应的字体评分;根据所述关键字匹配评分、字体评分,利用预设规则判断所述待分析图片是否为广告图片。由于一般在图片中出现广告信息时,广告字体与其他正常文字会有所不同,如字体大小或字体色彩显著度不同。本实施例能将待分析图片中的各个分词与预先建立的广告关键词库中的各个广告关键词进行匹配,根据匹配情况分配对应的关键字匹配评分,并根据相匹配的分词的字体大小分配对应的字体评分,根据相匹配的分词的字体色彩显著度设置对应的色彩显著度评分,最后,结合关键字匹配评分以及字体评分、色彩显著度评分来进行综合鉴定,能更加准确有效地判断出所述待分析图片是否为包含广告信息的广告图片。而且,无需人工进行检测,能自动进行广告图片的鉴定,有效提高检测效率。

如图2所示,图2为本发明广告图片鉴定方法一实施例的流程示意图,该广告图片鉴定方法包括以下步骤:

步骤s10,在收到待分析图片后,对所述待分析图片进行光学字符识别,识别出所述待分析图片中的文字。

本实施例中,广告图片鉴定系统接收用户发出的包含待分析图片的广告图片鉴定请求,例如,接收用户通过手机、平板电脑、自助终端设备等终端发送的广告图片鉴定请求,如接收用户在手机、平板电脑、自助终端设备等终端中预先安装的客户端上发送来的广告图片鉴定请求,或接收用户在手机、平板电脑、自助终端设备等终端中的浏览器系统上发送来的广告图片鉴定请求。

广告图片鉴定系统在收到用户发出的广告图片鉴定请求后,对广告图片鉴定请求中的待分析图片进行光学字符识别(opticalcharacterrecognition,简称ocr),即针对印刷体字符,采用光学的方式将文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式。

利用ocr对待分析图片进行字符识别,以识别出待分析图片中的文字。其中,本实施例在ocr识别过程中可实施生僻字匹配策略,由于广告信息中为了简单易懂便于宣传,一般较少会出现生僻字,因此,在对待分析图片的ocr识别过程中,若对其中一个文字进行字符识别时出现识别出的与该文字匹配的某生僻字匹配度高,但与该文字匹配的一些常见通用字匹配度低的情况,则判断为ocr识别出错,则将该文字与其周围字符组成词组进入ocr识别匹配的词库检测,当与某词组完成高匹配时,则识别该文字为匹配的词组中相应位置的常见通用字。这样,能提高后续对待分析图片中广告信息的识别精度。

还可对待分析图片中识别出的生僻字进行畸变检测,由于广告信息中有时会对文字进行一些特殊处理,导致该文字畸变,例如,在文字上面画圈、打叉、由广告字库拼装组成等等,可进行检测后去除这些特殊符合,还原文字本身,以便后续进行广告信息的匹配、识别操作。

在一种可选的实施方式中,还可对待分析图片进行二维码检测,一旦检测到待分析图片中含有二维码信息,则直接判定该待分析图片为广告图片,鉴定结束,无需进行后续操作。

步骤s20,对识别出的文字进行分词处理。

本实施例中,对ocr识别提取的文字进行预处理,如对于初步识别的特殊字符做剔除处理,对于字体大小一致且距离较近的字符进行去除换行符处理。对预处理后的文字进行分词。包括:a,从左向右取待切分语句的m个字符作为匹配字段,m为预设的机器词典中最长词条个数。b,将取出的m个字符在机器词典中查找并进行匹配,若匹配成功,则将这个匹配字段作为一个词切分出来;若匹配不成功,则将这个匹配字段的最后一个字去掉,剩下的字符串作为新的匹配字段,进行再次匹配,重复以上过程,直到切分出所有词为止。c,从右向左操作a和b进行分词处理。

进一步地,分词后还可进行二次处理,对连续的大写数字或英文做整体分词,并进行翻译处理,以便识别出利用连续数字或英文进行宣传的广告信息。

本实施例中分词时还可采用n元文法统计模型(n-grammodel)、隐马尔科夫模型(hiddenmarkovmodel,简称hmm)、最大熵模型(maximumentropymodel)来进行分词,分词算法可包括:正向最大匹配,反向最大匹配,双向最大匹配,最短路径算法。

步骤s30,将各个分词与预先建立的广告关键词库中的各个广告关键词进行匹配,得到与预先建立的广告关键词库中广告关键词相匹配的分词;并根据匹配结果按预设匹配评分规则分配对应的关键字匹配评分。

本实施例中,预先可建立广告关键词库,如:可按不同广告类别进行分类建立广告关键词库,如按照产品广告、品牌广告、观念广告、公益广告等分类建立关键词库。还可按不同级别对广告进行定级,如对于网络上流行的黄赌毒、诈骗类非法广告设定为高危级别,必须剔除;对于本业务系统相关的竞品和品牌广告设定为危险级别,对于普通商品广告等设定为普通级别。

利用建立的广告关键词库对待分析图片中的分词进行关键字匹配,并根据待分析图片中的分词与广告关键词库的匹配结果给予评分p3,具体定义的预设匹配评分规则包括:

a,精确包含的情况:若所述待分析图片的各个分词与预先建立的广告关键词库中的广告关键词相匹配,则分配对应的第一关键字匹配评分;即匹配条件是待匹配词完全包含广告关键字库中的关键词时认为精确命中,p3记10分。

b,同义包含的情况:若所述待分析图片的各个分词与预先建立的广告关键词库中广告关键词的预设相关词相匹配,则分配对应的第二关键字匹配评分;其中,广告关键词的预设相关词包括广告关键词的同义词、近义词、与该广告关键词相关的短语和/或该广告关键词字面产生颠倒或间隔后的变形形态词汇。即匹配条件相比精确包含可以适当进行延伸,可扩展至关键词的同义词,近义词,相关词,以及包含关键词的短语,或包含部分字面顺序颠倒或有间隔,等。即匹配条件是待匹配词完全包含广告关键字库中关键词的变形形态(插入、颠倒、同义词、近义词、相关词),p3记8分。

c,核心包含的情况:若所述待分析图片的各个分词与预先建立的广告关键词库中广告关键词的核心部分或该核心部分的预设相关词相匹配,则分配对应的第三关键字匹配评分。即匹配条件是待匹配词包含广告关键字库中关键词的核心部分、关键词核心部分的变形(插入、颠倒、同义词、近义词、相关词),p3记6分。

在完成关键字匹配后,若待分析图片中的分词与广告关键字库中的关键字匹配(无论是精确包含、同义包含或核心包含),且匹配的关键字属于高危级别广告的字库,则直接认定该待分析图片中包含高危级别广告,需进行剔除,鉴定结束,无需进行后续操作。

若匹配的关键字不属于高危级别广告的字库,即属于危险级别和普通级别广告的字库,则可继续进行进一步语义分析。例如,可根据匹配的关键字的上下文意思、或多个关键字的组合判断待分析图片中是否包含广告信息或其广告类别、等级等。还可检测待分析图片中是否包含qq、微信、邮箱、网址、手机等直接联络方式信息,若包含有,则可直接认定待分析图片中包含广告信息,如非业务系统相关广告。具体地,检测是否包含直接联络方式信息的方法如下:当待分析图片中的字符包含连串数字时,检测后面是否有货币单位信息、计量单位信息等,若无则检测是否为电话号码形式。

步骤s40,识别出所述待分析图片中各个文字的不同字体大小,并根据相匹配的分词的字体大小按预设字体评分规则分配对应的字体评分。

在对所述待分析图片利用光学字符识别ocr识别出所述待分析图片中的各个文字时,还可对识别出的各个文字进行字体大小分析,具体地,可对待分析图片先进行高斯模糊处理,如f'(x,y)=f(x,y)*g(x,y),其中g(x,y)=exp(-(x2+y2)/9),对f'(x,y)画出峰值分布图,按阶梯分布抽取不同层级的峰值分布图。即对待分析图片中各个字符的大体轮廓进行分析,区分出待分析图片中各个字符的不同字体大小。如可将预设层级的峰值分布图中的字符识别为较大字体,所述待分析图片中的其余字符识别为较小字体。由于在实际应用中,若业务图片中夹杂有广告信息,则为了引人注目,广告信息一般会采用较大字体来展示。因此,本实施例中针对待分析图片中的字符字体给予字体评分p1,其中,较大字体的字符分配的字体评分高于较小字体的字符的字体评分。例如,较大字体的字符的p1=2,较小字体的字符的p1=1。

进一步地,在一种可选的实施方式中,还可对识别出的各个文字进行字体颜色分析,如对所述待分析图片中进行光学字符识别出的文字,计算每个文字的字体色彩显著度;将字体色彩显著度大于预设色彩显著度阈值的文字识别为高色彩显著度的文字,将字体色彩显著度小于或等于预设色彩显著度阈值的文字识别为低色彩显著度的文字;为所述待分析图片中的各个文字按字体色彩显著度设置对应的色彩显著度评分,其中,高色彩显著度的文字对应的色彩显著度评分大于低色彩显著度的文字对应的色彩显著度评分。具体地,对于ocr检测出的字体,计算字体的色彩显著度,例如,当字体的drgb=([rgb(x,y-[rgb(s,t))^2大于某一特定阈值时认定该字体的色彩显著度高。在实际应用中,广告信息可能会通过提高色彩显著度来获得更好的宣传效果。因此,本实施例中针对待分析图片中的字符字体颜色给予色彩显著度评分p2,其中,色彩显著度高的字符分配的色彩显著度评分高于色彩显著度低的字符的色彩显著度评分。例如,色彩显著度高的字符的p2=1,色彩显著度低的字符的p1=0.5。

步骤s50,根据所述关键字匹配评分、字体评分,利用预设规则判断所述待分析图片是否为广告图片。

本实施例中,在利用预设规则判断所述待分析图片是否为广告图片时,可按照如下公式计算得到p值:

p=a1*p1+a2*p2+a3*p3

其中,p1为所述待分析图片中相匹配的分词的字体大小对应的字体评分,p2为所述待分析图片中相匹配的分词的字体色彩显著度对应的色彩显著度评分,p3为所述待分析图片中相匹配的分词对应的关键字匹配评分;a1、a2、a3为预先为字体评分p1,色彩显著度评分p2,以及关键字匹配评分p3设置的参数权重,例如,可设置a1=0.2,a2=0.1,a3=0.7。

预先设定一阈值,当计算得到的p值达到该阈值时,则判定待分析图片为包含广告信息的广告图片,并进行预警。此外,还可结合所述待分析图片中相匹配的分词的字体、颜色、关键字级别、关键字个数等来综合评估广告信息,并通过制定广告分类及广告级别可以对不同广告采取不同措施。

与现有技术相比,本实施例通过对待分析图片进行光学字符识别出文字;对识别出的文字进行分词;将各个分词与预先建立的广告关键词库中的各个广告关键词进行匹配,并根据匹配结果按预设匹配评分规则分配对应的关键字匹配评分;识别出各个文字的不同字体大小,并根据相匹配的分词的字体大小按预设字体评分规则分配对应的字体评分;根据所述关键字匹配评分、字体评分,利用预设规则判断所述待分析图片是否为广告图片。由于一般在图片中出现广告信息时,广告字体与其他正常文字会有所不同,如字体大小或字体色彩显著度不同。本实施例能将待分析图片中的各个分词与预先建立的广告关键词库中的各个广告关键词进行匹配,根据匹配情况分配对应的关键字匹配评分,并根据相匹配的分词的字体大小分配对应的字体评分,根据相匹配的分词的字体色彩显著度设置对应的色彩显著度评分,最后,结合关键字匹配评分以及字体评分、色彩显著度评分来进行综合鉴定,能更加准确有效地判断出所述待分析图片是否为包含广告信息的广告图片。而且,无需人工进行检测,能自动进行广告图片的鉴定,有效提高检测效率。

此外,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有广告图片鉴定系统,所述广告图片鉴定系统可被至少一个处理器执行,以使所述至少一个处理器执行如上述实施例中的广告图片鉴定方法的步骤,该广告图片鉴定方法的步骤s10、s20、s30等具体实施过程如上文所述,在此不再赘述。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件来实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。

以上参照附图说明了本发明的优选实施例,并非因此局限本发明的权利范围。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。另外,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

本领域技术人员不脱离本发明的范围和实质,可以有多种变型方案实现本发明,比如作为一个实施例的特征可用于另一实施例而得到又一实施例。凡在运用本发明的技术构思之内所作的任何修改、等同替换和改进,均应在本发明的权利范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1