面向UGC的自动混合鉴黄方法与流程

文档序号:31855563发布日期:2022-10-19 02:42阅读:75来源:国知局
面向UGC的自动混合鉴黄方法与流程
面向ugc的自动混合鉴黄方法
技术领域
1.本发明涉及面向ugc的自动混合鉴黄方法。


背景技术:

2.在中小电商平台上对商家上传的商品信息,包括商品图片、商品名称、外部url链接等进行人工鉴黄的成本相当大,且审核具有延迟发现的问题,当发现商家上传的商品信息存在涉黄信息后,再进行下架处理可能为时已晚,相关涉黄信息已经传播;若所有商品信息均需要审核之后才能上架,则商家的体验感又会变得极差。另外,现有技术采用单维度鉴定方法,其准确性偏低。


技术实现要素:

3.针对上述问题,本发明提供面向ugc的自动混合鉴黄方法,采用图片+关键词+url自动混合鉴定方法进行快速甄别,多维度鉴定结果更准确。
4.名词解释:1)ugc:user generated content,用户的原创内容;2)md5:信息摘要算法;3)鉴黄:鉴定色情内容;4)云服务商:比如阿里云,腾讯云,华为云,亚马逊等;5)红线文本:国家级别的违禁词。
5.为实现上述技术目的,达到上述技术效果,本发明通过以下技术方案实现:面向ugc的自动混合鉴黄方法,包括如下步骤:s01、读取用户提交的自建ugc信息;s02、以图片、url和文本内容三个维度为基准,分别对自建ugc信息进行图片鉴定、url鉴定和关键词鉴定;s03、以每个图片权重为8分,每个url权重为6分,黄色暴力文本内容每个关键词权重为1-3分,涉政文本内容每个关键词权重为4-5分,敏感话题文本内容每个关键词权重为6-7分,红线文本内容每个关键词权重为10分,计算步骤s02的自建ugc信息的得分;s04、若得分为0分:则判定自建ugc信息内容正常,可直接发布;若得分≥1分且小于10分,则对自建ugc信息返回用户违规内容,进行修改后再提交;若得分≥10分,则将自建ugc信息直接进入违禁库,进行二次人工审核;s05、对违禁库内的自建ugc信息按照得分降序人工进行鉴黄审核。
6.优选,在对图片进行图片鉴定时,具体包括如下步骤:11)基于开源项目nsfwjs进行本地分析打标,给出各个标的值,并且计算出图片的md5值作为图片的唯一特征码;12)将图片,特征码,标记同时上传至服务器;
13)以图片的md5值作为唯一特征码,在违规图片库中以完全匹配的方式查找本次上传的图片的md5值;14)若违规图片库中存在本次上传的图片的md5值,则直接驳回;若违规图片库中不存在本次上传的图片的md5值,则管理后台根据打标情况进行排序,优先审核高风险图片。
7.优选,步骤14)中,若发现新的违规图片,则将该图片的md5值录入违规图片库中;若为正常图片,则通过验证。
8.优选,在对url进行url鉴定时,具体包括如下步骤:21)对内容进行解析,解析出内容中的url;22)将解析出的url与违禁url库进行比对;23)给出鉴定结果。
9.优选,在对文本内容进行关键词鉴定时,具体包括如下步骤:31)基于stanfordnlp对文本内容进行分词和拆词,将完整的文本内容处理成单个的单词;32)对所有单词进行分类;33)将步骤31)获取的所有单词与关键词词库内的单词进行完全匹配;34)将步骤33)处所有匹配出来的单词特性进行汇总和去重,得到完整内容的特性偏向;35)给出鉴定结果。
10.优选,步骤32)中,单词分类包括政治敏感类词组、暴力词组和色情词组。
11.优选,步骤33)中,关键词词库包括动态违禁词、基础违禁词和紧急违禁词。
12.优选,步骤34)中,完整内容的特性偏向包括色情偏向、涉政偏向和暴力偏向。
13.本发明的有益效果是:目前市面上的云服务商基本提供的都是单维度审核机制,存在单维度鉴黄准确度不够的问题,而本发明通过3个维度的混合鉴黄,给出内容是否违规,违规程度等建议信息,大大提高鉴定的准确性,实现快速甄别。
附图说明
14.图1是本发明面向ugc的自动混合鉴黄方法的流程图;图2是本发明图片鉴黄的流程图;图3是本发明关键词鉴黄的流程图;图4是本发明url鉴黄的流程图。
具体实施方式
15.下面结合附图和具体的实施例对本发明技术方案作进一步的详细描述,以使本领域的技术人员可以更好的理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
16.如图1所示,面向ugc的自动混合鉴黄方法,包括如下步骤:s01、读取用户提交的自建ugc信息(user generated content,用户的原创内容),
可以通过上传端口直接读取用户提交的自建ugc信息。
17.s02、以图片、url和文本内容三个维度为基准,分别对自建ugc信息进行图片鉴定、url鉴定和关键词鉴定,其中:第一、图片维度:基于开源项目nsfwjs在客户端(客户端即上传图片的机器)进行图片内容的审核打标,当用户进行图片上传并选取图片的时候,进行本地鉴定打标:若图片内容无害,则直接上传保存;若图片内容的色情比例较高,则发出警告,提醒用户上传有风险,如果用户执意上传,对于管理员可优先进行审核;对于实锤涉黄图片,将该图片的关键信息自动录入违规图片库,用于下一次相同图片被上传时直接驳回操作,大大提升图片鉴定的效率。
18.具体的,在对图片进行图片鉴定时,如图2所示,具体包括如下步骤:11)基于开源项目nsfwjs进行本地分析打标,比如机器将图片打上“无害的”、“暴力”、“一般无害”、“色情”和“性感”等标签,给出各个标的值,并且计算出图片的md5值作为图片的唯一特征码;12)将图片,特征码,标记同时上传至服务器;13)以图片的md5值作为唯一特征码,在违规图片库中以完全匹配的方式查找本次上传的图片的md5值;14)若违规图片库中存在本次上传的图片的md5值,则直接驳回;若违规图片库中不存在本次上传的图片的md5值,则管理后台根据打标情况进行排序,优先审核高风险图片。
19.优选,步骤14)中,若发现新的违规图片,则将该图片的md5值录入违规图片库中;若为正常图片,则通过验证。
20.第二、url维度:对违反国家规定的网站的url网址,建立动态违禁url库,在用户提交任意内容的时候解析出其url信息的部分,与违禁url库进行比对,给出是否涉黄结论。
21.也即,在对url进行url鉴定时,如图4所示,具体包括如下步骤:21)对内容进行解析,解析出内容中的url;22)将解析出的url与违禁url库进行比对;23)给出鉴定结果。
22.第三、关键词维度:对具有涉黄嫌疑的词,建立动态关键词词库,在用户进行任意内容提交的时候,通过对内容的解析、拆词,再对词库内词条进行比对,给出是否涉黄结论。
23.优选,在对文本内容进行关键词鉴定时,如图3所示,具体包括如下步骤:31)基于stanfordnlp对文本内容进行分词和拆词,将完整的文本内容处理成单个的单词;32)对所有单词进行分类,比如单词分类包括政治敏感类词组、暴力词组和色情词组,分类是为了区分违禁词的特性,比如涉政和涉黄,在特定时期,给出的违禁分类可能有区别,会影响后续的鉴定结果;33)将步骤31)获取的所有单词与关键词词库内的单词进行完全匹配,比如,关键词词库包括动态违禁词、基础违禁词和紧急违禁词。
24.34)将步骤33)处所有匹配出来的单词特性进行汇总和去重,得到完整内容的特性
偏向,完整内容的特性偏向包括色情偏向、涉政偏向和暴力偏向。
25.35)给出鉴定结果。
26.s03、以每个图片权重为8分,每个url权重为6分,黄色暴力文本内容每个关键词权重为1-3分,涉政文本内容每个关键词权重为4-5分,敏感话题文本内容每个关键词权重为6-7分,红线文本内容每个关键词权重为10分,计算步骤s02的自建ugc信息的得分;s04、若得分为0分:则判定自建ugc信息内容正常,可直接发布;若得分≥1分且小于10分,则对自建ugc信息返回用户违规内容,进行修改后再提交;若得分≥10分,则将自建ugc信息直接进入违禁库,进行二次人工审核;s05、对违禁库内的自建ugc信息按照得分降序人工进行鉴黄审核。
27.目前市面上的云服务商基本提供的都是单维度审核机制,存在单维度鉴黄准确度不够的问题,而本发明通过3个维度的混合鉴黄,给出内容是否违规,违规程度等建议信息,大大提高鉴定的准确性,实现快速甄别。
28.以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或者等效流程变换,或者直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1