一种对终端内容的处理方法及系统的制作方法

文档序号:9631740阅读:293来源:国知局
一种对终端内容的处理方法及系统的制作方法
【技术领域】
[0001]本申请涉及信息处理技术领域,特别涉及一种对终端内容的处理方法及系统。
【背景技术】
[0002]随着计算机及通信技术的高速发展,互联网的巨大影响和利润驱使很多别有用心的人借助互联网进行各种不良行为。IDC的统计曾显示,有30% -40%的Internet访问是与工作无关的,其中相当大的比例访问色情、暴力、反动等站点,Internet资源被严重浪费。近年来,互联网色情、钓鱼、暴力等不良信息的泛滥严重扰乱了互联网秩序,造成一系列不良影响,其中,互联网色情特别影响着广大青少年的身心健康。
[〇〇〇3] 随着智能终端设备的发展,人们越来越习惯于利用手机或者平板电脑浏览网站、观赏图片或者阅读小说,因此智能终端内的内容也有很大概率涉及色情内容。
[0004]1999年欧盟启动了安全网络行动计划,利用五年时间先后组织欧盟125个研究组织完成35项科研项目,这些研究项目以跨地域、文化、语言的网络有害信息过滤和评估方案为主要研究目标,希望在欧盟建立统一的网络有害信息过滤系统。近年来,国内模式识别国家重点实验室开展了敏感信息与行为监控实用化技术的研究与开发,主要是对图像视频进行内容理解,处于实验室阶段。
[0005]现有技术中利用单一模态对不良信息进行检测,方法包括:文本过滤、黑白名单过滤、IP过滤、图像内容理解等,另外也包括网页内容与图像融合的模式学习方法。虽然上述方法各自有其特点,且在不同方面的检测上各有所长,但也存在各自的缺点。
[0006]综上所述,现有技术中只是提取彼此不相关联的单一模态来对网络不良信息进行检测,存在着统计学习的方法特征提取不全等问题,因此,导致了检测性能低且检测系统的鲁棒性差,并且目前对不良信息的检测方法也不太容易移植到智能终端设备上。
[0007]应该注意,上面对技术背景的介绍只是为了方便对本申请的技术方案进行清楚、完整的说明,并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本申请的【背景技术】部分进行了阐述而认为上述技术方案为本领域技术人员所公知。

【发明内容】

[0008]本申请实施例的目的在于提供一种对终端内容的处理方法及系统,从而能够对终端内的图片、文本以及链接进行全面检测,并对检测到的不良信息及时处理。
[0009]本申请实施例提供的一种对终端内容的处理方法及系统是这样实现的:
一种对终端内容的处理方法,包括:
提取待处理的终端内容对应的特征符;
对提取的所述特征符进行辨别处理,得到与所述特征符对应的辨别结果;
根据所述辨别结果,对所述特征符对应的待处理的终端内容进行处理。
[0010]一种对终端内容的处理系统,包括:
特征符提取单元,用于提取待处理的终端内容对应的特征符;辨别处理单元,用于对提取的所述特征符进行辨别处理,得到与所述特征符对应的辨别结果;处理单元,用于根据所述辨别结果,对所述特征符对应的待处理的终端内容进行处理。
[0011 ] 本申请实施例提供的一种对终端内容的处理方法及系统,通过提取出终端内容对应的特征符,进而可以对提取的特征符进行辨别处理。进一步地,当辨别处理的结果为存在不良信息时,便可以对该不良信息进行删除处理,从而保证了终端内容的健康。
[0012]参照后文的说明和附图,详细公开了本申请的特定实施方式,指明了本申请的原理可以被采用的方式。应该理解,本申请的实施方式在范围上并不因而受到限制。在所附权利要求的精神和条款的范围内,本申请的实施方式包括许多改变、修改和等同。
[0013]针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
[0014]应该强调,术语“包括/包含”在本文使用时指特征、整件、步骤或组件的存在,但并不排除一个或更多个其它特征、整件、步骤或组件的存在或附加。
【附图说明】
[0015]所包括的附图用来提供对本申请实施例的进一步的理解,其构成了说明书的一部分,用于例示本申请的实施方式,并与文字描述一起来阐释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本申请实施例提供的一种对终端内容的处理方法的流程图;
图2为本申请实施例提供的一种对终端内容的处理系统的功能模块图。
【具体实施方式】
[0016]为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都应当属于本申请保护的范围。
[0017]图1为本申请实施例提供的一种终端内容的处理方法的流程图。虽然下文描述流程包括以特定顺序出现的多个操作,但是应该清楚了解,这些过程可以包括更多或更少的操作,这些操作可以顺序执行或并行执行(例如使用并行处理器或多线程环境)。如图1所示,所述方法可以包括:
S1:提取待处理的终端内容对应的特征符。
[0018]在本申请实施例中,所述待处理的终端内容可以包括文本、图片或者链接中的至少一种。对于文本和链接,本申请实施例可以对其中的字符串进行识别,以判定所述文本和链接中是否包含不良信息。具体地,本申请实施例可以预先建立信息过滤库。所述信息过滤库中可以包括各种敏感词或者敏感域名,所述敏感词以及敏感域名以字符串的形式保存于所述信息过滤库中。在建立了信息过滤库后,本申请实施例便可以对所述文本以及链接进行扫描,并提取出所述文本以及链接中与所述信息过滤库中的内容相匹配的字符串。这些提取出的字符串即可以视为与不良信息相关。因此,可以将提取的所述字符串确定为所述待处理的终端内容的特征符。所述特征符可以用来表征所述待处理的终端内容,通过对所述特征符进行辨别,便相当于对所述待处理的终端内容进行辨别。
[0019]另外,由于图片与文本以及链接在表现形式上有区别,因此本申请实施例在对图片提取对应的特征符时则无法通过提取字符串的方式来进行。由于不良的图片中往往会暴露人体较多的皮肤,那么本申请实施例可以通过识别待处理的图片中人体的肤色特征来辨别该待处理的图片是否属于不良图片。具体地,本申请实施例可以根据贝叶斯分类准则,提取所述待处理的终端内容中的肤色特征。在实际应用场景中,本申请实施例可以预先建立训练样本集。所述训练样本集中可以包括黄色、白色、黑色三个任重的若干皮肤图像。然后可以用训练学习的样本做评判估计,对所有训练样本集中的所有图像进行分类判断,从而可以根据贝叶斯准则得到贝叶斯肤色分类器。这样,通过得到的贝叶斯肤色分类器,便可以对待处理的终端内容中的肤色部分进行识别,从而能够提取出所述待处理的终端内容中的肤色特征,所述的肤色特征可以用面积来表示。那么提取的所述肤色特征便可以确定为所述待处理的终端内容的特征符。
[0020]在上述对图片信息提取肤色特征的表述中不难看出,尽管这种方法实现比较简单,能够简化对终端内容的处理流程,然而这种方法会存在误判的情况,例如当图片中的人体穿着泳衣时,便会裸露大量的皮肤,然而这种裸露时属于健康的裸露,并非属于不良信息。因此利用上述对图片信息提取肤色特征的方法可能会对图片是否属于不良信息造成误判。而对于不良图片而言,其裸露的部位往往是特殊的人体部位,基于此,在本申请一优选实施例中,为了更加精确地对图片内容进行识别,可以对图片中预设的人体部位进行识别。当所述预设的人体部位为裸露时,则可以判定所述图片为不良信息。具体地,在本申请该优选实施例中,可以提取待处理的终端内容中预设人体部位的特征。在实际应用场景中,本申请实施例可以对待处理的终端内容中的人体进行识别,并且将预设人体部位处的图片截取,从而形成所述预设人体部位的特征。然后可以对所述预设人体部位的特征进行识别,从而判断该待处理的图片是否属于不良图片。
[0021]S2:对提取的所述特征符进行辨别处理,得到与所述特征符对应的辨别结果。
[0022]在提取得到待处理终端内容对应的特征符后,便可以对该特征符进行辨别处理。具体地,对于文本和链接而言,可以统计提取的所述特征符在所述待处理的终端内容中所占的比重。例如,在某一文本内容中,提取出的特征符(敏感字符串)占总文本的60%,那么说明在该文本中大量出现了敏感字符串。那么假设预设的比重阈值为10%,那么计算的比重则达到了预设阈值,从而可以判定所述文本属于不良文本,从而可以得出的辨别结果为存在不良信息。
[0023]对于通过提取肤色特征来辨别图片的方法,由于辨别出的肤色特征可以用面积来表示,那么可以采用与文本和链接相同的判断方法,计算提取的肤色特征占人体面积的比重,并且将计算的比重与预设阈值进行比较,从而可以判定所述图片是否属于不良图片。
[0024]然而对于根据预设人体部位的特征来
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1