专利名称:一种互联网图片广告过滤系统及其过滤方法
技术领域:
本发明涉及一种互联网图片广告过滤系统及其过滤方法,尤其涉及一种针对互联网互动产品的特点,对灌水及商业广告等信息进行准确过滤的过滤系统及其过滤方法,属于网络信息安全技术领域。
背景技术:
现阶段,互联网上各大论坛、博客等都面临着广告帖的大量灌入,极度影响用户的互动体验。一般,论坛、博客都有提供给版主删除广告、违法信息的操作后台,但是人工不能保证及时的屏蔽广告。本发明正是嵌入在这样的操作后台,使用多种方法提取文本特征。这些方法可以看做弱分类器,根据Boosting思想,我们使用人工神经网络将多种识别方法自适应融合。本发明识别速度快、识别率高,支持无人工操作。目前,各个网站针对此情况一般都是采用如下的技术措施1.将发帖过多或间隔时间过短的帖子交予人工审查。这种方法可以对一部分广告做到过滤,但是面对过多用户同时发布多篇广告帖时,需要审查的帖子数量过多,管理员压力巨大,审查时间也会过长。2.网友举报发布广告帖的用户对于广告帖,网友可以进行举报,每人可举报一次,当举报数超过一定数量时,对被举报用户进行禁言措施。此种方法需要活跃用户自发参与,但若数量太大或马甲重复发帖,单凭网友力量很难解决。3.关键词过滤方式使用常见广告词汇作为关键词,包含关键词禁止发布。此种方法只能处理低级广告,若出现词变形或绕关键词,则无法识别。4.使用预先设定的过滤参数,过滤参数不能根据不断变化的广告帖自动变化,即使出现过多误判,也只能人工对参数更新,而不能自我学习,无法适应广告帖发展趋势。5.只是使用预订参数自动过滤,对人工操作没有给予考虑当一些经过过滤系统过滤认为并不存在问题的帖子,可能由于其他规则被人工操作删除后,由于不会学习人工操作,下次系统遇到相似的帖子仍然不会过滤。针对现有技术的种种不足,本发明嵌入到互动产品用户生成内容管理后台,根据内容及用户行为过滤广告帖内容。需要解决如下问题1.根据内容特点识别及过滤广告帖等不良内容;2.结合用户历史及内容历史提高识别准确度;3.根据图片的发布特征识别广告帖。
发明内容
本发明所要解决的技术问题在于提供一种互联网图片广告过滤系统及其过滤方法,可以对广告帖等不良信息进行自动过滤。为实现上述的发明目的,本发明采用下述的技术方案一种互联网图片广告过滤系统,包括内容输入接口、特征分析模块、以及决策计算模块、数据记录模块、信息库、指令输出接口、人工操作输入接口和机器学习模块;其中,内容输入接口用于接收来自于互联网互动产品的用户生成内容;特征分析模块用于分析用户生成内容,提取用户生成内容的多种特征,并根据特征历史情况及人工操作记录计算特征值,生成特征向量;信息库用于存储用户生成内容的各项特征数据;决策计算模块用于根据特征分析模块生成的特征向量综合判断是否对用户生成内容进行过滤;指令输出接口用于将决策计算模块判断的结果整理成显示/屏蔽操作指令,同步给互联网互动产品; 所述内容输入接口包括数据输入接口,校验输入的用户生成内容数据的数据格式以及完整性;解析器,解析输入的用户生成内容数据,获得ID、标题、内容、用户ID、发布时间等
fn息ο所述特征分析模块包括发帖间隔分析模块、URL提取器、URL分析模块、图片内容分析模块以及用户分析模块。发帖间隔分析模块根据用户ID对比该用户上次发帖时间与本次时间,得到发帖时间间隔,并根据发帖时间间隔得到当前用户生成内容可能为广告的发帖间隔特征值;URL提取器从解析后的数据中识别出所有URL ;URL分析模块对每个URL进行次数统计,并根据出现次数最多的URL次数得到当前用户生成内容可能为广告的URL特征值。所述图片内容分析模块从解析后的用户生成内容数据的图片中选取一个或多个特定点,计算图片校验值;对该图片校验值进行分析,得到与当前图片校验值相同的值出现过多少次就代表相同图片发布过多少次,并根据相同图片发布次数得到当前用户生成内容可能为广告的图片特征值。所述用户分析模块从用户库中查询用户发文记录,根据用户发帖被删除和通过次数进行计算用户特征值。所述信息库具有用户库、图片特征库、URL库,其中,用户库用于存储用户ID和上次发帖时间;图片特征库用于存储图片特征、图片出现次数以及广告过滤通过和删除次数; URL库用于存储tol内容、URL出现次数以及广告过滤通过和删除次数;所述决策计算模块根据发帖间隔分析模块、URL分析模块、图片内容分析模块以及用户分析模块产生的特征值生成一个多维特征向量,并经由神经网络进行分类,确定输入的用户生成内容是否为广告帖。一种互联网图片广告过滤方法,基于上述广告过滤系统实现,其特征在于包括如下的步骤a.接收用户生成内容;b.对用户生成内容进行解析;c.分析用户生成内容,并提取用户生成内容的多种特征;d.根据多种特征分别得到用户内容可能为广告的多个特征值;
e.根据多个特征值生成一个多维特征向量;f.利用多维特征向量对用户生产数据进行神经网络分类,确定输入的用户生成内容是否为广告帖;g.更新信息库;h.输出显示或屏蔽操作指令至互动产品。所述步骤c中提取用户生成内容的多种特征具体包括提取发帖间隔特征,用于根据用户ID对比该用户上次发帖时间与本次时间,得到发帖时间间隔特征;提取URL特征,用于分析与当前URL相同的URL出现过多少次来获得 URL特征;提取图片特征,用于分析与当前图片相同的图片出现过多少次来获得图片特征; 提取用户特征,根据用户发帖被删除和通过次数来获得用户特征。所述步骤d中得到用户内容可能为广告的多个特征值包括发帖间隔特征值、URL 特征值、图片特征值和用户特征值。所述步骤f使用人工神经网络分类算法对步骤e生成的特征向量进行分类。所述步骤g中更新信息库包括更新URL库、用户库、以及图片特征库,其中更新 URL 库更新URL内容及其出现次数还有人工操作通过和删除次数;更新用户库更新用户ID和上次发帖时间还有人工操作通过和删除次数;更新图片特征库更新图片校验值、相同图片出现次数和广告过滤通过/删除次数还有人工操作通过和删除次数。利用本发明所提供的广告过滤系统及其过滤方法可以有效解决背景技术中提及的四个问题本发明提供的广告过滤系统及其过滤方法1.具有自主学习能力,能够根据每次的过滤结果每次分析和过滤的结果进行学习,并根据学习更新系统,与自动根据广告帖发展趋势做出适应性过滤策略调整。2.覆盖了内容过滤及多种行为过滤。相对于其他方法,识别更全面,召回率很有优势,漏删少。4.使用神经网络对特征向量进行决策计算,全体特征值对决策均有贡献。相对其他技术,准确率很有优势,误删少。下面结合附图和具体实施方式
对本发明作进一步的详细说明。
图1为本发明所提供的广告过滤系统的整体结构示意图;图2为本发明所提供的广告过滤系统的流程图;图3为本发明所提供的广告过滤系统的神经网络学习流程图;图4本发明所提供的广告过滤系统的决策计算模块的人工神经网络结构图;图5本发明所提供的广告过滤系统的发帖间隔分析的高斯函数图;图6是一广告贴示例图。
具体实施方式
为了提高本发明对不良信息的过滤效果,发明人对大量互联网互动产品中的灌水、广告帖进行了分析,发现灌水或广告帖包括以下特点的一点或几点1.多次发布发布广告者希望更多的人看到广告,会在多个版块、重复发相同或相似内容。2.发布时间间隔短由于使用广告发布机之类的软件,发布时间间隔比用户正常发布时间间隔短。3.留有联系方式包括座机号、手机号、QQ号、电子邮件,网址。4.统一的文本特征广告帖内容与正常帖有较大的不同,会出现很多正常贴中很少出现的文字。5.发布广告帖的ID,不会发正常帖。6.很有可能用图片代替文字,但同一张图会重复发多次。本发明使用的技术有1.人工神经网络分类器人工神经网络是由大量处理单元互联组成的非线性、自适应信息处理系统。它是在现代神经科学研究成果的基础上提出的,试图通过模拟大脑神经网络处理、记忆信息的方式进行信息处理。人工神经网络通过提供的训练样本、验证样本进行自学习,学习算法叫反向传播。神经网络是分类器的一种。是常见的特征自学习权重计算的方法。输入数据为特征分析模块提取出的由若干个
区间实数构成的特征向量。输出数据为两个实数,分别表示判定为正常帖或广告帖的数值。若正常帖数值大, 则判定为正常帖,否则为垃圾帖。如图5所示。2.高斯函数(正态分布)由于函数图右半段适合于随时间衰减的状况,故在本发明中使用高斯函数计算发帖时间间隔的特征计算。高斯函数图如图6所示。如附图1所示,本发明所提供的互联网图片广告过滤系统包括内容输入接口、特征分析模块、以及决策计算模块、数据记录模块、信息库、指令输出接口、人工操作输入接口和机器学习模块;其中,内容输入接口用于接收来自于互联网互动产品的用户生成内容; 特征分析模块用于分析用户生成内容,提取用户生成内容的多种特征,并根据特征历史情况及人工操作记录计算特征值,生成特征向量;信息库用于存储用户生成内容的各项特征数据;决策计算模块用于根据特征分析模块生成的特征向量综合判断是否对用户生成内容进行过滤;指令输出接口用于将决策计算模块判断的结果整理成显示或屏蔽操作指令,同步给互联网互动产品;人工操作输入接口用于接收并解析人工修改过滤结果的操作。内容输入接口包括数据输入接口 对输入数据进行校验,数据格式、完整性。解析器解析数据,获得ID、标题、内容(包含链接、图片信息)、用户ID、发布时间。下面结合附图2,对本发明提供的广告过滤系统的计算流程进行详细说明特征分析模块包括发帖间隔分析模块、URL提取器、URL分析模块、图片内容分析模块和用户分析模块。发帖间隔分析模块根据用户ID对比该用户上次发帖时间与本次时间,得到发帖时间间隔,并根据发帖时间间隔得到当前用户生成内容可能为广告的发帖间隔特征值;发帖间隔分析模块工作流程
7
根据用户ID,在用户库中获得上次发帖时间;对比上次发帖时间与本次时间,得到发帖间隔;使用高斯函数计算时间间隔对应的特征值y ^ e~W其中,e就是自然对数底,t为发帖间隔,单位为秒;参数K 一般选324,可视需求提
尚οURL提取器从解析后的数据中识别出所有URL。URL提取器工作流程(1)使用正则表达式识别所有URL ;(2)使用URL分析模块对每个URL进行分析。URL分析樽块对每个URL进行次数统计,并根据出现次数最多的URL次数得到当前用户生成内容可能为广告的URL特征值。URL分析模块工作流程循环对每个URL,取URL库数据,做如下计算(1)若人工操作数大于2,使用人工操作倾向性(正常/广告),公式
__Tj-^dgi_= Wiw1(2)否则,使用URL出现次数作为判定是否有广告帖倾向依据,URL出现越多值越大,URL 出现次数 0-12 的值为{0,0,0. 2,0. 5,0. 7,0. 9,0. 9,0. 9,0. 9,0. 9,0. 9,0. 9,0. 9},12 以上为0.9。(3)使用所有URL中具有的最大值的作为URL特征值图片内容分析樽块从解析后的用户生成内容数据的图片中选取一个或多个特定点,计算图片校验值;对该图片校验值进行分析,得到与当前图片校验值相同的值出现过多少次就代表相同图片发布过多少次,并根据人工操作记录或相同图片发布次数得到当前用户生成内容可能为广告的图片特征值。图片内容分析模块工作流程(1)从图片中每个不重叠4*4像素中取位置(2,2)的点,生成MD5码;(2)使用本次MD5比对过去的所有MD5,MD5相同代表图片相同;(3)对于所有相同图片,取图片特征库数据,若总人工操作文本数大于2,使用人工操作倾向性(正常/广告),公式._^del
^Npfiss+NtJeI+1(4)否则,使用相同图片发布次数判定是否有广告帖倾向依据,相同图片出现越多值越大,相同图片出现次数 0-12 的值为{0,0,0. 2,0.4,0.6,0.8,0.9,0.9,0.9,0.9,0.9, 0. 9,0. 9},12 以上为 0.9 ;(5)使用所有图片中V最大的作为特征值。用户分析模块从用户库中查询用户发文记录,根据用户发帖被删除和通过次数进行计算用户特征值。
用户分析模块工作流程(1)从用户库中查询用户发文记录(2)若人工操作数大于2,使用人工操作倾向性(正常/广告),公式
权利要求
1.一种互联网图片广告过滤系统,其特征在于所述广告过滤系统(使用图片发布广告的过滤系统)包括内容输入接口、特征分析模块、以及决策计算模块、信息库、指令输出接口 ;其中,内容输入接口用于接收来自于互联网互动产品的用户生成内容; 特征分析模块用于分析用户生成内容,提取用户生成内容的多种特征,并根据特征历史情况及人工操作记录计算特征值,生成特征向量; 信息库用于存储用户生成内容的各项特征数据;决策计算模块用于根据特征分析模块生成的特征向量综合判断是否对用户生成内容进行过滤;指令输出接口用于将决策计算模块判断的结果整理成显示/屏蔽操作指令,同步给互联网互动产品。
2.如权利要求1所述的广告过滤系统,其特征在于 所述内容输入接口包括数据输入接口,校验输入的用户生成内容数据的数据格式以及完整性;解析器,解析输入的用户生成内容数据,获得ID、标题、内容、用户ID、发布时间等信肩、ο
3.如权利要求1所述的广告过滤系统,其特征在于所述特征分析模块包括发帖间隔分析模块、URL提取器、URL分析模块、图片内容分析模块以及用户分析模块。
4.如权利要求3所述的广告过滤系统,其特征在于发帖间隔分析模块根据用户ID对比该用户上次发帖时间与本次时间,得到发帖时间间隔,并根据发帖时间间隔得到当前用户生成内容可能为广告的发帖间隔特征值。
5.如权利要求3所述的广告过滤系统,其特征在于 URL提取器从解析后的数据中识别出所有URL ;URL分析模块对每个URL进行次数统计,并根据出现次数最多的URL次数得到当前用户生成内容可能为广告的URL特征值。
6.如权利要求3所述的广告过滤系统,其特征在于所述图片内容分析模块从解析后的用户生成内容数据的图片中选取一个或多个特定点,计算图片校验值;对该图片校验值进行分析,得到与当前图片校验值相同的值出现过多少次就代表相同图片发布过多少次,并根据相同图片发布次数得到当前用户生成内容可能为广告的图片特征值。
7.如权利要求3所述的广告过滤系统,其特征在于所述用户分析模块从用户库中查询用户发文记录,根据用户发帖被删除和通过次数进行计算用户特征值。
8.如权利要求1所述的广告过滤系统,其特征在于 所述信息库具有用户库、图片特征库、URL库,其中用户库用于存储用户ID和上次发帖时间;图片特征库用于存储图片特征、图片出现次数以及广告过滤通过和删除次数;URL库用于存储URL内容、URL出现次数以及广告过滤通过和删除次数。
9.如权利要求1所述的用户生成内容过滤系统,其特征在于所述决策计算模块根据发帖间隔分析模块、URL分析模块、图片内容分析模块以及用户分析模块产生的特征值生成一个多维特征向量,并经由神经网络进行分类,确定输入的用户生成内容是否为广告帖。
10.一种互联网图片广告过滤方法,基于权利要求1-9之一的的广告过滤系统实现,其特征在于包括如下的步骤a.接收用户生成内容;b.对用户生成内容进行解析;c.分析用户生成内容,并提取用户生成内容的多种特征;d.根据多种特征分别得到用户内容可能为广告的多个特征值;e.根据多个特征值生成一个多维特征向量;f.利用多维特征向量对用户生产数据进行神经网络分类,确定输入的用户生成内容是否为广告帖;g.更新信息库;h.输出显示或屏蔽操作指令至互动产品。
11.如权利要求10所述的广告过滤方法,其特征在于 所述步骤C中提取用户生成内容的多种特征具体包括提取发帖间隔特征,用于根据用户ID对比该用户上次发帖时间与本次时间,得到发帖时间间隔特征;提取URL特征,用于分析与当前URL相同的URL出现过多少次并结合人工操作记录来获得URL特征;提取图片特征,用于分析与当前图片相同的图片出现过多少次并结合人工操作记录来获得图片特征;提取用户特征,根据用户发帖被删除和通过次数获得用户特征。
12.如权利要求10所述的广告过滤方法,其特征在于所述步骤d中得到用户内容可能为广告的多个特征值包括 发帖间隔特征值、URL特征值、图片特征值和用户特征值。
13.如权利要求10所述的广告过滤方法,其特征在于所述步骤f使用人工神经网络分类算法对步骤e生成的特征向量进行分类。
14.如权利要求10所述的广告过滤方法,其特征在于 所述步骤g中更新信息库包括更新URL库更新URL内容及其出现次数还有人工操作通过和删除次数; 更新用户库更新用户ID和上次发帖时间还有人工操作通过和删除次数; 更新图片特征库更新图片校验值、相同图片出现次数和广告过滤通过/删除次数还有人工操作通过和删除次数。
全文摘要
一种互联网图片广告过滤系统及其过滤方法,包括内容输入接口、特征分析模块、以及决策计算模块、信息库、指令输出接口;其中,内容输入接口用于接收来自于互联网互动产品的用户生成内容;特征分析模块用于分析用户生成内容,提取用户生成内容的多种特征,并根据特征历史情况及人工操作记录计算特征值,生成特征向量;信息库用于存储用户生成内容的各项特征数据;决策计算模块用于根据特征分析模块生成的特征向量综合判断是否对用户生成内容进行过滤;指令输出接口用于将决策计算模块判断的结果整理成显示/屏蔽操作指令,同步给互联网互动产品。
文档编号G06Q30/02GK102419777SQ201210004669
公开日2012年4月18日 申请日期2012年1月10日 优先权日2012年1月10日
发明者刘宇, 史金城, 吴华鹏, 曾明 申请人:凤凰在线(北京)信息技术有限公司