一种广告过滤系统及其过滤方法

文档序号:6362730阅读:265来源:国知局
专利名称:一种广告过滤系统及其过滤方法
技术领域
本发明涉及一种广告过滤系统及其过滤方法,尤其涉及一种针对互联网互动产品的特点,对灌水及商业广告等信息进行准确过滤的过滤系统及其过滤方法,属于网络信息安全技术领域。
背景技术
现阶段,互联网上各大论坛、博客等都面临着广告帖的大量灌入,极度影响用户的互动体验。一般,论坛、博客都有提供给版主删除广告、违法信息的操作后台,但是人工不能保证及时的屏蔽广告。本发明正是嵌入在这样的操作后台,使用多种方法提取文本特征。这些方法可以看做弱分类器,根据Boosting思想,我们使用人工神经网络将多种识别方法自适应融合。本发明识别速度快、识别率高,支持无人工操作。目前,各个网站针对此情况一般都是采用如下的技术措施I.将发帖过多或间隔时间过短的帖子交予人工审查。这种方法可以对一部分广告做到过滤,但是面对过多用户同时发布多篇广告帖时,需要审查的帖子数量过多,管理员压力巨大,审查时间也会过长。2.网友举报发布广告帖的用户对于广告帖,网友可以进行举报,每人可举报一次,当举报数超过一定数量时,对被举报用户进行禁言措施。此种方法需要活跃用户自发参与,但若数量太大或马甲重复发帖,单凭网友力量很难解决。3.关键词过滤方式使用常见广告词汇作为关键词,包含关键词禁止发布。此种方法只能处理低级广告,若出现词变形或绕关键词,则无法识别。4.使用预先设定的过滤参数,过滤参数不能根据不断变化的广告帖自动变化,即使出现过多误判,也只能人工对参数更新,而不能自我学习,无法适应广告帖发展趋势。5.只是使用预订参数自动过滤,对人工操作没有给予考虑当一些经过过滤系统过滤认为并不存在问题的帖子,可能由于其他规则被人工操作删除后,由于不会学习人工操作,下次系统遇到相似的帖子仍然不会过滤。针对现有技术的种种不足,本发明嵌入到互动产品用户生成内容管理后台,根据内容及用户行为过滤广告帖内容。需要解决如下问题I.根据内容特点识别及过滤广告帖等不良内容;2.结合用户历史及内容历史提高识别准确度;3.分析每次人工操作,并在后续过滤中发挥作用;4.自动对比机器与人工操作结果,自动调整参数。

发明内容
本发明所要解决的技术问题在于提供一种广告过滤系统及其过滤方法,可以对广告帖等不良信息进行自动过滤。为实现上述的发明目的,本发明采用下述的技术方案
一种广告过滤系统,其特征在于所述广告过滤系统包括内容输入接口、特征分析模块、以及决策计算模块、数据记录模块、信息库、指令输出接口、人工操作输入接口和机器学习模块;其中,内容输入接口用于接收来自于互联网互动产品的用户生成内容;特征分析模块用于分析用户生成内容,提取用户生成内容的多种特征,并根据特征历史情况及人工操作记录计算特征值,生成特征向量;信息库用于存储用户生成内容的各项特征数据;决策计算模块用于根据特征分析模块生成的特征向量综合判断是否对用户生成内容进行过滤;数据记录模块用于将特征数据、分类数据以及人工操作记录写入信息库;指令输出接口用于将决策计算模块判断的结果整理成显示/屏蔽操作指令,同步给互联网互动产品;人工操作输入接口用于接收并解析人工修改过滤结果的操作;机器学习模块利用每次分析的结果以及人工操作记录进行学习,并根据学习更新决策计算模块。所述内容输入接口包括数据输入接口,校验输入的用户生成内容数据的数据格式以及完整性;解析器,解析输入的用户生成内容数据,获得ID、标题、内容、用户ID、发布时间等信息。所述特征分析模块包括分词器、相似度分析模块、文本内容分类模块、发帖间隔分析模块、联系方式分析模块、URL提取器、URL分析模块、图片内容分析模块以及用户分析模块。所述分词器使用汉语词法分析系统对用户生成内容中的文本内容进行分词;所述相似度分析模块对分词后的词进行分析,得到与当前内容相似的内容发布次数,并根据人工操作记录或相似发布次数得到当前用户生成内容可能为广告的相似度特征值。所述文本内容分类模块使用分词后的词在文本分类特征词集合进行映射得到词向量,使用支持向量机对词向量进行分类,得出的删除概率作为文本内容分类模块特征值。发帖间隔分析模块根据用户ID对比该用户上次发帖时间与本次时间,得到发帖时间间隔,并根据发帖时间间隔得到当前用户生成内容可能为广告的发帖间隔特征值;所述联系方式分析模块用于提取解析后的用户生成内容数据中可能存在的联系方式,并对该联系方式进行分析,得到与当前联系方式相同的联系方式发布过多少次,并根据人工操作记录或联系方式发布次数得到当前用户生成内容可能为广告的联系方式特征值。URL提取器从解析后的数据中识别出所有URL ;URL分析模块对每个URL进行次数统计,并根据人工操作记录或出现次数最多的 URL次数得到当前用户生成内容可能为广告的URL特征值。所述图片内容分析模块从解析后的用户生成内容数据的图片中选取一个或多个特定点,计算图片校验值;
对该图片校验值进行分析,得到与当前图片校验值相同的值出现过多少次就代表相同图片发布过多少次,并根据人工操作记录或相同图片发布次数得到当前用户生成内容可能为广告的图片特征值。所述用户分析模块从用户库中查询用户发文记录,根据用户发帖被删除和通过次数进行计算用户特征值。所述信息库具有联系方式库、用户库、图片特征库、URL库、文章库以及相似度倒排索引,其中联系方式库用于存储联系方式内容、联系方式种类、联系方式出现次数、以及广告过滤通过和删除次数;用户库用于存储用户ID和上次发帖时间;图片特征库用于存储图片特征、图片出现次数以及广告过滤通过和删除次数;URL库用于存储Url内容、URL出现次数以及广告过滤通过和删除次数;文章库用于存储文章ID和广告过滤通过和删除次数;相似度倒排索引用于快速匹配文本相似度。所述决策计算模块根据相似度分析模块、文本内容分类模块、发帖间隔分析模块、 联系方式分析模块、URL分析模块、图片内容分析模块以及用户分析模块产生的特征值生成一个多维特征向量,并经由神经网络进行分类,确定输入的用户生成内容是否为广告帖。所述机器学习模块通过对特征数据和分类数据的分析,使用反向传播算法对降噪后的数据进行机器学习,找到最优的决策神经网络,并对当前神经网络进行更新;所述机器学习模块还通过对词和分类数据的分析,使用X2统计选择文本分类特征词,并更新文本分类特征词库。一种广告过滤方法,基于上述广告过滤系统实现,其特征在于包括如下的步骤a.接收用户生成内容;b.对用户生成内容进行解析;c.分析用户生成内容,并提取用户生成内容的多种特征;d.根据多种特征分别得到用户内容可能为广告的多个特征值;e.根据多个特征值生成一个多维特征向量;f.利用多维特征向量对用户生产数据进行神经网络分类,确定输入的用户生成内容是否为广告帖;g.更新信息库;h.输出显示或屏蔽操作指令至互动产品;i.可接收人工操作结果,并提升之后的过滤效果;j.定时对每次分析和过滤的结果以及人工操作记录进行学习,并根据学习更新神经网络分类方法和更新文本分类特征词集合。所述步骤c中提取用户生成内容的多种特征具体包括提取相似度特征,用于分析与当前内容相似的内容发布次数并结合人工操作记录来获得相似度特征;提取文本分类特征,用于分析用户生成内容文字特点,使用支持向量机进行分类, 得出删除概率,从而获得文本分类特征;
提取发帖间隔特征,用于根据用户ID对比该用户上次发帖时间与本次时间,得到发帖时间间隔特征;提取联系方式特征,用于提取用户生成内容数据中可能存在的联系方式,并对该联系方式进行分析,得到与当前联系方式相同的联系方式发布过多少次并结合人工操作记录来获得联系方式特征;提取URL特征,用于分析与当前URL相同的URL出现过多少次并结合人工操作记录来获得URL特征;提取图片特征,用于分析与当前图片相同的图片出现过多少次并结合人工操作记录来获得图片特征;提取用户特征,根据用户发帖被删除和通过次数并结合人工操作记录来获得用户特征。所述步骤d中得到用户内容可能为广告的多个特征值包括相似度特征值、文本分类特征值、发帖间隔特征值、联系方式特征值、URL特征值、 图片特征值和用户特征值。所述步骤f使用人工神经网络分类算法对步骤e生成的特征向量进行分类。所述步骤g中更新信息库包括更新联系方式库、URL库、用户库、文章库、相似度倒排索引以及图片特征库,其中更新联系方式库更新联系方式内容、联系方式种类以及联系方式出现次数还有人工操作通过和删除次数;更新URL库更新URL内容及其出现次数还有人工操作通过和删除次数;更新用户库更新用户ID和上次发帖时间还有人工操作通过和删除次数;更新文章库更新文章ID和广告过滤通过/删除次数还有人工操作通过和删除次数;更新图片特征库更新图片校验值、相同图片出现次数和广告过滤通过/删除次数还有人工操作通过和删除次数;更新相似度倒排索引。所述步骤j中对每次分析和过滤的结果进行学习包括加载特征数据和分类数据,依据文本ID合并特征数据及分类数据,降噪后使用反向传播算法对降噪后的数据进行机器学习,并更新神经网络;加载词数据和分类数据,依据文本ID合并词数据及分类数据,使用X2统计选择文本分类特征词,并更新文本分类特征词库。利用本发明所提供的广告过滤系统及其过滤方法可以有效解决背景技术中提及的四个问题本发明提供的广告过滤系统及其过滤方法I.具有自主学习能力,能够根据每次的过滤结果每次分析和过滤的结果进行学习,并根据学习更新系统,与自动根据广告帖发展趋势做出适应性过滤策略调整。2.覆盖了内容过滤及多种行为过滤。相对于其他方法,识别更全面,召回率很有优势,漏删少。3.自动结合人工操作,将人工操作作为自动过滤过滤的重要考虑因素,并能够根据人工操作记录进行智能学习更新。4.使用神经网络对特征向量进行决策计算,全体特征值对决策均有贡献。相对其他技术,准确率很有优势,误删少。下面结合附图和具体实施方式
对本发明作进一步的详细说明。下面结合附图和具体实施方式
对本发明作进一步的详细说明。


图I为本发明所提供的广告过滤系统的整体结构示意图;图2为本发明所提供的广告过滤系统的计算流程图;图3为本发明所提供的广告过滤系统的神经网络学习流程图;图4为本发明所提供的广告过滤系统的文本分类特征学习流程图。图5为本发明所提供的广告过滤系统的决策计算模块的人工神经网络结构图;图6为本发明所提供的广告过滤系统的发帖间隔分析的高斯函数图。图7所示为广告图示例图。
具体实施例方式为了提高本发明对不良信息的过滤效果,发明人对大量互联网互动产品中的灌水、广告帖进行了分析,发现灌水或广告帖包括以下特点的一点或几点I.多次发布发布广告者希望更多的人看到广告,会在多个版块、重复发相同或相似内容。2.发布时间间隔短由于使用广告发布机之类的软件,发布时间间隔比用户正常发布时间间隔短。3.留有联系方式包括座机号、手机号、QQ号、电子邮件,网址。4.统一的文本特征广告帖内容与正常帖有较大的不同,会出现很多正常贴中很少出现的文字。5.发布广告帖的ID,不会发正常帖。6.很有可能用图片代替文字,但同一张图会重复发多次。本发明使用的技术有
I.文本相似度计算顾名思义,文本相似度为测量若干文本间的相似程度。一般需要使用到的有,停用词过滤、特征选择、加权、相似度测量方法。本发明中采用简化模式,要求匹配速度。故采用了倒排索引的方法来记录特征词。2.停用词即已被认定为没有必要收录的词。若使用这些词作为特征,对效果有负面影响。如? O不会一他的又3. ICTCLAS 分词中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统 ICTCLAS (Institute of Computing Technology, Chinese Lexical Analysis System),主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。4.人工神经网络分类器人工神经网络是由大量处理单元互联组成的非线性、自适应信息处理系统。它是在现代神经科学研究成果的基础上提出的,试图通过模拟大脑神经网络处理、记忆信息的方式进行信息处理。人工神经网络通过提供的训练样本、验证样本进行自学习,学习算法叫反向传播。神经网络是分类器的一种。是常见的特征自学习权重计算的方法。输入数据为特征分析模块提取出的由若干个
区间实数构成的特征向量。输出数据为两个实数,分别表示判定为正常帖或广告帖的数值。若正常帖数值大, 则判定为正常帖,否则为垃圾帖。如图5所示。5. X2统计特征选择若干文档中,存在设定好的分类C IC1, C2, C3. . . CJ,文档总数为N,t为待选择词, Ci为第i个分类。以A表示所有文档中七和Ci同时发生的次数;B表示所有文档中t发生和Ci不发生的次数;C表示所有文档中t不发生和Ci发生的次数;6. SVM 分类器SVM方法是通过一个非线性映射P,把样本空间映射到一个高维乃至无穷维的特征空间中(Hilbert空间),使得在原来的样本空间中非线性可分的问题转化为在特征空间中的线性可分的问题。SVM应用核函数的展开定理,就不需要知道非线性映射的显式表达式;由于是在高维特征空间中建立线性学习机,所以与线性模型相比,不但几乎不增加计算的复杂性,而且在某种程度上避免了 “维数灾难这一切要归功于核函数的展开和计算理论·选择不同的核函数,可以生成不同的SVM,常用的核函数有以下4种(I)线性核函数 K (X,y) = x · y ;(2)多项式核函数 K(x,y) = [ (x · y)+l]d ;(3)径向基函数 K(x, y) = exp (_ | χ-y |~2/(1~2)(4) 二层神经网络核函数 K (x, y) = tanh (a (x · y) +b).本发明使用LibSVM软件包实现。LIBSVM是台湾大学林智仁(Lin Chih-Jen)副教授等开发设计的一个简单、易于使用和快速有效的SVM模式识别与回归的软件包,他不但提供了编译好的可在Windows系列系统的执行文件,还提供了源代码,方便改进、修改以及在其它操作系统上应用;该软件对SVM所涉及的参数调节相对比较少,提供了很多的默认参数,利用这些默认参数可以解决很多问题。7.高斯函数(正态分布)由于函数图右半段适合于随时间衰减的状况,故在本发明中使用高斯函数计算发帖时间间隔的特征计算。高斯函数图如图6所示。如附图I所示,本发明所提供的广告过滤系统包括内容输入接口、特征分析模块、 以及决策计算模块、数据记录模块、信息库、指令输出接口、人工操作输入接口和机器学习模块;其中,
内容输入接口用于接收来自于互联网互动产品的用户生成内容;特征分析模块用于分析用户生成内容,提取用户生成内容的多种特征,并根据特征历史情况及人工操作记录计算特征值,生成特征向量;信息库用于存储用户生成内容的各项特征数据;决策计算模块用于根据特征分析模块生成的特征向量综合判断是否对用户生成内容进行过滤;数据记录模块用于将特征数据、分类数据以及人工操作记录写入信息库;指令输出接口用于将决策计算模块判断的结果整理成显示或屏蔽操作指令,同步给互联网互动产品;人工操作输入接口用于接收并解析人工修改过滤结果的操作。机器学习模块利用每次分析的结果以及人工操作记录进行学习,并根据学习更新决策计算模块。内容输入接口包括数据输入接口 对输入数据进行校验,数据格式、完整性。解析器解析数据,获得ID、标题、内容(包含链接、图片信息)、用户ID、发布时间。下面结合附图2,对本发明提供的广告过滤系统的计算流程进行详细说明特征分析模块包括:分词器、相似度分析模块、文本内容分类模块、发帖间隔分析模块、联系方式分析模块、URL提取器、URL分析模块、图片内容分析模块和用户分析模块。所述分词器使用汉语词法分析系统(ICTCLAS)对用户生成内容中的文本内容进行分词;分词器工作流程I.使用汉语词法分析系统(ICTCLAS)进行分词2.过滤所有词中的停用词3.提取出名词、动词、形容词、位置词4.提交至相似度分析、文本内容分类相似度分析模块对分词后的词进行分析,得到与当前内容相似的内容发布过多少次,并根据相似发布次数得到当前用户生成内容可能为广告的相似度特征值。相似度分析模块工作流程提取分词后词频最高的20个词,构成词向量;依次在相似度倒排索引中查询,得到文本集合;查看文本集合中词命中次数大于阈值的文本ID集合;依次对集合中文本取文本操作库数据,是否有人工操作记录若总人工操作文本数大于2,使用人工操作倾向性(正常/广告),公式
J7NtielVsimiur = Mpass+Mdei+1否则,使用相似内容发布次数判定是否有广告帖倾向,出现越多值越大,次数0-12 的值分别为{0,0,0· 2,0. 3,0. 4,0. 5,0. 6,0. 7,0. 7,0. 8,0. 8,0. 9,0. 9},12 以上为 O. 9。文本内容分类模块使用分词后的词在文本分类特征词集合中做映射,得到一个特8/16 页
征词向量。使用已训练完成的SVM(支持向量机)对特征词向量进行分类计算,得出当前用户生成内容为广告内容的概率,作为文本内容分类的特征值。文本内容分类模块工作流程使用词,对文本分类特征词集合(已预先学习)进行映射,得到一个特征词向量使用SVM(支持向量机)对特征词向量进行分类,得出当前用户生成内容为广告的概率(
区间的实数),作为文本内容分类的特征值。发帖间隔分析模块根据用户ID对比该用户上次发帖时间与本次时间,得到发帖时间间隔,并根据发帖时间间隔得到当前用户生成内容可能为广告的发帖间隔特征值;发帖间隔分析模块工作流程根据用户ID,在用户库中获得上次发帖时间;对比上次发帖时间与本次时间,得到发帖间隔;使用高斯函数计算时间间隔对应的特征值 V= e1#其中,t为发帖间隔,单位为秒;e为自然对数底;参数K 一般选324,可视需求提闻。所述联系方式分析模块用于提取解析后的用户生成内容数据中可能存在的联系方式,并对该联系方式进行分析,得到与当前联系方式相同的联系方式发布过多少次,并根据联系方式发布次数得到当前用户生成内容可能为广告的联系方式特征值。联系方式分析模块工作流程I.提取可能存在的联系方式联系方式可能包括QQ号、手机号、座机号,这些一般都是由数字组成的,考虑到阿拉伯数字有很多种变形,广告帖经常会发布变形的数字,如I可以变为一、壹、one、①, 需要对上述变形进行转换。a)手机号识别手机号有固定构成形式,故用正则表达式识别。b)按照变形词表,将文本内所有变形数字转为原始数字(如①-> I)c)去掉多余空格及符号d)使用正则表达式识别r\\d]ir\\d] {0,2} ([3|5] [~\\d] {0,2}
{1} 8[~\\d] {O, 2} O | 8 [~\\d] {0, 2} 5|8[~\\d] {0,2}6|8[~\\d] {0,2} 7 | 8 [~\\d] {0,2} 8 | 8 [~\\d] {0,2} 9) [~\\d] {0,2}(
r\\d] {0,2}) {7}
[~\\d]1)QQ号、座机号识别并不是所有连续数字就是联系方式,也有可能是身份证,中奖号等。所以,存在类别词表{ “Q”,“Q”},{ “企”,“鹅”},{ “电”,“话”},{ “致”,“电”} 等,用于标记数字串的类别,一般出现在连续6位以上(包括6位)数字串前。a)按照变形词表,将文本内所有变形数字转为原始数字(如①-> I)b)对于每个连续6位以上(包括6位)数字串,位置在检查数字串前的5位字符串是否顺序包含名称词表内容。(\\dr\\d]{0,2}){5,}\\d
13
c)若存在,则标记为联系方式。变形词表0,零,0,O,◎,&#48 ;1,一,壹,①,I,&#49 ;2,二,貳,②,11,&#50 ;3,三,叁,③,III,&#51 ;4,四,肆,④,IV,&#52 ;5,五,伍,⑤,V,&#53 ;6,六,陆,⑥,VI,&#54 ;7,七,柒,⑦,VII,&#55 ;8,八,捌,⑧,VIII,&#56 ;9,九,玖,⑨,IX,&#57 ;类别词表{" Q"," Q" },{"腾","讯"},{" Q"," " },{"订","购"}{"滕","讯"},{"滕","迅"},{"腾","迅"},{"手","机"},{" pho"," ne" },{"电","话"},{"移动","电话"},{"群"," 号"},{"座","机"},{"请","拨"},{"联系","方式"},{"扣"," 扣"},{"企","鹅"},{"交","流"},{"联","系"},{"热","线"},{"短","信"},{"专","线"}2.对于得到的联系方式,根据如下方式计算特征值循环对每个联系方式取联系方式库数据,做如下计算a)若人工操作数大于2,使用人工操作倾向性(正常/广告),公式
权利要求
1.一种广告过滤系统,其特征在于所述广告过滤系统包括内容输入接口、特征分析模块、以及决策计算模块、数据记录模块、信息库、指令输出接口、人工操作输入接口和机器学习模块;其中,内容输入接口用于接收来自于互联网互动产品的用户生成内容;特征分析模块用于分析用户生成内容,提取用户生成内容的多种特征,并根据特征历史情况及人工操作记录计算特征值,生成特征向量;信息库用于存储用户生成内容的各项特征数据;决策计算模块用于根据特征分析模块生成的特征向量综合判断是否对用户生成内容进行过滤;数据记录模块用于将特征数据、分类数据以及人工操作记录写入信息库;指令输出接口用于将决策计算模块判断的结果整理成显示/屏蔽操作指令,同步给互联网互动产品;人工操作输入接口用于接收并解析人工修改过滤结果的操作;机器学习模块利用每次分析的结果以及人工操作记录进行学习,并根据学习更新决策计算模块。
2.如权利要求I所述的广告过滤系统,其特征在于所述内容输入接口包括数据输入接口,校验输入的用户生成内容数据的数据格式以及完整性;解析器,解析输入的用户生成内容数据,获得ID、标题、内容、用户ID、发布时间等信肩、O
3.如权利要求I所述的广告过滤系统,其特征在于所述特征分析模块包括分词器、相似度分析模块、文本内容分类模块、发帖间隔分析模块、联系方式分析模块、URL提取器、URL分析模块、图片内容分析模块以及用户分析模块。
4.如权利要求3所述的广告过滤系统,其特征在于所述分词器使用汉语词法分析系统对用户生成内容中的文本内容进行分词;所述相似度分析模块对分词后的词进行分析,得到与当前内容相似的内容发布次数, 并根据人工操作记录或相似发布次数得到当前用户生成内容可能为广告的相似度特征值。
5.如权利要求3所述的广告过滤系统,其特征在于所述文本内容分类模块使用分词后的词在文本分类特征词集合进行映射得到词向量, 使用支持向量机对词向量进行分类,得出的删除概率作为文本内容分类模块特征值。
6.如权利要求3所述的广告过滤系统,其特征在于发帖间隔分析模块根据用户ID对比该用户上次发帖时间与本次时间,得到发帖时间间隔,并根据发帖时间间隔得到当前用户生成内容可能为广告的发帖间隔特征值;所述联系方式分析模块用于提取解析后的用户生成内容数据中可能存在的联系方式, 并对该联系方式进行分析,得到与当前联系方式相同的联系方式发布过多少次,并根据人工操作记录或联系方式发布次数得到当前用户生成内容可能为广告的联系方式特征值。
7.如权利要求3所述的广告过滤系统,其特征在于URL提取器从解析后的数据中识别出所有URL ;URL分析模块对每个URL进行次数统计,并根据人工操作记录或出现次数最多的URL次数得到当前用户生成内容可能为广告的URL特征值。
8.如权利要求3所述的广告过滤系统,其特征在于所述图片内容分析模块从解析后的用户生成内容数据的图片中选取一个或多个特定点,计算图片校验值;对该图片校验值进行分析,得到与当前图片校验值相同的值出现过多少次就代表相同图片发布过多少次,并根据人工操作记录或相同图片发布次数得到当前用户生成内容可能为广告的图片特征值。
9.如权利要求3所述的广告过滤系统,其特征在于所述用户分析模块从用户库中查询用户发文记录,根据用户发帖被删除和通过次数进行计算用户特征值。
10.如权利要求I所述的广告过滤系统,其特征在于所述信息库具有联系方式库、用户库、图片特征库、URL库、文章库以及相似度倒排索引,其中联系方式库用于存储联系方式内容、联系方式种类、联系方式出现次数、以及广告过滤通过和删除次数;用户库用于存储用户ID和上次发帖时间;图片特征库用于存储图片特征、图片出现次数以及广告过滤通过和删除次数;URL库用于存储URL内容、URL出现次数以及广告过滤通过和删除次数;文章库用于存储文章ID和广告过滤通过和删除次数;相似度倒排索引用于快速匹配文本相似度。
11.如权利要求I所述的用户生成内容过滤系统,其特征在于所述决策计算模块根据相似度分析模块、文本内容分类模块、发帖间隔分析模块、联系方式分析模块、URL分析模块、图片内容分析模块以及用户分析模块产生的特征值生成一个多维特征向量,并经由神经网络进行分类,确定输入的用户生成内容是否为广告帖。
12.如权利要求I所述的用户生成内容过滤系统,其特征在于所述机器学习模块通过对特征数据和分类数据的分析,使用反向传播算法对降噪后的数据进行机器学习,找到最优的决策神经网络,并对当前神经网络进行更新;所述机器学习模块还通过对词和分类数据的分析,使用X2统计选择文本分类特征词, 并更新文本分类特征词库。
13.—种广告过滤方法,基于权利要求1-12之一的的广告过滤系统实现,其特征在于包括如下的步骤a.接收用户生成内容;b.对用户生成内容进行解析;c.分析用户生成内容,并提取用户生成内容的多种特征;d.根据多种特征分别得到用户内容可能为广告的多个特征值;e.根据多个特征值生成一个多维特征向量;f.利用多维特征向量对用户生产数据进行神经网络分类,确定输入的用户生成内容是否为广告帖;g.更新信息库;h.输出显示或屏蔽操作指令至互动产品;i.可接收人工操作结果,并提升之后的过滤效果;j.定时对每次分析和过滤的结果以及人工操作记录进行学习,并根据学习更新神经网络分类方法和更新文本分类特征词集合。
14.如权利要求13所述的广告过滤方法,其特征在于所述步骤c中提取用户生成内容的多种特征具体包括提取相似度特征,用于分析与当前内容相似的内容发布次数并结合人工操作记录来获得相似度特征;提取文本分类特征,用于分析用户生成内容文字特点,使用支持向量机进行分类,得出删除概率,从而获得文本分类特征;提取发帖间隔特征,用于根据用户ID对比该用户上次发帖时间与本次时间,得到发帖时间间隔特征;提取联系方式特征,用于提取用户生成内容数据中可能存在的联系方式,并对该联系方式进行分析,得到与当前联系方式相同的联系方式发布过多少次并结合人工操作记录来获得联系方式特征;提取URL特征,用于分析与当前URL相同的URL出现过多少次并结合人工操作记录来获得URL特征;提取图片特征,用于分析与当前图片相同的图片出现过多少次并结合人工操作记录来获得图片特征;提取用户特征,根据用户发帖被删除和通过次数并结合人工操作记录来获得用户特征。
15.如权利要求13所述的广告过滤方法,其特征在于所述步骤d中得到用户内容可能为广告的多个特征值包括相似度特征值、文本分类特征值、发帖间隔特征值、联系方式特征值、URL特征值、图片特征值和用户特征值。
16.如权利要求13所述的广告过滤方法,其特征在于所述步骤f使用人工神经网络分类算法对步骤e生成的特征向量进行分类。
17.如权利要求13所述的广告过滤方法,其特征在于所述步骤g中更新信息库包括更新联系方式库、URL库、用户库、文章库、相似度倒排索引、以及图片特征库,其中更新联系方式库更新联系方式内容、联系方式种类以及联系方式出现次数还有人工操作通过和删除次数;更新URL库更新URL内容及其出现次数还有人工操作通过和删除次数;更新用户库更新用户ID和上次发帖时间还有人工操作通过和删除次数;更新文章库更新文章ID和广告过滤通过/删除次数还有人工操作通过和删除次数; 更新图片特征库更新图片校验值、相同图片出现次数和广告过滤通过/删除次数还有人工操作通过和删除次数;更新相似度倒排索引。
18.如权利要求13所述的广告过滤方法,其特征在于所述步骤j中对每次分析和过滤的结果进行学习包括加载特征数据和分类数据,依据文本ID合并特征数据及分类数据,降噪后使用反向传播算法对降噪后的数据进行机器学习,并更新神经网络;加载词数据和分类数据,依据文本ID合并词数据及分类数据,使用X2统计选择文本分类特征词,并更新文本分类特征词库。
全文摘要
一种广告过滤系统,包括内容输入接口、特征分析模块、以及决策计算模块、数据记录模块、信息库、指令输出接口、人工操作输入接口和机器学习模块;其中,内容输入接口用于接收来自于互联网互动产品的用户生成内容;特征分析模块用于分析用户生成内容,提取用户生成内容的多种特征,并根据特征历史情况及人工操作记录计算特征值,生成特征向量;信息库用于存储用户生成内容的各项特征数据;决策计算模块用于根据特征分析模块生成的特征向量综合判断是否对用户生成内容进行过滤;数据记录模块用于将特征数据、分类数据以及人工操作记录写入信息库;指令输出接口用于将决策计算模块判断的结果整理成显示/屏蔽操作指令,同步给互联网互动产品;人工操作输入接口用于接收并解析人工修改过滤结果的操作;机器学习模块利用每次分析的结果以及人工操作记录进行学习,并根据学习更新决策计算模块。
文档编号G06F17/30GK102591983SQ20121000466
公开日2012年7月18日 申请日期2012年1月10日 优先权日2012年1月10日
发明者刘宇, 吴华鹏, 曾明 申请人:凤凰在线(北京)信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1