广告内容的识别方法和装置与流程

文档序号:11829930阅读:197来源:国知局
广告内容的识别方法和装置与流程

本发明涉及互联网技术领域,尤其涉及一种广告内容的识别方法和装置。



背景技术:

随着互联网信息的日益丰富,论坛和博客中发帖、看帖的流量越来越多,很多不法用户采取反复发布一些广告内容的方式企图赚取论坛和博客的流量,对论坛和博客等社区应用的用户体验构成极大威胁,严重影响正常用户的浏览和使用。

现在常用的广告内容的识别方式有以下几种:

1)通过机器学习算法,对之前的一些广告样本进行机器学习,然后对帖子进行打分,进一步识别出广告帖;

2)通过用户投诉举报,运营人员事后对帖子进行判定;

3)所有帖子都由运营人员人工审核通过之后才允许上线。

但是上述方式存在以下缺点:

1)通过机器学习算法进行识别,算法会比较复杂,而且需要大量已有的样本,当广告帖不断出现新的变种时,识别准确率会逐步降低,而且往往算法还来不及新一轮的学习,社区应用已经被广告帖所淹没,对应用体验造成极大影响;

2)用户投诉机制,则严重依赖用户自身的积极性,而用户往往很少不断地主动去投诉一些内容,从而会导致广告不能被及时清理,影响用户体验;

3)如果采用所有帖子必须人工审核之后,才能上线,则本身影响用户的发帖体验,同时也极大增加了运营成本。



技术实现要素:

本发明的目的旨在至少在一定程度上解决相关技术中的技术问题之一。

为此,本发明的第一个目的在于提出一种广告内容的识别方法。通过该方法,针对广告帖的特点,对广告帖进行自动识别,不需要反复复杂的样本学习,从而可以降低系统维护成本,并且可以有效解决机器算法或者依赖用户投诉等方法对广告帖变种泛滥处理的滞后性问题,较少需要人工干预审核,从而可以极大降低运营成本。

本发明的第二个目的在于提出一种广告内容的识别装置。

为了实现上述目的,本发明第一方面实施例的广告内容的识别方法,包括:对用户在社区应用中发布的帖子的标题和正文进行扫描;当扫描到关键信息时,判断所述关键信息是否在对应的关键信息黑名单集合中;如果否,则使用所述关键信息进行全局帖子搜索;当所述关键信息在全局帖子中出现的次数大于预定的阈值时,识别所述帖子为广告帖,并屏蔽所述广告帖。

本发明实施例的广告内容的识别方法,对用户在社区应用中发布的帖子中的关键信息进行扫描,并全局匹配识别出广告帖,可以有效解决机器算法或者依赖用户投诉等方法对广告帖变种泛滥处理的滞后性问题,并且简单实用,不需反复复杂的样本学习,从而可以降低维护成本,并且较少需要人工干预审核,从而可以极大降低运营成本。

为了实现上述目的,本发明第二方面实施例的广告内容的识别装置,包括:扫描模块,用于对用户在社区应用中发布的帖子的标题和正文进行扫描;判断模块,用于当所述扫描模块扫描到关键信息时,判断所述关键信息是否在对应的关键信息黑名单集合中;搜索模块,用于当所述判断模块确定所述关键信息不在对应的关键信息黑名单集合中时,使用所述关键信息进行全局帖子搜索;识别模块,用于当所述关键信息在全局帖子中出现的次数大于预定的阈值时,识别所述帖子为广告帖;屏蔽模块,用于屏蔽所述识别模块识别的广告帖。

本发明实施例的广告内容的识别装置,扫描模块对用户在社区应用中发布的帖子中的关键信息进行扫描,并全局匹配识别出广告帖,可以有效解决机器算法或者依赖用户投诉等方法对广告帖变种泛滥处理的滞后性问题,并且简单实用,不需反复复杂的样本学习,从而可以降低维护成本,并且较少需要人工干预审核,从而可以极大降低运营成本。

本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:

图1为本发明广告内容的识别方法一个实施例的流程图;

图2为本发明广告内容的识别方法另一个实施例的流程图;

图3为本发明广告内容的识别装置一个实施例的结构示意图;

图4为本发明广告内容的识别装置另一个实施例的结构示意图。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

图1为本发明广告内容的识别方法一个实施例的流程图,如图1所示,该广告内容的识别方法可以包括:

步骤101,对用户在社区应用中发布的帖子的标题和正文进行扫描。

具体地,对用户在社区应用中发布的帖子的标题和正文进行扫描可以为:对用户在社区应用中发布的帖子的标题和正文中的关键信息进行实时扫描,这里会对可能的关键信息的变种进行穷举适配。

步骤102,当扫描到关键信息时,判断上述关键信息是否在对应的关键信息黑名单集合中。

进一步地,判断上述关键信息是否在对应的关键信息黑名单集合中之后,如果上述关键信息在对应的关键信息黑名单集合中,则识别上述帖子为广告帖,并屏蔽上述广告帖。

步骤103,如果否,则使用上述关键信息进行全局帖子搜索。

步骤104,当上述关键信息在全局帖子中出现的次数大于预定的阈值时,识别上述帖子为广告帖,并屏蔽上述广告帖。

其中,上述预定的阈值可以根据系统性能和/或实现需求等自行设定,本实施例对上述预定的阈值的大小不作限定,举例来说,上述预定的阈值的大小可以为5。

本实施例步骤104中,当上述关键信息在全局帖子中出现的次数大于预定的阈值时,识别上述帖子为广告帖之后,还可以将上述广告帖中的关键信息添加至对应的关键信息黑名单集合中。

进一步地,步骤101之前,还可以监听发帖消息,上述发帖消息是在用户在社区应用中发布帖子之后发送的;在接收到上述发帖消息之后,执行上述对用户在社区应用中发布的帖子的标题和正文进行扫描的步骤。

本实施例中,上述关键信息可以为号码和/或统一资源定位符(Uniform Resource Locator;以下简称:URL)。其中,上述号码可以为电话号码,也可以为QQ号码等即时通信应用的号码,本实施例对此不作限定。

上述广告内容的识别方法,对用户在社区应用中发布的帖子中的关键信息进行扫描,并全局匹配识别出广告帖,可以有效解决机器算法或者依赖用户投诉等方法对广告帖变种泛滥处理的滞后性问题,并且简单实用,不需反复复杂的样本学习,从而可以降低维护成本,并且较少需要人工干预审核,从而可以极大降低运营成本。

一般来说,广告帖大多包含以下两个关键特征:

1、广告内容无论如何变化,绝大部分场景会包含以下关键信息:电话号码、qq等即时通信应用的号码和/或URL,来为自己的广告直接引流;

2、由于是广告,上述关键信息通常会反复出现,否则广告帖很容易被淹没,也达不到广告帖发布者的预期。

本发明提供的广告内容的识别方法,就是根据广告帖的上述两个关键特征,对广告帖进行识别。

图2为本发明广告内容的识别方法另一个实施例的流程图,如图2所示,该广告内容的识别方法可以包括:

步骤201,监听发帖消息。

本实施例中,当用户在社区应用发布帖子之后,系统会自动发送一个异步消息,即发帖消息;后台有个任务(task)应用负责监听这个发帖消息,当task应用接收到发帖消息之后,执行步骤202。

步骤202,对用户在社区应用中发布的帖子的标题和正文进行扫描。

具体地,对用户在社区应用中发布的帖子的标题和正文进行扫描可以为:对用户在社区应用中发布的帖子的标题和正文中的关键信息进行实时扫描,这里会对可能的关键信息的变种进行穷举适配。

上述关键信息可以为号码和/或URL。其中,上述号码可以为电话号码,也可以为QQ号码等即时通信应用的号码,本实施例对此不作限定。

步骤203,当扫描到关键信息时,判断上述关键信息是否在对应的关键信息黑名单集合中。

如果是,则执行步骤204;如果上述关键信息不在对应的关键信息黑名单集合中,则执行步骤205。

具体地,如果扫描到号码,则判断扫描到的号码是否在对应的号码黑名单集合中;如果扫描到URL,则判断扫描到的URL是否在对应的URL黑名单集合中。

步骤204,识别上述帖子为广告帖,并屏蔽上述广告帖。本次流程结束。

步骤205,使用当前扫描到的关键信息进行全局帖子搜索。

步骤206,判断上述关键信息在全局帖子中出现的次数是否大于预定的阈值。如果是,则执行步骤207;如果上述关键信息在全局帖子中出现的次数小于或等于预定的阈值,则执行步骤209。

其中,上述预定的阈值可以根据系统性能和/或实现需求等自行设定,本实施例对上述预定的阈值的大小不作限定,举例来说,上述预定的阈值的大小可以为5。

步骤207,识别上述帖子为广告帖,并屏蔽上述广告帖。

步骤208,将上述广告帖中的关键信息添加至对应的关键信息黑名单集合中。本次流程结束。

具体地,如果上述关键信息为号码,则将该关键信息添加至号码黑名单集合中;如果上述关键信息为URL,则将该关键信息添加至URL黑名单集合中。

步骤209,对帖子不做任何处理。本次流程结束。

上述广告内容的识别方法,简单实用,不需要反复复杂的样本学习,降低了系统维护成本;通过实时扫描帖子中的关键信息并全局匹配识别出广告帖,有效解决了一般机器算法或者依赖用户投诉等方法对广告帖变种泛滥处理的滞后性问题;并且,无论广告内容如何变种,只要关键信息(例如:号码和/或URL)不发生变化,都能被及时识别出来;本实施例中,用于识别的关键信息黑名单集合,会依据系统自动识别的情况自动扩充,有效解决同一类型广告帖的再次入侵;上述方法较少需要人工干预审核,极大降低了运营成本。

图3为本发明广告内容的识别装置一个实施例的结构示意图,本实施例中的广告内容的识别装置可以实现本发明图1所示实施例的流程,如图3所示,该广告内容的识别装置可以包括:扫描模块31、判断模块32、搜索模块33、识别模块34和屏蔽模块35;

其中,扫描模块31,用于对用户在社区应用中发布的帖子的标题和正文进行扫描;具体地,扫描模块31对用户在社区应用中发布的帖子的标题和正文进行扫描可以为:扫描模块31对用户在社区应用中发布的帖子的标题和正文中的关键信息进行实时扫描,这里会对可能的关键信息的变种进行穷举适配。

判断模块32,用于当扫描模块31扫描到关键信息时,判断上述关键信息是否在对应的关键信息黑名单集合中。

搜索模块33,用于当判断模块32确定上述关键信息不在对应的关键信息黑名单集合中时,使用上述关键信息进行全局帖子搜索。

识别模块34,用于当上述关键信息在全局帖子中出现的次数大于预定的阈值时,识别上述帖子为广告帖。其中,上述预定的阈值可以根据系统性能和/或实现需求等自行设定,本实施例对上述预定的阈值的大小不作限定,举例来说,上述预定的阈值的大小可以为5。

屏蔽模块35,用于屏蔽识别模块34识别的广告帖。

进一步地,识别模块34,还用于当判断模块32确定上述关键信息在对应的关键信息黑名单集合中时,识别上述帖子为广告帖。

上述广告内容的识别装置,扫描模块31对用户在社区应用中发布的帖子中的关键信息进行扫描,并全局匹配识别出广告帖,可以有效解决机器算法或者依赖用户投诉等方法对 广告帖变种泛滥处理的滞后性问题,并且简单实用,不需反复复杂的样本学习,从而可以降低维护成本,并且较少需要人工干预审核,从而可以极大降低运营成本。

图4为本发明广告内容的识别装置另一个实施例的结构示意图,与图3所示的广告内容的识别装置相比,不同之处在于,图4所示的广告内容的识别装置还可以包括:

添加模块36,用于在识别模块34识别上述帖子为广告帖之后,将上述广告帖中的关键信息添加至对应的关键信息黑名单集合中。

进一步地,上述广告内容的识别装置还可以包括:

监听模块37,用于在扫描模块31对用户在社区应用中发布的帖子的标题和正文进行扫描之前,监听发帖消息,上述发帖消息是在用户在社区应用中发布帖子之后发送的;这时,扫描模块31,具体用于在监听模块37接收到上述发帖消息之后,执行上述对用户在社区应用中发布的帖子的标题和正文进行扫描的步骤。

本实施例中,当用户在社区应用发布帖子之后,系统会自动发送一个异步消息,即发帖消息;监听模块37负责监听这个发帖消息,在监听模块37接收到发帖消息之后,扫描模块31执行上述对用户在社区应用中发布的帖子的标题和正文进行扫描的步骤。

本实施例中,扫描模块31扫描到的关键信息包括号码和/或URL。其中,上述号码可以为电话号码,也可以为QQ号码等即时通信应用的号码,本实施例对此不作限定。

上述广告内容的识别装置,简单实用,不需要反复复杂的样本学习,降低了系统维护成本;通过实时扫描帖子中的关键信息并全局匹配识别出广告帖,有效解决了一般机器算法或者依赖用户投诉等方法对广告帖变种泛滥处理的滞后性问题;并且,无论广告内容如何变种,只要关键信息(例如:号码和/或URL)不发生变化,都能被及时识别出来;本实施例中,用于识别的关键信息黑名单集合,会依据系统自动识别的情况自动扩充,有效解决同一类型广告帖的再次入侵;上述装置较少需要人工干预审核,极大降低了运营成本。

需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实 施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(Programmable Gate Array;以下简称:PGA),现场可编程门阵列(Field Programmable Gate Array;以下简称:FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。

此外,本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器,磁盘或光盘等。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1