一种垃圾信息识别方法及装置与流程

文档序号：12121450阅读：241来源：国知局

本发明实施例涉及互联网技术领域，尤其涉及一种垃圾信息识别方法及装置。

背景技术：

随着互联网的高速发展，发布诈骗信息以及虚假广告等垃圾信息的黑产行业也在快速的发展，用户在互联网上浏览信息时经常看到这些垃圾信息，为用户带来了极大的困扰，甚至已为诸多用户带来了大量的经济以及精神等其他方面的损失。

目前，部分网站为了消除垃圾信息采取了一定的过滤策略，然而，这些垃圾信息的存在形式以及发布形式多种多样且变化不断，而且从最初的小规模作案，到如今团队产业式的作案，一般的过滤策略难以及时识别出不断升级的垃圾信息，因此，亟需一种及时有效地识别出垃圾信息的方案。

技术实现要素：

本发明实施例的目的是提供一种垃圾信息识别方法及装置，以优化现有的垃圾信息识别方案。

一方面，本发明实施例提供了一种垃圾信息识别方法，包括：

获取当前用户的历史行为数据和业务数据；

获取与所述业务数据对应的垃圾信息识别策略；

根据所述垃圾信息识别策略和所述历史行为数据对所述当前用户的待发布信息进行识别。

另一方面，本发明实施例提供了一种垃圾信息识别装置，包括：

数据获取模块，用于获取当前用户的历史行为数据和业务数据；

识别策略获取模块，用于获取与所述业务数据对应的垃圾信息识别策略；

信息识别模块，用于根据所述垃圾信息识别策略和所述历史行为数据对所述当前用户的待发布信息进行识别。

本发明实施例中提供的垃圾信息识别方案，获取当前用户的历史行为数据和业务数据，根据与业务数据对应的垃圾信息识别策略和历史行为数据对当前用户的待发布信息进行识别。通过采用上述技术方案，可针对不同的业务数据确定不同的垃圾信息识别策略，使垃圾识别更具有针对性，同时结合用户的历史行为数据可增强垃圾信息识别的准确度。

附图说明

图1为本发明实施例一提供的一种垃圾信息识别方法的流程示意图；

图2为本发明实施例二提供的一种垃圾信息识别方法的流程示意图；

图3为本发明实施例三提供的一种垃圾信息识别方法的流程示意图；

图4为本发明实施例三提供的一种垃圾信息识别策略更新过程示意图；

图5为本发明实施例三提供的一种垃圾信息识别策略更新示意图；

图6为本发明实施例四提供的一种垃圾信息识别装置的结构框图；

图7为本发明实施例五提供的一种反垃圾系统的结构示意图。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理，但是其中的许多步骤可以被并行地、并发地或者同时实施。此外，各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

实施例一

图1为本发明实施例一提供的一种垃圾信息识别方法的流程示意图，该方法可以由垃圾信息识别装置执行，其中该装置可由软件和/或硬件实现，一般可集成在服务器等终端中以成为反垃圾（Anti-Spam）系统的核心部分。如图1所示，该方法包括：

步骤101、获取当前用户的历史行为数据和业务数据。

示例性的，可通过用户的身份标识（Identification，ID）或者网际协议（Internet Protocol，IP）地址来确认当前用户的身份，根据当前用户的身份获取与当前用户相关的历史行为数据。历史行为数据可包括用户的历史访问请求信息、历史访问时间、历史行为类型、历史发布信息的类别以及历史发布信息的内容等等。业务数据可包括与当前用户此时访问的站点对应的业务相关的数据，例如：用户在网站上的注册时间、目前正在操作的业务类型、操作提交的内容数据等。

可选的，在进行本步骤之前，用户通过网页或者应用程序客户端（Web/APP）访问到站点时，可首先经过一个owl/RPC层的过滤，其中，owl（Web Ontology Language）是W3C推荐的语义互联网中本体描述语言的标准，RPC（Remote Procedure Call Protocol，远程过程调用协议）是一种通过网络从远程计算机程序上请求服务而不需要了解底层网络技术的协议。在这一层中，将用户请求信息中的用户ID、用户超文本传输协议（HyperText Transfer Protocol，HTTP)请求头信息以及用户IP地址等信息做一个简单的规则过滤。比如一个小时内某个IP请求超过N次（N可根据实际情况进行设定），就直接拒绝服务，阻止当前用户发布消息。

步骤102、获取与业务数据对应的垃圾信息识别策略。

示例性的，对于不同的业务而言，垃圾信息的类型以及具体内容可能会存在差别，可根据实际业务特点对各业务中可能存在的垃圾信息进行分析，进而确定不同业务对应的垃圾信息识别策略，以实现有针对性的垃圾信息识别。在本步骤中，可根据业务数据从不同业务与垃圾信息识别策略的对应关系信息中获取当前的业务数据对应的垃圾信息识别策略，以用于后续的垃圾信息识别。

步骤103、根据垃圾信息识别策略和历史行为数据对当前用户的待发布信息进行识别。

示例性的，可将所获取的所有数据进行格式转换，以便于识别。例如，可将数据转换为如下标准格式：[userid,userip,action_time_stamp,action_type,accept_object_id,content，business_data,history_data],该格式中各元素代表的含义分别为：用户身份、用户IP、行为时间、行为类型、内容ID、内容、业务数据以及历史行为数据。

示例性的，根据所获取的垃圾信息识别策略和上述标准格式中的具体内容对当前用户的待发布信息进行识别。

本发明实施例一提供的垃圾信息识别方法，获取当前用户的历史行为数据和业务数据，根据与业务数据对应的垃圾信息识别策略和历史行为数据对当前用户的待发布信息进行识别。通过采用上述技术方案，可针对不同的业务数据确定不同的垃圾信息识别策略，使垃圾识别更具有针对性，同时结合用户的历史行为数据可增强垃圾信息识别的准确度。

在上述实施例的基础上，在根据垃圾信息识别策略和历史行为数据对所述当前用户的待发布信息进行识别之后，还可包括：若识别出待发布信息为垃圾信息，则对待发布信息进行删除处理，同时对当前用户进行封禁处理。示例性的，在识别出当前用户想要发布的信息为垃圾信息时，可及时地对该信息进行删除，防止垃圾信息对普通用户造成干扰，同时对当前用户进行封禁处理，防止该用户继续尝试发布垃圾信息。

进一步的，垃圾信息识别策略中还可包含对识别到的垃圾信息进行处理的处理策略，以便于针对不同类型的垃圾信息进行有针对性的处理。

实施例二

图2为本发明实施例二提供的一种垃圾信息识别方法的流程示意图，本实施例以上述实施例为基础进行优化，本实施例的方法包括如下步骤：

步骤201、获取当前用户的历史行为数据和业务数据。

步骤202、利用Python语言的eval函数解析并获取Sandbox中包含的与业务数据对应的垃圾信息识别策略。

由于垃圾信息的更新升级很快，为了满足反垃圾（Anti-Spam）系统的对抗性，需要及时对垃圾识别策略进行更新，在更新的过程中，为了使Anti-Spam系统不间断的工作，需要使策略能够快速上线且在上线时不需要重启相关服务。

优选的，在本步骤之前还可包括：对Sandbox中包含的垃圾信息识别策略进行更新。

Python语言是一种面向对象的解释型计算机程序设计语言，可利用Python语言的动态计算语句的特性（即利用Python语言的eval函数）来根据垃圾信息识别策略对用户发布的信息进行识别，所以需要eval函数获取到垃圾信息识别策略。本实施例中，可封装一个Sandbox（沙盒），将垃圾信息识别策略包装进去，将Sandbox提供为eval，使得eval在解析上述策略的时候，能够正确获取到策略设计者的语意。

步骤203、利用eval函数根据垃圾信息识别策略和历史行为数据对当前用户的待发布信息进行识别。

步骤204、若识别出待发布信息为垃圾信息，则对待发布信息进行删除处理，同时对当前用户进行封禁处理。

示例性的，在利用eval进行垃圾信息识别及处理时，可通过下面的语句来实现：

trigger：action==“QUESTION_CREATE”and len（same_text（user_same_actions（60），0.7））>=2

action：freeze_user，delete_all

本发明实施例二在上述实施例的基础上，创新性的利用的Python语言的动态特性，在新的垃圾识别策略上线时无需重启相关服务即可实时准确的识别出垃圾信息并进行相应的处理，可实时帮助用户屏蔽垃圾信息，提升用户体验。

实施例三

图3为本发明实施例三提供的一种垃圾信息识别方法的流程示意图，本实施例以上述实施例为基础进行优化，将对Sandbox中包含的垃圾信息识别策略进行更新的步骤进行了细化，本实施例的方法包括如下步骤：

步骤301、获取当前用户的历史行为数据和业务数据。

步骤302、接收策略代理推送的新的垃圾信息识别策略，并对Sandbox中包含的垃圾信息识别策略进行更新。

其中，所述新的垃圾信息识别策略由所述策略代理从策略管理后台或策略自动生成组件处获取。

示例性的，图4为本发明实施例三提供的一种垃圾信息识别策略更新过程示意图，如图4所示，当策略管理后台或者策略自动生成组件生成策略之后，就会请求策略代理，将策略数据更新到策略核心存储中，同时策略代理会将最新的策略数据推送到运行的垃圾信息识别装置里面去，即对Sandbox中包含的垃圾信息识别策略进行更新，垃圾信息识别装置每次都是读取的策略代理中的最新数据，所以此时策略也就是最新的了，当获取到最新的策略以后，就可以按照上面叙述的运行模式，将新的策略生效，此过程完全不需要重启垃圾信息识别装置及相关服务。

图5为本发明实施例三提供的一种垃圾信息识别策略更新示意图，图5中，左侧表示发布的垃圾信息，右侧表示的是垃圾信息识别策略的文字说明（在具体实施时该部分会被转换为代码形式以形成本实施例中所述的垃圾信息识别策略），可见，随着垃圾信息的不断升级，需要不停的更新垃圾信息识别策略。需要说明的是，图5中的部分文字内容涉及敏感信息，已做模糊处理，模糊处理的内容对图5所起到的示意作用不构成影响。

步骤303、利用Python语言的eval函数解析并获取Sandbox中包含的与业务数据对应的垃圾信息识别策略。

步骤304、利用eval函数根据垃圾信息识别策略和历史行为数据对当前用户的待发布信息进行识别。

步骤305、若识别出待发布信息为垃圾信息，则对待发布信息进行删除处理，同时对当前用户进行封禁处理。

本发明实施例在上述实施例的基础上，细化了对垃圾信息识别策略进行更新的步骤，通过策略代理来实现策略的转发，使运行中的垃圾信息识别装置能够及时获取新的策略。

实施例四

图6为本发明实施例四提供的一种垃圾信息识别装置的结构框图，如图6所示，该装置包括数据获取模块601、识别策略获取模块602和信息识别模块603。

其中，数据获取模块601，用于获取当前用户的历史行为数据和业务数据；识别策略获取模块602，用于获取与所述业务数据对应的垃圾信息识别策略；信息识别模块603，用于根据所述垃圾信息识别策略和所述历史行为数据对所述当前用户的待发布信息进行识别。

本发明实施例提供的垃圾信息识别装置，可针对不同的业务数据确定不同的垃圾信息识别策略，使垃圾识别更具有针对性，同时结合用户的历史行为数据可增强垃圾信息识别的准确度。

在上述实施例的基础上，所述识别策略获取模块具体用于：利用Python语言的eval函数解析并获取沙盒Sandbox中包含的与所述业务数据对应的垃圾信息识别策略；所述信息识别模块具体用于：利用eval函数根据所述垃圾信息识别策略和所述历史行为数据对所述当前用户的待发布信息进行识别。

在上述实施例的基础上，该装置还包括：更新模块，用于在获取与所述业务数据对应的垃圾信息识别策略之前，对Sandbox中包含的垃圾信息识别策略进行更新。

在上述实施例的基础上，所述更新模块具体用于：接收策略代理推送的新的垃圾信息识别策略，并对Sandbox中包含的垃圾信息识别策略进行更新，其中，所述新的垃圾信息识别策略由所述策略代理从策略管理后台或策略自动生成组件处获取。

在上述实施例的基础上，该装置还包括：处理模块，用于在根据所述垃圾信息识别策略和所述历史行为数据对所述当前用户的待发布信息进行识别之后，若识别出所述待发布信息为垃圾信息，则对所述待发布信息进行删除处理，同时对所述当前用户进行封禁处理。

实施例五

图7为本发明实施例五提供的一种反垃圾系统的结构示意图，该系统（Antispam）基于本发明实施例所提供的垃圾信息识别方案来实现。

如图7所示，该系统包括在线检测模块（owl/RPC）、节点（Sink）、离线检测模块（悟空wukong）和存储模块，其中悟空可理解为本发明实施例提供的垃圾信息识别装置。用户通过Web/APP访问到站点时，web或API（Application Programming Interface,应用程序编程接口）的数据会经过owl/RPC层进行过滤，随后数据经过Sink传输到离线检测模块，数据在离线检测模块中依次通过分析器（Parser）、分布式内存队列系统（Task Queue Beanstalk）及多个捕获模块（Hunter）后将接收到的数据转换为如下格式：[userid,userip,action_time_stamp,action_type,accept_object_id,content，business_data,history_data]，便于eval进行计算，对垃圾信息进行识别及相应处理。随后数据还会被进入存储模块（Storage），其中，存储模块中包含了Redis、Mysql和Tukomx文档数据库。

上述实施例中所述的策略代理可直接与本实施例中的离线检测模块进行通信，将新的垃圾信息识别策略发送至离线检测模块。

本发明实施例提供的反垃圾系统能够针对不同的业务数据确定不同的垃圾信息识别策略，使垃圾识别更具有针对性，同时结合用户的历史行为数据可增强垃圾信息识别的准确度。

上述实施例中提供的垃圾信息识别装置及反垃圾系统可执行本发明任意实施例所提供的垃圾信息识别方法，具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节，可参见本发明任意实施例所提供的垃圾信息识别方法。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄典典;
技术所有人：智者四海（北京）技术有限公司;
我是此专利的发明人

上一篇：一种IGBT模块散热器的制作方法与工艺
上一篇：一种数控机床几何误差建模方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。