一种引流信息识别方法和装置与流程

文档序号:18475513发布日期:2019-08-20 20:59阅读:170来源:国知局
一种引流信息识别方法和装置与流程

本发明涉及互联网技术领域,尤其涉及一种引流信息识别方法和装置。



背景技术:

随着互联网技术的不断发展,网络信息越来越多。然而,也会有越来越多的不健康信息进入互联网进行传播。目前,为了滤除这些不健康信息,通常是采用人工收集关键词的方式,然后再通过信息管理系统用这些收集的关键词去检索匹配到的文本信息,之后再通过人工审核方式判断是否为不健康信息,如果是不健康的信息内容,则进行删除处理。

然而,这种人工搜集和人工审核的方式,成本太高,尤其在网络信息量过大的情况下,成本过高,且人工处理的方式容易产生误判,导致有些非不健康信息也被删除了。

针对上述问题,目前尚未提出有效的解决方案。



技术实现要素:

本发明实施例提供一种引流信息识别方法和装置,以达到简单高效准确识别引流信息的目的。

一方面,本发明实施例提供了一种引流信息识别方法,所述方法包括:

获取目标ip地址下,在预定时长内多个登录账号所使用的登录设备的类型信息;

在所述类型信息满足预设条件的情况下,获取所述多个登录账号发布的携带有网址链接的内容文本信息,其中,所述内容文本信息中携带有第三方网站链接;

通过自然语言处理,对所述多个登录账号发布的内容文本信息进行主题识别,根据主题识别结果确定所述多个登录账号发布的内容文本信息是否为引流信息。

另一方面,本发明实施例提供了一种引流信息识别装置,包括:

第一获取模块,用于获取目标ip地址下,在预定时长内多个登录账号所使用的登录设备的类型信息;

第二获取模块,用于在所述类型信息满足预设条件的情况下,获取所述多个登录账号发布的携带有网址链接的内容文本信息;

识别模块,用于通过自然语言处理,对所述多个登录账号发布的内容文本信息进行主题识别,根据主题识别结果确定所述多个登录账号发布的内容文本信息是否为引流信息。

上述技术方案具有如下有益效果:通过获取目标ip地址下,在预定时长内多个登录账号所使用的登录设备的类型信息,确定类型信息是否满足条件,如果满足那么就获取多个登录账号发布的携带有网站链接的内容文本信息,然后,通过自然语言处理,对多个登录账号发布的内容文本信息进行主题识别,以确定多个登录账号发布的内容文本信息是否为引流信息,即通过设备类型和自然语言处理方法联合的方式,确定出是否为引流信息,从而解决现有的基于人工审核的方式确定引流信息所存在的效率和准确率较低的问题,达到了简单准确确定引流信息的技术效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例一种引流信息识别方法的方法流程图;

图2为本发明实施例一种引流信息识别方法的逻辑流程示意图;

图3为本发明实施例一种引流信息识别装置的结构示意图;

图4为本发明实施例一种识别模块的结构示意图;

图5为本发明实施例一种第一获取模块的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

考虑到随着互联网的快速发展,在网上平台(例如:微博等),用户每天在平台上生产的信息量是爆炸式、海量的数据,如果通过人工方式去搜集关键词、人工审核的方式去处理不健康信息,那么成本太高。且现在不健康信息的产生者,一般会对不健康信息的引流信息进行变形处理,在信息中加入很多的文本信息进行干扰,这也给人工搜索增加了难度,且人工处理会存在天然的误判情况,如果直接就对这些信息进行删除处理,往往会造成用户投诉。

目前,不健康信息的发布,一般采用图片+内容文本的方式,图片识别的方式已经比较成熟,然后基于内容文本的引流信息则相对比较难识别。

针对以上问题,在本例中,提供了一种引流信息识别方法,如图1所示,可以包括如下步骤:

步骤101:获取目标ip地址下,在预定时长内多个登录账号所使用的登录设备的类型信息;

例如:可以采用聚类分析的方式,获取一定时间内特定单个ip下,所有登录账号使用的登录设备的类型信息。

步骤102:在所述类型信息满足预设条件的情况下,获取所述多个登录账号发布的携带有网址链接的内容文本信息;

即,可以设置一个预设条件,再进行判断。例如:如果一定时间内特定单个ip下,所有登录账号使用的登录设备的类型信息集中在一个或者有限几个型号(例如:单个ip下,1分钟内登录成功了超过20个微博帐号,在这些所有登录成功的帐号,所有的帐号使用的登录设备型号不超过5个或者五类设备,或者是,其中90%的帐号是登录是一个或者一类登录设备),那么可以判断类型信息满足预设条件。

因为要实现引流的判断,因此需要搜集和判断的消息需要是携带有网址链接的,在实现的时候,该网址链接可以是第三方网址链接,也可以是内部网址链接等等,可以对携带有网址链接的内容文本信息都作为判断对象进行识别,从而避免遗漏。

步骤103:通过自然语言处理,对所述多个登录账号发布的内容文本信息进行主题识别,根据主题识别结果确定所述多个登录账号发布的内容文本信息是否为引流信息。

为了确定发布的内容文本信息是否为引流信息,可以通过nlp(naturallanguageprocessing,自然语言处理)方法,对上述这些登录信息发布的信息的文本内容进行主题分析,例如,可以将文本中的第一个名词作为主题词汇,语句中其它名词作为内容词汇。然后,确定这些标记账号发布的信息的文本内容中主题词与内容词汇之间的语义距离,如果主题词与内容词汇之间的语义距离超出预设主题距离的比例大于预定阈值,则认为账户发布了携带有大量干扰信息的引流信息,也可以采用采用适当的处理。例如:如果90%以上内容词汇与主题词汇之间的语义距离大于6,那么可以认为该账户发布了带有大量干扰信息的不健康引流信息,则对满足上述条件的信息内容进行仅自己可见的处理。

在上例中,通过获取目标ip地址下,在预定时长内多个登录账号所使用的登录设备的类型信息,确定类型信息是否满足条件,如果满足那么就获取多个登录账号发布的携带有第三方网站链接的内容文本信息,然后,通过自然语言处理,对多个登录账号发布的内容文本信息进行主题识别,以确定多个登录账号发布的内容文本信息是否为引流信息,即通过设备类型和自然语言处理方法联合的方式,确定出是否为引流信息,从而解决现有的基于人工审核的方式确定引流信息所存在的效率和准确率较低的问题,达到了简单准确确定引流信息的技术效果。

在实现的过程中,可以通过确定内容文本信息中的主要主题词汇(例如,文本内容中第一个名词)和内容文本信息中的次要主题词汇(例如:文本内容中除第一个名词之外的名词)之间的语义距离,来确定内容文本信息是否为引流信息,即,根据语义距离确定内容文本信息是否是携带有大量干扰信息的引流信息。具体的,通过自然语言处理,对所述多个登录账号发布的内容文本信息进行主题识别,以确定所述多个登录账号发布的内容文本信息是否为引流信息,可以包括:

s1:获取所述多个登录账号发布的内容文本信息中主要主题词汇和多个次要主题词汇;

s2:分别计算所述主要主题词汇与每一个次要主题词汇之间的语义距离;

s3:在所述主要主题词汇与每一个次要主题词汇之间的语义距离都大于预设距离的情况下,确定所述多个登录账号发布的内容文本信息为引流信息。

例如:如果90%以上内容词汇与主题词汇之间的语义距离大于6,那么可以认为该账户发布了带有大量干扰信息的引流信息,则对满足上述条件的信息内容进行仅自己可见的处理。

考虑到如果在确定是引流信息的情况下,直接进行删除处理,那么往往会导致误删,从而引起用户投诉。为了解决该问题,在通过自然语言处理,对所述多个登录账号发布的内容文本信息进行主题识别,在确定所述多个登录账号发布的内容文本信息是否为引流信息之后,将所述多个登录账号发布的内容文本信息设置为仅发布者可见。即,在确定发布的是引流信息的情况下,不进行删除处理,而是设置为仅发布者可见,这样可以避免误删导致的用户投诉。

具体的,在上述步骤101获取目标ip地址下,在预定时长内多个登录账号所使用的登录设备的类型信息,可以包括:获取目标ip地址下,在预定时长内多个登录账号所使用的登录设备的用户代理信息;从所述用户代理信息中提取出各个登录账号所使用的登录设备的设备型号;以及,所述类型信息满足预设条件的判定方法,可以包括:判断各个登录账号所使用的登录设备的设备型号属于同一设备型号的比例是否达到预设阈值;在达到预设阈值的情况下,判定所述类型信息满足预设条件。例如:可以通过useragent(用户代理,简称为ua)信息统计计算出这50个账号,使用的登录设备型号(useragent信息)为4类,且47个账号对应的useragent信息为同一个或同一类,其中,ua是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、cpu类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。

为了可以知道需要对哪些账户进行检测,可以为需要检测的账户设置标记,从而可以简单高效确定出疑似发布引流信息的账户。具体的,在所述类型信息满足预设条件的情况下,获取所述多个登录账号发布的内容文本信息,可以包括:在所述类型信息满足所述预设条件的情况下,为所述多个登录账号设置标记,其中,所述标记用于表征所述多个登录账号中各个登录账号为疑似引流账号;对被标记的登录账号在所述预设时长内发布的内容文本信息进行聚合,以得到所述多个登录账号发布的内容文本信息。

下面结合一个具体实施例对上述方法进行说明,然而,值得注意的是,该具体实施例仅是为了更好地说明本申请,并不构成对本申请的不当限定。

考虑到目前网站信息安全的一个主要方面就是内容安全,而内容安全面临最大的威胁是及时识别和处理网站上的不健康信息(例如:色情引流信息等)。因为不健康信息的出现,会影响用户使用产品的体验,且不健康信息在平台上大量发布,会消耗网站服务器等运行资源。采用人工审核发现的方式,往往都是单一的内容维度,容易导致误删。

在本例中,提出了一种基于账号登录设备和文本内容识别两种因素结合的清理方式,运用聚类分析的方法,如图2所示,当一定时间内特定单个ip下,所有登录账号使用的登录设备集中在一个或者有限几个型号(例如:单个ip下,1分钟内登录成功了超过20个微博帐号,在这些所有登录成功的帐号,所有的帐号使用的登录设备型号不超过5个或者五类设备,其中90%的帐号是登录是一个或者一类登录设备)那么可以将这批账号进行标记(例如标记为a),例如:将已登录成功的帐号,设置一个特殊标记,该标记用于表征为疑似不健康信息引流。

进一步的,可以通过nlp方法,对设置“疑似不健康信息引流”的标记账号发布的信息的文本内容进行主题分析,例如,可以将文本中的第一个名词作为主题词汇,语句中其它名词作为内容词汇。

然后,确定这些标记账号发布的信息的文本内容中主题词与内容词汇之间的语义距离,如果主题词与内容词汇之间的语义距离超出预设主题距离的比例大于预定阈值,则认为账户发布了携带有大量干扰信息的引流信息,也可以采用采用适当的处理。例如:如果90%以上内容词汇与主题词汇之间的语义距离大于6,那么可以认为该账户发布了带有大量干扰信息的不健康引流信息,则对满足上述条件的信息内容进行仅自己可见的处理。

其中,语义距离可以理解为:两个词汇代表描述事物的相似性或者是符合人们互联网常用语句经常组合使用的频率大小,语义距离的取值可以为1~10。例如,可以收集互联网上常用语库,一共包含有m段语料。对于任一词汇a,统计其在m段语料中,也同时出现词汇b有n段。

n/m<=10%,语义距离为1;

10%<n/m<=20%,语义距离为2;

20%<n/m<=30%,语义距离为3;

90%<n/m<=100%,语义距离为10。

下面结合一个具体实例进行说明,在本例中以微博平台为例,实际也可以适用于其他平台,本申请对此不作限定:

假设目标对象使用的ip为“4.4.4.1”,且在设备进行登录,如果目标对象在“4.4.4.1”在2小时内登录了50个帐号,发布了100条带有第三方网站链接的微博信息。

例如:通过useragent(用户代理,简称为ua)信息统计计算出这50个账号,使用的登录设备型号(useragent信息)为4类,且47个账号对应的useragent信息为同一个或同一类,其中,ua是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、cpu类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。

那么,系统可以提取在ip“4.4.4.1”登录的50个账号2小时内发布的信息,然后对这些信息运用nlp(naturallanguageprocessing,自然语言处理)方法进行主题分析,以分析计算语义距离。

例如:发现在100条微博信息中,90条微博信息对应的主要主题为“a”,次要主题为“b”“c”“d”,a与b\c\d的语义距离均为7,则确定这100条微博信息为不健康引流信息,则对信息进行处理:发布的微博信息仅发布者自己可见。

在上例中,考虑到保障网站上没有不健康引流信息的传播是互联网安全的一个重要环节,如果网站上存在大量相关信息没有及时发现和处置,那么就会存在很大的网络安全隐患。如果用户点击引流信息,有时还会导致财产损失,或者是遇到诈骗行为等。如果对这些信息进行简单的关键词过滤人工审核,会导致企业的成本严重上升,同时处理时效无法保证,严重损害用户使用产品的体验。通过本例的方案,可以一定程度上发现发布引流信息的行为,且叠加多种判断因素进行判断,可以实现高效的检测处理。具体的,利用机器学习的方法,从内容和设备,两个维度,解决了对网络中不健康信息的识别的问题,可以解决现有的人工审核所存在的效率低下、成本过高和容易误删的问题,保证了网站信息的安全可靠。且在对确定出的不健康信息的处理方面,是采用仅对发布者可见的处理方式,可以避免误删造成的问题,有效提升了用户体验。

基于同一发明构思,本发明实施例中还提供了一种引流信息识别装置,如下面的实施例所述。由于引流信息识别装置解决问题的原理与引流信息识别方法相似,因此引流信息识别装置的实施可以参见引流信息识别方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。图3是本发明实施例的引流信息识别装置的一种结构框图,如图3所示,可以包括:第一获取模块301、第二获取模块302和识别模块303,下面对该结构进行说明。

第一获取模块301,用于获取目标ip地址下,在预定时长内多个登录账号所使用的登录设备的类型信息;

第二获取模块302,用于在所述类型信息满足预设条件的情况下,获取所述多个登录账号发布的携带有网址链接的内容文本信息;

识别模块303,用于通过自然语言处理,对所述多个登录账号发布的内容文本信息进行主题识别,根据主题识别结果确定所述多个登录账号发布的内容文本信息是否为引流信息。

在一个实施方式中,如图4所示,识别模块303可以包括:第一获取单元401,用于获取所述多个登录账号发布的内容文本信息的主要主题词汇和多个次要主题词汇;计算单元402,用于分别计算所述主要主题词汇与每一个次要主题词汇之间的语义距离;第一确定单元403,用于在所述主要主题词汇与每一个次要主题词汇之间的语义距离都大于预设距离的情况下,确定所述多个登录账号发布的内容文本信息为引流信息。

在一个实施方式中,上述引流信息识别装置还可以包括:设置模块,用于在通过自然语言处理,对所述多个登录账号发布的内容文本信息进行主题识别,在确定所述多个登录账号发布的内容文本信息为引流信息之后,将所述多个登录账号发布的内容文本信息设置为仅发布者可见。

在一个实施方式中,如图5所示,第一获取模块301可以包括:第二获取单元501,用于获取目标ip地址下,在预定时长内多个登录账号所使用的登录设备的用户代理信息;提取单元502,用于从所述用户代理信息中提取出各个登录账号所使用的登录设备的设备型号;第二确定单元503,用于确定所述多个登录账号中各个登录账号所使用的登录设备的设备型号属于同一设备型号的比例是否达到预设阈值;第三确定单元404,用于在确定达到预设的阈值的情况下,确定所述类型信息满足预设条件。

在一个实施方式中,第二获取模块302可以包括:设置单元,用于在所述类型信息满足所述预设条件的情况下,为所述多个登录账号设置标记,其中,所述标记用于表征所述多个登录账号中各个登录账号为疑似引流账号;聚合单元,用于对被标记的登录账号在所述预设时长内发布的内容文本信息进行聚合,以得到所述多个登录账号发布的内容文本信息。

在上例中,通过获取目标ip地址下,在预定时长内多个登录账号所使用的登录设备的类型信息,确定类型信息是否满足条件,如果满足那么就获取多个登录账号发布的携带有第三方网站链接的内容文本信息,然后,通过自然语言处理,对多个登录账号发布的内容文本信息进行主题识别,以确定多个登录账号发布的内容文本信息是否为引流信息,即通过设备类型和自然语言处理方法联合的方式,确定出是否为引流信息,从而解决现有的基于人工审核的方式确定引流信息所存在的效率和准确率较低的问题,达到了简单准确确定引流信息的技术效果。

本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrativelogicalblock),单元,和步骤可以通过电子硬件、电脑软件,或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability),上述的各种说明性部件(illustrativecomponents),单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本发明实施例保护的范围。

本发明实施例中所描述的各种说明性的逻辑块,或单元都可以通过通用处理器,数字信号处理器,专用集成电路(asic),现场可编程门阵列或其它可编程逻辑装置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。

本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于ram存储器、闪存、rom存储器、eprom存储器、eeprom存储器、寄存器、硬盘、可移动磁盘、cd-rom或本领域中其它任意形式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于asic中,asic可以设置于用户终端中。可选地,处理器和存储媒介也可以设置于用户终端中的不同的部件中。

在一个或多个示例性的设计中,本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现,这些功能可以存储与电脑可读的媒介上,或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如,这样的电脑可读媒体可以包括但不限于ram、rom、eeprom、cd-rom或其它光盘存储、磁盘存储或其它磁性存储装置,或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外,任何连接都可以被适当地定义为电脑可读媒介,例如,如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(dsl)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、dvd、软盘和蓝光光盘,磁盘通常以磁性复制数据,而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。

以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1