信息过滤方法和信息过滤装置与流程

文档序号:12464527阅读:345来源:国知局
信息过滤方法和信息过滤装置与流程

本发明涉及计算机领域,尤其涉及一种信息过滤方法和信息过滤装置。



背景技术:

随着网络用户数量的逐年增长,广告商开始在网页上大量投放广告,广告给用户提供信息的同时也给大多数用户带来干扰。为提高用户的使用体验,有必要对网页中的广告进行过滤。

现有技术中主要是采用传统的文本比较相等的方法或者进行关键词查找的方法来判断用户帐号发布的内容是否相同来确定这些内容是否广告。然而,在广告主发布的内容包括没有实际含义的词语或者语句,或者每次发布的内容相似但是语句打乱的情况中,使用现有技术中的分析方法不能很准确地分析出这些文本属于类似的广告,而且计算量较大。



技术实现要素:

本发明实施例提供了一种信息过滤的方法和装置,能够较准确地筛选出广告内容。

本发明实施例提供一种信息过滤方法,包括:

获取第一文本集,第一文本为所述第一文本集中的任意一个文本,所述第一文本为一条发布消息的内容;

获取第二文本集,所述第二文本集中的各文本与所述第一文本集中的各文本一一对应,第二文本为所述第二文本集中的任意一个文本,所述第二文本为所述第一文本集中与其对应的第一文本与所述第一文本的参考文本的最长公共子序列,所述第一文本的参考文本为所述第一文本集中除所述第一文本以外的文本;

获取第三文本集,所述第三文本集中的各文本与所述第二文本集中的各文本一一对应,第三文本为所述第三文本集中的任意一个文本,所述第三文本为与其对应的第二文本和所述第二文本的参考文本的最长公共子序列,所 述第二文本的参考文本为第二文本集中除所述第二文本以外的文本;

当所述第三文本的长度和与其对应的第二文本所对应的第一文本的长度的比值不小于第一预置数值时,将所述第一文本确定为待处理文本。

可选的,所述方法还包括:

将所述待处理文本删除或者屏蔽。

可选的,所述获取第一文本集,包括:

确定目标账号;

获取所述目标账号所发布的消息内容,所述第一文本集包括所述目标账号所发布的至少部分消息的内容。

可选的,所述方法还包括:

获取所述目标账号所发布的消息数量和所述待处理文本的数量;

计算所述待处理文本的数量占所述目标账号所发布的消息数量的比例;

当所述比例不小于第二预置值时,禁止所述目标账号发布消息。

可选的,所述方法还包括:

当所述比例小于所述第二预置值且大于第三预置值时,将所述目标账号放入黑名单中。

本发明实施例还提供一种信息过滤装置,包括:

第一获取模块,用于获取第一文本集,第一文本为所述第一文本集中的任意一个文本,所述第一文本为一条发布消息的内容;

第二获取模块,用于获取第二文本集,所述第二文本集中的各文本与所述第一文本集中的各文本一一对应,第二文本为所述第二文本集中的任意一个文本,所述第二文本为所述第一文本集中与其对应的第一文本与所述第一文本的参考文本的最长公共子序列,所述第一文本的参考文本为所述第一文本集中除所述第一文本以外的文本;

第三获取模块,用于获取第三文本集,所述第三文本集中的各文本与所述第二文本集中的各文本一一对应,第三文本为所述第三文本集中的任意一个文本,所述第三文本为与其对应的第二文本和所述第二文本的参考文本的最长公共子序列,所述第二文本的参考文本为第二文本集中除所述第二文本以外的文本;

确定模块,用于当所述第三文本的长度和与其对应的第二文本所对应的第一文本的长度的比值不小于第一预置数值时,将所述第一文本确定为待处理文本。

可选的,所述信息过滤装置还包括:

第一处理模块,用于将所述待处理文本删除或者屏蔽。

可选的,所述第一获取模块具体用于:

确定目标账号;

获取所述目标账号所发布的消息内容,所述第一文本集包括所述目标账号所发布的至少部分消息的内容。

可选的,所述信息过滤装置还包括:

第四获取模块,用于获取所述目标账号所发布的消息数量和所述待处理文本的数量;

计算模块,用于计算所述待处理文本的数量占所述目标账号所发布的消息数量的比例;

第二处理模块,用于当所述比例不小于第二预置值时,禁止所述目标账号发布消息。

可选的,所述信息过滤装置还包括:

第三处理模块,用于当所述比例小于所述第二预置值且大于第三预置值时,将所述目标账号放入黑名单中。

从以上技术方案可以看出,本发明实施例具有以下优点:

本发明中,在获取到第一文本集后,通过对第一文本集进行两次的最长公共子序列计算,由于计算最长公共子序列时并不受限于文本中各字符的排列顺序,因此能够去掉第一文本集中的文本中的干扰内容,较准确地计算出第一文本集中的文本中相似内容,这样,可利用本发明来较准确地筛选出网络上的广告内容。

附图说明

图1为本发明信息过滤方法的一个实施例的流程图;

图2为本发明的信息过滤装置的一个实施例的结构示意图;

图3为本发明的信息过滤装置的一个实施例的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、系统、产品或设备固有的其它步骤或单元。

请参阅图1,本发明实施例中信息过滤方法包括:

101、获取第一文本集,第一文本为所述第一文本集中的任意一个文本,所述第一文本为一条发布消息的内容。

本实施例中,第一文本集中包括至少两个文本,其中每个文本是网页上用户帐号所发布的一条消息。具体的,第一文本集中的各文本可以是同一个用户帐号所发布的消息,也可以是不同用户账号所发布的消息,在此不作限制。为描述方便,将第一文本集中的任意一个文本成为第一文本。

优选的,本实施例中,获取第一文本集具体包括:确定目标账号,获取所述目标账号所发布的消息内容,所述第一文本集包括所述目标账号所发布的至少部分消息的内容。可选的,该第一文本集包括目标账号所发布的全部消息的内容。确定目标账号的方法有多种,举例来说,可依次遍历各用户帐号,依次将各用户帐号确定为目标账号,或者,预先设置有黑名单,该黑名单中包括多个用户账号,从该黑名单中的用户账号确定为目标账号,在此不作限制。

102、获取第二文本集,所述第二文本集中的各文本与所述第一文本集中的各文本一一对应,第二文本为所述第二文本集中的任意一个文本,所述第二文本为所述第一文本集中与其对应的第一文本与所述第一文本的参考文本 的最长公共子序列,所述第一文本的参考文本为所述第一文本集中除所述第一文本以外的文本。

获取到第一文本集后,对第一文本集采用最长公共子序列算法。具体的,对第一文本集中的每一个文本,确定第一文本集中除该文本以外的其中一个文本作为该文本的参考文本。确定参考文本的方法多种。举例来说,可将第一文本集中的其中一个文本作文其余所有文本的参考文本。或者,对第一文本集中的各文本进行排列,并将相邻的两个文本中后一个文本作为前一个文本的参考文本,而最后一个文本的参考文本为第一个文本,或者,将相邻的两个文本中其中一个文本作为另一个文本的参考文本。当然,上述仅为举例,并不做限制。

确定第一文本和第一文本的参考文本后,获取该两个文本的最长公共子序列。为描述方便,将第一文本和第一文本的参考文本之间的最长公共子序列称为第二文本。举例来说,第一文本为字符串“abcde”,第一文本的参考文本为字符串“eadsec”,那么该两个文本的最长公共子序列(也即第二文本)为“acde”。

这样,依次计算第一文本集中各文本对应的最长公共子序列后,可以获取到第二文本集,第二文本集中的各文本和第一文本集中的各文本一一对应,且该第二文本集中的任意一个文本(也即第二文本)为第一文本集中与该第二文本对应的第一文本与该第一文本的参考文本的最长公共子序列。

103、获取第三文本集,所述第三文本集中的各文本与所述第二文本集中的各文本一一对应,第三文本为所述第三文本集中的任意一个文本,所述第三文本为与其对应的第二文本和所述第二文本的参考文本的最长公共子序列,所述第二文本的参考文本为第二文本集中除所述第二文本以外的文本。

获取到第二文本集后,对第二文本集再次采用最长公共子序列算法,以获取到第三文本集。根据第二文本集获取第三文本集的方法可参考步骤102中根据第一文本集获取第二文本集的方法,在此不再赘述。

根据步骤102中的方法可以确定,第三文本集中的各文本和第二文本集中的各文本一一对应,而第二文本集中的各文本和第一文本集中的各文本一一对应,因此第三文本集中的各文本可以和第一文本集中的各文本建立一一 对应的关系。

根据上述描述的最长公共子序列算法的过程可知,第二文本是与其对应的第一文本的子集,第三文本是与其对应的第二文本的子集,也即是与该第三文本对应的第一文本的子集。

104、当所述第三文本的长度和与其对应的第二文本所对应的第一文本的长度的比值不小于第一预置数值时,将所述第一文本确定为待处理文本。

获取到第三文本后,可确定该第三文本是与其对应的第一文本与第一文本集中其他文本中所相似的内容。计算该第三文本的长度所占与其对应的第一文本的长度中的比例,也即计算第三文本所含字符数量和与其对应的第一文本所含字符数量的比值,当该比值不小于第一预置数值时,可确定该第一文本与第一文本集中其他文本的内容重复度较高,因此可确认该第一文本为广告文本,那么,将该第一文本确定为待处理文本,以待后续对该待处理文本进行处理。举例来说,该第一预置数值可以是70%或其他,在此不作限制。

本实施例中,在获取到第一文本集后,通过对第一文本集进行两次的最长公共子序列计算,由于计算最长公共子序列时并不受限于文本中各字符的排列顺序,因此能够去掉第一文本集中的文本中的干扰内容,较准确地计算出第一文本集中的文本中相似内容。

本实施例中,对待处理文本进行处理的方法有多种。例如,获取到待处理文本后,将该待处理文本删除或者屏蔽,以避免该待处理文本对其他用户可见。

可选的,本实施例中,在第一文本集中的各文本均为目标账号所发布的消息内容的情况中,在确定第一文本集中所有的待处理文本后,还获取目标账号所发布的消息数量和第一文本集中所有的待处理文本的数量,并计算该待处理文本的数量占所述目标账号所发布的消息数量的比例。当该比例不小于第二预置值时,可确认该目标账号为专门发布广告的账号,那么禁止该目标账号发布消息。举例来说,该第二预置值可以是80%或者其他数值,在此不作限制。

进一步,可选的,当待处理文本的数量占所述目标账号所发布的消息数量的比例小于第二预置值并且大于第三预置值(例如40%)时,可确认该目 标账户较常发送广告,因此将该目标账号放入黑名单中。这样,在每一次执行信息过滤时,在获取第一文本集时,从黑名单中确定目标账号,能够较高效率地确定广告内容。

上面对本发明实施例中的信息过滤方法进行了描述。下面对本发明实施例中的信息过滤装置进行描述。

请参阅图2,图,2为本发明的信息过滤装置的一个实施例的结构示意图。本实施例中的信息过滤装置可以用于执行图1所示实施例中的信息过滤方法。本发明实施例中信息过滤装置200包含:

第一获取模块201,用于获取第一文本集,第一文本为所述第一文本集中的任意一个文本,所述第一文本为一条发布消息的内容。

第二获取模块202,用于获取第二文本集,所述第二文本集中的各文本与所述第一文本集中的各文本一一对应,第二文本为所述第二文本集中的任意一个文本,所述第二文本为所述第一文本集中与其对应的第一文本与所述第一文本的参考文本的最长公共子序列,所述第一文本的参考文本为所述第一文本集中除所述第一文本以外的文本。

第三获取模块203,用于获取第三文本集,所述第三文本集中的各文本与所述第二文本集中的各文本一一对应,第三文本为所述第三文本集中的任意一个文本,所述第三文本为与其对应的第二文本和所述第二文本的参考文本的最长公共子序列,所述第二文本的参考文本为第二文本集中除所述第二文本以外的文本。

确定模块204,用于当所述第三文本的长度和与其对应的第二文本所对应的第一文本的长度的比值不小于第一预置数值时,将所述第一文本确定为待处理文本。

本实施例中,信息过滤装置在获取到第一文本集后,通过对第一文本集进行两次的最长公共子序列计算,由于计算最长公共子序列时并不受限于文本中各字符的排列顺序,因此能够去掉第一文本集中的文本中的干扰内容,较准确地计算出第一文本集中的文本中相似内容。

可选的,所述信息过滤装置200还包括:

第一处理模块205,用于将所述待处理文本删除或者屏蔽。

可选的,所述第一获取模块201具体用于:

确定目标账号;

获取所述目标账号所发布的消息内容,所述第一文本集包括所述目标账号所发布的至少部分消息的内容。

进一步,如图3所示,可选的,所述信息过滤装置还包括:

第四获取模块301,用于获取所述目标账号所发布的消息数量和所述待处理文本的数量;

计算模块302,用于计算所述待处理文本的数量占所述目标账号所发布的消息数量的比例;

第二处理模块303,用于当所述比例不小于第二预置值时,禁止所述目标账号发布消息。

进一步,可选的,所述信息过滤装置还包括:

第三处理模块304,用于当所述比例小于所述第二预置值且大于第三预置值时,将所述目标账号放入黑名单中。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元 中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1