竖向文本广告过滤方法和装置与流程

文档序号：12596274阅读：226来源：国知局

本发明涉及到互联网技术领域，特别涉及到一种竖向文本广告过滤方法和装置。

背景技术：

互联网的快速发展给人们的生活带来了极大的便利，人们可以利用互联网浏览网页(如QQ浏览器的话题圈评论系统或一些论坛网站等)、或者通过聊天工具进行通信(如QQ、微信等)、或者通过安装一些应用软件获取一些信息(如天气预报应用、日历应用等)。

在互联网给人们带来便利的同时，一些广告发布者会利用互联网的便利发布各种广告，给用户带来了极大的烦恼。例如，广告发布者通常在QQ浏览器的话题圈评论系统上发布广告，或者在QQ群聊、微信群聊里发布广告，或者在一些应用软件中自动弹出一浮窗来发布广告。

为了自动过滤掉这些广告，现有技术中通常会对当前页面上显示的文本信息按照行进行语义识别，在识别结果为广告时则进行过滤处理。

然而，广告发布者为了利用现有广告过滤方法的漏洞，通常会发布一些竖向广告。如图1所示，图1为竖向广告的示意图，这种广告通常需要竖向阅读。例如，对于图1所示的竖向广告，其实际广告内容为“买时尚睡衣加微信357mai”。由于现有的广告过滤方法一般都是按照行进行广告识别，若采用现有技术进行识别，则按照行将上述竖向广告解析为“买加7时微m尚信a睡3i衣5”，此时解析出的内容的语义已经发生变化，采用现有的方法并不能识别出其为广告，因此现有技术对竖向广告的识别率比较低下，并不能过滤掉竖向广告。

技术实现要素：

本发明实施例提供一种竖向文本广告过滤方法和装置，旨在解决不能过滤掉竖向广告的技术问题。

为实现上述目的，本发明实施例提出竖向文本广告过滤方法，所述竖向文本广告过滤方法包括步骤：

获取文本信息；

将所述文本信息按照行进行分组，依次生成若干第一文本序列；

按照顺序依次提取各个所述第一文本序列对应位置的字符，根据所述对应位置依次生成若干第二文本序列；

根据所述第二文本序列过滤广告。

为了实现上述目的，本发明实施例还进一步提出一种竖向文本广告过滤装置，所述竖向文本广告过滤装置包括：

获取模块，用于获取文本信息；

分组模块，用于将所述文本信息按照行进行分组，依次生成若干第一文本序列；

提取模块，按照顺序依次提取各个所述第一文本序列对应位置的字符，根据所述对应位置依次生成若干第二文本序列；

过滤模块，用于根据所述第二文本序列过滤广告。

本发明提出的竖向文本广告过滤方法和装置，通过获取文本信息，先将所述文本信息按照行进行分组，依次生成若干第一文本序列，然后再按照顺序依次提取各个所述第一文本序列对应位置的字符，根据所述对应位置依次生成若干第二文本序列，最后根据所述第二文本序列过滤广告。由于本发明通过依次提取第一文本序列对应位置的字符而生成第二文本序列，根据第二文本序列过滤广告，因此能够有效地识别竖向文本信息，从而达到过滤掉竖向广告的目的。

附图说明

图1为竖向文本广告的示意图；

图2为本发明实施例竖向文本广告过滤装置所涉及的硬件架构示意图；

图3为本发明竖向文本广告过滤方法的流程示意图；

图4为页面中显示的文本信息的示意图；

图5为本发明竖向文本广告过滤方法中根据第二文本序列过滤广告步骤的第一细化流程示意图；

图6为本发明竖向文本广告过滤方法中根据文本重组序列过滤广告步骤的第一细化流程示意图；

图7为本发明竖向文本广告过滤方法中根据文本重组序列过滤广告步骤的第二细化流程示意图；

图8为本发明竖向文本广告过滤方法中根据文本重组序列过滤广告步骤的第三细化流程示意图；

图9为本发明竖向文本广告过滤方法中根据第二文本序列过滤广告步骤的第二细化流程示意图；

图10为本发明竖向文本广告过滤方法中根据第二文本序列过滤广告步骤的第三细化流程示意图；

图11为本发明竖向文本广告过滤装置的功能模块示意图；

图12为本发明竖向文本广告过滤装置中过滤模块的第一细化功能模块示意图；

图13为本发明竖向文本广告过滤装置中第一过滤单元的第一细化功能模块示意图；

图14为本发明竖向文本广告过滤装置中第一过滤单元的第二细化功能模块示意图；

图15为本发明竖向文本广告过滤装置中第一过滤单元的第三细化功能模块示意图；

图16为本发明竖向文本广告过滤装置中过滤模块的第二细化功能模块示意图；

图17为本发明竖向文本广告过滤装置中过滤模块的第三细化功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例的主要解决方案是：获取文本信息；将所述文本信息按照行进行分组，依次生成若干第一文本序列；按照顺序依次提取各个所述第一文本序列对应位置的字符，根据所述对应位置依次生成若干第二文本序列；根据所述第二文本序列过滤广告。

由于现有的竖向文本广告过滤方法一般都是按照行进行广告识别，采用现有的方法并不能有效地识别出竖向广告。

本发明实施例架构一竖向文本广告过滤装置，该工具通过获取文本信息，先将所述文本信息按照行进行分组，依次生成若干第一文本序列，然后再按照顺序依次提取各个所述第一文本序列对应位置的字符，根据所述对应位置依次生成若干第二文本序列，最后根据所述第二文本序列过滤广告。由于本发明通过依次提取第一文本序列对应位置的字符而生成第二文本序列，根据第二文本序列过滤广告，因此能够有效地识别竖向文本信息，从而达到过滤掉竖向广告的目的。

其中，本实施例竖向文本广告过滤装置可以承载于服务器也可承载于终端，终端例如可以为计算机、手机或平板电脑等。本实施例以竖向文本广告过滤装置承载于终端为例说明。该竖向文本广告过滤装置所涉及的硬件架构可以如图2所示。

图2示出了本发明实施例竖向文本广告过滤装置所涉及的硬件架构。如图2所示，所述竖向文本广告过滤装置所涉及的硬件包括：处理器1001，例如CPU，通信总线1002，用户接口1003，网络接口1004，存储器1005，数据接口1006。其中，通信总线1002用于实现该服务器中各组成部件之间的连接通信。用户接口1003可以包括显示屏(Display)、键盘(Keyboard)、鼠标等组件，用于接收用户输入的信息，并将接收的信息发送至处理器1005进行处理。显示屏可以为LCD显示屏、LED显示屏，也可以为触摸屏。可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005 可选的还可以是独立于前述处理器1001的存储装置。数据接口1006可以为USB接口或可接收外部数据的通信接口。如图2所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及广告过滤程序。

在图2所示的服务器所涉及的硬件中，网络接口1004主要用于连接其它应用服务器，与其它应用服务器进行数据通信；用户接口1003主要用于连接客户端，与客户端进行数据通信，接收客户端输入的信息和指令；而处理器1001可以用于调用存储器1005中存储的广告过滤程序，并执行以下操作：

获取文本信息；

将所述文本信息按照行进行分组，依次生成若干第一文本序列；

按照顺序依次提取各个所述第一文本序列对应位置的字符，根据所述对应位置依次生成若干第二文本序列；

根据所述第二文本序列过滤广告。