用于获取用户流量信息的方法、装置及服务器的制造方法

文档序号:10542286阅读:274来源:国知局
用于获取用户流量信息的方法、装置及服务器的制造方法
【专利摘要】本发明公开了一种用于获取用户流量信息的方法、装置及服务器,其方法包括:获取运营商发送的与流量信息相关的短信并提取短信文本信息;将短信文本信息与用于抓取流量数据的正则表达式进行正则匹配;如果未匹配到流量数据,则基于预设的正则式建立规则与短信文本信息进行匹配,确定与流量数据相关的流量关键词并根据流量关键词建立新的正则表达式。本发明的方法、装置及服务器,在短信与已有的正则表达式均不匹配的情况下,能够自动编写与短信相匹配的新的正则表达式,可以对应于一些具有特定模板的短信自动编写正则表达式,能够及时获取短信中的流量信息,降低错误发生的可能性,并且抓取效率高,能够提高用户的使用感受。
【专利说明】
用于获取用户流量信息的方法、装置及服务器
技术领域
[0001]本发明涉及流量监控技术领域,尤其涉及一种用于获取用户流量信息的方法、装置及服务器。
【背景技术】
[0002]目前,随着手机的普及,手机逐渐成为人们生活中不可或缺的通讯工具。短信业务因为其方便、快捷及廉价的等原因,已被广大手机消费者所普遍接受并广泛使用。手机流量是指手机上网产生的流量数据,用手机打开软件或进行互联网操作时,会和服务器之间交换数据,手机流量就是指这数据的大小。手机流量套餐主要有电信、移动、联通3家运营商,由于目前的流量套餐价格不便宜,尤其在超出流量套餐之外所使用的流量价格更加昂贵,因此,用户希望能够方便地获取流量信息并对流量进行监控。
[0003]目前,在手机上可以安装软件应用实现流量监控的功能。例如,使用360手机助手,设置月流量及截止日期,然后设置开机自启动,每天使用的流量就会显示出来。软件应用的后台服务器需要从运营商发送的运营商发送的与流量信息相关的短信中提取与流量相关的信息,目前,一般使用正则表达式的方式从短信中提取信息,但由于运营商发送短信的格式有多种,并且随着运营商系统的升级或改造等情况而变化,因此,软件应用的后台人员需要及时添加新的正则表达式以适应短信格式的变化,目前这一工作主要通过人工完成,不仅工作量较大而且往往不能及时增加新的正则表达式,不能从短信中提取流量信息并发送给用户,大都在接到用户反馈或投诉后才新增正则表达式,影响用户的使用感受。

【发明内容】

[0004]有鉴于此,本发明要解决的一个技术问题是提供一种用于获取用户流量信息的方法、装置及服务器。
[0005]—种用于获取用户流量信息的方法,包括:获取运营商发送的与流量信息相关的短信并提取短信文本信息;将所述短信文本信息与用于抓取流量数据的正则表达式进行正则匹配;如果未匹配到流量数据,则基于预设的正则式建立规则与所述短信文本信息进行匹配,确定与流量数据相关的流量关键词并根据所述流量关键词建立新的正则表达式,并通过所述新的正则表达式抓取所述短信文本信息中的流量数据。
[0006]根据本发明的一个实施例,进一步的,基于预设的正则式建立规则与所述短信文本信息进行匹配、确定与流量数据相关的流量关键词并根据所述流量关键词建立新的正则表达式包括:将预设的多个规则关键词分别与所述短信文本信息进行匹配,如果匹配成功,则将此规则关键词作为流量关键词并记录其在所述短信文本信息中出现的位置和次序;根据所述与流量关键词和其在所述短信文本信息中的位置和次序建立所述新正则表达式。
[0007]根据本发明的一个实施例,进一步的,包括:根据预设的规则分隔符将所述短信文本信息按行分割为多个子文本信息;将预设的所述多个规则关键词分别与所述多个子文本信息进行匹配,如果匹配成功,则将此规则关键词作为流量关键词;其中,所述流量关键词与所述子文本信息尾部之间的文本信息为其相关的流量数据;将所述流量关键词和所述规则分隔符基于预设的正则表达式规则生成子正则表达式;其中,将所述流量数据替换为相应的元字符和运算符组;按照所述多个子文本信息的分割顺序并根据预设的正则表达式规则将多个所述子正则表达式连接,生成所述新的正则表达式。
[0008]根据本发明的一个实施例,进一步的,所述规则分隔符包括:分号、逗号、句号、空格、换行符。
[0009]根据本发明的一个实施例,进一步的,所述流量数据包括:网络流量、话费;所述规则关键词包括:国内流量、省内流量、通话剩余时间、剩余流量、套餐、话费。
[0010]根据本发明的一个实施例,进一步的,包括:配置正则表达式模板,所述正则表达式模板中设置有用于抓取流量数据的多个正则表达式;按照所述多个正则表达式的预设顺序,从所述多个正则表达式中依次选取正则表达式;
[0011]将所述短信文本信息与选取到的正则表达式进行匹配,如果匹配到流量数据,则从所述短信文本信息中抓取流量数据,并终止从所述多个正则表达式中选取正则表达式以及匹配操作。
[0012]根据本发明的一个实施例,进一步的,包括:设置所述多个正则表达式的优先级顺序,其中,所述多个正则表达式中优先级越高的正则表达式的匹配条件越多。
[0013]根据本发明的一个实施例,进一步的,包括:设置流量通知模板;根据所述流量通知模板将所述流量数据生成流量通知消息;将所述流量通知消息发送给用户。
[0014]—种用于获取用户流量信息的装置,包括:流量短信获取模块,用于获取运营商发送的与流量信息相关的短信并提取短信文本信息;正则式匹配模块,用于将所述短信文本信息与用于抓取流量数据的正则表达式进行正则匹配;正则式建立模块,用于如果未匹配到流量数据,则基于预设的正则式建立规则与所述短信文本信息进行匹配,确定与流量数据相关的流量关键词并根据所述流量关键词建立新的正则表达式;其中,通过所述新的正则表达式抓取所述短信文本信息中的流量数据。
[0015]—种用于获取用户流量的服务器,包括如上所述的用于获取用户流量信息的装置。
[0016]本发明的用于获取用户流量信息的方法、装置及服务器,能够在短信与已有的正则表达式不匹配的情况下,自动编写与短信相匹配的新的正则表达式,可以及时获取短信中的流量信息并且抓取流量信息的效率高。
[0017]本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
【附图说明】
[0018]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图:
[0019]图1为根据本发明的用于获取用户流量信息的方法的一个实施例的流程图;
[0020]图2为根据本发明的用于获取用户流量信息的装置的一个实施例的模块示意图;
[0021]图3为根据本发明的正则式匹配模块的一个实施例的模块结构示意图;
[0022]图4为根据本发明的正则式建立模块的一个实施例的模块结构示意图。
【具体实施方式】
[0023]下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
[0024]本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“親接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
[0025]本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
[0026]本技术领域技术人员可以理解,这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,执行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(Personal Communicat1ns Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Ass istant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Posit1ning System,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
[0027]本技术领域技术人员可以理解,这里所使用的远端网络设备,其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。本发明的实施例中,远端网络设备、终端设备与WNS服务器之间可通过任何通信方式实现通信,包括但不限于,基于3GPP、LTE、WMAX的移动通信、基于TCP/IP、UDP协议的计算机网络通信以及基于蓝牙、红外传输标准的近距无线传输方式。
[0028]本领域技术人员应当理解,本发明所称的“应用”、“应用程序”、“应用软件”以及类似表述的概念,是业内技术人员所公知的相同概念,是指由一系列计算机指令及相关数据资源有机构造的适于电子运行的计算机软件。除非特别指定,这种命名本身不受编程语言种类、级别,也不受其赖以运行的操作系统或平台所限制。理所当然地,此类概念也不受任何形式的终端所限制。
[0029]图1为根据本发明的用于获取用户流量信息的方法的一个实施例的流程图,如图1所示:
[0030]步骤101,获取运营商发送的与流量信息相关的短信并提取短信文本信息。
[0031]步骤102,将短信文本信息与用于抓取流量数据的正则表达式进行正则匹配,如果匹配到流量数据,则从短信内容中抓取流量数据。
[0032]步骤103,如果未匹配到流量数据,则基于预设的正则式建立规则与短信文本信息进行匹配,确定与流量数据相关的流量关键词并根据流量关键词建立新的正则表达式,并通过新的正则表达式抓取短信文本信息中的流量数据。
[0033]正则表达式,又称正规表示法、常规表示法,正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。正则表达式用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。
[0034]使用正则表达式抓取运营商发送的与流量信息相关的短信中的流量数据。例如,例如运营商发送的短信为“剩余流量18兆;使用流量15兆”。已有的正则表达式为“剩余流量(.*);使用流量(.*),使用此正则表达式则可以从短信中抓取出流量数据18兆和15兆。
[0035]如果运营商的短信格式发生了变化,例如,运营商发送的短信为“使用流量15兆;剩余流量18兆”,使用上述已有的正则表达式则无法匹配到流量数据,则需要自动生成新的正则表达式。
[0036]在预设的正则式建立规则中有规则关键词,规则关键词是指与流量信息相关联的关键词。在正则式建立规则中设置有正则表达式的规则,能够组建合乎语法并包含关键词的正则表达式组合。规则关键词可以为后台管理员输入的关键词,或通过机器学习的方法搜集短信中的词条而形成规则关键词字典。
[0037]例如,规则关键词包括:“剩余流量”、“使用流量”等。在将规则关键词与短信文本信息进行匹配后,确定与流量数据相关的流量关键词为“剩余流量”、“使用流量”。根据流量关键词“剩余流量”、“使用流量”建立新的正则表达式,可以建立一条新的正则表达式“使用流量(.*);剩余流量(.*)”,也可以建立两条新的正则表达式“剩余流量(.*);”和“使用流量(.*)”,通过新的正则表达式可以抓取短信文本信息中的流量数据15兆和18兆。
[0038]通过上述实施例中的用于获取用户流量信息的方法,在短信与已有的正则表达式不匹配的情况下,可以自动编写与短信相匹配的新的正则表达式,通过对应于一些具有特定模板的短信自动编写正则表达式,能够及时获取短信中的流量信息,提高用户的使用感受。
[0039]自动编写新的正则表达式的时机可以为在判断已有的正则表达式不能匹配短信时,或者,设定每天的统计时间段,把每天的短信从日志中取出来,通过短信的SIM卡去重。
[0040]例如,可以通过预设的关键词判断是否为运营商发送的与流量信息相关的短信,当短信文本中包括“流量”、“话费”等,基于短信的接收方的SIM卡号对经过筛选的短信进行去重处理。判断已有的正则表达式是否不能匹配已有的短信,如果是,则根据预设的规则建立新的正则表达式。
[0041]在一个实施例中,将预设的多个规则关键词分别与短信文本信息进行匹配,如果匹配成功,则将此规则关键词作为流量关键词并记录其在短信文本信息中出现的位置和次序。根据与流量关键词和其在短信文本信息中的位置和次序建立新正则表达式。
[0042]例如,不能匹配的短信内容是“您的使用情况如下,国内流量30兆,省内流量20兆,通话120分钟,剩余话费12元”。将预设的规则关键词与短信匹配,将匹配成功的规则关键词“国内流量”、“省内流量”、“通话”、“剩余话费”作为流量关键词,并记录“国内流量”、“省内流量”、“通话”、“剩余话费”在短信文本信息中出现的位置和次序。
[0043]由于一条正则表达式的执行效率高,根据确定的流量关键词和其在短信文本信息中的位置和次序建立一条新的正则表达式“您的使用情况如下,国内流量(.*),省内流量(.*),通话(.*),话费剩余(.*)”,通过此正则表达式能够抓取流量信息30兆、20兆、120分钟、12元。对于抓取的流量信息需要计算时,可以将流量信息去除字符和文字等,并转换为整数型等。
[0044]在一个实施例中,建立一条正则表达式的方法有多种,例如,根据预设的规则分隔符将短信文本信息按行分割为多个子文本信息,将预设的多个规则关键词分别与多个子文本信息进行匹配,如果匹配成功,则将此规则关键词作为流量关键词。流量关键词与子文本信息尾部之间的文本信息为其相关的流量数据。
[0045]将流量关键词和规则分隔符基于预设的正则表达式规则生成子正则表达式,将流量数据替换为相应的元字符和运算符组。按照多个子文本信息的分割顺序并根据预设的正则表达式规则将多个子正则表达式连接,生成新的正则表达式。
[0046]例如,不能匹配的短信内容是“您的使用情况如下,国内流量30兆,省内流量20兆,通话120分钟,话费剩余12元”。根据预设的规则分隔符“,”将短信文本信息按行分割为5个子文本信息,分别为“您的使用情况如下”、“国内流量30兆”、“省内流量20兆”、“通话120分钟”、“话费剩余12元”。
[0047]将预设的多个规则关键词分别与5个子文本信息进行匹配,如果匹配成功,则将此规则关键词作为流量关键词。例如,对于子文本信息“国内流量30兆”,将匹配成功的规则关键词“国内流量”作为流量关键词,流量关键词“国内流量”与此子文本信息尾部之间的文本信息为其相关的流量数据,即为30兆。
[0048]将“国内流量”和规则分隔符“,”基于预设的正则表达式规则生成子正则表达式“国内流量(.*),”。按照5个子文本信息的分割顺序并根据预设的正则表达式规则将多个子正则表达式连接,生成一条新的正则表达式,“您的使用情况如下,国内流量(.*),省内流量(.*),通话(.*),话费剩余(.*)” O
[0049]在一个实施例中,规则分隔符可以为分号、逗号、句号、空格、换行符等中的一个或多个。流量数据包括:网络流量、话费等。规则关键词包括:国内流量、省内流量、通话剩余时间、剩余流量、套餐、话费等。
[0050]在进行流量数据提取时,可以配置正则表达式模板,在正则表达式模板中设置有用于抓取流量数据的多个正则表达式,按照多个正则表达式的预设顺序,从多个正则表达式中依次选取正则表达式。
[0051]将短信文本信息与选取到的正则表达式进行匹配,如果匹配到流量数据,则从短信文本信息中抓取流量数据,并终止从多个正则表达式中选取正则表达式以及匹配操作。可以设置多个正则表达式的优先级顺序,多个正则表达式中优先级越高的正则表达式的匹配条件越多。
[0052]设置流量通知模板,流量通知模板规定了流量数据的类型、格式等。根据流量通知模板将流量数据生成流量通知消息,将流量通知消息发送给用户。例如,生成的流量通知消息为“您目前的流量使用情况为:国内流量30兆,省内流量20兆”。提供用于配置正则式建立规则的界面,管理员可以通过此界面配置正则式建立规则,正则式建立规则包括规则关键词、规则分隔符、正则式生成规则等。
[0053]如图2至4所示,本发明提供一种用于获取用户流量信息的装置。流量短信获取模块21获取运营商发送的与流量信息相关的短信并提取短信文本信息。正则式匹配模块22将短信文本信息与用于抓取流量数据的正则表达式进行正则匹配,如果未匹配到流量数据,则正则式建立模块23基于预设的正则式建立规则与短信文本信息进行匹配,确定与流量数据相关的流量关键词并根据流量关键词建立新的正则表达式,通过新的正则表达式抓取短信文本信息中的流量数据。
[0054]流量短信获取模块21批量获取运营商发送的与流量信息相关的短信,基于短信的接收方信息对经过筛选的短信进行去重处理。正则式建立模块23包括:关键词获取单元231和表达式生成单元232。关键词获取单元231将预设的多个规则关键词分别与短信文本信息进行匹配,如果匹配成功,则将此规则关键词作为流量关键词并记录其在短信文本信息中出现的位置和次序。表达式生成单元232根据与流量关键词和其在短信文本信息中的位置和次序建立新正则表达式。
[0055]在一个实施例中,关键词获取单元231根据预设的规则分隔符将短信文本信息按行分割为多个子文本信息,将预设的多个规则关键词分别与多个子文本信息进行匹配,如果匹配成功,则将此规则关键词作为流量关键词;其中,流量关键词与子文本信息尾部之间的文本信息为其相关的流量数据。
[0056]表达式生成单元232将流量关键词和规则分隔符基于预设的正则表达式规则生成子正则表达式;其中,将流量数据替换为相应的元字符和运算符组,按照多个子文本信息的分割顺序并根据预设的正则表达式规则将多个子正则表达式连接,生成新的正则表达式。
[0057]正则式匹配模块22包括:正则式模板配置单元221和流量数据抓取单元222。正则式模板配置单元221配置正则表达式模板,正则表达式模板中设置有用于抓取流量数据的多个正则表达式,按照多个正则表达式的预设顺序,从多个正则表达式中依次选取正则表达式。
[0058]流量数据抓取单元222将短信文本信息与选取到的正则表达式进行匹配,如果匹配到流量数据,则从短信文本信息中抓取流量数据,并终止从多个正则表达式中选取正则表达式以及匹配操作。正则式模板配置单元221设置多个正则表达式的优先级顺序,其中,多个正则表达式中优先级越高的正则表达式的匹配条件越多。流量消息发送模块24设置流量通知模板,根据流量通知模板将流量数据生成流量通知消息,将流量通知消息发送给用户。规则配置模块25提供用于配置正则式建立规则的界面。
[0059]在一个实施例中,本发明提供一种用于获取用户流量信息的服务器,包括如上的用于获取用户流量信息的装置。
[0060]上述实施例中提供的用于获取用户流量信息的方法、装置及服务器,在短信与已有的正则表达式均不匹配的情况下,能够自动编写与短信相匹配的新的正则表达式,可以对应于一些具有特定模板的短信自动编写正则表达式,能够及时获取短信中的流量信息,降低错误发生的可能性,并且抓取效率高,能够提高用户的使用感受。
[0061]本发明实施例提供了以下技术方案:
[0062]1、一种用于获取用户流量信息的方法,包括:
[0063]获取运营商发送的与流量信息相关的短信并提取短信文本信息;
[0064]将所述短信文本信息与用于抓取流量数据的正则表达式进行正则匹配;
[0065]如果未匹配到流量数据,则基于预设的正则式建立规则与所述短信文本信息进行匹配,确定与流量数据相关的流量关键词并根据所述流量关键词建立新的正则表达式,并通过所述新的正则表达式抓取所述短信文本信息中的流量数据。
[0066]2、如I所述的方法,基于预设的正则式建立规则与所述短信文本信息进行匹配、确定与流量数据相关的流量关键词并根据所述流量关键词建立新的正则表达式包括:
[0067]将预设的多个规则关键词分别与所述短信文本信息进行匹配,如果匹配成功,则将此规则关键词作为流量关键词并记录其在所述短信文本信息中出现的位置和次序;
[0068]根据所述与流量关键词和其在所述短信文本信息中的位置和次序建立所述新正则表达式。
[0069]3、如2所述的方法,包括:
[0070]根据预设的规则分隔符将所述短信文本信息按行分割为多个子文本信息;
[0071]将预设的所述多个规则关键词分别与所述多个子文本信息进行匹配,如果匹配成功,则将此规则关键词作为流量关键词;其中,所述流量关键词与所述子文本信息尾部之间的文本信息为其相关的流量数据;
[0072]将所述流量关键词和所述规则分隔符基于预设的正则表达式规则生成子正则表达式;其中,将所述流量数据替换为相应的元字符和运算符组;
[0073]按照所述多个子文本信息的分割顺序并根据预设的正则表达式规则将多个所述子正则表达式连接,生成所述新的正则表达式。
[0074]4、如3所述的方法,
[0075]所述规则分隔符包括:分号、逗号、句号、空格、换行符。
[0076]5、如3所述的方法,
[0077]所述流量数据包括:网络流量、话费;
[0078]所述规则关键词包括:国内流量、省内流量、通话剩余时间、剩余流量、套餐、话费。
[0079]6、如I所述的方法,包括:
[0080]配置正则表达式模板,所述正则表达式模板中设置有用于抓取流量数据的多个正则表达式;
[0081]按照所述多个正则表达式的预设顺序,从所述多个正则表达式中依次选取正则表达式;
[0082]将所述短信文本信息与选取到的正则表达式进行匹配,如果匹配到流量数据,则从所述短信文本信息中抓取流量数据,并终止从所述多个正则表达式中选取正则表达式以及匹配操作。
[0083]7、如6所述的方法,包括:
[0084]设置所述多个正则表达式的优先级顺序,其中,所述多个正则表达式中优先级越高的正则表达式的匹配条件越多。
[0085]8、如I所述的方法,包括:
[0086]设置流量通知模板;
[0087]根据所述流量通知模板将所述流量数据生成流量通知消息;
[0088]将所述流量通知消息发送给用户。
[0089]9、如I所述的方法,包括:
[0090]提供用于配置所述正则式建立规则的界面。
[0091]10、如I所述的方法,获取运营商发送的与流量信息相关的短信包括:
[0092]批量获取运营商发送的与流量信息相关的短信;
[0093]基于短信的接收方信息对所述短信进行去重处理。
[0094]11、一种用于获取用户流量信息的装置,包括:
[0095]流量短信获取模块,用于获取运营商发送的与流量信息相关的短信并提取短信文本信息;
[0096]正则式匹配模块,用于将所述短信文本信息与用于抓取流量数据的正则表达式进行正则匹配;
[0097]正则式建立模块,用于如果未匹配到流量数据,则基于预设的正则式建立规则与所述短信文本信息进行匹配,确定与流量数据相关的流量关键词并根据所述流量关键词建立新的正则表达式;
[0098]其中,所述正则式匹配模块通过所述新的正则表达式抓取所述短信文本信息中的流量数据。
[0099]12、如11所述的装置,
[0100]所述正则式建立模块,包括:
[0101]关键词获取单元,用于将预设的多个规则关键词分别与所述短信文本信息进行匹配,如果匹配成功,则将此规则关键词作为流量关键词并记录其在所述短信文本信息中出现的位置和次序;
[0102]表达式生成单元,用于根据所述与流量关键词和其在所述短信文本信息中的位置和次序建立所述新正则表达式。
[0103]13、如12所述的装置,所述关键词获取单元,用于根据预设的规则分隔符将所述短信文本信息按行分割为多个子文本信息;将预设的所述多个规则关键词分别与所述多个子文本信息进行匹配,如果匹配成功,则将此规则关键词作为流量关键词;其中,所述流量关键词与所述子文本信息尾部之间的文本信息为其相关的流量数据;
[0104]所述表达式生成单元,用于将所述流量关键词和所述规则分隔符基于预设的正则表达式规则生成子正则表达式;其中,将所述流量数据替换为相应的元字符和运算符组;按照所述多个子文本信息的分割顺序并根据预设的正则表达式规则将多个所述子正则表达式连接,生成所述新的正则表达式。
[0105]14、如13所述的装置,所述规则分隔符包括:分号、逗号、句号、空格、换行符。
[0106]15、如13所述的装置,
[0107]所述流量数据包括:网络流量、话费;
[0108]所述规则关键词包括:国内流量、省内流量、通话剩余时间、剩余流量、套餐、话费。
[0109]16、如I所述的装置,包括:
[0110]所述正则式匹配模块,包括:
[0111]正则式模板配置单元,用于配置正则表达式模板,所述正则表达式模板中设置有用于抓取流量数据的多个正则表达式;按照所述多个正则表达式的预设顺序,从所述多个正则表达式中依次选取正则表达式;
[0112]流量数据抓取单元,用于将所述短信文本信息与选取到的正则表达式进行匹配,如果匹配到流量数据,则从所述短信文本信息中抓取流量数据,并终止从所述多个正则表达式中选取正则表达式以及匹配操作。
[0113]17、如16所述的装置,包括:
[0114]所述正则式模板配置单元,用于设置所述多个正则表达式的优先级顺序,其中,所述多个正则表达式中优先级越高的正则表达式的匹配条件越多。
[0115]18、如11所述的装置,包括:
[0116]流量消息发送模块,用于设置流量通知模板,根据所述流量通知模板将所述流量数据生成流量通知消息,将所述流量通知消息发送给用户。
[0117]19、如11所述的装置,包括:
[0118]规则配置模块,用于提供用于配置所述正则式建立规则的界面。
[0119]20、如11所述的装置,包括:
[0120]所述流量短信获取模块,用于批量获取运营商发送的与流量信息相关的短信,基于短信的接收方信息对所述短信进行去重处理。
[0121]21、一种用于获取用户流量信息的服务器,
[0122]包括如11至20任一项所述的用于获取用户流量信息的装置。
[0123]以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
【主权项】
1.一种用于获取用户流量信息的方法,其特征在于,包括: 获取运营商发送的与流量信息相关的短信并提取短信文本信息; 将所述短信文本信息与用于抓取流量数据的正则表达式进行正则匹配; 如果未匹配到流量数据,则基于预设的正则式建立规则与所述短信文本信息进行匹配,确定与流量数据相关的流量关键词并根据所述流量关键词建立新的正则表达式,并通过所述新的正则表达式抓取所述短信文本信息中的流量数据。2.如权利要求1所述的方法,其特征在于,基于预设的正则式建立规则与所述短信文本信息进行匹配、确定与流量数据相关的流量关键词并根据所述流量关键词建立新的正则表达式包括: 将预设的多个规则关键词分别与所述短信文本信息进行匹配,如果匹配成功,则将此规则关键词作为流量关键词并记录其在所述短信文本信息中出现的位置和次序; 根据所述与流量关键词和其在所述短信文本信息中的位置和次序建立所述新正则表达式。3.如权利要求2所述的方法,其特征在于,包括: 根据预设的规则分隔符将所述短信文本信息按行分割为多个子文本信息; 将预设的所述多个规则关键词分别与所述多个子文本信息进行匹配,如果匹配成功,则将此规则关键词作为流量关键词;其中,所述流量关键词与所述子文本信息尾部之间的文本信息为其相关的流量数据; 将所述流量关键词和所述规则分隔符基于预设的正则表达式规则生成子正则表达式;其中,将所述流量数据替换为相应的元字符和运算符组; 按照所述多个子文本信息的分割顺序并根据预设的正则表达式规则将多个所述子正则表达式连接,生成所述新的正则表达式。4.如权利要求3所述的方法,其特征在于: 所述规则分隔符包括:分号、逗号、句号、空格、换行符。5.如权利要求3所述的方法,其特征在于: 所述流量数据包括:网络流量、话费; 所述规则关键词包括:国内流量、省内流量、通话剩余时间、剩余流量、套餐、话费。6.如权利要求1所述的方法,其特征在于,包括: 配置正则表达式模板,所述正则表达式模板中设置有用于抓取流量数据的多个正则表达式; 按照所述多个正则表达式的预设顺序,从所述多个正则表达式中依次选取正则表达式; 将所述短信文本信息与选取到的正则表达式进行匹配,如果匹配到流量数据,则从所述短信文本信息中抓取流量数据,并终止从所述多个正则表达式中选取正则表达式以及匹配操作。7.如权利要求6所述的方法,其特征在于,包括: 设置所述多个正则表达式的优先级顺序,其中,所述多个正则表达式中优先级越高的正则表达式的匹配条件越多。8.如权利要求1所述的方法,其特征在于,包括: 设置流量通知模板; 根据所述流量通知模板将所述流量数据生成流量通知消息; 将所述流量通知消息发送给用户。9.一种用于获取用户流量信息的装置,其特征在于,包括: 流量短信获取模块,用于获取运营商发送的与流量信息相关的短信并提取短信文本信息; 正则式匹配模块,用于将所述短信文本信息与用于抓取流量数据的正则表达式进行正则匹配; 正则式建立模块,用于如果未匹配到流量数据,则基于预设的正则式建立规则与所述短信文本信息进行匹配,确定与流量数据相关的流量关键词并根据所述流量关键词建立新的正则表达式; 其中,所述正则式匹配模块通过所述新的正则表达式抓取所述短信文本信息中的流量数据。10.一种用于获取用户流量信息的服务器,其特征在于: 包括如权利要求9所述的用于获取用户流量信息的装置。
【文档编号】G06F17/30GK105916127SQ201610483695
【公开日】2016年8月31日
【申请日】2016年6月27日
【发明人】马璇
【申请人】北京奇虎科技有限公司, 奇智软件(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1