基于短信的数据采集方法和数据采集系统与流程

文档序号:12479569阅读:708来源:国知局
基于短信的数据采集方法和数据采集系统与流程

本发明涉及通信技术领域,特别涉及一种基于短信的数据采集方法和数据采集系统。



背景技术:

在用户征信等一些领域领域,电商交易、金融数据等行业数据是极其有价值的,真实的用户行为数据,可以基于这些数据以及电信运营商的大数据结合,做精准营销和征信业务的开展。但是,用户的这些行为数据是各公司(例如京东、滴滴等)的核心资产,作为电信运营商难以通过各公司来获取。

当用户在电商、金融行业进行注册、交易等行为时,相应公司通常会通过行业短信的方式实时通知用户,该短信中含有交易信息,若能获取到这些行业短信,则可获取到相应的数据。

然而,为保证用户的隐私,短信内容不得保存。由此可见,如何来获取这些行业短信并提取出相应的有价值数据,是本领域技术人员亟需解决的技术问题。



技术实现要素:

本发明旨在至少解决现有技术中存在的技术问题之一,提供一种基于短信的数据采集方法和数据采集系统。

为实现上述目的,本发明提供了一种基于短信的数据采集方法,包括:

接收安全汇聚网关发送的短信数据,所述短信数据包括:短信属性信息和短信文本;

根据预先设置的模版库判断所述短信数据是否为特定商户用户发送的预设类型的行业短信,所述模版库中存储有各特定商户用户所发送的所述预设类型的行业短信的模版,所述模版包括对应的所述预设类型的行业短信中的若干个关键词;

若判断出所述短信数据是所述特定商户用户发送的预设类型的行业短信时,则根据所述短信数据对应的模版提取所述短信文本中的关键词和位于部分关键词之后的数值数据;

将所述短信属性信息提取出的所述关键词和所述数值数据按照预设格式生成记录文件。

可选地,所述短信属性信息包括:发送号码;

所述根据预先设置的模版库判断所述短信数据是否为特定商户用户发送的预设类型的行业短信的步骤包括:

根据预先设置的特定商户接入号列表和所述发送号码判断所述短信数据是否为特定商户用户发送的行业短信,所述特定商户接入号列表记载有若干个特定商户用户的接入号;

若判断出所述短信数据为特定商户用户发送的行业短信时,则确定所述短信数据所对应的特定商户用户,并从所述模版库中调取出该特定商户用户对应的所述预设类型的行业短信的若干个模版;

将所述短信文本与调取出的各模版分别进行匹配;

若所述短信文本与调取出的一个模版匹配成功时,则识别出所述短信数据为特定商户用户发送的预设类型的行业短信。

可选地,所述根据预先设置的特定商户接入号列表和所述发送号码判断所述短信数据是否为特定商户用户发送的行业短信的步骤包括:

查询所述特定商户接入号列表中是否存在所述发送号码;

若能够从所述特定商户接入号列表中查询出所述发送号码,则判断出所述短信数据为特定商户用户发送的行业短信,若不能从所述特定商户接入号列表中查询出所述发送号码,则判断出所述短信数据不为特定商户用户发送的行业短信。

可选地,所述查询所述特定商户接入号列表中是否存在所述发送号码的步骤之前还包括:

判断所述发送号码是否为手机号;

若判断出所述发送号码不为手机号,则执行所述查询所述特定商户接入号列表中是否存在所述发送号码的步骤。

可选地,所述根据预先设置的特定商户接入号列表和所述发送号码判断所述短信数据是否为特定商户用户发送的行业短信的步骤之前还包括:

从行业网关中同步所述特定商户接入号列表。

可选地,所述将所述短信属性信息、提取出的所述关键词和所述数值数据按照预设格式生成记录文件的步骤之后还包括:

将接收到的所述短信数据丢弃。

为实现上述目的,本发明还提供了一种基于短信的数据采集系统,包括:

短信接口模块,用于接收安全汇聚网关发送的短信数据,所述短信数据包括:短信属性信息和短信文本;

短信判断模块,用于根据预先设置的模版库判断所述短信数据是否为特定商户用户发送的预设类型的行业短信,所述模版库中存储有各特定商户用户所发送的所述预设类型的行业短信的模版,所述模版包括所述预设类型的行业短信的关键词;

数据提取模块,用于若所述短信判断模块判断出所述短信数据是所述特定商户用户发送的预设类型的行业短信时,则根据所述短信数据对应的模版提取所述短信文本中的关键词和位于部分关键词之后的数值数据;

记录生成模块,用于将所述短信属性信息、所述数据提取模块提取出的所述关键词和所述数值数据按照预设格式生成记录文件。

可选地,所述短信属性信息包括:发送号码;

所述短信判断模块包括:

行业短信判断单元,用于根据预先设置的特定商户接入号列表和所述发送号码判断所述短信数据是否为特定商户用户发送的行业短信,所述特定商户接入号列表记载有若干个特定商户用户的接入号;

模版调取单元,用于若所述行业短信判断单元判断出所述短信数据为特定商户用户发送的行业短信时,则确定所述短信数据所对应的特定商户用户,并从所述模版库中调取出该特定商户用户对应的所述预设类型的行业短信的若干个模版;

模版匹配单元,用于将所述短信文本与调取出的各模版分别进行匹配,其中,若所述短信文本与调取出的一个模版匹配成功时,则判断出所述短信数据为特定商户用户发送的预设类型的行业短信。

可选地,所述行业短信判断单元包括:

号码查询子单元,用于查询所述特定商户接入号列表中是否存在所述发送号码;其中,若能够从所特定商户接入号列表中查询出所述发送号码,则识别出所述短信数据为特定商户用户发送的行业短信,若不能从所述特定商户接入号列表中查询出所述发送号码,则判断出所述短信数据不为特定商户用户发送的行业短信。

可选地,所述行业短信判断单元还包括:

手机号判断子单元,用于判断所述发送号码是否为手机号;

所述号码查询子单元用于若所述手机号判断子单元判断出所述发送号码不为手机号时,查询所述特定商户接入号列表中是否存在所述发送号码。

可选地,还包括:商户接入号信息管理模块,用于从行业网关中同步所述特定商户接入号列表。

本发明具有以下有益效果:

本发明提供了一种基于短信的数据采集方法和数据采集系统,其中,该数据采集方法包括:接收安全汇聚网关发送的短信数据;根据预先设置的模版库判断短信数据是否为特定商户用户发送的预设类型的行业短信;若判断出短信数据是特定商户用户发送的预设类型的行业短信时,则根据短信数据对应的模版提取短信文本中的关键词和位于部分关键词之后的数值数据;将短信属性信息、提取出的关键词和数值数据按照预设格式生成记录文件。本发明的技术方案可在不影响现有的短信业务的前提下,实现对部分短信中的有价值数据进行提取。

附图说明

图1为本发明实施例一提供的一种基于短信的数据采集方法的流程图;

图2为本发明实施例二提供的一种基于短信的数据采集方法的流程图;

图3为本发明实施例三提供的一种数据采集系统的结构示意图。

具体实施方式

为使本领域的技术人员更好地理解本发明的技术方案,下面结合附图对本发明提供的一种基于短信的数据采集方法和数据采集系统进行详细描述。

在现有的短信业务通信中,普通用户通过手机号来发送普通短信,商户用户通过接入号来发送行业短信。具体地,普通用户和商户用户均通过短信联网接口协议(Short Message Gateway Interface Protocol,简称SGIP)将短信发送给短信中心,短信中心将短信数据发送给安全汇聚网关,安全汇聚网关将短信数据同时发送给业务逻辑系统和垃圾短信系统,业务逻辑系统根据其业务逻辑返回短息中心是否可以下发,垃圾短信系统对短信内容进行关键字或者语义分析,返回给短信中心是否可以下发。当业务逻辑系统和垃圾短信系统都返回可以下发指令后,短信中心通过信令网,将短信发给终端。

本发明的技术方案可在不影响现有的短信业务的前提下,实现对部分短信(特定商户用户所发送的预设类型的行业短信)中的有价值数据进行提取。此外,该数据采集方法也没有违背电信运营商不允许对用户的短信进行保存的相关规定。

需要说明的是,本发明中的“特定商户用户”是指根据实际需求预先确定的一些商户用户,这些特定商户用户通过统一的行业网关进行数据通信。相应地,行业网关中存在记载有这些特定商户用户的接入号的特定商户接入号列表。

此外,对于电信运营商而言,特定商户用户所发送的所有行业短信并非都包含有价值数据(例如:推送广告的行业短信),因此需要前提确定一些具有价值数据的行业短信的类型(例如:消费类型的行业短信、注册类型的行业短信),这些具有价值数据的行业短信一般具备相应的格式、关键词。

本发明中的“预设类型的行业短信”具体是指具备某些特定格式、关键词的行业短信,其可根据实际需求进行相应的设定。在本发明中,可以通过前期对这些预设类型的行业短信进行采集归类,以生成各不同预设类型的行业短信分别对应的模版,并形成模版库,其中各模版均包含对应的行业短信中的若干个关键词,该关键词可以选自对应的行业短信中所包含的特定商户用户的名称、类型、行为动词等。其中,对于各模版中关键词的选取,可以根据需要进行相应的设定。

例如,针对招商银行发送给用户的转账、收款、支出、取现的行业短信的模板可分别设置为:

{陆金所,P2P,投资};

针对Uber发送给用户的注册、爽约责任、支付的行业短信的模板可分别设置为:

{Uber,打车,注册};

{Uber,打车,爽约责任};

{Uber,打车,支付};

针对交通银行发送给用户的信用卡消费的行业短信的模板可以设置为:

{交通银行,信用卡,消费};

在本发明中,对于同一特定商户用户其所对应的预设类型的行业短信的模版可以为1个或多个,各模版所包含关键词的数量也不作限定。

需要说明的是,上述设置的各模版仅起到示例性作用,其不会对本发明的技术方案产生限制。本领域技术人员应该知晓的是,在实际应用中,可以根据实际需要来设置各特定商户用户的预设类型的行业短信的模版。

实施例一

图1为本发明实施例一提供的一种基于短信的数据采集方法的流程图,如图1所示,该数据采集方法基于相应的数据采集系统,该数据采集系统与现行的短信业务网络中的安全汇聚网关和行业网关均连接,该数据采集方法包括:

步骤101、接收安全汇聚网关发送的短信数据。

在本实施例中,安全汇聚网关在向业务逻辑系统和垃圾短信系统转发送短信数据的同时,还将同样的短信数据转发给了本发明中的数据采集系统,其中短信数据包括:短信属性信息和短信文本。由于该数据采集系统与现行的向业务逻辑系统和垃圾短信系统为并列关系,因而不会影响现有的短信业务。

其中,短信属性信息是指描述短信文本相应属性的信息,其一般记载有短信的发送号码、接收号码、发送时间等相关信息。

需要说明的是,由于安全汇聚网关会将所有的短信数据都进行转发,因此数据采集系统会接收到短信业务网络中的所有短信数据,这些短信数据可被大致可分为三类:非行业短信、一般商户用户发送的行业短信和特定商户用户发送的行业短信,其中,特定商户用户发送的行业短信包括:预设类型的行业短信和非预设类型的行业短信。而本发明中,仅对特定商户用户发送的预设类型的行业短信进行数据采集。

步骤102、根据预先设置的模版库判断短信数据是否为特定商户用户发送的预设类型的行业短信。

其中,模版库中存储有各特定商户用户所发送的各预设类型的行业短信的模版,各模版均包括对应的行业短信中的若干个关键词。

当数据采集系统接收到短信业务网络转发的一条短信数据后,会根据预先设置的模版库来判断其所接收到的短信数据是否为特定商户用户发送的预设类型的行业短信。具体地,可将接收到的短信数据的短信文本与模版库中的各模版进行逐一匹配(进行关键词匹配),若能成功匹配到某一模版,则可以判断出该短信数据为特定商户用户所发送的预设类型的行业短信,此时执行下述步骤103;若该短信数据中的短信文本与模版库中的各模版均不匹配,则判断出该短信数据不为特定商户用户所发送的预设类型的行业短信,此时执行下述步骤105。

步骤103、根据短信数据对应的模版提取短信文本中的关键词和位于部分关键词之后的数值数据。

在步骤103中,通过上述步骤102所确认的短信数据对应的模版,提取短信文本中的关键词和位于部分关键词之后的数值数据。在实际应用中,一些关键词后面一般不会存在数值数据,例如:“陆金所”“Uber”“银行”“信用卡”等;而另一些关键词后面则会存在数值数据,例如:“投资”“支出”“余额”等,这些关键词的后面会带有相应的数值数据,而这些数值数据具有较大的价值。

步骤104、将短信属性信息、提取出的关键词和数值数据按照预设格式生成记录文件。

将步骤101中获取到的短信属性信息,以及步骤103中提取出的各关键词和位于部分关键词之后的数值数据,按照预设格式产生记录文件,以供大数据平台进行采集。

在本实施例中,以步骤101中的短信属性信息包括:发送号码、接收号码、发送时间,步骤102中所确认的短信数据对应的模版为:

{陆金所,p2p,投资}

为例,则通过步骤104进行数据提取后生成的记录文件的格式可以为:

{发送号码,接收号码,发送时间,陆金所,P2P,投资,金额}

当然,在本实施例中,也可以针对各商户行为类型为其对应的数值数据(金额)配置额度等级,并在记录文件中进行体现。

例如,针对陆金所的用户的“投资”行为,数值数据在0~500000之间的值对应额度等级“0”,数值数据在500001~1000000之间的值对应额度等级“1”……依次类推,此时,生成的记录文件的格式可以为:

{发送号码,接收号码,发送时间,陆金所,P2P,投资,额度等级}

针对交通银行信用卡用户的“消费”行为,

也可以预先为数值数据(金额)配置对应的额度等级,数值数据在0~2000之内的对应额度等级“a”,数值在2001~5000之见的对应额度等级“b”……此时,生成的记录文件的格式可以为:

{发送号码,接收号码,发送时间,交通银行,信用卡,金额,额度等级}

需要说明的是,上述所示的记录文件的格式仅起到示例性作用,其不会对本发明的技术方案产生限制。本领域技术人员应该知晓的是,在实际应用中,可以根据实际需要来设置生成的记录文件的格式。

此外,本实施例中也可以根据实际需要有选择性的将记录文件中的部分短信属性信息剔除,以优化记录文件。

步骤105、将接收到的短信数据丢弃。

在本实施例中,无论短信数据是否有被进行数据提取,其最终均会被数据采集系统丢弃,即数据采集系统中没有对短信数据进行保存。

本发明实施例一提供了一种基于短信的数据采集方法,可在不影响现有的短信业务的前提下,实现对部分短信中的有价值数据进行实时分析。

实施例二

图2为本发明实施例二提供的一种基于短信的数据采集方法的流程图,如图2所示,该数据采集方法基于相应的数据采集系统,该数据采集系统与现行的短信业务网络中的安全汇聚网关和行业网关均连接,该数据采集方法包括:

步骤100、从行业网关中同步特定商户接入号列表。

行业网关中存在记载有这些特定商户用户的接入号的特定商户接入号列表,数据采集系统可向该行业网关同步该特定商户接入号列表。

步骤101、接收安全汇聚网关发送的短信数据。

其中,短信数据包括:短信属性信息和短信文本,短信属性信息包括:发送号码、接收号码和发送时间。

需要说明的是,本实施例中步骤100和步骤101的执行顺序在本发明中不作限制,即步骤100可先于步骤101执行,或后于步骤101执行,或与步骤101同时执行。

步骤102a、根据特定商户接入号列表和发送号码判断短信数据是否为特定商户用户发送的行业短信。

可选地,步骤102a包括:

步骤102aa、判断发送号码是否为手机号;

通过判断短信数据中的发送号码是否满足手机号码的格式,可判断该发送号码是否为手机号。若满足手机号码的格式,则可以判断出该发送号码为手机号,相应地,该短信数据不是特定商户用户所发送的预设类型的行业短信,此时执行步骤105;若不满满足手机号码的格式,则可以判断出该发送号码不为手机号(即为商户用户的接入号),此时执行步骤102ab。

步骤102ab、查询特定商户接入号列表中是否存在该短信数据中的发送号码。

在步骤102ab中,若能够从所特定商户接入号列表中查询出发送号码,则判断出短信数据为特定商户用户发送的行业短信,若不能从特定商户接入号列表中查询出发送号码,则判断出该短信数据不为特定商户用户发送的行业短信。

需要说明的是,本实施例中当步骤102a中仅包括步骤102ab时,也能实现对短信数据是否为特定商户用户发送的行业短信的判断,上述步骤102a中包括步骤102aa和步骤102ab的情况为本发明中的优选情况。在实际应用中,数据采集系统会不断的接收到安全汇聚网关发送的短信数据,若针对每个短信数据中的接入号均进行一次查表(即步骤102ab),由于查表过程需要占用较多的运算资源,则会导致数据采集系统的运算负载较大,而本实施例中,通过步骤102aa可以很快的将普通用户发送的短信识别出来,并直接丢弃,即不再进行后续的查表工作,从而可有效降低数据采集系统的运算负载。

在步骤102a中,若判断出短信数据为特定商户用户发送的行业短信时,则执行下述步骤102b;若判断出短信数据为特定商户用户发送的行业短信时,则执行下述步骤105。

步骤102b、从模版库中调取出该特定商户用户对应的预设类型的行业短信的若干个模版。

通过在步骤102中确定短信数据所对应的特定商户用户,从模板库中调取出该特定商户用户对应的预设类型的行业短信的若干个模版。

步骤102c、将短信文本与调取出的各模版分别进行匹配。

与上述实施例一中直接将短信文本与模版库中的各模版进行逐一匹配的技术手段相比,本实施例中通过步骤102a和步骤102b先对模版进行提起,然后再通过步骤102c进行匹配,可以有效的减少短信文本的模版匹配次数,从而有效降低数据采集系统的运算负载。

在步骤102中,若短信文本与调取出的一个模版匹配成功时,则判断出该短信数据为特定商户用户发送的预设类型的行业短信,此时执行下述步骤103;否则判断出该短信数据不为特定商户用户发送的预设类型的行业短信,此时执行下述步骤105。

步骤103、根据短信数据对应的模版提取短信文本中的关键词和位于部分关键词之后的数值数据;

步骤104、将短信属性信息、提取出的关键词和数值数据按照预设格式生成记录文件。

步骤105、将接收到的短信数据丢弃。

对于本实施例中步骤103~步骤105的具体描述,可参加上述实施例一中相应内容,此处不再赘述。

本发明实施例二提供了一种基于短信的数据采集方法,可在不影响现有的短信业务的前提下,实现对部分短信中的有价值数据进行提取,此外,该数据采集方法也没有违背电信运营商不允许对用户的短信进行保存的相关规定。

实施例三

图3为本发明实施例三提供的一种数据采集系统的结构示意图,如图3所示,该数据采集系统与现行的短信业务网络中的安全汇聚网关和行业网关均连接,该数据采集系统包括:短信接口模块1、短信判断模块2、数据提取模块3和记录生成模块4。

其中,短信接口模块1用于接收安全汇聚网关发送的短信数据,短信数据包括:短信属性信息和短信文本。短信属性信息是指描述短信文本相应属性的信息,具体可包括:短信的发送号码、接收号码、发送时间等相关信息。

短信判断模块2用于根据预先设置的模版库判断短信数据是否为特定商户用户发送的预设类型的行业短信,模版库中存储有各特定商户用户所发送的预设类型的行业短信的模版,模版包括预设类型的行业短信的关键词。

数据提取模块3用于若短信判断模块2判断出短信数据是特定商户用户发送的预设类型的行业短信时,则根据短信数据对应的模版提取短信文本中的关键词和位于部分关键词之后的数值数据。

记录生成模块4用于将短信属性信息、数据提取模块提取出的关键词和数值数据按照预设格式生成记录文件。

需要说明的是,本实施例中的短信接口模块1用于执行上述实施例一中的步骤101,短信判断模块2用于执行上述实施例一中的步骤102,数据提取模块3用于执行上述实施例一中的步骤103,记录生成模块4用于执行上述实施例一中的步骤104,对于各模块的具体工作过程可参见前述实施例一中相应内容,此处不再赘述。

本实施例提供的数据采集系统可在不影响现有的短信业务的前提下,实现对部分短信中的有价值数据进行提取。

可选地,短信属性信息包括:发送号码,该数据采集系统还包括:商户接入号信息管理模块6,商户接入号信息管理模块6用于从行业网关中同步特定商户接入号列表。其中,该商户接入号信息管理模块6用于执行上述实施例二中的步骤100,具体描述可参见上述实施例二中相应内容,此处不再赘述。

可选地,该数据采集系统还包括:数据处理模块5,该数据处理模块5用于在短信判断模块2判断出短信数据不是特定商户用户发送的预设类型的行业短信时,以及在记录生成模块4生成记录文件之后,将接收到的短信数据丢弃。其中,该数据处理模块5用于执行上述实施例一中的步骤105,具体描述可参见上述实施例一中相应内容,此处不再赘述。

在本实施例中,由于数据采集系统所接收各短信数据均会被丢弃,即数据采集系统中没有对短信数据进行保存,因而没有违背工信部所要求的电信运营商不允许对用户的短信进行保存的相关规定。

可选地,短信判断模块包括:行业短信判断单元21、模版调取单元22和模版匹配单元23。

其中,行业短信判断单元21用于根据预先设置的特定商户接入号列表和发送号码判断短信数据是否为特定商户用户发送的行业短信,特定商户接入号列表记载有若干个特定商户用户的接入号;

模版调取单元22用于若行业短信判断单元21判断出短信数据为特定商户用户发送的行业短信时,则确定短信数据所对应的特定商户用户,并从模版库中调取出该特定商户用户对应的预设类型的行业短信的若干个模版;

模版匹配单元23用于将短信文本与调取出的各模版分别进行匹配,其中,若短信文本与调取出的一个模版匹配成功时,则判断出短信数据为特定商户用户发送的预设类型的行业短信,否则判断出短信数据为不为特定商户用户发送的预设类型的行业短信。

进一步可选地,该行业短信判断单元21包括:手机号判断子单元21a和号码查询子单元21b。

其中,手机号判断子单元21a用于判断发送号码是否为手机号。若手机号判断子单元判断出发送号码为手机号时,数据处理模块5将该发送号码对应的短信数据丢弃。

号码查询子单元21b用于若手机号判断子单元21a判断出发送号码不为手机号时,查询特定商户接入号列表中是否存在发送号码;其中,若能够从所特定商户接入号列表中查询出发送号码,则判断出短信数据为特定商户用户发送的行业短信,若不能从特定商户接入号列表中查询出发送号码,则判断出短信数据不为特定商户用户发送的行业短信。

需要说明的是,本实施例中的行业短信判断单元21用于执行上述实施例二中的步骤102a,手机号判断子单元21a用于执行上述实施例二中的步骤102aa,号码查询子单元21b用于执行上述实施例二中的步骤102ab,模版调取单元22用于执行上述实施例二中的步骤102b,模版匹配单元23用于执行上述实施例二中的步骤102c,对于各单元的具体工作过程可参见前述实施例二中相应内容,此处不再赘述。

本发明实施例三提供了一种基于短信的数据采集系统,可在不影响现有的短信业务的前提下,实现对部分短信中的有价值数据进行提取,此外,该数据采集系统也没有违背电信运营商不允许对用户的短信进行保存的相关规定。

可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1