标注短信类别的方法及装置的制造方法_3

文档序号:9381289阅读:来源:国知局
明的又一实施例中,接收至少一个客户端上报的至少一种类别的短信之前,可以获取各个客户端所在通信终端当前所在地信息,对各个客户端所在通信终端中的短信接收事件进行监测,判断当前接收到的短信对应的电话号码的归属地是否与通信终端当前所在地相同,如果不相同,则将当前接收到的短信标注为多种类别中的指定类别。
[0118]在本发明的又一实施例中,接收至少一个客户端上报的至少一种类别的短信之前,可以获取各个客户端所在通信终端中保存的通讯录信息,对各个客户端所在通信终端中的短信接收事件进行监测,判断通讯录中是否存在与当前接收到的短信对应的电话号码具有相同归属地和/或地区编码号段的电话号码,如果不存在,则将当前接收到的短信标注为多种类别中的指定类别。
[0119]在步骤S104获取多种类别的短信之后,步骤S106中将多种类别的短信作为训练语料对短信分类器进行训练,本发明实施例提供了一种可选的方案,在该方案中,从多种类别的短信中提取属性特征,随后将提取的属性特征和对应的短信类别输入短信分类器进行训练。这里的属性特征可以是短信文本内容的关键词,短信发送方的电话号码、名称、姓名或电话号码类别等,本发明不作限制。
[0120]在本发明的另一实施例中,步骤S108中服务器端接收到一新短信时,利用训练后的短信分类器将新短信标注为多种类别中的一种。之后,服务器端还将标注的新短信的类别下发给新短信的目的地址对应的客户端。
[0121]此外,本发明实施例中,当服务器将标注的新短信的类别下发给新短信的目的地址对应的客户端之后,可以接收客户端提交的关于标注的新短信的类别的反馈信息,进而根据反馈信息确定是否更新训练语料。例如,若反馈信息为新短信的类别为不同于标注类别的其他类别,则需要确定根据新短信的其他类别更新训练语料,利用更新的训练语料对短信分类器进行训练,以便进一步优化短信分类器,提高短信分类器自动分类的准确率。
[0122]下面通过一具体实施例详细介绍本发明的标注短信类别的方法的实现过程。图2示出了根据本发明另一实施例的标注短信类别的方法的流程图。参见图2,该方法至少可以包括步骤S202至步骤S212。
[0123]步骤S202,采用Liblinear构造多分类的短信分类器,其中,该短信分类器中的各个参数依据短信内容的属性特征进行设置。
[0124]该步骤中,可以调用Liblinear中的动态分类库,利用调用的动态分类库构造多分类的短信分类器,从而实现从二类分类模型到多类分类模型的构造。此外,多分类可以是诈骗类、房产中介类、广告推销类、响一声类、公司电话类、教育培训类、商家促销类或保险类等,本发明不限于此。
[0125]步骤S204,获取人工标注的多种类别的短信,其中,每种类别的短信包含多条。此夕卜,还可以接收至少一个客户端上报的至少一种类别的短信。
[0126]步骤S206,从多种类别的短信中提取属性特征。
[0127]该步骤中,属性特征可以是短信文本内容的关键词,短信发送方的电话号码、名称、姓名或电话号码类别等,本发明不作限制。
[0128]此外,还可以从属性特征为短信发送方的电话号码中提取通信行为的特征,对行为特征数据不进行限制,包括但不限于通话时间、通话时长、被挂断占比、呼入占比、通讯录联系人占比、非长途通话占比、请求通话时向对方的平均请求次数。例如,可以收集200个号码的通话行为(通信行为)的呼入占比(行为特征数据),以及每个号码对应的标签(属性),然后输入短信分类器,训练该短信分类器的各个参数。
[0129]在提取属性特征时,还可以对短信文本内容进行处理,例如,号码D发送的短信文本内容中包含有以下内容……六五八七三二四……”,预设的过滤规则中,规定需要将汉字数字转换为阿拉伯数字,则转换后的短信为“……6587324……”,对转换后的短信进行分词提取,可以顺利提取到“6587324” (词语),根据预设的诈骗号码库,可以发现该号码为诈骗号码,所以可将号码D分类到“诈骗号码”之下。
[0130]步骤S208,将提取的属性特征和对应的短信类别输入短信分类器进行训练,计算短信分类器中的各个参数,得到训练后的短信分类器。
[0131]步骤S210,当接收到一新短信时,利用训练后的短信分类器将新短信标注为多种类别中的一种。
[0132]步骤S212,将标注的新短信的类别下发给新短信的目的地址对应的客户端。
[0133]在步骤S212之后,本发明实施例可以接收客户端提交的关于标注的新短信的类别的反馈信息,进而根据反馈信息确定是否更新训练语料。例如,若反馈信息为新短信的类别为不同于标注类别的其他类别,则需要确定根据新短信的其他类别更新训练语料,利用更新的训练语料对短信分类器进行训练,以便进一步优化短信分类器,提高短信分类器自动分类的准确率。
[0134]另外,本发明实施例提供的上述方案在对短信进行标注后,可以关联该短信的电话号码,从而标注出电话号码的类别。这样,可以应用在来电秀以及各种骚扰电话提醒等手机安全产品中,以尽量避免用户受到骚扰电话的侵扰。例如,对于响一声电话或诈骗电话,一旦用户回拨则可能蒙受经济损失,对于一些房产中介、保险中介等的电话,用户可能根本不想收到类似人群的电话。利用本发明方案,可直接在来电显示中展示企业名称、Logo (标识)等信息,还可展示最近的促销活动等信息,这些信息都可以一并显示给接收到或者正在拨打该电话的用户,使得用户能够获得更丰富的信息,以给用户提供全面的信息提示和操作指导。
[0135]基于同一发明构思,本发明实施例还提供一种标注短信类别的装置。图3示出了根据本发明一实施例的标注短信类别的装置的结构示意图。参见图3,该装置至少可以包括:构造模块310、获取模块320、训练模块330以及标注模块340。
[0136]现介绍本发明实施例的标注短信类别的装置的各组成或器件的功能以及各部分间的连接关系:
[0137]构造模块310,适于采用预置的短信分类规则,构造多分类的短信分类器,其中,短信分类器中的各个参数依据短信的属性特征进行设置;
[0138]获取模块320,与构造模块310相耦合,适于获取多种类别的短信,其中,每种类别的短信包含多条;
[0139]训练模块330,与获取模块320相耦合,适于将多种类别的短信作为训练语料对短信分类器进行训练,计算短信分类器中的各个参数,得到训练后的短信分类器;
[0140]标注模块340,与训练模块330相耦合,适于当接收到一新短信时,利用训练后的短信分类器将新短信标注为多种类别中的一种。
[0141]在本发明一实施例中,构造模块310构造的多分类的短信分类器,其多分类可以是诈骗类、房产中介类、广告推销类、响一声类、公司电话类、教育培训类、商家促销类或保险类等,本发明不限于此。
[0142]在本发明一实施例中,上述构造模块310还适于:
[0143]采用Liblinear构造多分类的短信分类器;或者,
[0144]采用Libsvm构造多分类的短信分类器。
[0145]在本发明一实施例中,上述构造模块310还适于:
[0146]调用Liblinear中的动态分类库;
[0147]利用调用的动态分类库构造多分类的短信分类器。
[0148]在本发明一实施例中,上述获取模块320还适于:
[0149]获取人工标注的多种类别的短信;或者,
[0150]接收至少一个客户端上报的至少一种类别的短信。
[0151]在本发明一实施例中,上述获取模块320包括:
[0152]监测单元,适于在接收至少一个客户端上报的至少一种类别的短信之前,对各个客户端所在通信终端中的短信接收事件进行监测;
[0153]生成单元,适于当监测到陌生电话号码发来的短信时,生成提示用户对陌生电话号码进行标注的提示信息;
[0154]接收单元,适于接收用户对短信的标注类别。
[0155]在本发明一实施例中,上述监测单元还适于:
[0156]获取当前接收的短信对应的电话号码;
[0157]确定当前接收到的短信对应的电话号码不属于预设的黑名单或者白名单中的电话号码时,确定电话号码为陌生电话号码。
[0158]在本发明一实施例中,上述获取模块320包括:
[0159]第一获取单元,适于在接收至少一个客户端上报的至少一种类别的短信之前,获取各个客户端所在通信终端的电话号码的归属地和/或地区编码号段;
[0160]监测单元,适于对各个客户端所在通信终端中的短信接收事件进行监测;
[0161]第一判断单元,适于判断当前接收到的短信对应的电话号码的归属地和/或地区编码号段是否与通信终端的电话号码的归属地和/或地区编码号段相同,如果不相同,则将当前接收到的短信标注为多种类别中的指定类别。
[0162]在本发明一实施例中,上述获取模块320包括:
[0163]第二获取单元,适于在接收至少一个客户端上报的至少一种类别的短信之前,获取各个客户端所在通信终端当前所在地信息;
[0164]监测单元,适于对各个客户端所在通信终端中的短信接收事件进行监测;
[0165]第二判断单元,适于判断当前接收到的短信对应的电话号码的归属地是否与通信终端当前所在地相同,如果不相同,则将当前接收到的短信标注为多种类别中的指定类别。
[0166]在本发明一实施例中,上述获取模块320包括:
[0167]第三获取单元,适于在接收至少一个客户端上报的至少一种类别的短信之前,获取各个客户端所在通信终端中保存的通讯录信息;
[0168]监测单元,适于对各个客户端所在通信终端中的短信接收事件进行监测;
[0169]第三判断单元,适于判断通讯录中是否存在与当前接收到的短信对应的电话号码具有相同归属地和/或地区编码号段的电话号码
当前第3页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1