标注短信类别的方法及装置的制造方法_2

文档序号:9381289阅读:来源:国知局
应的客户端。
[0086]可选地,所述装置还包括:
[0087]接收模块,适于接收所述客户端提交的关于标注的所述新短信的类别的反馈信息;
[0088]处理模块,适于根据所述反馈信息确定是否更新所述训练语料。
[0089]可选地,所述处理模块还适于:
[0090]若所述反馈信息为所述新短信的类别为不同于标注类别的其他类别,则确定根据所述新短信的其他类别更新所述训练语料。
[0091]本发明实施例中,采用预置的短信分类规则,构造多分类的短信分类器,获取多种类别的短信,将多种类别的短信作为训练语料对短信分类器进行训练,计算短信分类器中的各个参数,得到训练后的短信分类器。之后,当接收到一新短信时,利用训练后的短信分类器将新短信标注为多种类别中的一种。由此,本发明实施例能够通过短信分类器对短信进行自动分类和标注,从而解决了现有技术中人工分类和标注费时费力、效率较低的问题。并且,本发明实施例提供的短信分类器是多分类的,能够将短信细分成多种类别,满足短信细分类的需求。进一步,由于多种类别的短信是人工事先标注好的或者客户端的用户提交的,其准确性很高,本发明实施例将多种类别的短信作为训练语料对短信分类器进行训练,保证了短信分类器模型的准确性。
[0092]上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的【具体实施方式】。
[0093]根据下文结合附图对本发明具体实施例的详细描述,本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。
【附图说明】
[0094]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0095]图1示出了根据本发明一实施例的标注短信类别的方法的流程图;
[0096]图2示出了根据本发明另一实施例的标注短信类别的方法的流程图;
[0097]图3示出了根据本发明一实施例的标注短信类别的装置的结构示意图;以及
[0098]图4示出了根据本发明另一实施例的标注短信类别的装置的结构示意图。
【具体实施方式】
[0099]下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0100]为解决上述技术问题,本发明实施例提供了一种标注短信类别的方法。图1示出了根据本发明一实施例的标注短信类别的方法的流程图。参见图1,该方法至少可以包括步骤S102至步骤S108。
[0101]步骤S102,采用预置的短信分类规则,构造多分类的短信分类器,其中,该短信分类器中的各个参数依据短信的属性特征进行设置。
[0102]步骤S104,获取多种类别的短信,其中,每种类别的短信包含多条。
[0103]步骤S106,将多种类别的短信作为训练语料对短信分类器进行训练,计算短信分类器中的各个参数,得到训练后的短信分类器。
[0104]步骤S108,当接收到一新短信时,利用训练后的短信分类器将新短信标注为多种类别中的一种。
[0105]本发明实施例中,采用预置的短信分类规则,构造多分类的短信分类器,获取多种类别的短信,将多种类别的短信作为训练语料对短信分类器进行训练,计算短信分类器中的各个参数,得到训练后的短信分类器。之后,当接收到一新短信时,利用训练后的短信分类器将新短信标注为多种类别中的一种。由此,本发明实施例能够通过短信分类器对短信进行自动分类和标注,从而解决了现有技术中人工分类和标注费时费力、效率较低的问题。并且,本发明实施例提供的短信分类器是多分类的,能够将短信细分成多种类别,满足短信细分类的需求。进一步,由于多种类别的短信是人工事先标注好的或者客户端的用户提交的,其准确性很高,本发明实施例将多种类别的短信作为训练语料对短信分类器进行训练,保证了短信分类器模型的准确性。
[0106]本发明实施例提供的标注短信类别的方法可以应用在服务器端,即在服务器端构造多分类的短信分类器,进而利用训练语料对该多分类的短信分类器进行训练,计算短信分类器中的各个参数,得到训练后的短信分类器。之后,利用训练后的短信分类器对新短信进行分类和标注,将标注结果下发给客户端,这里的训练语料即训练样本。在本发明实施例中,客户端所在的通信终端可以开发一款应用程序与服务器端进行信息交互,该应用程序可以是一个独立的应用程序,也可以是另一应用程序中的一个功能模块。
[0107]上文步骤S102中提及的多分类,可以是诈骗类、房产中介类、广告推销类、响一声类、公司电话类、教育培训类、商家促销类或保险类等,本发明并不限于此。进一步,短信分类器中的各个参数依据短信的属性特征进行设置,例如,可以收集不同类别的短信中文本内容的关键词,即,收集某个或多个关键词代表一种类别的短信,如“教育”、“学习”、“艺术班”、“文化课培训”等关键词作为教育培训类的短信,进而根据这些关键词设置各个参数。又例如,可以收集短信发送方的电话号码,根据电话号码设置各个参数。再如,可以将关键词和电话号码进行结合,设置各个参数,等等。
[0108]这里,根据电话号码设置各个参数,举例来说,可以通过对电话号码进行分类的方式,即将电话号码的分类来表示短信的分类。另外,陌生号码所属的分类信息包括:号码归属地信息和号码所属领域信息,或者号码归属地信息、号码所属领域信息和号码所属使用者的信息。例如:“15210XXXXXX,我爱我家”,则通过预先训练的分类器,通过信息匹配,可以得知此号码的所属分类信息为房产中介。
[0109]服务器可以统计一个星期或者一个月等时间段内多个监测装置上传的同一陌生号码所属的类别,据此可确定该陌生号码的分类信息。例如,云端服务器在一周内接收6次监测装置上报的同一陌生号码,以及该陌生号码的类别,此时有五个监测装置上报的同一陌生号码所属类别为“房产中介”,一个监测装置上报的该陌生号码的类别为“快递”,此时,可判定该陌生号码的分类信息为“房产中介”。
[0110]在本发明实施例中,也可以通过用户设备举报信息确定陌生号码的分类,例如,通过接收用户设备的举报信息,获知来电号码的类型,或者通过判断某一号码拨打的号码多为陌生号码,且通话时间很短(例如,通话时间小于20秒)来确定该号码为骚扰号码。在确定出来电号码的类型之后,对该号码进行标注,从而确定出指示来电号码的类型的标注。
[0111]步骤S102中采用预置的短信分类规则,构造多分类的短信分类器,本发明实施例可以采用Liblinear (线性分类库)构造多分类的短信分类器,或者采用Libsvm(支持向量机分类库)构造多分类的短信分类器。进一步,在采用Liblinear构造多分类的短信分类器时,可以调用Liblinear中的动态分类库,利用调用的动态分类库构造多分类的短信分类器,从而实现了从二类分类模型到多类分类模型的构造。
[0112]进一步,步骤S104中获取多种类别的短信可以通过多种方式来实现,例如可以获取人工标注的多种类别的短信,或者接收至少一个客户端上报的至少一种类别的短信。由于人工事先标注分类好的或者客户端的用户提交的分类短信,其准确性很高,本发明实施例将这些类别的短信作为训练语料对短信分类器进行训练,保证了短信分类器模型的准确性。
[0113]在本发明一实施例中,接收至少一个客户端上报的至少一种类别的短信之前,可以对各个客户端所在通信终端中的短信接收事件进行监测,当监测到陌生电话号码发来的短信时,生成提示用户对陌生电话号码进行标注的提示信息,接收用户对短信的标注类别。这里,可以获取当前接收的短信对应的电话号码,确定当前接收到的短信对应的电话号码不属于预设的黑名单或者白名单中的电话号码时,确定电话号码为陌生电话号码。
[0114]在本实施例中,预先设置的黑名单、白名单中的具体内容本实施例不限定,为了能够根据预先设置的黑、白名单来筛选需要拦截或放行的通信信息,本实施例提供的方法中,黑名单包括需要拦截的号码,用于筛选需要拦截的短信,白名单包括可放行的号码,用于筛选需要放行的短信。预先设置黑名单/白名单时,可根据通讯录中记录的电话号码来设置黑名单/白名单中的号码,或者,将用户输入的号码设置为黑名单/白名单中的号码,本实施例不对设置黑名单/白名单的方式进行限定。
[0115]本发明实施例中,对各个客户端所在通信终端中的短信接收事件进行监测,在具体实现时,通信终端设备中的操作系统一般会为应用程序开放一些接口,供应用程序从系统中获取所需的信息。因此,在本发明实施例中,为了能够对通信终端的短信接收情况进行监测,可以在通信终端中运行一应用程序,然后就可以利用通信终端系统的这一特点,在操作系统中对应用程序进行注册。这样,当操作系统广播通知消息时,应用程序就能够收听到这种通知消息,并从中获取所需的信息。例如,当接收短信时,通信终端的操作系统就会广播该短信接收消息,并携带短信发送方的电话号码,这样,应用程序就能够监测到该事件,并从中获取到短信发送方的电话号码。
[0116]在本发明的另一实施例中,接收至少一个客户端上报的至少一种类别的短信之前,可以获取各个客户端所在通信终端的电话号码的归属地和/或地区编码号段,对各个客户端所在通信终端中的短信接收事件进行监测,判断当前接收到的短信对应的电话号码的归属地和/或地区编码号段是否与通信终端的电话号码的归属地和/或地区编码号段相同,如果不相同,则将当前接收到的短信标注为多种类别中的指定类别,如标记为陌生类别短?目O
[0117]在本发
当前第2页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1