识别特征库获取方法、装置及短消息识别方法、装置的制作方法

文档序号:6619416阅读:254来源:国知局
专利名称:识别特征库获取方法、装置及短消息识别方法、装置的制作方法
技术领域
本发明涉及通信网络的短消息识别技术,特别是一种识别特征库获取方法、装置及短消息识别方法、装置。
背景技术
国家工信部一直对垃圾短信治理高度关注,要求各运营商在全国范围内有针对性地开展自查自纠,切实规范经营行为,坚决制止各类违法违规和侵害用户权益的行为。对运营商及管理部门来说治理垃圾短信除严格管理外,技术手段也是必须的。对于垃圾短信的定义,仁者见仁,智者见智,除了反党反国家,影响国家、人民安定团结,情色有伤社会风化的短信内容一定是垃圾短信外,相同内容的短信,在不同人的眼里对其内容判定是否为垃圾短信是不定的,特别是用于商业促销的广告短信。现有技术中,在运营商侧进行的垃圾短信拦截,只能对内容上反党反国家,影响国家、人民安定团结,情色有伤社会风化的短信,以及主送号码流量上超过门限的垃圾短信进行拦截。无法从手机个人用户的角度去进行,有特色的,个性化的垃圾短信拦截,而如果使用统一的标准来处理,对某些用户而言,或者会产生误删除,或者会产生没有删除的效果, 导致处理效率低下,举例说明如下。假定对于用户A而言,其极端不喜欢某个艺人X,而对于用户B而言,其极端喜欢 X,如果此时有一条关于X的新闻需要以短消息方式推送到用户,在这种情况下,如果设置统一的判别标准,或者该新闻被判别为垃圾短消息不会发送,这样会误删除B想要的消息, 或者该新闻被发送到A和B,但在A看来这就是垃圾短消息,两种方式都存在效率低下的缺点。

发明内容
本发明的目的是提供一种识别特征库获取方法、装置及短消息识别方法、装置,提高短消息识别的效率。为了实现上述目的,本发明实施例提供了一种识别特征库获取方法,包括利用多个来自用户且消息类型预先确定的短消息形成样本集合;对样本集合中的每个短消息进行字符串抽取,得到第一字符串集合;所述第一字符串集合中的每个字符串均不同;针对所述第一字符串集合中的每一个字符串,统计所述样本集合的短消息中包括该字符串的短消息数量;根据统计结果计算字符串对应于短消息类别的互信息;按照互信息从大到小的顺序,从所述第一字符串集合中选择部分或全部字符串形成识别特征库。为了实现上述目的,本发明实施例提供了一种识别特征库获取装置,包括样本集合生成模块,用于利用多个来自用户且消息类型预先确定的短消息形成样本集合;第一字符串抽取模块,用于对样本集合中的每个短消息进行字符串抽取,得到第一字符串集合;所述第一字符串集合中的每个字符串均不同;统计模块,用于针对所述第一字符串集合中的每一个字符串,统计所述样本集合的短消息中包括该字符串的短消息数量;互信息计算模块,用于根据统计结果计算字符串对应于短消息类别的互信息;字符串选择模块,用于按照互信息从大到小的顺序,从所述第一字符串集合中选择部分或全部字符串形成识别特征库。上述的所述字符串对应于短消息类别的互信息MI如下
权利要求
1.一种识别特征库获取方法,其特征在于,包括利用多个来自用户且消息类型预先确定的短消息形成样本集合; 对样本集合中的每个短消息进行字符串抽取,得到第一字符串集合;所述第一字符串集合中的每个字符串均不同;针对所述第一字符串集合中的每一个字符串,统计所述样本集合的短消息中包括该字符串的短消息数量;根据统计结果计算字符串对应于短消息类别的互信息;按照互信息从大到小的顺序,从所述第一字符串集合中选择部分或全部字符串形成识别特征库。
2.根据权利要求1所述的识别特征库获取方法,其特征在于,所述字符串对应于短消息类别的互信息MI如下肩“)令其中tm表示第一字符串集合中的第m个字符串,m = 1,. . .,L,L为所述第一字符串集合中记录的字符串的数量;Ci表示预定义的短消息类别中的第i个类别; MI (tm,Ci)表示tm和类别Ci之间的互信息;P(tm)表示所述样本集合的短消息中包括该字符串tm的短消息的数量与样本集合中的短消息数量的比值;P(Ci)表示所述样本集合的短消息中类别为Ci的短消息的数量与样本集合中的短消息数量的比值;P(tm,Ci)表示所述样本集合中包括该字符串tm,且类别为Ci的短消息的数量与样本集合包括的短消息的数量的比值。
3.一种识别特征库获取装置,其特征在于,包括样本集合生成模块,用于利用多个来自用户且消息类型预先确定的短消息形成样本集合;第一字符串抽取模块,用于对样本集合中的每个短消息进行字符串抽取,得到第一字符串集合;所述第一字符串集合中的每个字符串均不同;统计模块,用于针对所述第一字符串集合中的每一个字符串,统计所述样本集合的短消息中包括该字符串的短消息数量;互信息计算模块,用于根据统计结果计算字符串对应于短消息类别的互信息; 字符串选择模块,用于按照互信息从大到小的顺序,从所述第一字符串集合中选择部分或全部字符串形成识别特征库。
4.根据权利要求3所述的识别特征库获取装置,其特征在于,所述字符串对应于短消息类别的互信息MI如下其中tm表示第一字符串集合中的第m个字符串,m = 1,. . .,L,L为所述第一字符串集合中记录的字符串的数量;Ci表示预定义的短消息类别中的第i个类别; MI (tm,Ci)表示tm和类别Ci之间的互信息;P(tm)表示所述样本集合的短消息中包括该字符串tm的短消息的数量与样本集合中的短消息数量的比值;P(Ci)表示所述样本集合的短消息中类别为Ci的短消息的数量与样本集合中的短消息数量的比值;P(tm,Ci)表示所述样本集合中包括该字符串tm,且类别为Ci的短消息的数量与样本集合包括的短消息的数量的比值。
5.一种利用权利要求1或2所述识别特征库获取方法得到的识别特征库的短消息识别方法,其特征在于,包括获取一待判别短消息,并对待判别短消息进行字符串抽取,得到第二字符串集合; 从所述识别特征库中选择包括于所述第二字符串集合中的字符串组成第三字符串集合;根据样本集合中的第一短消息的消息类型分布情况确定所述待判别短消息在一坐标系中的坐标(χ,y);所述第一短消息为所述样本集合中包括所述第三字符串集合中的字符串的短消息;根据所述坐标(χ,y)与所述坐标系内的标准直线之间的位置来判断所述待判别短消息是否为垃圾短消息;所述标准直线根据所述样本集合中的短消息的类型信息以及第二短消息的消息类型分布情况确定,所述第二短消息为所述样本集合中包括所述特征库中的字符串的短消息。
6.根据权利要求5所述的短消息识别方法,其特征在于,所述标准直线为X-y+C0n= 0,其中Co^log^ll.f MlZAil P{c2} Artllog(I-A2)PicJ表示样本集合中消息类型被预先确定为垃圾短消息的短消息数量与样本集合中短消息数量的比值;p{c2}表示样本集合中消息类型被预先确定为正常短消息的短消息数量与样本集合中短消息数量的比值;Pkl表示样本集合中,包括识别特征库中的第k个特征的短消息属于垃圾短消息的概率;Pk2表示样本集合中,包括识别特征库中的第k个特征的短消息属于正常短消息的概率;k=l,. . .,M,M为所述识别特征库中记录的字符串的数量。
7.根据权利要求5所述的短消息识别方法,其特征在于,所述标准直线包括第一标准直线和第二标准直线,所述第一标准直线为X-y+Con = 0,所述第二标准直线为 α *x-y+ β *Con = 0,其中
8.根据权利要求7所述的短消息识别方法,其特征在于 F= (μ +1) · PR/ ( μ P+R);P = Α/Β ; R = A/C ;A为样本集合中利用所述第二标准直线进行判别时被正确识别为垃圾短消息的短消息数量,B为样本集中利用所述第二标准直线进行判别时被识别为垃圾短消息的短消息数量, C为样本集中被预先定义为垃圾短消息的短消息数量; μ为重要性调整因子,所述μ大于或等于O ; 所述α和β的取值为使得所述F最大的取值。
9.根据权利要求5-8中任意一项所述的短消息识别方法,其特征在于,在获取所述待判别短消息后还包括判断所述待判别短消息的主叫号码是否存在于联系人列表或黑名单列表中; 所述待判别短消息的主叫号码是否存在于联系人列表时,直接保存所述待判别短消息到收件箱后结束;所述待判别短消息的主叫号码存在于黑名单列表时,直接保存所述待判别短消息到垃圾箱后结束;所述待判别短消息的主叫号码既不存在于联系人列表,也不存在于黑名单列表时,进入所述对待判别短消息进行字符串抽取的步骤。
10.一种利用权利要求1或2所述识别特征库获取方法得到的识别特征库的短消息识别装置,其特征在于,包括第二字符串抽取模块,用于获取一待判别短消息,并对待判别短消息进行字符串抽取, 得到第二字符串集合;集合生成模块,用于从所述识别特征库中选择包括于所述第二字符串集合中的字符串组成第三字符串集合;坐标确定模块,用于根据样本集合中的第一短消息的消息类型分布情况确定所述待判别短消息在一坐标系中的坐标(χ,y);所述第一短消息为所述样本集合中包括所述第三字符串集合中的字符串的短消息;识别处理模块,用于根据所述坐标(χ,y)与所述坐标系内的标准直线之间的位置来判断所述待判别短消息是否为垃圾短消息;所述标准直线根据所述样本集合中的短消息的类型信息以及第二短消息的消息类型分布情况确定,所述第二短消息为所述样本集合中包括所述特征库中的字符串的短消息。
11.根据权利要求10所述的短消息识别装置,其特征在于,所述标准直线为x-y+C0n =0,其中
12.根据权利要求10所述的短消息识别装置,其特征在于,所述标准直线包括第一标准直线和第二标准直线,所述第一标准直线为X-y+Con = 0,所述第二标准直线为α *x-y+ β *Con = 0,其中
13.根据权利要求12所述的短消息识别装置,其特征在于 F= (μ +1) · PR/ ( μ P+R); P = Α/Β ; R = A/C ;A为样本集合中利用所述第二标准直线进行判别时被正确识别为垃圾短消息的短消息数量,B为样本集中利用所述第二标准直线进行判别时被识别为垃圾短消息的短消息数量, C为样本集中被预先定义为垃圾短消息的短消息数量; μ为重要性调整因子,所述μ大于或等于0 ; 所述α和β的取值为使得所述F最大的取值。
全文摘要
本发明提供一种识别特征库获取方法、装置及短消息识别方法、装置,该识别特征库获取方法,包括利用多个来自用户且消息类型预先确定的短消息形成样本集合;对样本集合中的每个短消息进行字符串抽取,得到第一字符串集合;所述第一字符串集合中的每个字符串均不同;针对所述第一字符串集合中的每一个字符串,统计所述样本集合的短消息中包括该字符串的短消息数量;根据统计结果计算字符串对应于短消息类别的互信息;按照互信息从大到小的顺序,从所述第一字符串集合中选择部分或全部字符串形成识别特征库。本发明提高了短消息识别的效率。
文档编号G06F17/30GK102572744SQ20101060226
公开日2012年7月11日 申请日期2010年12月13日 优先权日2010年12月13日
发明者万狄飞 申请人:中国移动通信集团设计院有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1