信息识别方法及系统、移动通信网络的制作方法

文档序号:8384319阅读:328来源:国知局
信息识别方法及系统、移动通信网络的制作方法
【技术领域】
[0001]本发明涉及通信技术领域,尤其涉及一种信息识别方法及系统、移动通信网络。
【背景技术】
[0002]作为移动通信领域中的一项基本业务,短信息为人们提供了简单、快速、便捷、及时的通信服务,并成为当下一种非常重要的通信方式。然而,在信息业务为人们生活带来方便快捷的同时,垃圾信息也变得愈演愈烈,甚至严重影响了用户日常的正常使用。
[0003]举例而言,垃圾信息的发送者为了快速、大范围的发送垃圾信息通常利用短信群发设备来发送垃圾信息。相关设备可以同时控制多张SM卡,并且群发发送大量信息给不同的接收者。
[0004]为了识别并拦截相应的垃圾信息,现有技术通常采用下列几种方法:1、基于关键字检测,该方法通过设置常见的垃圾信息关键字、关键字长度、关键字出现频率等进行检测;2、基于用户发送模式检测,该方法通过用户发送信息的数量、内容重复度、发送号码的分布比等进行检测;3、基于用户账号信誉评估检测:该方法通过用户的信用度、其他用户的举报、业务使用情况等进行检测。
[0005]然而,发明人发现现有技术中至少存在如下问题:现有的信息识别或检测方法虽然在一定程度上可以识别出垃圾信息,但是在识别过程中依然存在着很多缺点,例如:基于关键字检测需要对关键字数据库进行维护,误报率较高、时延随关键字数量显著增长;基于用户发生模式检测阈值难以合理设置,容易对热点转发的信息进行误检;而基于用户账号信誉评估检测则不能达到及时发现并处理垃圾信息等。因此,现有信息识别方法并不完善。

【发明内容】

[0006]本发明的实施例提供一种信息识别方法及系统、移动通信网络,该信息识别方法以及系统可以较为准确的识别出垃圾信息,同时降低了误报率以及漏报率,从而有效的提高移动通信网络对垃圾信息的处理能力。
[0007]为解决上述技术问题,本发明的实施例采用如下技术方案:
[0008]一种信息识别方法,包括:
[0009]对待检信息进行聚类划分,将包含信息的数量大于第一阈值且包含的信息与聚类中心的距离小于第二阈值的所述聚类标记为可疑聚类;
[0010]对所述可疑聚类进行重复内容检测,将重复数量大于第三阈值的信息标记为重复信息;
[0011]提取所述重复信息的位置数据,当有任意一个位置的出现次数超过第四阈值时,统计所述重复信息的分布情况;当不存在任意一个位置的出现次数超过第四阈值时,提取所述重复信息的主叫号码并做去重处理;当去重后的主叫号码的个数超过第五阈值时,统计所述重复信息的分布情况;
[0012]根据所述重复信息的分布情况,当某一位置内的重复信息所占比例超过第六阈值时,则将该位置内的重复信息标记为垃圾信息,否则将该位置内的重复信息标记为正常信肩、O
[0013]进一步的,所述的信息识别方法,还包括:
[0014]当去重后的主叫号码的个数不超过第五阈值时,将所述重复信息标记为重传待检测信息,等待用户进行重传;
[0015]当超时未收到重传信息时,则将所述待检测信息标记为垃圾信息;否则将所述待检测信息标记为正常信息。
[0016]进一步的,在对待检信息进行聚类划分之前,所述的信息识别方法,还包括:对所述待检信息进行预处理,从而去除所述待检信息中包含的干扰字符。
[0017]进一步的,在对待检信息进行预处理之前,所述的信息识别方法,还包括:判断所述待检信息的主叫号码是否属于黑白名单;当所述待检信息的主叫号码属于黑名单时,则将所述待检信息标记为垃圾信息;当所述待检信息的主叫号码属于白名单时,则将所述待检信息标记为正常信息。
[0018]优选的,统计所述垃圾信息的主叫号码以及位置数据,产生告警并上报。
[0019]优选的,所述位置数据包括位置区域码以及小区识别码。
[0020]本发明实施例还提供了一种信息识别系统,包括:
[0021]聚类单元,用于对待检信息进行聚类划分,从而将包含信息的数量大于第一阈值且包括的信息与聚类中心距离小于第二阈值的所述聚类标记为可疑聚类;
[0022]重复度检测单元,用于对所述可疑聚类进行重复内容检测,从而将重复数量大于第三阈值的信息标记为重复信息;
[0023]通信单元,用于提取所述重复信息的发送用户的位置数据;
[0024]判断单元,用于当有任意一个位置的出现次数超过第四阈值时,统计所述重复信息的分布情况;还用于当不存在任意一个位置的出现次数超过第四阈值时,提取所述重复信息的主叫号码并做去重处理;当去重后的主叫号码的个数超过第五阈值时,统计所述重复信息的分布情况;根据所述重复信息的分布情况,当某一位置内的重复信息所占比例超过标定值时,则将该位置内的重复信息标记为垃圾信息,否则将该位置内的重复信息标记为正常信息。
[0025]进一步的,所述的信息识别系统,还包括:
[0026]重传控制单元,用于在判断单元判断出当去重后的主叫号码的个数不超过第五阈值时,将所述重复信息标记为重传待检测信息,等待用户进行重传;
[0027]当超时未收到重传信息时,则将所述待检测信息标记为垃圾信息;否则将所述待检测信息标记为正常信息。
[0028]进一步的,所述的信息识别系统,还包括:
[0029]预处理单元,用于对所述待检信息进行预处理,从而去除所述待检信息中包括的干扰字符。
[0030]另一方面,本发明实施例还提供了一种移动通信网络,包括上述所述的信息识别系统,所述信息识别系统部署于信息中心的旁路。
[0031]本发明实施例提供的一种信息识别方法及系统、移动通信网络,其中该信息识别方法包括聚类划分、重复内容检测、位置分布以及信息重传等步骤,并在对应步骤中设置相关的阈值,从而将待检信息划分为垃圾信息或者正常信息。在所述信息识别方法中,其识别工作是根据信息的内容重复、信息的位置数据以及信息分布情况等多个特征而完成的,因此利用该方法进行垃圾识别时准确率更高,有效的提高了移动通信网络对垃圾信息的处理能力。
【附图说明】
[0032]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0033]图1为本发明实施例的信息识别方法的流程示意图;
[0034]图2为本发明实施例的信息识别系统的结构框图;
[0035]图3为本发明实施例的移动通信网络的结构框图。
【具体实施方式】
[0036]本发明的实施例提供一种信息识别方法及系统、移动通信网络,该信息识别方法以及系统可以较为准确的识别出垃圾信息,同时降低了误报率以及漏报率,从而有效的提高了移动通信网络对垃圾信息的处理能力。
[0037]以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透切理解本发明。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
[0038]下面结合下述附图对本发明实施例做详细描述。
[0039]本发明实施例提供了一种信息识别方法,如图1所示,包括:
[0040]步骤SlOl:对待检信息进行聚类划分,将包含信息的数量大于第一阈值且包含的信息与聚类中心的距离小于第二阈值的聚类标记为可疑聚类;
[0041]在本发明实施例提供的信息识别方法中,首先对待检信息进行聚类划分,从而将待检信息划分为多个群组以便继续后续操作。具体的,举例来说,可利用K-means的聚类方法对聚类信息进行划分。
[0042]K-means聚类过程可描述为:选取若干对象作为预设的聚类中心(选取的对象可由数据集抽取生成,或者也从待检信息中提取);然后根据待检信息中包含的文本内容与聚类中心的相似程度决定每个待检信息应该划分到哪个群组中。
[0043]进一步的,在完成聚类划分后可将聚类的重心作为新的聚类中心再次进行聚类,直至聚类的重心不再移动时聚类划分结束。其中,在本步骤对待检信息聚类划分过程中,设置有第一阈值Π以及第二阈值f2作为对聚类进行标记的条件:第一阈值fl为一数量阈值,用于作为标记可疑聚类的信息数量触发条件;第二阈值f2为一距离阈值,代表了信息的相似度,用于作为标记可疑聚类的相似度触发条件(需要说明的是,当信息与聚类中心距离较近时,则说明该信息内容与聚类中心相似程度较高;反之,当信息与聚类中心距离较远时,则说明该信息内容与聚类中心相似程度较低)
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1