伪基站短信识别方法和装置与流程

文档序号:19456616发布日期:2019-12-20 20:01阅读:138来源:国知局
伪基站短信识别方法和装置与流程
本发明涉及信息安全
技术领域
,特别是涉及一种伪基站短信识别方法和装置。
背景技术
:“伪基站”即假基站,主要设备是电脑主机或者笔记本电脑,伪基站通过短信群发器、短信发信机等相关设备,能够搜取以其为中心、一定半径范围内的手机卡信息,通过伪装成运营商的基站,冒用他人手机号码或短信端口号强行向用户手机发送诈骗短信。诈骗短信比如利用欺骗性文字诱导用户点击钓鱼网站网址、拨打特定的电话号码或者进行银行转账的短信。不法分子通常将“伪基站”设备放置在汽车内,驾车缓慢行驶或将车停在特定区域,进行短信诈骗。目前仍缺少能够有效识别伪基站短信的技术方案,一种折中的方案是短信真实发送方在通过正规渠道发送短信时,会在短信中加入与用户事先约定好的特定标记,用户终端接收到来源于短信真实发送方的短信后,若检测到短信中不存在该特定标记,则认定收到的短信为伪基站短信。然而,目前的伪基站短信识别方案需要短信真实发送方对己方的短信发送设备进行升级改造,以使相应的短信发送设备支持在发送短信时加入特定标记的方案,否则就无法在发送短信时加入特定标记,用户终端就无法识别出伪基站短信,因此不具有通用性。技术实现要素:基于此,有必要针对目前的伪基站短信识别方案不具有通用性的问题,提供一种伪基站短信识别方法和装置。一种伪基站短信识别方法,所述方法包括:获取用户终端接收到的短信;提取所述短信的内容特征;识别提取的内容特征是否为恶意内容特征;若识别到恶意内容特征,则提取所述短信的短信发送方标识;检测提取的所述短信发送方标识是否属于短信发送方标识库,所述短信发送方标识库包括被仿冒的短信发送方标识;若属于,则将所述短信识别为伪基站短信。一种伪基站短信识别装置,所述装置包括:短信获取模块,用于获取用户终端接收到的短信;内容特征提取模块,用于提取所述短信的内容特征;恶意内容特征识别模块,用于识别提取的内容特征是否为恶意内容特征;短信发送方标识提取模块,用于若所述恶意内容特征识别模块识别到恶意内容特征,则提取所述短信的短信发送方标识;短信识别模块,用于检测提取的所述短信发送方标识是否属于短信发送方标识库,所述短信发送方标识库包括被仿冒的短信发送方标识;若属于,则将所述短信识别为伪基站短信。上述伪基站短信识别方法和装置,在获取了用户终端接收到的短信后,对接收到的短信提取内容特征并识别提取的内容特征是否为恶意内容特征,若识别到恶意内容特征,说明接收到的短信具有恶意属性,该短信有可能是伪基站短信。在识别到恶意内容特征后,进一步检测短信的发送方标识是否属于短信发送方标识库。其中短信发送方标识库是被仿冒的短信发送方标识的集合,而被仿冒的短信发送方发送的真实短信是不会具有恶意属性的,因此当检测到发送方标识属于短信发送方标识库且短信具有恶意属性时,就可以判定该短信是伪基站短信。不需要正规的短信发送方对己方的短信发送设备做更改,短信接收端就可以准确地识别出伪基站短信,识别准确率和通用性很强。附图说明图1为一个实施例中伪基站短信识别系统的应用环境图;图2为一个实施例中用户终端的内部结构示意图;图3为一个实施例中伪基站短信识别方法的流程示意图;图4为一个实施例中提取短信的内容特征以及对短信进行分类的步骤的流程示意图;图5为一个实施例中识别提取的内容特征是否为恶意内容特征的步骤的流程示意图;图6为一个实施例中伪基站短信识别装置的结构框图;图7为另一个实施例中伪基站短信识别装置的结构框图;图8为再一个实施例中伪基站短信识别装置的结构框图;图9为又一个实施例中伪基站短信识别装置的结构框图。具体实施方式为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。在一个实施例中,提供了一种伪基站短信识别系统,图1是该伪基站短信识别系统的应用环境图,该系统包括用户终端110和应用服务器120,用户终端110和应用服务器120之间通过网络连接。用户终端110上运行有短信接收应用程序和安全防护应用程序,通过短信接收应用程序接收短信,并通过安全防护应用程序执行一种伪基站短信识别方法。短信真实发送方设备130是真实的短信发送方所使用的用于发送短信的设备,短信真实发送方设备130可与用户终端110建立短信通道,并通过建立的短信通道向用户终端110发送短信。此外,非法分子将电子设备140伪装成短信真实发送方设备130,成为伪基站。作为伪基站的电子设备140可放置在车辆中,随车辆移动。如图2所示,在一个实施例中,提供了一种用户终端110,包括通过系统总线连接的处理器、非易失性存储介质、内存储器、网络接口、显示屏和输入设备。其中处理器具有计算功能和控制用户终端110工作的功能,该处理器被配置为执行一种伪基站短信识别方法,包括:获取用户终端接收到的短信;提取短信的内容特征;识别提取的内容特征是否为恶意内容特征;若识别到恶意内容特征,则提取短信的短信发送方标识;检测提取的短信发送方标识是否属于短信发送方标识库,短信发送方标识库包括被仿冒的短信发送方标识;若属于,则将短信识别为伪基站短信。非易失性存储介质包括磁存储介质、光存储介质和闪存式存储介质中的至少一种。非易失性存储介质存储有操作系统和伪基站短信识别装置。该伪基站短信识别装置用于实现一种伪基站短信识别方法。网络接口用于通过网络连接到应用服务器120,以及通过短信通道接收短信。输入设备可以是物理按键或者与显示屏重叠的触控层,触控层和显示屏构成触控屏。用户终端110包括手机、平板电脑、智能手表或者个人数字助理中的至少一种。如图3所示,在一个实施例中,提供了一种伪基站短信识别方法,该方法可应用于上述图1中的用户终端110或者应用服务器120,本实施例以该方法应用于用户终端110来举例说明。该方法具体包括如下步骤:步骤302,获取用户终端接收到的短信。具体地,用户终端可通过短信接收应用程序来接收短信,并通过安全防护应用程序获取由短信接收应用程序接收的短信。用户终端也可以通过安全防护应用程序直接接收短信。用户终端还可以通过安全防护应用程序扫描获得用户终端事先接收到并存储在本地的短信。其中,短信也可以称为短消息或者短信息,是一种限定了可容纳字符数量并通过特定的传输通道传输的消息结构,一般通过移动通信网络进行传输。短信接收应用程序通常以“短信”、“短消息”或者“sms”(shortmessageservice,短消息服务)命名。安全防护应用程序是对用户终端进行安全防护的应用程序,安全防护应用程序在本实施例中用来识别出伪基站短信,还可以对识别为伪基站短信的短信进行进一步处理。步骤304,提取短信的内容特征。具体地,用户终端可分析短信的内容的结构,从而根据短信的内容的结构从短信的内容中提取出相应的内容特征。内容特征是能够反映出短信的内容特性的特征,内容特征可用来识别短信的恶意属性。其中,内容特征可以是网址、文字构成的关键词或者主要是数字构成的数字串,其中关键词包括单字、词语和词组等各种类型,数字串可以是电话号码、银行账号、身份证号码或者登录账号等。在一个实施例中,步骤304具体包括:按照预定义的各种内容特征类型对应的内容特征组成形式,从短信的内容中提取符合内容特征组成形式的内容特征。具体地,用户终端可获取到预定义的各种类型的内容特征对应的内容特征组成形式,从而将短信的内容与每种类型的内容特征组成形式分别进行匹配,若匹配到则提取相应类型的内容特征。其中内容特征组成形式可以用正则表达式来表示。其中,内容特征的类型比如电话号码、银行账号或者网址等,具体电话号码的内容特征组成形式可以是连续7位或者8位或者11位的数字,银行账号的内容特征组成形式一般是连续16到19位的数字,网址的内容特征组成形式一般是用“.”和“/”分隔开的字符串。连续的数字和网址都可以使用相应的正则表达式进行匹配来识别。举例说明,若短信的内容为:“亲~还记得我吗?我是之前与您联系的银*行经*理,代*款手续简单,当天下/款,超大额度,咨询15919858041【陈经理】”,则可用电话号码的正则表达式识别出电话号码类型的内容特征:“15919858041”。再比如,若短信的内容为“你看看这个相册有印象吗http://188.pe/qyzy”,则可用网址的正则表达式识别出网址类型的内容特征:“http://188.pe/qyzy”。步骤306,识别提取的内容特征是否为恶意内容特征;若否,则执行步骤308;若是,则执行步骤310。具体地,用户终端可对提取的内容特征进行语义分析,以判断提取的内容特征是否具有恶意属性,从而识别出提取的内容特征是否为恶意内容特征。恶意内容特征是认定具有恶意属性的内容特征,比如指向钓鱼网站的网址、假冒短信真实发送方的电话号码或者反动宣传语句等。步骤308,将短信识别为正常短信。具体地,若提取的内容特征未被识别为恶意内容特征,则用户终端可将接收到的短信识别为正常短信。正常短信是与伪基站短信相区别的一种短信分类,用户终端可针对不同的短信分类分别进行不同的处理。步骤310,提取短信的短信发送方标识。具体地,用户终端可根据短信的数据结构,从短信的短信发送方标识字段中提取该短信的短信发送方标识。短信发送方标识可标识出短信的发送方,比如短信发送方的手机号或者短信端口号,短信端口号比如95588、95555、10086以及10010,相应的短信发送方依次为中国工商银行、中国招商银行、中国移动通信公司以及中国联通通信公司。步骤312,检测提取的短信发送方标识是否属于短信发送方标识库,短信发送方标识库包括被仿冒的短信发送方标识;若是,则执行步骤314;若否,则执行步骤316。其中,短信发送方标识库是被仿冒的短信发送方标识的集合,包括知名短信发送方的短信端口号,如上述的95588、95555、10086以及10010,这些短信端口号均是容易被不法分子仿冒的短信发送方标识。短信发送方标识库可通过短信发送方主动上报或者人工提取的方式获得,其中短信发送方主动上报的情况下,可先审核短信发送方的真实身份,审核通过后则接受短信发送方主动上报的短信发送方标识。具体地,用户终端可获取短信发送方标识库,并遍历短信发送方标识库,将遍历的短信发送方标识与提取的短信发送方标识比较,若一致,则判定提取的短信发送方标识属于短信发送方标识库,并停止遍历;若不一致,则继续遍历;若遍历结束仍未在短信发送方标识库中找到与提取的短信发送方标识一致的短信发送方标识,则判定提取的短信发送方标识不属于短信发送方标识库。在一个实施例中,为了加快识别速度,短信发送方标识库中的短信发送方标识进行了分类,用户终端可先确定提取的短信发送方标识的分类,从而在短信发送方标识库中相应分类的短信发送方标识集合中查找一致的短信发送方标识,若查找到则判定提取的短信发送方标识属于短信发送方标识库,否则判定提取的短信发送方标识不属于短信发送方标识库。其中短信发送方标识库中的短信发送方标识可按照短信发送方标识的长度、前缀字符串或者后缀字符串进行分类。步骤314,将短信识别为伪基站短信。具体地,在识别到恶意内容特征的情况下,说明接收到的短信具有恶意属性,接收到的短信有可能是伪基站短信。而短信发送方标识库是被仿冒的短信发送方标识的集合,由于被仿冒的短信发送方发送的真实短信是不会具有恶意属性的,因此当检测到发送方标识属于短信发送方标识库且短信具有恶意属性时,就可以判定接收到的短信是伪基站短信。用户终端可显示短信被识别为伪基站短信的提示。步骤316,将短信识别为恶意短信。具体地,当检测到提取的短信发送方标识不属于短信发送方标识库时,将接收到的短信识别为未能确定为伪基站短信的恶意短信。这里的恶意短信是与正常短信不同的一种短信分类,可使得用户终端根据对接收到的短信的分类分别进行不同的处理。用户终端可显示短信被识别为恶意短信的提示。上述伪基站短信识别方法,在获取了用户终端接收到的短信后,对接收到的短信提取内容特征并识别提取的内容特征是否为恶意内容特征,若识别到恶意内容特征,说明接收到的短信具有恶意属性,该短信有可能是伪基站短信。在识别到恶意内容特征后,进一步检测短信的发送方标识是否属于短信发送方标识库。其中短信发送方标识库是被仿冒的短信发送方标识的集合,而被仿冒的短信发送方发送的真实短信是不会具有恶意属性的,因此当检测到发送方标识属于短信发送方标识库且短信具有恶意属性时,就可以判定该短信是伪基站短信。不需要正规的短信发送方对己方的短信发送设备做更改,短信接收端就可以准确地识别出伪基站短信,识别准确率和通用性很强。如图4所示,在一个实施例中,步骤304具体包括如下步骤402和步骤404,且步骤404之后还包括步骤406:步骤402,将短信的内容进行归一化处理,获得短信内容文本。其中,归一化处理是指将短信的内容进行预处理,将短信的内容规整为具有统一文本形式的短信内容文本,以便于基于短信内容文本进行进一步的处理。在一个实施例中,归一化处理包括:剔除文字分隔符、统一字母大小写以及统一繁简体汉字中的一种或几种的组合。其中文字分隔符是指将文字分隔开的特殊字符,与文字相邻。文字分隔符如单引号、双引号、逗号、句号、惊叹号、问号、书名号、星号、空格符或者横杠等。在进行统一字母大小写时,具体可检测短信的内容中的大写字母,将检测到的大写字母均修改为小写字母;或者可检测短信的内容中的小写字母,将检测到的小写字母均修改为大写字母。在进行统一繁简体汉字时,可检测短信的内容中的繁体汉字,将检测到的繁体汉字均修改为相应的简体汉字;或者可检测短信的内容中的简体汉字,将检测到的简体汉字均修改为繁体汉字。步骤404,根据所述短信内容文本提取内容特征,并获得短信内容文本中除去提取的内容特征的短信文字内容。该步骤中也可以仅提取内容特征而不获取短信内容文本中除去提取的内容特征的短信文字内容。步骤406:根据所述短信文字内容将所述短信进行分类。具体地,用户终端可根据短信文字内容以及短信识别结果对短信进行分类。用户终端可在将短信识别为伪基站短信或者恶意短信时,根据短信文字内容对短信进行进一步分类。比如可将伪基站短信或恶意短信进一步分类为航班诈骗类短信、银行业务诈骗类短信、钓鱼网站诈骗类短信或者仿冒客服诈骗类短信等。用户终端也可以对识别为正常短信的短信进行进一步分类,比如将短信分类为通知类短信或者社交类短信,通知类短信比如银行业务通知短信、花费套餐使用情况通知短信等。通过对短信进行分类,可以对不同分类的短信进行差异化的处理,划分越细致可以使得对短信的处理更加智能化。举例说明,若短信的内容为:“亲~还记得我吗?我是之前与您联系的银*行经*理,代*款手续简单,当天下/款,超大额度,咨询15919858041【陈经理】”,经过归一化处理并提取内容特征后,获得的短信文字内容为:“亲还记得我吗我是之前与您联系的银行经理代款手续简单当天下款超大额度咨询陈经理”,内容特征为电话号码“15919858041”。通过短信文字内容中的“银行经理”、“下款”、“代款”以及“额度”等关键词,可以识别出该短信属于银行业务类短信,若该短信被识别为伪基站短信,则可将该短信分类为银行业务诈骗类伪基站短信。再比如,若短信的内容为“你看看这个相册有印象吗http://188.pe/qyzy”,经过归一化处理并提取内容特征后,获得的短信文字内容为:“你看看这个相册有印象吗”,再结合识别出的内容特征网址http://188.pe/qyzy是恶意内容特征,则可将该短信分类为钓鱼网站诈骗类短信。本实施例中,通过对短信的内容进行归一化处理而获得统一形式的短信内容文本,进而可以获得准确的内容特征和短信文字内容,不仅可以通过提取的内容特征来识别伪基站短信,还可以根据短信文字内容对短信进行进一步分类,使得最终的结果更加精准。如图5所示,在一个实施例中,步骤306具体包括:步骤502,获取恶意内容特征库。具体地,若该方法由运行在用户终端上的安全防护应用程序执行;则步骤502包括:从与安全防护应用程序对应的服务器下载恶意内容特征库。用户终端具体可定期从安全防护应用程序对应的应用服务器下载恶意内容特征库,或者在检测到应用服务器上存在相较于本地的恶意内容特征库更新的恶意内容特征库时,下载更新的恶意内容特征库。其中恶意内容特征库的内容可如下表一所示,包括恶意内容特征和恶意内容特征类型的对应关系:表一:恶意内容特征恶意内容特征类型wap.l0086dgr.com恶意网址wap.psbcgus.com恶意网址4000011548诈骗电话……诈骗电话恶意内容特征库可由服务器在通过网络爬取方式、用户举报方式和人工审核方式中的至少一种方式收集到恶意短信的内容后,从收集的恶意短信的内容提取恶意内容特征而形成。服务器可主动通过网络爬虫爬取恶意短信的内容,服务器也可以接收用户终端通过举报途径上报的恶意短信的内容,服务器的管理员也可以通过人工审核方式主动获得恶意短信的内容。步骤504,从恶意内容特征库中查找与提取的内容特征匹配的恶意内容特征。步骤506,若查找到匹配的恶意内容特征,则将提取的内容特征识别为恶意内容特征。具体地,用户终端可遍历恶意内容特征库,将遍历的恶意内容特征与提取的内容特征比较,若一致,则判定提取的内容特征识别为恶意内容特征,并停止遍历;若不一致,则继续遍历;若遍历结束仍未在恶意内容特征库中查找到与提取的内容特征一致的内容特征,则判定提取的内容特征不是恶意内容特征。通过上述表一所示的恶意内容特征库,不仅可以识别内容特征是否为恶意内容特征,还可以进一步确定恶意内容特征类型,从而将短信进行进一步分类。比如分类为恶意网址短信或者电话诈骗短信等。本实施例中,通过将提取的内容特征与事先建立的恶意内容特征库进行匹配来识别恶意内容特征,可通过动态地补充恶意内容特征库来保证识别恶意内容特征的准确性,便于维护。在一个实施例中,将短信识别为伪基站短信或恶意短信之后,还包括:拦截短信和相应的短信提示;将短信加入已拦截短信列表;定期显示检测到伪基站短信的提示。本实施例中,通过拦截短信和短信提示,可防止用户被伪基站短信或者其它恶意短信骚扰。通过将短信加入已拦截短信列表,方便对拦截的短信进行统一管理。定期显示检测到伪基站短信或恶意短信的提示,可以在尽量少打扰用户的情况下通知用户识别到了伪基站短信,以提醒用户进行相应的处理。定期显示提示具体可以是每隔预设时间段或者每到预设时间点。在一个的实施例中,根据对短信的分类,可以赋予短信相应的危险等级,并在检测到伪基站短信的提示中表示出该危险等级,可以实现智能地对短信进行危险性评估。这里的分类包括正常短信、伪基站短信以及恶意短信的分类,也可以包括根据恶意内容特征类型对短信的分类,还可以包括根据归一化处理获得的短信内容文本对短信的分类。在一个实施例中,用户终端可检测是否连接到网络。若检测到连接到网络,则将短信上传到服务器,比如安全防护应用对应的应用服务器,由服务器执行步骤302至步骤316来获得短信识别结果,并接收服务器反馈的短信识别结果。若检测到未连接到网络或网络状态不符合预期,则直接通过关键词匹配来识别短信是否为恶意短信。其中短信识别结果包括正常短信、伪基站短信和未被识别为伪基站短信的恶意短信。本实施例中,在用户终端连接到网络的情况下,可以通过服务器对短信进行精确地识别,以识别出正常短信、伪基站短信以及恶意短信;而在用户终端离线的情况下,仍能够通过关键词匹配来识别出恶意短信,防止用户终端无法连接到网络时无法进行短信类型的识别。在一个实施例中,该方法应用于应用服务器时,该方法包括:在用户终端接收到短信后,接收用户终端上传的短信;提取短信的内容特征;识别提取的内容特征是否为恶意内容特征;若识别到恶意内容特征,则提取短信的短信发送方标识;检测提取的短信发送方标识是否属于短信发送方标识库,短信发送方标识库包括被仿冒的短信发送方标识;若属于,则将短信识别为伪基站短信;向用户终端反馈对短信的识别结果。举例说明,见表二:参照上述表二,当用户终端接收到表二中短信发送方号码发送的具有相应的短信内容的短信时,从短信内容中提取出相应的内容特征,若提取出的内容特征被识别为恶意特征,且短信发送方号码属于短信发送方标识库中的知名短信端口时,则将相应的短信识别为伪基站短信。如图6所示,在一个实施例中,提供了一种伪基站短信识别装置600,包括:短信获取模块601、内容特征提取模块602、恶意内容特征识别模块603、短信发送方标识提取模块604和短信识别模块605。短信获取模块601,用于获取用户终端接收到的短信。具体地,短信获取模块601可通过短信接收应用程序来接收短信,并获取由短信接收应用程序接收的短信。短信获取模块601也可以直接接收短信。短信获取模块601还可以扫描获得用户终端事先接收到并存储在本地的短信。其中,短信也可以称为短消息或者短信息,是一种限定了可容纳字符数量并通过特定的传输通道传输的消息结构,一般通过移动通信网络进行传输。短信接收应用程序通常以“短信”、“短消息”或者“sms”命名。伪基站短信识别装置600可包括于安全防护应用程序,安全防护应用程序是对用户终端进行安全防护的应用程序,安全防护应用程序在本实施例中用来识别出伪基站短信,还可以对识别为伪基站短信的短信进行进一步处理。内容特征提取模块602,用于提取短信的内容特征。具体地,内容特征提取模块602可分析短信的内容的结构,从而根据短信的内容的结构从短信的内容中提取出相应的内容特征。内容特征是能够反映出短信的内容特性的特征,内容特征可用来识别短信的恶意属性。其中,内容特征可以是网址、文字构成的关键词或者主要是数字构成的数字串,其中关键词包括单字、词语和词组等各种类型,数字串可以是电话号码、银行账号、身份证号码或者登录账号等。在一个实施例中,内容特征提取模块602具体用于按照预定义的各种内容特征类型对应的内容特征组成形式,从短信的内容中提取符合内容特征组成形式的内容特征。具体地,内容特征提取模块602可获取到预定义的各种类型的内容特征对应的内容特征组成形式,从而将短信的内容与每种类型的内容特征组成形式分别进行匹配,若匹配到则提取相应类型的内容特征。其中内容特征组成形式可以用正则表达式来表示。其中,内容特征的类型比如电话号码、银行账号或者网址等,具体电话号码的内容特征组成形式可以是连续7位或者8位或者11位的数字,银行账号的内容特征组成形式一般是连续16到19位的数字,网址的内容特征组成形式一般是用“.”和“/”分隔开的字符串。连续的数字和网址都可以使用相应的正则表达式进行匹配来识别。举例说明,若短信的内容为:“亲~还记得我吗?我是之前与您联系的银*行经*理,代*款手续简单,当天下/款,超大额度,咨询15919858041【陈经理】”,则可用电话号码的正则表达式识别出电话号码类型的内容特征:“15919858041”。再比如,若短信的内容为“你看看这个相册有印象吗http://188.pe/qyzy”,则可用网址的正则表达式识别出网址类型的内容特征:“http://188.pe/qyzy”。恶意内容特征识别模块603,用于识别提取的内容特征是否为恶意内容特征。具体地,恶意内容特征识别模块603可对提取的内容特征进行语义分析,以判断提取的内容特征是否具有恶意属性,从而识别出提取的内容特征是否为恶意内容特征。恶意内容特征是认定具有恶意属性的内容特征,比如指向钓鱼网站的网址、假冒短信真实发送方的电话号码或者反动宣传语句等。短信发送方标识提取模块604,用于若恶意内容特征识别模块603识别到恶意内容特征,则提取短信的短信发送方标识。具体地,短信识别模块605可根据短信的数据结构,从短信的短信发送方标识字段中提取该短信的短信发送方标识。短信发送方标识可标识出短信的发送方,比如短信发送方的手机号或者短信端口号,短信端口号比如95588、95555、10086以及10010,相应的短信发送方依次为中国工商银行、中国招商银行、中国移动通信公司以及中国联通通信公司。短信识别模块605,用于检测提取的短信发送方标识是否属于短信发送方标识库,短信发送方标识库包括被仿冒的短信发送方标识;若属于,则将短信识别为伪基站短信。其中,短信发送方标识库是被仿冒的短信发送方标识的集合,包括知名短信发送方的短信端口号,如上述的95588、95555、10086以及10010,这些短信端口号均是容易被不法分子仿冒的短信发送方标识。短信发送方标识库可通过短信发送方主动上报或者人工提取的方式获得,其中短信发送方主动上报的情况下,可先审核短信发送方的真实身份,审核通过后则接受短信发送方主动上报的短信发送方标识。具体地,短信识别模块605可获取短信发送方标识库,并遍历短信发送方标识库,将遍历的短信发送方标识与提取的短信发送方标识比较,若一致,则判定提取的短信发送方标识属于短信发送方标识库,并停止遍历;若不一致,则继续遍历;若遍历结束仍未在短信发送方标识库中找到与提取的短信发送方标识一致的短信发送方标识,则判定提取的短信发送方标识不属于短信发送方标识库。在一个实施例中,为了加快识别速度,短信发送方标识库中的短信发送方标识进行了分类,短信识别模块605可先确定提取的短信发送方标识的分类,从而在短信发送方标识库中相应分类的短信发送方标识集合中查找一致的短信发送方标识,若查找到则判定提取的短信发送方标识属于短信发送方标识库,否则判定提取的短信发送方标识不属于短信发送方标识库。其中短信发送方标识库中的短信发送方标识可按照短信发送方标识的长度、前缀字符串或者后缀字符串进行分类。在识别到恶意内容特征的情况下,说明接收到的短信具有恶意属性,接收到的短信有可能是伪基站短信。而短信发送方标识库是被仿冒的短信发送方标识的集合,由于被仿冒的短信发送方发送的真实短信是不会具有恶意属性的,因此当检测到发送方标识属于短信发送方标识库且短信具有恶意属性时,就可以判定接收到的短信是伪基站短信。上述伪基站短信识别装置600,在获取了用户终端接收到的短信后,对接收到的短信提取内容特征并识别提取的内容特征是否为恶意内容特征,若识别到恶意内容特征,说明接收到的短信具有恶意属性,该短信有可能是伪基站短信。在识别到恶意内容特征后,进一步检测短信的发送方标识是否属于短信发送方标识库。其中短信发送方标识库是被仿冒的短信发送方标识的集合,而被仿冒的短信发送方发送的真实短信是不会具有恶意属性的,因此当检测到发送方标识属于短信发送方标识库且短信具有恶意属性时,就可以判定该短信是伪基站短信。不需要正规的短信发送方对己方的短信发送设备做更改,短信接收端就可以准确地识别出伪基站短信,识别准确率和通用性很强。在一个实施例中,短信识别模块605还用于若恶意内容特征识别模块603未识别到恶意内容特征,则将短信识别为正常短信。具体地,若提取的内容特征未被识别为恶意内容特征,则短信发送方标识提取模块604可将接收到的短信识别为正常短信。正常短信是与伪基站短信相区别的一种短信分类,用户终端可针对不同的短信分类分别进行不同的处理。短信识别模块605还用于若检测到提取的短信发送方标识不属于短信发送方标识库,则将短信识别为恶意短信。具体地,当检测到提取的短信发送方标识不属于短信发送方标识库时,将接收到的短信识别为未能确定为伪基站短信的恶意短信。这里的恶意短信是与正常短信不同的一种短信分类,可使得用户终端根据对接收到的短信的分类分别进行不同的处理。如图7所示,在一个实施例中,内容特征提取模块602具体用于将所述短信的内容进行归一化处理,获得短信内容文本;根据所述短信内容文本提取内容特征,并获得短信内容文本中除去提取的内容特征的短信文字内容。其中,归一化处理是指将短信的内容进行预处理,将短信的内容规整为具有统一文本形式的短信内容文本,以便于基于短信内容文本进行进一步的语义分析。在一个实施例中,归一化处理包括:剔除文字分隔符、统一字母大小写以及统一繁简体汉字中的一种或几种的组合。其中文字分隔符是指将文字分隔开的特殊字符,与文字相邻。文字分隔符如单引号、双引号、逗号、句号、惊叹号、问号、书名号、星号、空格符或者横杠等。在进行统一字母大小写时,具体可检测短信的内容中的大写字母,将检测到的大写字母均修改为小写字母;或者可检测短信的内容中的小写字母,将检测到的小写字母均修改为大写字母。在进行统一繁简体汉字时,可检测短信的内容中的繁体汉字,将检测到的繁体汉字均修改为相应的简体汉字;或者可检测短信的内容中的简体汉字,将检测到的简体汉字均修改为繁体汉字。在一个实施例中,伪基站短信识别装置600还包括:短信分类模块607,用于根据所述短信文字内容将所述短信进行分类。具体地,短信分类模块607可根据短信文字内容以及短信识别结果对短信进行分类。短信分类模块607可在将短信识别为伪基站短信或者恶意短信时,根据短信文字内容对短信进行进一步分类。比如可将伪基站短信或恶意短信进一步分类为航班诈骗类短信、银行业务诈骗类短信、钓鱼网站诈骗类短信或者仿冒客服诈骗类短信等。短信分类模块607也可以对识别为正常短信的短信进行进一步分类,比如将短信分类为通知类短信或者社交类短信,通知类短信比如银行业务通知短信、花费套餐使用情况通知短信等。通过对短信进行分类,可以对不同分类的短信进行差异化的处理,划分越细致可以使得对短信的处理更加智能化。本实施例中,通过对短信的内容进行归一化处理而获得统一形式的短信内容文本,进而可以获得准确的内容特征和短信文字内容,不仅可以通过提取的内容特征来识别伪基站短信,还可以根据短信文字内容对短信进行进一步分类,使得最终的结果更加精准。在一个实施例中,恶意内容特征识别模块603具体用于获取恶意内容特征库;从恶意内容特征库中查找与提取的内容特征匹配的恶意内容特征;若查找到匹配的恶意内容特征,则将提取的内容特征识别为恶意内容特征。具体地,恶意内容特征识别模块603可遍历恶意内容特征库,将遍历的恶意内容特征与提取的内容特征比较,若一致,则判定提取的内容特征识别为恶意内容特征,并停止遍历;若不一致,则继续遍历;若遍历结束仍未在恶意内容特征库中查找到与提取的内容特征一致的内容特征,则判定提取的内容特征不是恶意内容特征。其中恶意内容特征库的内容可如上述表一所示,包括恶意内容特征和恶意内容特征类型的对应关系。通过上述表一所示的恶意内容特征库,不仅可以识别内容特征是否为恶意内容特征,还可以进一步确定恶意内容特征类型,从而将短信进行进一步分类。比如分类为恶意网址短信或者电话诈骗短信等。本实施例中,通过将提取的内容特征与事先建立的恶意内容特征库进行匹配来识别恶意内容特征,可通过动态地补充恶意内容特征库来保证识别恶意内容特征的准确性,便于维护。在一个实施例中,伪基站短信识别装置600包括于安全防护应用程序;恶意内容特征识别模块603具体用于从与安全防护应用程序对应的服务器下载恶意内容特征库;恶意内容特征库由服务器在通过网络爬取方式、用户举报方式和人工审核方式中的至少一种方式收集到恶意短信的内容后,从收集的恶意短信的内容提取恶意内容特征而形成。恶意内容特征库可由服务器在通过网络爬取方式、用户举报方式和人工审核方式中的至少一种方式收集到恶意短信的内容后,从收集的恶意短信的内容提取恶意内容特征而形成。服务器可主动通过网络爬虫爬取恶意短信的内容,服务器也可以接收用户终端通过举报途径上报的恶意短信的内容,服务器的管理员也可以通过人工审核方式主动获得恶意短信的内容。如图8所示,在一个实施例中,伪基站短信识别装置600还包括:拦截模块608、已拦截短信列表管理模块609和拦截结果提示模块610。拦截模块608,用于拦截短信和相应的短信提示。,通过拦截短信和短信提示,可防止用户被伪基站短信或者其它恶意短信骚扰。已拦截短信列表管理模块609,用于将短信加入已拦截短信列表。通过将短信加入已拦截短信列表,方便对拦截的短信进行统一管理。拦截结果提示模块610,用于定期显示检测到伪基站短信的提示。定期显示检测到伪基站短信或恶意短信的提示,可以在尽量少打扰用户的情况下通知用户识别到了伪基站短信,以提醒用户进行相应的处理。在一个的实施例中,拦截结果提示模块610可根据对短信的分类,可以赋予短信相应的危险等级,并在检测到伪基站短信的提示中表示出该危险等级,可以实现智能地对短信进行危险性评估。这里的分类包括正常短信、伪基站短信以及恶意短信的分类,也可以包括根据恶意内容特征类型对短信的分类,还可以包括根据归一化处理获得的短信内容文本对短信的分类。如图9所示,在一个实施例中,伪基站短信识别装置600还包括网络连接模块611,用于检测是否连接到网络。若检测到连接到网络,则将短信上传到服务器,比如安全防护应用对应的应用服务器,由部署在服务器上的短信获取模块601、内容特征提取模块602、恶意内容特征识别模块603、短信发送方标识提取模块604和短信识别模块605对上传的短信进行处理获得短信识别结果,并接收服务器反馈的短信识别结果。若检测到未连接到网络或网络状态不符合预期,则短信识别模块605用于直接通过关键词匹配来识别短信是否为恶意短信。其中短信识别结果包括正常短信、伪基站短信和未被识别为伪基站短信的恶意短信。本实施例中,在用户终端连接到网络的情况下,可以通过服务器对短信进行精确地识别,以识别出正常短信、伪基站短信以及恶意短信;而在用户终端离线的情况下,仍能够通过关键词匹配来识别出恶意短信,防止用户终端无法连接到网络时无法进行短信类型的识别。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,rom)等非易失性存储介质,或随机存储记忆体(randomaccessmemory,ram)等。以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1