本发明涉及通讯技术领域,尤其涉及一种违规短信检测方法和实现改方法的系统。
背景技术:
短信业务是手机通信业务中的重要组成部分,虽然在移动社交应用的冲击下个人使用短信交流的比重有所下降,但是基于群发短信的推广模式还是有其特别的优势而一直沿用。作为推广媒介的群发短信总会包含用户所要传达的信息,比如会有其产品名,或者会有链接,期望短信接收者通过链接查看他们的产品,给他们带来利益。
短信发送平台作为服务方,有责任对群发短信的内容进行审查,保证其短信内容不包含赌博、色情等违法法律法规的相关内容。现有的违规短信的检测和监控方式大致可分为两类:一种是短信发送运营商的检测,通过人工查看或者对短信内容进行违规关键词过滤两种方式,筛选出违规短信并拦截其发送;运营商端检测能够从根本上拦截违规短信发送,但是短信发送商家为了避免被拦截会在短信中加入链接直接指向推广网页,而在文字内容中不出现违规词,轻易地避免被拦截。另一种是在手机端通过应用软件和违规词库,对手机接收到的短信进行关键词过滤,屏蔽包含违规内容的短信。由于手机端和服务端在性能和短信流量方面的巨大差距,该方法很难适用于短信发送平台的违规短信检测。
技术实现要素:
本发明是为了克服现有技术中的短信发送平台难以对短信链接内容进行违规内容检测,而导致不能完全屏蔽违规短信发送的不足,提供了一种能够对发送短信进行链接内容检测,有效提高违规短信拦截成功率的一种违规短信检测方法及系统。
为实现上述目的,本发明采用以下技术方案:
本发明的一种违规短信检测方法,具体包括以下步骤:获取短信内容中的链接,获取链接指向的网页;根据网页中文字内容的违规关键词过滤结果,判断链接是否为违规链接;如果短信包含违规链接,则判定短信为违规短信。
作为优选,所述获取短信内容中的链接的步骤,进一步包括:获取短信的全部内容,利用正则表达式匹配方法,提取短信内容中的链接。
作为优选,所述的根据网页中文字内容的违规关键词过滤结果,判断链接是否为违规链接的步骤,进一步包括:解析网页要素并提取文字内容,同时标记各部分文字内容的网页要素来源;对文字内容进行分词处理获得分词词组,将分词词组和预设的违规关键词库内的违规关键词进行匹配,识别分词词组中的违规词组;根据不同网页要素来源赋予违规词组预设的加权系数,加权计算网页的文字内容中违规词组的加权词频;当违规词组的加权词频超过预设的阈值时,判定网页为违规网页;若连接指向的网页为违规网页,判定链接为违规链接。
作为优选,所述的网页要素包括未带超链接文字和带超链接文字,来源为未带超链接文字的违规词组的加权系数小于来源为带超链接文字的违规词组的加权系数。
作为优选,所述的网页要素包括未带超链接图片和带超链接图片,来源为未带超链接图片的违规词组的加权系数小于来源为带超链接图片的违规词组的加权系数;所述的解析网页要素并提取文字内容,同时标记各部分文字内容的网页要素来源的步骤,进一步包括:获取网页中的图片,并区分未带超链接图片和带超链接图片;使用光学字符识别技术识别并提取未带超链接图片中的文字内容,标记这部分文字内容的网页要素来源为未带超链接图片;使用光学字符识别技术识别并提取带超链接图片中的文字内容,标记这部分文字内容的网页要素来源为带超链接图片。
本发明还提供一种违规短信检测系统,所述的系统包括:
链接获取模块,用于获取短信内容中的链接,获取链接指向的网页;
违规关键词过滤模块,用于根据链接获取模块获取网页中文字内容的违规关键词过滤结果,判断链接是否为违规链接;
判定模块,用于根据违规关键词过滤模块的判断结果,判定短信包含违规链接,则判定短信为违规短信。
作为优选,所述的违规关键词过滤模块具体包括:
文字解析单元,用于解析网页要素并提取文字内容;
来源标记单元,用于标记文字解析单元提取的各部分文字内容的网页要素来源;
分词单元,用于对文字解析单元提取的文字内容进行分词处理获得分词词组;
违规词组识别单元,用于将分词单元获得的分词词组和预设的违规关键词库内的违规关键词进行匹配,识别分词词组中的违规词组;
计算单元,用于根据不同网页要素来源赋予违规词组预设的加权系数,加权计算网页的文字内容中违规词组的加权词频;
链接判定单元,用于当违规词组的加权词频超过预设的阈值时,判定网页为违规网页;若连接指向的网页为违规网页,判定链接为违规链接。
作为优选,所述的网页要素包括未带超链接文字和带超链接文字,来源为未带超链接文字的违规词组的加权系数小于来源为带超链接文字的违规词组的加权系数。
作为优选,所述的网页要素包括未带超链接图片和带超链接图片,来源为未带超链接图片的违规词组的加权系数小于来源为带超链接图片的违规词组的加权系数;所述的文字解析单元包括光学字符识别子单元,用于识别提取网页中未带超链接图片和带超链接图片中的文字内容。
本发明公开了一种违规短信检测方法,通过提取短信中的链接,并访问链接指向的网页,通过对网页的文字内容进行违规关键词过滤,判断该网页是否包含违规内容,从而判定链接是否为违规链接,如果短信包含违规链接则判定该短信为违规短信,并进行相应的拦截等操作。本方法中所述的违规关键词过滤的对象包括网页的纯文字内容和图片中的字符,并且根据内容是否带有链接,赋予不同的加权系数计算违规词组的词频,从而根据用户习惯更为合理地判定链接指向网页的合法性。同时,本发明还公开了一种违规短信检测系统,通过链接获取模块,获取短信内容中的链接并获取链接指向的网页,通过违规关键词过滤模块对所述的网页内容进行违规关键词过滤,从而判定网页是否为违规网页,检测并拦截包含违规链接的短信。本技术方案区别于现有技术能够对短信中的链接内容进行检测,从而保证违规短信拦截准确性,商家无法通过加入链接的方式避免违规短信被拦截,谋取不法利益。
附图说明
图1为本发明实施提供的一种违规短信检测系统的示意图。
图2为本发明实施提供的违规关键词过滤模块的第一示意图。
图3为本发明实施提供的违规关键词过滤模块的第二示意图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步描述。
本发明公开了一种违规短信检测方法和一种违规短信检测系统,通过提取短信中的链接,并访问链接指向的网页;通过对网页的文字内容进行违规关键词过滤,判断该网页是否包含违规内容,从而判定链接是否为违规链接,如果短信包含违规链接则判定该短信为违规短信,并进行相应的拦截等操作。本技术方案区别于现有技术能够对短信中的链接内容进行检测,从而保证违规短信拦截准确性,商家无法通过加入链接的方式避免违规短信被拦截,谋取不法利益。
一种违规短信检测方法具体实施例:
实施例1:一种违规短信检测方法具体包括以下步骤:
s101获取短信内容中的链接,获取链接指向的网页。
该步骤具体包括获取短信的全部内容,利用正则表达式匹配方法,提取短信内容中的链接。正则表达式是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。该步骤将短信内容中的空格和无含义的标点删除后获得短信的文字内容,再通过预设的正则表达式识别其中的链接,这样相比直接方法链接,可以有效避免商家在短信编辑中通过加入空格和无效字符隐藏链接,从而有效提高链接的识别率。
s102根据网页中文字内容的违规关键词过滤结果,判断链接是否为违规链接。
优选的,所述步骤进一步包括:解析网页要素并提取文字内容,同时标记各部分文字内容的网页要素来源;对文字内容进行分词处理获得分词词组,将分词词组和预设的违规关键词库内的违规关键词进行匹配,识别分词词组中的违规词组;根据不同网页要素来源赋予违规词组预设的加权系数,加权计算网页的文字内容中违规词组的加权词频;当违规词组的加权词频超过预设的阈值时,判定网页为违规网页;若连接指向的网页为违规网页,判定链接为违规链接。
s103如果短信包含违规链接,则判定短信为违规短信。收到短信内容的限制,商家在短信中添加的链接一般是其推广的主要内容,因此只需要判定链接为违规链接,就可以判定短信为违规短信。
本发明公开了一种违规短信检测方法,通过提取短信中的链接,并访问链接指向的网页,通过对网页的文字内容进行违规关键词过滤,判断该网页是否包含违规内容,从而判定链接是否为违规链接,如果短信包含违规链接则判定该短信为违规短信,并进行相应的拦截等操作。本方法中所述的违规关键词过滤的对象包括网页的纯文字内容和图片中的字符,并且根据内容是否带有链接,赋予不同的加权系数计算违规词组的词频,从而根据用户习惯更为合理地判定链接指向网页的合法性。
实施例2:一种违规短信检测方法具体包括以下步骤:
s201获取短信的全部内容,利用正则表达式匹配方法,提取短信内容中的链接。
s202解析网页要素并提取文字内容,同时标记各部分文字内容的网页要素来源;所述的网页要素包括未带超链接文字和带超链接文字。
s203对文字内容进行分词处理获得分词词组,将分词词组和预设的违规关键词库内的违规关键词进行匹配,识别分词词组中的违规词组。
s204根据不同网页要素来源赋予违规词组预设的加权系数,加权计算网页的文字内容中违规词组的加权词频;作为优选,来源为未带超链接文字的违规词组的加权系数小于来源为带超链接文字的违规词组的加权系数。
s205当违规词组的加权词频超过预设的阈值时,判定网页为违规网页;
s206若连接指向的网页为违规网页,判定链接为违规链接。
实施例3:一种违规短信检测方法具体包括以下步骤:
s301获取短信的全部内容,利用正则表达式匹配方法,提取短信内容中的链接。
s302解析网页要素并提取文字内容,同时标记各部分文字内容的网页要素来源。
s303获取网页中的图片,并区分未带超链接图片和带超链接图片。
s304使用光学字符识别技术识别并提取未带超链接图片中的文字内容,标记这部分文字内容的网页要素来源为未带超链接图片;使用光学字符识别技术识别并提取带超链接图片中的文字内容,标记这部分文字内容的网页要素来源为带超链接图片。
s305对文字内容进行分词处理获得分词词组,将分词词组和预设的违规关键词库内的违规关键词进行匹配,识别分词词组中的违规词组。
s306根据不同网页要素来源赋予违规词组预设的加权系数,加权计算网页的文字内容中违规词组的加权词频;作为优选,来源为未带超链接文字的违规词组的加权系数小于来源为带超链接文字的违规词组的加权系数。
s307当违规词组的加权词频超过预设的阈值时,判定网页为违规网页;
s308若连接指向的网页为违规网页,判定链接为违规链接。
实施例2,参看图1,为本发明的一种违规短信检测系统的第一示意图,如图所示,一种违规短信检测系统具体包括:链接获取模块、违规关键词过滤模块和判定模块。
链接获取模块,用于获取短信内容中的链接,获取链接指向的网页;
违规关键词过滤模块,用于根据链接获取模块获取网页中文字内容的违规关键词过滤结果,判断链接是否为违规链接。
优选的,所述的违规关键词过滤模块包括:文字解析单元,用于解析网页要素并提取文字内容;来源标记单元,用于标记文字解析单元提取的各部分文字内容的网页要素来源;分词单元,用于对文字解析单元提取的文字内容进行分词处理获得分词词组;违规词组识别单元,用于将分词单元获得的分词词组和预设的违规关键词库内的违规关键词进行匹配,识别分词词组中的违规词组。计算单元,用于根据不同网页要素来源赋予违规词组预设的加权系数,加权计算网页的文字内容中违规词组的加权词频;链接判定单元,用于当违规词组的加权词频超过预设的阈值时,判定网页为违规网页;若连接指向的网页为违规网页,判定链接为违规链接。
判定模块,用于根据违规关键词过滤模块的判断结果,判定短信包含违规链接,则判定短信为违规短信。
本发明还公开了一种违规短信检测系统,通过链接获取模块,获取短信内容中的链接并获取链接指向的网页,通过违规关键词过滤模块对所述的网页内容进行违规关键词过滤,从而判定网页是否为违规网页,检测并拦截包含违规链接的短信。本技术方案区别于现有技术能够对短信中的链接内容进行检测,从而保证违规短信拦截准确性,商家无法通过加入链接的方式避免违规短信被拦截,谋取不法利益。
实施例3:如图1所示,一种违规短信检测系统具体包括:链接获取模块、违规关键词过滤模块和判定模块。
链接获取模块,用于获取短信内容中的链接,获取链接指向的网页;
如图2所示,所述的违规关键词过滤模块包括:
文字解析单元,用于解析网页要素并提取文字内容;
来源标记单元,用于标记文字解析单元提取的各部分文字内容的网页要素来源;
分词单元,用于对文字解析单元提取的文字内容进行分词处理获得分词词组;
违规词组识别单元,用于将分词单元获得的分词词组和预设的违规关键词库内的违规关键词进行匹配,识别分词词组中的违规词组;
计算单元,用于根据不同网页要素来源赋予违规词组预设的加权系数,加权计算网页的文字内容中违规词组的加权词频;
链接判定单元,用于当违规词组的加权词频超过预设的阈值时,判定网页为违规网页;若连接指向的网页为违规网页,判定链接为违规链接。
优选的,所述的网页要素包括未带超链接文字和带超链接文字,来源为未带超链接文字的违规词组的加权系数小于来源为带超链接文字的违规词组的加权系数。
判定模块,用于根据违规关键词过滤模块的判断结果,判定短信包含违规链接,则判定短信为违规短信。
本方案对违规短信检测系统的违规关键词过滤模块进一步细化,通过来源标记单元标记出提取的网页文字内容的网页要素来源是否是带有链接的,并且由计算单元根据违规词组的网页要素来源赋予不同的加权系数,并加权计算违规关键词的加权词频作为判定网页内容是否违规的参数。由于带有链接的文字其具有点击后跳转页面的功能,因此这部分文字带有违规内容的权重较高,通过加权计算违规词组的加权词频从而大大提高网页中文字内容的违规检测准确性。
实施例6:如图1所示,一种违规短信检测系统具体包括:链接获取模块、违规关键词过滤模块和判定模块。
链接获取模块,用于获取短信内容中的链接,获取链接指向的网页;
如图3所示,所述的违规关键词过滤模块进一步包括:
文字解析单元,用于解析网页要素并提取文字内容;所述的文字解析单元包括光学字符识别子单元,用于识别提取网页中未带超链接图片和带超链接图片中的文字内容。
来源标记单元,用于标记文字解析单元提取的各部分文字内容的网页要素来源。
分词单元,用于对文字解析单元提取的文字内容进行分词处理获得分词词组。
违规词组识别单元,用于将分词单元获得的分词词组和预设的违规关键词库内的违规关键词进行匹配,识别分词词组中的违规词组。
计算单元,用于根据不同网页要素来源赋予违规词组预设的加权系数,加权计算网页的文字内容中违规词组的加权词频。
优选的,所述的网页要素包括未带超链接图片和带超链接图片,来源为未带超链接图片的违规词组的加权系数小于来源为带超链接图片的违规词组的加权系数。
链接判定单元,用于当违规词组的加权词频超过预设的阈值时,判定网页为违规网页;若连接指向的网页为违规网页,判定链接为违规链接。
判定模块,用于根据违规关键词过滤模块的判断结果,判定短信包含违规链接,则判定短信为违规短信。
本方案对违规短信检测系统的违规关键词过滤模块进一步细化,通过来源标记单元标记出提取的网页文字内容的网页要素来源扩展到网页中的图片,光学字符识别子单元识别提取图片中的字符,同时区分作为网页要素来源的图片否是带有链接的,由计算单元根据违规词组的网页要素来源赋予不同的加权系数,并加权计算违规关键词的加权词频作为判定网页内容是否违规的参数。由于图片在网页中的展示更为直观和具有吸引力因此违规内容出现的概率和影响有较大,分配了较高的权重,而带有链接的图片其具有点击后跳转页面的功能,因此这部分文字带有违规内容的权重最高,通过加权计算违规词组的加权词频从而大大提高网页中文字内容的违规检测准确性。