一种多语种短信息的网络监管方法

文档序号:6463887阅读:213来源:国知局
专利名称:一种多语种短信息的网络监管方法
技术领域
本发明涉及一种电信运营商或公安、安全等部门对短信息的网络监督管理方法, 特别是涉及一种多语种短信息的网络监管方法。
背景技术
手机短信息的传送是电信运营商在其短信平台上,依据约定的协议和统一的编码 规则来对传送字符进行编码传送。如我国电信部门按照CMPT协议和统一的编码标准对短 信息进行编码和发送,这里称之为传送码。用户在手机终端上书写或收看短信息则依据的 是每个字符对应一个编码(机内码),同时也对应一个特定的字形码,这里称之为显示码。 为了使信息显示的统一,机内码有国际或国家标准。但是,对于相同的机内码,手机生产厂 家或手机研发公司则可以做成不同的显示字形,即用字符a的机内码显示的却是字符b的 外观。即传送码对应的内容与显示码所显示的内容不一致。如,传送码传送的是俄文字母 “ ”的Unicode码“0414”,而实际上在手机上书写或收看到的字形码是英文的“a”。同样 的道理,的短信的书写者手机上发送和在接收者的手机上显示的是“backfire”,而该字符 串的传送码在电信监管部门却显示的是“exertion”。当恐怖分子或其他犯罪分子将某款手机的显示码与电信部门的传送码做成对应 不同的字符,将会使装有该种显示码的手机短信息成为密码通讯工具,手机就会成为恐怖 分子和不法之徒发布破坏指令、联络、造谣惑众、传播淫秽信息等犯罪活动的工具。所通讯 的内容只用发送者和接收者知晓,而电信、公安、安全等部门在目前条件下对此无法实施有 效的监管。现有的短信息的监管方法,主要是利用敏感字词的查找来对有害短信息进行监 管,这对传送码和字形码一致的短信可以起到一定的作用。但是,对于上述的字符a的机 内码显示的却是字符b的外观的短信息,目前尚无解决的办法。

发明内容
本发明的目的便是针对上述缺陷,提出一种根据计算机程序并辅助人工的方法, 对发送码所对应的语种的词语与该语种语料库中的词语进行匹配的技术,判断发送语种和 显示语种的相似度和吻合度,来判断非法短信息。进而,找出传送码与显示码及显示字符的 对应关系,最终破解非法短信。以达到对传送码和字形码不一致的短信息进行有效监管的 目的。本发明解决其技术问题所采用的方法的要点是—、利用计算机程序并辅助人工手段,按以下过程处理;a、根据传送码对应的编码字符集中的字符所属的语种来判断短信息的字符对应 的语种,当所涉及的语种数超过一定值时,即可将该短信息视为可疑短信,再采用人工的方 法识别,屏蔽或删除;b、根据短信息的语种,判断传送码中是否存在空格或换行及该语种的逗号、句号、
4问号等标点符号的编码(简称符号编码),如无符号编码,并且短信息的长度超过一定的字 符数,即可将该短信息视为可疑短信,再采用人工的方法识别,屏蔽或删除;C、以符号编码将传送码对应的字符串编码进行分组,截取分组后的字符串,Cl 将截取分组后的字符串与设定的该语种的敏感词汇(这里的敏感词语是指包 含暴力犯罪、杀人、放火、抢劫、煽动、淫秽等词语)语料库中的词语进行对照,当分组后的 各个字符串与语料库中的敏感词语吻合度或相似度大于一定数值时,即可将该短信息视为 可疑短信,再采用人工的方法识别,屏蔽或删除;c2:将截取分组后的字符串与设定的该语种的常用高频词的语料库中的词语进行 对照,当分组后的各个字符串与语料库中的词语吻合度或相似度小于一定数值时,即可将 该短信息视为可疑短信,再采用人工的方法识别,屏蔽或删除;d、对可疑短信,将每个传送 码依次与可疑短信息可能涉及的语种的每个字符分别依次对应,进行排列组合,将排列组 合后的全部字符串与该语种的敏感词汇语料库和常用高频词的语料库中的词语进行对照, 当吻合度或相似度大于一定数值时,可找出传送码与显示码及真实的字符显示之间的对应 关系,进而破解非法短信。二、对于短信息字符间无符号编码,其长度又未超过一定的字符数的短信息采用 上述的步骤C、d处理;三、对于粘着语语系,如阿拉伯语、维吾尔语、土耳其语、乌尔都语、伊朗语和屈折 语语系,如俄语、德语等,涉及的语料库中的词语可以是词干或词根,所截取的字符串可以 是分组后的字符串前面的若干位;四、所述的多语种包括中文、英语、德语、俄语、法语、葡萄牙语、西班牙语、阿拉伯 语、维吾尔语、土耳其语、乌尔都语、伊朗语、普什图语、日语、朝鲜语等语种;五、当判断出发送的短信属非法短信后,监管部门对短信进行屏蔽删除的同时,利 用定点功能,锁定非法短信息的发送区域,将不法之徒绳之与法。六、当发送者与接收者(特别是针对群发短信息)为民族A时,而发送和接收的短 信息涉及的却是民族B的语言或民族B和民族C的语言,可将该短信息视为可疑短信,再采 用人工的方法识别,屏蔽或删除;七、对于用拉丁字母拼写维吾尔语时,将维吾尔语的高频词和敏感词汇用拉丁字 母进行拼写,再按上述方法一进行处理;对其它该类型的语言也可同样处理;八、对于以符号编码将传送码对应的字符串编码进行分组后的字符串是汉语或朝 鲜语的,采用现有的分词技术,将句子分解为词组和单字,对常用单字视为词组,依上述方 法一处理,当判断短信息用词不符合现代汉语或朝鲜语习惯的,可将该短信息视为可疑短
fn °九、对于维吾尔语、哈萨克语、柯尔克孜语等用阿拉伯字母进行拼写的语言,当使 用其他语种的字符Unicode做传送码时,由于存在字符的变形,它所需要正常显示的字符 数超过120个,而120个字符至少涉及多种语言的编码,当所涉及的语种数超过一定值时, 即可将该短信息视为可疑短信;本发明的有益效果是;与现有的短信息监管方法比较,具有下列优点;它克服了 现有的短信息监管方法无法对传送码和字形码不一致的短信息进行有效监管缺陷。本发明适用于电信、公安、安全等部门在其短信平台上对多语种短信息进行有效的监管,可用于反恐、打击暴力犯罪、有害信息的查堵等方面。该技术也可用于对互联网上 的通讯内容进行监管等方面。
具体实施例方式
实施例发明要点即说明了具体的实施方式。
权利要求
一种多语种短信息的网络监管方法,其特征是利用计算机程序并辅助人工手段,按以下过程处理,a;根据传送码对应的编码字符集中的字符所属的语种来判断短信息的字符对应的语种,当所涉及的语种数超过一定值时,即可将该短信息视为可疑短信;b根据短信息的语种,判断传送码中是否存在空格或换行及该语种的逗号、句号、问号等标点符号的编码(简称符号编码),如无符号编码,并且短信息的长度超过一定的字符数,即可将该短信息视为可疑短信;c以符号编码将传送码对应的字符串编码进行分组,截取分组后的字符串,c1将截取分组后的字符串与设定的该语种的敏感词汇(这里的敏感词语是指包含暴力犯罪、杀人、放火、抢劫、煽动、淫秽等词语)语料库中的词语进行对照,当分组后的各个字符串与语料库中的敏感词语吻合度或相似度大于一定数值时,即可将该短信息视为可疑短信;c2将截取分组后的字符串与设定的该语种的常用高频词的语料库中的词语进行对照,当分组后的各个字符串与语料库中的词语吻合度或相似度小于一定数值时,即可将该短信息视为可疑短信;d对于可疑短信,再采用人工的方法识别,进行屏蔽或依法删除。
2.根据权利要求1所述的方法,其特征是,对可疑短信,利用计算机程序,将每个传送 码依次与可疑短信息可能涉及的语种的每个字符分别依次对应,进行排列组合,将排列组 合后的全部字符串与该语种的敏感词汇语料库和常用高频词的语料库中的词语进行对照, 当吻合度或相似度大于一定数值时,可找出传送码与显示码及真实的字符显示之间的对应 关系,进而破解非法短信。
3.根据权利要求1所述的方法,其特征是,对于短信息字符间无符号编码,其长度又未 超过一定的字符数的短信息采用上述的步骤c、d处理。
4.根据权利要求1所述的方法,其特征是,a:对于粘着语语系,如阿拉伯语、维吾尔语、土耳其语、乌尔都语、伊朗语和屈折语语 系,如俄语、德语等,涉及的语料库中的词语可以是词干或词根,所截取的字符串可以是分 组后的字符串前面的若干位;b:所述的多语种包括中文、英语、德语、俄语、法语、葡萄牙语、西班牙语、阿拉伯语、维 吾尔语、土耳其语、乌尔都语、伊朗语、普什图语、日语、朝鲜语等语种。
5.根据权利要求1所述的方法,其特征是,当判断出发送的短信属非法短信后,监管部 门对短信进行屏蔽删除的同时,利用定点功能,锁定非法短信息的发送区域,将不法之徒绳 之与法。
6.根据权利要求1所述的方法,其特征是,当发送者与接收者(特别是针对群发短信 息)为民族A时,而发送和接收的短信息涉及的却是民族B的语言或民族B和民族C的语 言,可将该短信息视为可疑短信,再采用人工的方法识别,屏蔽或删除。
7.根据权利要求1所述的方法,其特征是,对于用拉丁字母拼写维吾尔语时,将维吾尔 语的高频词和敏感词汇用拉丁字母进行拼写,再按上述方法一进行处理;对其它该类型的 语言也可同样处理。
8.根据权利要求1所述的方法,其特征是,对于以符号编码将传送码对应的字符串编码进行分组后的字符串是汉语或朝鲜语的,采用现有的分词技术,将句子分解为词组和单 字,对常用单字视为词组,依上述方法一处理,当判断短信息用词不符合现代汉语或朝鲜语 习惯的,可将该短信息视为可疑短信。
9.根据权利要求1所述的方法,其特征是,对于维吾尔语、哈萨克语、柯尔克孜语等用 阿拉伯字母进行拼写的语言,当使用其他语种的字符Unicode做传送码时,由于存在字符 的变形,它所需要正常显示的字符数超过120个,而120个字符至少涉及多种语言的编码, 当所涉及的语种数超过一定值时,即可将该短信息视为可疑短信。
全文摘要
本发明公开了一种多语种短信息的网络监管方法,提出一种根据计算机程序并辅助人工的方法,对发送码所对应的语种的词语与该语种语料库中的词语进行匹配的技术,判断发送语种和显示语种的相似度和吻合度,来判断非法短信息。进而,找出传送码与显示码及显示字符的对应关系,最终破解非法短信。以达到对传送码和字形码不一致的短信息进行有效监管的目的。适用于电信、公安、安全等部门在其短信平台上对多语种短信息进行有效的监管,可用于反恐、打击暴力犯罪、有害信息的查堵等方面。该技术也可用于对互联网上的通讯内容进行监管等方面。
文档编号G06F17/22GK101976231SQ20101026662
公开日2011年2月16日 申请日期2010年8月25日 优先权日2010年8月25日
发明者孙强国 申请人:孙强国
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1