一种识别恶意信息的方法及装置的制造方法_3

文档序号:9791013阅读:来源:国知局
通讯信息,都同该用户发送的第一通讯信息,按照 上述方法识别其他每个用户发送的通讯信息是否为恶意信息。
[0114] 其中,通过上述步骤201-210的操作确定出第一通讯信息不包括特征词集合中的 特征词且识别出第一通讯信息为恶意信息时,还需要通过如下步骤211的操作将第一通讯 信息中包括的特征词添加到特征词集合中。
[0115] 步骤211 :从第一通讯信息中获取特征词,将获取的特征词添加到特征词集合中。
[0116] 其中,可W事先设置特征词的提取规则。由于恶意信息中通常包括邮箱地址、网页 地址、电话号码W及即时通讯或社交网络账号等。所W特征词的提取规则可W为提取恶意 信息中包含数字W及邮箱地址或网页地址中的特定字符的单词。
[0117] 本步骤具体为,根据事先设置的特征词提取规则,从第一通讯信息中获取符合提 取规则的单词作为特征词,将获取的特征词添加到特征词集合中。
[0118] 例如,假设特征词的提取规则为提取包含数字、http、WWW、com、cn或@字符的单 词。从第一通讯信息Sl "家居饰品超低价尽在13655551110"中获取符合该提取规则的单 词"13655551110",将获取的单词"13655551110"添加到特征词集合中。
[0119] 其中,将获取的特征词添加到特征词集合中之后,当用户再次发送包含该特征词 的通讯信息时,可W根据特征词集合识别出用户发送的通讯信息为恶意信息。
[0120] 在本发明实施例中,接收用户发送的第一通讯信息;获取该用户的历史信息记录, 该历史信息记录中包括在离当前时间最近的预设时间段内该用户发送的每个第二通讯信 息;根据该历史信息记录,识别第一通讯信息是否为恶意信息。由于获取了用户的历史信息 记录,如此当第一通讯信息中不包括特征词集合中的特征词时,可W根据用户的历史信息 记录来识别第一通讯信息是否为恶意信息,如此能够识别出不包括特征词集合中的特征词 的恶意f目息。
[0121] 实施例3 阳122] 本发明实施例提供了一种识别恶意信息的方法。
[0123] 目前,用户经常通过即时通讯应用或社交网络发送通讯信息给好友,但是越来越 多的恶意份子通过即时通讯应用或社交网络发送恶意信息给用户,恶意信息可W为广告信 息或欺诈信息等,运些恶意信息会给用户带来打扰。为了屏蔽运些恶意信息W避免给用户 带来打扰,服务器可W通过本发明实施例提供的方法来识别运些恶意信息,W便屏蔽运些 恶思f曰息。
[0124] 参见图3,该方法具体包括: 阳1巧]步骤301-304 :与步骤201-204的操作相同,在此不再寶述;
[0126] 步骤305 :获取第一通讯信息和每个第二通讯信息中包括的每个单词,组成单词 集合; 阳127] 具体地,对第一通讯信息进行分词处理,获得第一通讯信息中包括的每个单词。分 别对历史信息记录中包括的每个第二通讯信息进行分词处理,得到每个第二通讯信息中包 括的每个单词。如果获取的所有单词中存在重复的单词,则对重复的单词只保留其中一个 单词,W保证剩余的单词中不存在重复的单词,将剩余的单词组成单词集合。
[0128] 例如,假设,第一通讯信息Sl为"家居饰品超低价尽在13655551110",历史 信息记录化中包括第二通讯信息"家居饰品超低价13655551110"、"家居饰品超低价 13655551110"和"我们真的超低价"。对第一通讯信息Sl进行分词处理,获得第一通讯信 息Sl中包括的单词"家居"、"饰品"、"超低价"、"尽在"和"13655551110"。分别对历史信 息记录Hl中包括的每个第二通讯信息进行分词处理,得到每个第二通讯信息中包括的单 词"我们"、"真的"、"家居"、"饰品"、"超低价"和"13655551110"。将获取的单词中重复的 单词只保留一个,则得到的单词为"我们"、"真的"、"家居"、"饰品"、"超低价"、"尽在"和 "13655551110",将运些单词组成单词集合U1。
[0129] 步骤306 :根据第一通讯信息和历史信息记录,生成单词集合中包括的每个单词 分别对应的单词矩阵;
[0130] 具体地,对于单词集合中包括的每个单词,根据第一通讯信息和历史信息记录中 包括的每个第二通讯信息,生成该单词对应的单词矩阵。其中,第一通讯信息对应于该单词 对应的单词矩阵中的一个元素,如果第一通讯信息中包括该单词,则第一通讯信息对应的 元素的值为1,否则第一通讯信息对应的元素的值为0。同样,每个第二通讯信息也分别对 应于该单词对应的单词矩阵中的一个元素,如果第二通讯信息中包括该单词,则该第二通 讯信息对应的元素的值为1,否则该第二通讯信息对应的元素的值为0。对于单词集合中包 括的其它每个单词,都同该单词按照上述方式分别生成其它每个单词对应的单词矩阵。 阳131] 例如,对于单词集合Ul中的单词"家居",根据第一通讯信息Sl和历史信息记录Hl 中包括的每个第二通讯信息,生成单词"家居"对应的单词矩阵A= [1,1,1,0]。同样按照 上述方法生成单词"饰品"对应的单词矩阵B = [1,1,1,0],单词"超低价"对应的单词矩阵 C = [1,1,1,0],单词"尽在"对应的单词矩阵D = [1,0,0,0],单词"13655551110"对应的 单词矩阵E = [1,1,1,0],单词"我们"对应的单词矩阵F =[0,0,0,1],单词"真的"对应 的单词矩阵G =[0,0,0,1]。
[0132] 其中,通过上述步骤306的操作得到单词集合中的每个单词对应的单词矩阵之 后,通过如下步骤307和308的操作识别第一通讯信息是否为恶意信息。
[0133] 步骤307:根据单词集合中包括的每个单词对应的单词矩阵,确定第一通讯信息 中包括的特征词; 阳134] 其中,特征词为恶意信息中常用的单词。由于恶意信息中通常包括邮箱地址、网页 地址、电话号码W及即时通讯或社交网络账号等。所W特征词一般为包含数字、http、WWW、 (30111、(311或@等字符的单词。例如,广告信息中通常会有产品的价格、产品信息的网页地址W 及商家的电话号码等,所W广告信息中包含价格、网页地址和电话号码的单词都是特征词。
[0135] 本步骤具体为,从第一通讯信息中获取一个单词作为第=单词。计算第=单词对 应的单词矩阵分别与单词集合中包括的除第=单词W外的每个单词对应的单词矩阵之间 的距离方差。从单词集合中包括的除第=单词W外的每个单词对应的单词矩阵中,获取与 第=单词对应的单词矩阵之间的距离方差小于预设方差阔值的每个单词矩阵。当获取的单 词矩阵的数目超过第=预设数目阔值时,将第=单词确定为特征词。对于第一通讯信息中 包括的其他每个单词,都同第=单词按照上述方法分别确定其他每个单词是否为特征词。
[0136] 其中,第S单词对应的单词矩阵与单词集合中包括的其他每个单词对应的单词矩 阵之间的距离方差,可W表示第=单词与单词集合中包括的其他每个单词在通讯信息中出 现的次数之间的差异,第=单词与某个单词之间的距离方差越小,表示第=单词与该单词 在通讯信息中出现的次数越相近。
[0137] 例如,假设预设方差阔值为1,第S数目阔值为2。从第一通讯信息Sl中获取 一个单词作为第=单词,假设第=单词为"家居"。计算第=单词"家居"对应的单词矩 阵A与单词集合Ul中包括的除第S单词"家居"W外的单词"饰品"、"超低价"、"尽在"、 "13655551110"、"我们"和"真的"对应的单词矩阵B、C、D、E、F和G之间的距离方差分别为 0、0、1、0、1和1。从单词集合Ul中包括的单词"饰品"、"超低价"、"尽在"、"13655551110"、 "我们"和"真的"对应的单词矩阵B、C、D、E、F和G中,获取与第S单词"家居"对应的单词 矩阵A之间的距离方差小于预设方差阔值1的单词矩阵B、C和E。由于获取的单词矩阵的 数目为3超过了第S预设数目阔值2时,所W将第S单词"家居"确定为特征词。同样,按 照上述方法将单词"饰品"、"超低价"和"13655551110"均确定为特征词。
[0138] 步骤308 :当第一通讯信息中包括的特征词的数目超过第二预设数目阔值时,识 别第一通讯信息为恶意信息;
[0139] 其中,由于特征词为恶意信息中常用的单词,当第一通讯信息中包括的特征词的 数目超过第二预设数目阔值时,表明第一通讯信息中包括太多的特征词,此时可W将第一 通讯信息确定为恶意信息。
[0140] 例如,假设第二预设数目阔值为3。由于第一通讯信息中包括特征词"家居"、"饰 品"、"超低价"和"13655551110",特征词的数目为4超过了第二预设数目阔值3,则识别第 一通讯信息Sl "家居饰品超低价尽在13655551110"为恶意信息。 阳141] 其中,通过上述步骤308识别第一通讯信息为恶意信息之后,还需要通过如下步 骤309的操作将第一通讯信息中包括的特征词添加到特征词集合中。 阳14引步骤309 :将第一通讯信息中包括的特征词添加到特征词集合中。 阳143] 例如,将第一通讯信息中包括的特征词"家居"、"饰品"、"超低价"和 "13655551110"添加到特征词集合中。
[0144] 其中,将运些特征词添加到特征词集合中之后,当用户再次发送包含运些特征词 的通讯信息时,可W根据特征词集合识别出用户发送的通讯信息为恶意信息。
[0145] 在本发明实施例中,接收用户发送的第一通讯信息;获取该用户的历史信息记录, 该历史信息记录中包括在离当前时间最近的预设时间段内该用户发送的每个第二通讯信 息;根据该历史信息记录,识别第一通讯信息是否为恶意信息。由于获取了用户的历史信息 记录,如此当第一通讯信息中不包括特征词集合中的特征词时,可W根据用户的历史信息 记录来识别第一通讯信息是否为恶意信息,如此能够识别出不包括特征词集合中的特征词 的恶意f目息。 阳146] 实施例4 阳147] 参见图4,本发明实施例提供了一种识别恶意信息的装置,包括:
[0148] 接收模块401,用于接收用户发送的第一通讯信息;
[01
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1