一种识别恶意信息的方法及装置的制造方法_4

文档序号:9791013阅读:来源:国知局
49] 第一获取模块402,用于获取用户的历史信息记录,该历史信息记录中包括在离当 前时间最近的预设时间段内用户发送的每个第二通讯信息; 阳150] 识别模块403,用于根据历史信息记录,识别第一通讯信息是否为恶意信息。 阳151] 其中,识别模块403包括: 阳152] 计算单元,用于根据第一通讯信息和历史信息记录,计算第一通讯信息分别与历 史信息记录中包括的每个第二通讯信息之间的相似度; 阳153] 第一获取单元,用于获取与第一通讯信息之间的相似度超过预设相似度阔值的第 二通讯信息的数目;
[0154] 第一确定单元,用于当获取的第二通讯信息的数目超过第一预设数目阔值时,确 定第一通讯信息为恶意信息。 阳1巧]其中,计算单元包括:
[0156] 转换子单元,用于将第一通讯信息转换为第一信息矩阵,W及将第二通讯信息转 换为第二信息矩阵; 阳157] 第一计算子单元,用于计算第一信息矩阵与第二信息矩阵之间的距离方差;
[0158] 第二计算子单元,用于根据第一信息矩阵与第二信息矩阵之间的距离方差,计算 第一通讯信息与第二通讯信息之间的相似度。
[0159] 其中,转换子单元,用于从第一通讯信息包括的单词中获取关系表中存在的单词 作为第一单词,W及获取关系表中不存在的单词作为第二单词,该关系表中包括单词与索 引值的对应关系;从关系表中获取第一单词对应的索引值;为第二单词分配对应的索引 值;将第一单词对应的索引值和第二单词对应的索引值组成第一通讯信息对应的第一信息 矩阵。
[0160] 其中,第二计算子单元,用于计算第一信息矩阵与第二信息矩阵之间的距离方差 的倒数;将倒数确定为第一通讯信息与第二通讯信息之间的相似度。 阳161] 进一步地,该装置还包括:
[0162] 确定模块,用于确定第一通讯信息中是否包括特征词集合中的特征词,如果包括, 则识别出第一通讯信息为恶意信息,如果不包括,则执行获取用户的历史信息记录的操作。 阳163] 进一步地,该装置还包括:
[0164] 第二获取模块,用于如果第一通讯信息不包括特征词集合中的特征词且识别出第 一通讯信息为恶意信息,则从第一通讯信息中获取特征词;
[0165] 添加模块,用于将获取的特征词添加到特征词集合中。
[0166] 其中,识别模块403包括:
[0167] 第二获取单元,用于获取第一通讯信息和每个第二通讯信息中包括的每个单词, 组成单词集合;
[0168] 生成单元,用于根据第一通讯信息和历史信息记录,生成单词集合中包括的每个 单词分别对应的单词矩阵;
[0169] 第二确定单元,用于根据单词集合中包括的每个单词对应的单词矩阵,确定第一 通讯信息中包括的特征词;
[0170] 识别单元,用于当第一通讯信息中包括的特征词的数目超过第二预设数目阔值 时,识别第一通讯信息为恶意信息。 阳171] 其中,第二确定单元包括: 阳172] 第S计算子单元,用于计算第S单词对应的单词矩阵分别与单词集合中包括的除 第=单词W外的每个单词对应的单词矩阵之间的距离方差,第=单词为第一通讯信息中包 括的任一单词; 阳173] 获取子单元,用于获取与第=单词对应的单词矩阵之间的距离方差小于预设方差 阔值的每个单词矩阵;
[0174] 确定子单元,用于当获取的单词矩阵的数目超过第S预设数目阔值时,将第S单 词确定为特征词。
[01巧]在本发明实施例中,接收用户发送的第一通讯信息;获取该用户的历史信息记录, 该历史信息记录中包括在离当前时间最近的预设时间段内该用户发送的每个第二通讯信 息;根据该历史信息记录,识别第一通讯信息是否为恶意信息。由于获取了用户的历史信息 记录,如此当第一通讯信息中不包括特征词集合中的特征词时,可W根据用户的历史信息 记录来识别第一通讯信息是否为恶意信息,如此能够识别出不包括特征词集合中的特征词 的恶意f目息。
[0176] 本领域普通技术人员可W理解实现上述实施例的全部或部分步骤可W通过硬件 来完成,也可W通过程序来指令相关的硬件完成,所述的程序可W存储于一种计算机可读 存储介质中,上述提到的存储介质可W是只读存储器,磁盘或光盘等。
[0177] W上所述仅为本发明的较佳实施例,并不用W限制本发明,凡在本发明的精神和 原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【主权项】
1. 一种识别恶意信息的方法,其特征在于,所述方法包括: 接收用户发送的第一通讯信息; 获取所述用户的历史信息记录,所述历史信息记录中包括在离当前时间最近的预设时 间段内所述用户发送的每个第二通讯信息; 根据所述历史信息记录,识别所述第一通讯信息是否为恶意信息。2. 如权利要求1所述的方法,其特征在于,所述根据所述历史信息记录,识别所述第一 通讯信息是否为恶意信息,包括: 根据所述第一通讯信息和所述历史信息记录,计算所述第一通讯信息分别与所述历史 信息记录中包括的每个第二通讯信息之间的相似度; 获取与所述第一通讯信息之间的相似度超过预设相似度阈值的第二通讯信息的数 目; 当所述获取的第二通讯信息的数目超过第一预设数目阈值时,确定所述第一通讯信息 为恶意信息。3. 如权利要求2所述的方法,其特征在于,所述根据所述第一通讯信息和所述历史信 息记录,计算所述第一通讯信息分别与所述历史信息记录中包括的每个第二通讯信息之间 的相似度,包括: 将所述第一通讯信息转换为第一信息矩阵,以及将所述第二通讯信息转换为第二信息 矩阵; 计算所述第一信息矩阵与所述第二信息矩阵之间的距离方差; 根据所述第一信息矩阵与所述第二信息矩阵之间的距离方差,计算所述第一通讯信息 与所述第二通讯信息之间的相似度。4. 如权利要求1所述的方法,其特征在于,所述根据所述历史信息记录,识别所述第一 通讯信息是否为恶意信息,包括: 获取所述第一通讯信息和所述每个第二通讯信息中包括的每个单词,组成单词集合; 根据所述第一通讯信息和所述历史信息记录,生成所述单词集合中包括的每个单词分 别对应的单词矩阵; 根据所述单词集合中包括的每个单词对应的单词矩阵,确定所述第一通讯信息中包括 的特征词; 当所述第一通讯信息中包括的特征词的数目超过第二预设数目阈值时,识别所述第一 通讯信息为恶意信息。5. 如权利要求4所述的方法,其特征在于,所述根据所述单词集合中包括的每个单词 对应的单词矩阵,确定所述第一通讯信息中包括的特征词,包括: 计算第三单词对应的单词矩阵分别与所述单词集合中包括的除所述第三单词以外的 每个单词对应的单词矩阵之间的距离方差,所述第三单词为所述第一通讯信息中包括的任 一单词; 获取与所述第三单词对应的单词矩阵之间的距离方差小于预设方差阈值的每个单词 矩阵; 当所述获取的单词矩阵的数目超过第三预设数目阈值时,将所述第三单词确定为特征6. -种识别恶意信息的装置,其特征在于,所述装置包括: 接收模块,用于接收用户发送的第一通讯信息; 第一获取模块,用于获取所述用户的历史信息记录,所述历史信息记录中包括在离当 前时间最近的预设时间段内所述用户发送的每个第二通讯信息; 识别模块,用于根据所述历史信息记录,识别所述第一通讯信息是否为恶意信息。7. 如权利要求6所述的装置,其特征在于,所述识别模块包括: 计算单元,用于根据所述第一通讯信息和所述历史信息记录,计算所述第一通讯信息 分别与所述历史信息记录中包括的每个第二通讯信息之间的相似度; 第一获取单元,用于获取与所述第一通讯信息之间的相似度超过预设相似度阈值的第 二通讯信息的数目; 第一确定单元,用于当所述获取的第二通讯信息的数目超过第一预设数目阈值时,确 定所述第一通讯信息为恶意信息。8. 如权利要求7所述的装置,其特征在于,所述计算单元包括: 转换子单元,用于将所述第一通讯信息转换为第一信息矩阵,以及将所述第二通讯信 息转换为第二信息矩阵; 第一计算子单元,用于计算所述第一信息矩阵与所述第二信息矩阵之间的距离方差; 第二计算子单元,用于根据所述第一信息矩阵与所述第二信息矩阵之间的距离方差, 计算所述第一通讯信息与所述第二通讯信息之间的相似度。9. 如权利要求6所述的装置,其特征在于,所述识别模块包括: 第二获取单元,用于获取所述第一通讯信息和所述每个第二通讯信息中包括的每个单 词,组成单词集合; 生成单元,用于根据所述第一通讯信息和所述历史信息记录,生成所述单词集合中包 括的每个单词分别对应的单词矩阵; 第二确定单元,用于根据所述单词集合中包括的每个单词对应的单词矩阵,确定所述 第一通讯信息中包括的特征词; 识别单元,用于当所述第一通讯信息中包括的特征词的数目超过第二预设数目阈值 时,识别所述第一通讯信息为恶意信息。10. 如权利要求9所述的装置,其特征在于,所述第二确定单元包括: 第三计算子单元,用于计算第三单词对应的单词矩阵分别与所述单词集合中包括的除 所述第三单词以外的每个单词对应的单词矩阵之间的距离方差,所述第三单词为所述第一 通讯信息中包括的任一单词; 获取子单元,用于获取与所述第三单词对应的单词矩阵之间的距离方差小于预设方差 阈值的每个单词矩阵; 确定子单元,用于当所述获取的单词矩阵的数目超过第三预设数目阈值时,将所述第 三单词确定为特征词。
【专利摘要】本发明公开了一种识别恶意信息的方法及装置,属于互联网通信领域。所述方法包括:接收用户发送的第一通讯信息;获取所述用户的历史信息记录,所述历史信息记录中包括在离当前时间最近的预设时间段内所述用户发送的每个第二通讯信息;根据所述历史信息记录,识别所述第一通讯信息是否为恶意信息。所述装置包括:接收模块、第一获取模块和识别模块。本发明能够识别出不包括特征词集合中的特征词的恶意信息。
【IPC分类】H04L29/06, H04L12/58, G06F17/30
【公开号】CN105553918
【申请号】CN201410588850
【发明人】詹奕深
【申请人】广州华多网络科技有限公司
【公开日】2016年5月4日
【申请日】2014年10月28日
当前第4页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1