垃圾信息确认方法和装置、终端的制作方法

文档序号:7701377阅读:108来源:国知局
专利名称:垃圾信息确认方法和装置、终端的制作方法
技术领域
本发明实施例涉及通信技术领域,尤其涉及一种垃圾信息确认方法和装 置、终端。
背景技术
短信作为移动通信增值服务之一,在为人们提供便捷的同时,也产生 了大量垃圾短信。垃圾短信的监管问题受到社会各界的广泛重视,对短信 进行必要的内容过滤是营造健康手机环境的重要环节,除了从立法层面对 信息发布进行监管外,更重要的是从技术层面探索对垃圾短信的防范技 术。
现有的一种手机短信过滤方法是基于手机通讯录进行的,该方法通过 提取接收到的短信中发送方的电话号码,然后检查该电话号码是否包含在 用户的通讯录中,如果通讯录中没有包含该电话号码,则确认该短信为垃 圾短信,由此会导致通讯录以外的电话号码发送的正常短信也被确认为垃 圾短信,造成过滤垃圾短信的准确率低。

发明内容
本发明实施例提供一种垃圾信息确认方法和装置、终端,以实现精确的 确认垃圾信息。
本发明实施例提供一种垃圾信息确认方法,包括 获取接收到的信息的验证特征信息;
将所述验证特征信息与预置的垃圾特征信息进行相似度匹配; 若所述验证特征信息与所述垃圾特征信息之间的相似度不小于预设阈值,则确认所述信息为垃圾信息。
本发明实施例提供一种垃圾信息确认装置,包括 获取模块,用于获取接收到的信息的验证特征信息; 相似度匹配模块,用于将所述验证特征信息与预置的垃圾特征信息进行 相似度匹配;
确认模块,用于若所述验证特征信息与所述垃圾特征信息之间的相似度 不小于预设阈值,则确认所述信息为垃圾信息。
本发明实施例提供一种终端,该终端包括任一本发明实施例提供的垃圾 信息确认装置。
本发明实施例提供的垃圾信息确认方法和装置、终端,通过获取接收到 的信息的验证特征信息,并根据垃圾特征信息对该-睑证特征信息进行相似度 匹配,由相似度匹配结果来确认该信息是否为垃圾信息,可以比较精确地确 认垃圾信息。


为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需 要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发 明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的 前提下,还可以根据这些附图获得其他的附图。
图1为本发明垃圾信息确认方法实施例一的流程示意图; 图2为本发明垃圾信息确认方法实施例二的流程示意图; 图3为本发明垃圾信息确认方法实施例三的流程示意图; 图4为本发明垃圾信息确认装置实施例一的结构示意图; 图5为本发明垃圾信息确认装置实施例二的结构示意图; 图6为本发明垃圾信息确认装置实施例三的结构示意图。
具体实施例方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进 行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例, 而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没 有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的 范围。
下面结合附图和具体实施例进一步说明本发明实施例的技术方案。
图1为本发明垃圾信息确认方法实施例一的流程示意图,参见图1,该
方法实施例可以包括以下步骤
步骤IOI,获取接收到的信息的验证特征信息;
其中,接收到的信息,可以是手机短信、彩信或手机wap网页等信息; 验证特征信息是从信息中提取出的、可以表示该信息语义信息的特征。
步骤102,将验证特征信息与预置的垃圾特征信息进行相似度匹配;
本步骤具体可以为将获取到的验证特征信息与预置的垃圾信息库中的垃 圾特征信息进行相似度匹配;其中,垃圾信息库是通过对大量的垃圾信息和 正常信息进行特征信息分析得到的。
步骤103,若验证特征信息与垃圾特征信息之间的相似度不小于预设阈 值,则确i人该信息为垃圾信息;
其中,若验证特征信息与垃圾特征信息之间的相似度不小于预设阈值, 则确认该信息为垃圾信息,若验证特征信息与垃圾特征信息之间的相似度d、 于预设阈值,则确认该信息为正常信息。
本发明实施例提供的垃圾信息确认方法,通过获取接收到的信息的验证 特征信息,并根据垃圾特征信息对该验证特征信息进行相似度匹配,由相似 度匹配结果来确认该信息是否为垃圾信息,可以比较精确地确认垃圾信息。
图2为本发明垃圾信息确认方法实施例二的流程示意图,参见图2,该 方法实施例可以包括以下步骤步骤201 ,将接收到的信息分割为至少一个信元;
当接收到的信息为文字信息时,可以使用分词工具对接收到的信息内容 进行分词处理,即将信息内容分割为信元;在进行分词处理前,首先剔除文 档中所有与分类任务无关的内容,如标点符号、无意义的连词等;例如,信 息A为XX酒店开业酬宾并举办幸运抽奖,消费满XX元可免费抽奖;对 该信息的分词处理结果为将该信息分割为以下信元XX酒店/开业/酬宾/举办 /幸运/抽奖/消费/满/XX元/可/免费/抽奖。
步骤202,根据预设策略,计算出与至少一个信元对应的权重值;
本步骤是根据预设策略,计算出与每个信元对应的权重值;其中,该预 设策略可以釆用多种算法,例如使用互信息、信息增益、期望交叉熵和文本 证据权等特征提取函数来进行计算并提取。采用互信息算法为例,对上述信 息A分词得到的信元,计算互信息量,将每个信元对应的互信息量作为每个 信元对应的的纟又重值。
步骤203,根据权重值从至少一个信元中提取至少一个信元作为验证特 征信元;
本步骤是根据每个信元对应的权重值从所有的信元中才是取一个或多个具 有代表性的信元作为验证特征信元;其中,在提取验证特征信元时,可以提 取权重值最高的几个(具体个数由实际情况决定,在此并不限制具体的个数) 信元作为验证特征信元,也可以提取权重值高低排列位于中间的几个信元作 为验证特征信元,在此只是根据信元对应的权重值的高低来提取-验证特征信 元,而并不限制提取时依据的规则;采用互信息算法对上述信息A分词得到 的信元,计算得到每个信元的权重值后,根据权重值的高低提取的验证特征 信元为举办/抽奖/消费/免费,其中上述四个验证特征信元对应的权重值分 别为0.75, 0.92, 0.77, 0.82。
步骤204, 一艮据-睑证特征信元和验证特征信元对应的纟又重值,生成—验i正 特征信元对应的-验"i正特4正向量;其中,验证特征信元和验证特征信元对应的验证特征向量包含在验iiL特
征信息之中。根据步骤203提取出的所有验证特征信元和所有验证特征信元 对应的权重值生成一个验证特征向量;对文本信息中每个句子提取验证特征 信元并表示为验证特征向量,由此用向量的方式表示该信息的语义信息。根 据上述信息A的-^i正特征信元及其对应的权重值,生成的验证特征向量为 {举办,0.75;抽奖,0,92;消费,0.77;免费,0.82}。
步骤205,计算验证特征向量与垃圾特征向量之间的相似度,并将计算 得到的相似度与预设阈值进行比较;
本步骤具体可以为将该信息的验证特征向量与垃圾特征向量库中的垃 圾特征向量逐一计算相似度,然后将计算得到的相似度与预设阈值进行比较。 其中,两个向量之间的相似度可以用现有的多种算法来计算,例如两个向 量之间夹角的余弦值、欧氏距离或者向量内积距离,都可以用来计算两个向 量之间的相似度。两个向量之间夹角的余弦值可以表示为
其中,d表示验证特征向量,pf表示垃圾特征向量,m表示特征向量的 维数,dk表示d中第k个词的权重值,pfk表示pf中第k个词的权重值。
此外,在进行垃圾信息确认方法进行之前,要预先建立垃圾信息库,垃 圾信息库包括有垃圾特征信元库和垃圾特征向量库。建立垃圾信息库的方法 可以包括根据大量已知的各类垃圾信息,对每一条垃圾信息进行分词,计 算分词得到的每个垃圾信元的权重值,根据权重值提取垃圾特征信元,并根 据该垃圾特征信元及其对应的权重值生成该垃圾特征信元对应的垃圾特征向 量(即每一条垃圾信息对应的垃圾特征向量),然后将提取的垃圾特征信元 添加到垃圾特征信元库中,将该垃圾特征信元对应的垃圾特征向量(垃圾特 征信元和权重值)作为一条记录添加到垃圾特征向量库中。具体的分词、计 算权重值、提取特征信元、以及生成特征向量的方法,参见上述步骤201到步骤204中相应的描述。
在进行确认垃圾信息之前,还要预先确定预设阈值,具体确定预设阈值 的方法可以为预先设定一预设阈值的初始值,然后使用该初始值对一定数 量的测试信息(包括正常信息和垃圾信息)进行垃圾信息确认,再根据垃圾 信息确认的准确程度调整初始值,选择能产生最佳性能的阈值作为预设阈值。
步骤206,若验证特征信息与垃圾特征信息之间的相似度不小于预设阈 值,则确认该信息为垃圾信息;
具体为,若验证特征信息与垃圾特征信息之间的相似度不小于预设阈值, 则确认该信息为垃圾信息,若验证特征信息与垃圾特征信息之间的相似度小 于预设阈值,则确认该信息为正常信息。
当确认该信息为垃圾信息后,可以有多种处理方式,比如直接将该垃 圾信息删除;或者,将该垃圾信息放入垃圾箱中,用户可以随时查阅垃圾箱; 或者,在将该垃圾信息放入垃圾箱的同时,提示用户收到一个垃圾信息,本 发明实施例并不限制对于垃圾信息的处理方法。当确认该信息不是垃圾信息, 即确iU亥信息为正常信息时,向用户正常显示该信息。
本发明方法实施例还可以包括
步骤207,当确认接收到的信息为垃圾信息时,将该信息的验证特征信 息添加到垃圾特征信息中;
当通过步骤201到步骤206确认接收到的信息为垃圾信息时,将该信息 的验证特征信息添加到垃圾特征信息中,由此,可以增加后续垃圾信息确认 过程的准确性;当然,为了避免垃圾信息库中的垃圾特征信息的存储量过大, 也可以在接收到的信息的验证特征信息与垃圾特征信息的相似度非常高或者 完全相同时,就不将该信息的验证特征信息添加到垃圾特征信息中。此外, 由于垃圾信息库中的垃圾特征信息是通过对大量垃圾信息进行提取得到的, 所以某些特殊的垃圾信息或者新类型的垃圾信息的垃圾特征信息可能没有包 含在垃圾信息库中,当此类垃圾信息经过步骤201到步骤206的确认后,可能会被确认为正常信息并向用户正常显示,此时若用户确定该信息为垃圾信 息,则发送指示该信息为垃圾信息的指示消息,当用户终端接收到该指示消 息时,将该信息的验证特征信息添加到垃圾特征信息中,增加了后续垃圾信 息确认过程的准确性。
本发明实施例提供的垃圾信息确认方法,通过对将接收到的信息分割为 信元,计算得到信元对应的权重值,并根据信元对应的权重值从信元中提取 出验证特征信元,从而生成验证特征信元对应的验证特征向量,根据验证特 征向量与垃圾特征向量之间的相似度匹配结果,来确认该信息是否为垃圾信
息;并且能够及时的添加垃圾特征信息的内容,可以比4交精确地确认垃圾信 自
图3为本发明垃圾信息确认方法实施例三的流程示意图,参见图3,该 方法实施例可以包括以下步骤
步骤301,将接收到的信息分割为至少一个信元;
当接收到的信息为文字信息时,可以使用分词工具对接收到的信息内容 进行分词处理,即将信息内容分割为信元。
步骤302,根据预设策略,计算出与至少一个信元对应的权重值;
本步骤是根据预设策略,计算出与每个信元对应的权重值;其中,该预 设策略可以采用多种算法,例如使用互信息、信息增益、期望交叉熵和文本 证据权等特征提取函数来进行计算并提取。
步骤303,根据权重值从至少一个信元中提取至少一个信元作为验证特 征信元;
本步骤是根据每个信元对应的权重值从所有的信元中提取一个或多个具 有代表性的信元作为验证特征信元;其中,在提取验证特征信元时,可以提 取权重值最高的几个信元作为验证特征信元,也可以提取权重值高低排列位 于中间的几个信元作为验证特征信元,在此只是根据信元对应的权重值的高 低来提取验证特征信元,而并不限制提取时依据的规则。步骤304,根据验证特征信元和验证特征信元对应的权重值,生成验证 特征信元对应的-睑i正特征向量;
其中,验证特征信元和验证特征信元对应的验证特征向量包含在验证特 征信息之中。根据步骤303提取出的所有验证特征信元和所有验证特征信元 对应的权重值生成一个验i正特征向量。
步骤305,将验证特征信元与垃圾特征信元进行匹配;
垃圾信息库中包含有多个垃圾特征信元,将每个验-汪特征信元与垃圾信 息库中的垃圾特征信元逐一进行匹配;其中垃圾信息库的建立方法参见本发 明方法实施例二中的描述,在此不再赘述。
步骤306,若存在验证特征信元和垃圾特征信元相匹配,则执行步骤307;
只要存在任意一个验证特征信元与垃圾信息库中的垃圾特征信元相一 致,则执行步骤307;否则确认该信息为正常信息;该步骤的目的是防止做 无谓的步骤307的计算。
步骤307,计算验证特征向量与垃圾特征向量之间的相似度,并将计算 得到的相似度与预设阈值进行比较;
本步骤中计算验证特征向量与垃圾特征向量之间的相似度具体可以包括 以下两种计算方式
一是将验证特征向量与垃圾特征向量库中的垃圾特征向量逐一计算相似
度;
二是分别计算验证特征向量与包含和该验证特征信元相匹配的垃圾特征 信元的垃圾特征向量之间的相似度;即在将验证特征信元与垃圾特征信元进 行匹配后,确定出与验证特征信元相匹配的垃圾特征信元以及包含这些垃圾 特征信元所对应的权重值的垃圾特征向量,然后仅仅将该验证特征向量与前 述确定的垃圾特征向量进4亍相似度计算。
本步骤可以包括上述两种方式中的任意一种,计算得到相似度后,将该 相似度与预设阔值进行比较。本步骤中向量之间的相似度的算法以及预设阈值的设置方法可以参加本发明方法实施例二中的描述,在此不再赘述。
步骤308,若验证特征信息与垃圾特征信息之间的相似度不小于预设阈 值,则确认该信息为垃圾信息;
具体为,若验证特征信息与垃圾特征信息之间的相似度不小于预设阈值, 则确认该信息为垃圾信息,若验证特征信息与垃圾特征信息之间的相似度小 于预设阈值,则确认该信息为正常信息。
步骤309,当确认接收到的信息为垃圾信息时,将该信息的验证特征信 息添加到所述垃圾特征信息中;
当通过步骤301到步骤308确认接收到的信息为垃;及信息时,将该信息 的验证特征信息添加到垃圾特征信息中;当然,为了避免垃圾信息库中的垃 圾特征信息的存储量过大,也可以在接收到的信息的验^〖正特征信息与垃圾特 征信息的相似度非常高或者完全相同时,就不将该信息的验证特征信息添加 到垃圾特征信息中。此外,某些垃圾信息经过上述确认垃圾信息的步骤后, 可能会被确认为正常信息并向用户正常显示,此时若用户确定该信息为垃圾 信息,则发送指示该信息为垃圾信息的指示消息,当用户终端接收到该指示 消息时,将该信息的验证特征信息添加到垃圾特征信息中。
本发明方法实施例三除了具有本发明方法实施例二的优点以外,还增加 了预先对验证特征信元进行匹配。当验i正特征信元与垃圾特征信元相匹配时, 才进行验证特征向量的相似度匹配;当没有验证特征信元与垃圾特征信元相 匹配时,则直接确认该信息为正常信息,而无需再进行验证特征向量的相似 度匹配;由于验证特征信元的匹配比验证特征向量的匹配过程简单,因此本 实施例简化了对每条信息都进行验证特征向量匹配的过程。
图4为本发明垃圾信息确认装置实施例一的结构示意图,参见图4,该 装置实施例具体可以包括
获取模块41 ,用于获取接收到的信息的验证特征信息;
相似度匹配模块43,用于将获取模块41获得的验证特征信息与预置的垃圾特征信息进行相似度匹配;
确认模块45,用于若验证特征信息与垃圾特征信息之间的相似度不小于 预设阈值,则确认该信息为垃圾信息。
获取模块41从接收到的信息中获取验证特征信息,其中,接收到的信息 可以是手机短信、彩信或手机wap网页等信息,验证特征信息是从信息中提 取出的、可以表示该信息语义信息的特征;相似度匹配模块43根据垃圾特征 信息,将获取模块41获得的验证特征信息与预置的垃圾信息库中的垃圾特征 信息进行相似度匹配,其中,垃圾信息库是通过对大量的垃圾信息和正常信 息进行特征信息分析得到的;若验证特征信息与垃圾特征信息之间的相似度 不小于预设阈值,则确认模块45确认该信息为垃圾信息,若验证特征信息与 垃圾特征信息之间的相似度小于预设阈值,则确认模块45确认该信息为正常
j吕息。
本发明实施例提供的垃圾信息确认装置,通过获取接收到的信息的验证 特征信息,并根据垃圾特征信息对该验证特征信息进行相似度匹配,由相似 度匹配结果来确认该信息是否为垃圾信息,可以比较精确地确认垃圾信息。
图5为本发明垃圾信息确认装置实施例二的结构示意图,参见图5,该 装置实施例具体可以包括
获取4莫块51 ,用于获取接收到的信息的验证特征信息;
其中,获取模块51具体可以包括
分割单元511,用于将信息分割为至少一个信元;
权重值计算单元513,用于根据预设策略,计算出与至少一个信元对应 的权重值;
提取单元515,用于根据权重值从至少一个信元中提取至少一个信元作 为验证特征信元;
向量生成单元517,用于根据验证特征信元和验证特征信元对应的权重 值,生成验证特征信元对应的验证特征向量;
14其中,验证特征信元和验证特征信元对应的验证特征向量包含在验证特 征信息之中。
当接收到的信息为文字信息时,分割单元511可以使用分词工具对接收 到的信息内容进行分词处理,即将信息内容分割为信元;^l重值计算单元513 根据预设策略计算出每个信元对应的权重值,其中,该预设策略可以采用多 种算法,例如使用互信息、信息增益、期望交叉熵和文本证据权等特征提取 函数来进行计算;提取单元515根据每个信元对应的权重值的高低从所有的 信元中提取一个或多个具有代表性的信元作为验证特征信元;向量生成单元 517根据提取单元515提取出的所有验证特征信元和所有验证特征信元对应 的权重值生成一个验4正特征向量。
相似度匹配模块53,用于将验证特征信息与预置的垃圾特征信息进行相 似度匹配;
相似度匹配模块53具体可以包括第一相似度计算单元531和第一相似度 比较单元533。第一相似度计算单元531用于计算验证特征向量与垃圾信息 库中的垃圾特征向量之间的相似度;其中垃圾特征信息包括垃圾特征信元和 垃圾特征信元对应的垃圾特征向量。第一相似度比较单元533用于将第一相 似度计算单元531计算得到的相似度与预设阈值进行比较。其中,两个向量 之间的相似度可以用现有的多种算法来计算,例如两个向量之间夹角的余 弦值、欧氏距离或者向量内积距离,都可以用来计算两个向量之间的相似度。 此外,垃圾信息库的建立方法和预设阈值的设置方法参见本发明方法实施例 中的描述,在此不再赘述。
确认模块55,用于若验证特征信息与垃圾特征信息之间的相似度不小于 预设阈值,则确认该信息为垃圾信息;
若验证特征信息与垃圾特征信息之间的相似度不小于预设阈值,则确认 模块55确认该信息为垃圾信息,若验证特征信息与垃圾特征信息之间的相似 度小于预设阈值,则确认模块55确认该信息为正常信息。特征添加模块57,用于当确认接收到的信息为垃圾信息时,将该信息的 验证特征信息添加到所述垃圾特征信息中;
当通过上述各个模块确认接收到的信息为垃圾信息时,特征添加模块57 将该信息的验证特征信息添加到垃圾特征信息中,由此,可以增加后续垃圾 信息确认过程的准确性;当然,为了避免垃圾信息库中的垃圾特征信息的存 储量过大,也可以在接收到的信息的验证特征信息与垃圾特征信息的相似度 非常高或者完全相同时,就不将该信息的验证特征信息添加到垃圾特征信息 中。此外,某些垃圾信息经过上述模块的确认后,可能会被确认为正常信息 并向用户正常显示,此时若用户确定该信息为垃圾信息,则发送指示该信息 为垃圾信息的指示消息,当特征添加模块57接收到该指示消息时,将该信息 的验证特征信息添力口到垃圾特征信息中。
本发明实施例提供的垃圾信息确认装置,通过对将接收到的信息分割为 信元,计算得到信元对应的权重值,并根据信元对应的权重值从信元中提取 出验证特征信元,从而生成验证特征信元对应的验证特征向量,根据验证特 征向量与垃圾特征向量之间的相似度匹配结果,来确认该信息是否为垃圾信 息;并且能够及时的添加垃圾特征信息的内容,可以比较精确地确认垃圾信 息。
图6为本发明垃圾信息确认装置实施例三的结构示意图,参见图6,本 发明装置实施例三与本发明装置实施例二的区别在于,相似度匹配模块63具 体可以包括
信元匹配单元631,用于将验证特征信元与垃圾特征信元进行匹配; 判断单元633,用于判断验证特征信元和垃圾特征信元是否相匹配; 第二相似度计算单元635,用于若存在验证特征信元和垃圾特征信元相 匹配,则计算验证特征向量与垃圾特征向量之间的相似度,或者,计算验证 特征向量与包含和该4全证特征信元相匹配的垃圾特征信元的垃圾特征向量之 间的相似度;第二相似度比较单元637,用于将第二相似度计算单元635计算得到的 相似度与预设阈值进行比较。
本实施例中的获取模块61 、确认模块65和特征添加模块67,分别相当 于本发明装置实施例二中的获取模块51、确认模块55和特征添加模块57, 在此不再赘述。
当通过获^^莫块61获取到信息的验证特征信元和验证特征向量后,信元 匹配单元631将每个-睑证特征信元与垃圾信息库中的垃圾特征信元逐一进行 匹配;判断单元633判断匹配单元631匹配的结果,只要存在任意一个验证 特征信元与垃圾信息库中的垃圾特征信元相一致,则通过第二相似度计算单 元635和第二相似度比较单元637进行相似度匹配。其中,第二相似度计算 单元635计算相似度的过程为将验证特征向量与垃圾特征向量库中的垃圾 特征向量逐一计算相似度;或者在将验证特征信元与垃圾特征信元进行匹配 后,确定出与验证特征信元相匹配的垃圾特征信元以及包含这些垃圾特征信 元所对应的权重值的垃圾特征向量,然后仅仅将该验证特征向量与前述确定 的垃圾特征向量进行相似度计算。
本发明装置实施例三除了具有本发明装置实施例二的优点以外,还增加 了预先对验证特征信元进行匹配。当验证特征信元与垃圾特征信元相匹配时, 才进行验证特征向量的相似度匹配;当没有验证特征信元与垃圾特征信元相 匹配时,则直接确认该信息为正常信息,而无需再进行验证特征向量的相似 度匹配;由于验证特征信元的匹配比验证特征向量的匹配过程简单,因此本 实施例简化了对每条信息都进行验证特征向量匹配的过程。
本发明实施例还提供了 一种终端,该终端包括上述各个本发明装置实施 例之中提供的垃圾信息确认装置,该终端具体的结构和功能参见上述各个本 发明实施例之中的描述,在此不再赘述。
本发明实施例提供的终端,通过获取接收到的信息的验证特征信息,并 根据垃圾特征信息对该验证特征信息进行相似度匹配,由相似度匹配结果来确认该信息是否为垃圾信息,可以比较精确地确认垃圾信息。
本领域普通技术人员可以理解实现上述方法实施例的全部或部分步骤 可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读 取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述 的存储介质包括ROM、 RAM、磁碟或者光盘等各种可以存储程序代码的介 质。
最后应说明的是以上实施例仅用以说明本发明的技术方案,而非对其 限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术 人员应当理解其依然可以对前述各实施例所记载的技术方案进行修改,或 者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技
术方案的本质脱离本发明各实施例技术方案的精神和范围。
权利要求
1、一种垃圾信息确认方法,其特征在于,包括获取接收到的信息的验证特征信息;将所述验证特征信息与预置的垃圾特征信息进行相似度匹配;若所述验证特征信息与所述垃圾特征信息之间的相似度不小于预设阈值,则确认所述信息为垃圾信息。
2、 根据权利要求1所述的方法,其特征在于,所述验证特征信息包括验 证特征信元和根据所述验证特征信元得到的与所述验证特征信元对应的验证 特征向量;所述获取接收到的信息的验证特征信息包括将所述信息分割为至少 一个信元;根据预设策略,计算出与所述至少一个信元对应的权重值; 根据所述权重值从所述至少 一个信元中提取至少 一个信元作为验证特征 信元;根据所述验证特征信元和所述验证特征信元对应的权重值,生成所述验 证特征信元对应的验证特征向量。
3、 根据权利要求2所述的方法,其特征在于,所述垃圾特征信息包括垃 圾特征信元和根据所述垃圾特征信元得到的与所述垃;及特征信元对应的垃圾 特征向量,所述将所述验证特征信息与预置的垃圾特征信息进行相似度匹配 包括计算所述验证特征向量与所述垃圾特征向量之间的相似度; 将所述相似度与预设阈值进行比较。
4、 根据权利要求2所述的方法,其特征在于,所述垃圾特征信息包括垃 圾特征信元和根据所述垃圾特征信元得到的与所述垃圾特征信元对应的垃圾 特征向量,所述将所述验证特征信息与预置的垃圾特征信息进行相似度匹配 包括将所述验证特征信元与垃圾特征信元进行匹配;若所述验证特征信元和垃圾特征信元相匹配,则计算所述验证特征向量与垃圾特征向量之间的相似度;将所述相似度与预设阔值进行比较。
5、 根据权利要求l-4任一所述的方法,其特征在于,还包括当确认所述信息为垃圾信息时,将所述信息的診证特征信息添加到所述 垃圾特征信息中。
6、 一种垃圾信息确认装置,其特征在于,包括 获取模块,用于获取接收到的信息的验证特征信息; 相似度匹配模块,用于将所述验证特征信息与预置的垃圾特征信息进行相似度匹配;确认模块,用于若所述验证特征信息与所述垃圾特征信息之间的相似度 不小于预设阈值,则确认所述信息为垃圾信息。
7、 根据权利要求6所述的装置,其特征在于,所述验证特征信息包括验 证特征信元和根据所述验证特征信元得到的与所述验证特征信元对应的验证 特征向量,所述获:i^莫块包括分割单元,用于将所述信息分割为至少一个信元;权重值计算单元,用于根据预设策略,计算出与所述至少一个信元对应 的权重值;提取单元,用于根据所述权重值从所述至少一个信元中提取至少一个信 元作为-验证特征信元;向量生成单元,用于根据所述验证特征信元和所述验证特征信元对应的 权重值,生成所述验证特征信元对应的验证特征向量。
8、 根据权利要求7所述的装置,其特征在于,所述垃圾特征信息包括垃 圾特征信元和根据所述垃圾特征信元得到的与所述垃圾特征信元对应的垃圾 特征向量,所述相似度匹配模块包括第一相似度计算单元,用于计算所述验证特征向量与所述垃圾特征向量之间的相似度;第一相似度比较单元,用于将所述相似度与预设阈值进行比较。
9、 根据权利要求7所述的装置,其特征在于,所述垃圾特征信息包括垃 圾特征信元和根据所述垃圾特征信元得到的与所述垃圾特征信元对应的垃圾 特征向量,所述相似度匹配模块包括信元匹配单元,用于将所述验证特征信元与垃圾特征信元进行匹配; 判断单元,用于判断所述验证特征信元和垃圾特征信元是否相匹配; 第二相似度计算单元,用于若所述验证特征信元和垃圾特征信元相匹酉己, 则计算所述验证特征向量与所述垃圾特征向量之间的相似度;第二相似度比较单元,用于将所述相似度与预设阈值进行比较。
10、 根据权利要求6-9任一所述的装置,其特征在于,还包括 特征添加模块,用于当确认所述信息为垃圾信息时,将所述信息的验证特征信息添加到所述垃圾特征信息中。
11、 一种终端,其特征在于,包括权利要求6-10之中任意一项权利要求 所述的垃圾信息确认装置。
全文摘要
本发明实施例提供一种垃圾信息确认方法和装置、终端,该方法包括获取接收到的信息的验证特征信息;将所述验证特征信息与预置的垃圾特征信息进行相似度匹配;若所述验证特征信息与所述垃圾特征信息之间的相似度不小于预设阈值,则确认所述信息为垃圾信息。本发明实施例提供的垃圾信息确认方法和装置、终端,通过获取接收到的信息的验证特征信息,并根据垃圾特征信息对该验证特征信息进行相似度匹配,由相似度匹配结果来确认该信息是否为垃圾信息,可以比较精确地确认垃圾信息。
文档编号H04W4/14GK101600178SQ200910088359
公开日2009年12月9日 申请日期2009年6月26日 优先权日2009年6月26日
发明者孙知信, 健 孟, 婧 宫, 浩 寇 申请人:成都市华为赛门铁克科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1