信息分类处理方法、装置和终端的制作方法

文档序号:6338644阅读:177来源:国知局
专利名称:信息分类处理方法、装置和终端的制作方法
技术领域
本发明涉及通信技术领域,尤其涉及一种信息分类处理方法、装置和终端。
技术背景
垃圾短信日益成为困扰通信运营商和手机用户的问题。中国互联网协会发布的 调查结果称,我国手机用户平均每周收到8. 条垃圾短信。目前,我国的手机用户数已 达6亿,根据上述调查结果可知,全国用户每天收到的垃圾短信可达7亿条以上。这些 垃圾短信不仅带来了通信网络压力,给用户带来了困扰,同时也带来了巨大的不良社会 影响和潜在社会问题。
以往的垃圾短信过滤方法大多在网络侧实现,通过与网关相连的服务器或利用 网关服务器实现垃圾短信过滤。但是在网络侧进行的垃圾短信过滤方法,没有考虑到单 个用户对垃圾短信认定的差异性,而过分强调了垃圾短信的全网特征。
由此,现有技术提供了在终端侧实现的垃圾短信过滤方法,该方法采用“黑白 名单” + “黑白关键词” + “关键词加权控制”,其具体过程如下
步骤1、判断发送方是否属于用户定义的黑名单或白名单;若属于黑名单,则 判定为垃圾短信;若属于白名单,则判定为合法短信;若不属于黑名单和白名单,则执 行步骤2 ;
步骤2、判断短信内容是否包含用户定义的黑关键词或白关键词;若包含黑关 键词,则判定为垃圾短信;若包含白关键词,则判定为合法短信;若不包含黑关键词和 白关键词,则执行步骤3;
步骤3、从短信内容中挑选出存在于数据库中的垃圾关键词,根据数据库中对各 垃圾关键词标注的权重分,计算该短信的垃圾度,并根据该垃圾度判断该短信是否为垃 圾短信。
现有技术中至少存在如下问题
1、对于不断出现的垃圾短信发送方和垃圾短信新类型,用户需要不断增加黑白 名单和黑白关键词;由此,黑白关键词以及黑白名单的过滤效果取决于用户的添加意愿 和添加频频率;并且,用户不可能定义出所有垃圾短信发送方和所有黑关键词,随着过 滤效果的降低,用户自定义的意愿和频率都会逐渐降低,最终使这两种过滤手段失去原 有的作用,因此过滤效果不佳,也就是对短信进行分类的准确性较差。
2、在计算短信的垃圾度的过程中,所使用的包括垃圾关键词的数据库,是由服 务器根据全网垃圾短信样本统计出的结果,没有考虑到单个用户对垃圾短信认定的差异 性,可能会导致对某些短信的分类产生误判。发明内容
本发明实施例提供一种信息分类处理方法、装置和终端,用以提高信息分类的 准确性。
本发明实施例提供一种信息分类处理方法,包括
将接收到的待分类信息进行分词处理,获得所述待分类信息的分词结果;
根据所述待分类信息的分词结果和动态更新的贝叶斯训练结果,对所述待分类 信息进行分类;
所述动态更新的贝叶斯训练结果为根据动态更新的信息样本库进行增量贝叶斯 自学习获得的贝叶斯训练结果。
本发明实施例提供一种信息分类处理装置,包括
分词获取模块,用于将接收到的待分类信息进行分词处理,获得所述待分类信 息的分词结果;
过滤模块,用于根据所述待分类信息的分词结果和动态更新的贝叶斯训练结 果,对所述待分类信息进行分类;
所述动态更新的贝叶斯训练结果为根据动态更新的信息样本库进行增量贝叶斯 自学习获得的贝叶斯训练结果。
本发明实施例还提供了一种终端,该终端包括本发明实施例提供的任一信息分 类处理装置。
本发明实施例的信息分类处理方法、装置和终端,在使用嵌入式操作系统的终 端侧进行信息收发的过程中,动态更新信息样本库,并根据动态更新的信息样本库进行 增量贝叶斯自学习获得动态更新的贝叶斯训练结果,以对接收到的信息进行分类,由于 该动态更新的贝叶斯训练结果源自终端自身收发的信息,因此很好的体现了各个用户终 端的个体差异性,有效的提高了信息分类的准确性。


为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要 使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例, 对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获 得其他的附图。
图1为本发明信息分类处理方法实施例一的流程图2为本发明信息分类处理方法实施例二的流程图3为本发明信息分类处理方法实施例三的流程图4为本发明信息分类处理方法实施例四的流程图5为本发明信息分类处理装置实施例一的结构图6为本发明信息分类处理装置实施例二的结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施 例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实 施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普 通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护 的范围。
需要说明的是,本发明部分实施例是以手机短信为例,这只是为了方便说明, 本领域技术人员应该知道,但本发明实施例同样适用于其他情况下的信息接收,例如电 子邮件分类、寻呼机信息分类、基于internet的即时通讯软件(例如MSN、QQ)的信息 分类等。
图1为本发明信息分类处理方法实施例一的流程图,如图1所示,该方法包 括
步骤101、将接收到的待分类信息进行分词处理,获得待分类信息的分词结果。
本发明实施例可以应用于各种需要对信息文本进行分类的嵌入式操作系统中, 例如手机终端需要将接收到的短信进行分类,分为垃圾短信和合法短信,以实现对垃 圾短信的过滤。
当使用嵌入式操作系统的终端接收到待分类信息后,根据终端上存储的词典, 将该信息进行分词处理,得到该信息的分词结果。
步骤102、根据待分类信息的分词结果和动态更新的贝叶斯训练结果,对待分类 信息进行分类;该动态更新的贝叶斯训练结果为根据动态更新的信息样本库进行增量贝 叶斯自学习获得的贝叶斯训练结果。
查询当前的贝叶斯训练结果,得到步骤101中获得的分词结果中存在于该贝叶 斯训练结果中的各个词语的贝叶斯后验概率,根据这些词语的贝叶斯后验概率计算该信 息的联合概率;若联合概率大于阈值,则该信息为第一分类信息,否则该信息为第二分 类信息。其中,在手机终端对短信进行过滤的过程中,第一分类信息可以为垃圾短信, 第二分类信息可以为合法短信。
其中,贝叶斯训练结果包括信息样本库的所有词语中贝叶斯后验概率最高的 N个词语及其贝叶斯后验概率,N为预设的一自然数。
为了能够满足个体用户对分类的差异性需求,本发明各实施例中的信息样本库 随着用户收发信息而不断动态更新。信息样本库中包括有多个信息样本,信息样本包 括信息的样本类型、信息的信息内容和信息的分词结果;其中信息的样本类型包括第 一分类信息样本和第二分类信息样本。当用户收发的信息中,出现一个具有新的信息样 本的信息时,就可以将该新的信息样本添加到信息样本库中,以更新信息样本库。其中 出现一个新的信息样本的情况包括一、终端中出现一新信息,例如用户使用手机发送 出一新短信或接收到一短信;二、终端中原有的信息样本的样本类型发生改变,例如在 手机终端中从垃圾箱转入收件箱一短信,则该短信的样本类型由垃圾短信样本转变为合 法短信样本,从收件箱转入垃圾箱一短信,则该短信的样本类型由合法短信样本转变为 垃圾短信样本。
当信息样本库更新后,根据更新后的信息样本库进行增量贝叶斯自学习,得到 新的贝叶斯训练结果,以供下一次对接收到的待分类信息进行分类。
本实施例的信息分类处理方法,在使用嵌入式操作系统的终端侧进行信息收发 的过程中,动态更新信息样本库,并根据动态更新的信息样本库进行增量贝叶斯自学习 获得动态更新的贝叶斯训练结果,以对接收到的信息进行分类,由于该动态更新的贝叶 斯训练结果源自终端自身收发的信息,因此很好的体现了各个用户终端的个体差异性, 有效的提高了信息分类的准确性。
图2为本发明信息分类处理方法实施例二的流程图,在本发明方法实施例一的 基础上,如图2所示,该方法包括
步骤201、将接收到的待分类信息进行分词处理,获得待分类信息的分词结果。
本发明以下各实施例以手机终端对接收到的短信进行分类为例进行说明,手机 终端将接收到的短信分类为垃圾短信和合法短信,实现了对垃圾短信的过滤;其中本实 施例中的待分类信息可以为手机终端接收到的待过滤短信,第一分类信息可以为垃圾短 信,第二分类信息可以为合法短信。
当手机终端接收到短信后,根据手机终端上存储的词典,将该短信进行分词处 理,得到该短信的分词结果。
步骤202、查询动态更新的贝叶斯训练结果,获得待分类信息的分词结果与动态 更新的贝叶斯训练结果的交集中的交集分词和该交集分词的后验概率。后验概率为包含 一词的信息为第一分类信息的概率。
可以采用下式计算一词语的后验概率Pi。Γ NSi/NS
Pi =-NSi/NS+ NLi/NL
其中,后验概率Pi可以包括第一后验概率和第二后验概率。当NS和NL分别 为垃圾短信样本总数和合法短信样本总数,N^i和NLi分别为包含该词语的垃圾短信样本 数和包含该词语的合法短信样本数时,该后验概率Pi为第一后验概率;当NS和NL分别 为垃圾短信样本总词数和合法短信样本总词数,N^i和NLi分别为该词语在垃圾短信样本 中出现的总次数和该词语在合法短信样本中出现的总次数时,后验概率Pi为第二后验概 率。本发明各实施例中所述的后验概率可以是第一后验概率,也可以是第二后验概率。
步骤203、根据交集分词的后验概率计算待分类信息的联合概率;若该联合概 率大于预设阈值,则判断待分类信息为第一分类信息,否则判断待分类信息为第二分类 fn息ο
根据贝叶斯原理,可以采用下式计算待过滤短信的联合概率 ρ _Pl*P2*...*Pm_
_ pi*p2*...*pm + (i_pi)*(i_p2)*...*(I-Pm)
其中,PI、P2、…、Pm为该短信中存在于贝叶斯训练结果中的各个词语的后验 概率。如果联合概率P大于预先设定的阈值则将该短信判定为垃圾短信,否则将该短信 判定为合法短信。
步骤204、获取新增信息,将新增信息对应的新增信息样本添加到信息样本库 中,以更新信息样本库;信息样本包括信息的样本类型、信息内容和分词结果。
当步骤203中对待过滤的短信进行过滤后,即获得了一新增短信,根据过滤结 果可以获知该新增短信的样本类型,然后将该新增短信对应的新增短信样本添加到短信 样本库中。短信样本库中存储的短信样本包括短信的短信内容和分词结果,本发明实施 例中采用的短信内容和分词结果关联存储的方法,可以在保留短信内容的同时,保存其 分词结果,可以在后续过程中用于贝叶斯增量自学习,而无需每次自学习都对所有样本 重新进行分词,减少了计算的过程。
其中,为了合理的利用存储空间,短信样本存储的个数可以有限制,例如垃圾短信样本最多存储S条,合法短信样本最多存储T条,存满后循环更新,剔除最旧的短信 样本。
本实施例中的获取新增信息的方式可以是获取存储在使用嵌入式操作系统的 终端上,新增的且已确认样本类型的信息;或者获取存储在使用嵌入式操作系统的终端 上,样本类型改变的信息。其中,存储在使用嵌入式操作系统的终端上,新增的且已确 认样本类型的信息例如可以为手机终端新接收到的、已经过过滤的短信,手机终端新 发送的短信,草稿箱中新增的短信或者私人文件夹中新增的短信;其中,根据过滤结果 可以获知新接收到的短信的样本类型,手机终端新发送的短信、草稿箱中新增的短信和 私人文件夹中新增的短信的样本类型为合法短信样本。存储在嵌入式操作系统终端上, 样本类型改变的信息例如可以为从垃圾箱转入收件箱的短信,或者从收件箱转入垃圾 箱的短信;从垃圾箱转入收件箱的短信的样本类型为合法短信样本,从收件箱转入垃圾 箱的短信的样本类型为垃圾短信样本。需要说明的是,本发明实施例并不限制新增信息 的来源,只要该新增信息是存储在终端上,并且能代表用户自身特点的信息都可以作为 本发明实施例中的新增信息。
当通过上述方式获取到了新增短信后,同样进行上述步骤204的操作,以更新 短信样本库。
步骤205、根据贝叶斯原理,在信息样本库中,对新增信息样本进行单样本增量 自学习,以获得动态更新的贝叶斯训练结果。
贝叶斯自学习就是计算出所有样本中所有词语的后验概率,并从计算结果中挑 出后验概率最高的N个词组成集合,也即组成贝叶斯训练结果。
具体的步骤205可以包括,依次对新增信息样本的分词结果中每个第一分词进 行更新贝叶斯训练结果的操作;更新贝叶斯训练结果的操作包括根据信息样本库, 计算第一分词的后验概率;若第一分词的后验概率大于贝叶斯训练结果中最小的后验概 率,则将第一分词添加到贝叶斯训练结果中,并删除贝叶斯训练结果中最小的后验概率 对应的分词,然后检查是否对所有的第一分词都已操作完毕,是则结束,否则对下一个 第一分词进行更新贝叶斯训练结果的操作;若第一分词的后验概率小于或等于贝叶斯训 练结果中最小的后验概率,则检查是否对所有的第一分词都已操作完毕,是则结束,否 则对下一个第一分词进行更新贝叶斯训练结果的操作。其中,第一分词为新增信息样本 的分词结果中包括的分词。
在新增短信样本时,如果短信样本库中存储的短信样本的个数已达最大个数 时,需要删除最旧的一条短信样本。在后验概率为第一后验概率的情况下,当删除最旧 的一条短信样本后,步骤205中依次对新增短信样本的分词结果中每个第一分词进行更 新贝叶斯训练结果的操作之前还包括从新增短信样本的分词结果中,剔除与已删除的 短信样本的分词结果相同的分词;其中并不在短信样本库中删除该相同的分词,而仅将 删除后的结果用于更新贝叶斯训练结果。在新增短信样本的分词结果中包含有与已删除 的短信样本的分词结果相同的分词,由于包含该分词的短信样本分别增加了一条(新增 短信样本)和删除了一条(最旧的一条短信样本),所以该分词的第一后验概率不变,就 不需要再计算该分词的第一后验概率。
本实施例的信息分类处理方法,在使用嵌入式操作系统的终端侧进行信息收发的过程中,动态更新信息样本库,并根据动态更新的信息样本库进行增量贝叶斯自学习 获得动态更新的贝叶斯训练结果,以对接收到的信息进行分类,由于该动态更新的贝叶 斯训练结果源自终端自身收发的信息,因此很好的体现了各个用户终端的个体差异性, 有效的提高了信息分类的准确性。
图3为本发明信息分类处理方法实施例三的流程图。本实施例在本发明方法实 施例二的基础上,除了获取到新增信息时对信息样本库进行动态更新以外,还可以在用 于对信息进行分词处理的词典升级为更新词典后,根据更新词典对原有的信息样本库进 行更新,然后根据贝叶斯原理对更新后的信息样本库进行自学习,也就是根据贝叶斯原 理对信息样本库中的所有信息样本进行全样本增量自学习,以获得动态更新的贝叶斯训 练结果。本实施例的方法除了包括图2所示的方法流程(图3中未示出)以外,如图3 所示,本实施例的方法还可以包括
步骤301、接收到网络侧发送过来的增量词典后,将用于对信息进行分词处理的 词典升级为更新词典。该更新词典包括增量词典和基本词典;增量词典包括该更新词典 比原有的基本词典增加的分词。
终端侧原有的用于对信息进行分词处理的词典为基本词典,终端侧可以接收到 网络侧推送的增量词典,根据该增量词典可以将基本词典升级为更新词典,即形成新的 基本词典。
步骤302、根据增量词典和信息样本的信息内容,更新信息样本的分词结果,以 更新信息样本库。
由于新增了增量词典,需要更新原有的信息样本的分词结果。若根据更新词 典对所有的信息样本重新进行分词,则需要进行大量的运算,由此所需的系统资源也较 大。本发明实施例为了提高运算效率并且节省系统资源,根据增量词典,对所有信息 样本原有的分词结果进行增量更新,具体可以为将一信息样本的信息内容中命中增量 词典中的分词,根据现有的分词规则判断是否将上述命中的分词添加至该信息样本的原 分词结果中;若不将该分词添加至该信息样本的原分词结果中,则丢弃该分词,并保持 原分词结果不变;若将该分词添加至该信息样本的原分词结果中,则将原分词结果中组 成该分词的词语删除,例如信息样本A的原分词结果中包含分词“贝叶斯”、“算 法”,新增的增量词典中包含分词“贝叶斯算法”,当根据现有的分词规则需要将“贝 叶斯算法”该分词添加到信息样本A的分词结果中时,就需要将原分词“贝叶斯”和“算法”删除。
当根据增量词典对所有信息样本原有的分词结果进行增量更新后,信息样本库 得到了更新,然后将增量词典与基础词典合并,形成新的基础词典,用于对下一个待分 类信息进行分词处理。
步骤303、重新计算每个第二分词的后验概率;该第二分词为更新所有信息样 本的分词结果时,分词结果中数量减少的分词。
在根据增量词典对信息样本原有的分词结果进行增量更新的过程中,当将增量 词典中的一分词添加至信息样本的原分词结果中时,原分词结果中组成该分词的词语相 应的被删除,由此这些被删除的词语在所有的分词结果中的数量减少,使得这些被删除 的词语的后验概率发生变化,所以需要重新计算这些词语的后验概率,以更新可能包含在贝叶斯训练结果中的这些词语的后验概率。
步骤304、依次对每个第三分词进行更新贝叶斯训练结果的操作;该更新贝叶 斯训练结果的操作包括根据信息样本库,计算第三分词的后验概率;若第三分词的 后验概率大于贝叶斯训练结果中最小的后验概率,则将第三分词添加到贝叶斯训练结果 中,并删除贝叶斯训练结果中最小的后验概率对应的分词,然后检查是否对所有的第三 分词都已操作完毕,是则结束,否则对下一个第三分词进行更新贝叶斯训练结果的操 作;若第三分词的后验概率小于或等于贝叶斯训练结果中最小的后验概率,则检查是否 对所有的第三分词都已操作完毕,是则结束,否则对下一个第三分词进行更新贝叶斯训 练结果的操作。其中,第三分词为增量词典中包括的分词。
进一步的,为了更加准确的使用动态更新的贝叶斯训练结果对待分类短信进行 过滤,在本实施例中,贝叶斯训练结果可以包括第一训练结果和第二训练结果两部分; 其中,贝叶斯训练结果中包括有N个词语,第一训练结果为该贝叶斯训练结果中后验概 率最高的Nl个词语,第二训练结果为该贝叶斯训练结果中剩余的N2个词语,N1+N2 = N。在步骤304中更新贝叶斯训练结果的操作中,将第三分词的后验概率与贝叶斯训练结 果中最小的后验概率(也就是第二训练结果中最小的后验概率)进行比较,而在对待分类 短信进行过滤时,只使用第一训练结果对短信进行过滤,由此可以保证第一训练结果中 包括的词语始终是后验概率最高的Nl个词语。
本实施例的信息分类处理方法,在使用嵌入式操作系统的终端侧进行信息收发 的过程中,动态更新信息样本库,并根据动态更新的信息样本库进行贝叶斯自学习获得 动态更新的贝叶斯训练结果,以对接收到的信息进行分类,由于该动态更新的贝叶斯训 练结果源自终端自身收发的信息,因此很好的体现了各个用户终端的个体差异性,有效 的提高了信息分类的准确性。
本发明方法实施例三中,介绍了在词典进行更新后,根据更新的词典更新信息 样本库并进而更新贝叶斯训练结果的方案。然而,在词典进行更新后,可以如方法实施 例三中所述的方法即时更新贝叶斯训练结果,也可以暂时先不更新贝叶斯训练结果,直 到获取到下一个新增信息样本需要对该新增信息样本进行单样本增量自学习时,先根据 更新的词典更新贝叶斯训练结果,然后再对该新增信息样本进行单样本增量自学习。
图4为本发明信息分类处理方法实施例四的流程图,本实施例的应用场景为 在词典更新后,暂时先不更新贝叶斯训练结果,而是在获取新增信息后,更新贝叶斯训 练结果;在本发明方法实施例二的基础上,如图4所示,该方法可以还包括以下更新贝 叶斯训练结果的方法
步骤401、在获取新增信息,并将新增信息对应的新增信息样本添加到信息样本 库中之后,查询用于标识词典升级版本的第一版本号和用于标识信息样本库更新版本的 第二版本号。
本发明各实施例中采用“基本词典” + “增量词典”构成“双词典”进行分 词。增量词典仅存放添加的新词汇,当终端侧接收到一增量词典后,就改变一次词典的 第一版本号,例如将第一版本号加1。信息样本库具有第二版本号。原始状态中词典的 第一版本号与信息样本库的第二版本号相一致,当更新过词典后,词典的第一版本号改 变,当根据更新后的词典对信息样本库进行过增量更新后,信息样本库的第二版本号也做相应的改变,使得第二版本号与第一版本号相一致。所以经判断获知词典的第一版本 号与信息样本库的第二版本号不一致时,说明此时词典已更新,但是还未根据更新后的 词典更新贝叶斯训练结果;若判断获知词典的第一版本号与信息样本库的第二版本号相 一致时,则说明此时的信息样本库是由现在最新的词典进行过增量更新后的。
步骤402、判断第一版本号与第二版本号是否一致;若第一版本号与第二版本 号相一致,则执行步骤403;若第一版本号与第二版本号不一致,则执行步骤404。
步骤403、根据贝叶斯原理,在信息样本库中,对新增信息样本进行单样本增量 自学习,以获得动态更新的贝叶斯训练结果,然后结束。
步骤404、根据更新词典和贝叶斯原理,对信息样本库中的信息样本进行全样本 增量自学习。
步骤405、根据贝叶斯原理,在进行过全样本增量自学习后的信息样本库中,对 新增信息样本进行单样本增量自学习,以获得动态更新的贝叶斯训练结果。
其中,在步骤405中,在依次对新增信息样本的分词结果中每个第一分词进行 更新贝叶斯训练结果的操作之前还包括从新增信息样本的分词结果中,剔除与第二分 词和第三分词相同的分词。这是由于在步骤403中,已经对第二分词和第三分词进行过 更新贝叶斯训练结果的操作,此处就可不再对第二分词和第三分词进行更新贝叶斯训练 结果的操作;其中,此处剔除与第二分词和第三分词相同的分词,并不是在信息样本库 中删除与第二分词和第三分词相同的分词,而仅将剔除后的结果用于更新贝叶斯训练结 果。其中,对新增信息样本的分词结果中每个第一分词进行更新贝叶斯训练结果的操作 参见图2所示实施例步骤205中的描述。
步骤402到步骤404的具体步骤参见本发明前述各方法实施例中的描述,在此不 再赘述。
本实施例的信息分类处理方法,在使用嵌入式操作系统的终端侧进行信息收发 的过程中,动态更新信息样本库,并根据动态更新的信息样本库进行贝叶斯自学习获得 动态更新的贝叶斯训练结果,以对接收到的信息进行分类,由于该动态更新的贝叶斯训 练结果源自终端自身收发的信息,因此很好的体现了各个用户终端的个体差异性,有效 的提高了信息分类的准确性。
本发明实施例提供的方案使得基于贝叶斯决策的分类算法能够在使用嵌入式操 作系统的终端上得以实现。使用用户自身收发信息作为信息样本进行训练,得到贝叶斯 训练结果,该训练结果能够良好表达用户自身的个体差异性,有效提高在每个终端上进 行信息分类处理的准确性。并且,贝叶斯自学习过程可以在后台进行,不需要用户干 预,提高了用户使用感受。同时,自学习过程能够伴随用户信息收发的行为持续进行, 及时对用户可能改变的信息内容语义进行自学习,同步调整训练结果,使过滤准确率始 终保持在较高水平。并且与网络侧的分类或过滤方法相比,本发明实施例不需要运营商 进行网络改造,实施方法简单、方便,具有良好的可推广性。
本领域普通技术人员可以理解实现上述方法实施例的全部或部分步骤可以 通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中, 该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括ROM、 RAM、磁碟或者光盘等各种可以存储程序代码的介质。
图5为本发明信息分类处理装置实施例一的结构图,如图5所示,该装置包括 分词获取模块51和过滤模块53。
分词获取模块51用于将接收到的待分类信息进行分词处理,获得待分类信息的 分词结果。过滤模块53用于根据待分类信息的分词结果和动态更新的贝叶斯训练结果, 对待分类信息进行分类;动态更新的贝叶斯训练结果为根据动态更新的信息样本库进行 增量贝叶斯自学习获得的贝叶斯训练结果。
本实施例中各模块的工作原理和工作流程参见本发明各方法实施例中的描述, 在此不再赘述。
本实施例的信息分类处理装置,在使用嵌入式操作系统的终端侧进行信息收发 的过程中,动态更新信息样本库,并根据动态更新的信息样本库进行增量贝叶斯自学习 获得动态更新的贝叶斯训练结果,以对接收到的信息进行分类,由于该动态更新的贝叶 斯训练结果源自终端自身收发的信息,因此很好的体现了各个用户终端的个体差异性, 有效的提高了信息分类的准确性。
图6为本发明信息分类处理装置实施例二的结构图,在装置实施例一的基础 上,如图6所示,该装置还包括信息获取模块55、第一自学习模块57、第二自学习模 块59、查询模块52、第一启动模块M、第二启动模块56和剔除模块50。
信息获取模块55用于获取新增信息,并将新增信息对应的新增信息样本添加到 信息样本库中,以更新信息样本库;信息样本包括信息的样本类型、信息内容和分词 结果。第一自学习模块57用于根据贝叶斯原理,在信息样本库中,对新增信息样本进行 单样本增量自学习,以获得动态更新的贝叶斯训练结果。
第二自学习模块59用于在用于对信息进行分词处理的词典升级为更新词典后, 根据更新词典和贝叶斯原理,对信息样本库中的信息样本进行全样本增量自学习,以获 得动态更新的贝叶斯训练结果,更新词典包括增量词典和基本词典,增量词典包括更新 词典比原有的基本词典增加的分词。查询模块52用于在信息获取模块55获取新增信息, 并将新增信息对应的新增信息样本添加到信息样本库中之后,查询用于标识词典升级版 本的第一版本号和用于标识信息样本库更新版本的第二版本号。第一启动模块M用于若 第一版本号与第二版本号相一致,则启动第一自学习模块57,以使第一自学习模块57根 据贝叶斯原理,在信息样本库中,对新增信息样本进行单样本增量自学习。第二启动模 块56用于若第一版本号与第二版本号不一致,则启动第二自学习模块59,以使第二自学 习模块59根据更新词典和贝叶斯原理,对信息样本库中的信息样本进行全样本增量自学 习,然后启动第一自学习模块57,以使第一自学习模块57根据贝叶斯原理,在进行过全 样本增量自学习后的信息样本库中,对新增信息样本进行单样本增量自学习。剔除模块 50用于在第二启动模块56启动第一自学习模块57时,在第一自学习模块57依次对新增 信息样本的分词结果中每个第一分词进行更新贝叶斯训练结果的操作之前,从新增信息 样本的分词结果中,剔除与第二分词和第三分词相同的分词。
过滤模块53包括查询单元531、第一计算单元533和判断单元535。
查询单元531用于查询贝叶斯训练结果,获得待分类信息的分词结果与动态更 新的贝叶斯训练结果的交集中的交集分词和交集分词的后验概率。第一计算单元533用 于根据交集分词的后验概率计算待分类信息的联合概率。判断单元535用于若联合概率大于预设阈值,则判断待分类信息为第一分类信息,否则判断待分类信息为第二分类信 肩、O
第一自学习模块57包括第二计算单元573和第一添加单元575。
第二计算单元573用于根据信息样本库,计算一第一分词的后验概率;第一分 词为新增信息样本的分词结果中包括的分词。第一添加单元575用于若第一分词的后验 概率大于贝叶斯训练结果中最小的后验概率,则将第一分词添加到贝叶斯训练结果中, 并删除贝叶斯训练结果中最小的后验概率对应的分词。
第二自学习模块59包括样本库更新单元591、第三计算单元593、第四计算单 元597和第二添加单元599。
样本库更新单元591用于根据增量词典和信息样本的信息内容,更新信息样本 的分词结果,以更新信息样本库。第三计算单元593用于重新计算每个第二分词的后验 概率,第二分词为更新信息样本的分词结果时,分词结果中数量减少的分词。第四计算 单元597用于根据信息样本库,计算第三分词的后验概率,第三分词为增量词典中包括 的分词。第二添加单元599用于若第三分词的后验概率大于贝叶斯训练结果中最小的后 验概率,则将第三分词添加到贝叶斯训练结果中,并删除贝叶斯训练结果中最小的后验 概率对应的分词。
本实施例中各模块和单元的工作原理和工作流程参见本发明各方法实施例中的 描述,在此不再赘述。
本实施例的信息分类处理装置,在使用嵌入式操作系统的终端侧进行信息收发 的过程中,动态更新信息样本库,并根据动态更新的信息样本库进行增量贝叶斯自学习 获得动态更新的贝叶斯训练结果,以对接收到的信息进行分类,由于该动态更新的贝叶 斯训练结果源自终端自身收发的信息,因此很好的体现了各个用户终端的个体差异性, 有效的提高了信息分类的准确性。
本发明实施例还提供了一种使用嵌入式操作系统的终端,该终端包括本发明各 实施例中提供的任一信息分类处理装置。
本实施例中各模块的工作原理和工作流程参见本发明各方法实施例中的描述, 在此不再赘述。
本实施例的终端,在终端侧进行信息收发的过程中,动态更新信息样本库,并 根据动态更新的信息样本库进行增量贝叶斯自学习获得动态更新的贝叶斯训练结果,以 对接收到的信息进行分类,由于该动态更新的贝叶斯训练结果很好的体现了各个用户终 端的个体差异性,有效的提高了信息分类的准确性。
最后应说明的是以上实施例仅用以说明本发明的技术方案,而非对其限制; 尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解其 依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等 同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方 案的精神和范围。
权利要求
1.一种信息分类处理方法,其特征在于,包括将接收到的待分类信息进行分词处理,获得所述待分类信息的分词结果;根据所述待分类信息的分词结果和动态更新的贝叶斯训练结果,对所述待分类信息 进行分类,所述动态更新的贝叶斯训练结果为根据动态更新的信息样本库进行增量贝叶 斯自学习获得的贝叶斯训练结果。
2.根据权利要求1所述的信息分类处理方法,其特征在于,所述根据所述待分类信息 的分词结果和动态更新的贝叶斯训练结果,对所述待分类信息进行分类,包括查询所述贝叶斯训练结果,获得所述待分类信息的分词结果与所述动态更新的贝叶 斯训练结果的交集中的交集分词和所述交集分词的后验概率;根据所述交集分词的所述后验概率计算所述待分类信息的联合概率;若所述联合概率大于预设阈值,则所述待分类信息为第一分类信息,否则所述待分 类信息为第二分类信息。
3.根据权利要求1所述的信息分类处理方法,其特征在于,所述根据动态更新的信息 样本库进行增量贝叶斯自学习包括获取新增信息;将所述新增信息对应的新增信息样本添加到信息样本库中,以更新所述信息样本 库,所述信息样本包括所述信息的样本类型、信息内容和分词结果;根据贝叶斯原理,在所述信息样本库中,对所述新增信息样本进行单样本增量自学 习,以获得所述动态更新的贝叶斯训练结果;所述对所述新增信息样本进行单样本增量自学习包括根据所述信息样本库,计算第一分词的后验概率,所述第一分词为所述新增信息样 本的分词结果中包括的分词;若所述第一分词的后验概率大于所述贝叶斯训练结果中最 小的后验概率,则将所述第一分词添加到所述贝叶斯训练结果中,并删除所述贝叶斯训 练结果中所述最小的后验概率对应的分词。
4.根据权利要求3所述的信息分类处理方法,其特征在于,所述根据动态更新的信息 样本库进行增量贝叶斯自学习还包括在用于对信息进行分词处理的所述词典升级为更新词典后,根据所述更新词典和贝 叶斯原理,对所述信息样本库中的信息样本进行全样本增量自学习,以获得动态更新的 贝叶斯训练结果;所述更新词典包括增量词典和基本词典;所述增量词典包括新增加的 分词;所述对所述信息样本库中的信息样本进行全样本增量自学习包括根据所述增量词典和所述信息样本的信息内容,更新所述信息样本的分词结果,以 更新所述信息样本库;重新计算每个第二分词的后验概率,所述第二分词为更新所述信 息样本的分词结果时,所述分词结果中数量减少的分词;根据所述信息样本库,计算第 三分词的后验概率,所述第三分词为所述增量词典中包括的分词;若所述第三分词的后 验概率大于所述贝叶斯训练结果中最小的后验概率,则将所述第三分词添加到所述贝叶 斯训练结果中,并删除所述贝叶斯训练结果中所述最小的后验概率对应的分词。
5.根据权利要求4所述的信息分类处理方法,其特征在于,还包括在所述获取新增信息,并将所述新增信息对应的新增信息样本添加到信息样本库中之后,查询用于标识所述词典升级版本的第一版本号和用于标识所述信息样本库更新版 本的第二版本号;若所述第一版本号与所述第二版本号相一致,则直接根据贝叶斯原理,在所述信息 样本库中,对所述新增信息样本进行单样本增量自学习;若所述第一版本号与所述第二版本号不一致,则先根据所述更新词典和贝叶斯原 理,对所述信息样本库中的信息样本进行所述全样本增量自学习;根据贝叶斯原理,在 进行过所述全样本增量自学习后的所述信息样本库中,对所述新增信息样本进行单样本 增量自学习。
6.—种信息分类处理装置,其特征在于,包括分词获取模块,用于将接收到的待分类信息进行分词处理,获得所述待分类信息的 分词结果;过滤模块,用于根据所述待分类信息的分词结果和动态更新的贝叶斯训练结果,对 所述待分类信息进行分类;所述动态更新的贝叶斯训练结果为根据动态更新的信息样本库进行增量贝叶斯自学 习获得的贝叶斯训练结果。
7.根据权利要求6所述的信息分类处理装置,其特征在于,所述过滤模块包括查询单元,用于查询所述贝叶斯训练结果,获得所述待分类信息的分词结果与所述动态更新的贝叶斯训练结果的交集中的交集分词和所述交集分词的后验概率;第一计算单元,用于根据所述交集分词的所述后验概率计算所述待分类信息的联合 概率;判断单元,用于若所述联合概率大于预设阈值,则判断所述待分类信息为第一分类 信息,否则判断所述待分类信息为第二分类信息。
8.根据权利要求6或7所述的信息分类处理装置,其特征在于,还包括信息获取模块,用于获取新增信息,并将所述新增信息对应的新增信息样本添加到 信息样本库中,以更新所述信息样本库,所述信息样本包括所述信息的样本类型、信息 内容和分词结果;第一自学习模块,用于根据贝叶斯原理,在所述信息样本库中,对所述新增信息样 本进行单样本增量自学习,以获得所述动态更新的贝叶斯训练结果;所述第一自学习模块包括第二计算单元,用于根据所述信息样本库,计算一第一分词的后验概率,所述第一 分词为所述新增信息样本的分词结果中包括的分词;第一添加单元,用于若所述第一分词的后验概率大于所述贝叶斯训练结果中最小的 后验概率,则将所述第一分词添加到所述贝叶斯训练结果中,并删除所述贝叶斯训练结 果中所述最小的后验概率对应的分词。
9.根据权利要求8所述的信息分类处理装置,其特征在于,还包括第二自学习模块,用于在用于对信息进行分词处理的所述词典升级为更新词典后, 根据所述更新词典和贝叶斯原理,对所述信息样本库中的信息样本进行全样本增量自学 习,以获得动态更新的贝叶斯训练结果;所述更新词典包括增量词典和基本词典;所述 增量词典包括增加的分词;所述第二自学习模块包括样本库更新单元,用于根据所述增量词典和所述信息样本的信息内容,更新所述信 息样本的分词结果,以更新所述信息样本库;第三计算单元,用于重新计算每个第二分词的后验概率,所述第二分词为更新所述 信息样本的分词结果时,所述分词结果中数量减少的分词;第四计算单元,用于根据所述信息样本库,计算第三分词的后验概率,所述第三分 词为所述增量词典中包括的分词;第二添加单元,用于若所述第三分词的后验概率大于所述贝叶斯训练结果中最小的 后验概率,则将所述第三分词添加到所述贝叶斯训练结果中,并删除所述贝叶斯训练结 果中所述最小的后验概率对应的分词。
10.根据权利要求9所述的信息分类处理装置,其特征在于,还包括查询模块,用于在所述信息获取模块获取所述新增信息,并将所述新增信息对应的 新增信息样本添加到信息样本库中之后,查询用于标识所述词典升级版本的第一版本号 和用于标识所述信息样本库更新版本的第二版本号;第一启动模块,用于若所述第一版本号与所述第二版本号相一致,则启动所述第一 自学习模块,以使所述第一自学习模块根据贝叶斯原理,在所述信息样本库中,对所述 新增信息样本进行单样本增量自学习;第二启动模块,用于若所述第一版本号与所述第二版本号不一致,则启动所述第二 自学习模块,以使所述第二自学习模块根据所述更新词典和贝叶斯原理,对所述信息样 本库中的信息样本进行所述全样本增量自学习,然后启动所述第一自学习模块,以使所 述第一自学习模块根据贝叶斯原理,在进行过所述全样本增量自学习后的所述信息样本 库中,对所述新增信息样本进行单样本增量自学习。
11.一种终端,包括如权利要求6-10任一所述的信息分类处理装置。
全文摘要
本发明实施例提供了一种信息分类处理方法、装置和终端,该方法包括将接收到的待分类信息进行分词处理,获得待分类信息的分词结果;根据待分类信息的分词结果和动态更新的贝叶斯训练结果,对待分类信息进行分类;所述动态更新的贝叶斯训练结果为根据动态更新的信息样本库进行增量贝叶斯自学习获得的贝叶斯训练结果。本发明实施例,在使用嵌入式操作系统的终端侧进行信息收发的过程中,动态更新信息样本库,并根据动态更新的信息样本库进行增量贝叶斯自学习获得动态更新的贝叶斯训练结果,以对接收到的信息进行分类,该动态更新的贝叶斯训练结果很好的体现了各个用户终端的个体差异性,有效的提高了信息分类的准确性。
文档编号G06F17/27GK102024045SQ20101058799
公开日2011年4月20日 申请日期2010年12月14日 优先权日2010年12月14日
发明者王鹏, 靳伟 申请人:成都市华为赛门铁克科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1