基于多义性关键词的文本过滤方法及装置制造方法

文档序号:6500001阅读:176来源:国知局
基于多义性关键词的文本过滤方法及装置制造方法
【专利摘要】本发明公开一种基于多义性关键词的文本过滤方法及装置,其方法包括:以指定关键词收集文本集;基于文本集生成预定多义性关键词向量及文本向量;预定多义性关键词包括所述指定关键词;计算文本向量与预定多义性关键词向量的相似度;过滤出相似度小于预定阈值的文本向量所对应的文本。本发明基于多义性TAG筛选出其主流含义所对应的文本列表,进而筛选出用户所需要的文本,其成本小,效率高,过滤效果好,且无需人工干预,对所有多义性关键词均适用。
【专利说明】基于多义性关键词的文本过滤方法及装置
【技术领域】
[0001]本发明涉及互联网【技术领域】,尤其涉及一种基于多义性关键词的文本过滤方法及
>J-U ρ?α装直。
【背景技术】
[0002]许多词汇经常具有多个含义,而在不同语境下,其主要含义也会有所不同。比如“苹果”这个词有科技、水果、报纸等相关含义。而对于绝大多数资讯用户来说,关注的往往是其科技含义及相关文章内容。因此需要将其它含义的文章从用户订阅的文章列表中去除。
[0003]如图1所示,图1是提取出“小米”这个多义词TAG (从文章正文提取出来的关键词,能够代表文章主体内容)的文章列表,从该文章列表中,可以发现里面不仅有小米公司相关文章,还有小米粥、人名等相关内容。而对于订阅“小米”的用户来说,最关心的应该是其科技含义,其它含义的文章则不希望出现在此。
[0004]目前,基于上述现象的一种解决方式是进行人工审核,对于含义与用户理解不一致的情况的文章,在发布给用户之前进行人工校验,将不合格的文章进行删除处理,以保证文章列表的一致性。
[0005]现有的这种人工审核方式,虽然过滤效果好,但是效率低,当TAG数量较多时,由于资讯更新很快,因此需要人工成本也较高。

【发明内容】

[0006]本发明的主要目的在于提供一种成本低且效率高的基于多义性关键词的文本过滤方法及装置。
[0007]为了达到上述目的,本发明提出一种基于多义性关键词的文本过滤方法,包括:
[0008]以指定关键词收集文本集;
[0009]基于所述文本集生成预定多义性关键词向量及文本向量;所述预定多义性关键词包括所述指定关键词;
[0010]计算所述文本向量与所述预定多义性关键词向量的相似度;
[0011]过滤出相似度小于预定阈值的文本向量所对应的文本。
[0012]本发明还提出一种基于多义性关键词的文本过滤装置,包括:
[0013]收集模块,用于以指定关键词收集文本集;
[0014]向量生成模块,用于基于所述文本集生成预定多义性关键词向量及文本向量;所述预定多义性关键词包括所述指定关键词;
[0015]相似度计算模块,用于计算所述文本向量与所述预定多义性关键词向量的相似度;
[0016]过滤模块,用于过滤出相似度小于预定阈值的文本向量所对应的文本。
[0017]本发明提出的一种基于多义性关键词的文本过滤方法及装置,通过以指定关键词收集文本集;基于所述文本集生成预定多义性关键词向量及文本向量;计算文本向量与预定多义性关键词向量的相似度,根据相似度大小过滤出相似度小于预定阈值的文本向量,从而筛选出用户需要的多义性关键词的主流含义对应文章,其成本小,效率高,过滤效果好,且无需人工干预,对所有多义性关键词均适用。
【专利附图】

【附图说明】
[0018]图1是现有技术中提取出“小米”多义词TAG的文章列表的示意图;
[0019]图2是本发明基于多义性关键词的文本过滤方法较佳实施例的流程示意图;
[0020]图3是本发明中以关键词收集文本集的一种实例示意图;
[0021]图4是基于图3中的文本集统计的预定多义性关键词出现的文本次数排序示意图;
[0022]图5是基于图4得到的关键词“苹果”的文章与TAG向量相似度最差的前10条示意图;
[0023]图6是基于图4得到的关键词“苹果”的文章与TAG向量相似度最高的前10条示意图;
[0024]图7a和图7b分别是基于关键词“小米”得到的相似度最低和最闻10条的不意图;
[0025]图8是本发明基于多义性关键词的文本过滤装置较佳实施例的结构示意图。
[0026]为了使本发明的技术方案更加清楚、明了,下面将结合附图作进一步详述。
【具体实施方式】
[0027]本发明实施例的解决方案主要是:以指定关键词收集文本集,对于多义性关键词,筛选出其主流含义所对应的文本列表;基于该文本集生成预定多义性关键词向量及文本向量;计算文本向量与预定多义性关键词向量的相似度,根据相似度大小过滤出相似度小于预定阈值的文本向量,从而筛选出用户需要的多义性关键词的主流含义对应文章。
[0028]如图1所示,本发明较佳实施例提出一种基于多义性关键词的文本过滤方法,包括:
[0029]步骤SlOl,以指定关键词收集文本集;
[0030]本实施例通过基于多义性TAG筛选出其主流含义所对应的文本列表,进而筛选出用户所需要的文本。其中,多义性TAG是指从文本正文中提取出来的具有多种含义的关键词,其能够代表文章主体内容。
[0031]比如“苹果”一词有科技公司/产品、水果等含义,是一个多义性TAG。而对于资讯文章来说,其主流含义是偏科技。本实施例从提取出“苹果”这个TAG来筛选出主流含义所对应的文章,以保证其含义的一致性。
[0032]当用户需要搜索某一类文本时,比如需要搜索“苹果”科技含义这类文章时,给定“苹果”这一关键词,并从实时数据库中收集该指定关键词下的所有文本列表及正文。
[0033]如图3所示,图3是以指定关键词“苹果”搜集到的“苹果”及其部分文章列表的标题。
[0034]上述实时数据库用于存储后台服务系统从互联网中实时获取的各种文本。在收集文本时,也可以直接从互联网各网站中搜索包含有该指定关键词的各种文本。
[0035]步骤S102,基于所述文本集生成预定多义性关键词向量及文本向量;所述预定多义性关键词包括所述指定关键词;
[0036]对于预定多义性关键词向量的生成,其过程如下:
[0037]当收集到指定关键词下的所有文本后,对每一文本,从中提取若干类预定多义性关键词(包括用户指定的关键词),统计每一类预定多义性关键词在所有文本中出现的文本次数;然后根据统计的文本次数及对应的预定多义性关键词的名称生成每一类预定多义性关键词的词向量。
[0038]比如,对于收集的每一篇文章,一般会提取出1-5个预定多义性关键词,针对每一个多义性关键词,计算其在多少篇文章中出现。如图4所示,图4是含有“苹果”一词的所有文章里,各预定多义性关键词出现的文本次数(即文本篇数)从高到低的排序序列及对应的预定多义性关键词名称,由图4可以看出:其主流资讯含义与科技相关。
[0039]然后根据统计的文本次数及对应的预定多义性关键词的名称生成每一类预定多义性关键词的词向量(以下简称TAG向量),其中TAG向量的每一个元素表示一个预定多义性关键词,其值表示含有此预定多义性关键词的文章的出现次数,比如:〈苹果,695〉,〈iPhone, 173〉…〈iOS, 16>...。
[0040]对于文本向量的生成,其过程如下:
[0041]对每一文本进行分词,并判断上述所统计的TAG向量中的每一预定多义性关键词在该文本中是否出现过,根据判断结果标定相应的值,比如,若出现则标定为1,没出现则为标定0,由此基于该标定的值及对应的预定多义性关键词的名称生成该文本的文本向量,该文本向量的长度与上述TAG向量的长度相同。
[0042]在文本向量中,每一个向量元素代表其所在位置的预定多义性关键词在此文本中是否出现。比如:〈苹果,1>,〈iPhone, l>...〈i0S,0>…。
[0043]步骤S103,计算所述文本向量与所述预定多义性关键词向量的相似度;
[0044]然后,计算文本向量与TAG向量的相似度,相似度可以采用余弦公式来度量,具体采用如下公式:
【权利要求】
1.一种基于多义性关键词的文本过滤方法,其特征在于,包括: 以指定关键词收集文本集; 基于所述文本集生成预定多义性关键词向量及文本向量;所述预定多义性关键词包括所述指定关键词; 计算所述文本向量与所述预定多义性关键词向量的相似度; 过滤出相似度小于预定阈值的文本向量所对应的文本。
2.根据权利要I所述的方法,其特征在于,所述以指定关键词收集文本集的步骤包括: 以指定关键词从实时数据库中收集该指定关键词下的所有文本列表及正文。
3.根据权利要I所述的方法,其特征在于,所述基于文本集生成预定多义性关键词向量及文本向量的步骤包括: 对于所述文本集中的每一文本,从中提取若干类预定多义性关键词; 统计每一类预定多义性关键词在所述文本集中出现的文本次数; 根据统计的文本次数及对应的预定多义性关键词的名称生成每一类预定多义性关键词的词向量; 对每一文本进行分词,并判断所统计的词向量中的每一预定多义性关键词在该文本中是否出现过; 根据判断结果标定相应的值,基于该标定的值及对应的预定多义性关键词的名称生成该文本的文本向量。
4.根据权利要1、2或3所述的方法,其特征在于,所述过滤出相似度小于预定阈值的文本向量所对应的文本的步骤之前包括: 对所有文本向量与所述预定多义性关键词向量的相似度进行排序。
5.根据权利要I所述的方法,其特征在于,所述预定多义性关键词属于同一类词。
6.一种基于多义性关键词的文本过滤装置,其特征在于,包括: 收集模块,用于以指定关键词收集文本集; 向量生成模块,用于基于所述文本集生成预定多义性关键词向量及文本向量;所述预定多义性关键词包括所述指定关键词; 相似度计算模块,用于计算所述文本向量与所述预定多义性关键词向量的相似度; 过滤模块,用于过滤出相似度小于预定阈值的文本向量所对应的文本。
7.根据权利要求6所述的装置,其特征在于,所述收集模块还用于以指定关键词从实时数据库中收集该指定关键词下的所有文本列表及正文。
8.根据权利要求6所述的装置,其特征在于,所述向量生成模块还用于对于所述文本集中的每一文本,从中提取若干类预定多义性关键词;统计每一类预定多义性关键词在所述文本集中出现的文本次数;根据统计的文本次数及对应的预定多义性关键词的名称生成每一类预定多义性关键词的词向量;对每一文本进行分词,并判断所统计的词向量中的每一预定多义性关键词在该文本中是否出现过;根据判断结果标定相应的值,基于该标定的值及对应的预定多义性关键词的名称生成该文本的文本向量。
9.根据权利要求6、7或8所述的装置,其特征在于,所述相似度计算模块还用于对所有文本向量与所述预定多义性关键词向量的相似度进行排序。
10.根据权利要求6所述的装置,其特征在于,所述预定多义性关键词属于同一类词。
【文档编号】G06F17/30GK104008098SQ201310055818
【公开日】2014年8月27日 申请日期:2013年2月21日 优先权日:2013年2月21日
【发明者】蔡兵 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1