一种语料过滤方法及装置的制造方法

文档序号:9261409阅读:361来源:国知局
一种语料过滤方法及装置的制造方法
【技术领域】
[0001] 本发明涉及语料互联网技术领域,特别涉及一种语料过滤方法及装置。
【背景技术】
[0002] 随着互联网信息的爆炸式增长,所有用户均面临着信息过剩的问题,为了帮助用 户更好地吸取信息、排除干扰,针对关键词订阅的资讯应用(APP,Application)应运而生。
[0003] 由于中文里很多词往往有多层含义,针对关键词订阅资讯会由此带来了一些问 题,比如"文章"该个词既可W指"一种内容载体",也可W指"内地娱乐男明星文章","联想" 该个词既可W指"一个动词,表示想像",也可W指"国内PC巨头联想公司",该种一词多义 的问题非常普遍,对于关键词订阅的APP,将每个词主流含义对应的文章筛选出来显得非常 重要。比如订阅"文章"该个关键词的用户,基本上都是想看跟"男明星文章"有关的一些 娱乐新闻。
[0004] 现有技术主要采用人工运营的方法,对于存在有多义的关键词,利用人工手段或 者机器筛选加人工审核的方式,来将非主流含义的资讯进行过滤,W达到凸显关键词主流 含义的目的。
[0005] 但是上述现有技术存在如下缺点;对于新产生的资讯,需要经过人工审核后才能 到达用户,因此会带来延时从而导致资讯信息处理不及时,且由于所有多义关键词都需要 人工审核,人工成本大。

【发明内容】

[0006] 本发明实施例提供了一种语料过滤方法及装置,整个过程无需人工审核,语料过 滤快速准确,缩短了语料到达用户时间。
[0007] 本发明实施例第一方面提供了一种语料过滤方法,包括:
[0008] 对于待处理的每个语料,分别提取若干关键词并保存;
[0009] 对所保存的每个关键词生成对应的关键词向量;
[0010] 根据所述每个关键词对应的关键词向量,分别计算待处理的每个语料与其所提取 出的每个关键词之间的关键词相关性值;
[0011] 获取目标关键词,确定对应的目标语料库,所述目标语料库为提取出所述目标关 键词的所有待处理的语料集合;
[0012] 根据所述目标语料库中各语料的目标关键词的关键词相关性值,对所述目标语料 库中,不满足设定的目标关键词的关键词相关性值的取值要求的语料进行过滤。
[0013] 本发明实施例第二方面提供了一种语料过滤装置,包括:
[0014] 提取单元,用于对于待处理的每个语料,分别提取若干关键词并保存;
[0015] 生成单元,用于对所保存的每个关键词生成对应的关键词向量;
[0016] 计算单元,用于根据所述每个关键词对应的关键词向量,分别计算待处理的每个 语料与其所提取出的每个关键词之间的关键词相关性值;
[0017] 确定单元,用于获取目标关键词,确定对应的目标语料库,所述目标语料库为提取 出所述目标关键词的所有待处理的语料集合;
[0018] 过滤单元,用于根据所述目标语料库中各语料的目标关键词的关键词相关性值, 对所述目标语料库中,不满足设定的目标关键词的关键词相关性值的取值要求的语料进行 过滤。
[0019] 从W上技术方案可W看出,本发明实施例具有W下优点:
[0020] 通过对待处理的每个语料提取关键词,对提取的每个关键词生成关键词向量,通 过计算待处理的每个语料与该语料中提取的关键词对应的关键词向量之间的相关性值,可 W过滤掉不满足设定的目标关键词的关键词相关性值的取值要求的语料,整个过程无需人 工审核,语料过滤快速准确,缩短了语料到达用户时间。
【附图说明】
[0021] 图1是本发明实施例中语料过滤方法的一个实施例示意图;
[0022] 图2是本发明实施例中语料过滤方法的另一个实施例示意图;
[0023] 图3是本发明实施例中语料过滤方法的另一个实施例示意图;
[0024] 图4是本发明实施例中语料过滤方法的另一个实施例示意图;
[00巧]图5是本发明实施例中语料过滤方法的另一个实施例示意图;
[0026] 图6是本发明实施例中语料过滤装置的一个实施例示意图;
[0027] 图7是本发明实施例中语料过滤装置的另一个实施例示意图;
[0028] 图8是本发明实施例中语料过滤装置的另一个实施例示意图;
[0029] 图9是本发明实施例中语料过滤装置的另一个实施例示意图;
[0030] 图10是本发明实施例中语料过滤装置的另一个实施例示意图。
【具体实施方式】
[0031] 本发明实施例提供了一种语料过滤方法及装置,整个过程无需人工审核,语料过 滤快速准确,缩短了语料到达用户时间。
[0032]为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的 附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是 本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术 人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范 围。
[0033] 本发明的说明书和权利要求书及上述附图中的术语"第一"、"第二"等(如果存 在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解该样使用 的数据在适当情况下可W互换,W便该里描述的实施例能够W除了在该里图示或描述的内 容W外的顺序实施。此外,术语"包括"和"具有"W及他们的任何变形,意图在于覆盖不排 他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地 列出的那些步骤或单元,而是可包括没有清楚地列出的或对于该些过程、方法、产品或设备 固有的其它步骤或单元。
[0034] 请参阅图1,本发明实施例中语料过滤方法的一个实施例包括:
[0035] 101、对于待处理的每个语料,分别提取若干关键词并保存;
[0036] 语料是指语言材料,即文本信息。通常,凭借大规模语料库提供的客观翔实的语言 证据,可W从事语言学研究和指导自然语言信息处理系统的开发。
[0037] 其中,待处理的语料为预先搜集的,包括文章、单句等,通常会搜集大量的语料,预 先搜集的语料可W是静态的语料,也可W是动态的语料。例如,定期地从网站上搜集语料, 从而使得待处理的语料来源更丰富。
[0038] 102、对所保存的每个关键词生成对应的关键词向量;
[0039] 本实施例中,待处理的每个语料中,都提取出了若干关键词并保存,对每个提取保 存的关键词,生成对应的关键词向量。
[0040] 103、根据每个关键词对应的关键词向量,分别计算待处理的每个语料与其所提取 出的每个关键词之间的关键词相关性值;
[0041] 由于说所有待处理的语料所提取保存的每个关键词均生成了关键词向量,对待处 理的每个语料所提取的每个关键词,都可W确定对应的关键词向量,从而可W计算出待处 理的每个语料与其所提取出的每个关键词之间的关键词相关性值。
[0042] 104、获取目标关键词,确定对应的目标语料库;
[0043] 本实施例中,目标语料库为提取出目标关键词的所有待处理的语料集合,根据获 取的目标关键词,可W在所有待处理的语料中找到提取出该目标关键词的语料,因而可W 确定目标语料库。
[0044] 105、根据目标语料库中各语料的目标关键词的关键词相关性值,对目标语料库 中,不满足设定的目标关键词的关键词相关性值的取值要求的语料进行过滤。
[0045] 本实施例中,在语料过滤的过程中,可W预先设定目标关键词的关键词相关性值 的取值要求,在计算出待处理的每个语料的关键词相关性值后,根据目标关键词,可W确定 目标语料库,根据目标语料库中每个语料的目标关键词的关键词相关性值,可W确定不满 足设定的目标关键词的关键词相关性值的取值要求的语料,此时,则认为不满足设定的目 标关键词的关键词相关性值的取值要求的语料无法凸显该目标关键词的主流含义,对目标 语料库中不满足设定的目标关键词的关键词相关性值的取值要求的语料进行过滤,剩下的 语料即为满足设定的目标关键词的关键词相关性值的取值要求的语料,过滤掉的语料即不 会展现给用户。
[0046] 本实施例中通过对待处理的每个语料提取关键词,对提取的每个关键词生成关键 词向量,通过计算待处理的每个语料与该语料中提取的关键词对应的关键词向量之间的相 关性值,可W过滤掉不满足设定的目标关键词的关键词相关性值的取值要求的语料,整个 过程无需人工审核,语料过滤快速准确,缩短了语料到达用户时间。
[0047] 下面W-个具体实施例描述对所保存的每个关键词生成对应的关键词向量的具 体过程,请参阅图2,本发明实施例中语料过滤方法的一个实施例包括:
[0048] 201、对于待处理的每个语料,分别提取若干关键词并保存;
[0049] 其中,待处理的语料为预先搜集的,包括文章、单句等,通常会搜集大量的语料,预 先搜集的语料可W是静态的语料,也可W是动态的语料。例如,定期地从网站上搜集语料, 从而使得待处理的语料来源更丰富。
[0050] 需要说明的是,待处理的语料数量在当前统计时是固定的,可W随时更新获取语 料重新进行统计,此处不作限定,每个待处理语料中提取的关键词个数一般可W为3至5 个,此处不作具体限定。
[0051] 202、分别统计所保存的每个关键词与其它所保存的关键词在所有待处理的语料 中共同出现的次数;
[0052] 本实施例中,所有待处理的语料,为当前已获取的所有待处理语料,待处理的每个 语料中,都提取出了若干关键词,每个提取的关键词,与其它提取的有些关键词会共同出现 在一些语料提取的关键词中,可W统计所保存的每个关键词与其它所保存的关键词在所有 待处理的语料中共同出现的次数。
[0053] 203、依次W所保存的每个关键词为第一关键词,对每个与第一关键词共同出现过 的第二关键词,根据其与第一关键词共同出现的次数进行排序;
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1