关键词扩展方法和关键词扩展系统与流程

文档序号:12363840阅读:来源:国知局

技术特征:

1.一种关键词扩展方法,其特征在于,包括:

通过关键词获取模块在当前数据中获取关键词;

通过初始扩展模块对所述关键词进行初始扩展,以确定所述关键词的初始扩展词;

通过候选词提取模块使用词权重计算公式计算样本数据库中的多个目标样本词的词权重,并根据所述词权重在所述多个目标样本词中提取所述候选词;

通过匹配模块将每个所述候选词与所述关键词及所述初始扩展词进行匹配,以获取所述关键词的目标扩展词。

2.根据权利要求1所述的关键词扩展方法,其特征在于,所述对所述关键词进行初始扩展的方式包括以下至少之一或其组合:

变形词扩展方式、同音词扩展方式、拼音词扩展方式。

3.根据权利要求2所述的关键词扩展方法,其特征在于,在所述提取所述候选词之前,还包括:

通过噪音信息删除模块删除所述样本数据库中的多个样本数据中的噪音信息,其中,所述噪音信息为包含特殊符号、特定字符串和/或特定表达式的信息,和/或

通过重复样本删除模块删除所述多个样本数据中的重复样本数据;以及

通过分词处理模块对完成删除处理后的所述多个样本数据进行分词处理,得到所述多个目标样本词。

4.根据权利要求3所述的关键词扩展方法,其特征在于,所述词权重计算公式为:

<mrow> <mi>w</mi> <mrow> <mo>(</mo> <mi>z</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>b</mi> <mo>&times;</mo> <mi>a</mi> <mo>&times;</mo> <mi>tf</mi> <mo>&times;</mo> <mi>log</mi> <mrow> <mo>(</mo> <mfrac> <mi>d</mi> <mrow> <mn>1</mn> <mo>+</mo> <mi>df</mi> </mrow> </mfrac> <mo>)</mo> </mrow> </mrow>

z表示任一所述目标样本词,w(z)表示任一所述目标样本词的词权重,b表示任一所述目标样本词的经验系数,a表示任一所述目标样本词的类别系数,tf表示任一所述目标样本词在所述多个样本数据中出现的次数, d表示所述多个样本数据的数量,df表示具有任一所述目标样本词的所述样本数据的数量。

5.根据权利要求1至4中任一项所述的关键词扩展方法,其特征在于,所述通过匹配模块将每个所述候选词与所述关键词及所述初始扩展词进行匹配,以获取所述关键词的目标扩展词,具体包括:

匹配模块通过直接匹配方式和/或间接匹配方式,将每个所述候选词与所述关键词及所述初始扩展词进行匹配,以获取所述目标扩展词。

6.一种关键词扩展系统,其特征在于,包括:

关键词获取模块,在当前数据中获取关键词;

初始扩展模块,对所述关键词进行初始扩展,以确定所述关键词的初始扩展词;

候选词提取模块,使用词权重计算公式计算样本数据库中的多个目标样本词的词权重,并根据所述词权重在所述多个目标样本词中提取所述候选词;

匹配模块,将每个所述候选词与所述关键词及所述初始扩展词进行匹配,以获取所述关键词的目标扩展词。

7.根据权利要求6所述的关键词扩展系统,其特征在于,所述对所述关键词进行初始扩展的方式包括以下至少之一或其组合:

变形词扩展方式、同音词扩展方式、拼音词扩展方式。

8.根据权利要求7所述的关键词扩展系统,其特征在于,还包括:

噪音信息删除模块,删除所述样本数据库中的多个样本数据中的噪音信息,其中,所述噪音信息为包含特殊符号、特定字符串和/或特定表达式的信息,和/或

重复样本删除模块,删除所述多个样本数据中的重复样本数据;以及

分词处理模块,对完成删除处理后的所述多个样本数据进行分词处理,得到所述多个目标样本词。

9.根据权利要求8所述的关键词扩展系统,其特征在于,所述词权重计算公式为:

<mrow> <mi>w</mi> <mrow> <mo>(</mo> <mi>z</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>b</mi> <mo>&times;</mo> <mi>a</mi> <mo>&times;</mo> <mi>tf</mi> <mo>&times;</mo> <mi>log</mi> <mrow> <mo>(</mo> <mfrac> <mi>d</mi> <mrow> <mn>1</mn> <mo>+</mo> <mi>df</mi> </mrow> </mfrac> <mo>)</mo> </mrow> </mrow>

z表示任一所述目标样本词,w(z)表示任一所述目标样本词的词权重,b表示任一所述目标样本词的经验系数,a表示任一所述目标样本词的类别系数,tf表示任一所述目标样本词在所述多个样本数据中出现的次数,d表示所述多个样本数据的数量,df表示具有任一所述目标样本词的所述样本数据的数量。

10.根据权利要求6至9中任一项所述的关键词扩展系统,其特征在于,所述匹配模块具体用于:

通过直接匹配方式和/或间接匹配方式,将每个所述候选词与所述关键词及所述初始扩展词进行匹配,以获取所述目标扩展词。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1