文本聚类的方法及系统与流程

文档序号:12748167阅读:来源:国知局

技术特征:

1.一种文本聚类的方法,其特征在于,包括以下步骤:

在接收到待分类文本时,提取所述待分类文本的关键词;

根据获取的最终词袋中的关键词,对所述待分类文本的关键词进行匹配,得到所述待分类文本的类型标签;所述最终词袋为根据预设的选取规则对各类标词袋中的关键词进行排序和筛选后得到的;所述类标词袋为对各类型标签分别对应的各文本进行关键词提取后生成的关键词的集合。

2.根据权利要求1所述的文本聚类的方法,其特征在于,基于以下步骤获取所述最终词袋:

提取各所述类型标签分别对应的各文本的关键词,生成包含对应关键词的各所述类标词袋;

根据预设的命中规则,获取各所述类标词袋中关键词出现的词频;

根据所述词频的大小,对所述类标词袋中的关键词进行排序;

根据预设的选取规则,对所述类标词袋中已排序的关键词进行筛选,得到所述最终词袋。

3.根据权利要求2所述的文本聚类的方法,其特征在于,

所述预设的命中规则包括:将在同一个文本中出现多次的关键词的词频的值设为1;并基于以下公式对在多个文本中出现的相同关键词的词频进行处理:其中m1<m2

根据所述预设的命中规则,获取各所述类标词袋中关键词出现的词频的步骤包括:

对类型标签i的各文本的关键词出现的次数进行统计,获取所述关键词在类标词袋Bi下的词频

其中,n表示文本的序号m表示各文本的关键词序号k表示类型标签i下文本的条数,且

4.根据权利要求3所述的文本聚类的方法,其特征在于,

根据所述词频的大小,对所述类标词袋中的关键词进行排序的步骤包括:

基于类标词袋Bi中关键词值,将从高到低进行排序;

所述预设的选取规则包括:根据所述排序的结果,将类标词袋Bi中排序顺序落入预设百分比参考值范围内的关键词的集合确定为时进行选取,其中i'≠i,表示中的关键词且

根据所述预设的选取规则,对所述类标词袋中已排序的关键词进行筛选,得到所述最终词袋的步骤包括:

根据预设的选取规则,对类标词袋Bi中的关键词进行选取,得到类型标签i对应的所述最终词袋

5.根据权利要求3或4所述的文本聚类的方法,其特征在于,根据获取的最终词袋中的关键词,对所述待分类文本的关键词进行匹配,得到所述待分类文本的类型标签的步骤包括:

对待分类文本Dj进行关键词提取,获取包含所述提取出的关键词的类标词袋并基于以下公式获取所述待分类文本Dj所属的类别i:

<mrow> <mi>i</mi> <mo>=</mo> <mi>argmax</mi> <mrow> <mo>(</mo> <msub> <mover> <mi>B</mi> <mo>&OverBar;</mo> </mover> <mi>i</mi> </msub> <mo>&cap;</mo> <msub> <mi>B</mi> <msub> <mi>D</mi> <mi>j</mi> </msub> </msub> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

其中,argmax表示选择使括号内值最大的参数i;符号∩表示集合相交;表示所述最终词袋。

6.一种文本聚类的系统,其特征在于,包括:

提取关键词单元,用于在接收到待分类文本时,提取所述待分类文本的关键词;

匹配单元,用于根据获取的最终词袋中的关键词,对所述待分类文本的关键词进行匹配,得到所述待分类文本的类型标签;所述最终词袋为根据预设的选取规则对各类标词袋中的关键词进行排序和筛选后得到的;所述类标词袋为对各类型标签分别对应的各文本进行关键词提取后生成的关键词的集合。

7.根据权利要求6所述的文本聚类的系统,其特征在于,还包括最终词袋获取单元;所述最终词袋获取单元包括:

获取关键词模块,用于提取各类型标签分别对应的各文本的关键词,生成包含对应关键词的各类标词袋;

获取词频模块,用于根据预设的命中规则,获取各所述类标词袋中关键词出现的词频;

排序模块,用于根据所述词频的大小,对所述类标词袋中的关键词进行排序;

筛选模块,用于根据预设的选取规则,对所述类标词袋中已排序的关键词进行筛选,得到最终词袋。

8.根据权利要求7所述的文本聚类的系统,其特征在于,所述获取词频模块包括:

统计模块,用于对类型标签i的各文本的关键词出现的次数进行统计,获取所述关键词在类标词袋Bi下的词频

其中,n表示文本的序号m表示各文本的关键词序号k表示类型标签i下文本的条数,且所述预设的命中规则包括:将在同一个文本中出现多次的关键词的词频的值设为1;并基于以下公式对在多个文本中出现的相同关键词的词频进行处理:

其中m1<m2

9.根据权利要求8所述的文本聚类的系统,其特征在于,

所述排序模块,用于基于类标词袋Bi中关键词值,将从高到低进行排序;

所述筛选模块,用于根据预设的选取规则,对类标词袋Bi中的关键词进行选取,得到类型标签i对应的所述最终词袋

所述预设的选取规则包括:根据所述排序的结果,将类标词袋Bi中排序顺序落入预设百分比参考值范围内的关键词的集合确定为时进行选取,其中i'≠i,表示中的关键词且

10.根据权利要求8或9所述的文本聚类的系统,其特征在于,

所述匹配单元,用于对待分类文本Dj进行关键词提取,获取包含所述提取出的关键词的类标词袋并基于以下公式获取所述待分类文本Dj所属的类别:

<mrow> <mi>i</mi> <mo>=</mo> <mi>argmax</mi> <mrow> <mo>(</mo> <msub> <mover> <mi>B</mi> <mo>&OverBar;</mo> </mover> <mi>i</mi> </msub> <mo>&cap;</mo> <msub> <mi>B</mi> <msub> <mi>D</mi> <mi>j</mi> </msub> </msub> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

其中,argmax表示选择使括号内值最大的参数i;符号∩表示集合相交;表示所述最终词袋。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1