一种特征提取方法及装置与流程

文档序号:12063651阅读:来源:国知局

技术特征:

1.一种特征提取方法,其特征在于,所述方法:

从待处理文本中提取各个词;

获取所述待处理文本包含的各个主题,并从所述各个主题中选取至少一个目标主题;

计算所述各个词与各个目标主题的相关度;

根据所述各个词与各个目标主题的相关度,得到所述各个词与所述待处理文本的相关度;

根据所述各个词与所述待处理文本的相关度,从所述各个词中选取至少一个词作为所述待处理文本的特征。

2.根据权利要求1所述的方法,其特征在于,所述计算所述各个词与各个目标主题的相关度,包括:

计算各个目标主题中各个词的概率和所述待处理文本中各个目标主题的概率;

计算所述各个目标主题在所述待处理文本中出现的频率;

计算所述各个词在所述待处理文本中出现的频率;

计算所述各个目标主题在所述待处理文本中出现的频率、所述各个词在所述待处理文本中出现的频率、所述各个目标主题中各个词的概率和所述待处理文本中各个目标主题的概率,计算所述各个词与各个目标主题的相关度。

3.根据权利要求2所述的方法,其特征在于,所述计算所述各个目标主题在所述待处理文本中出现的频率,包括:

计算所述待处理文本出现的频率;

根据所述待处理文本中各个目标主题的概率和所述待处理文本出现的频率,计算所述各个目标主题在所述待处理文本中出现的频率。

4.根据权利要求2所述的方法,其特征在于,所述计算所述各个词在所述待处理文本中出现的频率,包括:

计算所述各个词的词频和从所述待处理文本中提取的词的总数;

根据所述各个词的词频和从所述待处理文本中提取的词的总数,计算所述各个词在所述待处理文本中出现的频率。

5.根据权利要求1所述的方法,其特征在于,所述从所包含的各个主题中选取至少一个目标主题,包括:

根据所述待处理文本中各个主题的概率,对各个主题按照概率由大到小的方式进行排序;

选取排序在其他主题前的预设数量的主题分别作为目标主题。

6.一种特征提取装置,其特征在于,所述装置:

提取单元,用于从待处理文本中提取各个词;

主题获取单元,用于获取所述待处理文本包含的各个主题,并从所述各个主题中选取至少一个目标主题;

主题相关度计算单元,用于计算所述各个词与各个目标主题的相关度;

文本相关度计算单元,用于根据所述各个词与各个目标主题的相关度,得到所述各个词与所述待处理文本的相关度;

特征选取单元,用于根据所述各个词与所述待处理文本的相关度,从所述各个词中选取至少一个词作为所述待处理文本的特征。

7.根据权利要求6所述的装置,其特征在于,所述主题相关度计算单元,包括:

第一计算子单元,用于计算各个目标主题中各个词的概率和所述待处理文本中各个目标主题的概率;

第二计算子单元,用于计算所述各个目标主题在所述待处理文本中出现的频率;

第三计算子单元,用于计算所述各个词在所述待处理文本中出现的频率;

相关度计算子单元,用于根据所述各个目标主题在所述待处理文本中出现的频率、所述各个词在所述待处理文本中出现的频率、所述各个目标主题中各个词的概率和所述待处理文本中各个目标主题的概率,计算所述各个词与各个目标主题的相关度。

8.根据权利要求7所述的装置,其特征在于,所述第二计算子单元,具体用于计算所述待处理文本出现的频率,并根据所述待处理文本中各个目标主题的概率和所述待处理文本出现的频率,计算所述各个目标主题在所述待处理文本中出现的频率。

9.根据权利要求7所述的装置,其特征在于,所述第三计算子单元,具体用于计算所述各个词的词频和从所述待处理文本中提取的词的总数,并根据所述各个词的词频和从所述待处理文本中提取的词的总数,计算所述各个词在所述待处理文本中出现的频率。

10.根据权利要求6所述的装置,其特征在于,所述主题获取单元,具体用于根据所述待处理文本中各个主题的概率,对各个主题按照概率由大到小的方式进行排序,并选取排序在其他主题前的预设数量的主题分别作为目标主题。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1