计算机文本的特征选择方法、分类特征选择方法及系统与流程

文档序号：12124402阅读：来源：国知局

技术特征：

1.一种计算机文本的特征选择方法，其特征在于，包括如下步骤：

步骤S1，对计算机文本进行处理，得到文本的三维特征数据集；

步骤S2，计算所述文本的三维特征数据集的重构系数矩阵，并且计算信息熵向量；

步骤S3，按照所述信息熵向量以及所述重构系数矩阵计算综合度量指标，并且按照所述综合度量指标从小到大的顺序进行特征选择；以及

步骤S4，输出经过特征选择获得的文本特征集。

2.根据权利要求1所述的计算机文本的特征选择方法，其特征在于，

所述步骤S1中对计算机文本进行处理，得到文本的特征数据集包括：

对计算机文本进行处理，将其断开并处理成词语集合，以词性作为特征对所述词语集合进行分类，得到所述词语集合的类别，将同一个词性的词语分为一类，所述词性被分为动词、名词、形容词或副词，将所述词语集合中的词语映射为坐标上的点，坐标上的横坐标为所述词语集合中的词语在计算机文本中出现的次数，坐标上的纵坐标为所述词语集合中的词语在其类别中出现的次数，将坐标的值记录，得到所述文本的三维特征数据集；即

所述文本的三维特征数据集的数据为三维坐标，一维坐标为所述词语集合的类别，一维坐标为所述词语集合在计算机文本中出现的次数，一维坐标为所述词语集合的类别在其类别中出现的次数；

3.根据权利要求2所述的计算机文本的特征选择方法，其特征在于，

所述步骤S2中计算所述文本的三维特征数据集的重构系数矩阵，并且计算类别区分度包括：

对所述文本的三维特征数据集进行处理，利用范数最小化的优化方法，得到所述文本的三维特征数据集中每个数据的重构系数，将所述每个数据的重构系数与所述词语集合的类别分别作为所述文本的特征数据集的重构系数矩阵的行与列，根据所述词语集合的类别计算所述词语集合中词语在各个类别的概率分布:

$<mrow> <mi>P</mi> <mo>=</mo> <mrow> <mo>(</mo> <mfrac> <msub> <mi>C</mi> <mn>1</mn> </msub> <msub> <mi>L</mi> <mn>1</mn> </msub> </mfrac> <mo>,</mo> <mfrac> <msub> <mi>C</mi> <mn>2</mn> </msub> <msub> <mi>L</mi> <mn>2</mn> </msub> </mfrac> <mo>,</mo> <mfrac> <msub> <mi>C</mi> <mn>3</mn> </msub> <msub> <mi>L</mi> <mn>3</mn> </msub> </mfrac> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mfrac> <msub> <mi>C</mi> <mi>i</mi> </msub> <msub> <mi>L</mi> <mi>i</mi> </msub> </mfrac> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mfrac> <msub> <mi>C</mi> <mi>N</mi> </msub> <msub> <mi>L</mi> <mi>N</mi> </msub> </mfrac> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>$

式(1)中：i＝1,2,…，i,…,N,变量N记录所述词语集合中类别的数量，C₁,C₂,C₃,…，C_i,…,C_N表示所述词语集合中的词语在其类别中出现的次数，L₁,L₂,L₃,…，L_i,…,L_N表示所述词语集合中的各个类别的词语数量，并且计算所述词语集合的类别B_i的信息熵，定义如下：

$<mrow> <mi>H</mi> <mrow> <mo>(</mo> <msub> <mi>B</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <munderover> <mo>Σ</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <mi>P</mi> <mrow> <mo>(</mo> <mfrac> <msub> <mi>C</mi> <mi>i</mi> </msub> <msub> <mi>L</mi> <mi>i</mi> </msub> </mfrac> <mo>)</mo> </mrow> <msqrt> <mrow> <msub> <mi>log</mi> <mn>2</mn> </msub> <mi>P</mi> <mrow> <mo>(</mo> <mfrac> <msub> <mi>C</mi> <mi>i</mi> </msub> <msub> <mi>L</mi> <mi>i</mi> </msub> </mfrac> <mo>)</mo> </mrow> </mrow> </msqrt> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>$

式(2)中：H(B_i)表示所述词语集合的类别B_i的信息熵；将所述词语集合中的各个类别的信息熵综合，得到所述信息熵向量。

4.根据权利要求3所述的计算机文本的特征选择方法，其特征在于，

所述步骤S3中按照所述信息熵向量以及所述重构系数矩阵计算综合度量指标，并且按照所述综合度量指标从小到大的顺序进行特征选择包括：

计算所述信息熵向量的模，根据所述重构系数矩阵，提取所述文本的三维特征数据集中每个数据的重构系数，将所述信息熵向量的模乘以所述文本的三维特征数据集中每个数据的重构系数，得到计算所述词语集合中词语在所述词语集合的各个类别的所述综合度量指标，并且在所述词语集合中词语在所述词语集合的各个类别的所述综合度量指标从小到大进行排序，根据所述词语集合的中的各个类别中的词语数量、所述信息熵选取特征选择在所述词语集合的各个类别上的提取数量。

5.根据权利要求4所述的计算机文本的特征选择方法，其特征在于，

所述步骤S4中输出经过特征选择获得的文本特征集包括：

在所述词语集合的各个类别上输出满足其的提取数量的词语作为文本特征集。

6.一种计算机文本检索分类特征选择方法，其特征在于，包括如下步骤：

步骤S1，将文本中各词项进行分类，并计算各词项在各类别的排序值；

步骤S2，针对每个词项构造类别调节参数表；

步骤S3，从所述类别调节参数表查取相应的类别调节参数，以获得每个词项在各类别的排序评分；以及

步骤S4，根据排序差异值获得相应特征集。

7.根据权利要求6所述的计算机文本检索分类特征选择方法，其特征在于，

所述步骤S1中将文本中各词项进行分类，并计算各词项在各类别的排序值的方法包括：

根据词项的外延数量、词项反映的对象、词项反应事物的属性对文本中的词项进行分类，并根据基于词项的分类结果定义类别，计算每个词项在各个类别的排序值；

所述排序值用于词项的排序，用排序功能函数计算，且所述排序函数的定义如下：

$<mrow> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mi>Σ</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msup> <mrow> <mo>(</mo> <mi>v</mi> <mo>(</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>)</mo> <mo>-</mo> <mi>r</mi> <mo>(</mo> <mrow> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>c</mi> <mi>j</mi> </msub> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mn>3</mn> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>$

式(3)中，i＝1,2，……，m，变量m表示存放记录词项的数量；变量j表示类别的标号；其中r(t_i,c_j)用于计算词项t_i在类别c_j的权重，e(t_i,c_j)表示词项t_i在类别j的出现次数，t_i表示第i个词项，c_j表示第j个类别；v(t_i)表示词项t_i与初始词项的相邻频度，所述初始词项为用户最初输入的词项；

所述步骤S2中针对每个词项构造类别调节参数表的方法包括：

所述类别调节参数表的每行记录类别c_j、w₁(c_j)、w₂(c_j)，其以每个类别中词项的分布规则以及词项与初始词项的相邻频度为依据，根据马尔科夫链原理，即

在计算w₂(c_j)时，将词项在类别c_j的权重作为输入，以及

在计算w₁(c_j)时，将所述排序值与词项的权重作为输入。

8.根据权利要求7所述的计算机文本检索分类特征选择方法，其特征在于，；

所述步骤S3中从所述类别调节参数表查取相应的类别调节参数，以获得每个词项在各类别的排序评分的方法包括：

对每个词项在各个类别上的排序值进行处理，得到每个词项在各个类别上的排序评分：

score(t_i,c_j)＝w₁(c_j)×p(t_i)+w₂(c_j)×r(t_i,c_j) (4)；

式(4)中：score(t_i,c_j)表示词项t_i在类别c_j的排序评分，w₁(c_j)、w₂(c_j)为类别调节参数，用于调节p(t_i)、r(t_i,c_j)之间的比例；

在计算排序评分时，从所述类别调节参数表查取相应的类别调节参数；

所述步骤S4中根据排序差异值获得相应特征集的方法包括：

按所述排序评分的升序来进行所有词项在各个类别上的排序，建立排序矩阵；

根据所述排序矩阵绘制每个词项在各个类别中的排序变化曲线，且根据所述排序变化曲线计算排序类别差异值；其中

排序类别差异值越大，则该词项在各个类别中排序差异越大，选取差异最大的20％数量的词项作为特征集。

9.一种计算机文本检索分类特征选择系统，其特征在于，包括：

依次相连的分类排序模块、调节参数表构造模块、排序评分模块和特征集选取模块。

10.根据权利要求9所述的计算机文本检索分类特征选择系统，其特征在于，

所述分类排序模块适于将文本中各词项进行分类，并计算各词项在各类别的排序值，即

所述排序值用于词项的排序，用排序功能函数计算，且所述排序函数的定义如下：

所述调节参数表构造模块适于针对每个词项构造类别调节参数表，即

在计算w₂(c_j)时，将词项在类别c_j的权重作为输入，以及

在计算w₁(c_j)时，将所述排序值与词项的权重作为输入；

所述排序评分模块适于从所述类别调节参数表查取相应的类别调节参数，以获得每个词项在各类别的排序评分，即