一种基于文本分类的城市管理案件分类方法与流程

文档序号：12598614阅读：来源：国知局

技术特征：

1.一种基于文本分类的城市管理案件分类方法，其特征在于：包括以下步骤：

S1：预处理，对短文本进行预处理，进行分词、去除文本中的停用词、统计词频等操作，其中停用词包括标点符号、表情符号、语气助词、介词和连接词；

S2：互邻特征组合，通过互邻特征组合算法对文本特征空间中的特征进行组合，形成新的特征，并扩展特征空间；

S3：基于类别特征域的特征选择，经上述互邻特征组合算法进行特征扩展之后，整个短文本的特征空间变得十分庞大，在产生对短文本分类描述力更强的组合特征的同时，也产生了很多对分类效果贡献不大甚至有影响的特征，需要对其进行特征选择：

首先，为短文本中的每一类都分别分配一个类标识码，设类别c_i的类标识码为d_i；然后，对于短文本D的每一个特征t都按照如下方式进行处理：

a.若t属于且仅属于类别c_i的类别特征域，则c_i的类标识码d_i将被作为短文本D的一个特征；

b.若t同时属于m个类别c_i1,c_i2,...,c_im的类别特征域，则上述m个类别的类标识码d_i1,d_i2,...,d_im都将被作为短文本D的特征；

c.若t不属于任何一类的类别特征域，则将t本身作为短文本D的一个特征；

从上述过程中可以看出：各类的类别特征域中的特征将被替换为对应的类标识码；如果在一条短文本中有多个特征属于同一类别特征域，即多个特征对应同一类标识码，那么它们的权重将被累加并作为这个类标识码在该短文本中的权重，这样，主要特征将获得更大的权重值，有助于提升文本的分类效果；

S4：采用tf-idf加权，计算每个文本特征向量，tf-idf权重被广泛应用于文本分类领域，其基本思想是通过某一特征项在不同文本中出现频率的差异性大小来判断该特征项对分类的贡献度，即如果某一特征项在一个文本中出现的频率很高，并且很少在其他文本中出现，那么就认为该特征具有较高的类别识别度，更有利于文本分类，因此，tf-idf的值与文本中该特征项的词频数成正比，而与文本集中包含该特征项的文本数的比重成反比，常通过特征项的词频数与反文本数的乘积来计算，公式如下：

$<mrow> <msub> <mi>w</mi> <mrow> <mi>t</mi> <mi>d</mi> </mrow> </msub> <mo>=</mo> <msub> <mi>tf</mi> <mrow> <mi>t</mi> <mi>d</mi> </mrow> </msub> <mo>×</mo> <msub> <mi>idf</mi> <mi>t</mi> </msub> <mo>=</mo> <msub> <mi>tf</mi> <mrow> <mi>t</mi> <mi>d</mi> </mrow> </msub> <mo>×</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mfrac> <mi>N</mi> <msub> <mi>n</mi> <mi>t</mi> </msub> </mfrac> <mo>+</mo> <mn>0.5</mn> <mo>)</mo> </mrow> </mrow>$

其中，w_td为特征项t在文本d中的权重值；tf_td是文本d中特征t出现频数；N为总文本数；n_t表示含有特征t的文本数，通常还会对TF-IDF权重进行规范化处理，公式为：

$<mrow> <msub> <mi>w</mi> <mrow> <mi>t</mi> <mi>d</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>tf</mi> <mrow> <mi>t</mi> <mi>d</mi> </mrow> </msub> <mo>×</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mfrac> <mi>N</mi> <msub> <mi>n</mi> <mi>t</mi> </msub> </mfrac> <mo>+</mo> <mn>0.5</mn> <mo>)</mo> </mrow> </mrow> <msqrt> <mrow> <msub> <mi>Σ</mi> <mrow> <mi>t</mi> <mo>&Element;</mo> <mi>d</mi> </mrow> </msub> <msup> <mrow> <mo>[</mo> <msub> <mi>tf</mi> <mrow> <mi>t</mi> <mi>d</mi> </mrow> </msub> <mo>×</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mfrac> <mi>N</mi> <msub> <mi>n</mi> <mi>t</mi> </msub> </mfrac> <mo>+</mo> <mn>0.5</mn> <mo>)</mo> </mrow> <mo>]</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> </mfrac> </mrow>$

S5：训练分类器并对测试文本分类，本方法中使用LibLinear作为文本分类器，LibLinear可高效的解决大规模线性分类问题，并已经成为一种解决大型数据稀疏问题的重要学习技术。

2.根据权利要求1所述的一种基于文本分类的城市管理案件分类方法，其特征在于：所述互邻特征组合算法具体为：

当一条案件描述短文本初步分词结果如下：

S＝(w₁,w₂,w₃,w₄,w₅) (1)

其中w₁,w₂,w₃,w₄,w₅分别代表短文本S的五个特征词；

互邻特征组合算法执行后结果为：

S＝(w₁,w₂,w₃,w₄,w₅,w₁₂,w₂₃,w₃₄,w₄₅) (2)

其中w₁,w₂,w₃,w₄,w₅不变，w₁₂为特征词w₁与w₂相连后形成的新的特征词，w₂₃,w₃₄,w₄₅同理。

3.根据权利要求1所述的一种基于文本分类的城市管理案件分类方法，其特征在于：所述类别特征域为每个类中的主要特征集合，一个特征是否属于某个类的主要特征集通过该特征与相应类别之间的隶属度函数值大小进行判定。

4.根据权利要求1或3所述的一种基于文本分类的城市管理案件分类方法，其特征在于：所述类别特征域根据隶属度函数计算公式构建，类别c_i的类别特征域构建步骤如下：

1)设定一个阈值d，分别计算类别c_i中每个特征t的隶属度函数值其中，阈值d的大小由最终特征选择保留特征的数目所确定；

2)若高于阈值d，就认为特征t属于类别c_i的类别特征域；

通过上述类别特征域的构造方式，如果某一个词条在多个类别中都有出现，并且满足相应类别特征域的所属条件，那么该词条将同时属于多个类的类别特征域。

5.根据权利要求4所述的一种基于文本分类的城市管理案件分类方法，其特征在于：所述隶属度函数计算公式为：

$<mrow> <msub> <mi>u</mi> <msub> <mi>c</mi> <mi>i</mi> </msub> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <mrow> <mo>(</mo> <mfrac> <mrow> <msub> <mi>tf</mi> <mi>t</mi> </msub> </mrow> <mrow> <msub> <mi>tf</mi> <mi>t</mi> </msub> <mo>-</mo> <msub> <mi>tf</mi> <mrow> <mi>i</mi> <mi>t</mi> </mrow> </msub> <mo>+</mo> <mn>1</mn> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>×</mo> <mrow> <mo>(</mo> <mfrac> <msub> <mi>f</mi> <mrow> <mi>i</mi> <mi>t</mi> </mrow> </msub> <msub> <mi>C</mi> <mi>i</mi> </msub> </mfrac> <mo>-</mo> <mfrac> <msub> <mi>f</mi> <mi>t</mi> </msub> <mi>N</mi> </mfrac> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>$

式中，tf_it表示在类别c_i中特征t出现的词频数；tf_t表示在所有类别中特征t出现的词频数；f_it表示在类别c_i中含有特征t的文本数；C_i表示在类别c_i中的文本总数；f_t表示在所有类别中含有特征t的文本数；N表示文本集的总文本数；

用于计算类间分散度，tf_it越大tf_t-tf_it越小即表明特征t在某一类别中大量出现而在其他类别中较少出现，则说明该特征对文本分类的贡献度越大，为防止分母为零，对tf_t-tf_it进行加1处理；

用于计算类内分散度，越大越小即表明在某一类别中包含该特征t的文本数越多，同时在所有类别中包含特征t的文本数越少，则说明该特征对文本分类的贡献度越大；为防止出现负数，对进行加1处理。

完整全部详细技术资料下载

当前第2页1 2 3