一种基于文本分类的城市管理案件分类方法与流程

文档序号:12598614阅读:281来源:国知局
一种基于文本分类的城市管理案件分类方法与流程

本发明涉及城市案件管理技术领域,具体为一种城市管理案件短文本分类的方法。



背景技术:

信息化时代的来临使得世界各国的城市化发展步入数字化的轨道,城市管理也迈入了数字化、科技化、移动化的阶段。城市管理案件的上报将依赖于更多的信息化设备,例如智能手机等。通过手机App,包括环卫工人在内的各部门工作人员,发现案件即可一键上报。案件的来源得到了极大的丰富,提高了发现问题的能力。随着案件数量的大幅提升,案件的快速派发与处理成为了目前以及将来需要处理并解决的重要问题之一。针对庞大的案件数量,如果再通过人工的方式来手动分类,工作量将是巨大的,并且会产生很大的成本开支与较高的错误率。为此,找到一种快速高效的案件自动分类方法是至关重要的。

城市管理案件上报的内容主要包括案件文本描述、案件语音描述、案发照片、案发位置等,其中案件文本描述是必填内容并且通过案件的文本描述即可判断出相应案件类型,因此,城管案件的自动分类可以通过案件描述短文本的自动分类来实现。文本自动分类技术是信息检索以及自然语言处理领域研究的热点和关键技术,近年来已得到了快速的发展,并取得了一定的研究成果。但到目前为止,还没有一套统一的文本自动分类系统可以完美的解决各种类型的文本分类问题,例如,微博、新闻标题、文章、聊天信息等。特别是在文本的特征处理方面,例如,特征表示、特征选择等。文本特征处理是文本分类的基础,对最终的分类效果影响巨大,因此,针对不同的实际问题,选择最合适的特征处理方法显得尤为重要。

本发明要研究的城市管理案件描述文本与普通文本有很大的不同。第一,案件描述文本是一种短文本,字数一般在100字以内,甚至很多情况下,案件描述只有几个字。这就造成文本向量长度非常短,很不利于训练学习,需要对文本的特征长度进行扩展。第二,案件描述短文本一般对事物的现状进行描述,多采用紧凑的主谓(如,机动车占道)、动宾(如,发小广告)或并列(如,雨水井盖)等结构,从学习的角度看,短语特征要比仅以分割的词作特征描述能力更强。因此,若直接对案件描述短文本原始特征进行特征选择,不但会使得文本向量长度更短,而且无法选择得到分类效果更好的短语特征。为此,本发明研究了一种新的特征生成算法即互邻特征组合算法,先对原始文本特征进行处理,扩展文本向量长度并生成描述力更强的组合特征,然后再对文本进行特征选择。在特征选择算法实现方面,本发明改进了基于类别特征域的特征选择方法,通过综合考虑类内类间分散度以及词频因素提出了一种新的隶属度函数替换了传统的隶属度函数(互信息)。实验结果表明:改善后的特征选择方法对案件短文本分类效果较其它几种特征选择方法有着更好的分类性能。



技术实现要素:

本发明针对上述问题,提供一种基于文本分类的城市管理案件分类方法,该短文本分类的方法在进行特征选择之前先用互邻特征组合算法对原始特征空间进行了处理,在生成短语特征的同时扩展了特征空间,这就使得后面在进行特征选择时,有了更多的选择空间。

实现本发明目的的技术方案为:

一种基于文本分类的城市管理案件分类方法,包括以下步骤:

S1:预处理,对短文本进行预处理,进行分词、去除文本中的停用词、统计词频等操作,其中停用词包括标点符号、表情符号、语气助词、介词和连接词;

S2:互邻特征组合,通过互邻特征组合算法对文本特征空间中的特征进行组合,形成新的特征,并扩展特征空间;

S3:基于类别特征域的特征选择,经上述互邻特征组合算法进行特征扩展之后,整个短文本的特征空间变得十分庞大,在产生对短文本分类描述力更强的组合特征的同时,也产生了很多对分类效果贡献不大甚至有影响的特征,需要对其进行特征选择:

首先,为短文本中的每一类都分别分配一个类标识码,设类别ci的类标识码为di;然后,对于短文本D的每一个特征t都按照如下方式进行处理:

a.若t属于且仅属于类别ci的类别特征域,则ci的类标识码di将被作为短文本D的一个特征;

b.若t同时属于m个类别ci1,ci2,…,cim的类别特征域,则上述m个类别的类标识码di1,di2,…,dim都将被作为短文本D的特征;

c.若t不属于任何一类的类别特征域,则将t本身作为短文本D的一个特征;

从上述过程中可以看出:各类的类别特征域中的特征将被替换为对应的类标识码;如果在一条短文本中有多个特征属于同一类别特征域,即多个特征对应同一类标识码,那么它们的权重将被累加并作为这个类标识码在该短文本中的权重,这样,主要特征将获得更大的权重值,有助于提升文本的分类效果;

S4:采用tf-idf加权,计算每个文本特征向量,tf-idf权重被广泛应用于文本分类领域,其基本思想是通过某一特征项在不同文本中出现频率的差异性大小来判断该特征项对分类的贡献度,即如果某一特征项在一个文本中出现的频率很高,并且很少在其他文本中出现,那么就认为该特征具有较高的类别识别度,更有利于文本分类,因此,tf-idf的值与文本中该特征项的词频数成正比,而与文本集中包含该特征项的文本数的比重成反比,常通过特征项的词频数与反文本数的乘积来计算,公式如下:

<mrow> <msub> <mi>w</mi> <mrow> <mi>t</mi> <mi>d</mi> </mrow> </msub> <mo>=</mo> <msub> <mi>tf</mi> <mrow> <mi>t</mi> <mi>d</mi> </mrow> </msub> <mo>&times;</mo> <msub> <mi>idf</mi> <mi>t</mi> </msub> <mo>=</mo> <msub> <mi>tf</mi> <mrow> <mi>t</mi> <mi>d</mi> </mrow> </msub> <mo>&times;</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mfrac> <mi>N</mi> <msub> <mi>n</mi> <mi>t</mi> </msub> </mfrac> <mo>+</mo> <mn>0.5</mn> <mo>)</mo> </mrow> </mrow>

其中,wtd为特征项t在文本d中的权重值;tftd是文本d中特征t出现频数;N为总文本数;nt表示含有特征t的文本数,通常还会对TF-IDF权重进行规范化处理,公式为:

<mrow> <msub> <mi>w</mi> <mrow> <mi>t</mi> <mi>d</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>tf</mi> <mrow> <mi>t</mi> <mi>d</mi> </mrow> </msub> <mi>log</mi> <mrow> <mo>(</mo> <mfrac> <mi>N</mi> <msub> <mi>n</mi> <mi>t</mi> </msub> </mfrac> <mo>+</mo> <mn>0.5</mn> <mo>)</mo> </mrow> </mrow> <msqrt> <mrow> <msub> <mo>&Sigma;</mo> <mrow> <mi>t</mi> <mo>&Element;</mo> <mi>d</mi> </mrow> </msub> <msup> <mrow> <mo>&lsqb;</mo> <msub> <mi>tf</mi> <mrow> <mi>t</mi> <mi>d</mi> </mrow> </msub> <mo>&times;</mo> <mi>log</mi> <mrow> <mo>(</mo> <mfrac> <mi>N</mi> <msub> <mi>n</mi> <mi>t</mi> </msub> </mfrac> <mo>+</mo> <mn>0.5</mn> <mo>)</mo> </mrow> <mo>&rsqb;</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> </mfrac> </mrow>

S5:训练分类器并对测试文本分类,本方法中使用LibLinear作为文本分类器,LibLinear可高效的解决大规模线性分类问题,并已经成为一种解决大型数据稀疏问题的重要学习技术。

优选的,所述互邻特征组合算法具体为:

当一条案件描述短文本初步分词结果如下:

S=(w1,w2,w3,w4,w5) (1)

其中w1,w2,w3,w4,w5分别代表短文本S的五个特征词;

互邻特征组合算法执行后结果为:

S=(w1,w2,w3,w4,w5,w12,w23,w34,w45) (2)

其中w1,w2,w3,w4,w5不变,w12为特征词w1与w2相连后形成的新的特征词,w23,w34,w45同理。

优选的,所述类别特征域为每个类中的主要特征集合,一个特征是否属于某个类的主要特征集通过该特征与相应类别之间的隶属度函数值大小进行判定。

优选的,所述类别特征域根据隶属度函数计算公式构建,类别ci的类别特征域构建步骤如下:

1)设定一个阈值d,分别计算类别ci中每个特征t的隶属度函数值,其中,阈值d的大小由最终特征选择保留特征的数目所确定;

2)若高于阈值d,就认为特征t属于类别ci的类别特征域;

通过上述类别特征域的构造方式,如果某一个词条在多个类别中都有出现,并且满足相应类别特征域的所属条件,那么该词条将同时属于多个类的类别特征域。

优选的,所述隶属度函数计算公式为:

<mrow> <msub> <mi>u</mi> <msub> <mi>c</mi> <mi>i</mi> </msub> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <mrow> <mo>(</mo> <mfrac> <mrow> <msub> <mi>tf</mi> <mrow> <mi>i</mi> <mi>t</mi> </mrow> </msub> </mrow> <mrow> <msub> <mi>tf</mi> <mi>t</mi> </msub> <mo>-</mo> <msub> <mi>tf</mi> <mrow> <mi>i</mi> <mi>t</mi> </mrow> </msub> <mo>+</mo> <mn>1</mn> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>&times;</mo> <mrow> <mo>(</mo> <mfrac> <msub> <mi>f</mi> <mrow> <mi>i</mi> <mi>t</mi> </mrow> </msub> <msub> <mi>C</mi> <mi>i</mi> </msub> </mfrac> <mo>-</mo> <mfrac> <msub> <mi>f</mi> <mi>t</mi> </msub> <mi>N</mi> </mfrac> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

式中,tfit表示在类别ci中特征t出现的词频数;tft表示在所有类别中特征t出现的词频数;fit表示在类别ci中含有特征t的文本数;Ci表示在类别ci中的文本总数;ft表示在所有类别中含有特征t的文本数;N表示文本集的总文本数;

用于计算类间分散度,tfit越大tft-tfit越小即表明特征t在某一类别中大量出现而在其他类别中较少出现,则说明该特征对文本分类的贡献度越大,为防止分母为零,对tft-tfit进行加1处理;

用于计算类内分散度,越大越小即表明在某一类别中包含该特征t的文本数越多,同时在所有类别中包含特征t的文本数越少,则说明该特征对文本分类的贡献度越大;为防止出现负数,对进行加1处理。

本发明的优点为:

(1)本发明方法在进行特征选择之前先用互邻特征组合算法对原始特征空间进行了处理,在生成短语特征的同时扩展了特征空间,这就使得后面在进行特征选择时,有了更多的选择空间。

(2)本发明中的新的隶属度函数充分考虑了类内类间分散度和词频因素,在构造类别特征域时明显要比只考虑文档数目的互信息的方法有效很多。

(3)基于类别特征域的特征选择算法在特征约减时,是将特征替换为相应的类标识码并加权,过程中并没有直接移除特征,不但没有信息的丢失,而且在很大程度上解决了数据稀疏问题,所以保留特征的数量对分类性能的影响不大。

附图说明

图1为本发明基于特征生成与选择的案件短文本分类的方法流程图;

图2为本发明在不同特征数情况下各特征选择算法对应的宏平均F1值;

图3为本发明在不同特征数情况下各特征选择算法对应的微平均F1值。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅图1-3,本发明提供一种技术方案:一种基于文本分类的城市管理案件分类方法,包括以下步骤:

S1:预处理,对短文本进行预处理,进行分词、去除文本中的停用词、统计词频等操作,其中停用词包括标点符号、表情符号、语气助词、介词和连接词,文本处理的过程首先是从分词开始,中文分词大部分采用的是基于词典的最大匹配算法,而匹配的过程中难免会造成匹配错误,并且很大一部分匹配不上的短语有可能对文本的分类效果有着更好的提升,例如:“井盖破损”,分词之后会生成“井盖”与“破损”两个词语,而这两个词语作为特征显然不如合在一起组成的“井盖破损”这一个特征更具有分类性能;

S2:互邻特征组合,通过互邻特征组合算法对文本特征空间中的特征进行组合,形成新的特征,并扩展特征空间;所述互邻特征组合算法具体为:

当一条案件描述短文本初步分词结果如下:

S=(w1,w2,w3,w4,w5) (1)

其中w1,w2,w3,w4,w5分别代表短文本S的五个特征词;

互邻特征组合算法执行后结果为:

S=(w1,w2,w3,w4,w5,w12,w23,w34,w45) (2)

其中w1,w2,w3,w4,w5不变,w12为特征词w1与w2相连后形成的新的特征词,w23,w34,w45同理。

S3:基于类别特征域的特征选择,经上述互邻特征组合算法进行特征扩展之后,整个短文本的特征空间变得十分庞大,在产生对短文本分类描述力更强的组合特征的同时,也产生了很多对分类效果贡献不大甚至有影响的特征,需要对其进行特征选择:

首先,为短文本中的每一类都分别分配一个类标识码,设类别ci的类标识码为di;然后,对于短文本D的每一个特征t都按照如下方式进行处理:

a.若t属于且仅属于类别ci的类别特征域,则ci的类标识码di将被作为短文本D的一个特征;

b.若t同时属于m个类别ci1,ci2,…,cim的类别特征域,则上述m个类别的类标识码di1,di2,…,dim都将被作为短文本D的特征;

c.若t不属于任何一类的类别特征域,则将t本身作为短文本D的一个特征;

从上述过程中可以看出:各类的类别特征域中的特征将被替换为对应的类标识码;如果在一条短文本中有多个特征属于同一类别特征域,即多个特征对应同一类标识码,那么它们的权重将被累加并作为这个类标识码在该短文本中的权重,这样,主要特征将获得更大的权重值,有助于提升文本的分类效果;所述类别特征域为每个类中的主要特征集合,一个特征是否属于某个类的主要特征集通过该特征与相应类别之间的隶属度函数值大小进行判定,所述隶属度函数计算公式为:

<mrow> <msub> <mi>u</mi> <msub> <mi>c</mi> <mi>i</mi> </msub> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <mrow> <mo>(</mo> <mfrac> <mrow> <msub> <mi>tf</mi> <mrow> <mi>i</mi> <mi>t</mi> </mrow> </msub> </mrow> <mrow> <msub> <mi>tf</mi> <mi>t</mi> </msub> <mo>-</mo> <msub> <mi>tf</mi> <mrow> <mi>i</mi> <mi>t</mi> </mrow> </msub> <mo>+</mo> <mn>1</mn> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>&times;</mo> <mrow> <mo>(</mo> <mfrac> <msub> <mi>f</mi> <mrow> <mi>i</mi> <mi>t</mi> </mrow> </msub> <msub> <mi>C</mi> <mi>i</mi> </msub> </mfrac> <mo>-</mo> <mfrac> <msub> <mi>f</mi> <mi>t</mi> </msub> <mi>N</mi> </mfrac> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

式中,tfit表示在类别ci中特征t出现的词频数;tft表示在所有类别中特征t出现的词频数;fit表示在类别ci中含有特征t的文本数;Ci表示在类别ci中的文本总数;ft表示在所有类别中含有特征t的文本数;N表示文本集的总文本数;

用于计算类间分散度,tfit越大tft-tfit越小即表明特征t在某一类别中大量出现而在其他类别中较少出现,则说明该特征对文本分类的贡献度越大,为防止分母为零,对tft-tfit进行加1处理;

用于计算类内分散度,越大越小即表明在某一类别中包含该特征t的文本数越多,同时在所有类别中包含特征t的文本数越少,则说明该特征对文本分类的贡献度越大;为防止出现负数,对进行加1处理。

S4:采用tf-idf加权,计算每个文本特征向量,tf-idf权重被广泛应用于文本分类领域,其基本思想是通过某一特征项在不同文本中出现频率的差异性大小来判断该特征项对分类的贡献度,即如果某一特征项在一个文本中出现的频率很高,并且很少在其他文本中出现,那么就认为该特征具有较高的类别识别度,更有利于文本分类,因此,tf-idf的值与文本中该特征项的词频数成正比,而与文本集中包含该特征项的文本数的比重成反比,常通过特征项的词频数与反文本数的乘积来计算,公式如下:

<mrow> <msub> <mi>w</mi> <mrow> <mi>t</mi> <mi>d</mi> </mrow> </msub> <mo>=</mo> <msub> <mi>tf</mi> <mrow> <mi>t</mi> <mi>d</mi> </mrow> </msub> <mo>&times;</mo> <msub> <mi>idf</mi> <mi>t</mi> </msub> <mo>=</mo> <msub> <mi>tf</mi> <mrow> <mi>t</mi> <mi>d</mi> </mrow> </msub> <mo>&times;</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mfrac> <mi>N</mi> <msub> <mi>n</mi> <mi>t</mi> </msub> </mfrac> <mo>+</mo> <mn>0.5</mn> <mo>)</mo> </mrow> </mrow>

其中,wtd为特征项t在文本d中的权重值;tftd是文本d中特征t出现频数;N为总文本数;nt表示含有特征t的文本数,通常还会对TF-IDF权重进行规范化处理,公式为:

<mrow> <msub> <mi>w</mi> <mrow> <mi>t</mi> <mi>d</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>tf</mi> <mrow> <mi>t</mi> <mi>d</mi> </mrow> </msub> <mo>&times;</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mfrac> <mi>N</mi> <msub> <mi>n</mi> <mi>t</mi> </msub> </mfrac> <mo>+</mo> <mn>0.5</mn> <mo>)</mo> </mrow> </mrow> <msqrt> <mrow> <msub> <mi>&Sigma;</mi> <mrow> <mi>t</mi> <mo>&Element;</mo> <mi>d</mi> </mrow> </msub> <msup> <mrow> <mo>&lsqb;</mo> <msub> <mi>tf</mi> <mrow> <mi>t</mi> <mi>d</mi> </mrow> </msub> <mo>&times;</mo> <mi>log</mi> <mrow> <mo>(</mo> <mfrac> <mi>N</mi> <msub> <mi>n</mi> <mi>t</mi> </msub> </mfrac> <mo>+</mo> <mn>0.5</mn> <mo>)</mo> </mrow> <mo>&rsqb;</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> </mfrac> </mrow>

S5:训练分类器并对测试文本分类,本方法中使用LibLinear作为文本分类器,LibLinear可高效的解决大规模线性分类问题,并已经成为一种解决大型数据稀疏问题的重要学习技术。

本发明设计合理,传统文本处理的过程首先是从分词开始,中文分词大部分采用的是基于词典的最大匹配算法,而匹配的过程中难免会造成匹配错误。并且很大一部分匹配不上的短语有可能对文本的分类效果有着更好的提升。例如:“井盖破损”,分词之后会生成“井盖”与“破损”两个词语,而这两个词语作为特征显然不如合在一起组成的“井盖破损”这一个特征更具有分类性能。为此,本发明提出互邻特征组合算法来解决上面提到的问题。该算法思想是对相邻特征进行两两组合形成新的特征以解决在分词上面的不足与短文本特征较少的问题,并且互邻特征组合算法能够生成大量对分类效果良好的短语特征。经过本发明上面提出的互邻特征组合算法进行特征扩展之后,整个文本的特征空间变得十分庞大,在产生对文本分类描述力更强的组合特征的同时也产生了很多对分类效果贡献不大甚至有影响的特征,并使得向量特征空间更稀疏,需要进一步的对特征进行优化与处理。

在短文本分类过程中,判断某一特征项是否有利于某一类别的判定,可以通过该特征项在该类别中出现的频率与在其它类别中出现频率的差异性进行判断,例如,某个特征大量出现在一个类别中,而在其它类别中,该特征却出现较少或者不出现,那么我们就可初步认定该特征有利于分类。这种根据类别间特征分布情况来判断特征优劣的方式可以由类间分散度来计算。而与类间分散度相对的是类内分散度,我们考虑在同一类别中,如果某一特征项大量出现在某一文本中,而在其它文本中,该特征项却较少出现或不出现。那么这样的特征对类别的判定作用较小,甚至可认为是冗余特征。类内分散度便能较好的对这种类内特征的分布情况进行判别,通过使用类内类间分散度设计的新隶属度函数能够很好的解决上述问题。

通过上面类别特征域的构造方式,如果某一个词条在多个类别中都有出现,并且满足相应类别特征域的所属条件,那么该词条将同时属于多个类的类别特征域。例如,“井盖”一词,可能既是“雨水井盖”类的特征,又是“电力井盖”类的特征,如果特征词“井盖”同时满足这两个类的类别特征域判定条件,那么“井盖”这个特征词就同时属于“雨水井盖”与“电力井盖”两个类的类别特征域。

应用实验对本发明方法的有效性等进行验证,实验验证及结果分析过程如下:

本实验数据来源于合作研发的“城管通”应用系统。该系统通过手机APP(有Android和iOS两个版本)上报案件到服务端,服务端收到案件并对案件进行分派处理。目前,该系统包括案件、指挥调度和人员精细化管理等五个子系统,管理有34个责任网格,每个网格都有城管、环卫、街道、市政、住建、园林、交警、工商等部门,实现了案件上报、分类、处置、监督等业务流程的自动化,从而支持多部门协同执法。该系统日常用户已接近5000人,每日从凌晨4点起包括环卫工人在内的各岗位工作人员就开始上报案件,晚上的案件则上报到23点以后,平均每天上报案件数量超过2000条。针对如此庞大数量的案件、较长的时间范围,自动分类方法的研究显得尤为重要。为了验证本文所提出的特征选择方法对案件短文本的分类效果,本文从案件数量最多的53种案件类型(包括,私搭乱建、雨水箅子、道路不洁、绿地脏乱、树木毁坏、道路破损、条幅广告、乱堆物料,等)中选取53000个样本集(其中每种案件选取样本1000个)。训练集与测试集的样本数为9:1,即训练集有47700个样本,而测试集有5300个样本。

应用本文方法进行案件短文本自动分类的具体流程如图1所示,包括对训练文本集和测试文本集的短文本进行预处理,对短文本进行预处理之后,用前面提出的互邻特征组合算法对短文本特征空间中的互邻特征进行组合,构建类别特征域,利用类别特征域合并特征;采用tf-idf加权计算每个样本特征向量,再采用分类训练器通过分类模型测试文本特征,进而利用分类器判定样本类别,最后对分类效果进行评价。

特征处理方法的好坏可以直接影响最终的分类性能,因此,可以通过评价分类的效果来判断特征处理方法的有效性。这里,我们采用准确率P(Precision)、召回率R(Recall)以及F1值等通用的文本分类性能评价标准。具体公式如下:

第j类的准确率:

Pj=(lj/mj)×100% (4)

其中,lj为第j类分类正确的分本数,mj为分类系统实际分类为j的分本数。

第j类的召回率:

Rj=(lj/nj)×100% (5)

其中,lj为第j类分类正确的分本数,nj为第j类实际包含的文本数。

第j类的F1值:

<mrow> <mi>F</mi> <msub> <mn>1</mn> <mi>j</mi> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>P</mi> <mi>j</mi> </msub> <mo>&times;</mo> <msub> <mi>R</mi> <mi>j</mi> </msub> <mo>&times;</mo> <mn>2</mn> </mrow> <mrow> <msub> <mi>P</mi> <mi>j</mi> </msub> <mo>+</mo> <msub> <mi>R</mi> <mi>j</mi> </msub> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>

本实验中的分类是多分类问题,因此采用微平均和宏平均两种计算准确率、召回率和F1值得方法。定义如下所示:

宏平均准确率:

<mrow> <mi>M</mi> <mi>a</mi> <mi>c</mi> <mi>r</mi> <mi>o</mi> <mi>P</mi> <mo>=</mo> <mfrac> <mn>1</mn> <mi>n</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>P</mi> <mi>j</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>

宏平均召回率:

<mrow> <mi>M</mi> <mi>a</mi> <mi>c</mi> <mi>r</mi> <mi>o</mi> <mi>R</mi> <mo>=</mo> <mfrac> <mn>1</mn> <mi>n</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>R</mi> <mi>j</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>8</mn> <mo>)</mo> </mrow> </mrow>

宏平均F1值:

<mrow> <mi>M</mi> <mi>a</mi> <mi>c</mi> <mi>r</mi> <mi>o</mi> <mi>F</mi> <mn>1</mn> <mo>=</mo> <mfrac> <mrow> <mi>M</mi> <mi>a</mi> <mi>c</mi> <mi>r</mi> <mi>o</mi> <mi>P</mi> <mo>&lt;</mo> <mi>M</mi> <mi>a</mi> <mi>c</mi> <mi>r</mi> <mi>o</mi> <mi>R</mi> <mo>&times;</mo> <mn>2</mn> </mrow> <mrow> <mi>M</mi> <mi>a</mi> <mi>c</mi> <mi>r</mi> <mi>o</mi> <mi>P</mi> <mo>+</mo> <mi>M</mi> <mi>a</mi> <mi>c</mi> <mi>r</mi> <mi>o</mi> <mi>R</mi> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>9</mn> <mo>)</mo> </mrow> </mrow>

微平均准确率:

<mrow> <mi>M</mi> <mi>i</mi> <mi>c</mi> <mi>r</mi> <mi>o</mi> <mi>P</mi> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>l</mi> <mi>j</mi> </msub> <mo>/</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>m</mi> <mi>j</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>10</mn> <mo>)</mo> </mrow> </mrow>

微平均召回率:

<mrow> <mi>M</mi> <mi>i</mi> <mi>c</mi> <mi>r</mi> <mi>o</mi> <mi>R</mi> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>l</mi> <mi>j</mi> </msub> <mo>/</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>n</mi> <mi>j</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>11</mn> <mo>)</mo> </mrow> </mrow>

微平均F1值:

<mrow> <mi>M</mi> <mi>i</mi> <mi>c</mi> <mi>r</mi> <mi>o</mi> <mi>F</mi> <mn>1</mn> <mo>=</mo> <mfrac> <mrow> <mi>M</mi> <mi>i</mi> <mi>c</mi> <mi>r</mi> <mi>o</mi> <mi>P</mi> <mo>&times;</mo> <mi>M</mi> <mi>i</mi> <mi>c</mi> <mi>r</mi> <mi>o</mi> <mi>R</mi> <mo>&times;</mo> <mn>2</mn> </mrow> <mrow> <mi>M</mi> <mi>i</mi> <mi>c</mi> <mi>r</mi> <mi>o</mi> <mi>P</mi> <mo>+</mo> <mi>M</mi> <mi>i</mi> <mi>c</mi> <mi>r</mi> <mi>o</mi> <mi>R</mi> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>12</mn> <mo>)</mo> </mrow> </mrow>

实验结果及分析为:文档频率(DF)、信息增益(IG)、互信息(MI)以及CHI统计等特征选择方法在英文文本分类中有着很好的效果。本实验中分别对DF、MI、IG、CHI,以及通过类别特征域进行特征选择的三种算法,即FDBC(采用现有的隶属度函数)、FDBC-N(采用本文提出的新隶属度函数),以及本文方法(互邻特征组合+本文提出的新隶属度函数)共七种方法进行了实验对比。实验中分别比较了七种方法在保留1000,2000,4000,…,14000个特征时,分类系统的分类宏平均准确率、宏平均召回率、宏平均F1值以及微平均F1值。其中特征总数为102734,原始特征有14174个,组合特征有88560个。实验结果分别如表1、表2、图2和图3所示。

表1在不同特征数情况下各特征选择算法对应的宏平均准确率

表2在不同特征数情况下各特征选择算法对应的宏平均召回率

由表1、表2、图2和图3综合可见,对每一组特征集,无论是宏平均值还是微平均值,基于类别特征域进行特征选择的三种方法(FDBC、FDBC-N、本发明方法)在文本分类效果和稳定性上均明显高于其它算法,特别是本发明方法和FDBC-N算法,优势尤其明显。之所以会产生这么大的分类效果差距,主要原因有:

(1)本发明方法在进行特征选择之前先用互邻特征组合算法对原始特征空间进行了处理。在生成短语特征的同时扩展了特征空间,使特征数量由14174个扩展到了102734个,这就使得后面在进行特征选择时,有了更多的选择空间。

(2)DF、MI、CHI等算法是以包含某一特征的文档数为衡量标准对特征进行约减,保留特征越少,舍弃的特征越多,很多有利于提升分类效果的特征被丢弃,导致分类的效果有较大落差。并且案件短文本本身就特征稀疏,这样特征选择后会使数据稀疏问题更加严重。而基于类别特征域的特征选择算法在特征约减时,是将特征替换为相应的类标识码并加权,过程中并没有直接移除特征,不但没有信息的丢失,而且在很大程度上解决了数据稀疏问题,所以保留特征的数量对分类性能的影响不大。

(3)本发明中新的隶属度函数充分考虑了类内类间分散度和词频因素。在构造类别特征域时明显要比只考虑文档数目的互信息的方法好很多。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1