本发明涉及智慧城市技术领域,具体涉及一种决策树算法和贝叶斯算法相结合的突发事件分类分级方法、装置及系统。
背景技术:
在公共安全指挥控制领域,预案及历史方案的匹配时提高事件处置效率的关键步骤。预案及历史方案的匹配依赖于事件的分类分级。当前,国内外对突发事件分级分类通常有两种形式:一是纯人工判定,根据历史突发事件情况,人工总结出相关核心特征,形成指标体系,当新的突发事件到来时,依据指标,人工判断事件的类型和级别;二是人工+自动判定,首先通过人工总结出突发事件核心特征,形成指标体系,当新的突发事件到来时,交由机器来计算事件的类型和级别。
现有的处理突发事件分级分类的方法,都是利用传统的机器学习技术,比如贝叶斯网络、svm支持向量机算法、模糊决策法等。然而,这些方法在在一定程度上适用范围窄,准确度比较低,不能使用现有的突发事件分类分级的需求。
技术实现要素:
针对现有技术存在的缺陷,本发明提供了一种基于决策树算法和贝叶斯算法的突发事件分类分级方法、装置及系统,有效弥补了决策树算法对连续性的字段比较难预测,当类别太多时,错误可能就会增加和在处理特征关联性比较强的数据时表现得不太好的缺点。
本发明的一个目的是提供了一种基于决策树算法和贝叶斯算法的突发事件分类分级方法,其特征在于,包括:
s1、对预先分级分类事件库进行特征划分,构建训练样本集;
s2、根据训练样本集,分别利用id3算法、c4.5算法、cart算法,构建三个决策树分类分级模型;
s3、根据训练样本集,构建并训练贝叶斯分类器;
s4、对待分类分级事件进行关键特征属性提取;
s5、根据事件特征属性利用三个决策树模型进行分类,得出三个分类结果;
s6、根据事件特征属性利用贝叶斯分类器对s5中的三个分类结果计算该类别的概率,取概率最高的作为最终分类结果。
其中,所述突发事件分级分类具体包括:
所述突发事件分成自然灾害、事故灾难、公共安全事件和社会安全事件四类;
所述突发事件分级性质、严重程度、可控性和影响范围四个因素分为特别重大、重大、较大和一般四个等级。
其中,所述步骤s2中利用id3算法构建决策树模型,具体包括:
计算每个事件的每个属性的信息增益;
选择信息增益最大的特征属性作为最终的分裂点进行分支划分。
其中,所述计算待分类分级事件的每个属性的信息增益,具体包括:
计算每个事件的每个属性的期望值;
根据所述期望值计算每个属性的期望信息需求;
根据所述期望信息需求分别计算每个属性的信息增益。
其中,所述步骤s2中利用c4.5算法构建决策树分类分级模型,具体包括:
计算每个事件的每个属性的信息增益;
根据所述信息增益,计算每个属性的信息增益率;
选择信息增益率最大的特征属性作为分裂点进行分支划分。
其中,所述步骤s2中利用cart算法构建决策树分类分级模型,具体包括:
计算每个事件的每个属性的不纯度;
根据所述每个属性的不纯度,计算每个分支的gini指数;
选取每个分支的gini指数最小的特征属性进行分支划分,得到cart决策树模型。
其中,所述步骤s3具体包括:
基于训练样本集,根据贝叶斯定理构建贝叶斯分类分级器;
利用贝叶斯分类分级器计算各事件特征属性在各分类分级结果的条件概率,对所述贝叶斯分类分级器进行训练。
其中,所述步骤s4具体包括:
利用中文分词技术对待分类分级事件进行关键特征属性提取;。
其中,所述步骤s4具体包括:
根据样本集中事件的特征属性划分,对事件采用分词和关键字匹配,抽取待分类分级事件的关键特征属性。
本发明又一个方面,提供一种基于决策树算法和贝叶斯算法的突发事件分类分级装置,其特征在于,包括:
训练样本集构建模块,用于训练对预先分级分类事件库进行特征划分,构建训练样本集;
决策树分类分级模型构建模块,用于根据构建的训练样本集,分别利用id3算法、c4.5算法、cart算法,构建三个决策树分类分级模型;
分类器构建模块,用于根据训练样本集,构建并训练贝叶斯分类器;
特征提取模块,用于对待分类分级事件进行关键特征属性提取;
分类模块,用于根据事件特征属性利用决策树分类分级模型构建模块构建的三个决策树分类分级模型进行分类,得出三个分类结果;
分类结果计算模块,用于根据事件特征属性利用贝叶斯分类器对分类模块的三个分类结果计算该类别的概率,获取概率最高的作为最终分类结果。
其中,所述突发事件分级分类具体包括:
所述突发事件分成自然灾害、事故灾难、公共安全事件和社会安全事件四类;
所述突发事件分级性质、严重程度、可控性和影响范围四个因素分为特别重大、重大、较大和一般四个等级。
其中,所述决策树分类分级模型构建模块,具体包括:
id3算法构建单元,用于利用id3算法构建分类分级模型;
c4.5算法构建单元,用于利用c4.5算法构建分类分级模型;
cart算法构建单元,用于利用cart算法构建分类分级模型。
其中,所述id3算法构建单元,具体包括:
信息增益计算单元,用于计算每个事件的每个属性的信息增益;
分支划分单元,用于选择信息增益最大的特征属性作为最终的分裂点进行分支划分。
其中,所述信息增益计算单元,具体包括:
期望值计算子单元,用于计算每个事件的每个属性的期望值;
期望值需求子单元,用于根据所述期望值计算每个属性的期望信息需求;
信息增益计算子单元,用于根据所述期望信息需求分别计算每个属性的信息增益。
其中,所述c4.5算法构建单元,具体包括:
信息增益计算第二子单元,用于计算每个事件的每个属性的信息增益;
信息增益率计算子单元,用于根据所述信息增益,计算每个属性的信息增益率;
分支划分第二子单元,用于选择信息增益率最大的特征属性作为分裂点进行分支划分。
其中,所述cart算法构建决单元,具体包括:
不纯度计算子单元,用于计算每个事件的每个属性的不纯度;
gini指数计算子单元,用于根据所述每个属性的不纯度,计算每个分支的gini指数;
cart决策树模型构建子单元,用于选取每个分支的gini指数最小的特征属性进行分支划分,得到cart决策树模型。
其中,所述分类器构建模块具体包括:
分类器构建单元,用于基于训练样本集,根据贝叶斯定理构建贝叶斯分类分级器;
分类器训练单元,用于利用贝叶斯分类分级器计算各事件特征属性在各分类分级结果的条件概率,对所述贝叶斯分类分级器进行训练。
其中,所述特征提取模块具体地,利用中文分词技术对待分类分级事件进行关键特征属性提取。
其中,所述特征提取模块具体包括:根据样本集中事件的特征属性划分,对事件采用分词和关键字匹配,抽取待分类分级事件的关键特征属性。
本发明的再一个方面,提供一种基于决策树算法和贝叶斯算法的突发事件分类分级系统,其特征在于,包括上述的基于决策树算法和贝叶斯算法的突发事件分类分级装置。
本发明的基于决策树算法和贝叶斯算法的突发事件分类分级方法、装置及系统,能够提升单一算法的分类准确性,有效的弥补了决策树算法对连续性的字段比较难预测,当类别太多时,错误可能就会增加和在处理特征关联性比较强的数据时表现得不太好的缺点。
附图说明
图1示出了本发明基于决策树算法和贝叶斯算法的突发事件分类分级方法的流程图;
图2示出了本发明的基于决策树算法和贝叶斯算法的突发事件分类分级装置的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明,应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
现在将详细参考本发明的实施例,这些实施例的示例在附图中示出。元件的后缀“模块”和“单元”在此用于方便描述,并且因此可以可交换地被使用,而且没有任何可区别的意义或功能。
虽然构成本发明的实施例的所有元件或单元被描述为结合到单个元件中或被操作为单个元件或单元,但是本发明不一定局限于此种实施例。根据实施例,在本发明的目的和范围内所有的元件可以选择性地结合到一个或多个元件并且被操作为一个或多个元件。
本发明的一个实施例中,如图1所示,提供一种基于决策树算法和贝叶斯算法的突发事件分类分级方法,包括:
s1、对预先分级分类事件库进行特征划分,构建训练样本集。
本实施例中,若训练样本集s包含n个事件,将各突发事件按照自然灾害、事故灾难、公共安全事件和社会安全事件4大类22细类进行分类,并按照其性质、严重程度、可控性、影响范围等因素分为4级,即i级(特别重大)、ii级(重大)、iii级(较大)和iv级(一般)。记事件的最终分类分级结果为r,且设每个事件包含m个特征属性t,则每个事件由分类分级结果r与m个特征属性t进行描述,样本集合s如下:
s={t11,t12,...,t1m,r1;ti1,ti2,...,tim,ri;...;tn1,tn2,...,tnm,rn}。
s2、根据训练样本集,分别利用id3算法、c4.5算法、cart算法,构建三个决策树分类分级模型;
(1)训练id3决策树分类分级模型。在决策树的每一个非叶子节点划分之前,先计算每一个属性所带来的信息增益,选择信息增益最大的特征属性作为最终的分裂点进行分支划分,完成一个非叶子节点的划分后继续下一个节点的划分,最终得到id3决策树模型。其中,id3算法得到信患增益分为3个步骤,流程如图2所示。首先,计算d分类分级结果的期望info(d),
(2)训练c4.5决策树分类分级模型。划分决策树非叶子节点时,在id3算法计算信息增益的基础上,计算特征属性ti的信息增益率为
(3)训练cart决策树分类分级模型。决策树划分时,计算不纯度
s3、根据训练样本集,构建并训练贝叶斯分类器。
根据贝叶斯定律,待分类分级事件在特征属性值为t(t=t1,t2,...,tm)的情况下属于某一种类别级别ri的条件概率为
s4、对待分类分级事件进行关键特征属性提取。据样本集中事件的特征属性划分,对事件描述采用分词和关键字匹配方法,抽取出待分类分级事件的特征属性值。
s5、根据事件特征属性利用三个决策树模型进行分类,得出三个分类结果。
本实施例中,分别用id3、c4.5、cart三个决策树分类分级模型,对待分类分级事件进行分类,得到三个分类结果。三个决策树分类分级模型分类分级具体步骤均为:利用决策树分类分级模型,从根节点的事件特征属性开始,测试待分类分级事件提取出的特征属性,并按照其值选择输出分支,依次测试各个节点,直到到达叶子节点,叶子节点的值则为事件的分类分级结果。
s6、根据事件特征属性利用贝叶斯分类器对s5中的三个分类结果计算该类别的概率,取概率最高的作为最终分类结果。
在上述实施例中,若三个决策树分类分级模型得到的结果一致,则跳过本步,直接得到最终分类分级结果;若三个决策树分类分级模型得到不止一个分类分级结果,则对各分类分级结果使用贝叶斯分类器进行检测,分别计算待分类分级事件的特征属性在该分类分级结果下的条件概率,取概率高的作为最终分类分级结果。
在本发明的另一个实施例中,如图2所示,提供一种基于决策树算法和贝叶斯算法的突发事件分类分级装置,具体包括:
训练样本集构建模块10,用于训练对预先分级分类事件库进行特征划分,构建训练样本集;
决策树分类分级模型构建模块20,用于根据构建的训练样本集,分别利用id3算法、c4.5算法、cart算法,构建三个决策树分类分级模型;
分类器构建模块30,用于根据训练样本集,构建并训练贝叶斯分类器;
特征提取模块40,用于对待分类分级事件进行关键特征属性提取;
分类模块50,用于根据事件特征属性利用决策树分类分级模型构建模块构建的三个决策树分类分级模型进行分类,得出三个分类结果;
分类结果计算模块60,用于根据事件特征属性利用贝叶斯分类器对分类模块的三个分类结果计算该类别的概率,获取概率最高的作为最终分类结果。
本发明又一个实施例中,提供一种基于决策树算法和贝叶斯算法的突发事件分类分级系统,包括上述的基于决策树算法和贝叶斯算法的突发事件分类分级装置。
应当理解,在本说明书中描述的功能单元或能力可被称为或标示为组件、模块或系统,以便更具体地强调它们的实现独立。例如,组件、模块或系统可被实现为硬件电路,其包括定制超大规模集成(vlsi)电路或门阵列、现成的半导体,诸如逻辑芯片、晶体管,或其他分立组件。组件或模块还可在可编程硬件设备中实现,诸如场可编程门阵列、可编程阵列逻辑、可编程逻辑设备等。组件或模块还可以在用于由各种类型的处理器执行的软件中实现。例如,可执行代码的识别的组件或模块可以包括一个或多个物理或逻辑的计算机指令,其可以,例如,被组织为对象、程序或功能。然而,所识别的组件或模块不必在物理上定位在一起,而是可以包含存储在不同位置的全异指令,其当逻辑上接合在一起时,包含组件或模块并实现对于组件或模块的规定目的。
应该理解由本领域技术人员通过本发明能够实现的效果并不局限于在上文已特别描述的内容,并且本发明的其它优点从上面的详细描述中将更清楚地理解。
对于本领域技术人员,显然可以在不脱离本发明的精神或范围的情况下在本发明中做出各种修改和变型。因此,本发明旨在如果本发明的修改和变型落入附随权利要求和它们的等同形式的范围内,那么本发明覆盖这些修改和变型。