一种基于有向无环图支持向量机的电网业务分类方法

文档序号:9433304阅读:332来源:国知局
一种基于有向无环图支持向量机的电网业务分类方法
【技术领域】
[0001] 本发明涉及电网业务分类领域,具体涉及一种基于有向无环图支持向量机的电网 业务分类方法。
【背景技术】
[0002] 随着智能电网和"三集五大"建设的深入进行,电网中承载的业务种类日益增多, 趋于复杂多变,为更好地对业务进行管控,优化网络资源配置,为不同的业务定制个性化需 求,必须对业务进行分类处理。
[0003] 支持向量机(Support Vector Machine, SVM)方法在小样本、非线性及高维分类问 题上具有优势,支持向量机分类的关键是寻求最优分类超平面。一般将数据分为训练集与 测试集,通过训练集确定最优分类边界,得到分类模型,再将测试集输入分类模型中,即可 得到分类结果,但是支持向量机分类本质上是解决二分类问题的方法,而电网业务分类是 多分类问题,如何将SVM二分类问题有效扩展以解决多分类问题是目前研究的重点之一。 Platt等人提出的有向无环图支持向量机(Directed Acyclic Graphs Support Vector Machine, DAG-SVM)为解决上述问题提供了一个简单可行的措施:利用有向无环图构造一 种学习结构,并以此学习结构对二分类SVM分类器进行选择、组合,最终得到分类结果。但 是,DAG-SVM方法存在误差累积的现象,即:某个节点发生的分类错误会延续到下层节点, 直至最终分类错误,因此有必要对其加以改进。

【发明内容】

[0004] 针对现有技术的不足,本发明提供一种基于有向无环图支持向量机的电网业务分 类方法,对传统的DAG - SVM算法进行了改进,解决了解决传统DAG - SVM算法存在的误差累 积问题,能够有效的提高电网业务识别的准确率。
[0005] 本发明的目的是采用下述技术方案实现的:
[0006] -种基于有向无环图支持向量机的电网业务分类方法,其改进之处在于,所述方 法包括:
[0007] (1)采集电网数据并对电网数据进行预处理,将预处理后的电网数据分为训练集 和测试集;
[0008] (2)获取所述训练集的初始特征选择向量;
[0009] (3)采用卡方检验的特征选择算法对所述训练集进行处理,获取所述训练集对应 的最优特征集ξ,并根据所述训练集对应的最优特征集ξ更新所述训练集;
[0010] (4)将所述训练集的类别集a = [ai,a2, . . . .,aj中每两类的样本组合为一个训练 子集并将该训练子集训练为一个SVM二分类器,共
个SVM二分类器,c为所述训练集 类别的总数目;
[0011] (5)初始化参数i = 1,j = c,令&1为SVM二分类器的正类,a为SVM二分类器的 负类,a声& a,构建SVM二分类器的有向无环图学习结构,设置阈值ε,根据测 试集中样本至SVM二分类器的分类超平面距离d逐一排除所述测试集中样本属于类别集a 中类别的可能性;
[0012] (6)调整所述有向无环图学习结构;
[0013] (7)判断是否为i < j,若是,则返回步骤(5),若否则执行步骤⑶;
[0014] (8)判断所述类别集a中类别数是否未减小,若是,则调整所述阈值ε并返回步骤 (5),若否则执行步骤(9);
[0015] (9)判断所述类别集a中类别数是否为1,若是,则所述类别集a中类别为所述测 试集中样本的类别,若否,则返回步骤(5)。
[0016] 优选的,所述步骤(1)包括:
[0017] (1-1)剔除电网数据中错误数据或维度不完整数据;
[0018] (1-2)删除电网数据中类的样本数小于30的类;
[0019] (1-3)电网数据中类的样本数大于500的类,从该类中选择250个加入训练集;
[0020] (1-4)电网数据中类的样本数大于30且小于500的类,从该类中选择一半加入训 练集,另一半加入测试集。
[0021] 优选的,所述步骤(3)包括:
[0022] (3-1)根据所述训练集中特征和类别的相关程度X 2获取所述训练集对应的最优 特征集ξ,其中,所述训练集的初始特征选择向量L中第m个特征Lm和所述训练集的类别 集a中第η个类别an的相关程度&的计算公式为:
[0024] 式(1)中,N为所述训练数据集中样本总数,A为属于&"类且包含L "的样本数,B 为不属于\类且包含L "的样本数,C为属于a "类且包含L "的样本数,D是不属于a n类且不 包含Lni的样本数,n e [l,c],c为所述训练集类别的总数目,me [l,t],t为所述训练集 业务流特征数;
[0025] (3-2)根据所述训练集对应的最优特征集ξ更新所述训练集的样本集X,公式 为:
[0027] 式(2)中,X'为更新后所述训练集的样本集。
[0028] 优选的,所述步骤(5)包括:
[0029] (5-1)获取所述测试集中样本至SVM二分类器的分类超平面距离d,公式为:
[0031] 式⑶中,f(x)为支持向量机决策函数,ω为支持向量机决策函数的系数 值,Il ω Il为ω的二范数;
[0032] (5-2)若所述测试集中样本至SVM二分类器的分类超平面距离d大于正阈值ε, 则删除该SVM二分类器的负类&]对应所述类别集a中的类别;若所述测试集中样本至SVM 二分类器的分类超平面距离d小于负阈值ε,则删除该SVM二分类器的正类&1对应所述类 别集a中的类别;若所述测试集中样本至SVM二分类器的分类超平面距离d大于负阈值ε 且小于正阈值ε,则不对所述类别集a进行处理。
[0033] 优选的,所述步骤(6)包括:
[0034] 若所述测试集中样本至SVM二分类器的分类超平面距离d大于正阈值ε,则j = j_l,若所述测试集中样本至SVM二分类器的分类超平面距离d小于负阈值ε,则i = i+1, 若所述测试集中样本至SVM二分类器的分类超平面距离d大于负阈值ε且小于正阈值ε 且f (X) > 〇,则j = j_l,若所述测试集中样本至SVM二分类器的分类超平面距离d大于负 阈值ε且小于正阈值ε且f(x) < 〇,则i = i+1,j = length(a),其中,f(x)为支持向量 机决策函数。
[0035] 优选的,所述步骤(8)中,调整所述阈值ε包括:阈值减半。
[0036] 与最接近的现有技术相比,本发明具有的有益效果:
[0037] 本发明提供一种基于有向无环图支持向量机的电网业务分类方法,能够利用 DAG-SVM算法,在分类错误概率小的分类器中进行分类判决,排除样本属于某类的可能性, 而在分类错误概率大的分类器中的两个类别都保留,并以此为依据调整有向无环图构造的 学习结构,对电网采集数据进行处理,直至获取测试集样本的分类结果,解决了解决传统 DAG-SVM算法存在的误差累积问题,能够有效的提高电网业务识别的准确率。
【附图说明】
[0038] 图1是本发明提供的一种基于有向无环图支持向量机的电网业务分类方法流程 图;
[0039] 图2是调整有向无环图学习结构的具体流程图。
【具体实施方式】
[0040] 下面结合附图对本发明的【具体实施方式】作进一步的详细说明。
[0041] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例 中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是 本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员 在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0042] 传统DAG-SVM在每一子层的分类器分类后都会排除样本属于某类的可能性,不考 虑分类错误概率,若发生分类错误,下层节点会延续这一错误,导致最终分类错误,本发明 提供了一种基于有向无环图支持向量机的电网业务分类方法,如图1所示,在分类错误概 率小的情况下,分类器进行分类判决,排除样本属于某类的可能性,而在分类错误概率较大 时,虽不改变下一子层的走向,但是并不判断待分类样本不属于哪一类,即将两类类别都保 留至下一子层,因此在下面的子层里会有机会纠正上层节点分类发生的错误,具体步骤包 括:
[0043] (1)采集电网数据并对电网数据进行预处理,将预处理后的电网数据分为训练集 和测试集;
[0044] (2)获取所述训练集的初始特征选择向量;
[0045] (3)采用卡方检验的特征选择算法对所述训练集进行处理,获取所述训练集对应 的最优特征集ξ,并根据所述训练集对应的最优特征集ξ更新所述训练集;
[0046] (4)将所述训练集的类别集a = [ai,a2, . . . .,aj中每两类的样本组合为一个训练 子集并将该训练子集训练为一个SVM二分类器,共
_ ASVM二分类器,c为所述训练集 类别的总数目;
[0047] (5)初始化参数i = 1,j = c,令&1为SVM二分类器的正类,a」为SVM二分类器的 负类,a声& a,构建SVM二分类器的有向无环图学习结构,设置阈值ε,根据测 试集中样本至SVM二分类器的分类超平面距离d逐一排除所述测试集中样本属于类别集a 中类别的可能性;
[0048] (6)调整所述有向无环图学习结构;
[0049] (7)判断是否为i < j,若是,则返回步骤(5),若否则执行步骤⑶;
[0050] (8)判断所述类别集a中类别数是否未减小,若是,则调整所述阈值ε并返回步骤 (5),若否则执行步骤(9);
[0051] (9)判断所述类别集a中类别数是否为1,若是,则所述类别集a中类别为所述测 试集中样本的类
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1