基于多级决策树的个性化分类流程优化方法和装置与流程

文档序号:32351231发布日期:2022-11-26 13:13阅读:37来源:国知局
基于多级决策树的个性化分类流程优化方法和装置与流程

1.本发明涉及数据处理技术领域,尤其涉及一种基于多级决策树的个性化分类流程优化方法和装置。


背景技术:

2.随着人工智能技术的快速发展,在诸多分类场景,例如工业零件异常检测、异常人群检测、农业病虫害检测、基于医学影像的目标组织识别等领域,存在多种不同的分类方法,例如基于深度学习的图像分类模型、分类决策树模型等。
3.然而,不同分类方法的分类依据可能采用了不同的分类特征,在不同场景下不同分类方法的分类性能可能存在较大差距。因此,选取何种分类方法或者如何组合各种分类方法以达到更好的分类效果将是一个难题。更重要的是,在不同应用场景下,用户对于分类方法的性能要求、成本要求(例如时间成本)的需求不同,对于分类方法的执行能力不同(例如对于基于深度学习的图像分类模型,不同用户对于训练数据的获取的能力不同),不同分类方法在用户处的重要程度也不同。因此如何组合不同分类方法并优化目标分类的流程,使得分类流程在满足分类准确性要求的前提下更满足用户的个性化需求,成为了一个亟待解决的问题。


技术实现要素:

4.本发明提供一种基于多级决策树的个性化分类流程优化方法和装置,用以解决现有技术中难以选择或组合不同的分类方法且无法适应不同应用场景下的特异性需求的缺陷。
5.本发明提供一种基于多级决策树的个性化分类流程优化方法,包括:获取用户输入的待分类目标对应的分类特征,并基于所述待分类目标对应的分类先验知识和分类特征,构建先验多级特征池;接收用户对所述先验多级特征池触发的修改或确认操作,确定个性化多级特征池;所述先验多级特征池和所述个性化多级特征池均包括一个首要特征池和若干个次级特征池;所述先验多级特征池的首要特征池中的分类特征是基于所述分类先验知识确定的使用次数高于预设次数阈值和/或执行优先级高于预设优先级阈值的分类特征;基于所述个性化多级特征池的首要特征池和次级特征池,递归生成个性化分类决策树;所述个性化分类决策树的根节点仅基于所述个性化多级特征池的首要特征池中的分类特征确定;绘制所述个性化分类决策树对应的流程图,并返回所述流程图。
6.根据本发明提供的一种基于多级决策树的个性化分类流程优化方法,所述分类特征包括多个不同的图像分类模型,以及多个所述待分类目标的图像特征提取器和/或多个所述待分类目标的属性特征提取器;所述图像分类模型用于对待识别图像进行图像识别以确定待识别图像中所述待分类目标的类型,所述图像特征提取器用于提取所述待分类目标
在待识别图像中的图像特征,所述属性特征提取器用于提取所述待分类目标在待识别图像中的统计特征以及所述待分类目标的分类辅助信息。
7.根据本发明提供的一种基于多级决策树的个性化分类流程优化方法,所述基于所述个性化多级特征池的首要特征池和次级特征池,递归生成个性化分类决策树,具体包括:根节点确定步骤:基于所述个性化多级特征池的首要特征池中不为历史根节点的分类特征,确定所述个性化分类决策树的当前根节点对应的分类特征;内部节点确定步骤:基于所述个性化多级特征池的首要特征池中当前根节点以外的其他分类特征和次级特征池中的分类特征,递归确定所述个性化分类决策树的内部节点对应的分类特征;决策树评估步骤:基于所述个性化分类决策树中各个节点对应的分类特征的分类成本,确定所述个性化分类决策树中各个分类流程的分类总成本;若任一分类流程的分类总成本不满足用户输入的成本约束条件,则重复执行所述根节点确定步骤和所述内部节点确定步骤,直至生成的个性化分类决策树中各个分类流程的分类总成本均满足所述成本约束条件。
8.根据本发明提供的一种基于多级决策树的个性化分类流程优化方法,所述基于所述个性化多级特征池的首要特征池中当前根节点以外的其他分类特征和次级特征池中的分类特征,递归确定所述个性化分类决策树的内部节点对应的分类特征,具体包括:确定所述个性化多级特征池的首要特征池和次级特征池中除当前节点的祖先节点对应的分类特征以外的分类特征,作为当前节点的候选分类特征;计算所述当前节点的各个候选分类特征的分类成本以及所述各个候选分类特征对应的划分增益;其中,任一候选分类特征对应的划分增益是利用所述任一候选分类特征对训练样本进行分类后,通过计算分类结果对应的信息熵、信息增益、信息增益率或基尼系数得到的;基于所述各个候选分类特征的分类成本及其对应的划分增益,确定所述当前节点对应的分类特征。
9.根据本发明提供的一种基于多级决策树的个性化分类流程优化方法,所述基于所述各个候选分类特征的分类成本及其对应的划分增益,确定所述当前节点对应的分类特征,之后还包括:若所述当前节点对应的划分增益满足预设增益约束或所述当前节点的深度已经达到用户输入的最大深度,则将所述当前节点置为叶子节点。
10.根据本发明提供的一种基于多级决策树的个性化分类流程优化方法,任一分类特征的分类成本是利用所述任一分类特征进行分类所花费的时间成本;所述任一分类特征的分类成本是基于利用所述任一分类特征对各个训练样本进行分类所花费的时间均值确定的。
11.根据本发明提供的一种基于多级决策树的个性化分类流程优化方法,所述基于所述个性化多级特征池的首要特征池和次级特征池,递归生成个性化分类决策树,具体包括:基于测试样本确定当前生成的个性化分类决策树的分类性能以及所述个性化多级特征池中各个分类特征的单类别分类性能;若当前生成的个性化分类决策树的分类性能低于所述个性化多级特征池中任一
分类特征的单类别分类性能,则对当前生成的个性化分类决策树进行剪枝优化,得到优化后的个性化分类决策树;若所述优化后的个性化分类决策树的分类性能仍低于所述个性化多级特征池中任一分类特征的单类别分类性能,则向用户推送特征池调整信息;接收用户对所述个性化多级特征池触发的调整操作,确定更新后的个性化多级特征池,并基于所述更新后的个性化多级特征池的首要特征池和次级特征池,递归生成下一个性化分类决策树。
12.本发明还提供一种基于多级决策树的个性化分类流程优化装置,包括:先验信息构建单元,用于获取用户输入的待分类目标对应的分类特征,并基于所述待分类目标对应的分类先验知识和分类特征,构建先验多级特征池;个性化信息构建单元,用于接收用户对所述先验多级特征池触发的修改或确认操作,确定个性化多级特征池;所述先验多级特征池和所述个性化多级特征池均包括一个首要特征池和若干个次级特征池;所述先验多级特征池的首要特征池中的分类特征是基于所述分类先验知识确定的使用次数高于预设次数阈值和/或执行优先级高于预设优先级阈值的分类特征;决策树生成单元,用于基于所述个性化多级特征池的首要特征池和次级特征池,递归生成个性化分类决策树;所述个性化分类决策树的根节点仅基于所述个性化多级特征池的首要特征池中的分类特征确定;个性化流程图绘制单元,用于绘制所述个性化分类决策树对应的流程图,并返回所述流程图。
13.本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于多级决策树的个性化分类流程优化方法。
14.本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于多级决策树的个性化分类流程优化方法。
15.本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述基于多级决策树的个性化分类流程优化方法。
16.本发明提供的基于多级决策树的个性化分类流程优化方法和装置,通过用户输入的待分类目标以及待分类目标的类型范围获取适配的分类特征,基于待分类目标对应的分类先验知识和分类特征,构建先验多级特征池,其中先验多级特征池的首要特征池中的分类特征是基于分类先验知识确定的使用次数高于预设次数阈值和/或执行优先级高于预设优先级阈值的分类特征;随后,用户可以对先验多级特征池进行调整,调整时可以增加或删除首要特征池中的分类特征,从而使得后续生成的分类流程尽可能满足用户对于某些分类特征的必需性以及执行优先级的需求,实现个性化的分类流程优化,使得生成的分类流程可以适应各类应用场景下特异的个性化需求;递归生成个性化分类决策树时,每次生成根节点时均从首要特征池中选择相应的分类特征,优化个性化分类决策树对应的分类流程,在兼顾分类准确性和用户个性化需求的目标指引下进行分类模型的筛选和执行顺序的确定,实现了不同分类方法的个性化融合。
附图说明
17.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
18.图1是本发明提供的基于多级决策树的个性化分类流程优化方法的流程示意图;图2是本发明提供的个性化分类决策树生成方法的流程示意图之一;图3是本发明提供的内部节点确定方法的流程示意图;图4是本发明提供的个性化分类决策树生成方法的流程示意图之二;图5是本发明提供的基于多级决策树的个性化分类流程优化装置的结构示意图;图6是本发明提供的电子设备的结构示意图。
具体实施方式
19.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
20.图1是本发明提供的基于多级决策树的个性化分类流程优化方法的流程示意图,如图1所示,该方法包括:步骤110,获取用户输入的待分类目标对应的分类特征,并基于所述待分类目标对应的分类先验知识和分类特征,构建先验多级特征池;步骤120,接收用户对所述先验多级特征池触发的修改或确认操作,确定个性化多级特征池;所述先验多级特征池和所述个性化多级特征池均包括一个首要特征池和若干个次级特征池;所述先验多级特征池的首要特征池中的分类特征是基于所述分类先验知识确定的使用次数高于预设次数阈值和/或执行优先级高于预设优先级阈值的分类特征;步骤130,基于所述个性化多级特征池的首要特征池和次级特征池,递归生成个性化分类决策树;所述个性化分类决策树的根节点仅基于所述个性化多级特征池的首要特征池中的分类特征确定;步骤140,绘制所述个性化分类决策树对应的流程图,并返回所述流程图。
21.具体地,用户可以通过人机交互接口输入需要确定个性化分类流程的待分类目标以及待分类目标的类型范围。例如,在工业零件异常检测场景下,用户可以输入工业零件名称作为待分类目标,并输入异常和非异常作为待分类目标的类型范围。在基于医学影像的目标组织识别场景下,用户可以输入需要被识别的组织,例如肺部血管、团块组织等,并输入目标组织和背景作为待分类目标的类型范围。当系统接收到用户输入的上述信息后,可以根据上述信息从数据库中读取待分类目标对应的分类特征。其中,待分类目标对应的分类特征用于对待分类目标进行图像分类,以确认待分类目标的类型(该类型为待分类目标的类型范围中的一种)。分类特征可以包括多个不同的分类模型,上述不同的分类模型可以是模型结构不同、模型参数不同或是模型输入不同等,本发明实施例对此不作具体限定。在后续生成个性化分类决策树的过程中对分类特征的选择和根节点至叶子节点的排序,可以
在兼顾分类准确性和用户个性化需求的目标指引下进行分类模型的筛选和执行顺序的确定,实现了不同分类模型的个性化融合。分类模型与待分类目标及其类型范围强相关,因此可以预先将待分类目标及其类型范围与其适用的各个分类模型的模型数据建立关联并存储至数据库中。
22.随后,基于待分类目标对应的分类先验知识和分类特征,构建先验多级特征池。此处,待分类目标对应的分类先验知识中包括本分类场景下常用的分类特征的使用频率、性能,以及领域专家评估出的各个分类特征的执行优先级等,其可以预先从领域文本(例如医学文本,如医学论文、医学标准等)通过自然语言处理方式获取得到,并将其存储于数据库中以便随时调用。分类先验知识可以为各个分类特征的筛选和组合以及确定筛选出的分类特征的执行顺序提供更多的领域知识,有助于提升后续生成的分类流程的分类效果,为生成的个性化分类流程提供较高分类准确性的基础前提。因此,可以基于待分类目标对应的分类先验知识和分类特征,构建包含一个首要特征池和若干个次级特征池的先验多级特征池。
23.其中,先验多级特征池的首要特征池中的分类特征是基于分类先验知识确定的使用次数高于预设次数阈值(即使用更频繁)和/或执行优先级高于预设优先级阈值(即执行顺序更靠前)的分类特征,次级特征池中的分类特征则可以是其余常用的分类特征,且首要特征池中的各个分类特征之间没有顺序关系,次级特征池中的各个分类特征之间也没有顺序关系。当次级特征池有多个时,也可以根据使用次数和/或执行优先级进行分级存储,将使用次数和/或执行优先级较高(但低于首要特征池中分类特征的使用次数和/或执行优先级)的分类特征置于等级较高的次级特征池中。可见,首要特征池中的分类特征是分类先验知识指示的使用频率较高和/或优先执行的较重要的分类特征,在后续的分类流程优化过程中,首要特征池中的分类特征将被优先考虑,从而保证分类流程的分类准确性。
24.先验多级特征池构建完毕后,用户还可以基于人机交互接口对该先验多级特征池进行调整,调整时可以增加或删除首要特征池中的分类特征,从而使得后续生成的分类流程尽可能满足用户对于某些分类特征的必需性以及执行优先级的需求,实现个性化的分类流程优化,使得生成的分类流程可以适应各类应用场景下特异的个性化需求。此处,为了保证分类先验知识的有效性从而确保分类流程的分类准确性,可以对首要特征池中被分类先验知识指示为较重要的分类特征进行限制修改处理。待接收到用户对先验多级特征池触发的修改或确认操作后,可以根据用户的修改或确认操作确定个性化多级特征池。其中,若用户触发了修改操作,则基于用户对先验多级特征池的修改确定个性化多级特征池;若用户触发了确认操作,则个性化多级特征池与先验多级特征池相同。
25.基于上述生成的个性化多级特征池的首要特征池和次级特征池,递归生成个性化分类决策树。其中,在生成个性化分类决策树的过程中,个性化分类决策树的根节点仅基于个性化多级特征池的首要特征池中的分类特征确定。即,递归生成个性化分类决策树时,每次生成根节点时均从首要特征池中选择相应的分类特征。通过从个性化多级特征池的首要特征池中选择分类特征以生成个性化分类决策树的根节点,一方面可以保证优化后的分类流程中无论是哪一分支走向都必然会使用根节点对应的分类特征(即首要特征池中的某一分类特征)对待分类目标进行分类,另一方面也可以利用决策树的根节点的重要性提升首要特征池中分类特征的执行优先级,使得首要特征池中重要的分类特征可以优先执行,从
而优化个性化分类决策树对应的分类流程,提升其分类流程的分类准确性,同时满足用户对于某些分类特征的必需性以及执行优先级的需求。根据生成的个性化分类决策树中各节点之间的连接关系,可以绘制该决策树对应的流程图,并将该流程图返回给用户,完成待分类目标的分类流程的个性化优化处理。
26.本发明实施例提供的方法,通过用户输入的待分类目标以及待分类目标的类型范围获取适配的分类特征,基于待分类目标对应的分类先验知识和分类特征,构建先验多级特征池,其中先验多级特征池的首要特征池中的分类特征是基于分类先验知识确定的使用次数高于预设次数阈值和/或执行优先级高于预设优先级阈值的分类特征;随后,用户可以对先验多级特征池进行调整,调整时可以增加或删除首要特征池中的分类特征,从而使得后续生成的分类流程尽可能满足用户对于某些分类特征的必需性以及执行优先级的需求,实现个性化的分类流程优化,使得生成的分类流程可以适应各类应用场景下特异的个性化需求;递归生成个性化分类决策树时,每次生成根节点时均从首要特征池中选择相应的分类特征,优化个性化分类决策树对应的分类流程,在兼顾分类准确性和用户个性化需求的目标指引下进行分类模型的筛选和执行顺序的确定,实现了不同分类方法的个性化融合。
27.基于上述实施例,所述分类特征包括多个不同的图像分类模型,以及多个所述待分类目标的图像特征提取器和/或多个所述待分类目标的属性特征提取器;所述图像分类模型用于对待识别图像进行图像识别以确定待识别图像中所述待分类目标的类型,所述图像特征提取器用于提取所述待分类目标在待识别图像中的图像特征,所述属性特征提取器用于提取所述待分类目标在待识别图像中的统计特征以及所述待分类目标的分类辅助信息。
28.具体地,不同场景下不同分类方法的分类性能可能存在较大差距,并且在不同应用场景下,用户对于分类方法的性能要求、成本要求的需求不同,对于分类方法的执行能力不同,不同分类方法在用户处的重要程度也不同。因此,为了兼顾分类准确性和用户个性化需求,可以将多个不同的图像分类模型,以及多个待分类目标的图像特征提取器和/或多个待分类目标的属性特征提取器配置为分类特征参与到后续的个性化分类决策树生成过程中,实现不同分类模型的个性化融合。
29.其中,图像分类模型用于对待识别图像进行图像分类并输出待识别图像中待分类目标的类型,即图像分类模型的输入可以是包含待识别目标的图像,而图像分类模型的输出则是待识别图像中待分类目标的类型。图像特征提取器用于提取待分类目标在待识别图像中的某一类图像特征,例如待分类目标在待识别图像中的纹理、密度或颜色等特征,该图像特征可以作为图像分类的依据。多个图像特征提取器可以用于提取不同类型的图像特征。属性特征提取器用于提取待分类目标在待识别图像中的某一类统计特征,例如待识别图像中待分类目标的尺寸、位置或数量等特征,以及提取该待分类目标的分类辅助信息。其中分类辅助信息可以是当前应用场景下有助于提高分类精度的其他辅助信息,例如在医学场景下,分类辅助信息可以是从病历中提取的性别、年龄、吸烟史、家族史等临床信息,在工业零件异常检测场景下,分类辅助信息可以是零件的生产环境信息等。该统计特征和分类辅助信息同样可以作为图像分类的依据。多个属性特征提取器可以用于提取不同类型的统计特征和分类辅助信息。通过将多个不同的图像分类模型,以及多个待分类目标的图像特征提取器和/或多个待分类目标的属性特征提取器配置为分类特征参与到后续的个性化分
类决策树生成过程中,可以实现多类型、多维度的模型在分类过程中的融合,从而可以从不同维度自主选择适配的模型并确定各模型的执行顺序,进一步提升优化后的分类流程的准确性。
30.基于上述任一实施例,步骤130具体包括:根节点确定步骤:基于所述个性化多级特征池的首要特征池中不为历史根节点的分类特征,确定所述个性化分类决策树的当前根节点对应的分类特征;内部节点确定步骤:基于所述个性化多级特征池的首要特征池中当前根节点以外的其他分类特征和次级特征池中的分类特征,递归确定所述个性化分类决策树的内部节点对应的分类特征;决策树评估步骤:基于所述个性化分类决策树中各个节点对应的分类特征的分类成本,确定所述个性化分类,决策树中各个分类流程的分类总成本;若任一分类流程的分类总成本不满足用户输入的成本约束条件,则重复执行所述根节点确定步骤和所述内部节点确定步骤,直至生成的个性化分类决策树中各个分类流程的分类总成本均满足所述成本约束条件。
31.具体地,如图2所示,在递归生成个性化分类决策树时主要包括根节点确定步骤和内部节点(即个性化分类决策树中根节点以外的节点)确定步骤。其中,在确定根节点时,可以从个性化多级特征池的首要特征池中不为历史根节点(即在递归生成个性化分类决策树时曾被选作根节点)的分类特征中选取分类性能最优的分类特征作为当前根节点对应的分类特征。其中,任一分类特征的分类性能可以通过该分类特征的划分增益确定,而划分增益的确定将在后续实施例中进行介绍。确定根节点之后,可以基于个性化多级特征池的首要特征池中当前根节点以外的其他分类特征以及次级特征池中的分类特征,递归确定个性化分类决策树的内部节点对应的分类特征。
32.由于不同应用场景下用户对于分类流程的分类成本(例如时间成本)的承受能力不同,例如部分应用场景下对于分类的效率要求较高,因此,在当前个性化分类决策树中的各个节点均确定完毕后,为了进一步优化个性化分类决策树的分类流程使其更贴近用户需求,可以根据用户预先输入的成本约束条件对当前生成的个性化分类决策树进行评估,在评估不通过时重新生成个性化分类决策树,以兼顾最终优化得到的分类流程的性能和效率。具体而言,可以基于当前个性化分类决策树中各个节点对应的分类特征的分类成本,确定个性化分类决策树中各个分类流程的分类总成本。其中,个性化分类决策树的任一分类路径(即从根节点到任一叶子节点的路径)对应一个分类流程,一个分类流程的分类总成本由该分类流程对应的分类路径上每一个节点对应的分类特征的分类成本累加得到。若任一分类流程的分类总成本不满足用户输入的成本约束条件,则重复执行上述根节点确定步骤和内部节点确定步骤以重新生成个性化分类决策树,直至生成的个性化分类决策树中各个分类流程的分类总成本均满足成本约束条件为止。
33.此外,为了尽量减少重复生成个性化分类决策树的次数,使得生成的个性化分类决策树中各个分类流程的分类总成本尽快满足成本约束条件,在构建先验多级特征池和个性化多级特征池时,可以综合考虑各个分类特征的使用次数、执行优先级以及分类成本,将使用次数多、执行优先级高以及分类成本低的分类特征优先置于首要特征池中,以避免在生成个性化分类决策树的节点时选择分类成本过大的分类特征。
34.基于上述任一实施例,如图3所示,所述基于所述个性化多级特征池的首要特征池中当前根节点以外的其他分类特征和次级特征池中的分类特征,递归确定所述个性化分类决策树的内部节点对应的分类特征,具体包括:步骤310,确定所述个性化多级特征池的首要特征池和次级特征池中除当前节点的祖先节点对应的分类特征以外的分类特征,作为当前节点的候选分类特征;步骤320,计算所述当前节点的各个候选分类特征的分类成本以及所述各个候选分类特征对应的划分增益;其中,任一候选分类特征对应的划分增益是利用所述任一候选分类特征对训练样本进行分类后,通过计算分类结果对应的信息熵、信息增益、信息增益率或基尼系数得到的;步骤330,基于所述各个候选分类特征的分类成本及其对应的划分增益,确定所述当前节点对应的分类特征。
35.具体地,为了生成更贴合用户个性化需求的个性化分类决策树,同时尽可能提升个性化分类决策树的生成效率,除了在个性化分类决策树生成之后进行评估并判断是否需要重新生成个性化分类决策树之外,还可以在确定个性化分类决策树的内部节点时即考虑各分类特征的分类成本,以降低重新生成个性化分类决策树的次数。
36.此处,对于待确定的当前节点,可以确定个性化多级特征池的首要特征池和次级特征池中除当前节点的祖先节点对应的分类特征以外的分类特征,作为当前节点的候选分类特征。为了保证个性化分类决策树的分类准确性,除了各个候选分类特征的分类成本以外,还可以计算当前节点的各个候选分类特征对应的划分增益。其中,任一候选分类特征对应的划分增益表征了该候选分类特征的分类性能,其可以利用该候选分类特征对训练样本进行分类后,通过计算分类结果对应的信息熵、信息增益、信息增益率或基尼系数得到。另外,任一分类特征的分类成本是利用该分类特征进行分类所花费的时间成本。以某一图像分类模型为例,该分类特征的分类成本可以包括将待识别图像输入至该图像分类模型之后直至该图像分类模型输出相应的分类结果的等待时间,还可以包括该图像分类模型的训练时间。任一分类特征的分类成本可以基于利用该分类特征对各个训练样本进行分类所花费的时间均值确定得到。
37.基于各个候选分类特征的分类成本及其对应的划分增益,可以综合确定当前节点对应的分类特征。其中,通过综合考量候选分类特征的分类成本及其对应的划分增益,可以筛选出分类成本更低且划分增益更优的候选分类特征作为当前节点对应的分类特征。例如,可以为分类成本和划分增益分别设定相应的权重(权重可以依据实际需求设定,当应用场景偏向于分类成本时,分类成本的权重更高,当应用场景偏向于分类性能时,划分增益的权重更高),以融合任一候选分类特征的分类成本和划分增益,再基于各个候选分类特征的融合结果筛选出当前节点对应的分类特征。在各个候选分类特征的融合结果的基础上,还可以再增加首要特征池的考量,在融合结果近似的情况下优先选择个性化多级特征池的首要特征池中的候选分类特征,使得个性化分类决策树的分类流程的分类准确性较高的同时更贴近用户需求,而在融合结果相差较大时优先选择融合结果更优的候选分类特征以确保分类准确性。具体而言,当前节点的深度越小、距离根节点越近,当各个候选分类特征的融合结果相似(例如差异小于预设阈值)时,则有越大的概率从首要特征池中选择分类特征;相应地,当前节点的深度越大、距离根节点越远,当各个候选分类特征的融合结果相似(例
如差异小于预设阈值)时,从首要特征池中选择分类特征的概率与从次级特征池中选择分类特征的概率越接近。
38.确定当前节点对应的分类特征之后,若当前节点对应的划分增益满足预设增益约束或当前节点的深度已经达到用户输入的最大深度,则可以将当前节点置为叶子节点。
39.基于上述任一实施例,如图4所示,步骤130具体包括:步骤131,基于测试样本确定当前生成的个性化分类决策树的分类性能以及所述个性化多级特征池中各个分类特征的单类别分类性能;步骤132,若当前生成的个性化分类决策树的分类性能低于所述个性化多级特征池中任一分类特征的单类别分类性能,则对当前生成的个性化分类决策树进行剪枝优化,得到优化后的个性化分类决策树;步骤133,若所述优化后的个性化分类决策树的分类性能仍低于所述个性化多级特征池中任一分类特征的单类别分类性能,则向用户推送特征池调整信息;步骤134,接收用户对所述个性化多级特征池触发的调整操作,确定更新后的个性化多级特征池,并基于所述更新后的个性化多级特征池的首要特征池和次级特征池,递归生成下一个性化分类决策树。
40.具体地,为了提升个性化分类决策树的分类准确性,在生成当前的个性化分类决策树之后,可以基于测试样本确定当前生成的个性化分类决策树的分类性能。即,从个性化分类决策树的根节点开始,利用当前节点对应的分类特征对测试样本进行分类,并根据当前节点对应的分类结果决定下一节点,直至得到叶子节点对应的分类特征的分类结果,并根据叶子节点对应的分类特征的分类结果与测试样本的类型标注结果之间的差异,确定当前生成的个性化分类决策树的分类性能。除此之外,还可以基于测试样本确定个性化多级特征池中各个分类特征的单类别分类性能,即利用个性化多级特征池中的某一单一的分类特征进行分类的分类准确性。
41.若当前生成的个性化分类决策树的分类性能低于个性化多级特征池中任一分类特征的单类别分类性能,则对当前生成的个性化分类决策树进行剪枝优化,以提升个性化分类决策树的分类性能,从而得到优化后的个性化分类决策树。其中,在进行剪枝优化时,可以自底向上的对非叶子节点进行考察,若将该节点对应的子树换为叶节点能够带来分类性能的提升,则把该子树替换为叶节点,以减少分支。
42.若优化后的个性化分类决策树的分类性能仍低于个性化多级特征池中任一分类特征的单类别分类性能,则向用户推送特征池调整信息,以对个性化多级特征池中的分类特征进行调整,例如可以删除或新增分类特征,或者可以将首要特征池中的分类特征与次级特征池中的分类特征交换等。其中,考虑到首要特征池对于个性化分类决策树的重要影响,可以优先调整个性化多级特征池的首要特征池中的分类特征。在接收到该用户对个性化多级特征池触发的调整操作后,确定更新后的个性化多级特征池,并基于更新后的个性化多级特征池的首要特征池和次级特征池,利用上述实施例中给出的方式递归生成下一个性化分类决策树,以再次进行性能评估。
43.下面对本发明提供的基于多级决策树的个性化分类流程优化装置进行描述,下文描述的基于多级决策树的个性化分类流程优化装置与上文描述的基于多级决策树的个性化分类流程优化方法可相互对应参照。
44.基于上述任一实施例,图5是本发明提供的基于多级决策树的个性化分类流程优化装置的结构示意图,如图5所示,该装置包括:先验信息构建单元510、个性化信息构建单元520、决策树生成单元530和个性化流程图绘制单元540。
45.其中,先验信息构建单元510用于获取用户输入的待分类目标对应的分类特征,并基于所述待分类目标对应的分类先验知识和分类特征,构建先验多级特征池;个性化信息构建单元520用于接收用户对所述先验多级特征池触发的修改或确认操作,确定个性化多级特征池;所述先验多级特征池和所述个性化多级特征池均包括一个首要特征池和若干个次级特征池;所述先验多级特征池的首要特征池中的分类特征是基于所述分类先验知识确定的使用次数高于预设次数阈值和/或执行优先级高于预设优先级阈值的分类特征;决策树生成单元530用于基于所述个性化多级特征池的首要特征池和次级特征池,递归生成个性化分类决策树;所述个性化分类决策树的根节点仅基于所述个性化多级特征池的首要特征池中的分类特征确定;个性化流程图绘制单元540用于绘制所述个性化分类决策树对应的流程图,并返回所述流程图。
46.本发明实施例提供的装置,通过用户输入的待分类目标以及待分类目标的类型范围获取适配的分类特征,基于待分类目标对应的分类先验知识和分类特征,构建先验多级特征池,其中先验多级特征池的首要特征池中的分类特征是基于分类先验知识确定的使用次数高于预设次数阈值和/或执行优先级高于预设优先级阈值的分类特征;随后,用户可以对先验多级特征池进行调整,调整时可以增加或删除首要特征池中的分类特征,从而使得后续生成的分类流程尽可能满足用户对于某些分类特征的必需性以及执行优先级的需求,实现个性化的分类流程优化,使得生成的分类流程可以适应各类应用场景下特异的个性化需求;递归生成个性化分类决策树时,每次生成根节点时均从首要特征池中选择相应的分类特征,优化个性化分类决策树对应的分类流程,在兼顾分类准确性和用户个性化需求的目标指引下进行分类模型的筛选和执行顺序的确定,实现了不同分类方法的个性化融合。
47.基于上述任一实施例,所述分类特征包括多个不同的图像分类模型,以及多个所述待分类目标的图像特征提取器和/或多个所述待分类目标的属性特征提取器;所述图像分类模型用于对待识别图像进行图像识别以确定待识别图像中所述待分类目标的类型,所述图像特征提取器用于提取所述待分类目标在待识别图像中的图像特征,所述属性特征提取器用于提取所述待分类目标在待识别图像中的统计特征以及所述待分类目标的分类辅助信息。
48.基于上述任一实施例,决策树生成单元530具体用于执行:根节点确定步骤:基于所述个性化多级特征池的首要特征池中不为历史根节点的分类特征,确定所述个性化分类决策树的当前根节点对应的分类特征;内部节点确定步骤:基于所述个性化多级特征池的首要特征池中当前根节点以外的其他分类特征和次级特征池中的分类特征,递归确定所述个性化分类决策树的内部节点对应的分类特征;决策树评估步骤:基于所述个性化分类决策树中各个节点对应的分类特征的分类成本,确定所述个性化分类决策树中各个分类流程的分类总成本;若任一分类流程的分类
总成本不满足用户输入的成本约束条件,则重复执行所述根节点确定步骤和所述内部节点确定步骤,直至生成的个性化分类决策树中各个分类流程的分类总成本均满足所述成本约束条件。
49.基于上述任一实施例,所述基于所述个性化多级特征池的首要特征池中当前根节点以外的其他分类特征和次级特征池中的分类特征,递归确定所述个性化分类决策树的内部节点对应的分类特征,具体包括:确定所述个性化多级特征池的首要特征池和次级特征池中除当前节点的祖先节点对应的分类特征以外的分类特征,作为当前节点的候选分类特征;计算所述当前节点的各个候选分类特征的分类成本以及所述各个候选分类特征对应的划分增益;其中,任一候选分类特征对应的划分增益是利用所述任一候选分类特征对训练样本进行分类后,通过计算分类结果对应的信息熵、信息增益、信息增益率或基尼系数得到的;基于所述各个候选分类特征的分类成本及其对应的划分增益,确定所述当前节点对应的分类特征。
50.基于上述任一实施例,所述基于所述各个候选分类特征的分类成本及其对应的划分增益,确定所述当前节点对应的分类特征,之后还包括:若所述当前节点对应的划分增益满足预设增益约束或所述当前节点的深度已经达到用户输入的最大深度,则将所述当前节点置为叶子节点。
51.基于上述任一实施例,任一分类特征的分类成本是利用所述任一分类特征进行分类所花费的时间成本;所述任一分类特征的分类成本是基于利用所述任一分类特征对各个训练样本进行分类所花费的时间均值确定的。
52.基于上述任一实施例,所述基于所述个性化多级特征池的首要特征池和次级特征池,递归生成个性化分类决策树,具体包括:基于测试样本确定当前生成的个性化分类决策树的分类性能以及所述个性化多级特征池中各个分类特征的单类别分类性能;若当前生成的个性化分类决策树的分类性能低于所述个性化多级特征池中任一分类特征的单类别分类性能,则对当前生成的个性化分类决策树进行剪枝优化,得到优化后的个性化分类决策树;若所述优化后的个性化分类决策树的分类性能仍低于所述个性化多级特征池中任一分类特征的单类别分类性能,则向用户推送特征池调整信息;接收用户对所述个性化多级特征池触发的调整操作,确定更新后的个性化多级特征池,并基于所述更新后的个性化多级特征池的首要特征池和次级特征池,递归生成下一个性化分类决策树。
53.图6是本发明提供的电子设备的结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、存储器(memory)620、通信接口(communications interface)630和通信总线640,其中,处理器610,存储器620,通信接口630通过通信总线640完成相互间的通信。处理器610可以调用存储器620中的逻辑指令,以执行基于多级决策树的个性化分类流程优化方法,该方法包括:获取用户输入的待分类目标对应的分类特征,并基于所述待分类目标对应的分类先验知识和分类特征,构建先验多级特征池;接收用户对所述先验多级特
征池触发的修改或确认操作,确定个性化多级特征池;所述先验多级特征池和所述个性化多级特征池均包括一个首要特征池和若干个次级特征池;所述先验多级特征池的首要特征池中的分类特征是基于所述分类先验知识确定的使用次数高于预设次数阈值和/或执行优先级高于预设优先级阈值的分类特征;基于所述个性化多级特征池的首要特征池和次级特征池,递归生成个性化分类决策树;所述个性化分类决策树的根节点仅基于所述个性化多级特征池的首要特征池中的分类特征确定;绘制所述个性化分类决策树对应的流程图,并返回所述流程图。
54.此外,上述的存储器620中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
55.另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的基于多级决策树的个性化分类流程优化方法,该方法包括:获取用户输入的待分类目标对应的分类特征,并基于所述待分类目标对应的分类先验知识和分类特征,构建先验多级特征池;接收用户对所述先验多级特征池触发的修改或确认操作,确定个性化多级特征池;所述先验多级特征池和所述个性化多级特征池均包括一个首要特征池和若干个次级特征池;所述先验多级特征池的首要特征池中的分类特征是基于所述分类先验知识确定的使用次数高于预设次数阈值和/或执行优先级高于预设优先级阈值的分类特征;基于所述个性化多级特征池的首要特征池和次级特征池,递归生成个性化分类决策树;所述个性化分类决策树的根节点仅基于所述个性化多级特征池的首要特征池中的分类特征确定;绘制所述个性化分类决策树对应的流程图,并返回所述流程图。
56.又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的基于多级决策树的个性化分类流程优化方法,该方法包括:获取用户输入的待分类目标对应的分类特征,并基于所述待分类目标对应的分类先验知识和分类特征,构建先验多级特征池;接收用户对所述先验多级特征池触发的修改或确认操作,确定个性化多级特征池;所述先验多级特征池和所述个性化多级特征池均包括一个首要特征池和若干个次级特征池;所述先验多级特征池的首要特征池中的分类特征是基于所述分类先验知识确定的使用次数高于预设次数阈值和/或执行优先级高于预设优先级阈值的分类特征;基于所述个性化多级特征池的首要特征池和次级特征池,递归生成个性化分类决策树;所述个性化分类决策树的根节点仅基于所述个性化多级特征池的首要特征池中的分类特征确定;绘制所述个性化分类决策树对应的流程图,并返回所述流程图。
57.以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可
以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
58.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
59.最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1