一种数字对象分类器生成方法

文档序号：9866212阅读：801来源：国知局

一种数字对象分类器生成方法
【技术领域】
[0001] 本发明属于知识管理领域。一般地涉及知识的分类组织、检索与挖掘。具体而言，涉及通过计算机技术，自动对W数字对象表现的计算机可W读取的知识进行分类组织，并自动对组织后的结果提供检索与挖掘所必须的数字特征。
【背景技术】
[0002] 目前，可获得的W计算机可W处理的数字对象为表象的知识快速增长，使得人们无法透彻了解并有效利用送大量的信息。如何帮助用户W高效的方式组织送些知识并找到所需的重点知识是一项富有挑战性的任务，也是知识管理领域的核必目的。
[0003] 对知识统计关系的学习已成为知识管理领域的一个重要研究热点，它在生物信息学、系统生物学、互联网搜索、社会网、似然模型获取与利用、地理信息系统和自然语言理解等领域，都获得了极高的重视。它是将关系/逻辑表示、概率推理机制（不确定性处理）、机器学习和数据挖掘集成在一起，W获取数据中的似然模型为目的的知识管理方法。统计关系学习中的统计指采用基于概率论的概率表示和推理机制，关系是指一阶逻辑表示和关系表示；学习等同于数据挖掘，是指从数据中学得统计关系模型。目前统计关系学习方法主要有基于Bayesian网的方法、基于（隐）Markov模型的方法、基于随机文法的方法和基于 Markov网的方法等。
[0004] 本发明的研究利用统计关系学习的方法，实现知识管理中的知识获取、分类组织、挖掘与特征标注过程。在送些方面现有技术中存在很多研究成果，大致可W分为监督型、半监督型和无监督型Η类。各自都存在一定程度缺陷：监督型方法为了获得统计关系的参数估计需要大量的训练数据集，送在实用环境中特别是某些固定行业应用中难W获得，适用性差；半监督型方法会受局部数据特征分布的影响，导致整体参数估计的偏差，虽然有研究用似然估计的方法进行改进，但在计算机自动处理该过程时效果仍不明显；无监督型方法需要严格预定义先验知识列表，如关键字列表等，可扩展性差。因此需要新的对数字对象知识进行分类组织管理的方法，用W提高知识管理过程中，对数字对象的分类统计关系进行学习和生成的方法，用W实现计算机可处理的，高效的，可扩展的知识管理过程。

【发明内容】

[000引针对上述问题，做出本发明。
[0006] 本发明提出一种数字对象分类方法和系统，针对计算机可处理的数字对象知识，进行自动化的分类组织，通过对数字对象分类特征的统计关系学习，实现对分类过程适用性和可扩展性的提升。
[0007] 本发明大致可分为W下步骤；1)预处理过程；2)获得数字对象的特征向量空间； 3)获得初始训练集；4)迭代分类器学习；5)最终分类器建立。
[0008] 首先，预处理过程是根据知识管理的需要，先对原始知识集合中的非知识对象或者非特定研究行业对象进行清洗，去处后续会带来干扰的非知识信息。
[0009] 其次，利用所研究行业的特定需求和计算机系统处理能力的需求将将知识数字对象化。
[0010] 第H，在初始训练集合生成期间，初始训练集合实在先验知识的支持下基于类别名的语义分析而成的。在实际应用中，设计出一种基于描述的方法，用于建立分类器，其中每个类别具有语义相关的特征集，其相关度体现了统计相关参数。基于初始分类器，包括肯定和否定样本的初始训练集合被创建，W用于随后的迭代分类器学习。
[0011] 第四，在迭代分类器学习阶段，每次迭代中，来自上次迭代的分类器分类结果被用于建立送次迭代的训练集合。然后，从更新的训练集合中构造新的分类器。最后，实用新的分类器代替上次迭代的分类器来分类剩余的数字对象。当所有的数字对象分类完成后，形成的一组分类器收敛或者满足其他终止条件时，迭代过程终止。
[0012] 第五，在最终分类器建立阶段，从迭代学习终止后所得到的所有分类器中选择最符合预先获得的聚类结果的分类器，作为最终分类器。由于本发明假设不存在初始训练数据，对于分类器选择的方案上主要利用伪最大似然估计，并利用一阶逻辑关系进行修正。
[0013] 在本发明中，数字对象的聚类结果和分类结果之间的对准分析被执行，并被集成到训练集合建立W及迭代分类器学习的过程中，送样一来，来源于类别名和相应语义分析的可能偏见和歧义得到控制，确保了所产生的训练数据W及最终分类结果的精确性得W提商。
[0014] 另一方面，本发明所采用的方法不需要初始训练数据或者初始约定的固定的关键字列表来进行分类。相反，本发明采用在现有知识源的支持下对类别名进行语义分析来建立初始训练集合。由于已有的外部知识源可W覆盖多个领域，因此当领域集改变时，本方面的方法仍可容易的应用到多个不同的领域集中，从而减少额外的人工干预工作，提高计算机自动化处理的程度。
[0015] 此外，本发明所提供的最终分类器建立的机制可W降低分类器由于迭代分类器学习过程中的噪声数据的存在而引起的过大偏差。从而提高最终分类的精确性。
[0016] 从W下实施例的描述中，可W看出本发明的具体特征和优点。本发明并不限于W 下实施例中的描述或其他具体的实施例。
【附图说明】
[0017] 附图1是数字对象分类系统S100的整体框图；
[0018] 附图2是图1所示数字对象分类系统S100的工作过程的流程图；
[0019] 附图3是图1所示的分类系统中的调整生成装置S103的一个实例的结构框图；
[0020] 附图4是图1所示的分类系统中的粗略分类器S102的结构框图；
[0021] 附图5是根据本发明实施例，图1所示分类系统中的调整生成装置103采取迭代分类器学习的工作过程流程图；
[0022] 附图6是被用于实现本发明的计算机系统的示意性框图。
【具体实施方式】
[0023] 本发明所提出的分类器生成方法和系统可应用于一般知识管理过程中的知识获取与过滤，知识分类组织，知识搜索，和数据挖掘等等。
[0024] 图1所示分类系统SlOO的整体框图。如果所示，来自知识库S105的数字对象集合通过聚类装置S107被预先聚类成多个组，并将聚类结果存储在聚类结果库S104中。聚类结果库S104中所存储的关于文档集合的聚类结果将用于实际的具体知识管理应用中。关于聚类的方法属于本领域的公共知识技术，不作为本发明的研究重点，不做详细描述。图1 所示根据本发明实施例的分类器系统包括获取装置S101，粗略分类装置S102 W及调整生成装置S103。
[0025] 图2所示为图1中分类系统S100的工作过程的流程图。
[0026] 首先，在步骤201处，先对待处理的数据进行预处理工作，对与应用无关的原始内容进行过滤与清洗。
[0027] 其次，在步骤202处，将经过清洗的原始数字对象进行向量化的规范化处理，形成适用于应用程序的计算机可处理的数字对象表达形式。
[0028] 第H，规范化处理后的数字对象首先被粗略分类装置S102处理W进行粗略分类，从而得到粗略分类结果，如步骤203所示。例如，在本说明书【背景技术】中描述的本领域公共知识技术的监督型分类、半监督型分类或无监督型分类方法均可用于实现粗略分类目的。在某些特定的实施例中，可W采用外部输入的训练集，也可W通过参考来自外部知识源的关于类名的语义信息自动生成训练集，W达到自适应的效果。
[0029] 同时，在步骤204处，获取装置S101从聚类结果库S104处获取预先存储的关于该集合的聚类结果。此时，来自粗略分类装置S102的粗略分类结果和来自获取装置S101的聚类结果都被提供到调整生成装置S103处。
[0030] 在步骤205处，利用聚类结果对来自粗略分类装置的粗略分类结果进行调整，从而生成最终分类器S106。
[0031] 在步骤206处，已经在步骤202处获得的集

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王青;
技术所有人：无锡卓识科技有限公司;
我是此专利的发明人

上一篇：一种智能卡即时发卡设备的制造方法
上一篇：图片比对方法、装置及视频比对方法、装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。