一种数字对象分类器生成方法

文档序号:9866212阅读:801来源:国知局
一种数字对象分类器生成方法
【技术领域】
[0001] 本发明属于知识管理领域。一般地涉及知识的分类组织、检索与挖掘。具体而言, 涉及通过计算机技术,自动对W数字对象表现的计算机可W读取的知识进行分类组织,并 自动对组织后的结果提供检索与挖掘所必须的数字特征。
【背景技术】
[0002] 目前,可获得的W计算机可W处理的数字对象为表象的知识快速增长,使得人们 无法透彻了解并有效利用送大量的信息。如何帮助用户W高效的方式组织送些知识并找到 所需的重点知识是一项富有挑战性的任务,也是知识管理领域的核必目的。
[0003] 对知识统计关系的学习已成为知识管理领域的一个重要研究热点,它在生物信息 学、系统生物学、互联网搜索、社会网、似然模型获取与利用、地理信息系统和自然语言理解 等领域,都获得了极高的重视。它是将关系/逻辑表示、概率推理机制(不确定性处理)、 机器学习和数据挖掘集成在一起,W获取数据中的似然模型为目的的知识管理方法。统计 关系学习中的统计指采用基于概率论的概率表示和推理机制,关系是指一阶逻辑表示和关 系表示;学习等同于数据挖掘,是指从数据中学得统计关系模型。目前统计关系学习方法主 要有基于Bayesian网的方法、基于(隐)Markov模型的方法、基于随机文法的方法和基于 Markov网的方法等。
[0004] 本发明的研究利用统计关系学习的方法,实现知识管理中的知识获取、分类组织、 挖掘与特征标注过程。在送些方面现有技术中存在很多研究成果,大致可W分为监督型、半 监督型和无监督型Η类。各自都存在一定程度缺陷:监督型方法为了获得统计关系的参数 估计需要大量的训练数据集,送在实用环境中特别是某些固定行业应用中难W获得,适用 性差;半监督型方法会受局部数据特征分布的影响,导致整体参数估计的偏差,虽然有研究 用似然估计的方法进行改进,但在计算机自动处理该过程时效果仍不明显;无监督型方法 需要严格预定义先验知识列表,如关键字列表等,可扩展性差。因此需要新的对数字对象知 识进行分类组织管理的方法,用W提高知识管理过程中,对数字对象的分类统计关系进行 学习和生成的方法,用W实现计算机可处理的,高效的,可扩展的知识管理过程。

【发明内容】

[000引针对上述问题,做出本发明。
[0006] 本发明提出一种数字对象分类方法和系统,针对计算机可处理的数字对象知识, 进行自动化的分类组织,通过对数字对象分类特征的统计关系学习,实现对分类过程适用 性和可扩展性的提升。
[0007] 本发明大致可分为W下步骤;1)预处理过程;2)获得数字对象的特征向量空间; 3)获得初始训练集;4)迭代分类器学习;5)最终分类器建立。
[0008] 首先,预处理过程是根据知识管理的需要,先对原始知识集合中的非知识对象或 者非特定研究行业对象进行清洗,去处后续会带来干扰的非知识信息。
[0009] 其次,利用所研究行业的特定需求和计算机系统处理能力的需求将将知识数字对 象化。
[0010] 第H,在初始训练集合生成期间,初始训练集合实在先验知识的支持下基于类别 名的语义分析而成的。在实际应用中,设计出一种基于描述的方法,用于建立分类器,其中 每个类别具有语义相关的特征集,其相关度体现了统计相关参数。基于初始分类器,包括肯 定和否定样本的初始训练集合被创建,W用于随后的迭代分类器学习。
[0011] 第四,在迭代分类器学习阶段,每次迭代中,来自上次迭代的分类器分类结果被用 于建立送次迭代的训练集合。然后,从更新的训练集合中构造新的分类器。最后,实用新的 分类器代替上次迭代的分类器来分类剩余的数字对象。当所有的数字对象分类完成后,形 成的一组分类器收敛或者满足其他终止条件时,迭代过程终止。
[0012] 第五,在最终分类器建立阶段,从迭代学习终止后所得到的所有分类器中选择最 符合预先获得的聚类结果的分类器,作为最终分类器。由于本发明假设不存在初始训练数 据,对于分类器选择的方案上主要利用伪最大似然估计,并利用一阶逻辑关系进行修正。
[0013] 在本发明中,数字对象的聚类结果和分类结果之间的对准分析被执行,并被集成 到训练集合建立W及迭代分类器学习的过程中,送样一来,来源于类别名和相应语义分析 的可能偏见和歧义得到控制,确保了所产生的训练数据W及最终分类结果的精确性得W提 商。
[0014] 另一方面,本发明所采用的方法不需要初始训练数据或者初始约定的固定的关键 字列表来进行分类。相反,本发明采用在现有知识源的支持下对类别名进行语义分析来建 立初始训练集合。由于已有的外部知识源可W覆盖多个领域,因此当领域集改变时,本方面 的方法仍可容易的应用到多个不同的领域集中,从而减少额外的人工干预工作,提高计算 机自动化处理的程度。
[0015] 此外,本发明所提供的最终分类器建立的机制可W降低分类器由于迭代分类器学 习过程中的噪声数据的存在而引起的过大偏差。从而提高最终分类的精确性。
[0016] 从W下实施例的描述中,可W看出本发明的具体特征和优点。本发明并不限于W 下实施例中的描述或其他具体的实施例。
【附图说明】
[0017] 附图1是数字对象分类系统S100的整体框图;
[0018] 附图2是图1所示数字对象分类系统S100的工作过程的流程图;
[0019] 附图3是图1所示的分类系统中的调整生成装置S103的一个实例的结构框图;
[0020] 附图4是图1所示的分类系统中的粗略分类器S102的结构框图;
[0021] 附图5是根据本发明实施例,图1所示分类系统中的调整生成装置103采取迭代 分类器学习的工作过程流程图;
[0022] 附图6是被用于实现本发明的计算机系统的示意性框图。
【具体实施方式】
[0023] 本发明所提出的分类器生成方法和系统可应用于一般知识管理过程中的知识获 取与过滤,知识分类组织,知识搜索,和数据挖掘等等。
[0024] 图1所示分类系统SlOO的整体框图。如果所示,来自知识库S105的数字对象集合 通过聚类装置S107被预先聚类成多个组,并将聚类结果存储在聚类结果库S104中。聚类 结果库S104中所存储的关于文档集合的聚类结果将用于实际的具体知识管理应用中。关 于聚类的方法属于本领域的公共知识技术,不作为本发明的研究重点,不做详细描述。图1 所示根据本发明实施例的分类器系统包括获取装置S101,粗略分类装置S102 W及调整生 成装置S103。
[0025] 图2所示为图1中分类系统S100的工作过程的流程图。
[0026] 首先,在步骤201处,先对待处理的数据进行预处理工作,对与应用无关的原始内 容进行过滤与清洗。
[0027] 其次,在步骤202处,将经过清洗的原始数字对象进行向量化的规范化处理,形成 适用于应用程序的计算机可处理的数字对象表达形式。
[0028] 第H,规范化处理后的数字对象首先被粗略分类装置S102处理W进行粗略分类, 从而得到粗略分类结果,如步骤203所示。例如,在本说明书【背景技术】中描述的本领域公共 知识技术的监督型分类、半监督型分类或无监督型分类方法均可用于实现粗略分类目的。 在某些特定的实施例中,可W采用外部输入的训练集,也可W通过参考来自外部知识源的 关于类名的语义信息自动生成训练集,W达到自适应的效果。
[0029] 同时,在步骤204处,获取装置S101从聚类结果库S104处获取预先存储的关于该 集合的聚类结果。此时,来自粗略分类装置S102的粗略分类结果和来自获取装置S101的 聚类结果都被提供到调整生成装置S103处。
[0030] 在步骤205处,利用聚类结果对来自粗略分类装置的粗略分类结果进行调整,从 而生成最终分类器S106。
[0031] 在步骤206处,已经在步骤202处获得的集
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1