一种基于类别从属度的信息分类方法及系统的制作方法

文档序号:9235432阅读:184来源:国知局
一种基于类别从属度的信息分类方法及系统的制作方法
【技术领域】
[0001] 本发明涉及电子数字处理领域,具体地说是一种衡量某个数据属于某个分类的程 度的类别从属度信息分类方法。
【背景技术】
[0002] 当今社会中数据信息日益鹿大,为了在海量的数据中,更好的获取所需的数据,需 要对数据进行分类。数据分类是根据一定的规则将某个数据划分到某个分类中。如有监督 的数据分类方法,依靠小样本学习后得到的模型,对其他更大范围的未分类数据进行分类。 根据一定的规则,将某一个数据最终划到一个类别中。
[0003] 但是,在进行分类时,用户不仅会关注一个数据被分到了某个分类,除了该个分类 信息之外,在所关注的分类中,用户可能还需要知道数据属于分类的程度,即类别从属度。 目前的分类技术,例如1化linear SVM分类技术,可W提供分类信息,但不能提供类别从属 度信息。例如,一本书籍介绍餐饮娱乐信息,分类体系中有餐饮、娱乐、军事、政治等分类,基 于该分类体系,该书籍可能会被分到餐饮或娱乐中的一个类别。假设该书籍被分到了餐饮 类,则用户最终可W获取该书籍属于餐饮类该一个信息,但是,对于用户而言,可能还需要 了解,针对餐饮和娱乐该两个他所关注的分类,该书籍属于餐饮类的程度或属于娱乐类的 程度该一信息。此外,针对某个分类下的数据,如果能更好的提供其属于其他分类的程度, 也会为用户提供更多的参考信息,让用户获得数据时具有更好的参考信息。例如,对于被分 到餐饮类的书籍,用户可能还想获知其属于历史还是属于娱乐的程度大,如果能够提供该 餐饮类下的书籍,属于其他类的程度,也会为用户提供更多的参考信息。

【发明内容】

[0004] 为此,本发明所要解决的技术问题在于现有技术中仅提供对数据的分类,不能提 供数据属于分类的程度、不能为用户提供更多的参考信息,从而提出一种既可W得到基于 全部分类的全局最优分类,还可W得到基于部分分类的局部最优分类,为用户了提供更多 的参考信息的基于类别从属度的信息分类方法。
[0005] 为解决上述技术问题,本发明的提供一种基于类别从属度的信息分类方法,包括 如下步骤:
[0006] 确定所有分类;
[0007] 确定参考分类,其中,所述参考分类为所有分类中的一部分或全部;
[0008] 确定待分析数据对应所述参考分类中每个分类的参考值;
[0009] 对于每个分类,根据待分析数据在该分类的参考值和待分析数据对应该参考分类 中每个分类的参考值,确定待分析数据对于该分类的类别从属度;
[0010] 根据获取的待分析数据对于参考分类中每个分类的类别从属度进行信息分类,得 到分类结果。
[0011] 一种基于类别从属度的信息分类系统,包括:
[0012] 所有分类确定模块;确定所有分类;
[0013] 参考分类确定模块;确定参考分类,其中,所述参考分类为部分分类或所有分类;
[0014] 参考值计算模块:确定待分析数据对应所述参考分类中每个分类的参考值;
[0015] 类别从属度计算模块;对于每个分类,根据待分析数据在该分类的参考值和待分 析数据对应该参考分类中每个分类的参考值,确定待分析数据对于该分类的类别从属度:
[0016] 分类模块;根据获取的待分析数据对于参考分类中每个分类的类别从属度进行信 息分类,得到分类结果。
[0017] 本发明的上述技术方案相比现有技术具有W下优点,
[0018] (1)本发明所述的基于类别从属度的信息分类方法,首先确定所有分类W及参考 分类,然后确定待分析数据对应所述参考分类中每个分类的参考值,再根据待分析数据在 该分类的参考值和待分析数据对应该参考分类中每个分类的参考值确定待分析数据对于 该分类的类别从属度,然后根据待分析数据对应每个分类的类别从属度来进行信息分类, 获得分类结果,通过该种方法来计算类别从属度并进行信息分类,可W很好的表示出待分 析数据与其关注的那些分类之间的从属关系的大小,从而实现对待分析数据的分类,该分 类方法中不仅提供了待分析数据属于哪个分类,还进一步提供了待分析数据属于各个分类 的从属程度的量化指标,通过数字量化的方式,表现更为直观,且相互之间的可比性更强, 使用户一目了然的知道了待分析数据与各个的分类的关系,为用户提供更多的分类参考信 息。
[0019] (2)本发明还提供可实现上述功能的基于类别从属度的信息分类系统,包括所有 分类确定模块、参考分类确定模块、参考值计算模块、类别从属度计算模块W及分类模块, 采用类别从属度对数据进行分类,提供一种基于类别从属度对信息进行分类的实现系统, 将类别从属信息进行了量化,通过量化的信息进行分类,使得分类结果不再仅包含现有技 术中最后将数据分到某个分类的信息,而是包含了与各个分类的相关程度的类别从属度信 息,使得用户可W直观的获取待分析数据与各个分类的相关程度,为用户提供更多的分类 的参考信息。
【附图说明】
[0020] 为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合 附图,对本发明作进一步详细的说明,其中
[0021] 图1是本发明所述的基于类别从属度的信息分类方法一个实施例的流程图;
[0022] 图2是本发明所述的基于类别从属度的信息分类系统一个实施例的结构框图。
【具体实施方式】
[0023] 连施例1 :
[0024] 本实施例提供一种基于类别从属度的信息分类方法,流程图如图1所示,包括如 下步骤:
[0025](1)确定所有分类,建立分类集合C={ci, C2,…,C。}。
[0026] (2)确定参考分类,所述参考分类为分类集合中的部分分类或所有分类,从而建立 分类子集C',其中,C'CC。C',{Cl,,C2,,…,Ci,,…Cm,},,其中Ci,GC'为分类子集C'中 的一个分类,i=l,2,…!!!;!!!为分类子集C'中的分类的个数。
[0027] (3)确定待分析数据X对应分类子集C'中每个分类c/的参考值,所述参考值为待 分析数据X到Ci'与CW的分类超平面的距离值。本实施例中,通过训练后的liblinear SVM分类器,计算待分析数据X在分类集合C中对应于每个分类Ci'的参考值s/,其中每个 分类Ci'对应于Ci'与CW的二分类问题,参考值s/为待分析数据X到Ci'与CW的分 类超平面的距离,i= 1,2,…,n。该距离的计算公式为wx+b,其中W是分类超平面的法向 量,b为偏差。
[0028]SVM(suppcxrtvectormachine)即支持向量机,是一种机器学习算法,通过训练计 算分类超平面,利用分类超平面进行分类,利用核函数将低维空间数据映射到高维空间求 解。SVM分类器可W解决二分类问题,使用一条直线巧日果数据只有二维)或一个超平面将 数据分类。通过SVM分类器分类时,首先通过样本构建一簇超平面,然后获得原数据与超平 面的距离进行分类。
[0029]SVM分类器是现有技术中较为成熟的技术,liblinearSVM通过SVM技术解决多分 类问题,通过上述过程,可W得到m个距离数据,也就是获得了待分析数据X对应分类子集 中每个分类的参考值。
[0030](4)对于每个分类c/,根据待分析数据X在该分类的参考值Si'和待分析数据X 对应该参考分类中每个分类的参考值Si',s'2,s'3,…,s'm,然后来计算待分析数据对于该 分类的类别从属度,计算公式如下:
[0031]
[0032] 其中,Ci'为所述参考分类中的第i个分类,f(c/ )为待分析数据对于分类Ci'的 类别从属度,s/为待分析数据对应所述分类Ci'的参考值,m为参考分类中分类的个数,s'j. 为待分析数据在参考分类中对应第j个分类的参考值,j=l,2,…,m
为待分析数据对 应参考分类中每个分类的参考值之和。
[0033] (5)根据获取的待分析数据对于参考分类中每个分类的类别从属度进行信息分 类,此步骤中,将所述待分析数据对于参考分类中每个分类的类别从属度降序排列,将所述 类别从属度及其对应的分类作为分类结果,此处的结果可W通过表格或者列表的方式呈现 给用户。
[0034] 上述类别从属度根据待分析数据在该分类的参考值和待分析数据对应该参考分 类中每个分类的参考值之和的比值来计算,通过该比值可W很好的反映出待分析数据对该 分类的类别从属程度,体现出其类别从属度的特征,从而客观的反应出该类别从属度信息。 将所述待分析数据对于参考分类中每个分类的类别从属度降序排列,将所述类别从属度及 其对应的分类作为分类结果,该样就完成了对待分析数据的分类,不仅获得了其最相关的 分类,即类别从属度最高的分类,同时还获得了与其他分类的相关程度数据,该样的分类结 果不仅提供给用户最终该待分析数据所属的分类,还提供了该数据与其他分类的相关程 度,为用户提供更多的参考信息。
[0035] 作为其他可W替换的实施方式,所述参考值为与该分类的相关程度单调
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1