一种面向知识管理的自定义知识分类方法

文档序号:6534855阅读:920来源:国知局
一种面向知识管理的自定义知识分类方法
【专利摘要】本发明属于计算机应用【技术领域】,涉及应用于知识管理系统的一种自定义知识分类方法。本发明的目的是为了解决知识管理系统中,在缺乏标注文本集合的条件下,实现用户自定义分类管理知识的问题,提出了一种基于词匹配的用户自定义的知识分类方法。本方法绕过了训练文本集合标注的难题,通过用《同义词词林》扩展用户自定义关键词,利用Wu-Manber多模式匹配算法来快速匹配关键词,根据关键词在文档中的命中率来判断分类类别。本方法有适应缺乏标注文本的条件,且速度快的特点。
【专利说明】一种面向知识管理的自定义知识分类方法
【技术领域】
[0001]本发明涉及一种面向知识管理的自定义知识分类方法,属于计算机应用【技术领域】。
【背景技术】
[0002]随着企业规模的不断扩大,企业内部的历史记录不断积累,业务流程日益复杂化,知识管理系统软件应运而生。知识管理的实质是对知识进行管理,通过对知识分类、检索、智能推送等手段已达到企业内部知识在运动中不断增值的目的。其中,知识的分类是知识管理系统中的重要组成模块,通过分类可以高效地管理和检索知识,便于相关知识的寻找,提高知识的利用价值。为了满足知识多维度展示的要求,我们提出了自定义知识分类。有价值的知识主要来自网络和企业内部的历史积累,通常以文本格式存储在数据库中,因此知识分类就转化成了文本分类。
[0003]空间向量模型(SVM)是当前比较流行的分类方法,理论基础是通过将文本转换成空间向量,向量的分类结果,就是文本的分类结果。空间向量分类过程包括预处理、特征提取、分类器训练、分类器评测。此类方法的必要前提条件是具备大量标注文本集,集合中的文本都带有经过专家人工标注生成的分类标签。生成分类器时,标注集合被分成两部分,一部分用于分类器训练,另一部分用于分类器评测。此类方法的优点是处理速度快,分类精度高,缺点是类别固定,需要大量的标注文本,以及分类器训练复杂。还有很多类似SVM的分类器例如感知机、贝叶斯、神经网络等分类方法都有依赖标大量注语料、参数学习和动态更新不及时等缺陷,因此,此类方法不适合知识管理系统中缺乏训练集和自定义分类的要求。
[0004]词匹配法是最早被提出的分类算法,这种方法根据文档中是否出现了某些固定的词来判断文档是否属于某个类别。这种方法的缺点是通过简单机械的匹配会影响分类效果,优点是不需要标注集,类别中关键词的可以由用户自定义添加,比较适合知识管理系统中缺乏标注集、自定义的条件。针对本系统特殊应用需求,我们采用了改进的次匹配方法,通过《同义词词林》扩展关键词同义词,以改善分类效果。

【发明内容】

[0005]本发明的目的是为了解决知识管理系统中,在缺乏标注文本集合的条件下,实现用户自定义分类管理知识的问题,提出了一种基于词匹配的用户自定义的知识分类方法。本方法绕过了训练文本集合标注的难题,通过用《同义词词林》扩展用户自定义关键词,利用Wu-Manber多模式匹配算法来快速匹配关键词,根据关键词在文档中的命中率来判断分类类别。
[0006]为实现上述目的,本发明所采用的技术方案如下:
[0007]步骤一、对知识管理系统中相关定义进行说明,具体如下:
[0008]定义1:知识管理系统中每个具体分类称为子类,记为c ;
[0009]定义2:用户为每个子类制定的专属一系列词组称为子类关键词,记为keys,单个词记为key ;关键词集和记为KEYS ;
[0010]定义3:通过《同义词词林》对子类关键词keyi(i =0,1,2…η)进行同义词扩展,得到keydi = O, I, 2…η)的同义词集合E {keyj (i = O, I, 2…η),所有子类关键词E{keyJ(i = 0,l,2…η)的合并称为子类扩展关键词,记为E(keys)。其中,i表示关键词的下标,η表示子类中关键词的个数;
[0011]定义4:若干个包含关键词的子类组成一套完整的分类标准,称为一个类组,记为C ;要求文档集合中的所有文档按不同类组进行分类,因此在一个类组中文档集合中每个文档只能属于至多一个子类,但是可以属于其他类组中的子类;
[0012]例如,C1Ic11, C12, C13I和C2Ic21, C22, C23I是系统中的两个类组,文档C^j=O, I, 2…m)只能同时属于子类c!p ,CktlIl{!,2,3}; f e {1,2,3})或者属于子类
clp(p e {1,2,3}) C2q(g e {l,2,3}) 二者之一;其中,j表示文档的下标,m表示文档集合中的文档数;
[0013]定义5:在给定文档集合DW1, df(V“dm},其中,i代表文档下标,m代表文档集
合总数量;
[0014]步骤二、用户自定义一个类组C{Cl,(V(vCn},其中,i表示子类的下标,η表示类组包含的子类数;
[0015]步骤三、为每个子类Ci添加自定义的子类关键词keySi ;
[0016]步骤四、用《同义词词林》对每个子类关键词keySi进行扩展,得到子类Ci扩展子类关键词E{keysJ ;
[0017]步骤五、把类组C所有子类Ci的扩展子类关键词E{keySi}合并为关键词集合
【权利要求】
1.一种面向知识管理的自定义知识分类方法,其特征在于: 步骤一、对知识管理系统中相关定义进行说明,具体如下: 定义1:知识管理系统中每个具体分类称为子类,记为C ; 定义2:用户为每个子类制定的专属一系列词组称为子类关键词,记为keys,单个词记为key ;关键词集和记为KEYS ; 定义3:通过《同义词词林》对子类关键词keyi(i =0,1,2…η)进行同义词扩展,得到Iceyi (i = O, I, 2…η)的同义词集合E {keyj (i = O, I, 2…η),所有子类关键词E {keyj (i =0,1,2…η)的合并称为子类扩展关键词,记为E (keys)。其中,i表示关键的下标,η表示子类中关键词的个数; 定义4:若干个包含关键词的子类组成一套完整的分类标准,称为一个类组,记为C ;要求文档集合中的所有文档按不同类组进行分类,因此在一个类组中文档集合中每个文档只能属于至多一个子类,但是可以属于其他类组中的子类; 定义5:在给定文档集合D W1, (V..cl/..dm},其中,i代表文档下标,m代表文档集合总数量; 步骤二、用户自定义一个类组C Ic1, (V..(V..cn},其中,i表示子类的下标,η表示类组包含的子类数; 步骤三、为每个子类Ci添加自定义的子类关键词keySi ; 步骤四、用《同义词词林》对每个子类关键词keySi进行扩展,得到子类Ci扩展子类关键词 E{keysJ ; 步骤五、把类组C所有子类Ci的扩展子类关键词E{keySi}合并为关键词集合
【文档编号】G06F17/30GK103793474SQ201410003685
【公开日】2014年5月14日 申请日期:2014年1月4日 优先权日:2014年1月4日
【发明者】黄河燕, 史树敏, 陈振钊, 冯冲, 李侃 申请人:北京理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1