一种基于6w知识表示的自学习方法

文档序号:10489447阅读:226来源:国知局
一种基于6w知识表示的自学习方法
【专利摘要】本发明提供一种基于6W知识表示的自学习方法,包括以下步骤:定义每个概念的标识结构;定义用于描述概念与概念之间联系的标注结构;定义用于描述知识的知识编码;定义用于评估知识可信度的知识可信度规则,得到知识可信度;定义知识结构组织模型;其中,所述知识结构组织模型由所述标识编码、所述标注编码、所述知识编码和所述知识可信度组合而成;基于所述知识结构组织模型进行知识自学习。本发明提供的基于6W知识表示的自学习方法,通过分别定义标识结构、标注结构和知识结构,再基于所定义的标识结构、标注结构和知识结构,快速高效的扩充知识,有利于智能智慧体系建设。
【专利说明】
一种基于6W知识表示的自学习方法
技术领域
[0001] 本发明属于信息处理技术领域,具体涉及一种基于6W知识表示的自学习方法。
【背景技术】
[0002] 智能智慧体系建设将是未来的主题,智能智慧体系建设的基础是知识,智能智慧 体系所具有的知识数量直接影响到智能智慧体系的性能。现有技术中,标准知识的数量扩 充能力有限,从而阻碍了智能智慧体系建设。

【发明内容】

[0003] 针对现有技术存在的缺陷,本发明提供一种基于6W知识表示的自学习方法,可有 效解决上述问题。
[0004] 本发明采用的技术方案如下:
[0005] 本发明提供一种基于6W知识表示的自学习方法,包括以下步骤:
[0006] S1,定义每个概念的标识结构;其中,所述标识结构包括标识编码;
[0007] S2,定义用于描述概念与概念之间联系的标注结构;其中,所述标注结构包括标注 编码;
[0008] S3,定义用于描述知识的知识编码;其中,所述知识编码包括三部分,分别为主题 编码区域、问题编码区域和知识顺序编码区域;
[0009] S4,定义用于评估知识可信度的知识可信度规则,得到知识可信度;
[0010] S5,定义知识结构组织模型;其中,所述知识结构组织模型由所述标识编码、所述 标注编码、所述知识编码和所述知识可信度组合而成;并且,所述标识编码位于最底层,所 述标注编码位于所述标识编码的上一层,所述知识编码位于所述标注编码的上一层;
[0011] S6,基于所述知识结构组织模型进行知识自学习。
[0012] 优选的,Sl具体为:
[0013] 所述标识结构包括三部分,分别为:标识编码、标识名称和标识类型类别;
[0014] (1)所述标识编码包括:
[0015] 标识头编码区域、数据元层级编码区域、概念模型一级大类编码区域、概念模型二 级小类编码区域、类型编码区域和标识顺序编码区域;
[0016] 其中,所述标识头编码区域,用于标识编码的类型为标识编码;
[0017] 所述数据元层级编码区域,用于标识概念所属的数据元层级;
[0018] 所述概念模型一级大类编码区域,用于标识概念所属的一级大类;
[0019] 所述概念模型二级小类编码区域,用于标识概念所属的二级小类;其中,概念所属 的二级小类为概念所属的一级大类细分后的类别;
[0020] 所述类型编码区域,用于标识所述标识编码的类型;
[0021] 所述标识顺序编码区域,用于标识归属于同一种一级大类、二级小类下的不同概 念;
[0022] (2)所述标识名称用于描述概念名称,并且,所述标识名称采用概念所属不同层级 之间继承关系的表现形式进行描述;
[0023] (3)所述标识类型类别包括标识类别和标识类型;
[0024] 所述标识类别用于描述概念所属的一级大类和所述一级大类细分后的二级小 类;
[0025] 所述标识类型用于描述所述标识类别所对应的数据类型,便于计算机处理识别。
[0026] 优选的,对于所述数据元层级编码区域,所标识的概念所属的数据元层级包括三 层,分别为:概念数据元、逻辑数据元和应用数据元。
[0027] 优选的,所述标识名称采用概念所属不同层级之间继承关系的表现形式进行描 述,包括两类,分别为表示形式的标识名称和简化形式的标识名称;
[0028] 所述表示形式的标识名称具体为:
[0029] (1)定义以下的四层结构:
[0030] 第一层结构,系列:对象、活动;
[0031] 第二层结构,集合:对象、活动、参与者、结果;
[0032] 第三层结构,实体:参与者、活动、时间、地点、结果、对象、特征;
[0033] 第四层结构,子集:时间、地点、对象、特征;
[0034] (2)获得概念所属的对应的四层结构,将所获得的四层结构组合到一起,其中,结 构与结构之间定义分隔符号,每个结构又分为若干阶,定义相邻阶之间的分隔符;每阶中又 有若干位,每个概念的概念名称代表一位;如果某个结构中的某个概念具有附带特征或者 属性的,则在该概念后首先增加分隔符,再在分隔符后面增加所述附带特征或者属性,由此 组合得到所述表示形式的标识名称;
[0035] 所述简化形式的标识名称为:将所述表示形式的标识名称中的每个概念名称映射 为概念标识,即得到所述简化形式的标识名称。
[0036] 优选的,所述标识类别中的所述一级大类以及一级大类细分后的二级小类参见下 表:

[0038] 所述标识类型包括:系列类型、集合类型、实体类型、子集类型、数字类型、字符类 型、数据体、布尔型类型、复合型类型、文本类型、超文本类型、二进制类型、时间类型、枚举 类型、枚举值类型、资料类型、附件类型、特征值类型、报告类型、图件类型、光盘类型、磁带 类型和预留类型。
[0039] 优选的,S2,所述标注结构包括六部分,分别为:标注编码、标注符号、标注名称、标 注参数、标注描述和标注主体;
[0040] (1)所述标注编码包括:
[0041] 标注头编码区域、标注大类编码区域、标注小类编码区域和标注顺序编码区域;
[0042] 其中,所述标注头编码区域,用于表示编码的类型为标注编码;
[0043] 所述标注大类编码区域,用于表示联系所属的大类;
[0044] 所述标注小类编码区域,用于表示联系所属的小类;其中,联系所属的小类为联系 所属的大类细分后的类别;
[0045] 所述标注顺序编码区域用于表示属于同一小类下的联系的编码;
[0046] (2)所述标注符号为联系的符号表达形式;
[0047] (3)所述标注名称用于直观明确的描述联系的含义;
[0048] (4)所述标注参数用于表示发生联系的各个概念的名称以及各个概念在所述联系 中的角色;
[0049] (5)所述标注描述,用于以自然语言描述或者函数表达式形式,清晰描述联系本 身;
[0050] (6)所述标注主体是联系所依附的实体。
[0051] 优选的,将所述标注结构区分为通用标注类别结构和扩展标注类别结构;所述通 用标注类别结构和所述扩展标注类别结构的区别为:所涉及到的标注大类编码区域的范围 不相同。
[0052] 优选的,S3中,所述知识编码由三段组合而成,段间采用分隔符分隔;所述三段分 别为:主题编码区域、问题编码区域和知识顺序编码区域;并且,所述主题编码区域由多个 具有继承关系的子主题编码区域组合而成,位于最底层的子主题为所描述的知识所归属的 主题;
[0053] 每个所述子主题编码区域均包括:主题头编码区域、主题分类编码区域、主题子类 编码区域、层级编码区域和主题顺序编码区域;
[0054] 其中,所述主题头编码区域,用于标识编码的类型为主题编码;
[0055] 所述主题分类编码区域,用于标识知识所归属的一级主题类别;
[0056] 所述主题子类编码区域,用于标识知识所归属的二级主题类别;其中,所述二级主 题类别为所述一级主题类别细分后的类别;
[0057] 所述层级编码区域,用于标识知识所归属的层级;所述层级为所述二级主题类别 细分后的类别;
[0058] 所述主题顺序编码区域,用于标识归属于相同一级主题类别以及相同二级主题类 别的各个主题的顺序;
[0059] 所述问题编码区域包括:问题头编码区域、层级编码区域、对象编码区域和子对象 编码区域;
[0060] 其中,所述问题头编码区域,用于标识编码的类型为问题编码;
[0061] 所述层级编码区域,用于标识问题所归属的层级;
[0062] 所述对象编码区域,用于标识问题所归属的一级对象;其中,所述一级对象为所述 层级细分后的对象;
[0063] 所述子对象编码区域,用于标识问题所归属的二级对象;其中,所述二级对象为所 述一级对象细分后的对象。
[0064] 优选的,S6具体为:
[0065] S6. 1,建立可动态更新的标识样本库、样注样本库和标准知识库;
[0066] 其中,所述标识样本库用于存储所有的标识编码;所述标注样本库用于存储所有 的标注编码;所述标准知识库用于存储已验证的知识编码;
[0067] S6. 2,每当知识自学习的触发时刻到来时,按一定的选取规则从所述样注样本库 中读取指定标注编码;
[0068] S6. 3,对所述指定标注编码进行分析,得到所述指定标注编码所涉及到的概念名 称、概念角色和联系规则;即:各个所述概念名称之间的联系为符合所述联系规则的联系;
[0069] S6. 4,假设所述指定标注编码所涉及到的概念名称的数量为n,假设所述标识样本 库中共存在m个标识,其中,m > η ;
[0070] 则:从m个标识中选取η个标识组为一个单元组,由此共得到ρ个单元组;
[0071] 对于每个单元组所涉及到的η个标识,再通过调配η个标识的角色,由此得到a种 组合;
[0072] 通过上述方式,可共得到p*a组组合;
[0073] S6. 5,对于p*a组组合中的每组组合,均执行以下操作:
[0074] 对于任意一组组合,记为组合i,在所述联系规则的约束下,组合i即转化为初始 知识;
[0075] 验证所述初始知识是否与所述标准知识库中的某个标准知识相同,如果相同,则 删除所述初始知识;如果不相同,进一步验证所述初始知识是否为伪知识,如果是,则删除 所述初始知识;如果否,则表明所述初始知识为真知识,将其作为标准知识,存入所述标准 知识库,由此扩大了标准知识库存储的标准知识的数量。
[0076] 本发明的有益效果如下:
[0077] 本发明提供的基于6W知识表示的自学习方法,通过分别定义标识结构、标注结构 和知识结构,再基于所定义的标识结构、标注结构和知识结构,快速高效的扩充知识,有利 于智能智慧体系建设。
【附图说明】
[0078] 图1为本发明提供的基于6W知识表示的自学习方法的流程示意图;
[0079] 图2为标识编码的示例图;
[0080] 图3为标注编码结构图;
[0081] 图4为通用标注类别结构图;
[0082] 图5为扩展标注类别结构图;
[0083] 图6为知识编码结构图;
[0084] 图7为主题结构图;
[0085] 图8为问题结构图。
【具体实施方式】
[0086] 以下结合附图对本发明进行详细说明:
[0087] 本发明提供一种基于6W知识表示的自学习方法,所述6W原则本来是指诺贝尔文 学奖获得者英国作家吉卜林的思考问题、解决问题的"6W原则",在此基础上明确了业务逻 辑6W描述方法,即"Where (什么地方)、When (什么时间)、Who (什么人)、Which (针对啥)、 What (做了什么,含如何做)、Why (为什么)"。
[0088] 由于数据关联成信息,信息关联成知识,知识关联成智慧,数据、信息和知识均可 用概念固化,知识可理解为概念与概念之间的联系,概念用语义唯一标识,在知识体系中, 将概念用标识表达;将联系用符号进行标注。标识和标注组合成知识元,知识元之间彼此结 合成知识。本发明中,通过分别定义标识结构、标注结构和知识结构,再基于所定义的标识 结构、标注结构和知识结构,快速高效的扩充知识,有利于智能智慧体系建设。
[0089] 具体的,如图1所示,包括以下步骤:
[0090] S1,定义每个概念的标识结构;其中,标识结构包括标识编码;
[0091] 标识结构具体可包括三部分,分别为:标识编码、标识名称和标识类型类别;SP :〈 标识编码 >〈标识名称 >〈标识类型类别〉。如表1所示,为标识结构示例。
[0092] 表 1
[0094] (1)标识编码
[0095] 标识编码包括:标识头编码区域、数据元层级编码区域、概念模型一级大类编码区 域、概念模型二级小类编码区域、类型编码区域和标识顺序编码区域;
[0096] (I. 1)标识头编码区域
[0097] 标识头编码区域用于标识编码的类型为标识编码;
[0098] (1. 2)数据元层级编码区域
[0099] 数据元层级编码区域用于标识概念所属的数据元层级;具体的,所标识的概念所 属的数据元层级包括三层,分别为:概念数据元、逻辑数据元和应用数据元。
[0100] (1. 3)概念模型一级大类编码区域
[0101] 概念模型一级大类编码区域用于标识概念所属的一级大类;
[0102] (1. 4)概念模型二级小类编码区域
[0103] 概念模型二级小类编码区域,用于标识概念所属的二级小类;其中,概念所属的二 级小类为概念所属的一级大类细分后的类别;
[0104] (1.5)类型编码区域
[0105] 类型编码区域用于标识标识编码的类型;
[0106] (1.6)标识顺序编码区域
[0107] 用于标识归属于同一种一级大类、二级小类下的不同概念。
[0108] 例如,如图2所不,为标识编码的不例,米用36进制表达,36进制使用数字10位和 字母26位构成,其取值顺序为[0-9A-Z]。标识编码用于知识自学习与知识计算使用,标识 编码由六部分组成:
[0109] 第一部分为1位字母,用E表示为标识编码;
[0110] 第二部分为1位,用于表示数据元层级,其中,可用1表示概念数据元,2表示逻辑 数据元,3表示应用数据元,4-9A-Z为预留空间;如表2所示,为数据元层级定义示例。
[0111] 表 2
[0112]
[0113] 第三部分为1位,用于表示原子模型的一级大类编码;
[0114] 第四部分为1位,用于表示原子模型的二级大类编码。
[0115] (2)标识名称
[0116] 标识名称用于描述概念名称,并且,标识名称采用概念所属不同层级之间继承关 系的表现形式进行描述;
[0117] 具体的,标识名称采用概念所属不同层级之间继承关系的表现形式进行描述,包 括两类,分别为表示形式的标识名称和简化形式的标识名称;
[0118] (2. 1)表示形式的标识名称
[0119] 表示形式的标识名称具体为:
[0120] a)定义以下的四层结构:
[0121] 第一层结构,系列:对象、活动;
[0122] 第二层结构,集合:对象、活动、参与者、结果;
[0123] 第三层结构,实体:参与者、活动、时间、地点、结果、对象、特征;
[0124] 第四层结构,子集:时间、地点、对象、特征;
[0125] 如果活动有子活动,对象中又子对象时,标识名称的四层结构定义如下:
[0126] 系列:对象、活动;
[0127] 集合:对象、活动、参与者、结果;
[0128] 实体:参与者、活动!子活动、时间、地点、结果、对象、特征;
[0129] 子集:时间、地点、对象!子对象、特征。
[0130] B)获得概念所属的对应的四层结构,将所获得的四层结构组合到一起,其中,结构 与结构之间定义分隔符号,每个结构又分为若干阶,定义相邻阶之间的分隔符;每阶中又有 若干位,每个概念的概念名称代表一位;如果某个结构中的某个概念具有附带特征或者属 性的,则在该概念后首先增加分隔符,再在分隔符后面增加附带特征或者属性,由此组合得 到表示形式的标识名称;
[0131] 如表3所示,为岩肩标识名称的描述内容,其均是作为约束来限定岩肩描述内容。
[0132] 表 3 L0134J (2. 1)简化形式的称识名称
[0135] 简化形式的标识名称为:将表示形式的标识名称中的每个概念名称映射为概念标 识,即得到简化形式的标识名称。
[0136] 如表4所示,为简化形式的标识名称的示例。
[0137] 表 4
[0139] (3)标识类型类别包括标识类别和标识类型;
[0140] 标识类型类别用于将标识分类管理,以便自学习阶段用于演绎学习。
[0141] (3.1)标识类别
[0142] 标识类别用于描述概念所属的一级大类和一级大类细分后的二级小类;
[0143] 标识类别中的一级大类以及一级大类细分后的二级小类参见表5 :
[0144] 表 5
[0146] (3. 2)标识类型
[0147] 标识类型用于描述标识类别所对应的数据类型,便于计算机处理识别。
[0148] 标识类型包括:系列类型、集合类型、实体类型、子集类型、数字类型、字符类型、数 据体、布尔型类型、复合型类型、文本类型、超文本类型、二进制类型、时间类型、枚举类型、 枚举值类型、资料类型、附件类型、特征值类型、报告类型、图件类型、光盘类型、磁带类型和 预留类型。
[0149] S2,定义用于描述概念与概念之间联系的标注结构;其中,标注结构包括标注编 码;
[0150] 标注结构包括六部分,分别为:标注编码、标注符号、标注名称、标注参数、标注描 述和标注主体;格式为〈标注编码〉[标注符号]〈标注名称 >(〈标注参数 >)〈标注描述X 标注主体〉,如表6所示,为标注结构举例。
[0151] 表 6

[0153] (1)标注编码
[0154] 标注编码用于知识自学习与知识计算使用,标注编码包括标注头编码区域、标注 大类编码区域、标注小类编码区域和标注顺序编码区域;
[0155] (I. 1)标注头编码区域
[0156] 标注头编码区域,用于表示编码的类型为标注编码;
[0157] (12)标注大类编码区域
[0158] 标注大类编码区域,用于表示联系所属的大类;
[0159] (1.3)标注小类编码区域
[0160] 标注小类编码区域,用于表示联系所属的小类;其中,联系所属的小类为联系所属 的大类细分后的类别;
[0161] (1.4)标注顺序编码区域
[0162] 标注顺序编码区域用于表示属于同一小类下的联系的编码;
[0163] 例如,标注编码由四部分组成:
[0164] 第一部分为1位字母,F表示为标注编码;
[0165] 第二部分为2位,用于表示标注的顶层分类也就是大类;
[0166] 第三部分为4位,属于自由变换区域,可以根据大类定义自己的小类或者子类,也 可以不定义与第四部分合在一起作为方法编码区;
[0167] 第四部分为4位,用于表示标注顺序编码,如图3所示,为标注编码结构图。
[0168] 其中标注编码又区分为通用标注类别编码和扩展标注类别编码。
[0169] a)通用标注类别编码,是通用的算法提供的标注,通用的算法包括:算术、时间、 转换、缺失值、随机数、检索、字符串等,如图4所示,为通用标注类别结构图,如表7所示,为 通用标注类别编码举例。
[0170] 表 7
[0172] b)扩展标注类别,是由通用的标注组合而形成的复合标注类别,复合类标注用于 解决具体业务问题,如图5所示,为扩展标注类别结构图。
[0173] (2)标注符号为联系的符号表达形式;
[0174] 标注符号是为了书写方便、又易于理解,而进行简化为符号的操作,仅对常用符号 定义,也可以不定义,标注符号为可选项。标注符号主要应用于计算公式型的知识录入,如 表8所示,为常用标注符号。
[0175]表 8
[0177] (3)标注名称用于直观明确的描述联系的含义;
[0178] 标注名称可区分为通用型标注名称和扩展型标注名称。通用型标注名称以英文单 词、单词缩写、单词短语等形式表达,能够直观明确表达标注含义,每个单词首字母大写。对 于扩展型标注名称,通常是知识发现过程中产生的新标注,该名称可以使用挖掘结果模型 文件名称,如表9所示为标注名称示例。
[0179] 表 9
[0181] (4)标注参数用于表示发生联系的各个概念的名称以及各个概念在联系中的角 色;
[0182] 具体的,标注参数是标注可以处理的类型以及参数在处理过程中所做的角色,参 数以小括号或者称圆括号为边界,参数之间以逗号分隔,格式为(〈参数角色参数类型参数 名称〉[〈参数角色参数类型参数名称〉]),如表10所示为,为标注参数示例。
[0183] 表 10
[0185] (5)标注描述,用于以自然语言描述或者函数表达式形式,清晰描述联系本身;
[0186] 具体的,标注描述是为人提供的便于理解标注本身的含义,能处理的事情;标注描 述是以自然语言描述或者是函数表达式,能够清晰描述标注本身,无歧义,如表11所示,为 标注描述示例。
[0187] 表 11
[0189] (6)标注主体是联系所依附的实体。
[0190] 具体的,标注主体是标注所依附的实体,也是标注真正实现的过程,主体在算法库 中是一个类,每个类名称唯一,每个类对应多个标注,格式为〈编码 >〈名称 >〈描述 >〈实现 类〉,如表12所示,为标注主体示例。
[0191] 表 12
[0193] 此外,本发明中,将标注结构区分为通用标注类别结构和扩展标注类别结构;通用 标注类别结构和扩展标注类别结构的区别为:所涉及到的标注大类编码区域的范围不相 同。
[0194] S3,定义用于描述知识的知识编码;其中,知识编码包括三部分,分别为主题编码 区域、问题编码区域和知识顺序编码区域;
[0195] 具体的,知识编码为用于对知识本身管理的编码规则,知识编码由三段组合而成, 段间采用分隔符分隔;三段分别为:主题编码区域、问题编码区域和知识顺序编码区域;主 题作为知识的一部分,其用于知识的组织与分类,其编码规则将作为知识编码规则的一部 分,主题是在业务逻辑模型的基础之上自动生成。并且,主题编码区域由多个具有继承关系 的子主题编码区域组合而成,位于最底层的子主题为所描述的知识所归属的主题;
[0196] 例如,知识编码分三段组成:第一段为主题编码,第二段为问题编码,第三部分为 知识顺序编码,以K开头,后面为10位长数字字符组合而成的36进制。三段共同构成知识 编码。段内用逗点分割,段间用下划线分割,如图6所示,为知识编码结构图。
[0197] (1)子主题编码区域
[0198] 每个子主题编码区域均包括:主题头编码区域、主题分类编码区域、主题子类编码 区域、层级编码区域和主题顺序编码区域;
[0199] 其中,主题头编码区域,用于标识编码的类型为主题编码;
[0200] 主题分类编码区域,用于标识知识所归属的一级主题类别;
[0201] 主题子类编码区域,用于标识知识所归属的二级主题类别;其中,二级主题类别为 一级主题类别细分后的类别;
[0202] 层级编码区域,用于标识知识所归属的层级;层级为二级主题类别细分后的类 别;
[0203] 主题顺序编码区域,用于标识归属于相同一级主题类别以及相同二级主题类别的 各个主题的顺序;
[0204] 例如,主题编码规则将主题分成五个部分,分别是主题头、主题分类、主题子类、层 级、顺序序号,如图7所示,为主题结构图。
[0205] 主题头为一位,以S开头表示主题编码;
[0206] 主题分类为两位,是主题的大分类编码;
[0207] 主题子类为两位,是主题分类的二级子类;
[0208] 层级为两位,层级代表领(01)、工程(02)、项目(03)、任务(04)、流程(05)、活动 (06);
[0209] 顺序序号为四位,是主题的顺序码。
[0210] (2)问题编码区域
[0211] 问题同样作为知识的一部分,其用于紧邻知识的分类,同一问题下的知识用于解 决同一问题下得问题,而这部分知识所形成的知识网被称为知识小网络。
[0212] 问题编码区域包括:问题头编码区域、层级编码区域、对象编码区域和子对象编码 区域;
[0213] 其中,问题头编码区域,用于标识编码的类型为问题编码;
[0214] 层级编码区域,用于标识问题所归属的层级;
[0215] 对象编码区域,用于标识问题所归属的一级对象;其中,一级对象为层级细分后的 对象;
[0216] 子对象编码区域,用于标识问题所归属的二级对象;其中,二级对象为一级对象细 分后的对象。
[0217] 例如,问题编码规则将问题分为四个部分:问题头、层级、对象、子对象,如图8所 示,为问题结构图。
[0218] 问题头为一位,以P开头表示主题编码;
[0219] 层级为两位,代表领域(01)、工程(02)、项目(03)、任务(04)、流程(05)、活动 (06);
[0220] 对象为五位,为问题的对象;
[0221] 子对象为三位,为问题对象的子对象。
[0222] S4,定义用于评估知识可信度的知识可信度规则,得到知识可信度;
[0223] 例如,知识可信度规则定义从0到100进行取值,当知识可信度取值为0时,该知 识完全不可信,则是伪知识,当知识可信度为100时,该知识完全可行,放入元知识中。知识 可信度是对知识评估值,也是对知识正确性的评价,部分可信知识都会作为方法型知识保 存,大概率可信知识也可以放到元知识管理。
[0224] S5,定义知识结构组织模型;其中,知识结构组织模型由标识编码、标注编码、知识 编码和知识可信度组合而成;并且,标识编码位于最底层,标注编码位于标识编码的上一 层,知识编码位于标注编码的上一层;
[0225] 具体的,知识是多层次结构,顶层为一个大标注和若干个标识组合而成,最小标注 形成的知识仅有一层,因此这里仅定义顶层结构形式。知识结构的格式为〈知识编码 >〈标 注编码 >(〈标识编码 >[,〈标识编码〉])〈可信度〉,如表13所示,为知识结构示例。
[0226] 表 13
LUWB」 见外,知识迅低兀知识邪业分知识。兀知识迅低知识兀、你识、你壮、规则,定七'们 的统称,任何一部分都是元知识,都属于元知识,元知识的知识编码没有前2段,元知识包 括规则和元规则,规则是概念级的数据元之间的联系,没有具体问题与主题。元规则是最高 层次的抽象,其描述的是标识类别与标注类别之间的联系。业务知识是针对某一业务相关 的知识,业务知识可以有多个主题编码,编码之间用逗点分割。
[0229] S6,基于知识结构组织模型进行知识自学习。
[0230] 本步骤具体为:
[0231] S6. 1,建立可动态更新的标识样本库、样注样本库和标准知识库;
[0232] 其中,标识样本库用于存储所有的标识编码;标注样本库用于存储所有的标注编 码;标准知识库用于存储已验证的知识编码;
[0233] S6. 2,每当知识自学习的触发时刻到来时,按一定的选取规则从样注样本库中读 取指定标注编码;
[0234] S6. 3,对指定标注编码进行分析,得到指定标注编码所涉及到的概念名称、概念角 色和联系规则;即:各个概念名称之间的联系为符合联系规则的联系;
[0235] S6. 4,假设指定标注编码所涉及到的概念名称的数量为n,假设标识样本库中共存 在m个标识,其中,m > η ;
[0236] 则:从m个标识中选取η个标识组为一个单元组,由此共得到ρ个单元组;
[0237] 对于每个单元组所涉及到的η个标识,再通过调配η个标识的角色,由此得到a种 组合;
[0238] 通过上述方式,可共得到p*a组组合;
[0239] S6. 5,对于p*a组组合中的每组组合,均执行以下操作:
[0240] 对于任意一组组合,记为组合i,在联系规则的约束下,组合i即转化为初始知识;
[0241] 验证初始知识是否与标准知识库中的某个标准知识相同,如果相同,则删除初始 知识;如果不相同,进一步验证初始知识是否为伪知识,如果是,则删除初始知识;如果否, 则表明初始知识为真知识,将其作为标准知识,存入标准知识库,由此扩大了标准知识库存 储的标准知识的数量。
[0242] 本发明提供的基于6W知识表示的自学习方法,通过分别定义标识结构、标注结构 和知识结构,再基于所定义的标识结构、标注结构和知识结构,快速高效的扩充知识,有利 于智能智慧体系建设。
[0243] 以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人 员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应 视本发明的保护范围。
【主权项】
1. 一种基于6W知识表示的自学习方法,其特征在于,包括以下步骤: S1,定义每个概念的标识结构;其中,所述标识结构包括标识编码; 52, 定义用于描述概念与概念之间联系的标注结构;其中,所述标注结构包括标注编 码; 53, 定义用于描述知识的知识编码;其中,所述知识编码包括三部分,分别为主题编码 区域、问题编码区域和知识顺序编码区域; 54, 定义用于评估知识可信度的知识可信度规则,得到知识可信度; 55, 定义知识结构组织模型;其中,所述知识结构组织模型由所述标识编码、所述标注 编码、所述知识编码和所述知识可信度组合而成;并且,所述标识编码位于最底层,所述标 注编码位于所述标识编码的上一层,所述知识编码位于所述标注编码的上一层; 56, 基于所述知识结构组织模型进行知识自学习。2. 根据权利要求1所述的基于6W知识表示的自学习方法,其特征在于,S1具体为: 所述标识结构包括三部分,分别为:标识编码、标识名称和标识类型类别; (1) 所述标识编码包括: 标识头编码区域、数据元层级编码区域、概念模型一级大类编码区域、概念模型二级小 类编码区域、类型编码区域和标识顺序编码区域; 其中,所述标识头编码区域,用于标识编码的类型为标识编码; 所述数据元层级编码区域,用于标识概念所属的数据元层级; 所述概念模型一级大类编码区域,用于标识概念所属的一级大类; 所述概念模型二级小类编码区域,用于标识概念所属的二级小类;其中,概念所属的二 级小类为概念所属的一级大类细分后的类别; 所述类型编码区域,用于标识所述标识编码的类型; 所述标识顺序编码区域,用于标识归属于同一种一级大类、二级小类下的不同概念; (2) 所述标识名称用于描述概念名称,并且,所述标识名称采用概念所属不同层级之间 继承关系的表现形式进行描述; (3) 所述标识类型类别包括标识类别和标识类型; 所述标识类别用于描述概念所属的一级大类和所述一级大类细分后的二级小类; 所述标识类型用于描述所述标识类别所对应的数据类型,便于计算机处理识别。3. 根据权利要求2所述的基于6W知识表示的自学习方法,其特征在于,对于所述数据 元层级编码区域,所标识的概念所属的数据元层级包括三层,分别为:概念数据元、逻辑数 据元和应用数据元。4. 根据权利要求2所述的基于6W知识表示的自学习方法,其特征在于,所述标识名称 采用概念所属不同层级之间继承关系的表现形式进行描述,包括两类,分别为表示形式的 标识名称和简化形式的标识名称; 所述表示形式的标识名称具体为: (1)定义以下的四层结构: 第一层结构,系列:对象、活动; 第二层结构,集合:对象、活动、参与者、结果; 第三层结构,实体:参与者、活动、时间、地点、结果、对象、特征; 第四层结构,子集:时间、地点、对象、特征; (2)获得概念所属的对应的四层结构,将所获得的四层结构组合到一起,其中,结构与 结构之间定义分隔符号,每个结构又分为若干阶,定义相邻阶之间的分隔符;每阶中又有若 干位,每个概念的概念名称代表一位;如果某个结构中的某个概念具有附带特征或者属性 的,则在该概念后首先增加分隔符,再在分隔符后面增加所述附带特征或者属性,由此组合 得到所述表示形式的标识名称; 所述简化形式的标识名称为:将所述表示形式的标识名称中的每个概念名称映射为概 念标识,即得到所述简化形式的标识名称。5. 根据权利要求2所述的基于6W知识表示的自学习方法,其特征在于,所述标识类别 中的所述一级大类以及一级大类细分后的二级小类参见下表: 一级大类|二级小类 WWM 时间、次序、步长、速节 地点类 绝对、相对、参照、拓扑 WWM 设施、设备、零部件、材料 参与者类作业者、执行者、操作者、参与者 iill 领域、过程、活动、设计、规划、实施、审核、总结 1S1 矢量数据、报告、流资料、附近 mm 值域、编码、描述、逻辑 ?1 范围、状态、性质、场景 所述标识类型包括:系列类型、集合类型、实体类型、子集类型、数字类型、字符类型、数 据体、布尔型类型、复合型类型、文本类型、超文本类型、二进制类型、时间类型、枚举类型、 枚举值类型、资料类型、附件类型、特征值类型、报告类型、图件类型、光盘类型、磁带类型和 预留类型。6. 根据权利要求1所述的基于6W知识表示的自学习方法,其特征在于,S2,所述标注结 构包括六部分,分别为:标注编码、标注符号、标注名称、标注参数、标注描述和标注主体; (1) 所述标注编码包括: 标注头编码区域、标注大类编码区域、标注小类编码区域和标注顺序编码区域; 其中,所述标注头编码区域,用于表示编码的类型为标注编码; 所述标注大类编码区域,用于表示联系所属的大类; 所述标注小类编码区域,用于表示联系所属的小类;其中,联系所属的小类为联系所属 的大类细分后的类别; 所述标注顺序编码区域用于表示属于同一小类下的联系的编码; (2) 所述标注符号为联系的符号表达形式; (3) 所述标注名称用于直观明确的描述联系的含义; (4) 所述标注参数用于表示发生联系的各个概念的名称以及各个概念在所述联系中的 角色; (5) 所述标注描述,用于以自然语言描述或者函数表达式形式,清晰描述联系本身; (6) 所述标注主体是联系所依附的实体。7. 根据权利要求6所述的基于6W知识表示的自学习方法,其特征在于,将所述标注结 构区分为通用标注类别结构和扩展标注类别结构;所述通用标注类别结构和所述扩展标注 类别结构的区别为:所涉及到的标注大类编码区域的范围不相同。8. 根据权利要求1所述的基于6W知识表示的自学习方法,其特征在于, S3中,所述知识编码由三段组合而成,段间采用分隔符分隔;所述三段分别为:主题编 码区域、问题编码区域和知识顺序编码区域;并且,所述主题编码区域由多个具有继承关系 的子主题编码区域组合而成,位于最底层的子主题为所描述的知识所归属的主题; 每个所述子主题编码区域均包括:主题头编码区域、主题分类编码区域、主题子类编码 区域、层级编码区域和主题顺序编码区域; 其中,所述主题头编码区域,用于标识编码的类型为主题编码; 所述主题分类编码区域,用于标识知识所归属的一级主题类别; 所述主题子类编码区域,用于标识知识所归属的二级主题类别;其中,所述二级主题类 别为所述一级主题类别细分后的类别; 所述层级编码区域,用于标识知识所归属的层级;所述层级为所述二级主题类别细分 后的类别; 所述主题顺序编码区域,用于标识归属于相同一级主题类别以及相同二级主题类别的 各个主题的顺序; 所述问题编码区域包括:问题头编码区域、层级编码区域、对象编码区域和子对象编码 区域; 其中,所述问题头编码区域,用于标识编码的类型为问题编码; 所述层级编码区域,用于标识问题所归属的层级; 所述对象编码区域,用于标识问题所归属的一级对象;其中,所述一级对象为所述层级 细分后的对象; 所述子对象编码区域,用于标识问题所归属的二级对象;其中,所述二级对象为所述一 级对象细分后的对象。9. 根据权利要求1所述的基于6W知识表示的自学习方法,其特征在于,S6具体为: S6. 1,建立可动态更新的标识样本库、样注样本库和标准知识库; 其中,所述标识样本库用于存储所有的标识编码;所述标注样本库用于存储所有的标 注编码;所述标准知识库用于存储已验证的知识编码; S6. 2,每当知识自学习的触发时刻到来时,按一定的选取规则从所述样注样本库中读 取指定标注编码; S6. 3,对所述指定标注编码进行分析,得到所述指定标注编码所涉及到的概念名称、概 念角色和联系规则;即:各个所述概念名称之间的联系为符合所述联系规则的联系; S6. 4,假设所述指定标注编码所涉及到的概念名称的数量为n,假设所述标识样本库中 共存在m个标识,其中,m > η ; 贝lj :从m个标识中选取η个标识组为一个单元组,由此共得到ρ个单元组; 对于每个单元组所涉及到的η个标识,再通过调配η个标识的角色,由此得到a种组 合; 通过上述方式,可共得到P*a组组合; S6. 5,对于p*a组组合中的每组组合,均执行以下操作: 对于任意一组组合,记为组合i,在所述联系规则的约束下,组合i即转化为初始知识; 验证所述初始知识是否与所述标准知识库中的某个标准知识相同,如果相同,则删除 所述初始知识;如果不相同,进一步验证所述初始知识是否为伪知识,如果是,则删除所述 初始知识;如果否,则表明所述初始知识为真知识,将其作为标准知识,存入所述标准知识 库,由此扩大了标准知识库存储的标准知识的数量。
【文档编号】G06N5/02GK105844335SQ201510022109
【公开日】2016年8月10日
【申请日】2015年1月15日
【发明人】夏冬梅
【申请人】克拉玛依红有软件有限责任公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1