一种基于模型和领域知识驱动的信息处理系统的制作方法

文档序号:16248728发布日期:2018-12-11 23:49阅读:402来源:国知局
一种基于模型和领域知识驱动的信息处理系统的制作方法

本发明公开了一种基于模型和领域知识驱动的信息处理系统,具体为数据挖掘与处理技术领域。

背景技术

数据挖掘是一个从大规模数据库中抽取有效的、隐含的、以前未知的、有潜在使用价值的信息过程。作为计算机科学的一个新的分支,数据挖掘技术得到了许多学者的关注。数据挖掘的过程实质上是知识表示形式的转化过程,领域知识来源于人工智能领域,是主体关于某一特定专业领域的事物所处状态及变化规律的表述,集合了某一领域内的概念、概念之间的相互关系自己有关概念的约束,其主要用于自然语言理解系统和基于知识的专家系统。随着知识研究和知识工程的兴起,从知识工程的角度,有探究提出领域知识是一个概念化模型,该模型包括了概念与概念之间的关系,概念和概念之间的约束,描述推导或计算出新概念额新概念之间关系的规则。

对海量信息的进行有效的处理的需求极大的推动了信息处理技术的研究,如分词、命名实体识别、信息检索以及自动分类等技术的研究都是当下的研究热门课题。一般而言,信息处理技术较多的采用的是基于统计的方法,利用人工标注的语料进行训练,标注语料时不需要广博的语言学知识,并且可以在较短的时间内完成,但是这种方式其实现方法较为复杂,系统不可扩展且可移植性较弱。为此,我们提出了一种基于模型和领域知识驱动的信息处理系统投入使用,以解决上述问题。



技术实现要素:

本发明的目的在于提供一种基于模型和领域知识驱动的信息处理系统,以解决上述背景技术中提出的问题。

为实现上述目的,本发明提供如下技术方案:一种基于模型和领域知识驱动的信息处理系统,包括用户管理模块、数据预处理模块、数据特征分析模块、分类聚类模块、数据挖掘模块领域知识库以及评价输出模块;

所述用户管理模块提供用户下发信息处理的相关领域的有关情况,并剔除信息处理要求,包括实际应用过程中的预备知识和目标以及领域有关的背景知识;

所述数据预处理模块用于从原始数据中提取与所述用户管理模块下发的有关数据,并从这些数据中进行知识提取,检查数据的完整性和一致性,摒弃与数据挖掘目标不相关的属性,为数据挖掘过程提供准确、有针对性的数据,并建立一个数据目标集;

所述数据特征分析模块用于接收所述数据预处理模块中建立的数据目标集,根据领域知识发现的任务对数据信息进行再处理,提取信息特征值并上传至所述数据挖掘模块中;

所述数据挖掘模块根据所述特征分析模块上传的数据信息特征值,选取数据模型和参数,利用挖掘工具进行知识发现;

所述分类聚类模块根据数据信息的内容自动判别数据类别,其聚类分类的方式通过将数据表示成词的向量矩阵并计算其间的距离来实现;

所述领域知识库包括用户界面层、应用层、领域应用层、领域知识层以及基础设施层;所述用户界面层负责向用户显示信息和解释用户指令;所述应用层负责系统软件完成的任务,不包含业务规则或者知识,为所述领域应用层的对象协调任务、分配资源,指挥领域对象处理问题;所述领域应用层负责表达业务流程和活动中心业务对象的职能、规则和状态;所述领域知识层用于表达业务领域中与业务知识相关的概念、算法、规则;所述基础设施层提供相应的技术框架支撑领域知识模型扩展和管理。

所述评价输出模块用于根据用户的决策目的对提取的信息进行分析,将最有价值的信息区分开,并通过决策支持工具提交给用户,同时针对信息进行过滤处理,若用户不满意,则重复数据挖掘过程。

优选的,所述数据预处理模块采用统计模型对丢失的数据进行填补,去除数据信息噪音和空白数据域。

优选的,所述数据预处理模块将多源数据转换为有效的数据格式,在根据用户感兴趣的主观设定的参数,转换成布尔型的数据值,从而减少数据挖掘的工作量。

优选的,所述数据挖掘模块中的挖掘工具采用粗糙集、决策树或概念格对不同的数据集进行挖掘。

优选的,所述分类聚类模块的实现过程如下:设计特征词的编码形式,对先验知识、用户兴趣以及用户控制及特定任务的约束进行编码;设计增量的数据驱动自主式知识获取算法模型,即将原始数据、先验知识、用户兴趣以及用户控制及特定任务的约束整合成一个整体作为算法的输入,其中原始数据、先验知识、用户兴趣以及用户控制及特定任务的约束作为算法的静态输入,而增量数据和用户的动态控制作为该算法的动态输入。

优选的,所述的业务知识为所述应用层中的业务活动和所述领域应用层中的领域对象须遵循的规律或制度。

优选的,所述基础设施层中的技术框架包括通用技术能力持久化、事务、上下文环境、缓存、消息通道、任务调度以及ui组件。

优选的,所述用户管理模块通过rs232或rs485总线与所述数据挖掘模块之间进行通信。

优选的,所述领域知识库还包括一个分布式的数据存储库,且数据存储库设置一组数据查询端口,用于查询当前数据和历史数据。

与现有技术相比,本发明的有益效果是:本发明将丰富的领域知识分离为一个独立的领域知识层,独立建模、实现、管理和应用,并据此建立基于领域知识的模型,可实现将领域知识对象注入到业务对象中,在分析实际数据挖掘任务的前提下,利用将用户的兴趣度、领域先验知识及约束连同原始数据一起,作为数据挖掘的输入,其数据处理的方法简单、系统可扩展性强。

附图说明

图1为本发明系统原理框图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅图1,本发明提供一种技术方案:一种基于模型和领域知识驱动的信息处理系统,包括用户管理模块、数据预处理模块、数据特征分析模块、分类聚类模块、数据挖掘模块领域知识库以及评价输出模块;

所述用户管理模块提供用户下发信息处理的相关领域的有关情况,并剔除信息处理要求,包括实际应用过程中的预备知识和目标以及领域有关的背景知识;

所述数据预处理模块用于从原始数据中提取与所述用户管理模块下发的有关数据,并从这些数据中进行知识提取,检查数据的完整性和一致性,摒弃与数据挖掘目标不相关的属性,为数据挖掘过程提供准确、有针对性的数据,并建立一个数据目标集;

所述数据特征分析模块用于接收所述数据预处理模块中建立的数据目标集,根据领域知识发现的任务对数据信息进行再处理,提取信息特征值并上传至所述数据挖掘模块中;

所述数据挖掘模块根据所述特征分析模块上传的数据信息特征值,选取数据模型和参数,利用挖掘工具进行知识发现;

所述分类聚类模块根据数据信息的内容自动判别数据类别,其聚类分类的方式通过将数据表示成词的向量矩阵并计算其间的距离来实现;

所述领域知识库包括用户界面层、应用层、领域应用层、领域知识层以及基础设施层;所述用户界面层负责向用户显示信息和解释用户指令;所述应用层负责系统软件完成的任务,不包含业务规则或者知识,为所述领域应用层的对象协调任务、分配资源,指挥领域对象处理问题;所述领域应用层负责表达业务流程和活动中心业务对象的职能、规则和状态;所述领域知识层用于表达业务领域中与业务知识相关的概念、算法、规则;所述基础设施层提供相应的技术框架支撑领域知识模型扩展和管理。

所述评价输出模块用于根据用户的决策目的对提取的信息进行分析,将最有价值的信息区分开,并通过决策支持工具提交给用户,同时针对信息进行过滤处理,若用户不满意,则重复数据挖掘过程。

其中,所述数据预处理模块采用统计模型对丢失的数据进行填补,去除数据信息噪音和空白数据域,所述数据预处理模块将多源数据转换为有效的数据格式,在根据用户感兴趣的主观设定的参数,转换成布尔型的数据值,从而减少数据挖掘的工作量,所述数据挖掘模块中的挖掘工具采用粗糙集、决策树或概念格对不同的数据集进行挖掘,所述分类聚类模块的实现过程如下:设计特征词的编码形式,对先验知识、用户兴趣以及用户控制及特定任务的约束进行编码;设计增量的数据驱动自主式知识获取算法模型,即将原始数据、先验知识、用户兴趣以及用户控制及特定任务的约束整合成一个整体作为算法的输入,其中原始数据、先验知识、用户兴趣以及用户控制及特定任务的约束作为算法的静态输入,而增量数据和用户的动态控制作为该算法的动态输入,所述的业务知识为所述应用层中的业务活动和所述领域应用层中的领域对象须遵循的规律或制度,所述基础设施层中的技术框架包括通用技术能力持久化、事务、上下文环境、缓存、消息通道、任务调度以及ui组件,所述用户管理模块通过rs232或rs485总线与所述数据挖掘模块之间进行通信,所述领域知识库还包括一个分布式的数据存储库,且数据存储库设置一组数据查询端口,用于查询当前数据和历史数据。

工作原理:在使用时,用户管理模块提供用户下发信息处理的相关领域的有关情况,并剔除信息处理要求,数据预处理模块用于从原始数据中提取与用户管理模块下发的有关数据,并从这些数据中进行知识提取,检查数据的完整性和一致性,摒弃与数据挖掘目标不相关的属性,为数据挖掘过程提供准确、有针对性的数据,并建立一个数据目标集,数据特征分析模块用于接收数据预处理模块中建立的数据目标集,根据领域知识发现的任务对数据信息进行再处理,提取信息特征值并上传至数据挖掘模块中,数据挖掘模块根据特征分析模块上传的数据信息特征值,选取数据模型和参数,利用挖掘工具进行知识发现分类聚类模块根据数据信息的内容自动判别数据类别,其聚类分类的方式通过将数据表示成词的向量矩阵并计算其间的距离来实现,本发明中的领域知识库包括用户界面层、应用层、领域应用层、领域知识层以及基础设施层,用户界面层负责向用户显示信息和解释用户指令,应用层负责系统软件完成的任务,不包含业务规则或者知识,为领域应用层的对象协调任务、分配资源,指挥领域对象处理问题,领域应用层负责表达业务流程和活动中心业务对象的职能、规则和状态,领域知识层用于表达业务领域中与业务知识相关的概念、算法、规则,基础设施层提供相应的技术框架支撑领域知识模型扩展和管理,评价输出模块用于根据用户的决策目的对提取的信息进行分析,将最有价值的信息区分开,并通过决策支持工具提交给用户,同时针对信息进行过滤处理,若用户不满意,则重复数据挖掘过程。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1