一种基于知识图谱的信息系统管理方法与流程

文档序号:20010305发布日期:2020-02-22 04:02阅读:277来源:国知局
一种基于知识图谱的信息系统管理方法与流程
本发明涉及知识图谱领域,具体为一种基于知识图谱的信息系统管理方法,旨在帮助企业决策者和技术管理人员宏观把握企业内部信息系统的结构和联系,为进一步优化企业内部组织结构和业务流程提供指导依据。
背景技术
:在经济全球化和科技技术不断进步的大背景下,不同行业的公司都引进各类信息系统提高企业工作效率。然而,许多企业在信息化过程中并没有从企业整体层面考虑,不同部门自行搭建系统,割断了企业内部流程的联系;另一方面,大型企业和集团企业部门众多,可能存在各式各样的系统。这些都导致管理决策者无法宏观掌握企业信息化的总体概况,更严峻的是,随着组织机构和业务的调整,信息系统还将不断更新换代,这就更加大了企业信息化管理的难度,甚至由于各个信息系统数据的梳理和整合十分耗时,最终延误商机并影响管理层的重大决策。因此,在企业信息化的整体设计、方案论证以及建设实施整个过程中,企业决策者和技术管理者急需一套管理工具,通过收集各个部门所掌握的系统资料,梳理内部各个系统的具体功能,以及各系统间的关系,数据、资金流向等,从而在整体上把握企业各个信息系统的交互关系和业务流程,并据此为企业的各类信息化业务设计更好的运行机制,优化企业管理和运作方案。知识图谱(knowledgegraph,kg)旨在描述客观世界中的实体、概念、事件、属性以及这些因素之间的联系。知识图谱技术融合了知识表示、信息检索和抽取、机器学习、数据挖掘、自然语言处理以及语义网等的多个领域的研究成果,利用图论思想,采用结点和边构成的连通结构代表真实世界中丰富的实体和关系,可以直观有效地表征事物之间的联系和作用机制,利用知识图谱这一特点,可以对企业内部的实体、关系构成的网络做进一步分析、找到企业管理存在的结构性风险,可指导商业决策和组织结构优化。在企业知识图谱研究领域,现有的文献和专利主要集中在企业间的关系图谱构建,其基本思路是搜集网络上的企业百科、企业年报、股权信息和新闻报道等数据,通过实体和关系的识别,生成企业之间归属、收购、交易等关系,为监管机构和客户提供风险预测和控制的线索、也可帮助销售部门发掘可能的意向企业客户。另有少部分文献和专利聚焦于企业内部管理,但是这些研究通常仅仅是考虑企业内部的知识管理本身,如将企业的各类电子文档进行归类整理,形成企业的具体事务流程的知识图谱,供员工检索和查询,提高各类事务处理的效率和准确度。然而,上述研究忽略了知识图谱可以反映企业内部复杂结构和关系的巨大潜力,仅仅将知识图谱作为企业间关系梳理和企业内部业务知识管理的工具,尤其是在目前尚无很好的方法对企业内部信息系统进行梳理的情况下,没有在企业内部信息管理中充分发挥出知识图谱本身的价值。技术实现要素:针对企业不能够对内部信息进行系统梳理的问题,本发明提供一种基于知识图谱的信息系统管理方法,利用企业各类信息系统的数据和文档资料,对信息系统进行实体和关系的抽取,构建企业内部信息系统的知识图谱,融合数据的多元特征和支持向量机算法进行自动化的关系推理,挖掘出系统之间的关系结构,并利用可视化技术直观呈现,帮助企业管理者和技术管理人员深入分析企业信息系统之间的复杂结构和关系,更好地支持商业决策和业务流程优化。本发明是通过以下技术方案来实现:一种基于知识图谱的信息系统管理方法,包括以下步骤:步骤s1:获取多源异构数据;步骤s2:设计知识图谱结构;步骤s3:提取步骤s1得到的多源异构数据中的三元组数据,根据三元组数据并结合步骤s2设计的知识图谱结构,构建知识图谱;步骤s4:对步骤s3得到的三元组数据进行校对和整合,使整合后的三元组数据满足评审要求;步骤s5:对步骤s4整合后的三元组数据进行处理,挖掘隐藏的三元组数据;步骤s6:将步骤s5得到的隐藏的三元组数据与步骤s4整合后的三元组数据合并,并补充至步骤s3构建知识图谱中,完善知识图谱。优选的,步骤s1中所述多源异构数据包括技术文档、测试分析报告、运行日志数据和用户反馈数据。优选的,步骤s3中所述提取三元组数据的方法如下:将多源异构数据分别输入至设计好的人工迭代规则模板和训练好的支持向量机svm模型中,提取三元组数据,并将人工迭代规则模板和支持向量机svm模型分别提取的三元组数据进行合并。优选的,所述人工迭代规则模板提取三元组数据的方法如下:首先,根据步骤2知识图谱结构中系统属性和关系,定义实体和关系的关键词词典和句式模板,编制关键词抽取规则,通过关键词词典和句式模板编写正则表达式,完成人工迭代规则模板的设计;然后,将多源异构数据输入至人工迭代规则模板,提取满足人工迭代规则模板条件的三元组。优选的,所述支持向量机svm模型包括分类svm模型和关系svm模型,分类svm模型利用特征分类识别出多源异构数据中的实体,关系分类svm模型用于确定两个实体之间的关系;分类svm模型的训练方法如下:首先,对多源异构数据中的实体进行标注,然后将标注的多源异构数据进行切分,并将切分后的字词短语分为若干类,最后若干类字词短语作为训练集,输入分类svm模型,完成分类svm模型的训练;关系svm模型的训练方法如下:首先,对多源异构数据中的实体关系标注,将同一文本中出现的实体两两组合,然后将组合后的实体作为训练集,输入至关系svm模型,完成关系svm模型的训练。优选的,步骤s4中三元组数据进行校对和整合的方法如下:删除不正确的三元组,保留正确的三元组,对正确的三元组中存在冗余和歧义的三元组数据进行实体消歧。优选的,步骤s5中挖掘隐藏的三元组数据的方法如下:1)设计关系传递的逻辑规则推理,采用图搜索算法遍历步骤s4整合后的三元组数据,提取隐藏的三元组数据;2)将隐藏的三元组数据合并至整合后的三元组数据中,形成新的三元组数据;3)将步骤2得到的新的三元组数据输入训练好的svm-adaboost模型中,继续提取隐藏的三元组数据;4)将步骤3提取的隐藏的三元组数据再合并至步骤2得到的新的三元组数据中。优选的,所述svm-adaboost模型的训练方法如下:1)设定模型提取的特征,特征包括三元组中头部和尾部的词和词性,以及所在的上下文的词性和n-gram特征;2)构建关系推理模型,选择工具库;3)采用gridsearch网格搜索方法对svm-adaboost模型进行参数配置;4)分析三元组数据内部的关系类型,对每一类关系进行负采样,将属于该关系的三元组作为正样本,将不属于该关系的三元组作为负样本,根据正样本和负样本构建负样本集和正样本集,得到该关系对应的关系二分类数据集;5)将得到的二分类数据集作为训练集输入至svm-adaboost模型中,对其进行训练。优选的,还包括以下步骤:步骤s7,对完善的知识图谱进行可视化;采用b/s架构的编程框架,采用python、html、css或javascript编程语言,在anaconda2.7、tornado、mysql、jquery或pycharm开发环境下设计知识图谱展示网页;展示网页包括注册模块、登录模块、知识图谱可视化模块和知识图谱推理可视化模块以及批量导入模块。与现有技术相比,本发明具有以下有益的技术效果:本发明公开了一种基于知识图谱的信息系统管理方法,利用企业信息化系统中的源异构数据,综合利用迭代规则和机器学习的算法抽取数据中的实体和关系,构建企业信息系统的知识图谱。在抽取的三元组数据基础上,结合逻辑规则和机器学习实现知识图谱的关系推理,挖掘出企业内部信息系统的隐藏关系,补充和完善已有的知识图谱数据。针对现有企业信息化管理中宏观设计考虑不到位、不同部门系统难以交互整合导致企业内部信息系统难以管理的问题,利用知识图谱反映复杂结构和关系的先天优势,直观全面地展示企业各个信息系统的组成结构和交互关系,并能挖掘出隐藏的系统关系,帮助企业决策者和技术管理人员宏观把握企业内部信息系统的交互关系,并能挖掘出系统间隐藏的关系,为进一步优化企业内部组织结构和业务流程提供指导依据,促进企业内部信息化建设更加健康稳定发展。附图说明图1为本发明基于知识图谱的企业信息系统管理的底层服务器架构设计图;图2为本发明企业信息系统的知识图谱结构设计的示意图;图3为本发明综合利用逻辑规则和机器学习进行实体间关系推理的示意图;图4为本发明融合多源特征和支持向量机的关系推理示意图;图5为本发明利用b/s模式可视化展示企业信息系统的知识图谱效果图。具体实施方式下面结合附图对本发明做进一步的详细说明,所述是对本发明的解释而不是限定。一种基于知识图谱的信息系统管理方法,包括以下步骤:步骤1:搜集企业内部信息系统的数据资料,并整理为可处理的文本格式,具体为:首先,需要从企业内部搜集构建知识图谱的多源异构数据,可综合搜集信息系统的技术文档、测试分析报告、运行日志数据和用户反馈,这些数据结构多样,包括无结构化数据、半结构化数据、结构化数据,可将无结构化的数据整理为txt文本、半结构化和结构化数据,故可以转存为表格,用csv格式存储。信息系统的技术文档、测试报告、运行日志和用户反馈是典型的无结构化文本,通常在需求分析、系统设计以及功能测试部分,包含有系统交互的描述文字,这部分文字可作为数据源,例如下面的文本:“在同步营业数据时,营业系统首先向erp系统传送收入信息并同步机构等主数据,同时向crm系统发送客户注册信息或客户交易信息;在crm系统和对客户数据后,crm从erp同步机构数据,并向erp同步客户数据,实现信息的核对。在分析营业数据时,数据平台抓取erp数据,进行业务整体数据分析。”在一些功能设计和测试文档中,通常有半结构化和结构化表格形式的数据,列入下面信息系统流程梳理表单:对于这部分数据,可以采用csv格式存储,具体格式为:"流程号","源","目的","流程名称","类型","具体内容","1","营业系统","erp系统","营业-erp","传送数据、同步数据","向erp传送收入信息_同步机构等主数据","2","发行系统","erp系统","报刊发行-erp","传送数据","向erp传送结算信息_获取机构等主数据信息","3","crm系统","erp系统","crm-erp","同步数据","从erp同步机构数据_向erp同步客户数据","4","电子商务平台","数据平台","大数据-电商","抓取数据","抓取电商业务数据"。步骤2:设计企业内部信息系统的知识图谱结构。根据获得的多源异构数据,可以邀请各部门管理者和外部专家总结出企业内部包含多类型、多层次的各种信息管理系统和数据平台等信息系统,梳理出系统之间存在并列、隶属和交互的复杂关系,包括双向或单向的关系,也包含多种不同的属性。此部分需要汇总各个管理部门的专家经验,针对实际的系统设计知识图谱的实体本体属性和关系种类。将营业系统、发行系统、电子商务平台等面向客户的系统归属为业务信息系统,将crm和erp等企业后台管理系统归为业务支撑信息系统,将数据平台等用于数据提取和分析的信息系统。则可以定义不同的信息系统本体和属性,在本实施例中,可定义业务信息系统、业务支撑信息系统和数据分析信息系统三种本体。不同本体有不同属性,比如业务信息系统的属性是其所服务的客户、提供的具体业务;业务支撑信息系统的属性包括其管理的具体资源类别、支撑的业务类型;数据分析信息系统的属性包括分析的数据类型、数据源头和分析结果等。满足本体定义的具体系统即为该本体的实体,如营业系统、发行系统、电子商务平台是业务信息系统下的实体,crm和erp是业务支撑信息系统的实体,数据平台是数据分析信息系统的实体。此外,不同本体之间还存在不同的关系种类,如业务信息系统会向业务支撑信息系统发送业务数据,并从业务支撑信息系统同步基础数据,数据分析信息系统可以抓取业务支撑信息系统的数据进行统计分析。因此,在这个例子中可按照三元组(本体1-关系-本体2)定义如下本体之间的关系种类:关系种类1:业务信息系统—发送数据—业务支撑信息系统关系种类2:业务支撑信息系统—同步数据—业务信息系统关系种类3:数据分析信息系统—抓取数据—业务信息系统步骤3:利用实体和关系抽取技术,提取多源异构数据中的三元组数据,根据三元组数据并结合设计的知识图谱结构,生成企业信息系统的知识图谱;将多源异构数据分别输入至设计好的人工迭代规则模板和训练好的支持向量机svm模型中,提取三元组数据,并将人工迭代规则模板和支持向量机svm模型分别提取的三元组数据进行合并,具体如下:人工迭代规则模板的方法是结合步骤2中对系统属性和关系的设计,定义实体和关系的关键词词典和句式模板,编制关键词抽取规则,作为知识抽取的种子规则模板。如“数据[平台|系统]”、“下载[平台|系统]”、“业务[平台|系统]”、“**[平台|系统]”、“工单系统”、“客服系统”、“管理系统”等关键词,“……[平台|系统]……对接……[平台|系统]和……[平台|系统]”、“……[平台|系统]和……[平台|系统]对接”、“……对接……[平台|系统]包括……”等。通过关键词词典和常见句式模板编写正则表达式,从的相关内容文本中抽取关键词,提取出明显的实体、属性和关系,得到三元组数据。本实施例中,通过模版“……[平台|系统]向[平台|系统]……”可以从文本“营业系统首先向erp系统传送收入信息并同步机构等主数据”中识别出“营业系统”、“erp系统”两个实体,并能发现二者存在传送数据的关系,用三元组形式表示为:“(营业系统—发送数据—erp系统)”。机器学习抽取算法利用支持向量机svm模型,其包括分类svm模型和关系svm模型。分类svm模型利用特征分类识别出多源异构数据中的实体。关系svm模型用于确定两个实体之间的关系。分类svm模型和关系svm模型均使用python中的sklearn工具库实现。分类svm模型的特征包括n-gram特征、词性特征、tf-idf特征、上下文特征(中心词上下文中在一定窗口内的词语,上下文在区分不同类型的词语上具有重要的作用)、概率特征、核心词特征等特征(训练语料文本中统计得到的高频的命名实体核心词,核心词往往能够提供重要的特征线索)。分类svm模型需要一定数量的文本训练得到,在构建模型时需要对文本进行实体标注,然后再对标注后的多源异构数据进行分词,在对文本进行分词后,对每个切分的字词短语进行分类,切分的字词可分为b、i、e、s、o五类,分别表示对应的字词属于某个实体的开始词、中间词、结束词、该词单独是一个实体和该词不属于任何实体五种情况。本实施例中对于下面的文本:“在同步营业数据时,营业系统首先向erp系统传送收入信息并同步机构等主数据。”对其进行分词可以得到以下分词词组:“在”,“同步”,“营业”,“数据”,“时”,“营业”,“系统”,“首先”,“向”,“erp”,“系统”,“传送”,“收入”,“信息”,“并”,“同步”,“机构”,“等”,“主”,“数据”,其中,通过判断每个词组是否对应为实体的一部分,对其进行标注,标注结果分别为:o,o,o,o,o,b,e,o,o,b,e,o,o,o,o,o,o,o,o,o。并将获得五类字词短语按照8:2的比例切分成训练集和测试集,将训练集中的字词短语输入至分类svm模型,该字词短语结合短语的词性和上下文文本的相关特征,分类svm模型输出该短语的所属的类别标签,并根据文本中的短语类别标签可以定位并提取出文本中的实体。分类svm模型训练时,首先,对多源异构数据中的实体进行标注,在标注好的实体和关系数据中,将实体两两组合并作为关系svm模型的训练数据,将两个实体输入支持向量机svm模型,输出两个实体之间的关系,与标注的真实结果进行比对,完成对关系svm模型的训练。支持向量机svm模型训练完成后,将多源异构数据输入至训练好的分类svm模型中,分类svm模型输出字词短语的所属的类别标签,并根据文本中的短语类别标签可以定位并提取出文本中的实体。在获取多源异构数据中的实体后,将在同一文本中出现的实体两两组合,输入到训练好的关系svm模型中,确定两个实体是否存在某种关系,最终生成“实体1—关系—实体2”形式的三元组。步骤4:对实体和关系抽取结果进行校对和整合。步骤4在步骤3中抽取得到三元组数据基础上,由人工专家基于经验知识对这些数据进行校对,删除不正确的三元组,保留校对正确的三元组。对于存在冗余、歧义的记录,根据企业规范消除文本表达的矛盾,对多个指称的实体和关系进行融合,并对最终得到的三元组知识进行质量评估,进一步设计优化抽取规则和模型,并重复迭代,直至三元组数据满足评审要求。具体的评审方法为召集企业管理人员、咨询人员和各方面专家,对生成的知识图谱的三元组数据数量和质量进行评估,如数据是否覆盖每个企业内部系统、是否涵盖相关业务流程、是否存在于实际生产管理不符合的记录。步骤5:利用知识图谱推理技术对步骤s4整合后的三元组数据进行处理,挖掘企业内部信息系统的隐藏关系。参阅图3是综合利用逻辑规则和机器学习进行实体间关系推理的示意图。步骤5在步骤4中整合好的三元组数据基础上,利用逻辑规则和机器学习实现实体间关系的推理,挖掘出企业内部信息系统的隐藏关系,补充和完善已有的知识图谱数据。首先对已有三元组进行逻辑规则推理,由数据专家根据已有知识图谱数据实体关系的特点和企业管理经验,设计出关系传递的逻辑推理规则,采用图搜索算法遍历已有三元组数据,推出满足逻辑规则的新的实体和关系的三元组数据,并将推出的三元组数据合并至整合后的三元组数据中,形成新的三元组数据。本实施例中,在营销策划领域,可定义逻辑推理规则“若营销信息系统和crm系统之间存在数据传输关系,则数据分析系统必然在进行营销策划分析时抓取crm系统的客户交易数据进行分析”。用伪代码表示为:ifhasrealation(salesystem,crmsystem)==turethensetrelation(dataplatform,crmsystem,‘crawlcustomerdata’)参阅图4,在新的三元组数据的基础上采用机器学习算法挖掘更深层的实体关系。关系推理模型采用多种svm模型组成的adaboost强分类器,称为svm-adaboost模型,模型提取的特征包括三元组中头部和尾部的词、词性,以及所在的上下文的词性、n-gram特征等,利用关系二分类训练数据集构建关系推理模型,使用python中sklearn工具库,采用gridsearch网格搜索方法在svm-adaboost模型的参数空间中学习到更优的参数配置。分析新的三元组内部存在的关系类型,针对每一类关系进行负采样,将属于该关系的三元组作为正样本,将不属于该关系的三元组作为负样本,负采样是从不属于该关系的三元组和不存在关系的三元组中随机选取负样本构建负样本集,并保证负采样生成的负样本加上现有负样本集的数量与正样本数量的均衡,得到该关系对应的关系二分类数据集,并按照8:2的比例随机切分为训练数据和测试数据,将二分类数据集作为训练集输入至svm-adaboost模型中,对其进行训练。本实施例中,以下面表格给出的三元组训练数据为例,该表格列出了目前已获取的三元组数据,对于“传送数据”这一关系来说,分别标注出表格中的样本属性。样本序号三元组样本属性1营业系统—传送数据—erp系统正样本2营业系统—同步数据—erp系统负样本3发行系统—传送数据—erp系统正样本4crm系统—同步数据—erp系统负样本5电子商务平台—抓取数据—数据平台负样本利用训练好的svm-adaboost模型,选取任意两个实体关系,判断两个实体之间的隐藏关系类型,并对判断的结果进行检验,输出隐藏的三元组数据,并将其扩充至新的三元组数据中。最后将扩充后的三元组数据补全和完善至企业内部信息系统的知识图谱。步骤6:利用b/s模式设计企业内部信息系统的知识图谱网页,对步骤5中生成的知识图谱进行可视化展示。参阅图5是利用b/s模式可视化展示企业内部信息系统的知识图谱效果图。采用b/s架构的编程框架,利用python、html、css、javascript等编程语言,在anaconda2.7、tornado、mysql、jquery、pycharm等开发环境下设计知识图谱展示网页。网站系统包括注册模块、登录模块、知识图谱可视化模块和知识图谱推理可视化模块以及批量导入模块。用户注册登录后,可以查看步骤3中直接利用实体和关系抽取构建的企业内部信息系统知识图谱,也可以查看通过步骤5进行关系推理完善后的企业内部信息系统知识图谱,还可以批量导入新的企业数据的文本文件,主要包括表格文件和文本文件,从中采用本发明提出的企业内部信息系统知识图谱构建算法和关系推理算法,抽取知识,构建三元组,构建或完善企业内部信息系统的知识图谱。前端页面将post请求发送给网站服务器后台,并返回得到企业内部信息系统知识图谱的数据,前端页面对这些数据处理成前端知识图谱展示需要的格式,进而采用d3.js工具库来展示企业内部信息系统知识图谱。参阅图1是基于知识图谱的企业内部信息系统管理的底层服务器架构设计图。本发明还提供了一种基于知识图谱的内部信息管理系统,设计了b/s的底层服务器架构,整个系统采用windows服务器实现,从逻辑上分为数据服务器、数据挖掘服务器和网站服务器。数据服务器,用于提供数据存储、读写等服务,存储了本系统的所有数据。网站运行过程中需要或者产生的数据均存放在数据服务器中,比如用户的注册信息、登录信息,另外数据挖掘服务器处理的企业相关文本源数据、数据处理中间结果、构建好的知识图谱数据以及基于关系推理完善的知识图谱数据等数据也存放在数据服务器中。数据挖掘服务器实现企业信息系统知识图谱中计算密集的模型和算法的代码等内容,包括有原始数据处理、三元组的抽取、知识融合、知识图谱构建、基于知识图谱的关系推理及知识图谱的补充完善。网站服务器,包括网站前端和网站后端,拥有网站后台逻辑处理、数据读写、前端可视化页面展示、前后台交互等大量代码,实现了知识图谱的可视化展示、用户的注册登录、企业新数据的录入等等。其中,知识图谱可视化时,从数据服务器中读取企业信息系统知识图谱数据后,使用前端javascript前端插件库进行知识图谱的可视化展示。本发明公开的一种基于知识图谱的信息系统管理方法,给出了企业内部信息系统管理的新思路,利用企业信息化系统在设计和实际运行中产生的技术文档、测试分析报告、运行日志数据和用户反馈等多源异构数据,综合利用迭代规则和机器学习的算法抽取数据中的实体和关系,构建企业信息系统的知识图谱。在抽取的三元组数据基础上,结合逻辑规则和机器学习实现知识图谱的关系推理,挖掘出企业内部信息系统的隐藏关系,补充和完善已有的知识图谱数据,最后利用b/s模式设计网页,可视化展示企业内部信息系统的知识图谱。知识图谱直观全面地展示企业各个信息系统的组成结构,帮助企业决策者和技术管理人员宏观把握企业内部信息系统的交互关系,并能挖掘出系统间隐藏的关系,为进一步优化企业内部组织结构和业务流程提供指导依据,促进企业内部信息化建设更加健康稳定发展。以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1