基于知识图谱的政策文件处理方法、装置和存储介质与流程

文档序号:23629229发布日期:2021-01-12 10:43阅读:133来源:国知局
基于知识图谱的政策文件处理方法、装置和存储介质与流程

本发明涉及人工智能领域,尤其是涉及一种基于知识图谱的政策文件处理方法、装置、存储介质及计算机设备。



背景技术:

随着大数据技术和计算机技术的不断发展,各行业以及各类型的数据分析处理工作开始承担起越来越重要的角色,以政府部门发布的各项政策文件为例,由于政府对经济社会的发展起着至关重要的宏观调控作用,且政府包括了许多的职能机构,每个职能机构每一次发布的政策信息,都会对行业、企业以及产品产生一定程度的影响,因此,对政策文件进行分析处理已成为一项非常重要的工作。

但是,在现有技术中,对政府部门发布的各项政策文件进行分析处理,主要集中在对各项政策文本进行收集、展示和管理,以及从产业、行业等维度对各项政策文件进行分类,或者根据单篇政策文件的内容对政策文件进行结构化提取和展示等,而对于政策文件中的具体内容,则需要分析者通过自身经验进行层层解读与对比分析才能得到,因此分析效率较低。



技术实现要素:

有鉴于此,本申请提供了一种基于知识图谱的政策文件处理方法、系统、存储介质及计算机设备,主要目的在于解决现有技术中政策文件分析效率较低的技术问题。

根据本发明的第一个方面,提供了一种基于知识图谱的政策文件处理方法,该方法包括:

获取目标政策文件和目标政策文件的对照文件;

依据政策知识图谱,得到目标政策文件和对照文件的至少一个差异信息;

依据至少一个差异信息和至少一个差异信息在政策知识图谱中的标注信息,生成目标政策文件的对比分析建议信息。

根据本发明的第二个方面,提供了一种基于知识图谱的政策文件处理装置,该装置包括:

信息获取模块,用于获取目标政策文件和目标政策文件的对照文件;

信息处理模块,用于依据政策知识图谱,得到目标政策文件和对照文件的至少一个差异信息;

信息生成模块,用于依据至少一个差异信息和至少一个差异信息在政策知识图谱中的标注信息,生成目标政策文件的对比分析建议信息。

根据本发明的第三个方面,提供了一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述基于知识图谱的政策文件处理方法。

根据本发明的第四个方面,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述基于知识图谱的政策文件处理方法。

本发明提供的一种基于知识图谱的政策文件处理方法、装置、存储介质及计算机设备,首先获取了目标政策文件和目标政策文件的对照文件,然后依据政策知识图谱,对目标政策文件和对照文件进行分析处理,得到目标政策文件和对照文件的差异信息,最后依据差异信息和差异信息在政策知识图谱中的标注信息,自动生成目标政策文件的对比分析建议信息。上述方法依据政策知识图谱自动处理目标政策文件和对照文件,能够有效的抓取目标政策文件和对照文件中的各项关键信息以及提取出二者的差异信息,提高了政策文件分析处理的效率,大量减少了用户的工作量,此外,上述方法通过知识图谱中的标注信息自动生成对比分析建议信息,可以有效提升政策文件分析处理的准确性,为政策文件的对比分析提供有力的依据。

此外,本发明提供的一种基于知识图谱的政策文件处理方法、装置、存储介质及计算机设备可应用于智慧城市或智慧政务等领域中,从而推动智慧城市和智慧政务的建设,以及进一步提升城市居民生活工作以及政府职能的行使。

上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1示出了本发明实施例提供的一种基于知识图谱的政策文件处理方法的流程示意图;

图2示出了本发明实施例提供的另一种基于知识图谱的政策文件处理方法的流程示意图;

图3示出了本发明实施例提供的一种政策知识图谱示意图;

图4示出了本发明实施例提供的另一种政策知识图谱示意图;

图5示出了本发明实施例提供的一种基于知识图谱的政策文件处理装置的结构示意图;

图6示出了本发明实施例提供的另一种基于知识图谱的政策文件处理装置的结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。

在一个实施例中,如图1所示,提供了一种基于知识图谱的政策文件处理方法,以该方法应用于客户端或服务器等计算机设备为例进行说明,包括以下步骤:

101、获取目标政策文件和目标政策文件的对照文件。

其中,政策文件指的是官方组织以权威形式标准化地为采取的一般步骤和具体措施发布的文件,在本实施例中,目标政策文件和目标政策文件的对照文件均为上述定义所指的政策文件。

具体的,计算机设备可以依据用户输入的标题或关键字等检索信息在数据库中搜索到相关的政策文件,然后由用户在搜索到的政策文件中选取出目标政策文件和目标政策文件的对照文件。需要说明的是,目标政策文件指的是用户意图分析的政策文件,一般来说,目标政策文件的数量为一个,而目标政策文件的对照文件则是用户意图与目标政策文件进行对比或参照的政策文件,其数量可以为一个或多个。此外,在获取目标政策文件的对照文件时,除了可以依据标题或关键字等检索信息读取到对照文件之外,也可以通过政策知识图谱查找到与目标政策文件具有相似关系的至少一篇对照文件,通过政策知识图谱,计算机设备可以查找到更为准确的与目标政策文件在同一个领域且内容较为相近的政策文件。

可选的,在获取到目标政策文件和目标政策文件的对照文件之后,计算机设备可以通过液晶屏或触摸屏等输出设备将文件展示给用户查看。

102、依据政策知识图谱,得到目标政策文件和对照文件的至少一个差异信息。

其中,知识图谱(knowledgegraph)又称知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术来描述知识资源及其载体,以此挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。

进一步的,知识图谱的表示方式有多种,例如语义网络,框架和脚本等,在本实施例中,可以使用语义网络模型来表达知识图谱,其中,语义网络模型是通过语义关系连接的概念网络,是无数个由点和边组成的三元组的集合,具体到本实施例中,政策知识图谱可由政策实体和政策实体之间的关系构成的三元组构建而成,三元组的节点为政策实体,三元组的边为政策实体之间的关系,三元组的表达方式为(政策实体1,实体关系,政策实体2),如下图所示,(a市进一步优化营商环境深化用户电力接入改革实施方案(试行)政策实体],办理手续[实体关系],两项[数字实体])即为一个三元组,在本实施例中,每一个政策文件中的关键信息都以这类三元组的形式存储在政策知识图谱中。

进一步的,计算机设备可以在预先建立好的政策知识图谱中搜索到目标政策文件和目标政策文件的对照文件对应的各个政策实体以及各个实体关系,然后对二者对应的各个政策实体和各个实体关系进行对比分析,从而找出目标政策文件和对照文件中的差异性政策实体和实体关系,并确定出目标政策文件和对照文件的差异三元组,继而将这些差异三元组进行提取和处理,即可得到目标政策文件和对照文件的差异信息,一般来说,由于目标政策文件和对照文件是不相同的两个政策文件,所以二者必然存在至少一个差异信息。需要说明的是,目标政策文件和对照文件均是预先存储到数据库中的,并且,目标政策文件和对照文件的关键信息在经过一系列处理后也是预先存储在知识图谱中的。

103、依据至少一个差异信息和至少一个差异信息在政策知识图谱中的标注信息,生成目标政策文件的对比分析建议信息。

具体的,在提取出目标政策文件和目标政策的对照文件的至少一个差异信息之后,计算机设备可以将差异信息和差异信息在知识图谱中对应的标注信息进行整理和归纳,从而借助以一些文字模板将差异信息和差异信息的标注信息以文字形式表述出来,最后生成目标政策文件的对比分析建议信息。其中,差异信息在政策知识图谱中的标注信息包括正向关系和负向关系这两种,通过标注信息,计算机设备可以进一步判断出目标政策文件和对照文件的差异信息对于目标政策文件来说是正向的还是负向的,即通过标注信息,计算机设备可以判断出目标政策文件和对照文件之间的差异对于目标政策文件来说是优势信息的还是劣势信息,从而为生成对比分析建议信息提供依据。

上述方案可以应用于多个场景中,例如,在某个官方职能部门颁布了一项政策之后,想要知道发布的政策文件还有哪些需要完善的地方,较为直观的方式就是将该政策文件与同类型的政策进行对比,从而找出政策文件与其他政策文件相比存在的差异和待改善的地方;或者是政策文件针对的用户人群想要分析出两份或多份政策文件的差异、优势或劣势之处,从而辅助自己做出决策等等。在现有技术中,相关网站提供的政策文件比对功能仅仅是从产业、行业等维度进行比较,并没有深入挖掘政策文件中的内容,颗粒度较粗,此外,现有技术中的政策文件比对功能也无法提供生成政策文件对比分析建议的功能,相关用户只能通过阅读大量相似文本的方式,找到政策文件中的差异内容,大大降低了政策文件信息处理的效率。

而本实施例提供的基于知识图谱的政策文件处理方法,首先获取了目标政策文件和目标政策文件的对照文件,然后依据政策知识图谱,对目标政策文件和对照文件进行分析处理,得到目标政策文件和对照文件的差异信息,最后依据差异信息和差异信息在政策知识图谱中的标注信息,自动生成目标政策文件的对比分析建议信息。上述方法依据政策知识图谱自动处理目标政策文件和对照文件,能够有效的抓取目标政策文件和对照文件中的各项关键信息以及提取出二者的差异信息,提高了政策文件分析处理的效率,大量减少了用户的工作量,此外,上述方法通过知识图谱中的标注信息自动生成对比分析建议信息,可以有效的提升政策文件分析处理的准确性,为政策文件的对比分析提供有力的依据。

此外,本发明提供的一种基于知识图谱的政策文件处理方法、装置、存储介质及计算机设备可应用于智慧城市或智慧政务等领域中,从而推动智慧城市和智慧政务的建设,以及进一步提升城市居民生活工作以及政府职能的行使。

进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例的实施过程,提供了基于知识图谱的政策文件处理方法,如图2所示,该方法包括以下步骤:

201、采集样本政策文件,并根据样本政策文件建立政策知识图谱。

在本实施例中,根据样本政策文件建立政策知识图谱的方法可以包括以下步骤:首先批量采集样本政策文件,并对采集到的样本政策文件进行预处理,然后对预处理的样本政策文件进行实体识别、实体消歧和关系抽取,从而得到多个由政策实体和实体关系组成的三元组,继而根据多个由政策实体和实体关系组成的三元组,得到政策知识图谱,最后对政策知识图谱中的部分实体关系进行信息标注,其中,实体关系的标注信息可以包括正向关系和负向关系。

具体的,计算机设备可以通过网络爬虫技术在各级政府网站、政策专业网站、各大门户网站上批量采集各项政策文件信息,然后对采集到的政策文件信息进行收集、清洗、转化、分析、汇总和入库处理。其中,网络爬虫技术,是一种按照一定的规则,自动地抓取互联网信息的程序或者脚本,通过合理运用网络爬虫技术,可以大幅提高收集数据的效率。在收集到大量的政策文件之后,就可以利用政策文件初步构建政策知识图谱,具体的,知识图谱构建的过程主要包括实体识别、实体消歧、关系抽取这三个步骤,各步骤的处理方式如下:

其中,实体是知识图谱的基本单元,也是本文中承载信息的重要语言单位,具体到本实施例中,政策实体就是政策知识图谱的基本单元,政策实体主要可以分为三大类:实体类,时间类和数字类。在本实施例中,政策实体具体可以为政策文件的标题名称、发布机构、发布时间、信息来源、标题中的关键字、文件中的关键字、文件中各级结构性标题以及政策文件中的数字信息等等。

具体的,从政策文件中抽取实体的方式有多种,主要包括基于预设规则的抽取以及通过机器学习方式的抽取。其中,基于预设规则的实体抽取可以首先预先建立命名实体列表,然后根据命名实体列表中的实体名称,依次从获取到的政策文件文件中抽取关键字、关键词、关键特征或关键位置的文字信息作为政策实体;通过机器学习方式的抽取可以利用预先标注的语料训练语言模型,使语言模型学习到某个字或者此作为命名实体组成部分的概率,计算出一个候选字段作为命名实体的概率值,如果该命名实体的概率值大于阈值,则抽取该命名实体作为政策实体。

实体识别之后,要对提取出的政策实体进行实体消歧,实体消歧的目的在于对于相同的实体名称,由于在不同的文件环境下,其表达的内容完全不同。具体的,实体消歧可以采用基于聚类的实体消歧方法或者基于实体链接的实体消歧方法,其中,基于聚类的实体消歧方法指的是目标实体列表未给定,以聚类方式对实体指称项进行消歧,所有指向同一个目标实体的指称项被消歧系统聚类到同一类别下,聚类的结果中每一个类别对应一个目标实体;基于实体链接的实体消歧方法指的是目标实体列表给定,将实体指称项与目标实体列表中的对应实体进行链接实现消歧。然后将抽取的实体按照左右实体顺序两两生成候选实体对(实体表做笛卡尔积),为后续关系抽取做准备。

在实体识别和实体消歧之后,就可以对政策实体之间的关系进行抽取,关系抽取指的是识别政策实体之间的语义关系,关系抽取方法包括句子级关系抽取、语料级关系抽取、限定域关系抽取和开放域关系抽取等方法。在本实施例中,政策实体之间的关系可以有多种,例如分类关系、相近关系、成员关系、从属关系、属性关系、层级关系等等,并且,在每一种关系中,又有许多种具体的关系名称,标示着实体与实体之间的联系。

其中,分类关系表示一个实体是另一个实体的种类,例如,政策文件a是一种通知类文件,则政策文件a与通知类文件之间是分类关系,关系名称为文件类型;相近关系表示实体在形状、内容等方面较为相似,例如,政策文件b和政策文件c都是地方政府发布的关于促进中小型企业发展的指导意见类文件,则政策文件b和政策文件c之间的关系是相似关系,关系名称为相似文件;成员关系表示一个实体是另一个实体的成员,例如政策文件d是工业和信息化部办公厅和民政部办公厅联合发布的,则政策文件d与工业和信息化部办公厅和与民政部办公厅之间的关系均是成员关系,关系名称为发布机构;从属关系表示一个实体是另一个实体的一部分,例如政策文件e中记录的一项内容为报送流程,则政策文件e与报送流程之间的关系为从属关系,关系名称为重要内容;属性关系可以表示一个实体具有另一个实体所表示的属性,例如政策文件e中记录的报送流程的实施步骤是3步,则报送流程与数字3之间的关系是属性关系,关系名称为实施步骤;层级关系可以表示一个实体与另一实体之间的层级关系,例如政策文件f是a市发布的政策文件,政策文件g是b市发布的同类政策文件,则政策文件f和政策文件g之间的关系是层级关系,关系名称为同级别文件。

在本实施例中,知识图谱的表示方式有多种,例如语义网络,框架和脚本等,在本实施例中,可以使用语义网络模型来表达知识图谱,其中,语义网络模型是通过语义关系连接的概念网络,是无数个由点和边组成的三元组的集合,具体到本实施例中,政策知识图谱可由政策实体和政策实体之间的关系构成的三元组构建而成,三元组的节点为政策实体,三元组的边为政策实体之间的关系,三元组的表达方式为(政策实体1,实体关系,政策实体2),如图3所示,(xx市进一步优化营商环境深化用户电力接入改革实施方案(试行)[政策实体],办理手续[实体关系],两项[数字实体])即为一个三元组。在本实施例中,每一个政策文件中的关键信息都以这类三元组的形式存储在政策知识图谱中。

进一步的,在政策知识图谱初步创建好之后,可以对命名实体和数字实体之间的部分关系进行标注,并将标注的关系文件的word2vec向量输入到线性回归模型中进行训练,得到该类关系与数字之间的关联关系,以此得到二分类模型,通过生成的二分类模型,可以对政策知识图谱中与数字实体相关联的实体关系进行信息标注,从而判别出政策知识图谱中各政策实体通过该类关系关联的数字是正向关系还是负向关系,即数字实体是越大政策越利好,还是数字实体越小政策越利好。例如,可以采用如下方式对政策图谱中的部分关系进行标注:如果数字实体越小政策越利好,则判定与该数字实体连接的关系为负向关系,可以将该关系标注为“0”,如果数字实体越大政策越利好,则与该数字实体连接的关系为正向关系,可以将该关系标注为“1”。二分类模型构建好之后,可以通过关系二分类模型,对政策知识图谱中的所有与数字实体连接的关系进行标注。

在本实施例中,随着新的政策文件的陆续颁布,创建好的政策知识图谱也需要持续更新和完善,具体的,计算机设备可以定期收录各官方职能部门颁布的政策文件,然后将收录到的政策文件的关键信息添加到政策知识图谱中,然后对更新后的政策知识图谱进行信息标注,从而得到更新后的政策知识图谱。

202、依据社区发现算法,将政策知识图谱划分为多个集群。

具体的,如图4所示,对于建立好的政策知识图谱,可以利用社区发现算法将政策图谱划分为多个集群,其中,每个集群均包括多个彼此之间具有相似关系的政策文件。具体的,社区发现是指网络中的一些密集群体,同一个社区内部的结点间的联系相对紧密,不同社区之间的连接相对来说却比较稀疏,进一步的,社区发现算法有很多种,在本实施例中,可以采用图分割算法、聚类算法和分裂算法等社区发现算法对知识图谱进行划分。其中,图分割算法的实质是将社区看做密集子图结构,将图中的节点分成个预定大小的群组,使这些群组之间的边数目最小。聚类算法是指假设社区是存在层次结构的,计算网络中每一对节点的相似度,然后采用凝聚法和分裂法进行集群划分,凝聚法是根据相似度从强到弱连接相应节点对,形成树状图(dendrogram),然后根据需求对树状图进行横切,获得社区结构,分裂法是找出相互关联最弱的节点,并删除他们之间的边,通过这样的反复操作将网络划分为越来越小的组件,连通的网络构成社区。分裂算法与上文的聚类算法中的分裂法相似,区别是聚类算法在分裂网络时不计算节点相似度,而是直接删除是两个社区之间的关联边,这些边上的两点的相似度不一定很低。

在本实施例中,划分集群的目的是把同类政策(如营商环境类政策、产业扶持类政策)划分至同一集群。同一个集群内的政策,会具有更多相同的关系,更具有对比的价值。这样做的好处是高效划分了有效比对政策的范围。本实施例通过将政策图谱划分为多个集群,以及在知识图谱中标注出正向关系和负向关系,可以使政策知识图谱中的信息更加丰富和有针对性,有利于后续对各项政策文件进行分析,从而得到更有针对性的对比分析结果。

最后,在完成政策知识图谱的构建和标注之后,可以将政策文件知识图表存储在计算机设备的数据库中,并利用存储的数据进行检索。具体的,知识图谱的表存放方式有两种,分别是三元组表和类型表,即本实施可以按照表的方式对知识图谱进行存储,也可以按照图的方式对知识图谱进行存储,在利用知识图谱进行信息检索时,可以通过sql和sparql等结构化的查询语言对政策知识图谱中的信息进行查询。

203、获取目标政策文件和目标政策文件的对照文件。

具体的,计算机设备可以依据用户输入的标题或关键字等检索信息在数据库中搜索到相关的政策文件,然后由用户在搜索到的政策文件中选取出目标政策文件和目标政策文件的对照文件。需要说明的是,目标政策文件指的是用户意图分析的政策文件,一般来说,目标政策文件的数量为一个,而目标政策文件的对照文件则是用户意图与目标政策文件进行对比或参照的政策文件,其数量可以为一个或多个。此外,在获取目标政策文件的对照文件时,除了可以依据标题或关键字等检索信息读取到对照文件之外,也可以通过政策知识图谱查找到与目标政策文件具有相似关系的至少一篇对照文件,通过政策知识图谱,计算机设备可以查找到更为准确的与目标政策文件在同一个领域且内容较为相近的政策文件。可选的,在获取到目标政策文件和目标政策文件的对照文件之后,计算机设备可以通过液晶屏或触摸屏等输出设备将文件展示给用户查看。

204、依据政策知识图谱,得到目标政策文件和对照文件的至少一个差异信息。

具体的,计算机设备可以在预先建立好的政策知识图谱中搜索到目标政策文件和目标政策文件的对照文件对应的各个政策实体以及各个实体关系,然后对二者对应的各个政策实体和各个实体关系进行对比分析,从而找出目标政策文件和对照文件中的差异性政策实体和实体关系,并确定出目标政策文件和对照文件的差异三元组,继而将这些差异三元组进行提取和处理,即可得到目标政策文件和对照文件的差异信息,一般来说,由于目标政策文件和对照文件是不相同的两个政策文件,所以二者必然存在至少一个差异信息。需要说明的是,目标政策文件和对照文件均是预先存储到数据库中的,并且,目标政策文件和对照文件的关键信息在经过一系列处理后也是预先存储在知识图谱中的。

在一个可选的实施例中,依据政策知识图谱,得到目标政策文件和对照文件的至少一个差异信息的具体方法,可以包括以下步骤:首先在政策知识图谱中查询出目标政策文件的文件标题对应的第一政策实体和对照文件的文件标题对应的第二政策实体,然后分别以第一政策实体和第二政策实体作为元节点,查找到与所述第一政策实体和所述第二政策实体无共同关联的至少一个差异性政策实体,即查找到与第一政策实体不关联却与第二政策实体相关联的差异性政策实体,或者查找到与第一政策实体相关联却与第二政策实体不关联的差异性政策实体,最后依据查找到的至少一个差异性政策实体,得到目标政策文件和对照文件的差异性三元组,通过对差异性三元组进行提取和整理,即可得到至少一个差异信息。

205、依据至少一个差异信息和至少一个差异信息在政策知识图谱中的标注信息,生成目标政策文件的对比分析建议信息。

具体的,在提取出目标政策文件和目标政策的对照文件的至少一个差异信息之后,计算机设备可以将差异信息和差异信息在知识图谱中对应的标注信息进行整理和归纳,从而借助以一些文字模板将差异信息和差异信息的标注信息以文字形式表述出来,最后生成目标政策文件的对比分析建议信息。其中,差异信息在政策知识图谱中的标注信息包括正向关系和负向关系这两种,通过标注信息,计算机设备可以进一步判断出目标政策文件和对照文件的差异信息对于目标政策文件来说是正向的还是负向的,即通过标注信息,计算机设备可以判断出目标政策文件和对照文件之间的差异对于目标政策文件来说是优势信息的还是劣势信息,从而为生成对比分析建议信息提供依据。

在一个可选的实施例中,依据至少一个差异信息和至少一个差异信息在政策知识图谱中的标注信息,生成待处理文件的对比分析建议信息的具体方法,可以包括以下步骤:依据各个差异信息中实体关系的标注信息,通过预设模板生成各个差异信息的建议信息,然后对各个差异信息和各个差异信息的建议信息进行整理和归纳,即可得到待处理文件的对比分析建议信息。此外,还可以通过一些显示方式将对比分析建议信息展示给用户,使用户可以直观的观察到政策文件与同类政策之间的差异和优劣,以此提高政策文件的分析效率。

在本实施例中,对政策文件进行处理的方式主要有两种,第一种方式是单条政策生成建议,即将一篇政策文件与同类所有政策文件进行比对,并生成对比分析建议信息,从而判断该政策文件在同类文件中所处的位置;第二种方式是多条政策比对生产建议,即将多个政策文件进行横向对比,从而为用户提供更具有针对性的对比分析建议。

进一步的,在对政策文件进行分析对比时,除了利用知识图谱中的各个政策三元组和政策三元组中的各实体关系的标注信息,得到多个政策文件之间的异同点之外,还可以根据数字实体的差值为建议信息设置不同的层级。例如,政策文件a的一项政策实体通过某个正向关系相关连的数字实体比政策文件b的该项政策实体通过该正向关系相关联的数字实体少1,则可以判定政策文件a的该项政策实体相比政策实体b稍有不及;数字相差在5以上,则判定为大幅落后;若关联数字相同,则无需输出建议。各等级对应的数字设置可依据实体关系的具体情况进行更改。如图3所示,两个政策文件分别为《a市进一步优化营商环境深化用户电力接入改革实施方案(试行)》和《b市进一步优化电力接入营商环境实施办法(试行)》,两个政策文件均为优化电力接入营商环境的政策文件,对比两条政策文件中均有“办理手续”这个实体关系,可知与该实体关系对应的数字实体的计算结果相差为1,并且该实体关系为负向关系,则可以得出一条建议信息为“b市该类政策实施情况优于a市”。

本实施例提供的基于知识图谱的政策文件处理方法,使得用户不再需要人工搜搜目标政策文件在同领域近似的对照文件,也不再需要通过大量的阅读获取政策文件中的细节信息,通过上述方法,用户可以快速并全面地获取目标政策文件与对照文件相比在各个维度的领先与不足之处,并得到有效的建议,大大提升了政策文件分析处理的效率。

进一步的,作为图1~图4所示方法的具体实现,本实施例提供了一种基于知识图谱的政策文件处理装置,如图5所示,该装置包括:信息获取模块31、信息处理模块32和信息生成模块33。

信息获取模块31,可用于获取目标政策文件和目标政策文件的对照文件;

信息处理模块32,可用于依据政策知识图谱,得到目标政策文件和对照文件的至少一个差异信息;

信息生成模块33,可用于依据至少一个差异信息和至少一个差异信息在政策知识图谱中的标注信息,生成目标政策文件的对比分析建议信息。

在具体的应用场景中,如图6所示,本装置还包括图谱创建模块34,图谱创建模块34具体可用于批量采集样本政策文件,并对采集到的样本政策文件进行预处理;对预处理的样本政策文件进行实体识别、实体消歧和关系抽取,得到多个由政策实体和实体关系组成的三元组;根据多个由政策实体和实体关系组成的三元组,得到政策知识图谱;对政策知识图谱中的部分实体关系进行信息标注,其中,实体关系的标注信息包括正向关系和负向关系。

在具体的应用场景中,模型建立模块34,具体还可用于依据预先建立的关系二分类模型,对政策知识图谱中与数字实体相关联的实体关系进行信息标注。

在具体的应用场景中,如图6所示,本装置还包括集群划分模块35,集群划分模块35具体可用于依据社区发现算法,将政策知识图谱划分为多个集群,其中,每个集群包括多个彼此之间具有相似关系的政策文件。

在具体的应用场景中,信息获取模块31,具体可用于依据对照文件的标题信息,读取目标政策文件的对照文件,或依据政策知识图谱,查找与目标政策文件具有相似关系的至少一篇对照文件。

在具体的应用场景中,信息处理模块32,具体可用于在政策知识图谱中查询出目标政策文件的文件标题对应的第一政策实体和对照文件的文件标题对应的第二政策实体;分别以第一政策实体和第二政策实体作为元节点,查找到与第一政策实体和第二政策实体无共同关联的至少一个差异性政策实体;依据至少一个差异性政策实体,得到目标政策文件和对照文件的至少一个差异信息。

在具体的应用场景中,信息生成模块33,具体可用于依据至少一个差异信息中实体关系的标注信息,通过预设模板生成至少一个差异信息的建议信息;根据至少一个差异信息和至少一个差异信息的建议信息,得到待处理文件的对比分析建议信息。

需要说明的是,本实施例提供的一种基于知识图谱的政策文件处理装置所涉及各功能单元的其它相应描述,可以参考图1~图4中的对应描述,在此不再赘述。

基于上述如图1~图4所示方法,相应的,本实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述如图1~图4所示的基于知识图谱的政策文件处理方法。

基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该待识别软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。

基于上述如图1~图4所示的方法,以及图5和图6所示的基于知识图谱的政策文件处理装置实施例,为了实现上述目的,本实施例还提供了一种基于知识图谱的政策文件分析处理的实体设备,具体可以为个人计算机、服务器、智能手机、平板电脑、智能手表、或者其它网络设备等,该实体设备包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1~图4所示的方法。

可选的,该实体设备还可以包括用户接口、网络接口、摄像头、射频(radiofrequency,rf)电路,传感器、音频电路、wi-fi模块等等。用户接口可以包括显示屏(display)、输入单元比如键盘(keyboard)等,可选用户接口还可以包括usb接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如wi-fi接口)等。

本领域技术人员可以理解,本实施例提供的一种基于知识图谱的政策文件分析处理的实体设备结构并不构成对该实体设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。

存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述实体设备硬件和待识别软件资源的程序,支持信息处理程序以及其它待识别软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信,以及与信息处理实体设备中其它硬件和软件之间通信。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现。通过应用本申请的技术方案,首先获取了目标政策文件和目标政策文件的对照文件,然后依据政策知识图谱,对目标政策文件和对照文件进行分析处理,得到目标政策文件和对照文件的差异信息,最后依据差异信息和差异信息在政策知识图谱中的标注信息,自动生成目标政策文件的对比分析建议信息。与现有技术相比,本方法依据政策知识图谱自动处理目标政策文件和对照文件,能够有效的抓取目标政策文件和对照文件中的各项关键信息以及提取出二者的差异信息,提高了政策文件分析处理的效率,大量减少了用户的工作量,此外,上述方法通过知识图谱中的标注信息自动生成对比分析建议信息,可以有效提升政策文件分析处理的准确性,为政策文件的对比分析提供有力的依据。

本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1