一种基于属性特征矩阵的产业政策智能处理方法与流程

文档序号:18797290发布日期:2019-09-29 19:53阅读:284来源:国知局
一种基于属性特征矩阵的产业政策智能处理方法与流程

本发明涉及计算机信息智能处理领域,具体为一种基于属性特征矩阵的产业政策智能处理方法。



背景技术:

产业政策是各级政府重要扶持产业创新发展的重要手段。产业政策对引导新兴战略性产业的创新发展、支持中小企业创新发展、推动传统产业转型升级,都具有十分重要的作用。产业公共服务体系、产业公共服务平台建设在产业创新发展、中小企业发展中发挥着越来越重要的作用,而政策信息服务是产业公共服务的重要组成部分。我国政府十分重视政策引导作用,重视提供政策信息服务,根据《中华人民共和国中小企业促进法(2017修订)》,第三十条“国家鼓励互联网平台向中小企业开放技术、开发、营销、推广等资源,加强资源共享与合作,为中小企业创业提供服务”,第四十四条“县级以上地方各级人民政府应当根据实际需要建立和完善中小企业公共服务机构,为中小企业提供公益性服务”,第四十五条“县级以上人民政府负责中小企业促进工作综合管理的部门应当建立跨部门的政策信息互联网发布平台,及时汇集涉及中小企业的法律法规、创业、创新、金融、市场、权益保护等各类政府服务信息,为中小企业提供便捷无偿服务”。

提高各个经济主体、中小企业利用产业政策执行能力,这是营造公平政策发展环境、市场环境的重要环节。各个市场主体对政策信息、政策知识有迫切需求,及时、准确了解税收、财政、金融、人才、土地、标准等相关产业政策,提高企业的政策实施能力,能够减少企业执行政策的人力成本、时间成本、费用成本和机会成本,公平、充分分享产业政策红利。但是,企业的区域、行业、规模等特点不同,因此企业对政策需求、政策信息需求是个性的、多元的,例如不同行业、不同区域、不同阶段、不同规模的企业对政策需求是不同的;获得方式是多元的,企业既需要以浏览网页方式获得政策信息,又需要个性推送、主题词推送、垂直搜索、精准搜索等不同功能和方式,获得产业政策信息。

相比之下,政府部门目前提供政策信息的方式、功能不是基于企业需求导向的,无法满足企业需求。政府部门的普遍做法是通过网站发布与企业相关的政策文件、政策通知、政策要闻、政策解读等政策信息。政府发布的信息往往是综合性的信息,既有产业政策信息、又有社会管理、公共事业等方面的政策信息,既有面向企业的、又有针对大众的;政府部门网站的政策往往都是只提供自己本部门政策、本区域的政策为主,而不是以企业需求为导向的。需要以一站式方式,根据企业所处的区域,提供企业需要的省、市、区、县、园区、以及国家的人民政府、各个政府部门的产业政策信息;政府网站提供的服务功能,没有精准搜索、个性推送、主题推送等功能,也无法满足企业对政策功能的需求。在这种广而告之的方式下,政府以公告形式、广而告之发布的产业政策信息,难以及时被缺乏信息化手段、缺乏公共关系资源的中小企业所获取,也难以精准而有针对性地推送给每个企业主体,从而造成企业再次被信息海洋和信息噪声覆盖,难以及时获取最需要的产业政策信息。

目前的技术路线、技术实现方案,一些专门提供政策信息、政策服务的机构,往往采用人工数据库后台录入的方式建立数据库,实现检索、推送等功能,不是计算机智能处理的方式,不符合信息技术发展趋势和要求,难以满足企业对政策信息的实时性要求和多元化功能要求。即使部分采用了计算机自动处理技术,现有的技术也是采用简单的关键词、权重匹配方法,把满足规则要求的信息推送给用户;采用简单的关键词、权重匹配方法,也可以把满足主题和关键词属性类的信息归集,例如根据“人工智能、大数据、区块链、云计算....”等关键词和主题词,可以形成主题信息集,同时根据用户搜索行为、用户注册信息等用户画像,把相关信息推送给用户。政策垂直搜索引擎,尽管技术上也可以采用通用搜索引擎的分词、切词和词频统计等方法,通过关键词实现对政策信息的垂直搜索目的,但是系统无法实现各个维度、各种条件的精准搜索。但是上述这类技术方法,不是、也无法从政策信息本身的基本属性和附加属性出发对信息进行智能处理,即通过算法模型,计算机自动识别某条产业政策信息具有某类中的某项属性,然后根据政策自身的属性实现信息个性推送、精准搜索。

因此,面向企业需求提供一种互联网+产业政策信息服务,是提升企业政策信息服务、公共服务水平的要求。然而,网络上提供的产业政策服务方式、网络技术存在重大缺陷,目前为止仍然没有一种有效的关于产业政策智能化处理的技术方法,来对接和满足企业巨大的政策信息服务需求。亟需一种能够满足企业和政府需求的产业政策信息的智能处理方法和工具,实现对产业政策的个性推送、精准搜索,并能够针对各个行业和专题,快速形成产业政策信息定制平台,从而有效对接企业端精准、高效获取政策信息需求,以及政府端点播式的政策服务需求。



技术实现要素:

本发明的目的在于提供一种基于属性特征矩阵的产业政策智能处理方法,以解决上述背景技术中提出的问题。

为实现上述目的,本发明提供如下技术方案:一种基于属性特征矩阵的产业政策智能处理方法,包括以下步骤:

a:计算机系统对从监控源抓取的某条网页信息是否属于产业政策信息进行智能、自动的判断,即对抓取的信息进行去噪筛选,剔除非产业政策信息,保留的产业政策信息存入系统数据库,进行下一步信息的深度处理;

b:基于专家经验,人工定义一个产业政策属性特征矩阵,该矩阵由表征产业政策属性的类、项和元素组成;

c:对不同的政策类别运用不同的计算方法和规则,对该条产业政策信息所对应的属性特征矩阵的元素进行自动赋值,形成初始属性特征矩阵;

d:根据专家经验,人工设定属性特征矩阵的每个元素设置阈值,形成产业政策的属性阈值矩阵;

e:将初始属性特征矩阵与属性阈值矩阵相减并经阶跃运算,计算出该条产业政策信息的最终属性特征矩阵(零一矩阵),进而根据最终属性特征矩阵判断该信息是否具有产业政策的某类、某项属性。

优选的,产业政策信息的去噪筛选。系统从监控源自动抓取网络信息后,该条信息有可能不是产业政策,为了保证系统抓取、处理的信息属于产业政策信息,需对抓取的信息进行去噪筛选,即剔除面向大众服务、社会管理等非产业政策信息,保留产业政策信息入数据库,进行下一步的信息处理。

优选的,定义产业政策的属性特征矩阵,通过系统自动对矩阵元素的赋值,形成该条产业政策信息的初始属性特征矩阵。根据人工经验,构建一个表示产业政策属性的类别(定义为:类,表示产业政策属性分为几大类,即属性特征矩阵的行数)、该类别所包含的项(定义为:项,表示该类属性所包含的属性数量),这种类、项对应的元素集合组成的矩阵,称为产业政策的属性特征矩阵(简称:属性特征矩阵);计算机系统对不同的政策属性类可以运用不同的计算方法、计算规则,对所定义的属性特征矩阵的每个元素进行智能、自动赋值,形成该条产业政策信息的初始属性特征矩阵。初始属性特征矩阵中,矩阵元素的值大于等于0。

优选的,设置产业政策的属性阈值矩阵,与政策矩阵的类、项相对应,通过人工经验设置一个参数,作为该类、该项属性的阈值(大于零的有理数),建立一个与属性特征矩阵对应的属性阈值矩阵,每个元素大于0。当初始属性特征矩阵中某个元素小于该类、项对应的阈值,实际上表示该产业政策不具有该类、该项所对应的属性。

优选的,通过计算机系统对初始属性特征矩阵与属性阈值矩阵进行的运算,形成与该条产业政策信息对应的最终属性特征矩阵。将初始属性特征矩阵与阈值矩阵相减,并经阶跃运算,形成最终属性特征矩阵(为零一矩阵),作为判断政策属性的最终依据。两个矩阵对应元素相减后,如果相减以后结果大于等于零,则该元素赋值为1,表示该条产业政策信息具有该类、项所对应的产业政策属性;如果相减以后结果小于零,则该元素赋值为0,表示该条产业政策信息不具有该类、该项所对应的产业政策属性。

与现有技术相比,本发明的有益效果是:

1、本发明通过产业政策的自动去噪筛选处理,让计算机信息处理系统能够自动、准确地删除非产业政策信息,判断和分辨出产业政策信息自动入库,提高产业政策信息的入库准确率。

2、本发明提供了智能、自动的产业政策属性的识别、判断方法。基于人工定义的产业政策属性特征矩阵和属性阈值矩阵,运用智能化、定量化的赋值计算、信息处理方法,自动生成具有产业政策属性标记的最终属性特征矩阵,让系统自动分析、识别、提取出产业政策信息的各类属性。本方法提供了一个完整的技术方案和技术路线,能够实现产业政策多重属性自动分析、处理,大大提高产业政策各类属性的识别和标记的准确率,可以有效地代替以人工方式对产业政策信息的属性标记工作,也可以有效代替目前普遍采用的分类器对信息进行分类的传统方式,解决分类器对部分属性无法识别、无法确定、无法分类的难题。

3、基于本发明,使生成的最终属性特征矩阵(零一矩阵)能够准确的、简洁的描述某条产业政策信息是否具有某类、某项政策属性。基于某条政策属性对应的最终属性矩阵元素所包含的各类产业政策属性信息,计算机系统可以实现产业政策信息的个性化推送(例如把符合用户行业、区域属性、专题需求的信息推送给不同用户);由于最终属性特征矩阵包含入库产业政策网页的各类、各种政策属性信息,基于最终特征属性矩阵构建所有入库产业政策信息的政策属性信息索引库,结合分词、切词和词频统计等通用信息处理技术,可生成产业政策的垂直搜索引擎,可以实现对行业、区域、部门、专题等不同维度进行精准搜索;可以实现各类产业政策平台的定制,即通过对标记了同区域、同行业、同专题、同部门等属性的产业政策信息的抽取,所形成的信息集合,可以定制各个行业的、各个区域、各种专题、各个部门的政策服务平台,也可以通过区域加行业、区域加专题、区域加部门等灵活的各类主题平台定制。

附图说明

图1为本发明的原理与核心流程图;

图2为本发明的应用模式图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅图1-2,本发明提供一种技术方案:一种基于属性特征矩阵的产业政策智能处理方法,包括以下步骤:

a:计算机系统对从监控源抓取的某条网页信息是否属于产业政策信息进行智能、自动的判断,即对抓取的信息进行去噪筛选,剔除非产业政策信息,保留的产业政策信息存入系统数据库,进行下一步信息的深度处理;

b:判断该条信息属于产业政策信息,基于专家经验、人工定义的产业政策属性特征矩阵;

c:对不同的政策类别运用不同的计算方法和规则,对该条产业政策信息所对应的属性特征矩阵的元素进行自动赋值,形成初始属性特征矩阵;

d:根据专家经验、人工设定,对属性特征矩阵的每个元素设置阈值,形成产业政策的属性阈值矩阵,计算机系统经过初始属性特征矩阵与属性阈值矩阵的矩阵运算,计算出该条产业政策信息的最终属性特征矩阵,进而判断该信息是否具有产业政策的某类、某项属性。

待处理政策信息的去噪筛选:系统可以选择关键词权重计算、文本自然语义分析、标题词库删除等方法,剔除和产业政策不相关的信息,确保存入数据库的信息为产业政策信息,进入产业政策的属性标记下一步处理流程。本发明提供一种简单的标题词库删除法,即建立标题删除词库,如果标题中出现了该类词,可以将其判定为非产业政策类信息。例如标题中出现“调查、通报、辅导、医疗、聘请、卫生和计划生育、消防局、公路管理局、团委、团工委、工作总结、任命、任免、行政许可、文艺活动、工委、比赛、作品、许可证、党员、党委会议、学习会...”等关键词,系统可以剔除该类信息,他们不属于产业政策信息。也可以在采用标题词库删除法一次删除不合规信息的基础之上,再一次使用文本语义分析等方案,进行二次判断、删除。

一条待处理的政策信息经过信息去噪处理确定为产业政策后,进入以下处理步骤:

第一步,人工定义属性特征矩阵。人工定义一个的属性特征矩阵(记为符号p)。先定义类,即系统定义的产业政策属性分为几个大类,“类”的数量决定了属性特征矩阵的行数;再定义每个“类”所包含的“项”,表示该类产业政策属性所包含的属性数量(例如政策分类这个类,定义为政策通知、政策文件、公示通告、政策要闻、政策解读五项)。属性特征矩阵中,与“类”和“项”对应的每个元素都有特定的表征产业特征属性的含义。在所有“类”中,最大的“项”的数量,决定了属性特征矩阵的列数。属性特征矩阵中,每个元素大于等于0,数值越大,实际上表示该条信息与属性特征矩阵对应的类、项属性的匹配程度越高。如下所示:

其中,m,n,i∈r(自然数集),m的取值为某产业政策的属性类别的数量,ai为该产业政策的第i类属性,是构成属性特征矩阵p的行向量;

ai=(ai,1,ai,2,…ai,j),其中,j代表第i个属性类别的第j个项,因此,具体的每一项元素ai,j则表示该产业政策的第i个属性类别中的第j项属性;

因此,一个具体的产业政策的属性特征矩阵可以表示如下:

计算机计算处理过程中,属性特征矩阵的默认值先设定为空,待后续步骤中进行计算赋值。

第二步,自动计算生成初始属性特征矩阵。对不同的政策属性类别,可以运用不同的规则、算法(参考下面“关于属性特征矩阵的几种定量赋值方法”),对属性特征矩阵的每个元素进行自动定量赋值,形成该条产业政策信息的初始属性特征矩阵(p0)。

第三步,定义产业政策属性阈值矩阵。与产业政策的属性特征矩阵相对应,根据各个不同的属性类、项,预设了属性阈值矩阵β:

其中,βij为第i类、第j项属性的属性配置阈值,且βij>0。

第四步,形成产业政策最终属性特征矩阵。通过p0与β进行矩阵相减、以及阶跃运算得到经过阈值配置的可以用于矩阵化描述产业政策的多属性矩阵p1。

在矩阵对应元素的元素值相减时,如果,a’ij-βi,j≤0,则令a”ij=0;a’ij-βi,j>0,则令a”ij=1;即:

则有:

其中,a”ij∈{0,1}

形成最终的属性特征矩阵p1具有零一矩阵的标准形式,p1中的元素a”ij如果为1,表示该条产业政策信息具有该类、项所对应的产业政策属性;如果元素a”ij为0,表示该条产业政策信息不具有该类、项所对应的产业政策属性。

政策类别:

政策类别为:[政策通知政策文件公告公示政策要闻政策解读]。该“类”表示产业政策的政策类别;“政策通知”、“政策文件”、“公告公示”、“政策要闻”、“政策解读”等表示该类下的5个“项”;形成产业政策的属性特征矩阵时,实际上由5个元素组成,分别对应5个项对应的政策属性。

最终属性特征矩阵中,如果对应类的行矩阵为[00010.....],表示该条产业政策信息为政策要闻,该条信息不符合其他项所定义的、对应的产业政策属性,即该条信息不是政策通知、政策文件、公告公示和政策解读。其中,“......”表示最大“类”所定义的“项”与该“类”的“项”数量的差,省略号部分的元素自动标记为0,计算机根据类中对项的定义,不再识别超过最大项数的元素所对应的产业政策属性。如果,最终属性特征矩阵中,对应类的行矩阵为[11000.....],表示该条产业政策信息同时具有政策通知、政策文件的属性。

产业政策所属行业:

拟将产业政策所属行业的类别定义为:[电子信息生物医药新材料先进制造节能环保现代服务业文化创意现代海洋航天航空现代农业科技金融其他],表示该“类”下有12个“项”;形成产业政策的属性特征矩阵时,实际上由12个元素组成,分别对应12个项对应的政策属性。最终属性特征矩阵中,如果对应类的行矩阵为[110101101110.....],表示该条产业政策信息同时满足了“电子信息、生物医药、先进制造、现代服务业、文化创意、航天航空所、现代农业、科技金融”定义的八项属性,隶属于该“项”元素所对应的产业政策属性,同时它不满足“新材料、节能环保、现代海洋、其他”四项属性。

产业政策所属区域:

可定义产业政策的某特定区域的表征政策区域的类和项,例如包括[中国浙江宁波鄞州鄞州信息孵化器],表示该“类”表示产业政策的区域属性,其中鄞州信息孵化器不是表示传统意义的行政区域,而是表示政策意义的区域,表示将“鄞州信息孵化器”也作为一个政策单元;中国、浙江、宁波、鄞州、鄞州信息孵化器等表示该类下的5个“项”;形成产业政策的属性特征矩阵时,实际上由五个元素组成。

最终属性特征矩阵中,如果对应类的行矩阵为[00010......],表示该条产业政策信息是鄞州区政府部门发布的产业政策,该条信息不符合其他项所定义的、对应的产业政策属性,该条信息不是国家政府部门、浙江政府部门、宁波市政府部门、以及下辖的鄞州信息孵化器发布的。

产业政策专题:

可以人工定义政策专题,例如系统中设置了[人工智能大数据智能制造区块链...智慧城市]等50个专题,表示所定义的产业政策专题“类”中,有50个“项”。

如果最终属性特征矩阵中,某个项对应的元素值为1表示该条信息符合该项专题特征,0表示该条信息不符合该项专题特征。

关于属性特征矩阵的几种定量赋值方法:

不同的类可以选择不同定量赋值方法,同一个类也可以采用不同的定量赋值方法,可以选择其中的一种计算、赋值方法即可。不属于本发明的专利保护诉求。

权重计算法:基于关键词和词频、词序,综合计算权重,该方法可以用到政策类别、行业分类、部门分类等类的产业政策属性标注中。下面,以行业标记为例,说明计算机如何利用该方法,定量计算元素的值。

对一个抓取的网页,属性定量赋值的步骤如下:

步骤1:产业政策分词与词性标注。首先不同行业建不同的行业词库,例如电子信息、生物医药等不同的行业词库。利用行业词库,对需要进行行业属性标注的网页进行分词,标注网页包含的所有行业关键词的词频、位置等重要信息;

步骤2:计算产业政策中各行业关键词的总权重。对产业政策中出现的行业关键词,赋予其在行业词库中的权重并根据关键词在标题、正文中的不同位置设置权重系数(如标题的系数为0.8,前面几行和后面几行的为0.15,中间位置的系数为0.05等),这样可以把位置因素考虑到权重中去,然后计算各行业关键词的总权重之和;

步骤3:根据阈值设定,应用相应的判别规则。在计算产业特征的最终属性特征矩阵时,根据设置的阈值,总权重之和如果大于等于该阈值,可以把该行业属性标记为1;如果小于该阈值,把该行业属性标记为0。

规则库判断法:可以用各种规则类判断待处理的产业政策是否具有某类属性。该方法可以用到政策分类等类的判断。

例如,我们可以通过规则规定:某个政策信息中的标题中出现“通知的通知”,同时该条政策信息又不是转发上级的政策通知,该条信息实际上是一条本级政府发布的政策文件。在最终特征属性矩阵中,我们可以将“政策文件”项对应的元素标记(赋值)为“1”,表示该条信息具有政策文件属性,其余政策分类中的项对应的元素标记(赋值)为“0”。

监控源直接提取法:根据监控源的属性表述,监控源对应的部门或者区域等产业政策属性。基于监控源网址提供的部门、区域等信息,可以直接对部门、区域类进行赋值。

说明:元素赋值方法本身,不是本次专利的诉求点;上述三种方法不能穷尽所有计算方法,比如还可以通过文本自然语义分析技术,对元素进行赋值。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1