一种新能源政策信息抽取方法及系统与流程

文档序号:17696481发布日期:2019-05-17 21:34阅读:446来源:国知局
一种新能源政策信息抽取方法及系统与流程
本发明属于新能源政策评价和文本挖掘领域,具体涉及一种新能源政策信息抽取方法及系统。
背景技术
:在环境污染、气候变化和化石能源日益枯竭的多重挑战下,以可再生能源为主的新能源在各国能源战略中居于越来越重要的地位。为了促进可再生能源产业的发展,我国于2005年颁布了《可再生能源法》,并建立了可再生能源的目标与规划制度、固定电价与强制上网制度、费用分摊与补贴制度等其后,截止到2018年5月,围绕《可再生能源法》的实施,中央和各级政府出台了一系列的政策和相关配套文件,逐渐形成以《可再生能源法》为主导的新能源和可再生能源法律与政策体系。传统模式下,政府部门在政策制定过程中,常常因数据源有限、数据处理能力不足、时效性不高等技术难题,存在量化指标难界定,政策执行情况难考核、政策合理性缺乏评估手段等问题,迫切需要采用新的方法和手段对政策执行效果和作用进行分析评估。为此,2015年7月1日国务院办公厅印发《国务院办公厅关于运用大数据加强对市场主体服务和监管的若干意见》,提出“运用大数据科学制定和调整监管制度和政策,跟踪监测有关制度和政策的实施效果”并“充分运用大数据技术,改进经济运行监测预测和风险预警”。对政策进行分析评价,首先需要对政策的核心内容进行解读,提取核心信息。传统的处理方法是由分析评价人员人工对政策进行解读,获取分析评价所需的关键信息,然后将这些信息作为基础,作进一步的分析处理。然而面对大量的新能源政策,通过人工检索,人工分类的方式不仅效率低下,同时造成了有效信息无法准确提取的风险。技术实现要素:为了满足上述需求,本发明提出一种新能源政策信息抽取方法及系统,能够利用计算机快速,准确,精炼的提取出政策所表达的主要信息,得到政策的所属分类,政策的影响范围等内容,免去人工检索,人工分类的麻烦,从而节约时间,提高了效率。本发明的目的是采用下述技术方案实现的:一种新能源政策信息抽取方法,所述方法包括:将新能源政策处理为设定格式的新能源政策文本;基于预先建立的新能源政策特征词典库,采用标点符号自动识别分句的方法对所述新能源政策文本进行分句层次划分与标注,输出划分与标注结果,生成文本语句库;基于统一服务接口,根据所述文本语句生成新能源政策特征词典库和文本语句库的关键信息,并输出。优选的,所述新能源政策特征词典库的建立包括:对收集的新能源政策进行预处理;利用专家法,对预处理后的新能源政策文本的数据库进行抽样分析,生成用于存储基本特征词的新能源政策特征词典库。优选的,所述基于预先建立的新能源政策特征词典库,采用标点符号自动识别分句的方法对新能源政策文本进行分句层次划分与标注,输出划分与标注结果,生成文本语句库包括:基于预先建立的新能源政策特征词典库,对新能源政策文本进行分词处理,生成文本分词库;根据所述文本分词库的分词词频情况,更新新能源政策特征词典库;基于更新的新能源政策特征词典库,建立文本语句库。进一步地,所述对收集的新能源政策进行预处理包括:采集新能源政策,根据预先定义的编码格式构建基于新能源政策的文本数据库,以及用于管理所述新能源政策相关信息的政策数据表;所述政策数据表包括上传人、上传时间、来源、编号、政策名称、发文部门和发文日期。进一步地,所述基本特征词包括:电价、补贴、财税、增值税退征、所得税减免、财政补贴、增值税退征、法律、法案、行动计划、规划、建设方案、全额保障收购、新能源装机容量、新增投产容量、累计并网装机容量、年发电量、装机容量占比、发电量占比、co2减排量、so2减排量和nox减排量。进一步地,所述基于预先建立的新能源政策特征词典库,对新能源政策文本进行分词处理,生成文本分词库包括:调用开源分词工具,将所述基本特征词加载至开源分词工具的自定义词库中,利用所述开源分词工具的默认词库对新能源政策文本进行分词处理,得到分词的词性、词频和位置;采用tf-idf算法,计算所述基本特征词的权重;基于所述分词的词性、词频和位置和所述基本特征词的权重,构建文本分词库。进一步地,通过下式确定基本特征词的权重:tf=t;idf=log(n/n);ctf-idf=tf*idf=t*log(n/n)式中,t为文本中基本特征词k出现的次数,n为新能源政策文本总文档数,n为包含基本特征词k的文档数。进一步地,所述根据文本分词库的分词词频情况,更新新能源政策特征词典库包括:根据基本特征词的权重,确定所述基本特征词在新能源政策文本中出现的频次;基于所述基本特征词在新能源政策文本中出现的频次,对新能源政策特征词典库中未包含的基本特征词进行二次专家评估,并将评估合格的基本特征词更新至新能源政策特征词典库。进一步地,所述采用标点符号自动识别分句的方法对新能源政策文本进行分句层次划分与标注包括:将句号、问号、感叹号作为标明句的分句符号;将着重号、连接号、间隔号、书名号和专名号作为编程中自动忽略的断句标记;通过顿号、引号和括号对初始程序修改,完成分句。进一步地,所述划分与标注结果包括:分句标识,分句内容、分句位置和分句权重,以及分词与分句的位置关联关系;其中,所述分句权重为分句中非停用词的频次和权重之和。优选的,所述基于统一服务接口,将所述文本语句生成文本分词库和文本语句库的关键信息,并输出包括:根据分句权重,选取需要分解的分句,基于汉语语法结构生成关键信息模板;利用关键信息模板中分句的分词词性,生成关键信息;并将所述关键信息通过统一服务接口输出。优选的,所述获取关键信息之后还包括:根据关键信息的类型构建新能源政策文本分类策略库;包括宏观法律、发展规划、消纳政策、行政管理政策、财税政策和电价政策;根据分句权重和关键信息的重要性,计算分句的重要性值,并将所述重要性值超出预设阈值的分句定义为文本摘要。一种新能源政策信息抽取系统,所述系统包括:处理模块,用于将新能源政策处理为设定格式的新能源政策文本;划分与标注模块,用于基于预先建立的新能源政策特征词典库,采用标点符号自动识别分句的方法对所述新能源政策文本进行分句层次划分与标注,输出划分与标注结果,生成文本语句库;获取模块,用于基于统一服务接口,根据所述文本语句生成新能源政策特征词典库和文本语句库的关键信息,并输出。与最接近的现有技术比,本发明的有益效果为:本发明提出的一种新能源政策信息抽取方法及系统,首先将新能源政策处理为设定格式的新能源政策文本;通过统一的数据模型,只需要少量的人工辅助,非常适合于海量数据。其次基于预先建立的新能源政策特征词典库,采用标点符号自动识别分句的方法对所述新能源政策文本进行分句层次划分与标注,输出划分与标注结果,生成文本语句库;无需重新设计文档同构的体系结构,适当修改文档同构格式定义,及其操作接口即可满足本领域的需求;通过对新能源政策文本进行分句层次划分与标注,可以实现新能源政策文本中整句的拆分,实现了词与词之间的区分,为后续的关键文本信息的抽取提供了条件。使得新能源政策分词库、语句库、特征词典库、分类策略库的分别创建和耦合性处理,新能源政策文本分析人员的关注点更加集中,策略优化提升更加方便。最后基于统一服务接口,根据所述文本语句生成新能源政策特征词典库和文本语句库的关键信息,并输出。基于新能源政策特征词典库的分词法中采取了多种方法来实现基于新能源政策文本和特征词典库的匹配,根据实际情况选择相适应的方法,可以提高与特征词典库匹配的准确度,继而提高信息抽取的准确度。附图说明图1为本发明具体实施方式提供的针对新能源政策内容的信息抽取总流程图;图2为本发明具体实施方式提供的新能源政策文本挖掘流程框图。具体实施方式下面结合附图对本发明的具体实施方式作进一步详细的说明。新能源政策内容的提取主要是指针对新能源这一特殊领域,对新能源政策文本内容等进行概括。传统的文本内容提取方法主要按照词语权重提取出能够表征文本主要内容的特征词,然后根据句子的物理信息以及句子中包含的特征词情况计算出句子的权重,按照句子权重大小等提取出候选摘要句,然而这种方法并不能完全适合于新能源这一特殊领域。基于以上分析,本发明的目的在于提供一种针对新能源政策内容的信息抽取的方法,针对新能源政策的主要内容提取出具有代表性且具有能够区分政策文本类别的关键词信息,包括政策的分类信息,政策是否可量化,以及得到政策的影响范围等,进而实现新能源政策文本的自动解析和关键指标的提取,为政策文本库的构建以及新能源政策分析评价工作奠定基础。实施例1:本发明提供的一种针对新能源政策内容的信息抽取的方法,具体的业务流程如图1和图2所示,详细说明如下:s1将新能源政策处理为设定格式的新能源政策文本;s2基于预先建立的新能源政策特征词典库,采用标点符号自动识别分句的方法对所述新能源政策文本进行分句层次划分与标注,输出划分与标注结果,生成文本语句库;s3基于统一服务接口,根据所述文本语句生成新能源政策特征词典库和文本语句库的关键信息,并输出。步骤s1中,新能源政策特征词典库的建立包括:a,对收集的新能源政策进行预处理;b,利用专家法,对预处理后的新能源政策文本的数据库进行抽样分析,生成用于存储基本特征词的新能源政策特征词典库。步骤a中,预处理新能源政策文本即对新能源政策进行收集和整理,构建txt政策文本数据库,编码格式为utf-8以便分词,并且建立政策数据表以管理政策其他维度数据信息,包括上传人、上传时间、来源、编号、政策名称、发文部门、发文日期等信息。步骤b中的基本特征词包括:电价、补贴、财税、增值税退征、所得税减免、财政补贴、增值税退征、法律、法案、行动计划、规划、建设方案、全额保障收购、新能源装机容量、新增投产容量、累计并网装机容量、年发电量、装机容量占比、发电量占比、co2减排量、so2减排量和nox减排量。利用专家法对新能源政策文本数据库信息进行抽样分析,基于机器学习的文本自动分类方法,构建初步的新能源政策特征词典库,如表1所示。表1新能源政策特征词典库步骤s2,基于预先建立的新能源政策特征词典库,采用标点符号自动识别分句的方法对新能源政策文本进行分句层次划分与标注,输出划分与标注结果,生成文本语句库,包括:1)基于预先建立的新能源政策特征词典库,对新能源政策文本进行分词处理,生成文本分词库;2)根据所述文本分词库的分词词频情况,更新新能源政策特征词典库;3)基于更新的新能源政策特征词典库,建立文本语句库。步骤1)中,基于预先建立的新能源政策特征词典库,对新能源政策文本进行分词处理,生成文本分词库包括:调用开源分词工具,将所述基本特征词加载至开源分词工具的自定义词库中,利用所述开源分词工具的默认词库对新能源政策文本进行分词处理,得到分词的词性、词频和位置;采用tf-idf算法,计算所述基本特征词的权重。通过下式确定基本特征词的权重:tf=t;idf=log(n/n);ctf-idf=tf*idf=t*log(n/n)式中,t为文本中基本特征词k出现的次数,n为新能源政策文本总文档数,n为包含基本特征词k的文档数。文本分词库的构建具体包括:针对步骤a中预处理后某一新能源政策txt文本,调用开源的中文分词工具——结巴分词,将步骤b中基本特征词加载至结巴分词的自定义词库中,结合结巴分词默认词库对文本进行分词处理,得到分词的词性、词频和位置,并计算基本特征词权重信息。权重的计算方法如下:基于tf-idf(termfrequency–inversedocumentfrequency)算法对特征词进行权重的计算。词频tf就是特征词在文本中出现的次数,逆文档频率idf是政策文本库中总文档数与包含该特征词的文档数么比的对数,表示该特征词有效区分目标文本的能力,也就是代表特征词在文本中重要性的权重系数,与普遍性呈反比。设t为文本中基本特征词k出现的次数(由于政策文本的长度差别不大,因此不再对t进行标准化处理),n为政策文本库总文档数,n为包含该关键词的文档数,则:tf=t;idf=log(n/n);ctf-idf=tf*idf=t*log(n/n);步骤2)根据文本分词库的分词词频情况,更新新能源政策特征词典库包括:根据基本特征词的权重,确定所述基本特征词在新能源政策文本中出现的频次;基于基本特征词在新能源政策文本中出现的频次,对新能源政策特征词典库中未包含的基本特征词进行二次专家评估,并将评估合格的基本特征词更新至新能源政策特征词典库。步骤s2,采用标点符号自动识别分句的方法对新能源政策文本进行分句层次划分与标注包括:将句号、问号、感叹号作为标明句的分句符号;将着重号、连接号、间隔号、书名号和专名号作为编程中自动忽略的断句标记;通过顿号、引号和括号对初始程序修改,完成分句。划分与标注结果包括:分句标识,分句内容、分句位置和分句权重,以及分词与分句的位置关联关系;其中,分句权重为分句中非停用词的频次和权重之和。步骤s2中,文本语句库的生成包括:根据自动分词和词性标注工作,采用标点符号自动识别分句的方法,对步骤a中选定的新能源政策txt文本进行分句层次和关系的自动划分和标注,输出结果包含分句标识,分句内容、分句位置和分句权重,并完成分词与分句的位置关联关系。■标点符号有句号、问号、叹号、逗号、顿号、分号、冒号、引号、括号、破折号、省略号、着重号、连接号、间隔号、书名号和专名号。首先在分句的时候重点将句号、问号、感叹号判断为标明句(包括单句和复句)的分句符号,其次在编程的时候排除着重号、连接号、间隔号、书名号和专名号,让计算机碰到这些标点符号时不把它们作为断句的标记。最后,考虑到顿号、引号、括号的特殊作用,对初始程序稍作修改,最终完成分句。■分句权重为分句中非停用词的频次和权重之和。步骤s3,基于统一服务接口,根据文本语句生成新能源政策特征词典库和文本语句库的关键信息并输出包括:根据分句权重,选取需要分解的分句,基于汉语语法结构生成关键信息模板;例如名词+动词+数词+量词+时间词+处所词;利用关键信息模板中分句的分词词性,生成关键信息;并将所述关键信息通过统一服务接口输出。关键信息的生成包括:依据分句权重,选取需要分解的分句,基于汉语语法结构生成关键信息模板,根据生成信息的完整性情况,评估分句的信息重要性,规则为模板中词性的重要性之和,词性的重要性具体值如下:词性名词动词数词量词时间词处所词值543322步骤s3生成关键信息之后还包括:根据关键信息的类型构建新能源政策文本分类策略库;包括宏观法律、发展规划、消纳政策、行政管理政策、财税政策和电价政策。根据分句权重和关键信息的重要性,计算分句的重要性值,并将所述重要性值超出预设阈值的分句定义为文本摘要。其中,利用专家法构建新能源政策文本分类策略库,判断并返回政策分类,基本策略如表2所示。表2新能源政策文本分类策略库1)文本摘要生成根据4)中的语句权重和5)中的分句的信息重要性,重新计算的句子的重要性值,设定一定的阈值,并将超过阈值的句子输出生成摘要。2)文本信息输出设计通用接口将关键信息进行输出,保证信息传递的规范性和标准性。采用通用xml.webservice进行接口的开发,对新能源政策文本信息输出的规范性进行统一的规约,具体的输出范例如下:综上,通过上述新能源政策分词库、语句库、特征词典库、分类策略库的分别创建和耦合性处理,使得新能源政策文本分析人员的关注点更加集中,策略优化提升更加方便。后续,可以利用通过本实施例获得的关键信息导入新能源政策评价与风险分析系统后,结合后续政策的执行情况评估新能源政策的执行效果,进而帮助调整政策给出依据,为下次制定政策提供依据。上述方法对于各个阶段评估函数的选取,都采用了较为广泛的评估函数,根据建立模型的不同选择相适应的评估函数进行相关信息提取,提高了信息提取的准确程度,比起单一算法提高了文本挖掘的多样性和准确度,与现有技术相比,本发明具有数据抽取准确、针对性强以及方法灵活性强等优点。具体的实施情况如下:1)政策文本加载政策发布后,主平台将网址(或其他地址)中的政策内容,转换成txt文本(,编码格式为utf-8。文本挖掘模块将该政策加载至系统中。2)基本关键词加载接收从主平台传递过来的基本关键词(见表3),并将这些关键词与政策文本进行一次匹配,以标准的xml格式输出关键词状态(见表4)。表3基本关键词列表表4基本关键词信息表3)语义网络获取获取关键词相关性最高的部分内容,并用内置策略进行筛选,获取《国家发展改革委关于2018年光伏发电项目价格政策的通知》中有效内容。4)文本主题生成文本挖掘功能根据主题分析算法,基于lda主题模型思想对有效内容进行分析,获取主题词的匹配性结果,内容如下:5)文本摘要生成根据语义网络和主题内容,选取相关有效内容生成文本的摘要,内容如下:各省、自治区、直辖市发展改革委、物价局、能源局、扶贫办,国家电网公司、南方电网公司、内蒙古电力公司,降低2018年1月1日之后投运的光伏电站标杆上网电价,ⅰ类、ⅱ类、ⅲ类资源区标杆上网电价分别调整为每千瓦时0.55元、0.65元、0.75元(含税)。自2019年起,纳入财政补贴年度规模管理的光伏发电项目全部按投运时间执行对应的标杆电价。2018年1月1日以后投运的、采用“自发自用、余量上网”模式的分布式光伏发电项目,全电量度电补贴标准降低0.05元,即补贴标准调整为每千瓦时0.37元(含税)。村级光伏扶贫电站(0.5兆瓦及以下)标杆电价、户用分布式光伏扶贫项目度电补贴标准保持不变。6)结果接口输出将文本挖掘结果以标准的xml格式输出,提供给主平台调用。实施例2:基于同一发明构思,本申请还提出一种新能源政策信息抽取系统,所述系统包括:处理模块,用于将新能源政策处理为设定格式的新能源政策文本;划分与标注模块,用于基于预先建立的新能源政策特征词典库,采用标点符号自动识别分句的方法对所述新能源政策文本进行分句层次划分与标注,输出划分与标注结果,生成文本语句库;获取模块,用于基于统一服务接口,根据所述文本语句生成新能源政策特征词典库和文本语句库的关键信息,并输出。本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。最后应当说明的是:以上实施例仅用以说明本申请的技术方案而非对其保护范围的限制,尽管参照上述实施例对本申请进行了详细的说明,所属领域的普通技术人员应当理解:本领域技术人员阅读本申请后依然可对申请的具体实施方式进行种种变更、修改或者等同替换,这些变更、修改或者等同替换,其均在其申请待批的权利要求范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1