一种基于大数据人工智能的双创成果高价值专利筛选方法与流程

文档序号:32748274发布日期:2022-12-30 23:21阅读:36来源:国知局
一种基于大数据人工智能的双创成果高价值专利筛选方法与流程

1.本发明涉及一种基于大数据人工智能的双创成果高价值专利筛选方法,属于大数据技术领域。


背景技术:

2.目前,高价值专利的筛选和分析在专利许可转让、质押融资、企业重组和并购等领域中均得到了广泛应用。传统的专利管理系统未采用数字化管理手段,存在效率低、数据量少、数据关联性差等问题。随着大数据、人工智能算法的快速发展,利用大数据挖掘智能算法能高效快捷从多维度对专利价值进行快速量化评估,找出产业发展中的短板和不足,定位产业发展的方向,为电网企业实施产业规划、产业布局提供指引和决策参考。电力科技项目与一般工程建设项目不同,科技项目的各种技术指标以及预期完成后的指标都是电力企业运行是否达到运行规程规定的重要评价指标。
3.当前已有的专利价值评估研究多依赖于专利本身的指标或字段数据开展核心专利识别,但是与双创成果关联性小,未充分考虑实际科技创新成果转化推广中对专利的技术保护、原创性、普遍适用性等要素影响。


技术实现要素:

4.本发明目的是提供了一种基于大数据人工智能的双创成果高价值专利筛选方法,实现海量专利数据快速化、可定制化的专利价值筛选,对提高科技成果转化效率、促进专利运营水平具有重要意义。
5.本发明为实现上述目的,通过以下技术方案实现:一种基于大数据人工智能的双创成果高价值专利筛选方法,其特征在于,包括以下步骤:(1)建立电网企业专利数据库,通过对专利数据库的数据进行挖掘并结构化处理和分析,记录入知识模型中并存储于系统知识库;(2)确定开展知识产权运营的专利价值目标,用智慧芽数据、国家知识产权局网站两大数据库,通过专利价值、同族专利家族规模、同族被引用专利总数、诉讼专利、权利要求数量、重要发明团队、高价值专利的发明人指标,筛选高价值专利和重要发明人,对筛选结果进行综合评估分析;(3)开展数据异常治理,进行数据清洗、数据集成和数据变换去除不完整、不一致、有异常的数据;(4)开展基于神经网络的智能模型设计与训练,在异常数据处理基础上,利用bp神经网络模型的自学习和自适应能力,对数据集进行训练在模型训练中找到最优参数,针对筛选出来待运营的专利库,围绕专利文本核心特征指标,将处理好的文本数据放入 bp 神经网络模型中进行训练,利用测试集进行模型的验证。
6.优选的,所述数据清洗、数据集成和数据变换具体过程如下:
1)数据清洗通过数据清洗删除原始数据集中的无关数据、重复数据和噪声数据,筛选掉与高价值专利筛选主题无关的属性数据,采用最近临插补、均值或众数插补的法处理专利原始数据集中的缺失值、异常值;2)数据集成从网站上爬取的原始专利数据分布在不同的数据源中,通过数据集成将多个数据源合并存放在一个数据库中;对三种类别的利进行标引,其中高价值专利标引为 0,资产专利标引为 1,负债专利标引为 2,将标引标签转换为独热编码,将专利类别的离散特征取值扩展到欧式空间; 3)数据变换进行数据变换的规范化处理,消除参数之间的量纲和取值范围的影响,先将所有专利文本属性转换为数值,然后对所有数据进行均值和方差的归一化处理,消除专利参数之间取值范围差异的影响。
7.优选的,所述bp 神经网络模型训练需要正向和反向计算误差更新权重部分,如果更新后的全局计算误差小于预设值,则模型训练完成达到效果,如果更新后的全局计算误差不小于预设的值,需要继续判断是否达到了预设的训练次数,没有达到,则继续训练,如果达到则说明网络训练失败无法收敛,经过重复训练得出 bp 神经网络的预测结果输出。
8.本发明的优点在于:本技术建立高价值专利的指标评价体系,提出双创成果转化推广关联到的专利关键词,利用大数据诊断、文本快速查询等方法,分层分级筛选出适用于双创成果的核心专利及普通专利,开发了基于大数据智能分析的双创成果与专利价值筛选系统,实现海量专利数据快速化、可定制化的专利价值筛选,对提高科技成果转化效率、促进专利运营水平具有重要意义。
附图说明
9.附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
10.图1为本发明基于大数据人工智能的高价值专利挖掘实施流程图。
11.图2 为本发明基于神经网络的智能模型设计与训练算法流程图。
具体实施方式
12.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
13.(1)建立电网企业专利数据库紧扣双创成果转化推广,建立电网企业专利数据库,数据来源于已授权的专利数据、国家知识产权局在审核的专利数据等。为了紧密契合科技成果产品、装置、平台等落地推广应用,选择已实现规模化推广、经济效益好的专利作为契合双创成果要求的高价值专利样本。
14.通过对专利数据库的数据进行挖掘并结构化处理和分析,记录入知识模型中并存储于系统知识库,既能方便企业对产品相关知识管理和更新,又能在企业决策人员遇到类似的产品业务问题时,就可以通过检索系统知识库来找到相关的知识,从而得到业务问题求解组合方案或求解的灵感,并将解决问题时的实践经验更新到知识库中,方便日后检索和重用。
15.(2)确定开展知识产权运营的专利价值目标如何从繁杂的专利中筛选出具有一定价值的专利,是专利的管理、保护和运营的重要内容。利用智慧芽数据、国家知识产权局网站两大数据库,从专利价值、同族专利家族规模、同族被引用专利总数、诉讼专利、权利要求数量、重要发明团队、高价值专利的发明人等指标入手,筛选高价值专利和重要发明人。围绕知识产权运营需要的技术、经济、法律等指标体系,结合电力行业突出实际应用、解决现场技术难题等现实需求,对筛选结果进行综合评估分析。
16.如何从大量的专利文本和复杂的长文本语句中挖掘出有效信息成为研究的关注点。为此,结合知识产权运营目标,梳理出来专利的关键核心技术特征,采用关键字提取、主题发现以及聚类和分类等方式,利用文本挖掘方式进行相似度筛选。
17.(3)开展数据异常治理在电网企业专利数据库中,海量的原始数据中往往存在大量不完整(有缺失值)、不一致、有异常的数据,这对后续的建模过程将产生严重的影响,为此必须进行数据理,一方面可以提高训练数据的质量;另一方面可以让数据更好地适应人工神经网络算法。本专利数据治理内容包括:数据清洗、数据集成和数数据变换,其中各环节的治理过程如下。
18.数据清洗通过数据清洗先删除原始数据集中的无关数据、重复数据和噪声数据,筛选掉与高价值专利筛选主题无关的属性数据,采用最近临插补、均值或众数插补的法处理专利原始数据集中的缺失值、异常值等。
19.数据集成从网站上爬取的原始专利数据分布在不同的数据源中,需要通过数据集成将多个数据源合并存放在一个数据库中。此外为实现有监督学习,需对三种类别的利进行标引,其中高价值专利标引为 0,资产专利标引为 1,负债专利标引为 2。由于高价值专利筛选属于多分类任务,故要将标引标签转换为独热编码,进一步将专利类别的离散特征取值扩展到欧式空间,使得标签类别特征之间的距离计算更加合理。
20.数据变换由于不同专利参数指标具有不同的量纲,其数值间的差异较大,为此必须进行数据变换的规范化处理,以消除参数之间的量纲和取值范围的影响,进一步来满足适合机器学习算法需要的数据形式。实践过程中先将所有专利文本属性转换为数值,然后对所有数据进行均值和方差的归一化处理,最后将不同量纲的参数映射到内,从而消除了专利参数之间取值范围差异的影响。
21.(4)开展基于神经网络的智能模型设计与训练在前面异常数据处理基础上,利用bp神经网络模型的自学习和自适应能力,神经网络模型对据属性不完整具有低敏感性,同时又具有良好而容错能力和抗干扰能力,对数
据集进行训练在模型训练中找到最优参数,从而得到最优解。针对筛选出来待运营的专利库,围绕专利文本核心特征指标,将处理好的文本数据放入 bp 神经网络模型中进行训练,最后利用测试集进行模型的验证。
22.bp 神经网络模型训练的关键在于正向和反向计算误差更新权重部分,如果更新后的全局计算误差小于预设值,则模型训练完成达到效果,如果更新后的全局计算误差不小于预设的值,还要继续判断是否达到了预设的训练次数,没有达到,则继续训练,如果达到则说明网络训练失败无法收敛。经过以上重复训练过程最终得出 bp 神经网络的预测结果输出。
23.最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1