一种专利技术演化分析方法及系统的制作方法

文档序号:9911273阅读:385来源:国知局
一种专利技术演化分析方法及系统的制作方法
【技术领域】
[0001] 本发明涉及本发明涉及文本挖掘、机器学习和专利分析领域,尤其是一种专利技 术演化分析方法及系统。
【背景技术】
[0002] 专利信息集是目前世界上最大的技术信息集,几乎囊括了一切应用领域的技术成 果。专利体现特定技术领域的发明情况,以往的研究也指出专利中的相当一部分信息是较 新的。专利中包含的研究成果具有商业、工业、法律和决策等多种价值,如果进行仔细分析, 发现技术细节和技术之间的关联,可以揭示商业趋势,激发新的工业解决方案,帮助决策者 制定投资政策。
[0003] 专利文献的快速增长推动先进的专利分析技术的发展,所谓专利分析,就是从专 利文献中采集专利信息,通过科学的方法对专利信息进行加工、整理、分析,最终形成专利 情报和谋略。随着专利信息量的不断增长,无论从法律还是管理角度,专利的检索和分析任 务都变得非常重要。专利文献中包含了十多个可供分析的项目,包括结构化信息和非结构 化信息。结构化信息具有统一的语义和格式,如专利号、申请日期、分类号等,非结构化的信 息是自由的文本信息,如专利标题、摘要和正文描述等。
[0004] 关于专利技术演化历程的研究,CN101989268.A提供了一种专利技术发展趋势分 析系统及分析方法,根据预设主题在各国专利文献数据库中通过检索建立专利数据库;采 用专题建立模块在专利数据库中检索专利数据库中专利,建立专利分析专题库;采用技术 分类模块对专利分析库中的专利文献按技术进行分类;通过技术选择模块选择分析的技术 分类;通过图像显示模块显示所选技术分类下历年专利申请数量或公开数量曲线图;该发 明通过曲线图直观反映专利技术的历年发展趋势情况。CN103177010. A提供的专利分析方 法,设定进行专利分析的纵轴属性,并根据该属性查找相应的专利信息;设定进行专利分析 的横轴属性,并根据该属性查找相应的专利信息项目;绘制由横轴和纵轴组成的表格,同时 将前两步查找到的专利信息交集进行数量统计后输入表格中。
[0005] 然而,专利的内容本身含有重要的技术信息。以上成果均没有利用专利数据的深 层文本信息。任何技术都有萌芽期、成长期、成熟期、衰落期,因此技术发展周期的划分和对 其发展阶段的判断是重要的专利分析任务,目前对于时空维度的分析手段远远不能满足我 们认识技术演化过程及其特征的需要。

【发明内容】

[0006] 本发明的目的是提供一种利用专利的深层文本信息预测技术发展趋势、使用户充 分直观的了解技术演化过程的专利技术演化分析方法及系统。
[0007] 本发明解决现有技术问题所采用的技术方案:一种专利技术演化分析方法,包括 以下步骤:
[0008] S1:专利数据采集:
[0009]利用网络爬虫技术从专利信息网站中采集包含有预设时间区间和关键词的专利 信息数据并保存至本地;
[0010] S2、专利信息抽取:包括以下步骤:
[0011] A1、创建专利信息数据库,将步骤S1采集到的专利信息数据进行格式化处理,存入 所述专利信息数据库;
[0012] A2、从专利数据库中抽取字段信息并将其以文本文件格式保存至本地,并使每一 个专利对应文本中的一行;所述字段信息包括:申请日、专利标题和专利摘要;
[0013] S3、技术发展阶段自动化分:包括以下步骤:
[0014] B1、建立专利数据的向量空间模型:对步骤S2抽取到的字段信息中的专利摘要部 分进行分词得到分词词语集,将分词词语集中的词语作为特征词,统计每个特征词在多少 专利摘要中出现过,以及该特征词在每个专利摘要中出现的次数,得到每个特征词在每个 专利中的权重;以每个专利中所包有的特征词的个数作为向量维度,而将每个特征词在该 专利中的权重作为向量元素生成每个专利所对应的专利向量表示;按照字段信息中申请日 的时间先后顺序,以预设年度区间为时间区间对所述专利向量进行排序,得到该年度区间 专利的向量空间模型;
[0015] B2、使用有序聚类方法自动划分技术的发展阶段:
[0016] 利用有序聚类方法对向量空间中的向量作为有序样本进行聚类,将聚类结果作为 技术发展阶段,并递归计算不同分类结果的类的直径和误差函数,根据误差函数衡量聚类 的性能以确定最佳分类;
[0017] S4、技术演化分析:
[0018] 统计步骤B2得到的每个技术发展阶段中所有特征词的词频,得到词频最高的若干 个特征词作为本技术发展阶段的技术热点;
[0019] S5技术发展趋势预测:
[0020] 利用统计软件统计专利信息数据库中每年专利的数量,以年份为横坐标,数量为 纵坐标,绘制数量变化曲线,并将曲线与标准的技术生命周期曲线对比,作为技术未来发展 趋势预测结果。
[0021 ]步骤A2中,将抽取的字段信息,以"日期/标题/摘要"的文本文件格式存储到本地。 [0022]步骤B2中,有序聚类方法的具体步骤如下:
[0023]专利有序样本为?={?1,?2,"_咖},假设分为1^段,即有序聚类的类别数为1^用6表 示分段;
[0024] C1、获取类的直径:设某一类G包含的专利有{p⑴,p(i+1),···,?(」)},j>i,分段G记为 G={i,i+1,···,」};该类的均值向量记为龜,该类的直径用类内的所有专利到该类的均值向 量的距离表示,记为D(i,j);
[0025] C2、使用误差函数衡量聚类性能:误差函数为:
[0026] %:ι···· ?
[0027] 记S(n,k)是误差函数取极小的分法,并利用有序聚类算法核心递推公式即可求 解,递推公式为:
[0028]
[0029] 当n,k固定时,L[b(n,k)]越小表示分类越合理;
[0030] C3、获得最优解:对于已知的分类k,l<k<n,使S(n,k)在误差函数意义下达到最 小,首先找到分点jk,使C2中的递推公式达到极小,即L[S(n,k) ] = L[ S(jk-1,k-1) ] +D(jk, 1〇,得到第1^类61{;然后找]\-1,使它满足1^(」 1{-1,卜1)]=1^(」1{-1-1,卜2)]+0(」 1{-1,]\-1-1), 得到k_l类Gk-i;依次下去最终得到最优解S(n,k) = {Gi,G2,···,Gk}。
[0031] 步骤B1中,特征词在专利中的权重的计算方法如下:
[0032]
[0033] 其中:tft,d表示在专利摘要d中特征词t出现的次数;nt表示特征词t在多少专利摘 要中出现过;N表示专利信息数据库中专利摘要的个数。
[0034] -种专利技术演化分析系统,包括以下模块:
[0035]专利数据采集模块:
[0036] 用于利用网络爬虫技术从专利信息网站中采集包含有预设时间区间和关键词的 专利信息数据并保存至本地;
[0037] 专利信息抽取模块:包括以下模块:
[0038] 专利信息数据库生成及存储模块:用于创建专利信息数据库,将步骤S1采集到的 专利信息数据进行格式化处理,存入该专利信息数据库;从专利数据库中抽取字段信息并 将其以文本文件格式保存至本地,并使每一个专利对应文本中的一行;所述字段信息包括: 申请日、专利标题和专利摘要;
[0039]技术发展阶段自动化分模块:包括以下模块:
[0040]向量空间模型生成模块:用于对字段信息中的专利摘要部分进行分词得到分词词 语集,将分词词语集中的词语作为特征词,统计每个特征词在多少专利摘要中出现过,以及 该特征词在每个专利摘要中出现的次数,得到每个特征词在每个专利中的权重;以每个专 利中所包有的特征词的个数作为向量维度,而将每个特征词在该专利中的权重作为向量元 素生成每个专利所对应的专利向量表示;按照字段信息中申请日的时间先后顺序,以预设 年度区间为时间区间对所述专利向量进行排序,得到该年度区间专利的向量空间模型; [0041 ]有序聚类方法自动划分模块:
[0042]用于利用有序聚类方法对向量空间中的向量作为有序样本进行聚类,将聚类结果 作为技术发展阶段,并递归计算不同分类结果的类的直径和误差函数,根据误差函数衡量 聚类的性能以确定最佳分类;
[0043]技术演化分析模块:
[0044]用于统计有序聚类方法自动划分模块得到的每个技术发展阶段中所有特征词的 词频,得到词频最高的若干个特征词作为本技术发展阶段的技术热点;
[0045]技术发展趋势预测模块:
[0046]用于利用统计软件统计专利信息数据库中每年专利的数量,以年份为横坐标,数 量为纵坐标,绘制数量变化曲线,并将曲线与标准的技术生命周期曲线对比,作为技术
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1