一种专利技术预测方法及系统与流程

文档序号:14720425发布日期:2018-06-17 13:15阅读:177来源:国知局
本发明涉及对于专利文本的自然语言处理及专利预测领域,尤其是一种专利技术预测方法及系统。
背景技术
:随着社会的快速发展,专利在国家科技、经济、和社会发展中起着越来越重要的作用,专利技术也逐渐受到企业的重视。依靠专利技术,不仅可以提高企业的整体竞争力,甚至可以促使企业的发展从无到有,从小到大,从弱到强,所以怎样在海量的专利数据中,找到日后可能成为主流的专利技术(也就是专利机会),在激烈的市场竞争中抢占先机,获得领先优势,受到了社会各界的广泛关注。因此,专利技术的预测是是富有价值的研究工作,但目前在中文专利挖掘中专利技术预测的研究,包括等将数学分析中的形式概念分析法应用于专利挖掘中,跟踪技术变化趋势或者通过时间区间的划分,考察专利数量的变化趋势进行机会发现。前者是理论梳理,缺乏实证性研究,后者但是基于粒度是分类号,很难对付更低层次的特征词级别的发现。技术实现要素:本发明的目的是提供一种可应用于大规模的非结构化专利数据,为公众提供一定的指导和参考信息的专利技术预测方法及系统。本发明解决现有技术问题所采用的技术方案:一种专利技术预测方法,其特征在于,包括以下步骤:S1、预处理:采集预定领域的专利摘要组成专利摘要集,利用分词工具对所述专利摘要集中的专利摘要进行分词处理并去除停用词,得到摘要词语集;同时提取专利摘要集中每条专利摘要的专利的申请日,得到与专利摘要集相对应的时间集;S2、获取词语重要程度:通过如下公式计算摘要词语集中的每个词语对于每条专利摘要的权重,将该权重作为该词语对于该条专利摘要所对应专利的词语重要度:weight(i,d)=tfi,d*log(Nni+0.01)Σk∈d[tfi,d*log(Nnk)+0.01]2]]>其中,weight(i,d)表示词语i对于专利摘要d的权重,tfi,d表示词语i在专利摘要d中出现的频次;ni表示词语i在专利摘要集中出现的频次;N表示专利摘要集中包含的专利摘要总数;S3、构建高权词集:预设阈值,将词语重要度大于该预设阈值的词语提取出来作为高权词集,高权词集中的每个词语为高权词;S4、计算时间因子:根据时间集由时间函数f(y)获得每个专利的时间因子:f(y)=eN(y)其中,y表示专利摘要集中最早的专利的申请日,即起始时间,N(y)表示专利摘要集中专利申请日的最大时间差,即相对的时间间隔;S5、获取关联强度:根据任两个高权词在某条专利摘要中共现频次及该条专利的时间因子获取高权词间关联强度,包括:a1、计算任两个高权词在某条专利摘要中共现频次,即:Ei,j=N(i,j)N(i)*N(j)]]>其中,N(i,j)表示高权词i和高权词j共现的频次;N(i)表示高权词i出现的频数;N(j)表示高权词j出现的频数;a2、计算高权词间关联强度:TEi,j=Σ1N(y)f(y)*Ei,j]]>S6、构建词语关联图以高权词作为顶点,根据步骤S5得到的高权词间的关联强度构成对应顶点间边的权重,构建出带有权重的词语关联图;S7、专利技术预测基于词语关联图的小世界理论根据词语关联图中词语的局部范围重要程度和全局范围重要程度进行专利技术的预测,预测方法具体如下:b1、局部范围的重要程度获取:在步骤S6获得的词语关联图上从局部范围衡量词语的重要程度:根据词语关联图的连通性,在词语关联图中删除某一高权词后,词语关联图中的剩余高权词所形成的相互独立的词语岛屿数量的多少作为该高权词在词语关联图中局部范围的重要程度;所述词语岛屿为与其它词语关联图之间无连接关系的词语连通图;b2、全局范围词语的重要程度获取:在步骤S6获得的词语关联图上从全局范围衡量词语的重要程度:通过小世界网络的特征路径长度,确定词语关联图中任一高权词对整个词语关联图的重要程度,即在词语关联图中任选两个高权词,连通这两个高权词的最少边的数量定义为这两个高权词的路径长度;将词语关联图中所有高权词对的路径长度的平均值作为词语关联图的特征路径长度;具体方法是通过词语关联图的特征路径长度L与在词语关联图中删除某个高权词后的所得的词语关联图的特征路径长度之间的差值的绝对值作为全局范围词语的重要程度;b3、预测结果输出:根据步骤b1、b2求得的词语i对应的岛屿数Ni(Ii)和ΔL,分别对应词语的局部重要程度和全局重要程度;利用如下公式得到专利技术预测值:Fti=2*Ni(Ii)*ΔLNi(Ii)+ΔL]]>将所得到的预测值按照降序排列,并选取前K个预测值所对应的专利摘要作为输出结果。一种专利技术预测系统,包括以下部分:预处理单元:用于采集预定领域的专利摘要组成专利摘要集,利用分词工具对所述专利摘要集中的专利摘要进行分词处理并去除停用词,得到摘要词语集,同时提取专利摘要集中每条专利摘要的专利的申请日,得到与专利摘要集相对应的时间集;摘要词语集及时间集均保存至本地硬盘。词语重要程度获取单元:用于通过如下公式计算摘要词语集中的每个词语对于每条专利摘要的权重,将该权重作为该词语对于该条专利摘要所对应专利的词语重要度输出:weight(i,d)=tfi,d*log(Nni+0.01)Σk∈d[tfi,d*log(Nnk)+0.01]2]]>其中,weight(i,d)表示词语i对于专利摘要d的权重,tfi,d表示词语i在专利摘要d中出现的频次;ni表示词语i在专利摘要集中出现的摘要频次;N表示专利摘要集中包含的专利摘要总数;高权词集构建单元:用于将词语重要度大于该预设阈值的词语作为高权词集输出,所述高权词集中的每个词语为高权词;时间因子计算单元:用于将步骤S1获得的时间集作为输入,由如下的时间函数f(y)输出每个专利的时间因子f(y)=eN(y)。其中,y表示专利摘要集中最早的专利申请日,即起始时间,N(y)表示专利摘要集中专利申请日的最大时间差,即相对的时间间隔;关联强度获取单元:用于将任两个高权词在某条专利摘要中共现频次及该条专利的时间因子获取高权词间关联强度,包括:C1、计算任两个高权词在某条专利摘要中共现频次,即:Ei,j=N(i,j)N(i)*N(j)]]>其中,N(i,j)表示高权词i和高权词j共现的频次;N(i)表示高权词i出现的频数;N(j)表示高权词j出现的频数;C2、计算高权词间关联强度:TEi,j=Σ1N(y)f(y)*Ei,j]]>词语关联图构建单元用于以高权词作为顶点,根据得到的高权词间的关联强度构成对应顶点间边的权重,构建出带有权重的词语关联图。专利技术预测单元用于基于词语关联图的小世界理论根据词语关联图中词语的局部范围重要程度和全局范围重要程度进行专利技术的预测,预测单元中包括如下单元:D1、局部范围的重要程度获取单元:用于在词语关联图构建单元中获得的词语关联图上从局部范围衡量词语的重要程度:根据词语关联图的连通性,在词语关联图中删除某一高权词后,词语关联图中的剩余高权词所形成的词语岛屿数量的多少作为该高权词在词语关联图中局部范围的重要程度,所述词语岛屿为与其它词语关联图之间无连接关系的词语连通图;D2、全局范围词语的重要程度获取单元:用于在词语关联图构建单元中获得的词语关联图上从全局范围衡量词语的重要程度:通过小世界网络的特征路径长度,确定词语关联图中任一高权词对整个词语关联图的重要程度,即在词语关联图中,任选两个高权词,连通这两个高权词的最少边的数量定义为这两个高权词的路径长度;将词语关联图中所有高权词对的路径长度的平均值作为词语关联图的特征路径长度。具体做法是通过词语关联图的特征路径长度L与在词语关联图中删除某个高权词后的所得的词语关联图的特征路径长度之间的差值的绝对值作为全局范围词语的重要程度。D3、预测结果输出单元:用于将D1,D2求得的高权词对应的岛屿数Ni(Ii)和ΔL,分别作为高权词的局部重要程度和全局重要程度。利用如下公式得到专利技术预测值:Fti=2*Ni(Ii)*ΔLNi(Ii)+ΔL]]>将所得到的预测值按照降序排列,并输出前K个预测值所对应的专利摘要。本发明的有益效果在于:本发明从专利摘要出发,通过对专利摘要的量化处理构建词语关联图,并通过从词语关联图的局部范围和全局范围衡量词语的重要程度,进行专利技术预测,挖掘出可能成为主流的专利技术,为公众提供一定的指导和参考。附图说明图1为本发明的总体流程示意图。图2为本发明词语关联图中岛屿的示意图。图3为本发明词语关联图的示意图。图4为本发明预测系统的单元结构示意图。具体实施方式以下结合附图及具体实施方式对本发明进行说明:图1为本发明一种专利技术预测方法的总体流程示意图。一种专利技术预测方法,包括以下步骤:S1、预处理:采集预定领域的专利摘要组成专利摘要集,利用分词工具对所述专利摘要集中的专利摘要利用分词器进行分词处理并去除停用词,即去除语法词以及一些虚词,连词等,得到摘要词语集,同时提取专利摘要集中每条专利摘要的专利申请日,得到与专利摘要集相对应的时间集;假设,现有1989-1999年的汽车领域的专利摘要集合,可将专利摘要集及时间集按照每个专利唯一的专利号进行对应,以便确定专利摘要集与时间集的对应关系,如表1所示:表1待处理专利摘要内容格式专利号专利申请日专利摘要内容在预处理过程中,对汽车领域的专利摘要集合其进行分词和去除停用词等预处理。对专利摘要内容进行分词,如:“装配在与吸气通道相连的集中油缸和从所述集中油缸到各个相应油缸的独立的分吸气管之间的机电转换机构”,分词后如结果:“装配在与吸气通道相连的集中油缸和从所述集中油缸到各个相应油缸的独立的分吸气管之间的机电转换机构”;分词后去除停用词,去除停用词后的结果:“装配吸气通道集中油缸集中油缸相应油缸分吸气管机电转换机构”,即完成了汽车领域的专利摘要集合的预处理过程。S2、获取词语重要程度:通过如下公式计算摘要词语集中的每个词语对于每条专利摘要的权重,将该权重作为该词语对于该条专利摘要所对应专利的词语重要度:weight(i,d)=tfi,d*log(Nni+0.01)Σk∈d[tfi,d*log(Nnk)+0.01]2]]>其中,weight(i,d)表示词语i对于专利摘要d的权重,tfi,d表示词语i在专利摘要d中出现的频次;ni表示词语i在专利摘要集中出现的摘要频次;N表示专利摘要集中包含的专利摘要总数;该权重值不仅反映了词语i在专利摘要d中的重要性,同时也反映了该词语在相应的专利中的重要性。S3、构建高权词集:预设阈值,将词语重要度大于该预设阈值的词语提取出来作为高权词集,高权词集中的每个词语为高权词;S4、计算时间因子:根据时间集由时间函数f(y)获得每个专利的时间因子f(y)=eN(y)。其中,y表示专利摘要集中最早的专利申请日,即起始时间,N(y)表示专利摘要集中专利申请日的最大时间差,即相对的时间间隔。S5、获取关联强度:根据任两个高权词在某条专利摘要中共现频次及该条专利的时间因子获取高权词间关联强度,包括:a1、计算任两个高权词在某条专利摘要中共现频次,即:Ei,j=N(i,j)N(i)*N(j)]]>其中,N(i,j)表示高权词i和高权词j共现的频次;N(i)表示高权词i出现的频数;N(j)表示高权词j出现的频数;a2、计算高权词间关联强度:TEi,j=Σ1N(y)f(y)*Ei,j]]>其中,Ei,j表示高权词i在专利摘要y中共现的频次。S6、构建词语关联图以高权词作为顶点,根据步骤S5得到的高权词间关联强度构成对应顶点间边的权重,构建出带有权重的词语关联图;S7、专利技术预测基于词语关联图的小世界理论根据词语关联图中词语的局部范围重要程度和全局范围重要程度进行专利技术的预测,预测方法具体如下:b1、在步骤S6获得的词语关联图上从局部范围衡量词语的重要程度:根据词语关联图的连通性,在词语关联图中删除某一高权词后,词语关联图中的剩余高权词所形成的相互独立的词语岛屿数量的多少作为该高权词在词语关联图中局部范围的重要程度。其中,词语岛屿为与其它词语关联图之间无连接关系的词语连通图。b2、在步骤S6获得的词语关联图上从全局范围衡量词语的重要程度:通过小世界网络的特征路径长度,确定词语关联图中任一高权词对整个词语关联图的重要程度,即在词语关联图中,任选两个高权词,连通这两个高权词的最少边的数量定义为这两个高权词的路径长度;将词语关联图中所有高权词对的路径长度的平均值作为词语关联图的特征路径长度。具体做法是通过词语关联图的特征路径长度L与在词语关联图中删除某个高权词后的所得的词语关联图的特征路径长度之间的差值的绝对值作为全局范围词语的重要程度。b3、预测结果输出:步骤b1、b2求得词语i对应的岛屿数Ni(Ii)和ΔL,分别作为词语的局部重要程度和全局重要程度。利用如下公式得到专利技术预测值:Fti=2*Ni(Ii)*ΔLNi(Ii)+ΔL]]>将所得到的预测值按照降序排列,并选取前K个预测值所对应的专利摘要作为输出结果。一种专利技术预测系统,包括以下部分:预处理单元:用于采集预定领域的专利摘要组成专利摘要集,利用分词工具对所述专利摘要集中的专利摘要进行分词处理并去除停用词,得到摘要词语集,同时提取专利摘要集中每条专利摘要的专利的申请日,得到与专利摘要集相对应的时间集;摘要词语集及时间集均保存至本地硬盘。词语重要程度获取单元:用于通过如下公式计算摘要词语集中的每个词语对于每条专利摘要的权重,将该权重作为该词语对于该条专利摘要所对应专利的词语重要度输出:weight(i,d)=tfi,d*log(Nni+0.01)Σk∈d[tfi,d*log(Nnk)+0.01]2]]>其中,weight(i,d)表示词语i对于专利摘要d的权重,tfi,d表示词语i在专利摘要d中出现的频次;ni表示词语i在专利摘要集中出现的摘要频次;N表示专利摘要集中包含的专利摘要总数;高权词集构建单元:用于将词语重要度大于该预设阈值的词语作为高权词集输出,所述高权词集中的每个词语为高权词;时间因子计算单元:用于将步骤S1获得的时间集作为输入,由如下的时间函数f(y)输出每个专利的时间因子f(y)=eN(y)。其中,y表示专利摘要集中最早的专利申请日,即起始时间,N(y)表示专利摘要集中专利申请日的最大时间差,即相对的时间间隔;关联强度获取单元:用于将任两个高权词在某条专利摘要中共现频次及该条专利的时间因子获取高权词间关联强度,包括:C1、计算任两个高权词在某条专利摘要中共现频次,即:Ei,j=N(i,j)N(i)*N(j)]]>其中,N(i,j)表示高权词i和高权词j共现的频次;N(i)表示高权词i出现的频数;N(j)表示高权词j出现的频数;C2、计算高权词间关联强度:TEi,j=Σ1N(y)f(y)*Ei,j]]>词语关联图构建单元用于以高权词作为顶点,根据得到的高权词间的关联强度构成对应顶点间边的权重,构建出带有权重的词语关联图。专利技术预测单元用于基于词语关联图的小世界理论根据词语关联图中词语的局部范围重要程度和全局范围重要程度进行专利技术的预测,预测单元中包括如下单元:D1、局部范围的重要程度获取单元:用于在词语关联图构建单元中获得的词语关联图上从局部范围衡量词语的重要程度:根据词语关联图的连通性,在词语关联图中删除某一高权词后,词语关联图中的剩余高权词所形成的词语岛屿数量的多少作为该高权词在词语关联图中局部范围的重要程度,所述词语岛屿为与其它词语关联图之间无连接关系的词语连通图;D2、全局范围词语的重要程度获取单元:用于在词语关联图构建单元中获得的词语关联图上从全局范围衡量词语的重要程度:通过小世界网络的特征路径长度,确定词语关联图中任一高权词对整个词语关联图的重要程度,即在词语关联图中,任选两个高权词,连通这两个高权词的最少边的数量定义为这两个高权词的路径长度;将词语关联图中所有高权词对的路径长度的平均值作为词语关联图的特征路径长度。具体做法是通过词语关联图的特征路径长度L与在词语关联图中删除某个高权词后的所得的词语关联图的特征路径长度之间的差值的绝对值作为全局范围词语的重要程度。D3、预测结果输出单元:用于将D1,D2求得的高权词对应的岛屿数Ni(Ii)和ΔL,分别对应高权词的局部重要程度和全局重要程度。利用如下公式得到专利技术预测值:Fti=2*Ni(Ii)*ΔLNi(Ii)+ΔL]]>将所得到的预测值按照降序排列,并输出前K个预测值所对应的专利摘要。以上内容是结合具体的优选技术方案对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属
技术领域
的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1