专利对比分析方法与流程

文档序号:17940431发布日期:2019-06-18 23:02阅读:1027来源:国知局
专利对比分析方法与流程

本发明涉及一种专利对比分析方法,属于自然语言处理以及专利分析领域。



背景技术:

专利对比分析属于专利分析的一种类型,通过有效的专利文档对比分析方法可以快速识别专利文档之间的相似性和差异性,在一定意义上,企业的专利水平代表了企业的整体创新水平。企业核心人员可以通过对比分析的方法识别其他企业的核心技术,从而制定有效的技术战略。

现今已有不少专利检索和分析系统,如incopat、soopat、patsnap等,但是这些专利系统主要是提供专利检索和简单的专利统计分析,这些基础分析无法满足深层次的专利挖掘需求;此外,每年的专利申请量呈现快速的上升趋势,人工审核专利的工作量不断加大,因此开发一种自动化专利对比分析的系统具有重要的意义。

有鉴于此,确有必要提供一种专利对比分析方法,以解决上述问题。



技术实现要素:

本发明的目的在于提供一种专利对比分析方法,以更深层次的挖掘出专利文档之间的相似性和差异性,从而更为精准、快速的发现目标专利的专利价值所在。

为实现上述发明目的,本发明提供了一种专利对比分析方法,所述专利对比分析方法包括以下步骤:

s1、基于网络爬虫方法建立专利数据库;

s2、从所述专利数据库中提取目标主题的专利文档集d,并建立专利文档集d的候选短语集,其中所述专利文档集d包括至少一篇目标专利和至少一篇对比专利;

s3、基于最优化选择模型,在所述候选短语集中提取目标专利和对比专利的重要短语集,且所述重要短语集包括目标专利重要短语集和对比专利重要短语集;

s4、建立重要短语-专利文档二部图的相关性度量,计算重要短语集中重要短语与目标专利的相似性分数和差异性分数及重要短语与对比专利的相似性分数和差异性分数;

s5、基于最优化目标方法分别提取目标专利和对比专利的相似短语集和差异短语集。

作为本发明的进一步改进,所述步骤s1具体为:选择多个目标专利网站,使用分布式爬虫架构构建多个爬虫模块,开启多个爬虫线程同时爬取目标专利网站,并根据爬取到的专利信息的组成,建立数据库表存储爬取到的专利信息,构建专利数据库。

作为本发明的进一步改进,所述步骤s2具体包括:

s21、从所述专利数据库中提取目标主题的专利文档集d;

s22、对专利文档集d中的专利文档进行分词处理,以获取专利文档集d的分词集,所述分词集包括若干个分词;

s23、建立停用词表,根据停用词表对所述分词集中的分词进行筛选和过滤,以获取所述专利文档集d的有效分词集;

s24、计算分词在有效分词集中的互信息值mi,以在所述有效分词集中提取专利文档集d的候选短语集。

作为本发明的进一步改进,所述步骤s24具体为:定义分词频率阈值为f,分词的互信息阈值为i,通过计算有效分词集中候选分词的联合分布及边际分布,以计算获取候选分词的互信息值mi;若候选分词的频率大于设定的分词频率阈值f,则将该候选分词加入候选短语集中;若候选分词的频率小于设定的分词频率阈值f,则考察该候选分词的互信息值mi的大小,若该候选分词的互信息值mi大于设定的互信息阈值i,则加入候选短语集,否则该候选分词被丢弃。

作为本发明的进一步改进,所述步骤s3具体为:

s31、计算候选短语集中的每一个候选短语在其所在的专利文档中的显著性分数,以表征该候选短语在其所在的专利文档中的显著性;

s32、计算候选短语集中的每一个候选短语在其所在的专利文档中的独特性分数,以表征该候选短语在其所在的专利文档中的独特性;

s33、基于最优化选择方法,并结合候选短语集中每一个候选短语的显著性分数和独特性分数,提取目标专利和对比专利的重要短语集s,所述重要短语集s包括与目标专利相关的目标专利重要短语集和与对比专利相关的对比专利重要短语集。

作为本发明的进一步改进,所述步骤s33具体为:定义重要短语集中重要短语的数量阈值为k,以所述候选短语集中候选短语的显著性分数和独特性分数作为提取标准,建立最优化目标,并通过该最优化目标获取目标专利和对比专利的重要短语集,所述重要短语集包括目标专利重要短语集和对比专利重要短语集,所述目标专利重要短语集包括k个与所述目标专利相关的重要短语;所述对比专利重要短语集包括k个与所述对比专利相关的重要短语。

作为本发明的进一步改进,所述步骤s4具体包括:

s41、构建重要短语-专利文档二部图;

s42、计算重要短语-专利文档二部图中,重要短语与目标专利之间的相关度及重要短语与对比专利之间的相关度;

s43、计算重要短语-专利文档二部图中,重要短语与目标专利和对比专利之间的相似性分数;

s44、计算重要短语-专利文档二部图中,重要短语与目标专利和对比专利之间的差异性分数。

作为本发明的进一步改进,所述步骤s5具体包括:

s51、基于最优化目标方法,并结合重要短语集s中重要短语与目标专利和对比专利之间的相似性分数,获取目标专利与对比专利之间的相似短语集c;

s52、基于最优化目标方法,并结合重要短语集s中重要短语与目标专利和对比专利之间的差异性分数,获取目标专利差异短语集和对比专利差异短语集。

作为本发明的进一步改进,所述步骤s51具体为:定义最优化目标和至少两个相似性约束条件,使得相似短语集c中相似短语的相似性分数之和最大化,并通过所述相似性约束条件保证提取到的相似短语的相似性分数分别大于目标专利重要短语集的相似性分数的平均值和对比专利重要短语集的相似性分数的平均值。

作为本发明的进一步改进,所述步骤s52具体为:定义最优化目标和至少三个差异性约束条件,使得目标专利差异短语集和对比专利差异短语集中差异短语的差异性分数之和最大化,并通过所述差异性约束条件保证提取到的差异短语的差异性分数分别大于目标专利重要短语集的差异性分数的平均值和对比专利重要短语集的差异性分数的平均值,且目标专利和对比专利的相似短语集c、目标专利差异短语集以及对比专利差异短语集之间无交集。

本发明的有益效果是:本发明专利对比分析方法,通过利用网络爬虫技术建立专利数据库、基于分词技术建立专利文档集d的候选短语集、基于最优化方法提取重要短语集s、计算重要短语与目标专利和对比专利的相似性分数和差异性分数以及基于最优化方法提取目标专利和对比专利的相似短语集和差异短语集,快速、有效地实现了专利对比分析。

附图说明

图1是本发明专利对比分析方法的结构功能图。

图2是本发明专利对比分析方法的流程图。

图3是图2中重要短语-专利文档二部图的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。

请参阅图1并结合图2所示,本发明揭示了一种专利对比分析方法,其包括以下步骤:

s1、基于网络爬虫方法建立专利数据库;

s2、从所述专利数据库中提取目标主题的专利文档集d,并建立专利文档集d的候选短语集p,其中所述专利文档集d包括至少一篇目标专利dc和至少一篇对比专利d′c;

s3、基于最优化选择模型,在所述候选短语集p中提取目标专利dc和对比专利d′c的重要短语集s,且重要短语集s包括目标专利重要短语集和对比专利重要短语集

s4、建立重要短语-专利文档二部图的相关性度量,计算重要短语集s中重要短语与目标专利dc的相似性分数和差异性分数及重要短语与对比专利d′c的相似性分数和差异性分数;

s5、基于最优化目标方法分别提取目标专利dc和对比专利d′c的相似短语集和差异短语集。

以下说明书部分仅针对步骤s1~s5进行详细说明。

步骤s1具体为:采用网络爬虫方法建立专利数据库。网络爬虫是一种高效的信息采集利器,可以快速、准确地采集各种数据资源,现有技术中的网络爬虫方法在网站具有一定的“反爬”策略时容易被封,使得同一ip和同一账号在一段时间内的爬取次数严重受限,基于此,本发明专利对比分析方法通过维护代理ip池和cookies池构建爬虫伪装模块,使用分布式爬虫架构构建多个爬虫模块,开启多个爬虫线程同时爬取目标专利网站,并使用request库以及bs4网页解析包获取专利信息,以根据获取到的专利信息的组成构建合理的数据库表以存储爬取到的专利信息。

进一步的,网络爬虫方法爬取到的专利信息包括:专利名称、申请号、申请日、公开号、公开日、申请人、发明人、申请人地址、ipc分类号、专利摘要、关键词、cpc分类号、申请人邮编、代理机构、代理人、权利要求书、说明书、说明书附图、pdf文本、法律状态生效日、法律状态含义、相关专利申请号、相关专利公开号、相关专利名称等字段,且专利信息将按照表结构存储到专利数据库中,以保证专利数据库的内容全面且运行稳定。

步骤s2具体包括:

s21、从所述专利数据库中提取目标主题的专利文档集d;

s22、对专利文档集d中的专利文档进行分词处理,以获取专利文档集d的分词集,所述分词集包括若干个分词;

s23、建立停用词表,根据停用词表对所述分词集中的分词进行筛选和过滤,以获取所述专利文档集d的有效分词集;

s24、计算分词在有效分词集中的互信息值mi,以在所述有效分词集中提取专利文档集d的候选短语集p。

在步骤s21中,目标主题的专利文档集d主要通过筛选ipc分类号或设定关键词从专利数据库中进行提取。在本发明中,专利文档集d={d1,d2,…,dn},n为专利文档集d中专利文档的个数,对于任意一篇专利文档d主要包括申请号、申请日、申请人、地址、发明人、专利代理机构、ipc分类号以及发明内容等,定义目标专利dc与对比专利d′c,其中dc,d′c∈d,且dc≠d′c。

受到专利文档d撰写格式要求的影响,专利文档d一般具有文本冗长、语言复杂以及用词干扰的特点,因此若直接对专利文档d进行分析,将导致专利对比分析的结果存在较大的误差,因此在本发明的步骤s22~s24中,将基于自然语言处理,对专利文档集d中的专利文档d进行处理,以建立目标主题的专利文档集d的候选短语集p,以下说明书部分将以专利文档d为中文文本为例进行举例说明。

步骤s22中,在进行自然语言处理时,由于中文文本具有丰富的语句非结构形式且语句词序列没有明显的规律与界限,因此需要对专利文档d的中文文本进行分词处理,优选的,在本实施例中,可采用通用的中文分词系统对专利文档d进行分词,以获取专利文档集d的分词集,且分词集包括若干个分词。

在步骤s23中,定义停用词,其中停用词指的是无实际意义的词,包括虚词、功能词、连接词等,如“的”、“是”、“而且”等,并建立停用词表,同时根据停用词表对分词集中的分词进行筛选和过滤,以获取所述专利文档集d的有效分词集。

在传统的短语的选择方法中,考虑的仅仅是分词的频率因素,继而使得部分出现频率低却具有丰富语义特征的分词被忽视,为防止上述问题的发生,在步骤s24中,通过计算候选分词在有效分词集中的互信息值mi,以在有效分词集中提取专利文档集d的候选短语集p,其中,候选短语集p={p1,p2,…pm},p为候选短语,m为候选短语集p中候选短语p的个数。

具体来讲,在步骤s24中,定义分词频率阈值为f,分词的互信息阈值为i,互信息值mi的计算公式如下:

其中,x,y为有效分词集中的两个候选分词;p(x,y)为两个候选分词x,y的联合分布,p(x)为候选分词x的边际分布;p(y)为候选分词y的边际分布。若候选分词的频率大于设定的分词频率阈值f,则将该候选分词加入候选短语集p中;若候选分词的频率小于设定的分词频率阈值f,则考察该候选分词在对应专利文档d中的互信息值mi的大小,若该候选分词的互信息值mi大于设定的互信息阈值i,则加入候选短语集p,否则该候选分词被丢弃。

步骤s3具体为:

s31、计算候选短语集p中的每一个候选短语p在其所在的专利文档d中的显著性分数,以表征该候选短语p在其所在的专利文档d中的显著性;

s32、计算候选短语集p中的每一个候选短语p在其所在的专利文档d中的独特性分数,以表征该候选短语p在其所在的专利文档d中的独特性;

s33、基于最优化选择方法,并结合候选短语集p中每一个候选短语p的显著性分数和独特性分数,提取目标专利dc与对比专利d′c的重要短语集s,所述重要短语集s包括目标专利重要短语集和对比专利重要短语集

在对整个专利文档集d提取了候选短语集p之后,每篇专利文档d可以看作是由若干个候选短语p所组成,事实上,由于大多数候选短语p并不能代表专利文档d,需对专利文档集d的候选短语集p进行进一步处理,以更好的表征专利文档集d中每一篇专利文档d。

具体来讲,步骤s31主要用于计算候选短语集p中的每一个候选短语p在其所在的专利文档d中的显著性分数rp,d,以表征该候选短语p在其所在的专利文档d中的显著性。一个候选短语p在其所在的专利文档d中出现的频率高,并且在该专利文档集d的其他专利文档d中出现的频率低,则说明该候选短语p关于其所在的专利文档d具有较强的显著性,因此单个候选短语p关于其所在的专利文档d的显著性可用显著性分数rp,d表示,且在本发明中单个候选短语p在专利文档d中的显著性分数rp,d表示为:

其中,pd表示专利文档d的所有候选短语p的集合,n(p,d)表示候选短语p在其所在的专利文档d中出现的频率,n(p,d)表示候选短语p在专利文档集d出现的频率。

步骤s32主要用于计算候选短语集p中的每一个候选短语p在其所在的专利文档d中的独特性分数,以表征该候选短语p在其所在的专利文档d中的独特性。具体来讲,一个重要的候选短语p需要不同于候选短语集p中的其他候选短语p,需要具有较强的独特性,故,单个候选短语p的独特性可以结合候选短语p间的语义相似度进行计算。

在步骤s32中,单个候选短语p的独特性为基于语义树的语义相似度计算获取,即,使用信息内容进行语义的相似度测度,并利用语义字典构建语义树,以基于候选短语p之间的路径长度计算第i个候选短语pi和第j个候选短语pj的语义相似度sim(pi,pj),以对候选短语p的独特性进行表征。

进一步的,在步骤s33中,基于最优化选择方法,并结合候选短语集p中每一个候选短语p的显著性分数rp,d和独特性分数,提取目标专利dc和对比专利d′c的重要短语集s。在本发明中,定义重要短语集s中重要短语p′的数量阈值为k,以候选短语集p中候选短语p的显著性和独特性作为提取标准,建立最优化目标:

其中,为重要短语集中所有重要短语p′的显著性分数之和,为重要短语p′的显著性分数的权重,为重要短语集中所有重要短语p′的综合相似性分数之和,由于候选短语p与其他候选短语p的相似度越高,该候选短语p越不具有独特性,故在该最优化目标中,综合相似性分数之和为惩罚项;μ为的得分的权重;λ为的得分的权重。如此设置,便可提取目标专利dc与对比专利d′c的重要短语集

步骤s4具体包括:

s41、构建重要短语-专利文档二部图;

s42、计算重要短语-专利文档二部图中,重要短语p′与目标专利dc和对比专利d′c之间的相关度;

s43、计算重要短语-专利文档二部图中,重要短语p′与目标专利dc和对比专利d′c之间的相似性分数;

s44、计算重要短语-专利文档二部图中,重要短语p′与目标专利dc和对比专利d′c之间的差异性分数。

在步骤s41中,重要短语-专利文档二部图可用于表征重要短语集s与专利文档集d的相关性(如图3),其中每个重要短语p′节点与专利文档d之间都有连接边,连接边的权重可通过bm25相关度计算获取。

进一步的,在步骤s42中,采用随机游走的simrank算法可以计算重要短语-专利文档二部图中重要短语p′与目标专利dc的相关度f(p′,dc)和重要短语p′与对比专利d′c的相关度f(p′,d′c)。

步骤s43主要用于计算重要短语p′与目标专利dc和对比专利d′c的相似性分数φ(p′,dc,d′c):

φ(p′,dc,d′c)=ln(1+f(p′,dc)·f(p′,d′c))

其中,f(p′,dc)为重要短语p′与目标专利dc之间的相关度;f(p′,d′c)为重要短语p′与对比专利d′c之间的相关度。

事实上,当一个重要短语p′同时与目标专利dc和对比专利d′c之间具有很高的相关度时,则表明该重要短语p′在重要短语集s中具有较强的重要性,因此对于某一重要短语p′,其与目标专利dc的相关度f(p′,d′c)以及与对比专利d′c的相关度f(p′,d′c)越大,则表明该重要短语p′与目标专利dc和对比专利d′c之间的相似性分数φ(p′,dc,d′c)越高。而在本发明的相似性分数φ(p′,dc,d′c)的计算过程中,使用重要短语p′与目标专利dc和对比专利d′c的相关度的乘积再取对数,综合考虑了重要短语p′与目标专利dc的相关度f(p′,dc)以及重要短语p′与对比专利d′c的相关度f(p′,d′c)两项,更好地表征了重要短语p′与目标专利dc和对比专利d′c。

步骤s44主要用于计算重要短语p′与目标专利dc和对比专利d′c的差异性分数ω(p′,dc|d′c):

其中,γ为平滑参数,以防止重要短语p′与目标专利dc之间的相关度f(p′,dc)和重要短语p′与对比专利d′c之间的相关度f(p′,d′c)趋向于0。

具体来讲,在计算目标专利dc和对比专利d′c的差异性分数ω(p′,dc|d′c)时,重要短语p′应该与目标专利dc和对比专利d′c中的一个相关度很高,而与另外一个相关度很低,且该重要短语p′应当在重要短语集s中具有较高的重要性,因此对于目标专利dc中的某一重要短语p′,其差异性分数ω(p′,dc|d′c)存在以下两种情况:一、若重要短语p′与目标专利dc相关度非常高,而与对比专利d′c的相关度相对较低,则该重要短语p′的差异性分数ω(p′,dc|d′c)较高;若重要短语p′与目标专利dc相关度相对较高,而与对比专利d′c的相关度非常低,则该重要短语p′的差异性分数ω(p′,dc|d′c)也较高。

二、重要短语p′与目标专利dc非显著相似,但其显著相异于对比专利d′c,则该重要短语p′也可以作为差异短语ω(p′,dc|d′c),以体现目标专利dc和对比专利d′c之间的差异性。而当重要短语p′与对比专利d′c非显著相似,但其显著相异于目标专利dc,则该重要短语p′也可以作为差异短语ω(p′,dc|d′c),以体现目标专利dc和对比专利d′c之间的差异性。

步骤s5具体包括:

s51、基于最优化目标方法,并结合重要短语集s中重要短语p′与目标专利dc和对比专利d′c之间的相似性分数φ(p′,d,d’),获取目标专利dc与对比专利d′c之间的相似短语集c;

s52、基于最优化目标方法,并结合重要短语集s中重要短语p′与目标专利dc和对比专利d′c之间的差异性分数ω(p′,dc|d′c),获取目标专利差异短语集q和对比专利差异短语集q′。

步骤s51具体为:定义最优化目标和至少两个相似性约束条件,且步骤s51中的最优化目标为:

其中,pi为相似短语集c中的第i个相似短语;为目标专利重要短语集,且为对比专利重要短语集,且为决策变量,xi=0或1表示第i个待选短语是否是相似短语,xi=1表示是相似短语,xi=0表示不是相似短语。

进一步的,定义最优化目标的目的在于使得相似短语集c中相似短语ps的相似性分数φ(ps,dc,d′c)之和最大化,并通过相似性约束条件保证提取到的相似短语ps的相似性分数φ(ps,dc,d′c)分别大于目标专利重要短语集的相似性分数φ(p′,dc,d′c)的平均值和对比专利重要短语集的相似性分数φ(p′,dc,d′c)的平均值,以限制相似短语集c的规模。

需要说明的是,在本发明中仅以相似性约束条件设置有两个为例进行举例说明,当然在本发明的其他实施例中,相似性约束条件还可设置为其他数量。

步骤s52具体为:定义最优化目标和至少三个差异性约束条件,且s52中的最优化目标为:

c∩q=c∩q′=φ

其中,q为目标专利差异短语集;q′为对比专利差异短语集;yi,yi′均为决策变量,且为0-1变量,yi表示目标专利dc中的待选短语是否是差异性短语,yi′表示对比专利d′c中的待选短语是否是差异性短语。

具体来讲,步骤s52中最优化目标建立的意义在于:使得目标专利差异短语集q和对比专利差异短语集q′中的差异性分数之和最大;差异性约束条件一方面用于保证提取到的差异短语pi的差异性分数ω(pi,dc|dc′)分别大于目标专利重要短语集的差异性分数ω(p′,dc|dc)的平均值和对比专利重要短语集的差异性分数ω(p′,dc|dc)的平均值;另一方面,使得目标专利dc和对比专利的相似短语集c、目标专利差异短语集q以及对比专利差异短语集q′之间无交集。

综上所述,本发明的专利对比分析方法,通过利用网络爬虫技术建立专利数据库、基于分词技术建立专利文档集d的候选短语集p、基于最优化方法提取重要短语集s、计算重要短语p′与目标专利dc和对比专利d′c的相似性分数φ(p′,dc|d′c)和差异性分数ω(p′,dc|dc)以及基于最优化方法提取目标专利dc和对比专利d′c的相似短语集和差异短语集,快速、有效地实现了专利的对比分析。

以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1