一种基于相关性排序的专利检索系统及方法与流程

文档序号:19418551发布日期:2019-12-14 01:11阅读:357来源:国知局
一种基于相关性排序的专利检索系统及方法与流程

本发明涉及一种专利检索系统,具体的说是一种专利检索方法,属于知识产权技术领域。



背景技术:

知识经济时代,专利分析和运营成为社会经济增长的主要方式,作为重要生产要素的专利权已成为当前企业乃至一个经济体的核心竞争力。知识产权分析报告认为我国的专利数量,质量都在不断提高。

企业通过构建知识产权壁垒增强自己在国际国内市场的竞争力,政府通过知识产权管理引导产业发展与创新。知识产权已成为重要的生产要素,是企业乃至一个经济体的核心竞争力。专利含有大量的技术、法律及经济信息,通过专利分析,企业可获知当前行业内的技术发展趋势,从而对企业的后期发展起到一定的帮助。并且形成自身的技术保护,避免侵权及被侵权。

随着社会制度的不断发展与完善,专利文献数量的迅速增加,使得各国企业对于专利权的保护越来越重视。对于企业而言,如何从大量的专利文献中精确地检索并分析出满足自身需求的信息,对整个企业的发展至关重要。因此,对于专利检索技术及其结果排序的研究迅速成为的热门课题,而各具优势的专利检索系统的出现也就成为了必然趋势。

现有技术一

申请号cn106097190a的专利中,公开了一种专利检索系统。包括:输入模块,用于检测和获取用户输入,所述用户输入包括用户输入的关键字以及用户选择的关键字或检索式;输出模块,用于向用户输出推荐检索式和推荐关键字,还用于向用户输出检索结果;检索式生成模块,用于根据用户输入的关键字生成推荐检索式;关键字生成模块,用于根据输入的关键字生成推荐关键字集合;检索模块,用于根据检索式检索专利数据,生成检索结果;数据库,存储专利数据和用于检索式生成模块和关键字生成模块的检索数据。本发明提供的专利检索系统,本提供的专利检索系统,能够解决非专业人员使用现有专利检索系统时由于关键字和检索式检索范围过大或漏检的问题。

现有技术一的缺点:

现有技术一中未对搜索结果进行相关性排序,无法为用户优先推荐相关程度较高的搜索结果,搜索结果的准确性没有得到保障。

现有技术二

申请号cn104636380a的专利中,公开了一种专利数据检索系统,包括用于储存专业词汇与专利分类号之间对应关系的数据库、用于根据所述数据库内的对应关系及检索人员输入的专业词汇确定与所述专业词汇对应的专利分类号的确定专利分类号模块、用于根据所确定的专利分类号在专利数据库内进行检索以检索出相关的专利文献的检索模块、用于将所述专利文献予以显示以供所述检索人员参考的显示模块,如此通过确定检索人员输入的专业词汇的专利分类号即可帮助检索人员实现采用专利分类号进行检索的功能。

现有技术二的缺点:

现有技术二中仅针对专利分类号进行分类搜索,搜索方式具有较大的局限性,在实际情况下,用户的搜索具有多种需求,如对申请人、发明人进行不同的搜索。

现有技术三

申请号cn101025752a的专利中,公开了一种专利检索系统,包括:用于储存与各检索关键词匹配的扩充关键词的扩充数据库、用于根据所述扩充数据库确定与检索人员输入的关键词匹配的扩充关键词的关键词匹配模块、用于根据检索人员输入的关键词及所述扩充关键词在指定专利数据库内进行检索以获得相应检索结果的检索模块、用于将所述检索结果予以显示的显示模块,如此通过对关键词的解释的自动扩充可减小漏检率,提高检索人员的工作效率。

现有技术三的缺点:

现有技术三未披露如何如专利数据库进行定期更新,专利信息很容易失去时效性,应定期根据专利的法律状态对专利信息进行更新。



技术实现要素:

本发明的目的是提供一种基于相关性排序的专利检索系统及方法,提高专利信息检索的质量和效率。

本发明的目的是这样实现的:一种基于相关性排序的专利检索系统,包括:

专利数据存储模块:用于基于抓取到的专利数据及专利检索规则搭建一套用于专利检索的搜索引擎和用于输出专利详细信息的关系型数据库,定义不同的分词器将文本分析成索引词;

输入及检索式生成模块:用于检测和获取用户输入的检索关键词及检索方式,且根据检索关键字自动智能生成标准检索式;

检索及相关性排序模块:用于首先根据检索式采用粗粒度的方法检索专利数据,然后使用较精细的核心排序函数计算检索结果的相关性分数,进行二次排序,最终生成检索结果;

聚合模块:用于聚合统计某机构或地区的近几年专利授权和公开情况,从而分析知识产权情况;

输出模块:用于向用户输出推荐检索关键字及检索结果。

作为本发明的进一步限定,所述专利数据存储模块包括根据专利检索规则设计映射关系,将关系型数据库中数据映射到搜索引擎的索引中;定义不同的分词器,对专利中各个字段的检索要求将文本分析成不同的索引词;并且每日更新数据,来保证系统数据库中数据的最新程度。

作为本发明的进一步限定,所述输入及检索式生成模块包括提供两种不同的检索方式,根据检索人员输入的检索词进行专利文档字段的匹配,自动生成检索式;根据检索式以及不同专利字段的检索规则,为每个字段设置不同的检索权重,分情况采用不分词搜索及多字段查询的跨字段搜索模式进行检索。

作为本发明的进一步限定,所述检索及相关性排序模块中文档排序方法包括基于检索规则采用低成本的方式取出候选搜索结果后,结合专利领域特征,重建排名函数,对检索结果进行二次排序,将相关性分数较高专利置于检索结果前列。

作为本发明的进一步限定,所述聚合模块包括采用桶聚合方法统计某机构或地区专利文档数据,然后聚合分析该机构或地区的知识产权情况;通过聚合分析某机构的重要竞争对手,减少人为干预;通过聚合分析智能推荐检索关键词。

一种基于相关性排序的专利检索方法,包括以下步骤:

步骤1)基于抓取到的专利数据及专利检索规则搭建一套用于专利检索的搜索引擎和用于输出专利详细信息的关系型数据库,定义不同的分词器将文本分析成索引词;

步骤2)检测和获取用户输入的检索关键词及检索方式,且根据检索关键字自动智能生成标准检索式;

步骤3)首先根据检索式采用粗粒度的方法检索专利数据,然后使用较精细的核心排序函数计算检索结果的相关性分数,进行二次排序,最终生成检索结果;

步骤4)聚合统计某机构或地区的近几年专利授权和公开情况,从而分析知识产权情况;

步骤5)向用户输出推荐检索关键字及检索结果。

作为本发明的进一步限定,步骤3)的具体方法为:

3-1)首先将关系型数据库被分为多个同等大小的分片,每次检索都使用一个完整的分片处理;

3-2)一次评分:基于数据库中各个专利文档中token的协调因子、查询归一因子、词频、逆向文档频率、字段长度归一值,使用一个粗粒度的方式综合计算出每个文档的tf-idf相关性评分,并将其作为一次评分,从而依据此次评分并行的从多个分片中取出候选结果。这样,从每个分片中选出一次评分排名前n的专利文档作为此次检索最佳候选项。其中为了保证结果的多样性,需限制来自同一站点及主域的结果数量;

3-3)从排名前几位的候选结果中结合专利领域的搜索特性,再使用成本较高的精细的排序函数(corerankingfunction)再计算一次,得到最终的排序结果。

作为本发明的进一步限定,步骤3-2)中的评分标准规则如下:

3-2-1)按照生成的标准检索式进行第一次搜索,统计出结果中排名前十的关键字相关的信息及其在结果中所占比例;

3-2-2)添加统计信息、排序方式及高亮等信息进行第二次搜索,取出每个分片中的前m个文档参与二次评分;

3-2-3)添加法律状态权重:有权为4分,实审为3分,公开为2分,无权及其他为1分;

3-2-4)添加关键字相关的信息权重:将s3-2-1统计出的n个关键字信息添加到二次评分查询中;

3-2-5)按照比例将两次评分的结果乘以各自权重并相加,最终评分为:

original_query_score(一次评分)*query_weight+rescore_query_score(二次评分)*rescore_query_weight。

本发明采用以上技术方案与现有技术相比,具有以下技术效果:本发明从数据存储、数据处理、生成检索式、到聚合统计分析;检索人员不仅可以在分析前检索查看相关专利完整信息,并且可以对指定申请人通过聚合统计分析过程得出一套较为完善的专利发展分析报告;通过改善相关性排序,从海量专利文档数据中为用户推荐与搜索相关程度较高的专利数据,大大提高了专利检索的质量和效率。

附图说明

图1为本发明中检索方法流程图。

图2为本发明中搭建系统搜索引擎及关系型数据库流程图。

图3为本发明中输入检索词,自动生成检索式,根据检索式检索专利数据流程图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明:

一种基于相关性排序的专利检索系统,所述专利检索系统包括:专利数据存储模块:基于抓取到的专利数据及专利检索规则搭建一套用于专利检索的搜索引擎和用于输出专利详细信息的关系型数据库,定义不同的分词器将文本分析成索引词;输入及检索式生成模块:用于检测和获取用户输入的检索关键词及检索方式,且根据检索关键字自动智能生成标准检索式;检索及相关性排序模块:首先根据检索式采用粗粒度的方法检索专利数据,然后使用较精细的核心排序函数计算检索结果的相关性分数,进行二次排序,最终生成检索结果;聚合模块:聚合统计某机构或地区的近几年专利授权和公开情况,从而分析知识产权情况;输出模块:向用户输出推荐检索关键字及检索结果。

第一步,搭建系统搜索引擎及关系型数据库;

实施例流程如图1所示

首先,为了提高专利内容抓取的速度和代码的可维护性,根据系统需求,本系统采用requests库和bs4库,针对专利信息分为两个方向进行数据的抓取。

首先需要爬取专利目录,包含的信息有专利名称、申请号、申请时间、公开号、公开时间、优先权号、优先权日、申请人、发明人、申请人地址、ipc分类号、专利摘要、最新法律状态。在爬取到一定的数量等级后,根据不同索引的要求,建立相对应的映射关系,然后将这些数据映射到搜索引擎elasticsearch的索引中。

其中,为了保证检索结果的准确,建立三种不同的分词器,将部分数据作三种不同的分析映射到该字段对象的三个值中,分别是按分号分词、智能分词、不分词三种情况。例如:针对申请人、发明人字段,会出现多个申请人、发明人的情况。在检索或者数据统计时,索引词一般为对单个申请人或发明人,此时需要将该文本分割开。按照专利的要求,多个申请人、发明人中间采用分号(英文)隔开。因此,本发明在映射此类文本数据时,通过分词器识别分号(英文)字符将该文本分析成单个索引词。此外,针对专利名称及摘要等字段,通常将检索词与部分文本进行匹配,由于中文文本语义的复杂,因此需要事先将该字段的文本通过分词器智能分析为一个个的索引词。本发明采用基于词典的规则的ik分词器的细粒度模式,将此类字段的文本按照最大可能切分成单独的索引词。在实际开发中,本发明还按照特例情况扩展ik分词器的词典。最后,针对专利号、法律状态之类字段,通常情况下为完全匹配检索,因此本发明对该类文本采用不分析处理,即将该类文本数据完整映射到该字段,以保证检索的准确性。

第二步是根据爬取到的专利目录的申请号、公开号,再进行完整专利数据的爬取。爬取到一定数量级的数据后,将数据作去噪处理后,如特殊字符等,存储到供专利详情页展示的系统关系型数据库中,包括:专利名称、申请号、申请时间、公开号、公开时间、优先权号、优先权日、申请人、发明人、申请人地址、ipc分类号、专利摘要、洛迦诺分类、国际申请、国际公布、进入国家日期、关键词、cpc分类号、申请人邮编、代理机构、代理人、权利要求书、说明书、说明书附图、pdf文本、法律状态生效日、法律状态含义、相关专利申请号、相关专利公开号、相关专利名称、专利之间关系(引证、被引、同族)。为了保证数据的实时准确性,在关系型数据库中设定了定时更新(每日更新),搜索引擎elasticsearch也随之更新,保证了系统数据库中数据与互联网上专利数据保持一致。

根据专利检索规则设计映射关系,将关系型数据库中数据映射到搜索引擎的索引中;定义不同的分词器,对专利中各个字段的检索要求将文本分析成不同的索引词;并且每日更新数据,来保证系统数据库中数据的最新程度。

第二步,输入检索词,自动生成检索式,根据检索式检索专利数据;

实施例流程如图2所示。

本发明为检索人员提供了两种检索方式:普通检索模式和高级检索模式。在输入模块中,若需要模糊检索某些领域专利,检索人员可以选择普通搜索模式。输入某些检索词,如“南京邮电大学2018.01.01网络”,系统在接受到检索词后,首先根据用户的默认分隔符,如空格、逗号(中英文)、分号(中英文)、句号(中英文)、加号等分隔符将检索人员输入的检索词分为多个检索词,然后对每个检索词进行处理:

1.若检索词前两位为常见国家专利代码,如“cn”、“us”、“wo”等,则判定该检索词为专利号,从而放入专利公开号、申请号、优先权号的不分析字段进行查询;

2.若检索词与日期格式的正则表达式相匹配,则判定该检索词为日期,从而将检索结果的日期范围缩小至该日期;

3.若检索词与ipc分类号格式的正则表达式相匹配,则判定该检索词为ipc分类号,从而将该检索词放入ipc分类号的按照分号分析字段进行检索;

4.将检索词分别完整放入申请人、发明人的按照分号分析字段进行不分词检索,若可以完全匹配,即检索结果个数不为0,则判定该检索词为申请人或发明人,从而分别放入申请人、发明人的按照分号分析字段进行查询;

5.若检索词不满足以上四条规则,则判定该检索词为模糊检索词。为保证检索结果的准确性以及为了避免检索人员输入时未将检索词分隔的情况,从而采用多字段查询的跨字段查询模式,将该检索词放入专利名称、申请人、申请人地址、摘要、发明人的智能分析字段和申请人、发明人、ipc分类号的按照分号分析字段以及专利号的不分析字段进行查询。此外,为提高检索结果排序的相关性,基于专利的检索规则对不同字段的采用加权处理。

最终生成的标准检索式为“专利号:xxxxxxxxxxx;日期:xxxx.xx.xx;申请人:xxxxx;发明人:xx;ipc分类号:xxxxxx;模糊检索词:xx”。经过上述处理流程后自动生成标准的检索式,大大提高了普通检索模式下检索结果的准确性和有效性。

本发明还提供了可供检索人员精确查找专利的高级检索模式,在该模式下,检索人员可以自由指定字段输入检索词。系统接收到输入的检索词后,经过对每个检索词的去噪处理,根据要求生成检索式,根据检索式进行搜索。此种模式适用于检索人员需精确查找某个专利或某方面专利的情况。

此外,在一次检索后,本发明还提供了对检索结果的二次筛选功能。检索人员可以根据不同情况增加条件对检索结果进行筛选,如添加模糊检索词、法律状态、专利语言、日期筛选等条件。

本发明提供两种不同的检索方式,根据检索人员输入的检索词进行专利字段的匹配,自动生成检索式;根据检索式以及不同专利字段的检索规则,为每个字段设置不同的检索权重,分情况采用不分词搜索及多字段查询的跨字段搜索模式进行检索。

第三步,对检索结果进行相关性排序;

在已有的基础排序规则下,本系统结合专利领域的检索特性改善相关性排序,提高系统的准确性与实用性,从数以万计的搜索结果中为用户推荐相关程度最高的专利;

1.首先将专利语料库被分为多个同等大小的分片,每次检索都使用一个完整的分片处理;

2.一次评分:基于数据库中各个专利文档中token的协调因子、查询归一因子、词频、逆向文档频率、字段长度归一值,使用一个粗粒度的方式综合计算出每个文档的tf-idf相关性评分,并将其作为一次评分,从而依据此次评分并行的从多个分片中取出候选结果。这样,从每个分片中选出一次评分排名前n的专利文档作为此次检索最佳候选项。其中为了保证结果的多样性,需限制来自同一站点及主域的结果数量;

3.从排名前几位的候选结果中结合专利领域的搜索特性,再使用成本较高的精细的排序函数(corerankingfunction)再计算一次,得到最终的排序结果。

具体的评分规则如下:

1)按照生成的标准检索式进行第一次搜索,统计出结果中排名前十的申请人、发明人及其在结果中所占比例;

2)添加统计信息、排序方式及高亮等信息进行第二次搜索,取出每个分片中的前100个文档参与二次评分

3)添加法律状态权重:有权为4分,实审为3分,公开为2分,无权及其他为1分

4)添加申请人、发明人权重:将s1统计出的10个申请人、发明人添加到二次评分查询中:

a、申请人:按照排名第一位申请人所占比例,若比例为1,则放大倍数不变;若比例小于1大于0.5,则放大2倍;若大于0.1小于0.05,则放大10倍;若小于0.1大于0.05,则放大20倍;若小于0.05,则放大100倍。每个申请人的权重为其所占比例乘以放大倍数。

b、发明人:每个发明人权重为其所占比例

5)增加第一发明人及第二发明人权重:若搜索的发明人为第一发明人,则增加4分;若为第二发明人,则增加2分;若为第三发明人及之后,则不加分

按照比例将两次评分的结果乘以各自权重并相加,最终评分为:

original_query_score(一次评分)*query_weight+rescore_query_score(二次评分)*rescore_query_weight。

本发明基于检索规则采用低成本的方式取出候选搜索结果后,结合专利领域特征,重建排名函数,对检索结果进行二次排序,将相关性分数较高专利置于检索结果前列。

第四步,使用聚合来聚合索引数据,并从中计算有用的信息;

在检索机构信息或地区信息时,检索人员通常希望得到该机构或地区目前的知识产权的数量和质量情况。聚合是一种基于搜索的数据汇总,通过组合可以对文档中的数据进行复杂的汇总、分析。本发明采用桶聚合来实现对某机构或地区的知识产权情况分析。

对于机构数据,系统在检测到检索人员输入的某单个检索词为机构时,则自动进入聚合该机构的文档数据流程中。首先,将满足申请人为该机构条件的文档放入一个桶中。其次,限定桶内文档时间范围,按照年份限定将该桶进一步分为多个桶。每个桶内有多个指标,如发明人、ipc分类号、专利号等。然后基于这些指标,进而将该桶内的文档分为多个桶。如按照《国际专利分类表》(ipc分类号)规定,根据ipc分类号的首字母将专利分为8大类,即放入8个桶中,根据每个桶内的数量指标情况可得知该机构近一年的技术发展趋势。采用此类方法,可得到的该机构的信息有:重要技术专家(发明人)、公开及授权专利技术发展趋势、近年专利授权及公开数和授权总数、专利授权种类情况。

此外,《国际专利分类表》(ipc分类)是目前国际通用的专利文献分类和检索工具,本系统还采用桶聚合的方法设计了一种计算某机构重要竞争对手的方法:

1.首先,聚合统计出该机构去年所有授权专利中的数量排名前五的ipc分类号;

2.其次分别以每个分类号作为检索词进行检索,聚合统计出每个分类号下数量排名前十的申请人及其在该分类下的专利数量;

3.然后将重合的申请人进行合并,统计每个申请人在五类专利下的前十申请人中出现的次数及专利总数;

4.最后结合两种数据作该机构竞争对手排名,取前5名作为重要竞争对手,并将该机构的知识产权情况与竞争对手的专利知识产权情况做出对比。

此种计算重要竞争对手的方法完全以机构自身知识产权情况为依据,大大减少了人工干预,提高了计算的准确性,为机构未来的发展提供了一些建议。

地区文档数据的聚合统计与机构类似。根据对地区专利数据的指标分析,可以得到该地区的知识产权情况分析,进而对该地区的总体发展趋势有指向性意义。

另外,在日常检索中,检索人员在检索机构名称时,有时会采用该机构的简称,如“华为”、“小米”等。系统在接受到检索词后,会将该检索词放入申请人的智能分析字段进行检索,并聚合统计出检索结果的申请人。然后将专利数量排名前三的申请人作为智能推荐检索关键词反馈给检索人员以供参考。

本发明采用桶聚合方法统计某机构或地区专利文档数据,然后聚合分析该机构或地区的知识产权情况;通过聚合分析某机构的重要竞争对手,减少人为干预;通过聚合分析智能推荐检索关键词。

第五步,向用户输出推荐检索关键字及检索结果;

本系统的输出模块由检索结果输出模块、查看专利详细信息模块、收藏模块、批量导出模块;

1.检索结果输出模块:在该模块,可以得到基于检索规则及相关性排序之后的推荐检索结果及智能推荐的检索关键词。检索人员还可以自由选择将检索结果按照申请日、公开日升序或降序排序;

2.收藏模块:在该模块,检索人员可以将需要的专利放入收藏夹中,或取消收藏。若需收藏专利,则根据专利id到数据库中找到该专利记录放入浏览器的session中;若需取消收藏某条专利,则判断session中是否含有该专利文档的id,若有,则删除。

批量导出模块:在该模块,系统在获取到需要导出的专利id列表后,首先使用xlwt类新建excel文件及excel表,然后根据专利id到数据库中逐条找出每个专利记录,并插入至事先建立好的excel表中,自动返回给检索人员。

以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1