专利数据和产业数据的映射方法和装置

文档序号:36426457发布日期:2023-12-20 21:37阅读:35来源:国知局
专利数据和产业数据的映射方法和装置

本发明涉及数据映射领域,具体而言,涉及一种专利数据和产业数据的映射方法和装置。


背景技术:

1、将专利与产业分类体系进行有效映射是技术转移和专利情报研究工作中不可或缺的步骤。目前,专利与产业的映射方法主要有:基于专家判定的映射方法、基于交叉检索的方法和基于概率计算的方法三种。

2、基于专家判定的映射方法,主要根据专家的主观判断来确立类目间的对应关系,虽然准确率较高,但费时费力,过多依赖于人工判定,不适用于大规模数据。

3、基于交叉检索的方法主要是用一种分类法在使用另一种分类法进行知识组织的语料库中检索,通过对检索结果所标识的类目进行分析和统计,建立两种分类法之间的映射。该方法的局限性在于:一方面对数据量有一定的要求,如果数据量太小会造成覆盖率过低的现象;另一方面通过交叉检索得到的是一对多的映射,需要依赖统计或人工的方法进一步确定映射关系。

4、基于概率计算的方法将分类法类目的整体概念分解成若干足够小的单位概念,整体概念的相似度可以建立在各单位概念的相似度的基础上,通过计算各小类之间的相似度从而得到整体类目之间的概率,其中小类概率之和应等于整体概率。单位概念通常由关键词来表示,这样类目整体概念的相似度就转化为能够表达单位概念词的相似度之和。该方法依据一定的规则用计算机代替人工进行语义匹配,省时省力,但映射结果还需进行一定的人工调整。

5、针对现有的映射方法确定的映射关系需要人工进行调整,映射方法的准确性低的问题,目前尚未提出有效的解决方案。


技术实现思路

1、本发明实施例提供了一种专利数据和产业数据的映射方法和装置,以至少解决现有的映射方法确定的映射关系需要人工进行调整,映射方法的准确性低的技术问题。

2、根据本发明实施例的一个方面,提供了一种专利数据和产业数据的映射方法,包括:获取专利数据和产业数据,其中,专利数据包括:至少一个专利类目,每个专利类目包含的文献数据,以及每个专利类目的类目注释数据,产业数据包括:至少一个产业类目,以及每个产业类目的类目注释数据;计算至少一个产业类目的类目注释数据和至少一个专利类目包含的文献数据的第一相似度,以及至少一个产业类目的类目注释数据和至少一个专利类目的类目注释数据的第二相似度;根据第一相似度和第二相似度,建立专利数据和产业数据的映射关系。

3、根据本发明实施例的另一方面,还提供了一种专利数据和产业数据的映射装置,包括:获取模块,用于获取专利数据和产业数据,其中,专利数据包括:至少一个专利类目,每个专利类目包含的文献数据,以及每个专利类目的类目注释数据,产业数据包括:至少一个产业类目,以及每个产业类目的类目注释数据;计算模块,用于计算至少一个产业类目的类目注释数据和至少一个专利类目包含的文献数据的第一相似度,以及至少一个产业类目的类目注释数据和至少一个专利类目的类目注释数据的第二相似度;建立模块,用于根据第一相似度和第二相似度,建立专利数据和产业数据的映射关系。

4、在本发明实施例中,可以获取专利数据和产业数据,并在获取到每个专利类目包含的文献数据,每个专利类目的类目注释数据,以及每个产业类目的类目注释数据之后,计算至少一个产业类目的类目注释数据和至少一个专利类目包含的文献数据的第一相似度,以及至少一个产业类目的类目注释数据和至少一个专利类目的类目注释数据的第二相似度,并根据第一相似度和第二相似度,建立专利数据和产业数据的映射关系。容易注意到,由于既获取到每个专利类目包含的文献数据,又获取到每个专利类目的类目注释数据,将专利官方分类注释的规范准确性以及专利文本数据技术信息翔实的优点进行结合,从而解决了现有的映射方法确定的映射关系需要人工进行调整,映射方法的准确性低的技术问题。因此,通过本发明上述实施例,可以实现将专利与产业分类体系进行自动映射,提高映射准确性的效果。



技术特征:

1.一种专利分类和产业分类的映射关系构建方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,根据所述至少一个专利分类信息从专利文献数据库中获取专利文献,并从所述专利文献中抽取至少部分文本信息,包括:

3.根据权利要求2所述的方法,其特征在于,从所述至少部分文本信息中抽取专利数据特征词,包括:

4.根据权利要求1所述的方法,其特征在于,根据从所述专利分类表中获取的至少一个专利分类信息的分类注释,得到所述向量空间型格式的注释语料库,包括:

5.根据权利要求1所述的方法,其特征在于,从产业分类表中获取至少一个产业分类信息的分类注释,根据所述至少一个产业分类信息的分类注释得到查询文本向量,包括:

6.根据权利要求1所述的方法,其特征在于,计算所述专利数据语料库和所述查询文本向量之间的第一语义相似度,及所述注释语料库和所述查询文本向量之间的第二语义相似度,包括:

7.根据权利要求1所述的方法,其特征在于,在计算所述专利数据语料库和所述查询文本向量之间的第一语义相似度,及所述注释语料库和所述查询文本向量之间的第二语义相似度之后,所述方法还包括:

8.根据权利要求7所述的方法,其特征在于,根据所述第一语义相似度和所述第二语义相似度,构建专利分类和产业分类的映射关系,包括:

9.根据权利要求8所述的方法,其特征在于,根据所述分类相似度矩阵构建所述专利分类和产业分类的映射关系,包括:

10.一种专利分类和产业分类的映射关系构建装置,其特征在于,包括:


技术总结
本发明公开了一种专利数据和产业数据的映射方法和装置。其中,该方法包括:获取专利数据和产业数据,其中,专利数据包括:至少一个专利类目,每个专利类目包含的文献数据,以及每个专利类目的类目注释数据,产业数据包括:至少一个产业类目,以及每个产业类目的类目注释数据;计算至少一个产业类目的类目注释数据和至少一个专利类目包含的文献数据的第一相似度,以及至少一个产业类目的类目注释数据和至少一个专利类目的类目注释数据的第二相似度;根据第一相似度和第二相似度,建立专利数据和产业数据的映射关系。本发明解决了现有的映射方法确定的映射关系需要人工进行调整,映射方法的准确性低的技术问题。

技术研发人员:赵亚娟,田创,吕璐成
受保护的技术使用者:中国科学院文献情报中心
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1