一种专利推荐方法、装置、计算机设备及存储介质与流程

文档序号:24129787发布日期:2021-03-02 17:08阅读:93来源:国知局
一种专利推荐方法、装置、计算机设备及存储介质与流程

[0001]
本发明涉及专利信息技术领域,尤其涉及一种专利推荐方法、装置、计算机设备及存储介质。


背景技术:

[0002]
我国专利推荐的最终目的是为了增加社会个人或机构对专利的使用率及了解各领域专利市场。对于专利生产者——申请(专利权)人而言,专利推荐能使自己的产品脱颖而出,受到广大用户的关注;对于专利消费者—客户而言,专利推荐能够帮助自己从海量专利信息中寻找到自己感兴趣的专利,并挖掘更深层次的专利。专利推荐能够在促进两方信息利用的基础上,达到促进企业交流合作、技术成果转换、专利交易、领域专利调查等市场行为。专利推荐算法作为一种信息推送的重要手段,也是解决如今海量数据信息过载的重要手段。目前在工业领域,专利推荐算法主要分为以下几类:
[0003]
(1)静态数据推荐,即根据每类用户注册信息预先设置好推送内容,也可以根据同类用户相互之间进行推送;
[0004]
(2)基于内容的推荐,即主要根据用户之前的喜好,推荐相似的物品。该算法包括用户属性和产品属性两方面构成,它通过计算两者之间的相似性,对用户进行物品推荐;
[0005]
(3)基于协同过滤的算法,也称为基于领域的算法,其主要分为两个步骤:通过用户与商品的交互信息,找到和目标用户兴趣相似的用户集合;找到这个集合中的用户喜欢的,且目标用户没有产生交互的物品推荐给目标用户;
[0006]
(4)基于模型的推荐算法,即通过一般的机器学习的方式,基于大批量的用户数据样本,训练出一个模型,然后根据不同的用户行为信息进行预测和计算推荐。
[0007]
上述方式(1)与方式(2)只利用了用户初始或者历史信息,在长久的用户推荐体验上效果较差;方式(3)是目前工业领域主流的推荐方式,但由于物品/用户比例不断增大,需解决系统冷启动与稀疏数据矩阵的问题,且并没有考虑到专利文本内容的语义;方式(4)能根据训练后模型获得理想的推荐效果,但是由于用户群体的差异性与用户需求的改变,无法对广泛的用户需求做出实时且动态的分析处理,导致该方法只能在单独兴趣领域或者固定场景中应用。
[0008]
综上所述,现有技术中的专利推荐方法存在专利推荐系统冷启动和数据稀疏矩阵的问题,且无法进行专利文本内容的语义分析,普通模型的泛化能力也不够强。


技术实现要素:

[0009]
基于此,有必要针对上述技术问题,提供一种专利推荐方法、装置、计算机设备及存储介质。
[0010]
一种专利推荐方法,包括以下步骤:根据用户历史搜索记录、点击记录或设定的兴趣领域构建用户的兴趣标签;通过词频-逆向文件频率算法对专利数据集中的专利文件提取关键词,获取专利关键词数据库;通过bert预训练模型对所述专利关键词数据集进行词
向量转换,获取专利关键词向量集;对所述专利关键词向量集进行dbscan聚类算法分析处理,构建专利主题类别集;通过simnet网络结构结合所述专利主题类别集构建语义相似度匹配模型,并对所述语义相似度匹配模型进行训练;在训练好的语义相似度模型中输入所述兴趣标签,获取专利文本与所述兴趣标签的相似度,并根据所述相似度的高低对所述专利文本进行top-k推荐。
[0011]
在其中一个实施例中,所述将专利数据集通过词频-逆向文件频率算法进行提取关键词,获取专利关键词数据集,具体包括:分别统计所述专利数据集中所有词语在各个专利文本中出现的次数;通过词频-逆向文件频率算法进行词语的权值计算;根据权值由大到小对词语进行排序,将排序在前列的词语认定为关键词,形成专利关键词数据集。
[0012]
在其中一个实施例中,所述词频-逆向文件频率算法具体为:
[0013]
tf-idf=词频(tf)*逆向文件频率(idf);
ꢀꢀꢀꢀꢀ
(1)
[0014]
式中,
[0015][0016]
在公式(1)中,tf-idf值的大小代表该词能够反映该专利文本的特性的程度,tf-idf值越高,代表该词越反应该专利文本的特性的程度越高;tf-idf值越低,代表该词反映该专利文本的特性的程度越低。
[0017]
在其中一个实施例中,所述dbscan聚类算法具体包括:输入所述专利关键词向量集,预设邻域半径eps和邻域数据中对象数目阈值minpts,输出密度联通簇,即专利主题类别集。
[0018]
在其中一个实施例中,所述simnet网络结构采用余弦相似度计算兴趣标签与所述专利主题类别中的所有专利文本的相似度,余弦相似度的计算公式为:
[0019][0020]
其中,a、b分别代表经过网络层后提取的文本向量,a
i
、b
i
分别代表向量a和b的各分量。
[0021]
一种专利推荐装置,包括:标签构建模块,用于根据用户历史搜索记录、点击记录或设定的兴趣领域构建用户的兴趣标签;关键词提取模块,用于通过词频-逆向文件频率算法对专利数据集中的专利文件提取关键词,获取专利关键词数据库;词向量转换模块,用于通过bert预训练模型对所述专利关键词数据集进行词向量转换,获取专利关键词向量集;类别构建模块,用于对所述专利关键词向量集进行dbscan聚类算法分析处理,构建专利主题类别集;模型构建模块,用于通过simnet网络结构结合所述专利主题类别集构建语义相似度匹配模型,并对所述语义相似度匹配模型进行训练;专利推荐模块,用于在训练好的语义相似度模型中输入所述兴趣标签,获取专利文本与所述兴趣标签的相似度,并根据所述相似度的高低对所述专利文本进行top-k推荐。
[0022]
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述各个实施例中所述的一种专利推荐方法
的步骤。
[0023]
一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述各个实施例中所述的一种专利推荐方法的步骤。
[0024]
相比于现有技术,本发明的优点及有益效果在于:
[0025]
1、通过用户的历史搜索记录、点击记录或设定的兴趣领域构建用户的兴趣标签,通过词频-逆向文件频率算法对专利数据集中的专利文件提取关键词,获取专利关键词数据库,提高了关键词与专利文本之间的相关性。
[0026]
2、通过bert预训练模型对专利关键词数据进行词向量转换,获取专利关键词向量集,并进行dbscan聚类算法分析处理,构建专利主题类别集,结合simnet网络结构构建语义相似度匹配模型,并进行训练,在训练好的语义相似度匹配模型中输入兴趣标签,获取专利文本与兴趣标签的相似度,并根据相似度的高低对专利文本进行top-k推荐,解决了专利推荐系统冷启动及数据稀疏矩阵的问题,能够进行专利文本内容的语义分析,提高了匹配模型的泛化能力,从而达到精准推荐的效果。
附图说明
[0027]
图1为一个实施例中一种专利推荐方法的流程示意图;
[0028]
图2为一个实施例中一种专利推荐装置的结构示意图;
[0029]
图3为一个实施例中计算机设备的内部结构示意图。
具体实施方式
[0030]
为了使本发明的目的、技术方案及优点更加清楚明白,下面通过具体实施方式结合附图对本发明做进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0031]
在一个实施例中,如图1所示,提供了一种专利推荐方法,包括以下步骤:
[0032]
步骤s101,根据用户历史搜索记录、点击记录或设定的兴趣领域构建用户的兴趣标签。
[0033]
具体地,在实际使用过程中,可以根据用户历史搜索记录、点击记录或设定的兴趣领域构建用户的兴趣标签,并根据该兴趣标签判断用户可能感兴趣的专利主题类别,且用户的兴趣标签可以设置有多个,便于更加精准地判断用户可能感兴趣的专利主题类别。
[0034]
步骤s102,通过词频-逆向文件频率算法对专利数据集中的专利文件提取关键词,获取专利关键词数据库。
[0035]
具体地,由于仅仅依靠工作人员主管提取专利文本中的关键词过于片面,很可能出现关键词重复频率高的问题,因此可以采用词频-逆向文件频率算法(tf-idf,term frequency-inverse document frequency),其中,tf为词频。idf为逆向文件频率。词频-逆向文件频率算法是一种针对关键词的统计分析方法,用于评估一个词对一个文件集或者一个语料库的重要程度,一个词的重要程度与它在文件中出现的次数成正比,跟他在语料库出现的次数成反比,该算法能够有效避免常用词对关键词的影响,提高了关键词与文件之间的相关性。
[0036]
其中,可以在相关专利领域中提取高价值专利文件,构成专利数据集。
[0037]
步骤s103,通过bert预训练模型对专利关键词数据集进行词向量转换,获取专利关键词向量集。
[0038]
具体地,bert(bidirectional encoder representation from transformers)预训练模型,与传统的词向量表示模型相比,bert词向量能够根据上下文信息获取更为丰富的词语语义特征,从而提高自然语言处理、机器学习或深度学习等技术任务的效果。
[0039]
步骤s104,对专利关键词向量集进行dbscan聚类算法分析处理,构建专利主题类别集。
[0040]
具体地,为了明确对应专利文本的主题类别,可以将专利关键词向量集进行dbscan(density-based spatial clustering of applications with noise,具有噪声的基于密度的聚类方法)聚类算法分析,获得聚类后的类别,并根据对应的类别构建专利主题类别集。
[0041]
步骤s105,通过simnet网络结构结合专利主题类别集构建语义相似度匹配模型,并对语义相似度匹配模型进行训练。
[0042]
具体地,simnet(similaritynet,短文本语义匹配)网络结构是一个计算短文本相似度的模型,可以根据用户输入的两个文本,计算出相似度得分,
[0043]
在本实施例中,通过将专利主题类别集输入simnet模型,构建语义相似度匹配模型,并对该语义相似度匹配模型进行训练。
[0044]
步骤s106,在训练好的语义相似度模型中输入兴趣标签,获取专利文本与兴趣标签的相似度,并根据相似度的高低对专利文本进行top-k推荐。
[0045]
具体地,将兴趣标签输入训练好的语义相似度匹配模型,语义相似度匹配模型输出专利文本与兴趣标签之间的相似度,并根据相似度的高低对专利数据集中的专利文本进行top-k专利推荐。
[0046]
其中,top-k专利推荐,是设定给用户生成k个感兴趣的专利文件,并根据相似度的大小由大到小进行排序,k可以根据实际需要进行设定。
[0047]
在本实施例中,首先根据用户的历史搜索记录、点击记录或设定的兴趣领域构建用户的兴趣标签,通过词频-逆向文件频率算法对专利数据集中的专利文件提取关键词,获取专利关键词数据库,提高关键词与专利文本之间的相关性,通过bert预训练模型对专利关键词数据进行词向量转换,获取专利关键词向量集,并进行dbscan聚类算法分析处理,构建专利主题类别集,结合simnet网络结构构建语义相似度匹配模型,并进行训练,在训练好的语义相似度匹配模型中输入兴趣标签,获取专利文本与兴趣标签的相似度,并根据相似度的高低对专利文本进行top-k推荐,解决了专利推荐系统冷启动及数据稀疏矩阵的问题,能够进行专利文本内容的语义分析,提高了匹配模型的泛化能力,从而达到精准推荐的效果。
[0048]
在上述专利推荐方法的基础上,还可以通过构建专利领域知识图谱,基于节点关系上的主题分类进行相似度层次排序,达到多层次语义精准推荐的效果。
[0049]
其中,步骤s102具体包括:分别统计专利数据集中所有词语在各个专利文本中出现的次数,通过词频-逆向文件算法进行词语的权值计算;根据权值由大到小对词语进行排序,将排序在前列的词语认定为关键词,形成关键词数据集。
[0050]
具体地,排序在前列的词语,可以根据实际需要进行设定,例如将排序在前100认
定为排序在前列。
[0051]
其中,词频-逆向文件频率算法具体为:
[0052]
tf-idf=词频(tf)*逆向文件频率(idf);
ꢀꢀꢀꢀꢀꢀ
(1)
[0053]
式中,
[0054][0055]
在公式(1)中,tf-idf值的大小代表该词能够反映该专利文本的特性的程度,tf-idf值越高,代表该词越反应该专利文本的特性的程度越高;tf-idf值越低,代表该词反映该专利文本的特性的程度越低。
[0056]
其中,步骤s104中的dbscan聚类算法具体包括:输入专利关键词向量集,预设邻域半径eps(epsilon,小量,小的值)和邻域数据中对象数目阈值minpts(minimum number of points required to form a cluster,定义核心点时的阈值),从而输出密度联通簇,即得到专利主题类别集。
[0057]
其中,步骤s105中simnet网络结构采用余弦相似度计算兴趣标签与专利主题类别中的所有专利文本的相似度,余弦相似度的计算公式为:
[0058][0059]
其中,a、b分别代表经过网络层后提取的文本向量,a
i
、b
i
分别代表向量a和b的各分量。
[0060]
如图2所示,提供了一种专利推荐装置20,包括:标签构建模块21、关键词提取模块22、词向量转换模块23、类别构建模块24、模型构建模块25和专利推荐模块26,其中:
[0061]
标签构建模块21,用于根据用户历史搜索记录、点击记录或设定的兴趣领域构建用户的兴趣标签;
[0062]
关键词提取模块22,用于通过词频-逆向文件频率算法对专利数据集中的专利文件提取关键词,获取专利关键词数据库;
[0063]
词向量转换模块23,用于通过bert预训练模型对专利关键词数据集进行词向量转换,获取专利关键词向量集;
[0064]
类别构建模块24,用于对所述专利关键词向量集进行dbscan聚类算法分析处理,构建专利主题类别集;
[0065]
模型构建模块25,用于通过simnet网络结构结合专利主题类别集构建语义相似度匹配模型,并对语义相似度匹配模型进行训练;
[0066]
专利推荐模块26,用于将兴趣标签输入所述语义相似度匹配模型,根据语义相似度匹配模型计算出专利文本与兴趣标签之间的相似度,并根据相似度对专利文本进行top-k专利推荐。
[0067]
在一个实施例中,关键词提取模块22还用于分别统计所述专利数据集中所有词语在各个专利文本中出现的次数;通过词频-逆向文件频率算法进行词语的权值计算;根据权值由大到小对词语进行排序,将排序在前列的词语认定为关键词,形成专利关键词数据集。
[0068]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储配置模板,还可用于存储目标网页数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种专利推荐方法。
[0069]
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0070]
在一个实施例中,还提供一种存储介质,所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被计算机执行时使所述计算机执行如前述实施例所述的方法,所述计算机可以为上述提到的一种专利推荐装置的一部分。
[0071]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)或随机存储记忆体(random access memory,ram)等。
[0072]
显然,本领域的技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在计算机存储介质(rom/ram、磁碟、光盘)中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。所以,本发明不限制于任何特定的硬件和软件结合。
[0073]
以上内容是结合具体的实施方式对本发明所做的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1