知识产权检索系统及其检索方法与流程

文档序号:31875964发布日期:2022-10-21 21:38阅读:187来源:国知局
知识产权检索系统及其检索方法与流程

1.本发明涉及知识产权领域下的智能检索,且更为具体地,涉及一种知识产权检索系统及其检索方法。


背景技术:

2.现代企业间竞争日趋激烈,竞争的手段是多种多样的,其中企业信息化的竞争更是重中之重,尤其是知识产权的竞争。现有的知识产权检索系统基于传统的关键词匹配和分类检索,导致匹配精度不高,客户想要检索到精准匹配的专利需耗费较长时间。
3.因此,期待一种优化的知识产权检索系统。


技术实现要素:

4.为了解决上述技术问题,提出了本技术。本技术的实施例提供了一种知识产权检索系统及其检索方法,其通过对数据库中的专利进行半结构化高维语义编码以得到专利的特征表示,其融合了专利文本内容中的全文隐含关联特征以及关键字段的全局性隐含关联特征,继而就可以通过检索式与所述专利的特征表示之间的关联表达来进行分类,在融合这两个特征时,进一步计算全文特征向量与关键字段特征向量之间的数据密集簇修正因数以进行修正,这样可以使得计算得到的关联矩阵通过不同数据密集度的特征向量之间的自适应依赖来提升所述关联矩阵对于分类目标函数的参数自适应性,也就提高了专利特征表达矩阵的分类准确性,进而提高了检索的精准度。
5.根据本技术的一个方面,提供了一种知识产权检索系统,其包括:
6.专利文本语义编码模块,用于将数据库中待匹配的专利的所有文本内容通过包含嵌入层的上下文编码器以得到全文特征向量;
7.关键字段提取模块,用于提取所述待匹配的专利中的关键数据,所述关键数据包括标题、分类号、独权和技术背景;
8.关键字段编码模块,用于将所述待匹配的专利中的关键数据通过所述包含嵌入层的上下文编码器以得到关键字段特征向量;
9.向量长度调整模块,用于通过线性变换将所述全文特征向量和所述关键字段特征向量调整为相同长度的特征向量;
10.密集簇修正因数计算模块,用于计算所述全文特征向量和所述关键字段特征向量之间的密集簇修正因数,其中,所述密集簇修正因数为所述关键字段特征向量通过softmax分类函数所得到的概率值乘以以所述全文特征向量与所述关键字段特征向量的按位置点乘所得到的特征向量除以两者之间的距离值所得到特征向量再通过所述softmax分类函数所得到的概率值;
11.加权修正模块,用于以所述密集簇修正因数作为权重对所述全文特征向量进行加权以得到加权后全文特征向量;
12.关联编码模块,用于计算所述加权后全文特征向量与所述关键字段特征向量之间
的关联矩阵作为专利特征表达矩阵;
13.检索式获取模块,用于获取用户输入的检索式;
14.检索式编码模块,用于对所述检索式进行语义编码以得到检索式特征向量;
15.分类特征向量生成模块,用于将所述检索式特征向量作为查询特征向量与所述待匹配的专利的专利特征表达矩阵进行矩阵相乘以得到分类特征向量;以及
16.匹配结果生成模块,用于将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示所述待匹配专利是否与检索式相适配。
17.在上述知识产权检索系统中,所述专利文本语义编码模块,包括:第一分词单元,用于对所述数据库中待匹配的专利的所有文本内容进行分词以获得词序列;第一词嵌入单元,用于使用所述包含嵌入层的上下文编码器的嵌入层将所述词序列中各个词映射为词向量以获得词向量序列;第一上下文语义编码单元,用于使用所述包含嵌入层的上下文编码器的基于转换器的bert模型对所述词向量序列进行基于全局掩码结构的全局语义编码以得到多个全局特征向量;第一级联单元,用于将所述多个全局特征向量进行级联以生成所述全文特征向量。
18.在上述知识产权检索系统中,所述关键字段编码模块,包括:第二分词单元,用于对所述待匹配的专利中的关键数据进行分词以获得关键词序列;第二词嵌入单元,用于使用所述包含嵌入层的上下文编码器的嵌入层将所述关键词序列中各个词映射为词向量以获得关键词向量序列;第二上下文语义编码单元,用于使用所述包含嵌入层的上下文编码器的基于转换器的bert模型对所述关键词向量序列进行基于全局掩码结构的全局语义编码以得到多个关键特征向量;第二级联单元,用于将所述多个关键特征向量进行级联以生成所述关键字段特征向量。
19.在上述知识产权检索系统中,所述向量长度调整单元,进一步用于通过所述线性变换将所述全文特征向量压缩至与所述关键字段特征向量具有相同的长度。
20.在上述知识产权检索系统中,所述密集簇修正因数计算模块,进一步用于以如下公式来计算所述全文特征向量和所述关键字段特征向量之间的所述密集簇修正因数;
21.其中,所述公式为:
[0022][0023]
其中,v1是所述全文特征向量,v2是所述关键字段特征向量,

表示点乘,softmax(
·
)表示特征向量通过分类器得到的概率值,d(
·
,
·
)表示特征向量之间的距离,exp(
·
)表示向量的指数运算,所述向量的指数运算表示计算以向量中各个位置的特征值为幂的自然指数函数值,特征向量除以参数表示以特征向量中各个位置的特征值分别除以参数。
[0024]
在上述知识产权检索系统中,所述关联编码模块,用于以如下公式计算所述加权后全文特征向量与所述关键字段特征向量之间的所述关联矩阵;
[0025]
其中,所述公式为:
[0026][0027]
其中,m为所述关联矩阵,v1′
为所述加权后全文特征向量,v1′
t
为所述加权后全文特征向量的转置,v2为所述关键字段特征向量。
[0028]
在上述知识产权检索系统中,所述匹配结果生成模块,进一步用于:使用所述分类
器以如下公式对所述分类特征向量进行处理以获得所述分类结果,其中,所述公式为:softmax{(wn,bn):

:(w1,b1)|x},其中,w1到wn为权重矩阵,b1到bn为偏置向量,x为所述分类特征向量。
[0029]
根据本技术的另一方面,一种知识产权检索系统的检索方法,其包括:
[0030]
将数据库中待匹配的专利的所有文本内容通过包含嵌入层的上下文编码器以得到全文特征向量;
[0031]
提取所述待匹配的专利中的关键数据,所述关键数据包括标题、分类号、独权和技术背景;
[0032]
将所述待匹配的专利中的关键数据通过所述包含嵌入层的上下文编码器以得到关键字段特征向量;
[0033]
通过线性变换将所述全文特征向量和所述关键字段特征向量调整为相同长度的特征向量;
[0034]
计算所述全文特征向量和所述关键字段特征向量之间的密集簇修正因数,其中,所述密集簇修正因数为所述关键字段特征向量通过softmax分类函数所得到的概率值乘以以所述全文特征向量与所述关键字段特征向量的按位置点乘所得到的特征向量除以两者之间的距离值所得到特征向量再通过所述softmax分类函数所得到的概率值;
[0035]
以所述密集簇修正因数作为权重对所述全文特征向量进行加权以得到加权后全文特征向量;
[0036]
计算所述加权后全文特征向量与所述关键字段特征向量之间的关联矩阵作为专利特征表达矩阵;
[0037]
获取用户输入的检索式;
[0038]
对所述检索式进行语义编码以得到检索式特征向量;
[0039]
将所述检索式特征向量作为查询特征向量与所述待匹配的专利的专利特征表达矩阵进行矩阵相乘以得到分类特征向量;以及
[0040]
将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示所述待匹配专利是否与检索式相适配。
[0041]
在上述知识产权检索系统的检索方法中,将数据库中待匹配的专利的所有文本内容通过包含嵌入层的上下文编码器以得到全文特征向量,包括:对所述数据库中待匹配的专利的所有文本内容进行分词以获得词序列;使用所述包含嵌入层的上下文编码器的嵌入层将所述词序列中各个词映射为词向量以获得词向量序列;使用所述包含嵌入层的上下文编码器的基于转换器的bert模型对所述词向量序列进行基于全局掩码结构的全局语义编码以得到多个全局特征向量;将所述多个全局特征向量进行级联以生成所述全文特征向量。
[0042]
在上述知识产权检索系统的检索方法中,将所述待匹配的专利中的关键数据通过所述包含嵌入层的上下文编码器以得到关键字段特征向量,包括:对所述待匹配的专利中的关键数据进行分词以获得关键词序列;使用所述包含嵌入层的上下文编码器的嵌入层将所述关键词序列中各个词映射为词向量以获得关键词向量序列;使用所述包含嵌入层的上下文编码器的基于转换器的bert模型对所述关键词向量序列进行基于全局掩码结构的全局语义编码以得到多个关键特征向量;将所述多个关键特征向量进行级联以生成所述关键
字段特征向量。
[0043]
在上述知识产权检索系统的检索方法中,通过线性变换将所述全文特征向量和所述关键字段特征向量调整为相同长度的特征向量,包括:通过所述线性变换将所述全文特征向量压缩至与所述关键字段特征向量具有相同的长度。
[0044]
在上述知识产权检索系统的检索方法中,计算所述全文特征向量和所述关键字段特征向量之间的密集簇修正因数,包括:以如下公式来计算所述全文特征向量和所述关键字段特征向量之间的所述密集簇修正因数;
[0045]
其中,所述公式为:
[0046][0047]
其中,v1是所述全文特征向量,v2是所述关键字段特征向量,

表示点乘,softmax(
·
)表示特征向量通过分类器得到的概率值,d(
·
,
·
)表示特征向量之间的距离,exp(
·
)表示向量的指数运算,所述向量的指数运算表示计算以向量中各个位置的特征值为幂的自然指数函数值,特征向量除以参数表示以特征向量中各个位置的特征值分别除以参数。
[0048]
在上述知识产权检索系统的检索方法中,计算所述加权后全文特征向量与所述关键字段特征向量之间的关联矩阵作为专利特征表达矩阵,包括:以如下公式计算所述加权后全文特征向量与所述关键字段特征向量之间的所述关联矩阵;
[0049]
其中,所述公式为:
[0050][0051]
其中,m为所述关联矩阵,v1′
为所述加权后全文特征向量,v1′
t
为所述加权后全文特征向量的转置,v2为所述关键字段特征向量。
[0052]
在上述知识产权检索系统的检索方法中,将所述分类特征向量通过分类器以得到分类结果,包括:使用所述分类器以如下公式对所述分类特征向量进行处理以获得所述分类结果,其中,所述公式为:softmax{(wn,bn):

:(w1,b1)|x},其中,w1到wn为权重矩阵,b1到bn为偏置向量,x为所述分类特征向量。
[0053]
与现有技术相比,本技术提供的知识产权检索系统及其检索方法,其通过对数据库中的专利进行半结构化高维语义编码以得到专利的特征表示,其融合了专利文本内容中的全文隐含关联特征以及关键字段的全局性隐含关联特征,继而就可以通过检索式与所述专利的特征表示之间的关联表达来进行分类,在融合这两个特征时,进一步计算全文特征向量与关键字段特征向量之间的数据密集簇修正因数以进行修正,这样可以使得计算得到的关联矩阵通过不同数据密集度的特征向量之间的自适应依赖来提升所述关联矩阵对于分类目标函数的参数自适应性,也就提高了专利特征表达矩阵的分类准确性,进而提高了检索的精准度。
附图说明
[0054]
通过结合附图对本技术实施例进行更详细的描述,本技术的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本技术实施例的进一步理解,并且构成说明书的一部分,与本技术实施例一起用于解释本技术,并不构成对本技术的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
[0055]
图1为根据本技术实施例的知识产权检索系统的框图。
[0056]
图2为根据本技术实施例的知识产权检索系统中专利文本语义编码模块的框图。
[0057]
图3为根据本技术实施例的知识产权检索系统的检索方法的流程图。
[0058]
图4为根据本技术实施例的知识产权检索系统的检索方法的架构示意图。
具体实施方式
[0059]
下面,将参考附图详细地描述根据本技术的示例实施例。显然,所描述的实施例仅仅是本技术的一部分实施例,而不是本技术的全部实施例,应理解,本技术不受这里描述的示例实施例的限制。
[0060]
场景概述
[0061]
如前所述,现代企业间竞争日趋激烈,竞争的手段是多种多样的,其中企业信息化的竞争更是重中之重,尤其是知识产权的竞争。现有的知识产权检索系统基于传统的关键词匹配和分类检索,导致匹配精度不高,客户想要检索到精准匹配的专利需耗费较长时间。因此,期待一种优化的知识产权检索系统。
[0062]
近年来,深度学习以及神经网络已经广泛应用于计算机视觉、自然语言处理、文本信号处理等领域。此外,深度学习以及神经网络在图像分类、物体检测、语义分割、文本翻译等领域,也展现出了接近甚至超越人类的水平。
[0063]
深度学习以及神经网络的发展,为专利的精准检索提供了新的解决思路和方案。
[0064]
相应地,在本技术的技术方案中,对于专利的优化精准检索可以基于数据库中待匹配的专利与用户输入的检索式是否相适配来进行快速判断,这本质上是一个分类的问题,也就是,对数据库中的专利进行半结构化高维语义编码以得到专利的特征表示,继而通过检索式与专利的特征表示之间的关联表达来进行分类。
[0065]
具体地,在本技术的技术方案中,首先,将数据库中待匹配的专利的所有文本内容通过包含嵌入层的上下文编码器中进行全局性的特征编码,以得到具有全局性隐含关联特征信息的全文特征向量。在具体实施例中,首先对所述数据库中待匹配的专利的所有文本内容进行分词处理以获得词序列,以避免后续的特征提取的语义混乱;接着,使用所述包含嵌入层的上下文编码器的嵌入层将所述词序列中各个词映射为词向量,以便于后续对其进行特征挖掘,从而获得词向量序列;然后,使用所述包含嵌入层的上下文编码器的基于转换器的bert模型对所述词向量序列进行基于全局掩码结构的全局语义编码,以得到具有全局性关联特征信息的多个全局特征向量;最后,将所述多个全局特征向量进行级联,以整合所述待匹配专利的文本内容的隐含特征关联信息,从而生成所述全文特征向量。
[0066]
应可以理解,考虑到在专利的检索中,应更加注重于专利中的关键数据,例如专利的标题、分类号、独权和技术背景。因此,在本技术的技术方案中,进一步提取出所述待匹配的专利中的关键数据,所述关键数据包括标题、分类号、独权和技术背景。并且,同样地,将所述待匹配的专利中的关键数据通过所述包含嵌入层的上下文编码器中进行编码处理,以得到具有全局性关键数据关联特征的关键字段特征向量。
[0067]
这样,为了进一步融合所述关键字段特征向量和全文特征向量中的特征信息,进一步将所述全文特征向量和所述关键字段特征向量调整为相同长度的特征向量。相应地,在一个具体示例中,可以通过所述线性变换将所述全文特征向量压缩至与所述关键字段特
征向量具有相同的长度。特别地,在另一个具体示例中,也可以通过将所述关键字段特征向量进行插值以将所述关键字段特征向量扩充至与所述全文特征向量具有相同的长度。然后,进一步再计算所述关键字段特征向量和所述全文特征向量的关联矩阵以融合这两者的特征关联信息分布,从而得到专利特征表达矩阵。
[0068]
但是,在计算关键字段特征向量和全文特征向量的关联矩阵以得到专利特征表达矩阵时,由于要将全文特征向量与关键字段特征向量在长度上对齐,因此全文特征向量的数据密度显著高于关键字段特征向量的数据密度,在这样的情况下,得到的专利特征表达矩阵可能由于数据密度的差异而影响最终的分类准确性。
[0069]
因此,进一步地,计算全文特征向量v1与关键字段特征向量v2之间的数据密集簇修正因数,具体为:
[0070][0071]
其中,v1是所述全文特征向量,v2是所述关键字段特征向量,

表示点乘,softmax(
·
)表示特征向量通过分类器得到的概率值,d(
·
,
·
)表示特征向量之间的距离,exp(
·
)表示向量的指数运算,所述向量的指数运算表示计算以向量中各个位置的特征值为幂的自然指数函数值,特征向量除以参数表示以特征向量中各个位置的特征值分别除以参数。
[0072]
然后,再将全文特征向量v1以该数据密集簇修正因数进行加权后,计算加权后的全文特征向量v1′
与关键字段特征向量v2之间的关联矩阵以得到专利特征表达矩阵。
[0073]
应可以理解,该特征向量之间的数据密集簇修正实质上是通过特征向量之间的自注意力机制,来对不同数据密度的特征向量之间的空间交互信息进行学习。由此,通过以将全文特征向量v1以该数据密集簇修正因数进行加权后,计算加权后的全文特征向量v1′
与关键字段特征向量v2之间的关联矩阵,相当于通过数据相异性的度量来提升不同数据密集度的特征对象实例之间的相似度进行,从而使得计算得到的关联矩阵通过不同数据密集度的特征向量之间的自适应依赖来提升关联矩阵对于分类目标函数的参数自适应性,也就是,提高专利特征表达矩阵的分类准确性。
[0074]
这样,在对专利进行检索时,只需要获取用户输入的检索式,并对所述检索式进行语义编码,以提取出具有全局性语义关联特征信息的检索式特征向量。进一步地,将所述检索式特征向量作为查询特征向量与所述待匹配的专利的专利特征表达矩阵进行矩阵相乘,以将所述检索式特征向量映射到所述待匹配的专利的专利特征表达矩阵的高维特征空间中,从而得到分类特征向量,再将其通过分类器以获得用于表示所述待匹配专利是否与检索式相适配的分类结果。
[0075]
基于此,本技术提出了一种知识产权检索系统,其包括:专利文本语义编码模块,用于将数据库中待匹配的专利的所有文本内容通过包含嵌入层的上下文编码器以得到全文特征向量;关键字段提取模块,用于提取所述待匹配的专利中的关键数据,所述关键数据包括标题、分类号、独权和技术背景;关键字段编码模块,用于将所述待匹配的专利中的关键数据通过所述包含嵌入层的上下文编码器以得到关键字段特征向量;向量长度调整模块,用于通过线性变换将所述全文特征向量和所述关键字段特征向量调整为相同长度的特征向量;密集簇修正因数计算模块,用于计算所述全文特征向量和所述关键字段特征向量之间的密集簇修正因数,其中,所述密集簇修正因数为所述关键字段特征向量通过softmax
分类函数所得到的概率值乘以以所述全文特征向量与所述关键字段特征向量的按位置点乘所得到的特征向量除以两者之间的距离值所得到特征向量再通过所述softmax分类函数所得到的概率值;加权修正模块,用于以所述密集簇修正因数作为权重对所述全文特征向量进行加权以得到加权后全文特征向量;关联编码模块,用于计算所述加权后全文特征向量与所述关键字段特征向量之间的关联矩阵作为专利特征表达矩阵;检索式获取模块,用于获取用户输入的检索式;检索式编码模块,用于对所述检索式进行语义编码以得到检索式特征向量;分类特征向量生成模块,用于将所述检索式特征向量作为查询特征向量与所述待匹配的专利的专利特征表达矩阵进行矩阵相乘以得到分类特征向量;以及,匹配结果生成模块,用于将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示所述待匹配专利是否与检索式相适配。
[0076]
在介绍了本技术的基本原理之后,下面将参考附图来具体介绍本技术的各种非限制性实施例。
[0077]
示例性系统
[0078]
图1图示了根据本技术实施例的知识产权检索系统的框图。如图1所示,根据本技术实施例的知识产权检索系统200,包括:专利文本语义编码模块210,用于将数据库中待匹配的专利的所有文本内容通过包含嵌入层的上下文编码器以得到全文特征向量;关键字段提取模块220,用于提取所述待匹配的专利中的关键数据,所述关键数据包括标题、分类号、独权和技术背景;关键字段编码模块230,用于将所述待匹配的专利中的关键数据通过所述包含嵌入层的上下文编码器以得到关键字段特征向量;向量长度调整模块240,用于通过线性变换将所述全文特征向量和所述关键字段特征向量调整为相同长度的特征向量;密集簇修正因数计算模块250,用于计算所述全文特征向量和所述关键字段特征向量之间的密集簇修正因数,其中,所述密集簇修正因数为所述关键字段特征向量通过softmax分类函数所得到的概率值乘以以所述全文特征向量与所述关键字段特征向量的按位置点乘所得到的特征向量除以两者之间的距离值所得到特征向量再通过所述softmax分类函数所得到的概率值;加权修正模块260,用于以所述密集簇修正因数作为权重对所述全文特征向量进行加权以得到加权后全文特征向量;关联编码模块270,用于计算所述加权后全文特征向量与所述关键字段特征向量之间的关联矩阵作为专利特征表达矩阵;检索式获取模块280,用于获取用户输入的检索式;检索式编码模块290,用于对所述检索式进行语义编码以得到检索式特征向量;分类特征向量生成模块300,用于将所述检索式特征向量作为查询特征向量与所述待匹配的专利的专利特征表达矩阵进行矩阵相乘以得到分类特征向量;以及,匹配结果生成模块310,用于将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示所述待匹配专利是否与检索式相适配。
[0079]
具体地,在本技术实施例中,所述专利文本语义编码模块210,用于将数据库中待匹配的专利的所有文本内容通过包含嵌入层的上下文编码器以得到全文特征向量。如前所述,应可以理解,在本技术的技术方案中,对于专利的优化精准检索可以基于数据库中待匹配的专利与用户输入的检索式是否相适配来进行快速判断,这本质上是一个分类的问题,也就是,对数据库中的专利进行半结构化高维语义编码以得到专利的特征表示,继而通过检索式与专利的特征表示之间的关联表达来进行分类。
[0080]
具体地,在本技术的技术方案中,首先,将数据库中待匹配的专利的所有文本内容
通过包含嵌入层的上下文编码器中进行全局性的特征编码,以得到具有全局性隐含关联特征信息的全文特征向量。具体地,在本技术实施例中,首先对所述数据库中待匹配的专利的所有文本内容进行分词处理以获得词序列,以避免后续的特征提取的语义混乱;接着,使用所述包含嵌入层的上下文编码器的嵌入层将所述词序列中各个词映射为词向量,以便于后续对其进行特征挖掘,从而获得词向量序列;然后,使用所述包含嵌入层的上下文编码器的基于转换器的bert模型对所述词向量序列进行基于全局掩码结构的全局语义编码,以得到具有全局性关联特征信息的多个全局特征向量;最后,将所述多个全局特征向量进行级联,以整合所述待匹配专利的文本内容的隐含特征关联信息,从而生成所述全文特征向量。
[0081]
图2图示了根据本技术实施例的知识产权检索系统中专利文本语义编码模块的框图。如图2所示,所述专利文本语义编码模块210,包括:第一分词单元211,用于对所述数据库中待匹配的专利的所有文本内容进行分词以获得词序列;第一词嵌入单元212,用于使用所述包含嵌入层的上下文编码器的嵌入层将所述词序列中各个词映射为词向量以获得词向量序列;第一上下文语义编码单元213,用于使用所述包含嵌入层的上下文编码器的基于转换器的bert模型对所述词向量序列进行基于全局掩码结构的全局语义编码以得到多个全局特征向量;第一级联单元214,用于将所述多个全局特征向量进行级联以生成所述全文特征向量。
[0082]
具体地,在本技术实施例中,所述关键字段提取模块220和所述关键字段编码模块230,用于提取所述待匹配的专利中的关键数据,所述关键数据包括标题、分类号、独权和技术背景,并将所述待匹配的专利中的关键数据通过所述包含嵌入层的上下文编码器以得到关键字段特征向量。应可以理解,考虑到在专利的检索中,应更加注重于专利中的关键数据,例如专利的标题、分类号、独权和技术背景。因此,在本技术的技术方案中,进一步提取出所述待匹配的专利中的关键数据,所述关键数据包括标题、分类号、独权和技术背景。并且,同样地,将所述待匹配的专利中的关键数据通过所述包含嵌入层的上下文编码器中进行编码处理,以得到具有全局性关键数据关联特征的关键字段特征向量。
[0083]
更具体地,在本技术实施例中,所述关键字段编码模块,包括:第二分词单元,用于对所述待匹配的专利中的关键数据进行分词以获得关键词序列;第二词嵌入单元,用于使用所述包含嵌入层的上下文编码器的嵌入层将所述关键词序列中各个词映射为词向量以获得关键词向量序列;第二上下文语义编码单元,用于使用所述包含嵌入层的上下文编码器的基于转换器的bert模型对所述关键词向量序列进行基于全局掩码结构的全局语义编码以得到多个关键特征向量;第二级联单元,用于将所述多个关键特征向量进行级联以生成所述关键字段特征向量。
[0084]
具体地,在本技术实施例中,所述向量长度调整模块240和所述密集簇修正因数计算模块250,用于通过线性变换将所述全文特征向量和所述关键字段特征向量调整为相同长度的特征向量,并计算所述全文特征向量和所述关键字段特征向量之间的密集簇修正因数,其中,所述密集簇修正因数为所述关键字段特征向量通过softmax分类函数所得到的概率值乘以以所述全文特征向量与所述关键字段特征向量的按位置点乘所得到的特征向量除以两者之间的距离值所得到特征向量再通过所述softmax分类函数所得到的概率值。应可以理解,为了融合所述关键字段特征向量和全文特征向量中的特征信息,进一步将所述全文特征向量和所述关键字段特征向量调整为相同长度的特征向量。相应地,在一个具体
示例中,可以通过所述线性变换将所述全文特征向量压缩至与所述关键字段特征向量具有相同的长度。特别地,在另一个具体示例中,也可以通过将所述关键字段特征向量进行插值以将所述关键字段特征向量扩充至与所述全文特征向量具有相同的长度。
[0085]
并且,考虑到在计算所述关键字段特征向量和所述全文特征向量的关联矩阵以得到专利特征表达矩阵时,由于要将所述全文特征向量与关键字段特征向量在长度上对齐,因此所述全文特征向量的数据密度显著高于所述关键字段特征向量的数据密度,在这样的情况下,得到的所述专利特征表达矩阵可能由于数据密度的差异而影响最终的分类准确性。因此,在本技术的技术方案中,进一步地,计算所述全文特征向量v1与所述关键字段特征向量v2之间的数据密集簇修正因数。
[0086]
更具体地,在本技术实施例中,所述密集簇修正因数计算模块,进一步用于:以如下公式来计算所述全文特征向量和所述关键字段特征向量之间的所述密集簇修正因数;
[0087]
其中,所述公式为:
[0088][0089]
其中,v1是所述全文特征向量,v2是所述关键字段特征向量,

表示点乘,softmax(
·
)表示特征向量通过分类器得到的概率值,d(
·
,
·
)表示特征向量之间的距离,exp(
·
)表示向量的指数运算,所述向量的指数运算表示计算以向量中各个位置的特征值为幂的自然指数函数值,特征向量除以参数表示以特征向量中各个位置的特征值分别除以参数。
[0090]
具体地,在本技术实施例中,所述加权修正模块260和所述关联编码模块270,用于以所述密集簇修正因数作为权重对所述全文特征向量进行加权以得到加权后全文特征向量,并计算所述加权后全文特征向量与所述关键字段特征向量之间的关联矩阵作为专利特征表达矩阵。也就是,在本技术的技术方案中,进一步再将所述全文特征向量v1以该所述数据密集簇修正因数进行加权后,计算加权后的所述全文特征向量v1′
与所述关键字段特征向量v2之间的关联矩阵以得到专利特征表达矩阵。应可以理解,该所述特征向量之间的数据密集簇修正实质上是通过特征向量之间的自注意力机制,来对不同数据密度的特征向量之间的空间交互信息进行学习。由此,通过以将所述全文特征向量v1以该所述数据密集簇修正因数进行加权后,计算加权后的所述全文特征向量v1′
与所述关键字段特征向量v2之间的关联矩阵,相当于通过数据相异性的度量来提升不同数据密集度的特征对象实例之间的相似度进行,从而使得计算得到的所述关联矩阵通过不同数据密集度的特征向量之间的自适应依赖来提升所述关联矩阵对于分类目标函数的参数自适应性,也就是,提高专利特征表达矩阵的分类准确性。
[0091]
更具体地,在本技术实施例中,所述关联编码模块,用于以如下公式计算所述加权后全文特征向量与所述关键字段特征向量之间的所述关联矩阵;
[0092]
其中,所述公式为:
[0093][0094]
其中,m为所述关联矩阵,v1′
为所述加权后全文特征向量,v1′
t
为所述加权后全文特征向量的转置,v2为所述关键字段特征向量。
[0095]
具体地,在本技术实施例中,所述检索式获取模块280和所述检索式编码模块290,用于获取用户输入的检索式,并对所述检索式进行语义编码以得到检索式特征向量。也就
是,在本技术的技术方案中,在得到所述专利特征表达矩阵后,在对专利进行检索时,只需要获取用户输入的检索式,并对所述检索式进行语义编码,以提取出具有全局性语义关联特征信息的检索式特征向量。在一个具体示例中,在对所述检索式进行语义编码时可以使用上下文编码器,也可以使用双向lstm模型来进行,对此并不为本技术所局限。
[0096]
具体地,在本技术实施例中,所述分类特征向量生成模块300和所述匹配结果生成模块310,用于将所述检索式特征向量作为查询特征向量与所述待匹配的专利的专利特征表达矩阵进行矩阵相乘以得到分类特征向量,并将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示所述待匹配专利是否与检索式相适配。也就是,在本技术的技术方案中,进一步地,将所述检索式特征向量作为查询特征向量与所述待匹配的专利的专利特征表达矩阵进行矩阵相乘,以将所述检索式特征向量映射到所述待匹配的专利的专利特征表达矩阵的高维特征空间中,从而得到分类特征向量,再将其通过分类器以获得用于表示所述待匹配专利是否与检索式相适配的分类结果。在一个具体示例中,使用所述分类器以如下公式对所述分类特征向量进行处理以获得所述分类结果,其中,所述公式为:softmax{(wn,bn):

:(w1,b1)|x},其中,w1到wn为权重矩阵,b1到bn为偏置向量,x为所述分类特征向量。
[0097]
综上,基于本技术实施例的所述知识产权检索系统200被阐明,其通过对数据库中的专利进行半结构化高维语义编码以得到专利的特征表示,其融合了专利文本内容中的全文隐含关联特征以及关键字段的全局性隐含关联特征,继而就可以通过检索式与所述专利的特征表示之间的关联表达来进行分类,在融合这两个特征时,进一步计算全文特征向量与关键字段特征向量之间的数据密集簇修正因数以进行修正,这样可以使得计算得到的关联矩阵通过不同数据密集度的特征向量之间的自适应依赖来提升所述关联矩阵对于分类目标函数的参数自适应性,也就提高了专利特征表达矩阵的分类准确性,进而提高了检索的精准度。
[0098]
如上所述,根据本技术实施例的知识产权检索系统200可以实现在各种终端设备中,例如知识产权检索算法的服务器等。在一个示例中,根据本技术实施例的知识产权检索系统200可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如,该知识产权检索系统200可以是该终端设备的操作系统中的一个软件模块,或者可以是针对于该终端设备所开发的一个应用程序;当然,该知识产权检索系统200同样可以是该终端设备的众多硬件模块之一。
[0099]
替换地,在另一示例中,该知识产权检索系统200与该终端设备也可以是分立的设备,并且该知识产权检索系统200可以通过有线和/或无线网络连接到该终端设备,并且按照约定的数据格式来传输交互信息。
[0100]
示例性方法
[0101]
图3图示了知识产权检索系统的检索方法的流程图。如图3所示,根据本技术实施例的知识产权检索系统的检索方法,包括步骤:s110,将数据库中待匹配的专利的所有文本内容通过包含嵌入层的上下文编码器以得到全文特征向量;s120,提取所述待匹配的专利中的关键数据,所述关键数据包括标题、分类号、独权和技术背景;s130,将所述待匹配的专利中的关键数据通过所述包含嵌入层的上下文编码器以得到关键字段特征向量;s140,通过线性变换将所述全文特征向量和所述关键字段特征向量调整为相同长度的特征向量;
s150,计算所述全文特征向量和所述关键字段特征向量之间的密集簇修正因数,其中,所述密集簇修正因数为所述关键字段特征向量通过softmax分类函数所得到的概率值乘以以所述全文特征向量与所述关键字段特征向量的按位置点乘所得到的特征向量除以两者之间的距离值所得到特征向量再通过所述softmax分类函数所得到的概率值;s160,以所述密集簇修正因数作为权重对所述全文特征向量进行加权以得到加权后全文特征向量;s170,计算所述加权后全文特征向量与所述关键字段特征向量之间的关联矩阵作为专利特征表达矩阵;s180,获取用户输入的检索式;s190,对所述检索式进行语义编码以得到检索式特征向量;s200,将所述检索式特征向量作为查询特征向量与所述待匹配的专利的专利特征表达矩阵进行矩阵相乘以得到分类特征向量;以及,s210,将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示所述待匹配专利是否与检索式相适配。
[0102]
图4图示了根据本技术实施例的知识产权检索系统的检索方法的架构示意图。如图4所示,在所述知识产权检索系统的检索方法的网络架构中,首先,将获得的数据库中待匹配的专利的所有文本内容(例如,如图4中所示意的p1)通过包含嵌入层的上下文编码器(例如,如图4中所示意的e1)以得到全文特征向量(例如,如图4中所示意的vf1);接着,将提取的所述待匹配的专利中的关键数据(例如,如图4中所示意的p2)通过所述包含嵌入层的上下文编码器(例如,如图4中所示意的e1)以得到关键字段特征向量(例如,如图4中所示意的vf2);然后,通过线性变换将所述全文特征向量和所述关键字段特征向量调整为相同长度的特征向量;接着,计算所述全文特征向量和所述关键字段特征向量之间的密集簇修正因数(例如,如图4中所示意的cf);然后,以所述密集簇修正因数作为权重对所述全文特征向量进行加权以得到加权后全文特征向量(例如,如图4中所示意的vf3);接着,计算所述加权后全文特征向量与所述关键字段特征向量之间的关联矩阵作为专利特征表达矩阵(例如,如图4中所示意的m);然后,对获得的所述检索式(例如,如图4中所示意的q)进行语义编码以得到检索式特征向量(例如,如图4中所示意的vf);接着,将所述检索式特征向量作为查询特征向量与所述待匹配的专利的专利特征表达矩阵进行矩阵相乘以得到分类特征向量(例如,如图4中所示意的v);以及,最后,将所述分类特征向量通过分类器(例如,如图4中所示意的圈s)以得到分类结果,所述分类结果用于表示所述待匹配专利是否与检索式相适配。
[0103]
更具体地,在步骤s110中,将数据库中待匹配的专利的所有文本内容通过包含嵌入层的上下文编码器以得到全文特征向量。应可以理解,在本技术的技术方案中,对于专利的优化精准检索可以基于数据库中待匹配的专利与用户输入的检索式是否相适配来进行快速判断,这本质上是一个分类的问题,也就是,对数据库中的专利进行半结构化高维语义编码以得到专利的特征表示,继而通过检索式与专利的特征表示之间的关联表达来进行分类。
[0104]
具体地,在本技术的技术方案中,首先,将数据库中待匹配的专利的所有文本内容通过包含嵌入层的上下文编码器中进行全局性的特征编码,以得到具有全局性隐含关联特征信息的全文特征向量。具体地,在本技术实施例中,首先对所述数据库中待匹配的专利的所有文本内容进行分词处理以获得词序列,以避免后续的特征提取的语义混乱;接着,使用所述包含嵌入层的上下文编码器的嵌入层将所述词序列中各个词映射为词向量,以便于后续对其进行特征挖掘,从而获得词向量序列;然后,使用所述包含嵌入层的上下文编码器的
基于转换器的bert模型对所述词向量序列进行基于全局掩码结构的全局语义编码,以得到具有全局性关联特征信息的多个全局特征向量;最后,将所述多个全局特征向量进行级联,以整合所述待匹配专利的文本内容的隐含特征关联信息,从而生成所述全文特征向量。
[0105]
更具体地,在步骤s120和步骤s130中,提取所述待匹配的专利中的关键数据,所述关键数据包括标题、分类号、独权和技术背景,并将所述待匹配的专利中的关键数据通过所述包含嵌入层的上下文编码器以得到关键字段特征向量。应可以理解,考虑到在专利的检索中,应更加注重于专利中的关键数据,例如专利的标题、分类号、独权和技术背景。因此,在本技术的技术方案中,进一步提取出所述待匹配的专利中的关键数据,所述关键数据包括标题、分类号、独权和技术背景。并且,同样地,将所述待匹配的专利中的关键数据通过所述包含嵌入层的上下文编码器中进行编码处理,以得到具有全局性关键数据关联特征的关键字段特征向量。
[0106]
更具体地,在步骤s140和步骤s150中,通过线性变换将所述全文特征向量和所述关键字段特征向量调整为相同长度的特征向量,并计算所述全文特征向量和所述关键字段特征向量之间的密集簇修正因数,其中,所述密集簇修正因数为所述关键字段特征向量通过softmax分类函数所得到的概率值乘以以所述全文特征向量与所述关键字段特征向量的按位置点乘所得到的特征向量除以两者之间的距离值所得到特征向量再通过所述softmax分类函数所得到的概率值。应可以理解,为了融合所述关键字段特征向量和全文特征向量中的特征信息,进一步将所述全文特征向量和所述关键字段特征向量调整为相同长度的特征向量。相应地,在一个具体示例中,可以通过所述线性变换将所述全文特征向量压缩至与所述关键字段特征向量具有相同的长度。特别地,在另一个具体示例中,也可以通过将所述关键字段特征向量进行插值以将所述关键字段特征向量扩充至与所述全文特征向量具有相同的长度。
[0107]
并且,考虑到在计算所述关键字段特征向量和所述全文特征向量的关联矩阵以得到专利特征表达矩阵时,由于要将所述全文特征向量与关键字段特征向量在长度上对齐,因此所述全文特征向量的数据密度显著高于所述关键字段特征向量的数据密度,在这样的情况下,得到的所述专利特征表达矩阵可能由于数据密度的差异而影响最终的分类准确性。因此,在本技术的技术方案中,进一步地,计算所述全文特征向量v1与所述关键字段特征向量v2之间的数据密集簇修正因数。
[0108]
更具体地,在步骤s160和步骤s170中,以所述密集簇修正因数作为权重对所述全文特征向量进行加权以得到加权后全文特征向量,并计算所述加权后全文特征向量与所述关键字段特征向量之间的关联矩阵作为专利特征表达矩阵。也就是,在本技术的技术方案中,进一步再将所述全文特征向量v1以该所述数据密集簇修正因数进行加权后,计算加权后的所述全文特征向量v1′
与所述关键字段特征向量v2之间的关联矩阵以得到专利特征表达矩阵。应可以理解,该所述特征向量之间的数据密集簇修正实质上是通过特征向量之间的自注意力机制,来对不同数据密度的特征向量之间的空间交互信息进行学习。由此,通过以将所述全文特征向量v1以该所述数据密集簇修正因数进行加权后,计算加权后的所述全文特征向量v1′
与所述关键字段特征向量v2之间的关联矩阵,相当于通过数据相异性的度量来提升不同数据密集度的特征对象实例之间的相似度进行,从而使得计算得到的所述关联矩阵通过不同数据密集度的特征向量之间的自适应依赖来提升所述关联矩阵对于分类目
标函数的参数自适应性,也就是,提高专利特征表达矩阵的分类准确性。
[0109]
更具体地,在步骤s180和步骤s190中,获取用户输入的检索式,并对所述检索式进行语义编码以得到检索式特征向量。也就是,在本技术的技术方案中,在得到所述专利特征表达矩阵后,在对专利进行检索时,只需要获取用户输入的检索式,并对所述检索式进行语义编码,以提取出具有全局性语义关联特征信息的检索式特征向量。在一个具体示例中,在对所述检索式进行语义编码时可以使用上下文编码器,也可以使用双向lstm模型来进行,对此并不为本技术所局限。
[0110]
更具体地,在步骤s200和步骤s210中,将所述检索式特征向量作为查询特征向量与所述待匹配的专利的专利特征表达矩阵进行矩阵相乘以得到分类特征向量,并将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示所述待匹配专利是否与检索式相适配。也就是,在本技术的技术方案中,进一步地,将所述检索式特征向量作为查询特征向量与所述待匹配的专利的专利特征表达矩阵进行矩阵相乘,以将所述检索式特征向量映射到所述待匹配的专利的专利特征表达矩阵的高维特征空间中,从而得到分类特征向量,再将其通过分类器以获得用于表示所述待匹配专利是否与检索式相适配的分类结果。在一个具体示例中,使用所述分类器以如下公式对所述分类特征向量进行处理以获得所述分类结果,其中,所述公式为:softmax{(wn,bn):

:(w1,b1)|x},其中,w1到wn为权重矩阵,b1到bn为偏置向量,x为所述分类特征向量。
[0111]
综上,基于本技术实施例的所述知识产权检索系统的检索方法被阐明,其通过对数据库中的专利进行半结构化高维语义编码以得到专利的特征表示,其融合了专利文本内容中的全文隐含关联特征以及关键字段的全局性隐含关联特征,继而就可以通过检索式与所述专利的特征表示之间的关联表达来进行分类,在融合这两个特征时,进一步计算全文特征向量与关键字段特征向量之间的数据密集簇修正因数以进行修正,这样可以使得计算得到的关联矩阵通过不同数据密集度的特征向量之间的自适应依赖来提升所述关联矩阵对于分类目标函数的参数自适应性,也就提高了专利特征表达矩阵的分类准确性,进而提高了检索的精准度。
[0112]
以上结合具体实施例描述了本技术的基本原理,但是,需要指出的是,在本技术中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本技术的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本技术为必须采用上述具体的细节来实现。
[0113]
本技术中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
[0114]
还需要指出的是,在本技术的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本技术的等效方案。
[0115]
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本技术。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义
的一般原理可以应用于其他方面而不脱离本技术的范围。因此,本技术不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
[0116]
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本技术的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1