一种查询相似企业的快速检索方法与系统与流程

文档序号:36229961发布日期:2023-11-30 20:22阅读:63来源:国知局
一种查询相似企业的快速检索方法与系统与流程

本技术涉及企业查询的,具体涉及一种查询相似企业的快速检索方法与系统。


背景技术:

1、随着企业数量的增加,并且每个企业的主营业务存在差异;在挖掘相似企业的过程中,需要考虑到企业主营业务表征的准确性以及各个主营业务表征之间相似度存在的庞大计算。因此,如何通过快速有效的相似企业检索方式构建企业同行画像,对于挖掘相似企业起到关键作用。

2、目前,在信息检索过程中,常用的检索方式为es检索(elasticsearch,弹性检索)。其通过将待检索的内容进行分词,得到多个特征词;然后将分词后的多个特征词与企业数据库进行相似度计算,以此召回与待检索内容相关的文档。

3、然而,上述检索方式仅考虑了分词字面上的相似度,从而导致召回文档相关性不够高。


技术实现思路

1、针对目前常用的检索方式仅考虑了分词字面上的相似度,从而导致召回文档相关性不够高的问题,本技术提供了一种查询相似企业的快速检索方法与系统。

2、第一方面,本技术提供一种查询相似企业的快速检索方法,应用于服务器,方法包括:获取用户输入的目标企业的主营业务;将主营业务与预设向量表征数据库进行匹配,得到第一表征向量,第一表征向量包括第一企业聚类号,第一企业聚类号表示目标企业的主营业务类型的向量编号,预设向量表征数据库包括主营业务与其对应的表征向量的对应关系;将第一企业聚类号与预设企业聚类库进行匹配,得到第一企业聚类号对应的聚类簇,预设企业聚类库中包括聚类号与聚类簇之间的对应关系,第一企业聚类号对应的聚类簇包括与目标企业的主营业务类型相同的多个企业的主营业务文档;基于第一企业聚类号对应的聚类簇,得到与目标企业的主营业务类型相同的多个企业。

3、通过采用上述技术方案,将目标企业的主营业务与预设向量表征数据库进行匹配,从而得到表征能力较高的第一表征向量;以此解决主营业务的向量表征能力低的问题,再通过第一表征向量中的第一企业聚类号,从预设企业聚类库中匹配出第一企业聚类号对应的聚类簇,此时无需再将目标企业的主营业务与企业数据库进行遍历匹配,仅通过聚类簇对应的聚类号即可得到与目标企业的主营业务相似度较高的其它企业,从而提高了检索的效率。

4、第二方面,本技术提供一种查询相似企业的快速检索系统,系统为服务器,服务器包括获取模块与处理模块,其中:

5、获取模块,用于获取用户输入的目标企业的主营业务;

6、处理模块,用于将主营业务与预设向量表征数据库进行匹配,得到第一表征向量,第一表征向量包括第一企业聚类号,第一企业聚类号表示目标企业的主营业务类型的向量编号,预设向量表征库包括主营业务与其对应的表征向量的对应关系;将第一企业聚类号与预设企业聚类库进行匹配,得到第一企业聚类号对应的聚类簇,预设企业聚类库中包括聚类号与聚类簇之间的对应关系,第一企业聚类号对应的聚类簇包括与目标企业的主营业务类型相同的多个企业的主营业务文档;基于第一企业聚类号对应的聚类簇,得到与目标企业的主营业务类型相同的多个企业。

7、可选的,在将所述主营业务与预设向量表征数据库进行匹配,得到第一表征向量之前,包括:

8、获取模块获取多个企业的简介文本;采用预设规则筛选模型,提取多个简介文本中的主营业务,所述预设规则筛选模型定义有多个信息筛选规则,其中,一个简介文本对应一个主营业务,一个所述主营业务包括多个主营词;

9、处理模块将第一主营业务输入预设多个预训练模型中,得到多个第一文本向量,所述第一主营业务为多个所述主营业务中任意一个;将多个所述第一文本向量各自进行第一次池化处理,生成多个第二文本向量;将多个所述第二文本向量进行第二次池化处理,得到第三文本向量;将所述第三文本向量作为所述第一主营业务对应的表征向量存储至所述预设向量表征数据库中。

10、通过采用上述技术方案,通过将企业的主营业务进行第一次池化处理,将主营业务包含的多个主营词的向量融合为一个综合向量,从而减少了数据运算量;再将综合向量输入至多个预训练模型中,然后对输出结果进行第二次池化,从而减轻第一池化处理导致的主营业务的向量表征精度下降程度,并且融合了多个预训练模型的较好表征能力,对于主营业务的向量表征有较大的提升。

11、可选的,在将所述主营业务与预设向量表征数据库进行匹配,得到第一表征向量之前,还包括:获取模块从预设词向量模型库中调取多个词向量模型;将多个所述企业的主营业务构建为训练样本库;处理模块将所述训练样本库中的数据输入至多个所述词向量模型,得到多个训练文本向量;基于所述多个训练文本向量,采用向量空间分布评估函数计算多个所述词向量模型各自对应的评估值;将所述多个所述词向量模型各自对应的评估值按照从大到小进行排序,生成排序表;将所述排序表中排名大于或等于预设排名的多个词向量模型作为预训练模型。

12、通过采用上述技术方案,由于不同的预训练模型的表征能力不同,而重新训练一个表征能力较好的词向量模型需要大量的时间。此时,通过直接调用多个训练好的词向量模型作为预训练模型,然后将存储有主营业务的训练样本库输入至多个词向量模型中,对多个词向量模型进行表征能力评估,根据多个词向量模型的评估值选取表征能力较好的几个词向量模型作为预训练模型。由此,不再需要花费大量时间训练模型,并且得到了表征能力较好的多个预训练模型。

13、可选的,基于多个训练文本向量,采用向量空间分布评估函数计算多个词向量模型各自对应的评估值,具体为:

14、

15、其中,t为评估值,wxi为第x类主营业务的第i个主营词对应的训练文本向量,wyj为第y类主营业务的第i个主营词对应的训练文本向量,n为主营业务类别的数量,m为第n个主营业务类别中主营词的数量,分子用于表示同一主营业务的多个主营词之间的相似度的平均相似度,分母用于表示不同主营业务各自对应的多个主营词之间的平均相似度值。

16、通过采用上述技术方案,基于上述词向量模型的评估值的计算公式,从而评估词向量模型对同一主营业务的多个主营词是否具备能够进行关联以及词向量模型对不同主营业务各自对应的多个主营词是否能够进行区分,基于评估值从而确定词向量模型是否满足预训练模型的表征要求。

17、可选的,处理模块遍历多个词向量模型的词向量维度;若第一词向量维度小于或等于第二词向量维度,则确定第一词向量维度为标准向量维度,第一词向量维度与第二词向量维度为多个词向量维度中任意两个词向量维度;将多个词向量模型各自对应的词向量维度分别压缩至标准向量维度。

18、通过采用上述技术方案,将多个词向量模型的词向量维度压缩至统一的向量维度,使多个词向量模型输出的词向量在向量空间中对齐,以实现多个词向量模型输出结果能够进行融合。

19、可选的,在将第一企业聚类号与预设企业聚类库进行匹配,得到第一企业聚类号对应的聚类簇之前,还包括:获取模块基于主营业务分类树,确定预设企业聚类库的多个企业聚类号;处理模块基于多个企业聚类号,将预设向量表征数据库中的多个主营业务的表征向量进行聚类,得到多个聚类簇,其中,一个企业聚类号对应一个聚类簇;将多个企业聚类号与多个企业聚类号各自对应的聚类簇构建为对应关系,存储至预设企业聚类库中。

20、通过采用上述技术方案,由于主营业务的数量繁多,聚类簇将庞大的主营业务数据进行分类汇总,将相似程度较高的主营业务数据汇聚至同一聚类簇,将相似程度较低的主营业务数据划分至不同的聚类簇,最后以一个企业聚类号表示一个聚类簇,以此减少数据匹配时的数据处理量,从而提升了数据匹配的效率。

21、可选的,获取模块获取第二主营业务的表征向量与多个企业聚类号的中心向量,第二主营业务为预设向量表征数据库中多个主营业务的任意一个;当第二主营业务的表征向量与第二企业聚类号的中心向量的余弦距离值大于或等于预设阈值,则处理模块将第二主营业务的表征向量与第二企业聚类号构建为对应关系,第二企业聚类号为多个企业聚类号中任意一个。

22、通过采用上述技术方案,根据第二主营业务的表征向量与多个企业聚类号的中心向量的余弦距离值,从而确定第二主营业务与哪一个企业聚类号对应的聚类簇最为相似,提升了相同类型主营业务之间的关联性,并对不同类型主营业务巨难写区分,使得目标企业的主营业务对应的召回结果具有高的相关性。

23、第三方面,本技术提供一种电子设备,包括处理器、存储器、用户接口及网络接口,所述存储器用于存储指令,所述用户接口和网络接口用于给其他设备通信,所述处理器用于执行所述存储器中存储的指令,以使所述电子设备执行如第一方面中任意一项所述的方法。

24、第四方面,本技术提供一种计算机可读存储介质,所述计算机可读存储介质存储有指令,当所述指令被执行时,执行如第一方面中任意一项所述的方法。

25、综上所述,本技术实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:

26、1、将目标企业的主营业务与预设向量表征数据库进行匹配,从而得到表征能力较高的第一表征向量;以此解决主营业务的向量表征能力低的问题,再通过第一表征向量中的第一企业聚类号,从预设企业聚类库中匹配出第一企业聚类号对应的聚类簇,此时无需再将目标企业的主营业务与企业数据库进行遍历匹配,仅通过聚类簇对应的聚类号即可得到与目标企业的主营业务相似度较高的其它企业的主营业务文档,从而提高了检索的效率。

27、2、由于不同的预训练模型的表征能力不同,而重新训练一个表征能力较好的词向量模型需要大量的时间。此时,通过直接调用多个训练好的词向量模型作为预训练模型,然后将存储有主营业务的训练样本库输入至多个词向量模型中,对多个词向量模型进行表征能力评估,根据多个词向量模型的评估值选取表征能力较好的几个词向量模型作为预训练模型。由此,不再需要花费大量时间训练模型,并且得到了表征能力较好的多个预训练模型

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1