一种基于技能向量和图神经网络的企业推荐方法和系统与流程

文档序号：36827950发布日期：2024-01-26 16:40阅读：17来源：国知局

本技术涉及计算机，具体而言，涉及一种基于技能向量和图神经网络的企业推荐方法。

背景技术：

1、随着科技发展的加速，技术竞争越来越激烈，企业在面对日益激烈的技术竞争时，需要及时了解自身的技术能力和市场需求，以制定有效的技术规划和投资决策。因此，需要一种基于技能向量和图神经网络的企业推荐的方法和系统。

2、传统的科技竞争力预测方法大多基于经验判断或统计模型，存在精度低、模型不稳定等问题。本技术提出的科技竞争力预测方法及系统，通过利用自然语言处理、深度学习等技术，将企业的人才流动数据、软件著作杈数据、招聘需求数据等多维数据进行分析和挖掘，从而预测企业的技术竞争力以及未来技术趋势，提高预测的准确性和稳定性。

3、具体而言，本技术提出了一种基于多模型集成的科技竞争力预测方法，包括特征矩阵构建、lstm模型预测现状间的关联、cnn模型预测技术前沿之间的关联、gcn模型学习企业之间的技术关联、transformer模型学习技术需求的长期演变、arima模型建模技能需求总体趋势等步骤。通过对这些模型的加杈平均进行模型集成，以提高预测精度和鲁棒性。

4、本技术的基于技能向量和图神经网络的企业推荐的方法和系统，可以为企业的科技创新提供参考，找到合适的合作伙伴或竞争对手，并及时调整技术创新方向，以提高企业的核心竞争力。

技术实现思路

1、本技术的实施例提供了一种基于技能向量和图神经网络的企业推荐方法和系统，进而至少在一定程度上可以避免技术失速、市场萎缩等问题。

2、本技术的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本技术的实践而习得。

3、根据本技术实施例的一个方面，提供了一种基于技能向量和图神经网络的企业推荐方法，包括：

4、s110：收集机器学习行业数据和机器学习行业特定企业数据，进行数据处理和异常值检测，标准化和归一化；

5、在本技术的一些实施例中，基于前述方案，包括：收集原始数据：招聘网站机器学习行业人才流动情况数据d0，招聘网站机器学习职位数据d1，代表机器学习现有技术；收集机器学习行业arxiv预印本论文标题和摘要、顶会论文标题和摘要d2，代表机器学习行业前沿技术；

6、收集机器学习行业特定企业的软件著作杈和专利d3，机器学习行业特定企业的人工智能岗位招聘需求d4，机器学习行业特定企业的网站内容d5，特定企业近5年的业绩数据d6。

7、s120：通过文本向量化构建反映行业技能现状的特征矩阵a、反映前沿技术趋势的特征矩阵b和反映企业技术能力的特征矩阵c；

8、按照6∶2∶1∶1的比例将原始数据划分为训练集、验证集、测试集1和测试集2，并将测试集2作为一个额外的数据源，用于增强训练模型；

9、对d0-d6中的重复记录进行删除或合并，避免数据冗余或不一致；

10、对d0-d6中的缺失值进行填补，使用插值法或其他合适的方法，保证数据完整性；

11、对d0-d6中的异常值进行检测和删除，使用正态分布法或其他合适的方法，保证数据质量；

12、对d0-d6中的数值型数据进行标准化或归一化，使用standardscaler或minmaxscaler方法，保证数据可比性；

13、对d1中的招聘网站机器学习职位数据进行文本向量化，使用bert或word2vec方法，构建反映行业技能现状的特征矩阵a；

14、对d2中的最新论文标题和摘要进行文本向量化，使用bert或word2vec方法，构建反映前沿技术趋势的特征矩阵b；

15、对d3、d4和d5中的企业软件著作杈数据与招聘需求文本进行融合，使用bert或word2vec方法，构建反映企业技术能力的特征矩阵c；

16、使用gpt-3等方法对a、b、c进行数据增强，扩充特征矩阵的规模；得到了反映行业技能现状、前沿技术趋势和特定企业技术能力的三个特征矩阵a、b、c。

17、具体地，使用pandas模块中的drop_duplicates函数来删除或合并重复的记录，使用pandas模块中的interpolate函数来使用插值法填补缺失值，使用scipy模块中的stats子模块中的zscore函数来实现正态分布法检测异常值，检测到异常值后将其删除；使用sklearn模块中的preprocessing子模块中的standardscaler类和minmaxscaler类来实现标准化和归一化。

18、s130：训练lstm模型用于预测现状间的关联，cnn模型用于预测技术前沿之间的关联，gcn模型用于学习企业之间的技术关联，transformer模型用于学习技术需求的长期演变；

19、在本技术的一些实施例中，基于前述方案，所述lstm预测现状间的关联，包括：将特征矩阵a作为lstm模型的输入层，将上一时刻的隐藏状态ht-1和当前输入a结合起来，传入遗忘门、输入门和输出门进行计算。遗忘门控制前一时刻cell状态被保留的部分，cell用于保存模型在处理序列数据时的历史信息；输入门控制当前时刻输入a的影响程度；cell状态ct根据遗忘门和输入门进行更新，产生当前的cell状态；输出门控制输出的cell状态ct到什么程度影响隐藏状态ht＝lstm(a，ht-1)；将ht传入输出层进行分类，反映当前输入及历史信息对技能关联概率yt_lstm的影响，yt_lstm＝softmax(wlstm*ht+blstm)；其中wlstm和blstm为输出层的权重和偏置；

20、在本技术的一些实施例中，基于前述方案，所述lstm模型，包括：

21、输入层：将特征矩阵a作为输入，每一行代表一个企业，每一列代表一个技能；输入层将每个技能转换为一个词向量，从而得到一个词向量序列，作为lstm模型的输入；

22、lstm层：使用lstm模型处理词向量序列，学习技能之间的长期依赖关系。lstm层由多个lstm单元组成，每个lstm单元包含三个门结构(遗忘门、输入门和输出门)和一个单元状态(cell state)。lstm单元的计算公式如下：

23、-遗忘门：ft＝sigma(wfcdot[ht-1，xt]+bf)，其中ft是遗忘门向量，wf和bf是遗忘门层的杈重矩阵和偏置向量，ht-1是上一时刻的隐藏状态向量，xt是当前时刻的输入向量(即词向量)，sigma是sigmoid函数，cdot是矩阵乘法；遗忘门的作用是控制前一时刻的单元状态被保留的部分，cell用于保存模型在处理序列数据时的历史信息。

24、-输入门：it＝sigma(wicdot[ht-1，xt]+bi)，其中it是输入门向量，wi和bi是输入门层的杈重矩阵和偏置向量，其他符号同上；输入门的作用是控制当前时刻输入对单元状态的影响程度。

25、-单元状态：ct＝ftodotct-1+itodottanh(wccdot[ht-1，xt]+bc)，其中ct是当前时刻的单元状态向量，ct-1是上一时刻的单元状态向量，wc和bc是候选单元状态层的杈重矩阵和偏置向量，odot是向量点乘；单元状态根据遗忘门和输入门进行更新，产生当前时刻的单元状态。

26、-输出门：ot＝sigma(wocdot[ht-1，xt]+bo)，其中ot是输出门向量，wo和bo是输出门层的杈重矩阵和偏置向量，其他符号同上。输出门控制输出到下一层或下一时刻隐藏状态中去的单元状态信息。

27、-隐藏状态：ht＝otodottanh(ct)，其中ht是当前时刻的隐藏状态向量，其他符号同上。隐藏状态反映了当前时刻的信息和历史信息的综合。

28、输出层：将lstm层输出的隐藏状态传入输出层进行分类或回归，得到技能关联预测结果。输出层可以使用softmax函数或其他激活函数来计算不同技能之间的相关性或重要性的概率或分数。输出层的计算公式如下：

29、-yt＝textsoftmax(whcdotht+bh)，其中yt是技能关联预测结果向量，wh和bh是输出层的杈重矩阵和偏置向量，ht是当前时刻的隐藏状态向量，textsoftmax是softmax函数；softmax函数可以将任意实数向量转换为一个概率分布向量，使得每个元素都在0到1之间，并且所有元素之和为1。

30、在本技术的一些实施例中，基于前述方案，所述cnn预测技术前沿之间的关联，包括：

31、将特征矩阵b作为cnn模型的输入层，卷积层通过一到四个词或字的滤波器捕获文本中一到四个词或字的n-gram特征；激活函数relu进行非线性映射，获得特征图；池化层进行降维，提取主要特征；全连接层将特征映射到技术前沿相关的类别；softmax分类层给出不同类别的预测概率；因此，yt_cnn＝softmax(wcnn*zcnn+bcnn)；其中，zcnn为全连接层特征向量；wcnn和bcnn为全连接层杈重和偏置；

32、在本技术的一些实施例中，基于前述方案，所述gcn学习企业之间的技术关联，包括：

33、收集企业人才流动数据d0，构建企业关系图谱g1；收集企业招聘数据d4，通过实体识别构建内部知识图谱g2；对d4进行依存句法分析，抽取g2中的关系；将g2中的词条作为节点，关系作为边；将内部图谱g2和企业图谱g1进行融合，得到统一图谱g；gcn以g和企业技能矩阵c为输入，第一层gcn：h1＝σ(agcnwgcn)，学习c在g上的关联；σ是relu激活，wgcn为第一层gcn杈重矩阵；堆叠多层gcn进行迭代学习，得到hgcn，使用softmax分类预测企业技术关联概率，yt_gcn＝softmax(wgcn*hgcn+bgcn)；

34、在本技术的一些实施例中，基于前述方案，所述transformer学习技术需求的长期演变，包括：

35、transformer输入为特征矩阵c；词向量层将c量化，得到词向量序列x；编码器包含多头注意力机制，学习词向量x的关联；解码器基于编码器输出，预测未来技能需求词向量y；输出层给出技能需求预测结果；yt_transformer＝linear(hn，wo)；hn-是编码器输出层的状态向量；wo-是输出层的杈重矩阵。

36、向量序列x是一个三维的张量，它的每一层代表一个企业，每一行代表一个时间步，每一列代表一个词向量。

37、s140：使用arima模型对招聘技能时间序列数据进行预测，得到预测结果x′n+1，作为行业平均水平基准u；

38、具体地，arima模型以招聘技能时间序列数据{x1，x2，...,xn}为输入；进行差分处理得到稳定序列{x′1，x′2，...，x′n}；建立arima(p，d，q)模型，最大似然估计参数φ1，φ2，...，θ1，θ2，使用aic准则选择最优模型；

39、p表示模型的自回归阶数，q表示模型的移动平均阶数，d表示进行的差分次数；用arima模型进行预测，得到预测结果x′n+1；

40、模型表示为：其中x′t是经过d阶差分后的时间序列，c为常数，φi和θi为模型参数，ε_t为随机误差；

41、arima模型预测输出x′_n+1作为行业平均水平基准u。

42、s150：使用yt_lstm、yt_cnn、yt_gcn、yt_transformer，通过加杈平均方法进行模型集成；在验证集上进行交叉验证，找到使mae最小化的杈重组合；

43、具体地，使用验证集来评估模型在不同参数组合下的性能：使用grid search选择最佳超参数组合，利用交叉验证方法进行调参；使用sklearn模块中的model_selection子模块中的gridsearchcv类来实现grid search和交叉验证；

44、使用测试集1来评估模型在未知数据上的泛化能力，将d6作为真实值y_true，使用模型给出企业技术评分预测y_pred；计算预测结果与真实业绩的误差：偏差＝y_pred-y_true，计算平均绝对误差mae：mae＝平均(|偏差|)；如mae＜10％，则模型预测达到精度要求；如果mae大于阈值，则优化模型：改变网络结构，增加正则化避免过拟合，并收集更多数据增强模型训练；通过可视化、增量学习方式分析模型误差，进行迭代优化；重复上述流程，直至模型达到精度要求。

45、y_pred＝w_lstm*y_lstm+w_cnn*y_cnn+w_gcn*y_gcn+w_transformer*y_transformer

46、其中，y_lstm、y_cnn、y_gcn、y_transformer分别是企业在四个维度上的技术评分，w_lstm、w_cnn、w_gcn、w_transformer是杈重。

47、s160：计算企业的技术竞争力指数score，将与行业平均水平基准u相差较大的企业排除；

48、计算评分：score＝α*y_pred+(1-α)*u，系数α(0≤α≤1)；

49、其中，0-20分为低竞争力，21-40分为中低竞争力，41-60分为中等竞争力，61-80分为中高竞争力，81-100分为高竞争力。

50、对y_pred和u进行归一化，得到y_norm和u_norm；计算它们的概率分布p_y和p_u；根据概率分布计算熵值e_y和e_u；求它们的熵值之和sum_e；计算相对熵rel_e_y和rel_e_u；计算相对熵值比例α，取值范围为0到1；

51、计算目标企业和每个企业在四个维度上的相似度：sim(a，b)＝cos(θ)＝(a·b)/(||a||||b||)，其中a和b是企业在该维度上的技能向量；

52、将四个维度上的相似度进行加杈平均，得到总体相似度：

53、sim＝w1*sim_lstm+w2*sim_cnn+w3*sim_gcn+w4*sim_transformer；

54、其中，sim_lstm、sim_cnn、sim_gcn、sim_transformer分别是企业在四个维度上的相似度，w1、w2、w3、w4是杈重；

55、对总体相似度进行排序，取差异最小的三个企业，既最相似的三个企业，作为其潜在的合作伙伴或竞争对手；取差异最大的三个企业，既最不相似的三个企业，作为其潜在的学习对象或创新方向。

56、根据本技术实施例的一个方面，提供了一种基于技能向量和图神经网络的企业推荐系统，包括：

57、pandas模块，用于数据收集、清洗、划分和处理；

58、scipy模块，用于数据分析和异常值检测；

59、sklearn模块，用于数据标准化、归一化和向量化；

60、bert模块，用于文本的语义向量化；

61、word2vec模块，用于词的向量化；

62、gpt-3模块，用于数据增强；

63、lstm模块，用于预测现状间的关联；

64、cnn模块，用于预测技术前沿之间的关联；

65、gcn模块，用于学习企业之间的技术关联；

66、transformer模块，用于学习技术需求的长期演变；

67、arima模块，用于建模技能需求总体趋势；

68、grid search模块，用于选择最佳超参数组合；

69、mae模块，用于计算平均绝对误差；

70、可视化模块，用于展示评分结果和企业推荐结果。

71、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本技术。

72、相较于现有技术，本发明的优势：

73、1.采用了多种模型，lstm、cnn、gcn、transformer和arima，能够从不同角度对数据进行分析，提高了模型的准确性和鲁棒性。lstm模型可以捕捉技能之间的长期依赖关系；cnn模型可以捕捉技能之间的局部相关性；gcn模型可以捕捉企业之间的关系；transformer模型可以捕捉技能之间的长距离依赖关系。

74、2.采用了加杈平均方法进行模型集成，交叉验证选择最佳杈重组合，进一步提高模型的预测能力。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：齐腾峰
技术所有人：深圳市云初信息科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。