一种知识图谱构建方法、装置、存储介质以及计算机设备与流程

文档序号:25280441发布日期:2021-06-01 17:26阅读:103来源:国知局
一种知识图谱构建方法、装置、存储介质以及计算机设备与流程

本申请涉及计算机技术领域,具体而言,涉及一种职位知识图谱构建方法、装置、存储介质和计算机设备。



背景技术:

随着科技的高速发展和产业的不断改造升级,如今各种新兴产业和行业层出不穷,越来越多的职业类型不断涌现。与此同时,为了与这些不同类型的职业相匹配,教育部每年都会新增相关专业。然而,越来越多的职业类型令不同专业的求职者眼花缭乱,此外,对于应届毕业生而言,他们对于一些新兴职业甚至没有概念,从而导致求职者难以找到与专业对口的职业。因此,职业类型、专业类型的日益增多现象和求职者所能获得信息情况存在着严重的不对等。



技术实现要素:

本申请提供一种职位知识图谱构建方法、装置、存储介质以及计算机设备,可以解决职业类型、专业类型的日益增多现象和求职者所能获得信息情况存在着严重不对等的技术问题。

第一方面,本申请实施例提供一种职位知识图谱构建方法,该方法包括:

获取专业集合、职位集合以及职位招聘信息集合;

基于所述专业集合生成各所述专业之间的第一关联关系;

基于所述职位集合生成各所述职位之间的第二关联关系;

基于所述职位招聘信息集合和所述专业集合生成各所述专业与各所述职位之间的第三关联关系以及各所述职位与职位技能之间的第四关联关系;

获取所述专业集合中各所述专业对应的课程,生成各专业与课程的第五关联关系;

构建包含各关联关系的职位知识图谱,各所述关联关系包括所述第一关联关系、所述第二关联关系、所述第三关联关系、所述第四关联关系以及所述第五关联关系。

第二方面,本申请实施例提供一种职位知识图谱构建装置,包括:

数据获取模块,用于获取专业集合、职位集合以及职位招聘信息集合;

第一模块,用于基于所述专业集合生成各所述专业之间的第一关联关系;

第二模块,用于基于所述职位集合生成各所述职位之间的第二关联关系;

第三模块,用于基于所述职位招聘信息集合和所述专业集合生成各所述专业与各所述职位之间的第三关联关系以及各所述职位与职位技能之间的第四关联关系;

第四模块,用于获取所述专业集合中各所述专业对应的课程,生成各专业与课程的第五关联关系;

图谱构建模块,用于构建包含各关联关系的职位知识图谱,各所述关联关系包括所述第一关联关系、所述第二关联关系、所述第三关联关系、所述第四关联关系以及所述第五关联关系。

第三方面,本申请实施例提供一种存储介质,所述存储介质存储有多条指令,所述指令适于由处理器加载并执行上述方法的步骤。

第四方面,本申请实施例提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的方法的步骤。

在本申请实施例中,通过获取专业集合、职位集合以及职位招聘信息集合,可以建立起专业、职位、课程、以及职位技能之间的各关联关系,进而构建一个横跨高校专业和社会职位的职位知识图谱,能够有效的打破职业类型、专业类型的日益增多和求职者所能获得信息情况存在着严重不对等的现状。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种职位知识图谱构建方法的流程示意图;

图2为本申请实施例提供的一种职位知识图谱构建方法的流程示意图;

图3为本申请实施例提供的一种生成第一关联关系的流程示意图;

图4为本申请实施例提供的一种专业和职位关联关系的举例示意图;

图5为本申请实施例提供的一种专业和课程关联关系的举例示意图;

图6为本申请实施例提供的一种职位知识图谱构建装置的结构示意图;

图7为本申请实施例提供的一种职位知识图谱构建装置的结构示意图;

图8为本申请实施例提供的一种第一模块的结构示意图;

图9为本申请实施例提供的一种第二模块的结构示意图;

图10为本申请实施例提供的一种第三模块的结构示意图;

图11为本申请实施例提供的一种第四模块的结构示意图;

图12为本申请实施例提供的一种模型训练模块的结构示意图;

图13是本申请实施例提供的一种图谱补充模块的结构示意图;

图14是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使得本申请的特征和优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而非全部实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。附图中所示的流程图仅是示例性说明,不是必须按照所示步骤执行。例如,有的步骤是并列的,在逻辑上并没有严格的先后关系,因此实际执行顺序是可变的。另外,术语“第一”、“第二”、“第三”、“第四”仅是为了区分的目的,不应作为本公开内容的限制。

本申请实施例公开的职位知识图谱构建方法是通过获取专业集合、职位集合以及职位招聘信息集合等多种数据,建立专业、职位、课程以及职位技能之间的多种关联关系,并基于所述多种关联关系进而构建一个职位知识图谱。

应当理解的是,本公开得到的职位知识图谱可以是基于多种关联关系构建而成,然后将该职位知识图谱作为一个产品应用于现实,例如:学生求职、企业招聘等。另外,本公开得到的职位知识图谱还可以是不断进行动态更新的知识图谱。

下面将结合图1~图5,对本申请实施例提供的职位知识图谱构建方法进行详细介绍。

请参见图1,为本申请实施例提供了一种职位知识图谱构建方法的流程示意图。如图1所示,所述方法可以包括以下步骤s101~步骤s106。

s101,获取专业集合、职位集合以及职位招聘信息集合;

具体的,从教育部相关网站获取专业集合,从各大招聘网站获取职位集合以及职位招聘信息集合。

所述专业集合可以是从教育部相关网站获取的专业层级列表,所述专业层级列表是指将所有高校专业按照由粗到细划分的有层次列表,例如:工学>电气类>电气工程及其自动化。

所述职位集合可以是从招聘网站获取的职位层级列表,所述职位层级列表是指将所有职位由宽泛到具体划分的列表,例如专业技术人员>工程技术人员>计算机与应用工程技术人员>维护工程师。

所述职位招聘信息集合可以是从各大招聘网站获取的职位招聘信息,所述职位招聘信息和招聘要求数据是指招聘方发布的包含职位信息、工作内容、薪酬、职位要求等内容的信息。

s102,基于所述专业集合生成各所述专业之间的第一关联关系;

具体的,所述专业集合可以是专业层级列表,针对所述专业层级列表可以利用一种词向量生成模型将所述专业层级表中的各专业转换为词向量,其中每个专业对应一个专业向量。利用训练得到的专业向量,计算各专业向量之间的第一相似度。若所述第一相似度小于预设的第一相似度阈值,则认为与所述第一相似度对应的两专业之间不存在关联关系,若所述第一相似度大于预设的第一相似度阈值,则认为与所述第一相似度对应的两专业之间存在相似的关联关系,例如:预设第一相似度阈值为0.7,经计算求得财务管理的专业向量和会计学的专业向量之间的第一相似度为0.88,则可以得到一个第一目标关联关系。所述第一目标关联关系例如可以为三元组:财务管理,相似,会计学,还可以是除三元组以外的其他表示形式。

进而可以生成第一关联关系,所述第一关联关系是指所有如所述第一目标关联关系的集合。

s103,基于所述职位集合生成各所述职位之间的第二关联关系;

具体的,所述专业集合可以是职位层级列表,针对所述职位层级列表可以利用一种词向量生成模型将所述职位层级表中的各职位转换为词向量,其中每个职位对应一个职位词向量。利用训练得到的职位向量,计算各职位向量之间的第二相似度。若所述第二相似度小于预设的第二相似度阈值,则认为与所述第二相似度对应的两职位之间不存在关联关系,若所述第二相似度大于预设的第二相似度阈值,则认为与所述第二相似度对应的两职位之间存在相似的关联关系,例如:预设第二相似度阈值为0.7,经计算求得专利工程师的职位向量和专利代理人的职位向量之间的第二相似度为0.95,则可以得到一个第二目标关联关系。所述第二目标关联关系例如可以为三元组:专利工程师,相似,专利代理人,还可以为除三元组以外的其他表示形式。

进而可以生成第二关联关系,所述第二关联关系是指所有如所述第二目标关联关系的集合。

s104,基于所述职位招聘信息集合和所述专业集合生成各所述专业与各所述职位之间的第三关联关系以及各所述职位与职位技能之间的第四关联关系;

具体的,对所述职位招聘信息集合中的各职位招聘信息和所述专业集合中的各专业进行文本匹配,可以得到专业和职位的关联关系,即可以生成所述第三关联关系。对所述职位招聘信息集合中的各职位招聘信息进行去停用词处理,提取关键词,基于语义分析手段,结合上下文关系找出职位技能,可以得到职位与职位技能的关联关系,即生成所述第四关联关系。

所述职位技能是指胜任一个职位所需的技术和能力,也就是指职位信息招聘信息中对求职者的应聘要求,例如:电气工程师职位对应的职位技能有cad绘图、plc编程、pcb设计等。

所述去停用词处理是指去掉“的”、“我们”等不太具有含义的停顿词,例如:“我们的家”,经过去停用词处理为“家”。

s105,获取所述专业集合中各所述专业对应的课程,生成各专业与课程的第五关联关系;

具体的,从教育部或高校相关网站获取与所述专业集合中各专业对应的课程,一个专业可以包括多个课程,一个课程也可以属于多个专业。例如,电气工程及其自动化专业包含如下课程:大学英语、高等数学、大学物理、电路等,而其中的高等数学又可以出现在别的专业中。

s106,构建包含各关联关系的职位知识图谱,各所述关联关系包括所述第一关联关系、所述第二关联关系、所述第三关联关系、所述第四关联关系以及所述第五关联关系。

具体的,基于所述第一关联关系、所述第二关联关系、所述第三关联关系、所述第四关联关系以及所述第五关联关系,即专业和专业之间的关联关系、职位和职位之间的关联关系、专业和职位之间的关联关系、职位和职位技能之间的关联关系以及专业和课程之间的关联关系,构建职位知识图谱。

当然,上述所提及的关联关系还可以包括课程与职位技能之间的关联关系,或者其他不同实体之间的关联关系,本实施例不做特殊限定。

在本申请实施例中,通过获取专业集合、职位集合以及职位招聘信息集合,可以建立起专业、职位、课程、以及职位技能之间的各关联关系,进而构建一个横跨高校专业和社会职位的职位知识图谱,能够有效的打破职业类型、专业类型的日益增多和求职者所能获得信息情况存在着严重不对等的现状。

请参见图2,为本申请实施例提供了一种职位知识图谱构建方法的流程示意图。如图2所示,所述方法可以包括以下步骤s201~步骤s217。

s201,获取专业集合、职位集合以及职位招聘信息集合;

具体的,所述专业集合可以是从教育部相关网站获取的专业层级列表,所述职位集合可以是从招聘网站获取的职位层级列表,所述职位招聘信息集合可以是从各大招聘网站获取的职位招聘信息和招聘要求数据。

s202,基于词向量生成模型将所述专业集合中各专业转化为专业向量;

具体的,所述词向量生成模型就是将词表征为实数值向量的一种高效的算法模型,其利用深度学习的思想,可以通过训练把对文本内容的处理简化为x维向量空间的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似。所述词向量生成模型可以是word2vector模型或者其他考虑语义信息的模型,本实施例对此不做特殊限定。

s203,计算各所述专业向量之间的第一相似度;

具体的,计算各所述专业向量在向量空间上的相似度,将该相似度定义为第一相似度。所述第一相似度可以是余弦相似度、欧式距离或者其他考虑语义信息的相似度计算方式。

在本申请实施例中,可优先采用余弦相似度。所述余弦相似度是指通过计算两个向量的夹角余弦值来评估他们的相似度,通常用于正空间,两个向量夹角的余弦值越趋近于1,说明夹角角度越接近0°,也就是两个向量越接近。

s204,基于各所述第一相似度以及预设的第一相似度阈值,生成各所述专业之间的第一关联关系;

具体的,预先会写入设置的第一相似度阈值,根据第一相似度阈值和各所述第一相似度可以判断各专业之间的关联关系。

步骤s202~步骤s204请一并参见图3,为本申请实施例提供了一种生成第一关联关系的流程示意图。如图3所示,专业集合中的各专业经由word2vec模型训练词向量,得到与各所述专业对应的专业向量,所述专业向量两两组合,即各专业向量分别和其余专业向量组合,计算每一组合内两专业向量之间的第一相似度。

不难理解,每个专业向量都唯一对应专业集合中的一个专业,即可以根据各所述专业向量之间的第一相似度判断各专业之间的关联关系。若所述第一相似度小于所述第一相似度阈值,则认为对应两专业语义上不相似;若所述第一相似度大于所述第一相似度阈值,则认为对应的两专业语义上是相似的,则生成此第一目标关联关系。

所述第一关联关系是指所有所述第一目标关联关系的集合。

s205,基于词向量生成模型将所述职位集合中各职位转化为职位向量;

具体的,所述词向量生成模型就是将词表征为实数值向量的一种高效的算法模型,其利用深度学习的思想,可以通过训练把对文本内容的处理简化为x维向量空间的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似。所述词向量生成模型可以是word2vector模型或者其他考虑语义信息的模型,本实施例对此不做特殊限定。

s206,计算各所述职位向量之间的第二相似度;

具体的,计算各所述职位向量在向量空间上的相似度,将该相似度定义为第二相似度。所述第二相似度可以是余弦相似度、欧式距离或者其他考虑语义信息的相似度计算方式。

在本申请实施例中,可优先采用余弦相似度。所述余弦相似度是指通过计算两个向量的夹角余弦值来评估他们的相似度,通常用于正空间,两个向量夹角的余弦值越趋近于1,说明夹角角度越接近0°,也就是两个向量越接近。

s207,基于各所述第二相似度以及预设的第二相似度阈值,生成各所述职位之间的第二关联关系;

具体的,预先会写入设置的第二相似度阈值,根据第二相似度阈值和各所述第二相似度可以判断各专业之间的关联关系。

不难理解,每个职位向量都唯一对应职位集合中的一个职位,即可以根据各所述职位向量之间的第二相似度判断各职位之间的关联关系。若所述第二相似度小于所述第二相似度阈值,则认为对应两职位语义上不相似;若所述第二相似度大于所述第二相似度阈值,则认为对应的两职位语义上是相似的,则生成此第二目标关联关系。

所述第二关联关系是指所有所述第二目标关联关系的集合。

s208,对所述职位招聘信息集合中的各职位招聘信息和所述专业集合中的各专业进行文本匹配处理,生成各所述专业与各所述职位之间的第三关联关系;

具体的,对所述职位招聘信息集合中的各职位招聘信息和所述专业集合中的各专业进行文本匹配处理,根据匹配结果确定所述职位招聘信息对应职位和所述专业的关联关系。

请一并参见图4,为本申请实施例提供的一种专业和职位关联关系的举例示意图。如图4所示,从职位招聘集合中选择一则职位招聘信息,图4以专利工程师招聘信息为例与专业集合中的各专业进行文本匹配,所述专利工程师招聘信息要招聘的职位为专利工程师,根据匹配结果可以得出所述专利工程师职位和电气工程、电子信息工程等专业之间的关联关系。

s209,对所述职位招聘信息集合中的各职位招聘信息进行去停用词处理,提取职位技能,生成各所述职位与职位技能之间的第四关联关系;

具体的,对所述职位招聘集合中的各职位招聘信息进行去停用词处理,所述去停用词处理是指去掉“的”、“我们”等不太具有含义的停顿词,然后对处理过后的目标职位招聘信息可以采用tf-idf的方法提取关键词。

在得到多个关键词的情况下,可以基于语义分析手段,结合上下文关系找出职位技能,并确定所述目标职位招聘信息对应职位和所述职位技能的第四目标关联关系。

所述第四关联关系是指所有所述第四目标关联关系的集合。

s210,获取所述专业集合中各所述专业对应的课程,生成各专业与课程的第五关联关系;

具体的,获取所述专业集合中各所述专业,从教育网站中确定各所述专业分别对应的课程,基于各所述专业与各所述课程的对应关系,构建各所述专业与各所述课程的第五关联关系。

可选的,所述教育网站可以是教育部网站或者全国范围内的各大高校网站,基于专业集合中的各所述专业从教育部或者各大高校网站获取与各所述专业对应的课程,例如电气工程及其自动化专业,可以从教育部网站获取到电气工程及其自动化专业对应的课程包括大学英语、高等数学、高电压技术、电力系统分析、电磁场、电力系统继电保护、电路、大学物理、电力电子技术等,基于所述电气工程及其自动化专业与上述各对应课程的对应关系可以生成电气工程及其自动化专业与对应课程的关联关系。

请一并参见图5,为本申请实施例提供的一种专业和课程关联关系的举例示意图。如图5所示,是以电气工程及其自动化专业为例形成的专业和课程之间的关联关系。

s211,构建包含各关联关系的职位知识图谱,各所述关联关系包括所述第一关联关系、所述第二关联关系、所述第三关联关系、所述第四关联关系以及所述第五关联关系;

s212,给各所述关联关系中各节点分别定义一个初始向量;

具体的,每一条关联关系都可以称为一个三元组数据,每一个三元组数据中包含三个节点,例如:环境工程,相似,环境科学,其中第一个“环境工程”称为头节点,记为h,中间“关系”称为关系节点,记为r,最后“环境科学”称为尾节点,记为t。对所有三元组数据的各个节点分别定义一个初始向量。

s213,基于评分函数以及各所述初始向量,分别计算各所述关联关系对应的评分;

具体的,所述评分函数即:

fr(h,t)=htmrt

其中h是头节点的向量,t是尾节点的向量,mr是对关系建模的对角矩阵,因此可以得到头节点h和尾节点t在关系r下的评分为fr(h,t)。

s214,基于各所述关联关系对应的评分以及各所述关联关系中各节点分别对应的初始向量,定义损失函数对知识图谱嵌入模型进行训练;

具体的,所述损失函数即:

其中,γ是一个预先指定的参数,h'和t'表示随机采样的一个头节点和尾节点,即上述的损失函数表示真的三元组的得分应该比假的三元组的得分高出γ。

通过如随机梯度下降等优化算法基于损失函数对各所述初始向量进行优化,就可以对知识图谱嵌入模型进行训练。

s215,基于知识图谱嵌入模型获取所述职位知识图谱中所包含的各所述专业、各所述课程信息、各所述职位、各所述职位技能分别对应的实体向量;

具体的,完成所述知识图谱嵌入模型的训练后,知识图谱中所包含的所有实体都可以获得一个对应的实体向量,所述实体包括各所述专业、各所述课程信息、各所述职位、各所述职位技能。

s216,计算各所述实体向量之间的第三相似度;

具体的,计算各所述实体向量在向量空间上的相似度,将该相似度定义为第三相似度。所述第三相似度可以是余弦相似度、欧式距离或者其他考虑语义信息的相似度计算方式。

在本申请实施例中,可优先采用余弦相似度。所述余弦相似度是指通过计算两个向量的夹角余弦值来评估他们的相似度,通常用于正空间,两个向量夹角的余弦值越趋近于1,说明夹角角度越接近0°,也就是两个向量越接近。

s217,基于各所述第三相似度以及预设的第三相似度阈值,对所述职位知识图谱进行补充。

具体的,若各所述第三相似度小于所述第三相似度阈值,则忽略;若各所述第三相似度中存在大于所述第三相似度阈值的目标第三相似度,则生成所述目标第三相似度对应的两实体之间的目标关联关系,所述实体包括专业、职位、职位技能以及课程以及中的至少一种,在所述职位知识图谱中添加所述目标关联关系。

在本申请实施例中,通过从教育部网站及相关网站、各大招聘网站等多种来源获取专业集合、职位集合以及职位招聘信息集合,保障了职位知识图谱的有效性;利用word2vec模型生成专业向量和职位向量,并基于专业向量间的余弦相似度生成专业和专业的第一关联关系,基于职位向量间的余弦相似度生成职位和职位之间的第二关联关系,考虑了词的语义信息,提升了关联关系的准确性,进而保障了知识图谱的准确性;通过对所述职位招聘信息集合中的各职位招聘信息和所述专业集合中的各专业进行文本匹配处理,生成各所述专业与各所述职位之间的第三关联关系和对所述职位招聘信息集合中的各职位招聘信息进行去停用词处理,提取职位技能,生成各所述职位与职位技能之间的第四关联关系,基于专业集合中的各所述专业从教育部或者各大高校网站获取与各所述专业对应的课程,生成各所述专业与课程的第五关联关系,进而构建一个横跨高校专业和社会职位的职位知识图谱,能够有效的打破职业类型、专业类型的日益增多和求职者所能获得信息情况存在着严重不对等的现状;通过利用知识图谱嵌入模型补全职位知识图谱,保证了职位知识图谱的完整性与准确性;通过多种数据来源集多种类型的数据构建所述职位知识图谱,使得职位知识图谱具备一定的推理能力,对于一些冷门专业、职位,可以利用所述职位知识图谱的推理判断能力推测出与其他实体的关联。

下面将结合附图6~附图11,对本申请实施例提供的职位知识图谱构建装置进行详细介绍。需要说明的是,附图6~附图11中的职位知识图谱构建装置,用于执行本申请图1~图5所示实施例的方法,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请图1~图5所示的实施例。

请参见图6,为本申请实施例提供了一种职位知识图谱构建装置的结构示意图。如图6所示,本申请实施例的所述职位知识图谱构建装置1可以包括:信息获取模块101、第一模块102、第二模块103、第三模块104、第四模块105以及图谱构建模块106。

信息获取模块101,用于获取专业集合、职位集合以及职位招聘信息集合;

第一模块102,用于基于所述专业集合生成各所述专业之间的第一关联关系;

第二模块103,用于基于所述职位集合生成各所述职位之间的第二关联关系;

第三模块104,用于基于所述职位招聘信息集合和所述专业集合生成各所述专业与各所述职位之间的第三关联关系以及各所述职位与职位技能之间的第四关联关系;

第四模块105,用于获取所述专业集合中各所述专业对应的课程信息,生成各专业与课程的第五关联关系;

知识图谱构建模块106,用于构建包含各关联关系的职位知识图谱,各所述关联关系包括所述第一关联关系、所述第二关联关系、所述第三关联关系、所述第四关联关系以及所述第五关联关系。

在本申请实施例中,通过获取专业集合、职位集合以及职位招聘信息集合,可以建立起专业、职位、课程、以及职位技能之间的各关联关系,进而构建一个横跨高校专业和社会职位的职位知识图谱,能够有效的打破职业类型、专业类型的日益增多和求职者所能获得信息情况存在着严重不对等的现状。

请参见图7,为本申请实施例提供了一种职位知识图谱构建装置的结构示意图。如图7所示,本申请实施例的所述职位知识图谱构建装置1可以包括:信息获取模块101、第一模块102、第二模块103、第三模块104、第四模块105、图谱构建模块106、模型训练模块107以及图谱补全模块108。

信息获取模块101,用于获取专业集合、职位集合以及职位招聘信息集合;

第一模块102,用于基于所述专业集合生成各所述专业之间的第一关联关系;

请一并参见图8,为本申请实施例提供了一种第一模块的结构示意图。如图8所示,所述第一模块102可以包括:

专业向量生成单元1021,用于基于词向量生成模型将所述专业集合中各专业转化为专业向量;

第一相似度单元1022,用于计算各所述专业向量之间的第一相似度;

第一关联关系生成单元1023,用于基于各所述第一相似度以及预设的第一相似度阈值,生成各所述专业之间的第一关联关系。

第二模块103,用于基于所述职位集合生成各所述职位之间的第二关联关系;

请一并参见图9,为本申请实施例提供了一种第二模块的结构示意图。如图9所示,所述第二模块103可以包括:

职位向量生成单元1031,用于基于词向量生成模型将所述职位集合中各职位转化为职位向量;

第二相似度单元1032,用于计算各所述职位向量之间的第二相似度;

第二关联关系生成单元1033,用于基于各所述第二相似度以及预设的第二相似度阈值,生成各所述职位之间的第二关联关系。

第三模块104,用于基于所述职位招聘信息集合和所述专业集合生成各所述专业与各所述职位之间的第三关联关系以及各所述职位与职位技能之间的第四关联关系;

请一并参见图10,为本申请实施例提供了一种第三模块的结构示意图。如图10所示,所述第三模块104可以包括:

第三关联关系生成单元1041,用于对所述职位招聘信息集合中的各职位招聘信息和所述专业集合中的各专业进行文本匹配处理,生成各所述专业与各所述职位之间的第三关联关系;

第四关联关系生成单元1042,用于对所述职位招聘信息集合中的各职位招聘信息进行去停用词处理,提取职位技能,生成各所述职位与职位技能之间的第四关联关系。

第四模块105,用于获取所述专业集合中各所述专业对应的课程,生成各专业与课程的第五关联关系;

请一并参见图11,为本申请实施例提供了一种第三模块的结构示意图。如图11所示,所述第四模块105可以包括:

课程获取单元1051:用于获取所述专业集合中各所述专业,从教育网站中确定各所述专业分别对应的课程;

第五关联关系生成单元1052:用于基于各所述专业与各所述课程的对应关系,构建各所述专业与各所述课程的第五关联关系。

知识图谱构建模块106,用于构建包含各关联关系的职位知识图谱,各所述关联关系包括所述第一关联关系、所述第二关联关系、所述第三关联关系、所述第四关联关系以及所述第五关联关系;

模型训练模块107,用于构建知识图谱嵌入模型,基于各所述关联关系对所述知识图谱嵌入模型进行训练;

请一并参见图12,为本申请实施例提供了一种模型训练模块的结构示意图。如图12所示,所述模型训练模块107可以包括:

初始向量定义单元1071,用于给各所述关联关系中各节点分别定义一个初始向量;

评分计算单元1072,用于基于评分函数以及各所述初始向量,分别计算各所述关联关系对应的评分;

训练单元1073,用于基于各所述关联关系对应的评分以及各所述关联关系中各节点分别对应的初始向量,定义损失函数对知识图谱嵌入模型进行训练。

图谱补充模块108,用于基于所述知识图谱嵌入模型补充所述职位知识图谱。

请一并参见图13,为本申请实施例提供了一种图谱补全模块的结构示意图。如图13所示,所述图谱补全模块108可以包括:

向量获取单元1081,用于基于知识图谱嵌入模型获取所述职位知识图谱中所包含的各所述专业、各所述课程、各所述职位、各所述职位技能分别对应的实体向量;

第三相似度单元1082,用于计算各所述实体向量之间的第三相似度;

图谱补充单元1083,用于基于各所述第三相似度以及预设的第三相似度阈值,对所述职位知识图谱进行补充。

在本申请实施例中,通过从教育部网站及相关网站、各大招聘网站等多种来源获取专业集合、职位集合以及职位招聘信息集合,保障了职位知识图谱的有效性;利用word2vec模型生成专业向量和职位向量,并基于专业向量间的余弦相似度生成专业和专业的第一关联关系,基于职位向量间的余弦相似度生成职位和职位之间的第二关联关系,考虑了词的语义信息,提升了关联关系的准确性,进而保障了知识图谱的准确性;通过对所述职位招聘信息集合中的各职位招聘信息和所述专业集合中的各专业进行文本匹配处理,生成各所述专业与各所述职位之间的第三关联关系和对所述职位招聘信息集合中的各职位招聘信息进行去停用词处理,提取职位技能,生成各所述职位与职位技能之间的第四关联关系,基于专业集合中的各所述专业从教育部或者各大高校网站获取与各所述专业对应的课程,生成各所述专业与课程的第五关联关系,进而构建一个横跨高校专业和社会职位的职位知识图谱,能够有效的打破职业类型、专业类型的日益增多和求职者所能获得信息情况存在着严重不对等的现状;通过利用知识图谱嵌入模型补全职位知识图谱,保证了职位知识图谱的完整性与准确性;通过多种数据来源集多种类型的数据构建所述职位知识图谱,使得职位知识图谱具备一定的推理能力,对于一些冷门专业、职位,可以利用所述职位知识图谱的推理判断能力推测出与其他实体的关联。

本申请实施例还提供了一种存储介质,所述存储介质可以存储有多条程序指令,所述程序指令适于由处理器加载并执行如上述图1~图5所示实施例的方法步骤,具体执行过程可以参见图1~图5所示实施例的具体说明,在此不进行赘述。

请参见图14,为本申请实施例提供了一种计算机设备的结构示意图。如图14所示,所述计算机设备1000可以包括:至少一个处理器1001,至少一个存储器1002,至少一个网络接口1003,至少一个输入输出接口1004,至少一个通讯总线1005和至少一个显示单元1006。其中,处理器1001可以包括一个或者多个处理核心。处理器1001利用各种接口和线路连接整个计算机设备1000内的各个部分,通过运行或执行存储在存储器1002内的指令、程序、代码集或指令集,以及调用存储在存储器1002内的数据,执行终端1000的各种功能和处理数据。存储器1002可以是高速ram存储器,也可以是非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器。存储器1002可选的还可以是至少一个位于远离前述处理器1001的存储装置。其中,网络接口1003可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。通信总线1005用于实现这些组件之间的连接通信。如图14所示,作为一种终端设备存储介质的存储器1002中可以包括操作系统、网络通信模块、输入输出接口模块以及知识图谱构建程序。

在图14所示的计算机设备1000中,输入输出接口1004主要用于为用户以及接入设备提供输入的接口,获取用户以及接入设备输入的数据。

在一个实施例中。

处理器1001可以用于调用存储器1002中存储的知识图谱构建程序,并具体执行以下操作:

获取专业集合、职位集合以及职位招聘信息集合;

基于所述专业集合生成各所述专业之间的第一关联关系;

基于所述职位集合生成各所述职位之间的第二关联关系;

基于所述职位招聘信息集合和所述专业集合生成各所述专业与各所述职位之间的第三关联关系以及各所述职位与职位技能之间的第四关联关系;

获取所述专业集合中各所述专业对应的课程,生成各专业与课程的第五关联关系;

构建包含各关联关系的职位知识图谱,各所述关联关系包括所述第一关联关系、所述第二关联关系、所述第三关联关系、所述第四关联关系以及所述第五关联关系。

可选的,所述处理器1001在执行基于所述专业集合生成各所述专业之间的第一关联关系时,具体执行以下操作:

基于词向量生成模型将所述专业集合中各专业转化为专业向量;

计算各所述专业向量之间的第一相似度;

基于各所述第一相似度以及预设的第一相似度阈值,生成各所述专业之间的第一关联关系。

可选的,所述处理器1001在执行基于所述职位集合生成各所述职位之间的第二关联关系时,具体执行以下操作:

基于词向量生成模型将所述职位集合中各职位转化为职位向量;

计算各所述职位向量之间的第二相似度;

基于各所述第二相似度以及预设的第二相似度阈值,生成各所述职位之间的第二关联关系。

可选的,所述处理器1001在执行获取所述专业集合中各所述专业对应的课程,生成各专业与课程的第五关联关系时,具体执行以下操作:

获取所述专业集合中各所述专业,从教育网站中确定各所述专业分别对应的课程;

基于各所述专业与各所述课程的对应关系,构建各所述专业与各所述课程的第五关联关系。

可选的,所述处理器1001在执行构建包含各关联关系的职位知识图谱,各所述关联关系包括所述第一关联关系、所述第二关联关系、所述第三关联关系、所述第四关联关系以及所述第五关联关系之后,还执行以下操作:

构建知识图谱嵌入模型,基于各所述关联关系对所述知识图谱嵌入模型进行训练;

基于所述知识图谱嵌入模型补充所述职位知识图谱。

可选的,所述处理器1001在执行构建知识图谱嵌入模型,基于各所述关联关系对所述知识图谱嵌入模型进行训练时,具体执行以下操作:

给各所述关联关系中各节点分别定义一个初始向量;

基于评分函数以及各所述初始向量,分别计算各所述关联关系对应的评分;

基于各所述关联关系对应的评分以及各所述关联关系中各节点分别对应的初始向量,定义损失函数对知识图谱嵌入模型进行训练。

可选的,所述处理器1001在执行基于所述知识图谱嵌入模型补充所述职位知识图谱时,具体执行以下操作:

基于知识图谱嵌入模型获取所述职位知识图谱中所包含的各所述专业、各所述课程信息、各所述职位、各所述职位技能分别对应的实体向量;

计算各所述实体向量之间的第三相似度;

基于各所述第三相似度以及预设的第三相似度阈值,对所述职位知识图谱进行补充。

在本申请实施例中,通过从教育部网站及相关网站、各大招聘网站等多种来源获取专业集合、职位集合以及职位招聘信息集合,保障了职位知识图谱的有效性;利用word2vec模型生成专业向量和职位向量,并基于专业向量间的余弦相似度生成专业和专业的第一关联关系,基于职位向量间的余弦相似度生成职位和职位之间的第二关联关系,考虑了词的语义信息,提升了关联关系的准确性,进而保障了知识图谱的准确性;通过对所述职位招聘信息集合中的各职位招聘信息和所述专业集合中的各专业进行文本匹配处理,生成各所述专业与各所述职位之间的第三关联关系和对所述职位招聘信息集合中的各职位招聘信息进行去停用词处理,提取职位技能,生成各所述职位与职位技能之间的第四关联关系,基于专业集合中的各所述专业从教育部或者各大高校网站获取与各所述专业对应的课程,生成各所述专业与课程的第五关联关系,进而构建一个横跨高校专业和社会职位的职位知识图谱,能够有效的打破职业类型、专业类型的日益增多和求职者所能获得信息情况存在着严重不对等的现状;通过利用知识图谱嵌入模型补全职位知识图谱,保证了职位知识图谱的完整性与准确性;通过多种数据来源集多种类型的数据构建所述职位知识图谱,使得职位知识图谱具备一定的推理能力,对于一些冷门专业、职位,可以利用所述职位知识图谱的推理判断能力推测出与其他实体的关联。

需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。

以上为对本申请所提供的一种数据存储方法、存储介质及设备的描述,对于本领域的技术人员,依据本申请实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1