一种提取职位技能需求的方法和装置与流程

文档序号:13282242阅读:365来源:国知局
一种提取职位技能需求的方法和装置与流程

本发明涉及数据处理技术领域,具体涉及一种提取职位技能需求的方法和装置。



背景技术:

随着互联网技术的高速发展,人们通常通过互联网的招聘网站进行求职。招聘网站通常会根据职位类别对具体的招聘职位进行类别划分,例如职位类别可以包括互联网、金融和医疗等,每个类别下包含具体的招聘信息。招聘网站通常会统计各职位类别的热门技能需求,例如互联网类的热门技能需求通常包括java开发经验和ios开发经验,从而帮助求职者更高效地求职。

现有技术中,为了获取某一职位类别的技能需求,通常会在职位数据库中对属于该职位类别的招聘信息进行查询,统计该职位类别下各招聘信息中包含的相关技能需求的数量,根据技能需求的出现频次获取该职位类别下的人们职位需求。

因此,现有技术至少存在以下技术缺陷:由于招聘网站对职位类别的划分只是非常粗略的划分,特定职位类别所包含的招聘职位可能并不属于该职业分类,造成了在统计时将不属于该职业分类的招聘信息进行了统计,使得统计得到的技能需求不准确。



技术实现要素:

针对现有技术中存在的上诉缺陷,本发明提供一种提取职位技能需求的方法和装置。

本发明的一方面提供一种提取职位技能需求的方法,包括:s1,通过技能词语义网络,获取职位类别下多个技能词分别对应的向量信息;s2,根据所述向量信息获取所述多个技能词的平均向量,并根据所述平均向量进行聚类处理,获取目标技能词;s3,根据所述目标技能词的词频,获取所述职位类别下的技能需求。

其中,所述s2中根据所述平均向量进行聚类处理,获取目标技能词的步骤进一步包括:获取所述平均向量的二范数;根据所述二范数对所述多个技能词进行聚类处理,获取所述目标技能词。

其中,所述步骤s1前还包括:获取招聘信息,并对所述招聘信息进行数据清洗;对招聘信息中包含的技能描述信息进行分词处理,获取非技能词表;根据所述非技能词表,对所述技能描述信息进行过滤,获取所述技能词;根据所述技能词构建所述技能词语义网络。

其中,所述步骤s1进一步包括:对所述职位类别下的技能描述信息进行分词处理,并通过所述技能词语义网络获取技能词表;通过所述技能词语义网络,获取所述技能词表中包含的所述多个技能词分别对应的向量信息。

其中,所述s2中根据所述二范数对所述多个技能词进行聚类处理的步骤进一步包括:将所述二范数的近似值、所述职位类别和工作年限作为联合主键进行聚类处理。

其中,所述步骤s3还包括:获取所述职位类别下的平均薪资。

其中,所述根据所述技能词构建所述技能词语义网络的步骤进一步包括:对所述技能词进行word2vec模型训练,获取所述技能词语义网络结构。

本发明另一方面提供一种提取职位技能需求的装置,包括:向量获取模块,用于通过技能词语义网络,获取职位类别下多个技能词分别对应的向量信息;聚类处理模块,用于根据所述向量信息获取所述多个技能词的平均向量,并根据所述平均向量进行聚类处理,获取目标技能词;需求获取模块,用于根据所述目标技能词的词频,获取所述职位类别下的技能需求。

本发明的又一方面提供一种提取职位技能需求的设备,包括:至少一个处理器;以及与所述处理器通信连接的至少一个存储器,其中:所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行本发明上述方面提供的提取职位技能需求的方法,例如包括:s1,通过技能词语义网络,获取职位类别下多个技能词分别对应的向量信息;s2,根据所述向量信息获取所述多个技能词的平均向量,并根据所述平均向量进行聚类处理,获取目标技能词;s3,根据所述目标技能词的词频,获取所述职位类别下的技能需求。

本发明的又一方面提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行本发明上述方面提供的提取职位技能需求的方法,例如包括:s1,通过技能词语义网络,获取职位类别下多个技能词分别对应的向量信息;s2,根据所述向量信息获取所述多个技能词的平均向量,并根据所述平均向量进行聚类处理,获取目标技能词;s3,根据所述目标技能词的词频,获取所述职位类别下的技能需求。

本发明提供的提取职位技能需求的方法和装置,通过构建技能词语义网络并进行聚类处理,获取相似度较高的目标技能词和技能需求,有效地解决了现有技术中存在的统计不准确的问题,提高了计算精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的提取职位技能需求的方法的流程示意图;

图2为本发明实施例提供的提取职位技能需求的方法的构建技能词语义网络的流程示意图;

图3为本发明实施例提供的提取职位技能需求的方法的聚类处理的流程示意图;

图4为本发明实施例提供的提取职位技能需求的装置的结构示意图;

图5为本发明实施例提供的提取职位技能需求的设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

图1为本发明实施例提供的提取职位技能需求的方法的流程示意图,如图1所示,包括:s1,通过技能词语义网络,获取职位类别下多个技能词分别对应的向量信息;s2,根据所述向量信息获取所述多个技能词的平均向量,并根据所述平均向量进行聚类处理,获取目标技能词;s3,根据所述目标技能词的词频,获取所述职位类别下的技能需求。

其中,技能词是招聘信息中的表达技能需求的词语,例如在某一互联网开发工程师的招聘信息中的,“ios开发”和“c语言”等表示对技能需求的词语,即为技能词。

其中,语义网络(semanticnetwork)是一种用图来表示知识的结构化方式。在一个语义网络中,信息被表达为一组结点,结点通过一组带标记的有向直线彼此相连,用于表示结点间的关系。本发明实施例中的技能词语义网络,是根据技能词构建的语义网络;该技能词语义网络具有技能词相似度的接口和获取技能词向量的接口,即根据该技能词语义网络能够判断一个词语是否为技能词,若为技能词,则可以获取该技能词对应的向量信息,向量信息的差别可以反映技能词之间的差异。

其中,聚类是将物理或抽象对象的集合分成由类似的对象组成的多个类的过程。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。

在步骤s1中,将技能词转换成向量信息;具体地,由于每个技能词都能够通过预先构建的技能词语义网络,获取到对应的向量信息,因此,将属于同一职位类别下的多个技能词分别进行转换,即可以得到该职位类别下的多个技能词分别对应的多个向量信息。

在步骤s2中,根据步骤s1中获取的向量信息,可以对该职位类别下的所有技能词分别对应的向量信息,求取平均向量;平均向量可以反映职位类别下全部技能词的平均值。

再根据平均向量,对属于同一职位类别的多个技能词进行聚类,聚类得到的目标技能词具有较高的相似性,并且能够反映该职位类别的技能需求。通过聚类的步骤能够排除掉该职位类别下,与其他技能词相似程度较低的技能词,即解决了现有技术中存在的粗略分类造成的不属于该职位类别的招聘信息所包含的技能词对统计结果的影响。

在步骤s3中,根据步骤s2中获取的目标技能词,为了获得该职位分类下较为热门的职位需求,可以根据目标技能词的词频对目标技能词进行排序,获取频率较高的热门的目标技能词;可以获取到与热门的目标技能词分别对应的技能需求。

本发明实施例提供的提取职位技能需求的方法,通过构建技能词语义网络并进行聚类处理,获取相似度较高的目标技能词和技能需求,有效地解决了现有技术中存在的统计不准确的问题,提高了计算精度。

在上述任一实施例的基础上,所述s2中根据所述平均向量进行聚类处理,获取目标技能词的步骤进一步包括:获取所述平均向量的二范数;根据所述二范数对所述多个技能词进行聚类处理,获取所述目标技能词。

其中,范数,是具有“长度”概念的函数。在线性代数、泛函分析及相关的数学领域,范数是一个函数,其为矢量空间内的所有矢量赋予非零的正长度或大小。而二范数指矩阵a的2范数,就是a的转置矩阵与矩阵a的积的最大特征根的平方根值,是指空间上两个向量矩阵的直线距离。

具体地,如果直接基于平均向量进行聚类,可能会造成实际操作过程中计算量大、聚类数目无法确定的缺陷。因此,在本发明实施例中,通过将向量转换为二范数,即将技能词向量转换为一个double数值,再根据二范数对多个技能词进行聚类,实现了对数据的降维,针对处理互联网中大规模的招聘信息,有效提高了运算效率。

在上述任一实施例的基础上,所述步骤s1前还包括:获取招聘信息,并对所述招聘信息进行数据清洗;对招聘信息中包含的技能描述信息进行分词处理,获取非技能词表;根据所述非技能词表,对所述技能描述信息进行过滤,获取所述技能词;根据所述技能词构建所述技能词语义网络。

其中,分词处理是指中文分词(chinesewordsegmentation),具体是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。

图2为本发明实施例提供的提取职位技能需求的方法的构建技能词语义网络的流程示意图,如图2所示,在步骤s1前需要对技能词语义网络进行构建,主要包括如下步骤:

步骤1,通过利用爬虫技术,爬取出互联网中的招聘信息;招聘信息中包含职位类别、工作年限和所需要的技能描述信息;其中,技能描述信息包含技能词和其他描述信息。获取招聘信息后,需要对数据进行清洗操作,剔除爬取的不完整信息、内容缺失信息或者机器人生成的扎乱文本信息;

步骤2,对技能描述信息进行分词处理;分词后,进行词频统计,然后依照词频的排名,筛选出不是专业技能词的相关文本信息(如,掌握,熟悉,了解等),记录下来作为非技能词表;

步骤3,对技能描述信息进行过滤,过滤条件为将非技能词表中包含的数据全部去除;去除后,技能描述信息只剩余技能词,不包含不相关的非技能词;

步骤4,根据步骤3中获取的技能词构建技能词语义网络。

在上述任一实施例的基础上,所述步骤s1进一步包括:对所述职位类别下的技能描述信息进行分词处理,并通过所述技能词语义网络获取技能词表;通过所述技能词语义网络,获取所述技能词表中包含的所述多个技能词分别对应的向量信息。

图3为本发明实施例提供的提取职位技能需求的方法的聚类处理的流程示意图,如图3所示,具体地,对爬取的属于职位类别下的技能描述信息进行分词处理,处理后,将每个词语去技能语义网络中进行比对,确认在技能词语义网络中是否存在;如果存在,则表明这个词是技能词,如果不存在,则表明这个词不是技能词。基于此,可以得出技能描述信息中的技能词表。

根据上述步骤获取的技能词表,每个词在技能词语义网络中都可以获取相应的向量信息。

在上述任一实施例的基础上,所述s2中根据所述二范数对所述多个技能词进行聚类处理的步骤进一步包括:将所述二范数的近似值、所述职位类别和工作年限作为联合主键进行聚类处理。

其中,二范数的近似值可以取二范数的前预设位数的数值,例如前6位(控制为前1-10位,能在精度和计算效率上取得平衡);即利用二范数的近似值标识技能词的相似度以进行聚类处理。

其中,由于工作年限的不同对技能需求的结果会产生较大影响,因此将工作年限也作为聚类的条件能够取得较好的聚类结果。

具体地,根据技能词平均向量获取的二范数的近似值(例如二范数的前6位数值)、职位类别及工作年限,作为联合主键进行聚类。可以得出工作年限相同,职位类别相同,相似的技能词有哪些。

在上述任一实施例的基础上,所述步骤s3还包括:获取所述职位类别下的平均薪资。

具体地,在步骤s2中获取到目标技能词后,可以剔除掉相似度较低的技能词以及所对应的招聘信息,利用目标技能词及其对应的招聘信息能够获取到该职位类别下的平均薪资,该平均薪资的值与基于现有技术中粗略分类得到的职位类别下得到的平均薪资相比更加精确。

在上述任一实施例的基础上,所述根据所述技能词构建所述技能词语义网络的步骤进一步包括:对所述技能词进行word2vec模型训练,获取所述技能词语义网络结构。

其中,word2vec是开源的一款将词表征为实数值向量的高效工具,其利用深度学习的思想,可以通过训练,把对文本内容的处理简化为k维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。word2vec输出的词向量可以被用来做很多nlp相关的工作,比如聚类、找同义词和词性分析等。如果换个思路,把词当作特征,那么word2vec就可以把特征映射到k维向量空间,可以为文本数据寻求更加深层次的特征表示。

具体地,根据获取的技能词,根据word2vec算法构建技能词语义网络。通过该技能词语义网络,可以判定出一个词语是否为技能词,并且获取这一技能词的向量信息。

图4为本发明实施例提供的提取职位技能需求的装置的结构示意图,如图4所示,包括:向量获取模块401,用于通过技能词语义网络,获取职位类别下多个技能词分别对应的向量信息;聚类处理模块402,用于根据所述向量信息获取所述多个技能词的平均向量,并根据所述平均向量进行聚类处理,获取目标技能词;需求获取模块403,用于根据所述目标技能词的词频,获取所述职位类别下的技能需求。

其中,向量获取模块401将技能词转换成向量信息;具体地,由于每个技能词都能够通过预先构建的技能词语义网络,获取到对应的向量信息,因此,向量获取模块401将属于同一职位类别下的多个技能词分别进行转换,即可以得到该职位类别下的多个技能词分别对应的多个向量信息。

其中,聚类处理模块402根据向量获取模块401中获取的向量信息,可以对该职位类别下的所有技能词分别对应的向量信息,求取平均向量;平均向量可以反映职位类别下全部技能词的平均值。

聚类处理模块402再根据平均向量,对属于同一职位类别的多个技能词进行聚类,聚类得到的目标技能词具有较高的相似性,并且能够反映该职位类别的技能需求。通过聚类能够排除掉该职位类别下,与其他技能词相似程度较低的技能词,即解决了现有技术中存在的粗略分类造成的不属于该职位类别的招聘信息所包含的技能词对统计结果的影响。

其中,需求获取模块403根据聚类处理模块402中获取的目标技能词,为了获得该职位分类下较为热门的职位需求,需求获取模块403可以根据目标技能词的词频对目标技能词进行排序,获取频率较高的热门的目标技能词;需求获取模块403可以获取到与热门的目标技能词分别对应的技能需求。

本发明实施例提供的提取职位技能需求的装置,通过构建技能词语义网络并进行聚类处理,获取相似度较高的目标技能词和技能需求,有效地解决了现有技术中存在的统计不准确的问题,提高了计算精度。

在上述任一实施例的基础上,所述聚类处理模块402进一步用于:获取所述平均向量的二范数;根据所述二范数对所述多个技能词进行聚类处理,获取所述目标技能词。

在上述任一实施例的基础上,所述装置还包括:网络构建模块,用于获取招聘信息,并对所述招聘信息进行数据清洗;对招聘信息中包含的技能描述信息进行分词处理,获取非技能词表;根据所述非技能词表,对所述技能描述信息进行过滤,获取所述技能词;根据所述技能词构建所述技能词语义网络。

在上述任一实施例的基础上,所述向量获取模块401进一步用于:对所述职位类别下的技能描述信息进行分词处理,并通过所述技能词语义网络获取技能词表;通过所述技能词语义网络,获取所述技能词表中包含的所述多个技能词分别对应的向量信息。

在上述任一实施例的基础上,所述聚类处理模块402进一步用于:将所述二范数的近似值、所述职位类别和工作年限作为联合主键进行聚类处理。

在上述任一实施例的基础上,所述需求获取模块403还包括薪资单元,用于获取所述职位类别下的平均薪资。

在上述任一实施例的基础上,所述网络构建模块具体用于:对所述技能词进行word2vec模型训练,获取所述技能词语义网络结构。

图5为本发明实施例提供的提取职位技能需求的设备的结构示意图,如图5所示,该设备包括:至少一个处理器501;以及与所述处理器501通信连接的至少一个存储器502,其中:所述存储器502存储有可被所述处理器501执行的程序指令,所述处理器501调用所述程序指令能够执行上述各实施例所提供的提取职位技能需求的方法,例如包括:s1,通过技能词语义网络,获取职位类别下多个技能词分别对应的向量信息;s2,根据所述向量信息获取所述多个技能词的平均向量,并根据所述平均向量进行聚类处理,获取目标技能词;s3,根据所述目标技能词的词频,获取所述职位类别下的技能需求。

本发明实施例还提供一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储计算机指令,该计算机指令使计算机执行对应实施例所提供的提取职位技能需求的方法,例如包括:s1,通过技能词语义网络,获取职位类别下多个技能词分别对应的向量信息;s2,根据所述向量信息获取所述多个技能词的平均向量,并根据所述平均向量进行聚类处理,获取目标技能词;s3,根据所述目标技能词的词频,获取所述职位类别下的技能需求。

以上所描述的提取职位技能需求的设备等实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分方法。

本发明实施例提供的提取职位技能的方法、装置和设备,提供了一整套端到端的完整的求职职位需求的方案,采用了先进的深度学习语义网络,同时深度优化了大规模求职信息的聚类算法,解决了在大规模数据上基于语义相似度进行聚类的复杂问题,相比传统方法具有节约人力,提升精度,运算速度快等多方面的优点。

与现有技术对比,本发明实施例提出了一种基于深度学习的技能词语义网络,通过利用这一网络可以识别出相近的技能词,与传统的基于关键词的对比,提高了整体的精度和效果,解决了在技能词匹配的过程中技能词个数不相等的问题。传统的方法一般采用相同数量的技能词,但这种方法在提取技能词阶段就失去了一些潜在的信息。本发明实施例在保留全部技能词的框架下进行关键词匹配且是基于语义的匹配,效果更好。

并且,本发明实施例提供了一种在大规模数据上计算聚类的方法,通过将平均向量降维的方法来获取相似技能词信息;在保证精度可接受的情况下,大规模的提升了计算效率,为后期算法的实现提供了巨大的便利。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1