职业信息提供方法及系统与流程

文档序号:13743236阅读:187来源:国知局
技术领域本发明涉及一种职业信息提供方法及系统。

背景技术:
一到毕业季,面对着众多纷杂的招聘信息,毕业生们又陷入了迷茫而纠结的求职历程。目前,国内的知名招聘网站,如智联招聘、中华英才网、51job等,在收取求职者的简历之后,通过求职者所填写的专业、个人信息和求职意向等信息进行一些职业的推荐。但是这种职业推荐方式是一种局限于基于模版内容的匹配推荐方法,其最大的局限性在于没有宏观考虑求职者在求职时所关注的各类因素(例如地域、专业、兴趣爱好等)的占比,所以造成招聘者和求职者之间的信息不对称,最终导致企业抱怨招不到合适的员工,而毕业生又感叹找不到心仪的职业,职业的推荐效果差。

技术实现要素:
本发明所要解决的技术问题是:如何提高职业推荐的效果。为解决上述技术问题,本发明提出了一种职业信息提供方法及系统。第一方面,该方法包括:获取当前用户所修的专业信息,并确定所述专业信息与各行业的关联度,选取第一预设数量的关联度最大的行业作为一级行业;获取当前用户的兴趣爱好信息,并确定所述兴趣爱好信息与各行业的关联度,选取第二预设数量的关联度最大的行业作为二级行业;根据当前用户的大学所在城市和户籍所在地,从预先建立的热度行业库中选取第三预设数量的热度值最高的行业作为三级行业;根据为所述一级行业、所述二级行业和所述三级行业预先设置的推荐分值,计算所选取出的每一行业的总推荐分值;根据所述每一行业的总推荐分值,选取出第四预设数量的总推荐分值最高的行业作为推荐行业,为用户提供所述推荐行业中的职业信息。可选的,所述为用户提供所述推荐行业中的职业信息,包括:获取当前用户在社交网络平台上发布的历史状态信息;计算所述历史状态信息与所述推荐行业中的各个职业的关联度,选取第五预设数量的关联度最大的职业作为推荐职业推荐至当前用户。可选的,所述计算所述历史状态信息与所述推荐行业中的各个职业的关联度,选取第五预设数量的关联度最大的职业作为推荐职业,包括:对所述历史状态信息进行分词,并计算分词后得到的每一个词的词频,建立所述历史状态信息的词向量;计算所述词向量与预先建立的各个职业的职业特征数据库中特征词向量之间的距离;选取所述第五预设数量的距离最小的职业作为所述推荐职业。可选的,所述为用户提供所述推荐行业中的职业信息,还包括:根据职业-兴趣测试方法确定当前用户的职业类型;从所述推荐职业中选取出属于所述职业类型的职业作为重点推荐职业推荐至当前用户。可选的,该方法还包括:确定当前用户在社交网络平台中的关联用户的推荐职业;根据当前用户和各个关联用户在所述历史状态信息中的互动状态信息、及当前用户的推荐职业和关联用户的推荐职业之间的重合度,计算当前用户与各个关联用户之间的职业亲密度;制作以当前用户为中心用于表征当前用户与各个关联用户之间职业亲密度的职业链网,并将所述职业链网推荐至当前用户。可选的,所述确定所述专业信息与各行业的关联度,或者所述确定所述兴趣爱好信息与各行业的关联度,包括:计算对应信息与预先建立的行业特征数据库中各行业的特征词之间的语义相似度,其中:所述语义相似度用于表征所述对应信息与各行业的关联度,所述对应信息为所述专业信息或所述兴趣爱好信息。可选的,每一行业的行业特征数据库或每一职业的职业特征数据库的建立方法包括:建立语料库,所述语料库中包含对应行业或对应职业的若干描述语料;利用词频-逆文档频率算法从所述语料库中提取第六预设数量的描述关键词;计算每一描述关键词与对应行业或对应职业之间的卡方值;将第七预设数量的卡方值最大的描述关键词作为对应行业或对应职业的特征词,形成对应行业的行业特征数据库或对应职业的职业特征数据库,其中:所述对应职业的职业特征数据库中每一特征词的词频与逆文档频率的乘积作为对应特征词的权重值,各特征词的权重值形成对应职业的特征词向量。可选的,所述利用词频-逆文档频率算法从所述语料库中提取第六预设数量的描述关键词,包括:将所述语料库中的各描述语料进行切分;计算切分后得到的每一个词的词频和逆文档频率;计算每一个词的词频与对应的逆文档频率的乘积,并将所述乘积作为对应词的权重;从切分后得到的各个词中选取所述第六预设数量的权重值最大的词作为所述描述关键词。可选的,所述根据当前用户的大学所在城市和户籍所在地,从预先建立的热度行业库中选取第三预设数量的热度值最高的行业作为三级行业,包括:判断所述当前用户的大学所在城市是否为一线城市;若是,从所述大学所在城市对应的热度行业库中选取所述第三预设数量的热度值最高的行业作为三级行业;否则,从所述户籍所在地周边的一线城市和/或二线城市所对应的热度行业库中选取所述第三数量的热度值最高的行业作为三级行业。第二方面,该系统包括:第一选取模块,用于获取当前用户所修的专业信息,并确定所述专业信息与各行业的关联度,选取第一预设数量的关联度最大的行业作为一级行业;第二选取模块,用于获取当前用户的兴趣爱好信息,并确定所述兴趣爱好信息与各行业的关联度,选取第二预设数量的关联度最大的行业作为二级行业;第三选取模块,用于根据当前用户的大学所在城市或户籍所在地,从预先建立的热度行业库中选取第三预设数量的热度值最高的行业作为三级行业;计算模块,用于根据为所述一级行业、所述二级行业和所述三级行业预先设置的推荐分值,计算所选取出的每一行业的总推荐分值;第四选取模块,用于根据所述每一行业的总推荐分值,选取出第四预设数量的总推荐分值最高的行业作为推荐行业,为用户提供所述推荐行业中的职业信息。本发明提供的职业信息提供方法及系统中,考虑到当前用户所修的专业、兴趣爱好及就业区域等信息,并且考虑到当前用户在求职时对专业、兴趣爱好及就业区域的看重程度,为求职者推荐较适合的行业,进而根据推荐的行业为用户提供职业。可见,本发明提供的职业信息提供方法考虑求职者在求职时通常考虑的因素的占比,提高招聘者与求职者之间的信息对称程度,提高职业的推荐效果。附图说明通过参考附图会更加清楚的理解本发明的特征信息和优点,附图是示意性的而不应理解为对本发明进行任何限制,在附图中:图1示出了根据本发明职业信息提供方法的流程示意图;图2示出了根据本发明职业信息提供方法确定的一种职业链网的结构示意图;图3示出了根据本发明职业信息提供系统的结构框图。具体实施方式为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。本发明提供一种职业信息提供方法,如图1所示,该方法包括:步骤S1、获取当前用户所修的专业信息,并确定所述专业信息与各行业的关联度,选取第一预设数量的关联度最大的行业作为一级行业;步骤S2、获取当前用户的兴趣爱好信息,并确定所述兴趣爱好信息与各行业的关联度,选取第二预设数量的关联度最大的行业作为二级行业;步骤S3、根据当前用户的大学所在城市或户籍所在地,从预先建立的热度行业库中选取第三预设数量的热度值最高的行业作为三级行业;步骤S4、根据为所述一级行业、所述二级行业和所述三级行业预先设置的推荐分值,计算所选取出的每一行业的总推荐分值;步骤S5、根据所述每一行业的总推荐分值,选取出第四预设数量的总推荐分值最高的行业作为推荐行业,为用户提供所述推荐行业中的职业信息。本发明提供的职业信息提供方法,考虑到当前用户所修的专业、兴趣爱好及就业区域等信息,并且考虑到当前用户在求职时对专业、兴趣爱好及就业区域的看重程度,为求职者推荐较适合的行业,进而根据推荐的行业为用户提供职业信息。可见,本发明提供的职业信息提供方法考虑求职者在求职时通常考虑的因素的占比,提高招聘者与求职者之间的信息对称程度,提高职业的推荐效果。不难理解的是,当前用户的专业信息、兴趣爱好信息、大学所在城市和户籍所在地等信息可以根据用户在注册社交网络平台时所填写的信息或填写的简历中获取。例如用户在注册人人网时以上信息均是需要填写的,因此上述信息可以通过人人网中获取。不难理解的是,各级行业的推荐分值可以通过统计的方法获取大量毕业生在就业时对专业、兴趣爱好、就业城市的注重程度,然后根据关注程度设置推荐分值。例如通过调查问卷的方式统计毕业生对专业、兴趣爱好及就业城市的关注度分别为60%、30%及10%,则对一级行业、二级行业及三级行业的推荐分值可以分别设置为6、3、1。不难理解的是,选取出的一级行业、二级行业及三级行业中一般存在重复的行业,例如一级行业中有计算机行业、半导体行业及通信行业,二级行业中有通信行业、计算机行业和室内设计行业,而三级行业中有通信行业和运输行业。那计算机行业的总推荐分值为一级行业的推荐分值+二级行业的推荐分值,半导体行业的总推荐分值为一级行业的推荐分值,通信行业的总推荐分值为一级行业的推荐分值+二级行业的推荐分值+三级行业的推荐分值,室内设计行业的总推荐分值为二级行业的推荐分值,运输行业的总推荐分值为三级行业的推荐分值。在具体实施时,根据上述步骤S5中得到为用户推荐的行业之后,可以考虑不同的因素为用户提供所推荐行业中不同的职业信息,这里不做限定。例如考虑职业热度的情况下通过将所推荐行业中的热度值最高的几个职业推荐给用户,当然还可以根据其他的因素为用户推荐职业。例如,在考虑用户在社交网络平台中发表的状态信息为用户提供所推荐行业中的职业时,步骤S5中为用户提供所述推荐行业中的职业信息的具体过程可以包括:S6、获取当前用户在社交网络平台上发布的历史状态信息;S7、计算所述历史状态信息与所述推荐行业中的各个职业的关联度,选取第五预设数量的关联度最大的职业作为推荐职业推荐至当前用户。这样做的好处是:通过用户在社交网络平台上的历史状态信息可以知道用户在生活中对哪方面更感兴趣,而这些信息用户在注册社交网络平台时可能不会填写或填写有偏差,因此通过这种方式为用户提供感兴趣的职业,更加真实、可靠。进一步地,上述步骤S7的具体过程可以包括:S71、对所述历史状态信息进行分词,并计算分词后得到的每一个词的词频,建立所述历史状态信息的词向量;S72、计算所述词向量与预先建立的各个职业的职业特征数据库中特征词向量之间的距离;S73、选取所述第五预设数量的距离最小的职业作为所述推荐职业。不难理解的是,利用词频表征词的重要程度,职业特征数据库中特征词向量表征各个特征词在表征相应职业时的重要程度。因此,通过词向量中各个词的词频与职业特征数据库中特征词向量之间的距离表征用户对各职业的感兴趣程度,将第五预设数量的距离最小的职业推荐给用户,提高职业推荐的效果。在具体实施时,选取出第五预设数量的职业之后,还可以采用以下方法进一步缩小推荐职业的范围:根据职业-兴趣测试方法确定当前用户的职业类型;从所述推荐职业中选取出属于所述职业类型的职业作为重点推荐职业推荐至当前用户。不难理解的是,职业-兴趣测试方法可以采用目前现有的各种职业-兴趣测试方法,例如霍兰德职业兴趣测试方法。具体可以通过提供霍兰德职业兴趣测试问卷的方式,根据用户对各个职业类型的测试得分确定用户适合的职业类型。其中,霍兰德职业兴趣测试方法基于霍兰德职业性格理论,是由美国心理学家霍兰德提出的,将职业类型分为六类:艺术型、企业型、调研型、社会型、常规型、实际型六类,其理论的核心为“同属一类型的人与同一类型的职业相互结合,才能达到最适应的状态”。因此,通过这种方式,从选取的第五预设数量的职业后,进一步选择符合用户职业类型的职业推荐给用户,使用户获知自己更加适合的职业。在具体实施时,步骤S1中确定所述专业信息与各行业的关联度的具体过程可以包括:计算所述专业信息与预先建立的行业特征数据库中各行业的特征词之间的语义相似度,其中:所述语义相似度用于表征所述专业信息与各行业的关联度。同样的,在具体实施时,步骤S1中确定所述兴趣爱好信息与各行业的关联度的具体过程可以包括:计算兴趣爱好信息与预先建立的行业特征数据库中各行业的特征词之间的语义相似度,其中:所述语义相似度用于表征兴趣爱好信息与各行业的关联度。根据上述方法确定专业信息或兴趣爱好信息与各行业的关联度的过程中,可先对专业信息或兴趣爱好信息进行分词处理,然后利用语义相似度计算公式计算对应的语义相似度。其中,语义相似度计算公式可以为:sim=Σi=0nDSi+0.2×(Nmax-Nmin)Nmax]]>其中,sim为语义相似度,DSi为对相应信息分词后的第i个关键词与某一行业的行业特征词之间的距离的最大值,Nmin为分词后关键词的个数与某一行业的行业特征词的个数之间的较小值,Nmax为分词后关键词的个数与某一行业的行业特征词的个数之间的较大值。不难理解的是,每一行业包含多个职业,行业和职业之间是有从属关系的。但是上述提到的行业特征数据库和职业特征数据库为两个不同的数据库,其中行业特征数据库中包含表征对应行业的特征词,职业特征数据库中包含表征对应职业的特征词,两个数据库之间是相互独立的关系。在具体实施时,每一行业的行业特征数据库或每一职业的职业特征数据库的建立方法包括:建立语料库,所述语料库中包含对应行业或对应职业的若干描述语料;利用词频-逆文档频率算法从所述语料库中提取第六预设数量的描述关键词;计算每一描述关键词与对应行业或对应职业之间的卡方值;将第七预设数量的卡方值最大的描述关键词作为对应行业或对应职业的特征词,形成对应行业的行业特征数据库或对应职业的职业特征数据库,其中:所述对应职业的职业特征数据库中每一特征词的词频与逆文档频率的乘积作为对应特征词的权重值,各特征词的权重值形成对应职业的特征词向量。可见,行业特征数据库和职业特征数据库的建立方法是相似的,通过卡方检验算法确定对应行业或对应职业的特征词,进而得到行业特征数据库或职业特征数据库。在具体实施时,以职业特征数据库为例说明每一描述关键词与对应职业之间的卡方值的具体计算过程:在职业特征词的选择阶段,主要关心一个词t(随机变量)与某职业c(另一个随机变量)之间是否相互独立。如果独立,则说明词t对职业c没有表征作用。通常将词t与职业c不相关作为原假设,因此选择的过程也就可理解为计算每一个词与职业c的卡方值,并对结果进行从大到小排序(卡方值越大,则原假设越不成立,即t与职业c越相关)。下面以词t为编译器、职业c为软件工程师为例通过下表1说明:表1编译器与软件工程师之间的关系表上表1中的A、B、C、D、N均为包含相应词的文章数量。例如A为既包含软件工程师又包含编译器的文章数量。其中,包含“编译器”的文章的概率是:A+BN]]>其中,属于“软件工程师”类的文章数为A+C,在这些个文档中包含“编译器”这个词的文章应该有:E11=(A+C)(A+B)N]]>但实际属于“软件工程师”又包含“编译器”的文章数是A,因此根据卡方计算公式进行卡方差值计算:D11=(A-E11)2E11]]>根据同样的方法计算卡方差值D12、D21、D22。则:X2(编译器,软件工程师)=D11+D12+D21+D22。将D11,D12,D21,D22的值分别代入并化简,可以得到词t与职业c的卡方值,因此其更一般的形式可以写成:χ2(t,C)=N(AD-BC)2(A+C)(A+B)(B+D)(C+D)]]>因此根据上述方法可以计算出每个词与职业c的卡方值,并正排序,最终选取卡方值最大的若干个特征词。进一步的,在上述数据库建立过程中利用词频-逆文档频率算法从所述语料库中提取第六预设数量的描述关键词的具体过程可包括:将所述语料库中的各描述语料进行切分;计算切分后得到的每一个词的词频和逆文档频率;计算每一个词的词频与对应的逆文档频率的乘积,并将所述乘积作为对应词的权重;从切分后得到的各个词中选取所述第六预设数量的权重值最大的词作为所述描述关键词。不难理解的是,词频为某个词在文中出现的次数,考虑到文章的大小不一样,可采用下式对词频进行归一化处理:TF=kn]]>其中:TF为归一化后的词频,k为某个词在文章中出现的次数,n表示文章总词数。在具体实施时,可以采用下式计算逆文档频率:IDF=log(ws+1)]]>其中:IDF为逆文档频率,w为语料库的文档总数,s为语料库中包含该次的文档数。在具体实施时,步骤S3的具体过程可以包括:判断所述当前用户的大学所在城市是否为一线城市;若是,从所述大学所在城市对应的热度行业库中选取所述第三预设数量的热度值最高的行业作为三级行业;否则,从所述户籍所在地周边的一线城市和/或二线城市所对应的热度行业库中选取所述第三数量的热度值最高的行业作为三级行业。一般情况下,毕业生的就读大学位于一线城市,则毕业生在就业时一般会选择该城市。若毕业生就读于非一线城市,在就业时很可能会选择与户籍所在地较近的一、二线城市。该规律是根据对大量毕业生在就业时对就业城市的选择进行统计得到的,因此将其应用至为用户推荐职业的过程中更具现实性、实用性。不难理解的是,不同的城市有不同的热门行业,因此每一个城市都有自己的热门行业库,每一个行业的热度值可以根据统计的方法获得。在具体实施时,本发明提供的职业信息提供方法还可以包括:确定当前用户在社交网络平台中的关联用户的推荐职业;根据当前用户和各个关联用户在所述历史状态信息中的互动状态信息、及当前用户的推荐职业和关联用户的推荐职业之间的重合度,计算当前用户与各个关联用户之间的职业亲密度;制作以当前用户为中心用于表征当前用户与各个关联用户之间职业亲密度的职业链网,并将所述职业链网推荐至当前用户。这样,通过建立一个职业链网的方式使用户获知周围的好友可能从事的行业,为用户提供一定的参考和对比,增加了用户求职的自信心,可以促进高校毕业生就业。不难理解的是,关联用户的推荐职业可以按照确定当前用户推荐职业的方法进行确定。不难理解的是,当前用户的关联用户可以是用户在社交网络平台(人人网、朋友圈)中的好友。不难理解的是,历史状态信息中的互动状态信息是指关联用户对当前用户的状态信息的评论信息、当前用户对关联用户的状态信息的评论信息。职业亲密度可表征当前用户和关联用户可能从事职业的关联度。职业链网可以具体采用多种形式,例如伞状形式,如图2所示,当前用户与关联用户之间的线段的长短代表职业亲密度的大小,职业亲密度越高,连线线段越短。另外,还可以进一步的计算关联用户的职业分布率,使当前用户获知周围好友可能从事职业的占比。其中,根据当前用户和各关联用户的互动状态信息及推荐职业之间的重合度进行职业亲密度的计算时可以通过分值累加的方式实现:一方面,若当前用户与关联用户的推荐职业中有一个职业重合,则将两者之间的职业亲密度加1,若有两个职业重合则加2,依次类推,有几个职业重合加几分,得到职业重合度的得分。另一方面,通过当前用户和各关联用户的互动状态信息判断出当前用户与关联用户之间的情绪倾向程度,例如在获取的当前用户与某一关联用户的100条互动状态信息中,两者有50条以上的互动状态信息观点一致,则认为当前用户与该关联用户具有较高的情绪倾向程度,此时在两者之间职业重合度得分的基础上加1分,从而得到两者的职业亲密度。应当理解的是,上述过程中的1分、2分、100条、50条等具体数值仅为示例说明,在实际应用中根据情况可以自行设置。不难理解的是,互动状态信息有的有情绪倾向,有的没有情绪倾向。其中有无情绪倾向可以通过朴素贝叶斯算法确定,然后再迭代使用朴素贝叶斯算法,从有情绪的信息中识别出“支持”和“反对”的情绪,从而得知当前用户与关联用户之间的情绪倾向的重合度。其中,朴素贝叶斯算法基于贝叶斯定理,其定理本质与条件概率相关,其确定有无情绪倾向和正负观点倾向的过程除了特征词选取有稍许差别以外,计算过程相同。其中,有无情绪倾向的判断过程可以包括:由于用户状态内容本身多为短句,其中的词汇较少,因此采用以单词为划分粒度的多项分布模型,并且把表情符号也作为单词进行统计,每个单词变量都表示该单词在文件中出现的次数。在多项式模型中,假设某文档D=(T1,T2,…,Tn),Tn指该文档中出现过的单词(可重复),则类条件概率为:P(Tn|C)=sumTk+1sum+F]]>其中,sumTk表示类C下单词Tk在文档中出现过的次数之和,sum表示类C下的单词总数,F表示训练集合中不重复特征词总数,所谓的类为有情绪倾向类或无情绪倾向类。先验概率:P(C)=sumM]]>其中,sum表示类C下单词的总数,M表示整个训练样本的单词总数。则有情绪倾向类、无情绪倾向的先验概率分别为:P(1)=DD3000]]>P(0)=1-P(0)其中,D表示有情绪倾向的所有单词数,D3000表示3000条状态分词后的单词数,1表示有情绪,0表示无情绪。在分析有无情绪倾向时认为单词与单词之间都是相互独立的,因此可以用独立条件下的概率公式。P(1|D)=P(T1|1)×P(T2|1)×……×.P(Tk|1)×P(1)P(0|D)=P(T1|0)×P(T2|0)×……×P(Tk|0)×P(0)如果P(1|D)>P(0|D),则判定该状态信息有情绪倾向,否则判定该状态信息无情绪倾向。应当理解的是,正负观点倾向的判断过程与上述有无情绪倾向的判断过程类似,在实际应用时将其中所使用的特征词做相应的替换即可实现“支持”和“反对”的判别。基于相同的发明构思,本发明还提供一种职业信息提供系统,如图3所示,该系统100包括:第一选取模块101,用于获取当前用户所修的专业信息,并确定所述专业信息与各行业的关联度,选取第一预设数量的关联度最大的行业作为一级行业;第二选取模块102,用于获取当前用户的兴趣爱好信息,并确定所述兴趣爱好信息与各行业的关联度,选取第二预设数量的关联度最大的行业作为二级行业;第三选取模块103,用于根据当前用户的大学所在城市或户籍所在地,从预先建立的热度行业库中选取第三预设数量的热度值最高的行业作为三级行业;计算模块104,用于根据为所述一级行业、所述二级行业和所述三级行业预先设置的推荐分值,计算所选取出的每一行业的总推荐分值;第四选取模块105,用于根据所述每一行业的总推荐分值,选取出第四预设数量的总推荐分值最高的行业作为推荐行业,为用户提供所述推荐行业中的职业信息。在本发明中,术语“第一”、“第二”、“第三”、“第四”、“第五”、“第六”、“第七”仅用于描述目的,而不能理解为指示或暗示相对重要性。术语“多个”指两个或两个以上,除非另有明确的限定。虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1