本发明涉及数据处理,具体涉及基于大数据的高校招聘信息管理方法。
背景技术:
1、高校招聘行业正经历数字化转型,从传统的纸质招聘向数字招聘、在线招聘转变,这为高校提供了更多的招聘机会。利用社交媒体平台,高校能够更广泛地发布招聘信息,吸引更多的求职者;同时,一些平台也提供了直接在社交媒体上进行初步筛选的功能,高校使用人才管理系统来集中存储和管理招聘相关数据,包括求职者个人信息、面试进展等,针对这些招聘信息的存储,为保证信息的准确性,现有方法常利用无损压缩的方式进行压缩存储。
2、在通过霍夫曼编码对高校招聘信息进行编码压缩时,由于霍夫曼编码的特性是为了最大限度减小整体数据量,但是高校招聘信息中各种数据的字符种类过多,会提升数据的复杂程度,加深霍夫曼树的深度,使霍夫曼编码树对应部分数据的编码字长过于冗长,进而使得霍夫曼编码的压缩效率不高。
技术实现思路
1、为解决上述问题,本发明提供基于大数据的高校招聘信息管理方法。
2、本发明的基于大数据的高校招聘信息管理方法采用如下技术方案:
3、本发明一个实施例提供了基于大数据的高校招聘信息管理方法,该方法包括以下步骤:
4、采集高校的招聘信息数据,将招聘信息数据转化为待编码序列;
5、对待编码序列进行重排得到第一待编码序列;根据第一待编码序列中的字符,得到若干不同的字符类别和第二待编码序列,根据第二待编码序列,获取每种字符类别的若干字符组合和每个字符组合在第二待编码序列中出现的频率,根据每种字符类别的若干字符组合和每个字符组合在第二待编码序列中出现的频率,得到每种字符类别中每个字符组合的压缩程度;
6、根据每种字符类别在第二待编码序列中字符组合的项数,得到每种字符类别中每个字符组合和单项数字符组合的压缩次数,根据第一待编码序列和每种字符类别的每个字符组合,得到第三待编码序列,根据每种字符类别中每个字符组合和单项数字符组合的压缩次数、第一待编码序列及第三待编码序列,得到每种字符类别中每个字符组合的综合压缩效果;
7、根据每种字符类别中每个字符组合的压缩程度和每种字符类别中每个字符组合的综合压缩效果,得到每种字符类别的最优字符组合,根据每种字符类别的最优字符组合得到最终待编码序列并对最终待编码序列进行压缩存储。
8、进一步地,所述根据第一待编码序列中的字符,得到若干不同的字符类别和第二待编码序列,包括的具体步骤如下:
9、将第一待编码序列中每一位不同的字符作为一个字符类别,得到若干不同的字符类别,将第一待编码序列中同一种字符类别连续出现的若干字符作为一个字符组合,得到第二待编码序列。
10、进一步地,所述根据第二待编码序列,获取每种字符类别的若干字符组合和每个字符组合在第二待编码序列中出现的频率,包括的具体步骤如下:
11、在第二待编码序列中获取每种字符类别的若干字符组合,其中字符组合具体获取方法如下:将第二待编码序列中同一个字符连续出现的若干字符作为该同一个字符对应字符类别的一个字符组合;在第二待编码序列中获取每个字符组合出现的频率。
12、进一步地,所述根据每种字符类别的若干字符组合和每个字符组合在第二待编码序列中出现的频率,得到每种字符类别中每个字符组合的压缩程度,包括的具体步骤如下:
13、,
14、式中,为第i种字符类别的第j个字符组合的项数,其中第j个字符组合的项数具体为:第j个字符组合中单个字符的数量,第j个字符组合的项数大于1,为第i种字符类别的第j个字符组合在第二待编码序列中出现的频率,为第i种字符类别中第j个字符组合的压缩程度。
15、进一步地,所述根据每种字符类别在第二待编码序列中字符组合的项数,得到每种字符类别中每个字符组合和单项数字符组合的压缩次数,包括的具体步骤如下:
16、,
17、式中,为第i种字符类别中项数为g的字符组合在第二待编码序列中出现的频率,为第i种字符类别中项数为g的字符组合的项数,为第i种字符类别中第j个字符组合的项数,其中第j个字符组合的项数大于1,为向下取整函数,为取余函数,为第i种字符类别在第二待编码序列中字符组合的最大项数,为第i种字符类别中第j个字符组合和单项数字符组合的压缩次数,其中单项数字符组合为项数为1的字符组合。
18、进一步地,所述根据每种字符类别中每个字符组合和单项数字符组合的压缩次数、第一待编码序列及第三待编码序列,得到每种字符类别中每个字符组合的综合压缩效果,包括的具体步骤如下:
19、,
20、式中,为第i种字符类别中第j个字符组合和单项数字符组合的压缩次数,其中第j个字符组合的项数大于1,为第i种字符类别中单项数字符组合在第三待编码序列中出现的频率,为第i种字符类别中单项数字符组合在第一待编码序列中出现的频率,为第i种字符类别中第j个字符组合在第三待编码序列中出现的频率,为取绝对值,为第i种字符类别中第j个字符组合的综合压缩效果。
21、进一步地,所述根据每种字符类别中每个字符组合的压缩程度和每种字符类别中每个字符组合的综合压缩效果,得到每种字符类别的最优字符组合,包括的具体步骤如下:
22、,
23、式中,为第i种字符类别中第j个字符组合的压缩程度,其中第j个字符组合的项数大于1,为第i种字符类别中第j个字符组合的综合压缩效果,为以自然常数为底的指数函数,为第i种字符类别中第j个字符组合的最终压缩效果;
24、获取第i种字符类别中每个字符组合的最终压缩效果,将最终压缩效果最大值对应的字符组合作为第i种字符类别的最优字符组合。
25、进一步地,所述根据每种字符类别的最优字符组合得到最终待编码序列并对最终待编码序列进行压缩存储,包括的具体步骤如下:
26、对于第i种字符类别的最优字符组合,在第一待编码序列中每出现一个第i种字符类别的最优字符组合时,将每次出现的第i种字符类别的最优字符组合分别作为一个数据,得到最终待编码序列,将最终待编码序列利用霍夫曼编码进行压缩并存储。
27、进一步地,所述根据第一待编码序列和每种字符类别的每个字符组合,得到第三待编码序列,包括的具体步骤如下:
28、对于第i种字符类别的第j个字符组合,其中第j个字符组合的项数大于1,在第一待编码序列中每出现一个第j个字符组合时,将每次出现的第j个字符组合分别作为一个数据,得到第三待编码序列。
29、进一步地,所述对待编码序列进行重排得到第一待编码序列,包括的具体步骤如下:
30、利用bwt算法对待编码序列进行重排,得到第一待编码序列。
31、本发明的技术方案的有益效果是:本发明在采集到高校的招聘信息数据对应的待编码序列后,通过分析待编码序列中不同字符组合下字符组合的项数、字符组合出现的频率、及字符组合的类别对压缩率的影响程度,得到每种字符类别中每个字符组合的压缩程度,由于不同字符组合对应不同的压缩程度,为获取每种字符类别中最优的字符组合,通过获取每种字符类别中每个字符组合和单项数字符组合的压缩次数和每种字符类别中每个字符组合的综合压缩效果,进而得到每种字符类别的最优字符组合,通过最优字符组合得到高校招聘信息数据的最终待编码序列,最后利用霍夫曼编码对最终待编码序列进行压缩并存储,提高了对高校招聘信息数据对应的待编码序列的压缩效率。