同一人才不同简历的合并方法及装置与流程

文档序号:18030847发布日期:2019-06-28 22:38阅读:903来源:国知局
同一人才不同简历的合并方法及装置与流程
本发明涉及数据处理
技术领域
,尤其涉及一种同一人才不同简历的合并方法、装置、计算机设备及存储介质。
背景技术
:目前,人才招聘企业或者人力资源行业公司长期积累了大量人才简历,同一个人才可能存在多份内容互相不同的简历。企业对同一人才的多份简历的存储方法主要是存储其中一份简历或保留全部简历。第一种存储方法的弊端是部分人才信息丢失。求职者通常会根据不同职位需求美化简历,因此单份简历可能无法真实地反应求职者的工作经验和能力,这增加企业人才招聘和背景调查成本;第二种方法会浪费企业存储资源,且简历信息分散不利于人才信息维护、不便于全面挖掘人才能力模型等。有鉴于此,有必要提出对目前的简历合并方法进行进一步的改进。技术实现要素:为解决上述至少一技术问题,本发明的主要目的是提供一种同一人才不同简历的合并方法、装置、计算机设备及存储介质。为实现上述目的,本发明采用的第一个技术方案为:提供一种同一人才不同简历的合并方法,包括:在输入的至少两份简历为同一人才时,获取每一简历所包含的基本信息、教育经历、工作经历及更新时间;对不同简历的基本信息进行合并处理,所述基本信息包括姓名、联系方式、邮箱、年龄、所在城市、性别、婚姻状况、户口及学历;对不同简历的教育经历进行合并处理,所述教育经历包括学校名称、专业名称、学历、教育开始时间及教育结束时间;对不同简历的工作经历进行合并处理,所述工作经历包括公司名称、职位名称、工作开始时间、工作结束时间及职位描述;输出合并简历。其中,所述对不同简历的基本信息进行合并处理,所述对不同简历的基本信息进行合并处理,所述基本信息包括表示姓名、联系方式、邮箱、年龄、所在城市、性别、婚姻状况、户口及学历的字段内容,所述字段内容为空时不参与合并,具体包括:根据中文名、姓氏+先生/女士/小姐、英文名的顺序选择合并简历中的姓名;根据去重处理后保留所有邮箱及联系方式确定合并简历中的邮箱及联系方式;根据最近的更新时间、年龄或出生日期生成合并简历中的当前年龄;选择更新时间最近的简历所对应的城市、性别、婚姻状态、户口及学历确定合并简历中的当前基本信息。其中,所述对不同简历的教育经历进行合并处理,具体包括:获取每份简历中每个学历所对应的学校名称;在学历所对应的学校名称不同时,选择准确度最高的学校名称;根据每个学历所对应的学校名称获取对应的专业名称、教育开始时间及教育结束时间,以及将选择的学校名称、专业名称、教育开始时间及教育结束时间作为合并简历中的教育经历。其中,所述对不同简历的工作经历进行合并处理,具体包括:获取不同简历中的所有工作经历;对不同简历中每段工作经历的公司名称及职位名称进行匹配,如果两段工作经历中的公司名称及职位名称均相同,则确定不同简历中的两段工作经历是同段工作经历。其中,所述对不同简历中每段工作经历的公司名称及职位名称进行匹配,还包括:如果两段工作经历的公司名称及职位名称不相同,则继续对不同简历中每段工作经历的公司名称与工作开始时间进行匹配,如果两段工作经历的公司名称与工作开始时间均相同,则确定不同简历中的两段工作经历是同段工作经历;如果两段工作经历的公司名称与工作开始时间不相同,则确定不同简历中的两段工作经历不是同段工作经历。其中,所述确定不同简历中的两段工作经历是同段工作经历之后,还包括:根据确定的两段工作经历是同段工作经历,形成相同工作经历集合;在相同工作经历集合中分别选择出现频率最高的公司名称,以及该公司对应的职位名称、工作开始时间及工作结束时间,以及在相同工作经历集合中选择字符长度最大的职位描述,得到最优选择结果;根据最优选择结果及不同工作经历得出合并简历的所有工作经历集合。其中,所述根据最优选择结果得到匹配后的所有工作经历集合之后,还包括:利用分类算法模型对第一次合并后的所有工作经历进行识别,得到第二个相同工作经历集合;在第二个相同工作经历集合中分别选择出现频率最高的公司名称,以及该公司对应的职位名称、工作开始时间及工作结束时间,以及在第二个相同工作经历集合中选择字符长度最大的职位描述,得到最优选择结果;根据最优选择结果及不同工作经历得出合并简历的所有工作经历集合。为实现上述目的,本发明采用的第二个技术方案为:提供同一人才不同简历的合并装置,包括:获取模块,用于在输入的至少两份简历为同一人才时,获取每一简历所包含的基本信息、教育经历、工作经历及更新时间;第一处理模块,用于对不同简历的基本信息进行合并处理,所述基本信息包括姓名、联系方式、邮箱、年龄、所在城市、性别、婚姻状况、户口及学历;第二处理模块对不同简历的教育经历进行合并处理,所述教育经历包括学校名称、专业名称、学历、教育开始时间及教育结束时间;第三处理模块对不同简历的工作经历进行合并处理,所述工作经历包括公司名称、职位名称、工作开始时间、工作结束时间及职位描述;输出模块,用于输出合并简历。为实现上述目的,本发明采用的第三个技术方案为:提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。为实现上述目的,本发明采用的第四个技术方案为:提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。本发明的技术方案在输入的至少两份简历为同一人才时,先获取每一简历所包含的基本信息、教育经历、工作经历及更新时间;然后对不同简历的基本信息进行合并处理,对不同简历的教育经历进行合并处理,以及对不同简历的工作经历进行合并处理,最后输出合并简历,本方案通过对同一人才不同简历的基本信息、教育经历及工作经历进行合并处理,能够提供同一人才完整详尽的人才信息,降低企业人才维护及背景调查成本,挖掘人才能力模型。附图说明图1为本发明一实施例同一人才不同简历的合并方法的方法流程图;图2为本发明中同段工作经历的识别流程图;图3为本发明中利用合并规则形成合并简历的所有工作经历集合的流程图;图4为本发明中在第一次合并后利用分类算法模型及合并规则形成合并简历的所有工作经历集合的流程图;图5为本发明一实施例同一人才不同简历的合并装置的模块方框图;图6为本发明一实施例计算机设备的内部结构图。本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。需要说明,本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。请参照图1,在本发明实施例中,该同一人才不同简历的合并方法,包括:步骤s10、在输入的至少两份简历为同一人才时,获取每一简历所包含的基本信息、教育经历、工作经历及更新时间;步骤s20、对不同简历的基本信息进行合并处理,所述基本信息包括姓名、联系方式、邮箱、年龄、所在城市、性别、婚姻状况、户口及学历;步骤s30、对不同简历的教育经历进行合并处理,所述教育经历包括学校名称、专业名称、学历、教育开始时间及教育结束时间;步骤s40、对不同简历的工作经历进行合并处理,所述工作经历包括公司名称、职位名称、工作开始时间、工作结束时间及职位描述;步骤s50、输出合并简历。本实施例中,该方法用于对同一人才的不同简历进行合并。每份简历都包含有基本信息、教育经历、工作经历及更新时间,在不同简历合并时主要对基本信息、教育经历及工作经历信息进行合并处理。具体的,在输入的至少两份简历为同一人才时,获取每一简历所包含的基本信息、教育经历、工作经历及更新时间。然后根据合并规则分别对基本信息、教育经历及工作经历进行合并,最后输出合并简历,合并简历能够显示出同一人才更全面更真实的信息,完整地反应出人才的职业经历和能力水平。本发明的技术方案在输入的至少两份简历为同一人才时,先获取每一简历所包含的基本信息、教育经历、工作经历及更新时间;然后对不同简历的基本信息进行合并处理,对不同简历的教育经历进行合并处理,以及对不同简历的工作经历进行合并处理,最后输出合并简历,本方案通过对同一人才不同简历的基本信息、教育经历及工作经历进行合并处理,能够提供同一人才完整详尽的人才信息,降低企业人才维护及背景调查成本,挖掘人才能力模型。在一具体的实施方式中,所述对不同简历的基本信息进行合并处理,所述对不同简历的基本信息进行合并处理,所述基本信息包括表示姓名、联系方式、邮箱、年龄、所在城市、性别、婚姻状况、户口及学历的字段内容,所述字段内容为空时不参与合并,具体包括:根据中文名、姓氏+先生/女士/小姐、英文名的顺序选择合并简历中的姓名;根据去重处理后保留所有邮箱及联系方式确定合并简历中的邮箱及联系方式;根据最近的更新时间、年龄或出生日期生成合并简历中的当前年龄;选择更新时间最近的简历所对应的城市、性别、婚姻状态、户口及学历确定合并简历中的当前基本信息。本实施例中,简历的基本信息包括表示姓名、联系方式、邮箱、年龄、所在城市、性别、婚姻状况、户口及学历的字段内容。在不同简历的基本信息合并处理中,如果某一项基本信息的字段内容为空,则不参与合并处理。如果两份简历中的基本信息的字段内容均不为空,则按照表1所示的合并规则进行合并。需要指出的是,由于不同简历的姓名名称可能出现差异,可以按照中文名、姓氏+先生/女士/小姐、英文名的顺序选择出合并的姓名。对于年龄、所在城市、性别、婚姻状况、户口及学历可根据最新更新的方式来选择。上述的基本信息合并规则,请参照表1。表1字段名称合并规则姓名按照中文名、姓氏+先生/女士/小姐、英文名的顺序选择姓名联系方式去重后保留所有联系方式邮箱去重后保留所有邮箱年龄根据最近的更新时间和年龄或出生日期生成当前年龄所在城市选择更新时间最近的简历对应的所在城市性别选择更新时间最近的简历对应的性别婚姻状况选择更新时间最近的简历对应的婚姻状况户口选择更新时间最近的简历对应的户口学历选择更新时间最近的简历对应的学历在一具体的实施方式中,所述对不同简历的教育经历进行合并处理,具体包括:获取每份简历中每个学历所对应的学校名称;在学历所对应的学校名称不同时,选择准确度最高的学校名称;根据每个学历所对应的学校名称获取对应的专业名称、教育开始时间及教育结束时间,以及将选择的学校名称、专业名称、教育开始时间及教育结束时间作为合并简历中的教育经历。本实施例中,结合人才所有简历中的教育经历,每个学历生成一段教育经历。下面列举两份简历的合并实例。简历a有一段本科教育经历,简历b有一段本科教育经历和一段研究生教育经历。一方面,获取本科学历的教育经历,如果简历a和b的本科学历对应的学校名称相同,则取任意一个学校名称作为本科学历对应的学校,如果不同,则取准确度最高的作为本科学历对应的学校。准确度取决于学校名称标准化后的频繁度和简历更新时间。学校名称标准化是把对同一个学校的不同描述标准化为同一种,如“武大”、“wuhanuniversity”会标准化为“武汉大学”;然后根据选定的学校名称选择对应的专业名称、教育开始和结束时间。另一方面,获取研究生学历的教育经历,只有简历b有研究生学历,可直接选择简历b中的研究生教育经历作为合并后简历的研究生教育经历。请参照图2,图2为本发明中同段工作经历的识别流程图。在一具体的实施方式中,所述对不同简历的工作经历进行合并处理,具体包括:获取不同简历中的所有工作经历;对不同简历中每段工作经历的公司名称及职位名称进行匹配,如果两段工作经历中的公司名称及职位名称均相同,则确定不同简历中的两段工作经历是同段工作经历。进一步的,所述对不同简历中每段工作经历的公司名称及职位名称进行匹配,还包括:如果两段工作经历的公司名称及职位名称不相同,则继续对不同简历中每段工作经历的公司名称与工作开始时间进行匹配,如果两段工作经历的公司名称与工作开始时间均相同,则确定不同简历中的两段工作经历是同段工作经历;如果两段工作经历的公司名称与工作开始时间不相同,则确定不同简历中的两段工作经历不是同段工作经历。本实施例中,在不同简历的工作经历合并处理中,判断两段工作经历的公司名称+职位名称或公司名称+工作开始时间是否相同,如果相同则判断为同一段工作经历,如果上述两种方式均不相同则判断为不是同段工作经历,如此可以提高判断结果的准确性。请参照图3,图3为本发明中利用合并规则形成合并简历的所有工作经历集合的流程图。进一步的,所述确定不同简历中的两段工作经历是同段工作经历之后,还包括:根据确定的两段工作经历是同段工作经历,形成相同工作经历集合;在相同工作经历集合中分别选择出现频率最高的公司名称,以及该公司对应的职位名称、工作开始时间及工作结束时间,以及在相同工作经历集合中选择字符长度最大的职位描述,得到最优选择结果;根据最优选择结果及不同工作经历得出合并简历的所有工作经历集合。工作经历合并的关键在于相同工作经历的判断。本实施例中,在工作经历合并处理中,可以采用如表2所示的合并规则,对同段工作经历进行合并,利用合并的同段工作经历与不同工作经历形成合并简历的所有工作经历集合。表2请参照图4,图4为本发明中在第一次合并后利用分类算法模型及合并规则形成合并简历的所有工作经历集合的流程图。进一步的,所述根据最优选择结果得到匹配后的所有工作经历集合之后,还包括:利用分类算法模型对第一次合并后的所有工作经历进行识别,得到第二个相同工作经历集合;在第二个相同工作经历集合中分别选择出现频率最高的公司名称,以及该公司对应的职位名称、工作开始时间及工作结束时间,以及在第二个相同工作经历集合中选择字符长度最大的职位描述,得到最优选择结果;根据最优选择结果及不同工作经历得出合并简历的所有工作经历集合。经过规则判断后通常还存在相同工作经历没有被识别出来,本实施例中,采用机器学习分类算法来识别相同工作经历。机器学习分类算法能包容公司名称、职位名称和职位描述的表达多样性,更智能地识别相同工作经历。该方法是把工作经历的5个字段作为特征来构建样本,训练一个分类器,利用该分类器对任意两段工作经历进行预测,其预测准确性可达到97.3%。其中,机器学习分类算法包括随机森林、梯度提升树、支持向量机、逻辑回归、深度学习等算法。通过对同段工作经历进行合并,利用合并的同段工作经历与不同工作经历形成合并简历的所有工作经历集合,如此,可以最大程度的减少合并后简历中的重复工作经历。请参照图5,图5为本发明一实施例同一人才不同简历的合并装置的模块方框图,本发明的实施例中,该同一人才不同简历的合并装置,包括:获取模块10,用于在输入的至少两份简历为同一人才时,获取每一简历所包含的基本信息、教育经历、工作经历及更新时间;第一处理模块20,用于对不同简历的基本信息进行合并处理,所述基本信息包括姓名、联系方式、邮箱、年龄、所在城市、性别、婚姻状况、户口及学历;第二处理模块30对不同简历的教育经历进行合并处理,所述教育经历包括学校名称、专业名称、学历、教育开始时间及教育结束时间;第三处理模块40对不同简历的工作经历进行合并处理,所述工作经历包括公司名称、职位名称、工作开始时间、工作结束时间及职位描述;输出模块50,用于输出合并简历。本实施例中,本装置在输入的至少两份简历为同一人才时,通过获取模块10,可以获取每一简历所包含的基本信息、教育经历、工作经历及更新时间。然后通过第一处理模块20、第二处理模块30及第三处理模块40,根据合并规则分别对基本信息、教育经历及工作经历进行合并,最后通过输出模块50,输出合并简历,合并简历能够显示出同一人才更全面更真实的信息,完整地反应出人才的职业经历和能力水平。通过充分利用不同简历信息,方便了解人才跳槽频率、成长路径,降低企业的人力成本。在一具体的实施方式中,第一处理模块20,具体用于:根据中文名、姓氏+先生/女士/小姐、英文名的顺序选择合并简历中的姓名;根据去重处理后保留所有邮箱及联系方式确定合并简历中的邮箱及联系方式;根据最近的更新时间、年龄或出生日期生成合并简历中的当前年龄;选择更新时间最近的简历所对应的城市、性别、婚姻状态、户口及学历确定合并简历中的当前基本信息。在一具体的实施方式中,第二处理模块30,具体用于:获取每份简历中每个学历所对应的学校名称;在学历所对应的学校名称不同时,选择准确度最高的学校名称;根据每个学历所对应的学校名称获取对应的专业名称、教育开始时间及教育结束时间,以及将选择的学校名称、专业名称、教育开始时间及教育结束时间作为合并简历中的教育经历。在一具体的实施方式中,第三处理模块40,具体用于:获取不同简历中的所有工作经历;对不同简历中每段工作经历的公司名称及职位名称进行匹配,如果两段工作经历中的公司名称及职位名称均相同,则确定不同简历中的两段工作经历是同段工作经历;如果两段工作经历的公司名称及职位名称不相同,则继续对不同简历中每段工作经历的公司名称与工作开始时间进行匹配,如果两段工作经历的公司名称与工作开始时间均相同,则确定不同简历中的两段工作经历是同段工作经历;如果两段工作经历的公司名称与工作开始时间不相同,则确定不同简历中的两段工作经历不是同段工作经历。在一具体的实施方式中,第三处理模块40,还用于:根据确定的两段工作经历是同段工作经历,形成相同工作经历集合;在相同工作经历集合中分别选择出现频率最高的公司名称,以及该公司对应的职位名称、工作开始时间及工作结束时间,以及在相同工作经历集合中选择字符长度最大的职位描述,得到最优选择结果;根据多个最优选择结果得到匹配后所有同段工作经历集合。在一具体的实施方式中,第三处理模块40,还用于:利用分类算法模型对所有同段工作经历集合中的相同工作经历进行识别,得到相同工作经历集合;在相同工作经历集合中分别选择出现频率最高的公司名称,以及该公司对应的职位名称、工作开始时间及工作结束时间,以及在相同工作经历集合中选择字符长度最大的职位描述,得到最优选择结果;将最优选择结果作为合并简历的工作经历。请参照图6,图6为本发明一实施例计算机设备的内部结构图。在一实施例中,该计算机设备包括通过系统总线连接的处理器、存储器及网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种同一人才不同简历的合并方法。本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以上各个方法实施例中的步骤。在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以上各个方法实施例中的步骤。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的
技术领域
均包括在本发明的专利保护范围内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1