一种简历识别方法

文档序号:9432563阅读:529来源:国知局
一种简历识别方法
【技术领域】
[0001]本发明涉及一种文本识别方法,具体涉及一种简历识别方法,本发明属于文本识别领域。
【背景技术】
[0002]简历是一类常见文本。从功能上看,简历是其作者介绍自己,推销自己,最终达到有效沟通的重要手段;从行文结构上看,它是一种半结构化文本。该类文本应用广泛、数目众多,因此,高效、准确的实现其信息抽取成为一个迫切的需求。一方面,从信息抽取效率上看,人工读取显然已经不能满足现实需求,而必须要利用计算机相关技术;另一方面,从准确抽取的可行性上看,根据半结构化文本的特征和文本信息抽取技术,如正则表达式匹配、关联性分析、统计等方法可以使抽取结果满足实际需要,即实现机器智能化识别是可行的。但是现有技术尚未存在对简历的有效识别的技术。

【发明内容】

[0003]为解决现有技术的不足,本发明的目的在于提供一种简历识别方法,以解决现有技术难以实现对简历的有效识别的技术问题。
[0004]为了实现上述目标,本发明采用如下的技术方案:
一种简历识别方法,其特征在于,包括如下步骤:
步骤一:设定简历中潜在的所有关键字;
步骤二:选择需要分析的简历;
步骤三:根据设定的关键字对简历进行预处理;
步骤四:根据简历中包含的关键字信息,区分简单信息域和复杂信息域;
步骤五:对复杂信息域进行二次分析处理,提取子项信息;
步骤六:将简单信息域、复杂信息域输出。
[0005]前述的一种简历识别方法,其特征在于,所述步骤一中,还包括设定关键字冲突分析策略,所述关键字冲突分析策略用于处理当关键字在简历中的多处位置出现时,判断关键字在简历中的真正位置。
[0006]前述的一种简历识别方法,其特征在于,所述步骤三中,采用正则匹配方式分析简历中包含的关键字。
[0007]前述的一种简历识别方法,其特征在于,所述步骤三中,如果关键字在简历中的多处位置出现,根据关键字冲突分析策略,判断关键字在简历中的真正位置。
[0008]前述的一种简历识别方法,其特征在于,所述关键字冲突分析策略包括:如果关键字在简历中的多处位置出现,对于关键字出现的每一处位置,在所述位置的前后进行文本分析,检索时候存在与该关键字对应的校验信息,如果存在所述校验信息,则判定所述位置为该关键字的真正位置,如果不存在所述校验信息,则判定所述位置不是该关键字的真正位置。
[0009]前述的一种简历识别方法,其特征在于,步骤三中,如果获取了简历中的关键字,则继续下一步,如果没有在简历中获取关键字,则结束分析过程。
[0010]前述的一种简历识别方法,其特征在于,所述简单信息域包括姓名、年龄、出生年月;复杂信息域包括子项,如工作经验、项目经验。
[0011]前述的一种简历识别方法,其特征在于,对复杂信息域进行二次分析处理包括:分析复杂信息域包含的关键字,将获取的关键字定义为二级关键字,提取二级关键字及其对应的具体信息。
[0012]前述的一种简历识别方法,其特征在于,简历的格式为Word格式/HTML格式、PDF格式、txt格式中的任一种。
[0013]前述的一种简历识别方法,其特征在于,将简单信息域及复杂信息域输出为标准的XML格式数据或者JSON格式数据。
[0014]本发明的有益之处在于:本发明能够实现对简历信息的高效准确提取,提取的准确率高。
【附图说明】
[0015]图1是本发明的一个优选实施流程图;
图2是本发明中简历的示意图;
图3是本发明中关键字字典的示意图;
图4为本发明中实际输出的简历识别效果图;
【具体实施方式】
[0016]以下结合附图和具体实施例对本发明作具体的介绍。
[0017]参照图1所示,本发明包括如下步骤:
步骤一:设定简历中潜在的所有关键字。关键字以字典的形式进行储存。本实施例以一份招聘的简历作为说明,如图2所示。其中的关键字字典以如图3所示。其关键字包括姓名、性别、出生日期、居住地等。本步骤中,还可以设定关键字冲突分析策略,所述关键字冲突分析策略用于处理当关键字在简历中的多处位置出现时,判断关键字在简历中的真正位置。
[0018]步骤二:选择需要分析的简历;优选简历的格式为Word格式或者HTML格式。除了常用的Word格式,基于XML的Web文本是一种半结构化文本,而XML则是一种半结构化数据描述语言,它克服了传统Web描述语言HTML只能够表达数据的内容,无法表达Web数据的结构特征,不便于半结构化数据查询这一不足,正在逐步替代HTML,成为新一代Web数据描述与数据交换标准基于XML的Web文本在半结构化文本中,格式信息是比较丰富的,而且有固定的标准,所以,该类文本在信息抽取过程中,较之其他半结构化文本,更容易些。
[0019]步骤三:根据设定的关键字对简历进行预处理,分析简历中包含的关键字。本步骤中,本发明先对简历文本进行分割。分割的目标是将一篇简历文本肢解成许多元。由于半结构化文本的基本组成单位是元,所以将一篇文本分解成一个元序列,是机器进行文本信息抽取的关键。分割采用的是基于正则表达式的文本分割。基于正则表达式的文本分割可以参照现有技术实现。
[0020]完成文本分割后,对简历进行文本识别。将关键字与简历文本进行比对。分析该简历中包含哪些关键字信息,如果关键字在简历中的多处位置出现,判断关键字在简历中的真正位置。如果关键字在简历中的多处位置出现,这意味着简历中的这一重复出现的关键字有一处位置为真正的关键字信息,其余的位置为普通文本信息。对这些重复出现的关键字进行模糊分析,判断哪个为真正的关键字,哪些为普通文本信息。具体来说,如果关键字在简历中的多处位置出现,根据关键字冲突分析策略,判断关键字在简历中的真正位置。
[0021]下面给出一种关键字冲突分析策略,其包括:如果关键字在简历中的多处位置出现,对于关键字出现的每一处位置,在所述位置的前后进行文本分析,检索时候存在与该关键字对应的校验信息,如果存在所述校验信息,则判定所述位置为该关键字的真正位置,如果不存在所述校验信息,则判定所述位置不是该关键字的真正位置。所述校验信息为出现在真正的关键字前后文本中,与所述真正的关键字信息有关联和校验关系的一种文字。举例来说,对可能冲突的关键字,在它的位置前后进行文本分析,比如“工作经验”出现多次的,如果某一位置所出现的“工作经验”是真正的关键字,那么它后面一般紧跟着时间信息,如2012-09~2013-02,那么就筛选该处位置的“工作经验”为关键字所处位置,如果某处“工作经验”后面不是紧跟着时间的,则判定该处位置的“工作经验”为普通文本信息,而不是真的关键字。
[0022]步骤四:根据简历中包含的关键字信息,区分简单信息域和复杂信息域。简单信息域包括姓名、年龄、出生年月之类,而复杂信息域则包含子项,如工作经验、项目经验之类。区分简单信息域和复杂信息域的原因在于复杂信息域包含子项,需要对子项进行进一步分析。比如工作经验的子项有离职原因、工作单位等。
[0023]步骤五:对复杂信息域进行二次分析处理,提取子项信息;比如,对上述工作经验提取离职原因、工作单位。进行二次分析处理的实际上仍采用上述步骤三的形式进行处理。提取的子项信息称为二级关键字。同时获取二级关键字对应的具体信息。包括:分析复杂信息域包含的关键字,将获取的关键字定义为二级关键字,提取二级关键字及其对应的具体信息。
[0024]步骤六:将简单信息域、复杂信息域输出。输出格式可以为标准的XML格式数据或者JSON格式数据。
[0025]实际中,输出后的简单信息域、复杂信息域如图4所示。
[0026]以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,上述实施例不以任何形式限制本发明,凡采用等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。
【主权项】
1.一种简历识别方法,其特征在于,包括如下步骤: 步骤一:设定简历中潜在的所有关键字; 步骤二:选择需要分析的简历; 步骤三:根据设定的关键字对简历进行预处理; 步骤四:根据简历中包含的关键字信息,区分简单信息域和复杂信息域; 步骤五:对复杂信息域进行二次分析处理,提取子项信息; 步骤六:将简单信息域、复杂信息域输出。2.根据权利要求1所述的一种简历识别方法,其特征在于,所述步骤一中,还包括设定关键字冲突分析策略,所述关键字冲突分析策略用于处理当关键字在简历中的多处位置出现时,判断关键字在简历中的真正位置。3.根据权利要求2所述的一种简历识别方法,其特征在于,所述步骤三中,采用正则匹配方式分析简历中包含的关键字。4.根据权利要求3所述的一种简历识别方法,其特征在于,所述步骤三中,如果关键字在简历中的多处位置出现,根据关键字冲突分析策略,判断关键字在简历中的真正位置。5.根据权利要求4所述的一种简历识别方法,其特征在于,所述关键字冲突分析策略包括:如果关键字在简历中的多处位置出现,对于关键字出现的每一处位置,在所述位置的前后进行文本分析,检索时候存在与该关键字对应的校验信息,如果存在所述校验信息,则判定所述位置为该关键字的真正位置,如果不存在所述校验信息,则判定所述位置不是该关键字的真正位置。6.根据权利要求5所述的一种简历识别方法,其特征在于,步骤三中,如果获取了简历中的关键字,则继续下一步,如果没有在简历中获取关键字,则结束分析过程。7.根据权利要求6所述的一种简历识别方法,其特征在于,所述简单信息域包括姓名、年龄、出生年月;复杂信息域包括子项,如工作经验、项目经验。8.根据权利要求7所述的一种简历识别方法,其特征在于,对复杂信息域进行二次分析处理包括:分析复杂信息域包含的关键字,将获取的关键字定义为二级关键字,提取二级关键字及其对应的具体信息。9.根据权利要求8所述的一种简历识别方法,其特征在于,简历的格式为Word格式/HTML格式、PDF格式、txt格式中的任一种。10.根据权利要求9所述的一种简历识别方法,其特征在于,将简单信息域及复杂信息域输出为标准的XML格式数据或者JSON格式数据。
【专利摘要】本发明公开了一种简历识别方法,其特征在于,包括如下步骤:步骤一:设定简历中潜在的所有关键字;步骤二:选择需要分析的简历;步骤三:根据设定的关键字对简历进行预处理,分析简历中包含的关键字;步骤四:根据简历中包含的关键字信息,区分简单信息域和复杂信息域;步骤五:对复杂信息域进行二次分析处理,提取子项信息;步骤六:将简单信息域、复杂信息域输出。本发明能够实现对简历信息的高效准确提取,提取的准确率高。
【IPC分类】G06F17/30
【公开号】CN105183742
【申请号】CN201510321901
【发明人】蔡志旻, 沈峰, 王峰, 邹阳, 张海涛
【申请人】南京富士通南大软件技术有限公司
【公开日】2015年12月23日
【申请日】2015年6月12日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1