一种语句识别方法与系统与流程

文档序号:11250866阅读:544来源:国知局
一种语句识别方法与系统与流程
本发明涉及语句识别
技术领域
,特别涉及一种语句识别方法与系统。
背景技术
:众所周知的,在职场求职的过程中,简历被公认为求职成功的“敲门砖”。具体的,简历就是对个人学历、经历、特长、爱好及获奖情况等所作的简明扼要的书面介绍,是一种有针对性的自我介绍的规范化、逻辑化的书面表达。一般的,在简历的筛选过程中,常常需要对简历进行整体评分,而进行评分时求职者的获奖情况是一个十分重要的评分指标。在对求职者的获奖情况进行评估时,首先需要从简历语句中提取对应的参赛名称(例如,在“2014年参加全国节能减排大赛并赢得校级三等奖”中“全国节能减排大赛”即为参赛名称),在提取了对应的参赛名称之后再对参赛名称进行具体评估以得到最终评分。因此,如何有效地对参赛名称进行提取成为了一个较为重要的前置条件。一般的,现有的从简历中提取参赛名称主要通过人工提取的方式进行,但是此方法仅适用于数据工作量较小的情况,当所需要处理的简历量非常大时,通过人工提取参赛名称的方法无疑费时费力,尤其在当前大数据的环境下,无法满足实际应用需求。技术实现要素:基于此,本发明的目的在于提出一种新型的语句识别方法与系统,可同时对大量简历中的参赛名称进行准确识别并提取,在很大程度上提高了数据处理效率,满足了实际应用需求。本发明提出一种语句识别方法,其中,所述方法包括如下步骤:对一待识别语句进行依存分析以得到与所述待识别语句相对应的依存句法树;在所述依存句法树中查找预定词语的具体位置信息,根据所述具体位置信息确定包含所述预定词语的依存子树;在所述依存子树中获取所有的非时间性短语以得到比赛名称。所述语句识别方法,其中,所述在所述依存子树中获取所有的非时间性短语以得到比赛名称的步骤包括:通过正则表达式检验所述依存子树中是否存在时间性短语;若存在,则通过所述正则表达式将所述依存子树中的所述时间性短语进行删除;在删除了所述时间性短语之后的所述依存子树中获取所有的所述非时间性短语以得到所述比赛名称。所述语句识别方法,其中,在所述依存子树中获取所有的非时间性短语以得到比赛名称的步骤之后,所述方法还包括:在所述比赛名称中获取区域性短语,根据所述区域性短语确定区域等级;根据所述区域等级在预设评分数据库中确认与所述区域等级相对应的等级评分。所述语句识别方法,其中,在根据所述区域等级在预设评分数据库中确认与所述区域等级相对应的等级评分之后,所述方法还包括:将多个简历根据其对应的所述等级评分按照降序的方式进行排列。所述语句识别方法,其中,在所述依存子树中获取所有的非时间性短语以得到比赛名称的步骤之后,所述方法还包括:在所述比赛名称中获取比赛主题短语,根据所述比赛主题短语确定对应的比赛类型;将与所述比赛类型一一对应的简历划分到对应的简历分区中。本发明还提出一种语句识别系统,其中,所述系统包括:依存分析模块,用于对一待识别语句进行依存分析以得到与所述待识别语句相对应的依存句法树;查找确定模块,用于在所述依存句法树中查找预定词语的具体位置信息,根据所述具体位置信息确定包含所述预定词语的依存子树;名称获取模块,用于在所述依存子树中获取所有的非时间性短语以得到比赛名称。所述语句识别系统,其中,所述名称获取模块包括:短语检验单元,用于通过正则表达式检验所述依存子树中是否存在时间性短语;短语删除单元,用于若存在所述时间性短语,则通过所述正则表达式将所述依存子树中的所述时间性短语进行删除;名称获取单元,用于在删除了所述时间性短语之后的所述依存子树中获取所有的所述非时间性短语以得到所述比赛名称。所述语句识别系统,其中,所述系统还包括等级评分模块,所述等级评分模块包括:区域划分单元,用于在所述比赛名称中获取区域性短语,根据所述区域性短语确定区域等级;等级评分单元,用于根据所述区域等级在预设评分数据库中确认与所述区域等级相对应的等级评分。所述语句识别系统,其中,所述系统还包括一等级排序模块,所述等级排序模块用于将多个简历根据其对应的所述等级评分按照降序的方式进行排列。所述语句识别系统,其中,所述系统还包括一简历分区模块,所述简历分区模块包括:类型确定单元,用于在所述比赛名称中获取比赛主题短语,根据所述比赛主题短语确定对应的比赛类型;简历分区单元,用于将与所述比赛类型一一对应的简历划分到对应的简历分区中。本发明提出的语句识别方法与系统,在实际应用中先对一待识别语句进行依存分析得到依存句法树之后,再在该依存句法树中确定预定词语所在的依存子树,最后从该依存子树中提取对应的比赛名称。本发明提出的语句识别方法与系统,可同时对大量简历中的参赛名称进行准确识别与提取,在很大程度上提高了数据处理效率,满足了实际应用需求。本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。附图说明图1为本发明第一实施例提出的语句识别方法的原理框图;图2为本发明第二实施例提出的语句识别方法的流程示意图;图3为本发明第二实施例提出的语句识别方法中依存句法树的结构示意图;图4为图3所示的依存句法树中依存子树的结构示意图;图5为本发明第三实施例提出的语句识别系统的结构示意图。具体实施方式为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的首选实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的
技术领域
的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。请参阅图1,对于本发明第一实施例中的语句识别方法,用于从一语句中识别出比赛名称,所述方法包括如下步骤:s101,对一待识别语句进行依存分析以得到与所述待识别语句相对应的依存句法树。具体的,在简历的筛查工作中,有很多的待识别语句需要进行判断筛查以便从中提取比赛名称。在本实施例中,选用ltp云(其中该ltp云为哈工大社会计算与信息检索研究中心研发的语言技术平台)对一待识别语句进行依存分析以得到一依存句法树,然后以云api的方式得到请求结果。在进行依存分析时,主要是分析语句中单个词汇之间的相互依存关系并揭示其对应的句法结构。一般的,依存关系包括多种类型,例如:“红苹果”中“红”和“苹果”为定中关系(att);“大山和大海”中“大山”和“大海”为并列关系(coo);“我送她一束花”中“我”和“送”为主谓关系(sbv),“送”和“花”是动宾关系(vob),“送”和“她”为间宾关系(iob);“他什么书都读”中“书”和“读”为前置宾语关系(fob);“非常美丽”中“非常”和“美丽”为状中关系(adv);“做完了作业”中“做”和“完”为动补关系(cmp);“在贸易区内”中“在”和“内”为介宾关系(pob)以及指代整个句子的核心的核心关系(hed)。例如,在上述ltp云中输入的待识别语句为“2014.7.30第六届全国大学生机械创新设计比赛一等奖”,然后通过ltp云进行依存分析之后得到对应的依存句法树。s102,在所述依存句法树中查找预定词语的具体位置信息,根据所述具体位置信息确定包含所述预定词语的依存子树。对所述预定词语而言,所述预定词语可以为“赛”、“比赛”或“竞赛”,在本实施例中,所述预定词语为“比赛”。如上所述,在通过ltp云对上述待识别语句“2014.7.30第六届全国大学生机械创新设计比赛一等奖”进行依存分析得到对应的依存句法树之后,在该依存句法树中查找“比赛”二字所在的具体位置,在确定了“比赛”二字的具体位置之后,根据该具体位置来确定其所对应的依存子树。在本实施例中,对应的包含“比赛”二字的依存子树为“第六届全国大学生机械创新设计比赛”。s103,在所述依存子树中获取所有的非时间性短语以得到比赛名称。在此需要说明的是,由于在上述依存子树的提取确认过程中,有可能存在提取不正确而导致最后得到的依存子树中存在时间性短语,例如“2014/2/4”、“2015.6.7”。而上述时间性短语不应该包括在比赛名称中,因此需要对依存子树中的时间性短语作删除处理。具体的,在对上述时间性短语进行删除时,利用正则表达式对时间性短语进行删除。在本实施例中,正则表达式可以表达成如下形式:\d{1,4}[-|/|年|\.]\d{1,2}[-|/|月|\.]\d{1,2}([日|号])?然后通过该正则表达式将上述依存子树中所夹杂的时间性短语(例如为“2014/2/4”)过滤掉,所得到的依存子树即全部为非时间性短语,然后获取该依存子树中所有的非时间性短语即得到正确的比赛名称为“第六届全国大学生机械创新设计比赛”。请参阅图2至图4,对于第二实施例中的语句识别方法,首先,仍然通过ltp云(哈工大语言技术平台)对一待识别语句进行依存分析以得到对应的依存句法树。对依存句法树而言,在依存句法树中存在较多的依存关系,例如“红苹果”中“红”和“苹果”为定中关系(att);“大山和大海”中“大山”和“大海”为并列关系(coo);“我送她一束花”中“我”和“送”为主谓关系(sbv),“送”和“花”是动宾关系(vob),“送”和“她”为间宾关系(iob);“他什么书都读”中“书”和“读”为前置宾语关系(fob);“非常美丽”中“非常”和“美丽”为状中关系(adv);“做完了作业”中“做”和“完”为动补关系(cmp);“在贸易区内”中“在”和“内”为介宾关系(pob)以及指代整个句子的核心的核心关系(hed)。例如,当待识别语句为“2014年2月参加亚洲大学生超级计算机竞赛并获得团队优秀奖”时,根据上述ltp云经依存分析后得到如图3所示的依存句法树。从图3中可以看出:“2014年”与“2月”、“亚洲”与“大学生”、“超级”与“计算机”、“计算机”与“竞赛”、“团队”与“优秀奖”之间均为定中关系(att);“2月”与“参加”、“并”与“获得”之间均为状中关系(adv),“参加”与“竞赛”、“获得”与“优秀奖”之间均为动宾关系(vob);“参加”与“获得”之间为并列关系(coo),此外,对于该语句而言,“参加”为整个句子的核心,也即为整个句子的核心关系(hed)。在得到了上述依存句法树之后,在该依存句法树中查找包含“赛”字的具体位置,在本实施例中,查找的为“竞赛”二字的具体位置。当查找获得了“竞赛”二字的具体位置之后,然后根据该具体位置确定包含“竞赛”二字的依存子树。在此需要说明的是,由于在上述依存子树的提取确认过程中,有可能存在提取不正确而导致最后得到的依存子树中存在时间性短语,例如“2014/2/4”、“2015.6.7”。而上述时间性短语不应该包括在比赛名称中,因此需要通过正则表达式先检验所述依存子树中是否存在时间性短语。若存在所述时间性短语,则通过所述正则表达式将所述依存子树中的所述时间性短语进行删除,并在删除了所述时间性短语之后的所述依存子树中获取所有的所述非时间性短语以得到所述比赛名称;若不存在,则直接从该依存子树中获取正确的比赛名称。具体的,在对上述时间性短语进行删除时,利用正则表达式对时间性短语进行删除。在本实施例中,正则表达式可以表达成如下形式:\d{1,4}[-|/|年|\.]\d{1,2}[-|/|月|\.]\d{1,2}([日|号])?然后通过该正则表达式将上述依存子树中所夹杂的时间性短语(例如为“2015.6.7”)过滤掉,所得到的依存子树即全部为非时间性短语,然后获取该依存子树中所有的非时间性短语即得到正确的比赛名称为“亚洲大学生超级计算机竞赛”(如图4所示)。在此还需要说明的是,在获得了正确的比赛名称之后,为了更加准确地根据比赛名称的级别进而对简历进行评分,还需要在所述比赛名称中获取区域性短语(例如,常见的区域性短语为“全国”、“亚洲”、“广州省”以及“重庆”等),由于不同的区域级别直接决定了该比赛对应的级别,因此在所述比赛名称中获取对应的区域性短语,然后根据该区域性短语来确定对应的区域等级。例如,当获取到的区域性短语为“全国”时,此时对应的区域等级为一级,然后根据该确定的区域等级在预设评分数据库中查找与其该区域等级对应的等级评分,该等级评分将直接影响着简历的评分。此外,由于不同的简历中所包含的比赛的等级是不同的,最终得到的评分也是不同的。为了在实际操作中能够更加便捷地筛选评分更高的简历,以便选拔出更为优秀的人才。在本实施例中,主要通过将所述简历根据其对应的所述等级评分按照降序的方式进行排列来实现。如此,操作人员可以一目了然地从上往下筛选符合要求的应聘人才。最后还需要指出的是,由于求职者所学习专业以及兴趣爱好的不同,所参加的比赛以及所获得的奖项的类型自然也有所不同,例如,一部分应聘者所学的专业为理工科专业,对应获得的奖项也为机械或计算机之类的奖项,而一部分应聘者所学的专业为文史类专业,对应获得的奖项也为作文或书法之类的奖项等。因此在对简历进行整理时,最好是能够对不同类型的简历进行正确地分类。针对于此,在本实施例中,在获得了所述比赛名称之后,在所述比赛名称中获取比赛主题短语(例如为“计算机应用”、“机械设计”、“诗歌朗诵”或“书法”等),然后根据所述比赛主题短语确定对应的比赛类型。例如,当获取到的所述比赛主题短语为“机械设计”时,则确定该比赛类型为理工类竞赛;当获取到的比赛主题短语为“诗歌朗诵”时,则确定该比赛类型为文史类竞赛。在确定了对应的比赛类型之后,将与所述比赛类型一一对应的所述简历划分到对应的简历分区中。可以推知的,对于上述理工类竞赛或者上述文史类竞赛而言,在实际应用中,还可以在其内部进一步进行划分,以便后期对简历实现更加精准地管理。请参阅图5,对于本发明第三实施例中的语句识别系统,用于从一语句中识别出比赛名称,其中,所述系统包括依次连接的依存分析模块、查找确定模块、名称获取模块、等级评分模块以及等级降序模块,其中所述依存分析模块用于对一待识别语句进行依存分析以得到与所述待识别语句相对应的依存句法树;所述查找确定模块用于在所述依存句法树中查找预定词语的具体位置信息,根据所述具体位置信息确定包含所述预定词语的依存子树;所述名称获取模块用于在所述依存子树中获取所有的非时间性短语以得到比赛名称。对所述名称获取模块而言,所述名称获取模块包括依次连接的短语检验单元、短语删除单元以及名称获取单元,其中,所述短语检验单元用于通过正则表达式检验所述依存子树中是否存在时间性短语;所述短语删除单元用于若存在所述时间性短语,则通过所述正则表达式将所述依存子树中的所述时间性短语进行删除;所述名称获取单元用于在删除了所述时间性短语之后的所述依存子树中获取所有的所述非时间性短语以得到所述比赛名称。对所述等级评分模块而言,所述等级评分模块包括相互连接的区域划分单元以及等级评分单元,其中所述区域划分单元用于在所述比赛名称中获取区域性短语,根据所述区域性短语确定区域等级;所述等级评分单元用于根据所述区域等级在预设评分数据库中确认与所述区域等级相对应的等级评分。此外,所述等级排序模块用于将简历根据其对应的所述等级评分按照降序的方式进行排列。与此同时,与所述名称获取模块相连的还有一简历分区模块,所述简历分区模块包括相互连接的类型确定单元以及简历分区单元,其中所述类型确定单元用于在所述比赛名称中获取比赛主题短语,根据所述比赛主题短语确定对应的比赛类型;所述简历分区单元用于将与所述比赛类型一一对应的简历划分到对应的简历分区中。本发明提出的语句识别方法与系统,在实际应用中先对一待识别语句进行依存分析得到依存句法树之后,再在该依存句法树中确定预定词语所在的依存子树,最后从该依存子树中提取对应的比赛名称。本发明提出的语句识别方法与系统,可同时对大量简历中的参赛名称进行准确识别与提取,在很大程度上提高了数据处理效率,满足了实际应用需求。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成。所述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,包括上述方法所述的步骤。所述的存储介质,包括:rom/ram、磁碟、光盘等。以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1