一种从文本中抽取职务称呼的方法与流程

文档序号:17951042发布日期:2019-06-19 00:02阅读:445来源:国知局
一种从文本中抽取职务称呼的方法与流程

本发明涉及文本信息提取技术领域,具体为一种从文本中抽取职务称呼的方法。



背景技术:

文本数据挖掘是指从文本数据中抽取有价值的信息和知识的计算机处理技术,与计算机、机器对自然语言的学习具有紧密联系,在数据采集、信息抽取(例如互联网搜索)等应用中均扮演重要角色,其中,文本信息抽取是文本数据挖掘的一个基础技术,文本信息抽取是从文本数据(由一些具体的单位构成,包括句子、段落、篇章等)中抽取特定信息的一种技术,文本信息正是由文本数据中一些小的具体单位构成,例如字、词组、句子、段落等具体的单位构成。

抽取文本数据中的联系方式、邮箱地址以及人名等都是文本信息抽取,其中,抽取文本数据中的用户的职务和称呼信息时,由于汉语字词的多义性,现有计算机文本信息抽取技术难以精确地提取用户的职务和称呼信息,使得提取的信息容易出错,导致用户无法使用的问题。



技术实现要素:

本发明提供了一种从文本中抽取职务称呼的方法,具备精确地提取用户的职务和称呼信息的优点,解决了背景技术中提到的问题。

本发明提供如下技术方案:一种从文本中抽取职务称呼的方法,所述从文本中抽取职务称呼的方法如下:

第一步,预先创建专用数据库群;

第二步,针对已获得的文本内容,进行分词,获得分词数据集;

第三步,针对分词数据集,抽取其中的人员职务称呼。

优选的,所述专用数据库群包括职务称呼名称库、职务称呼前后的标点符号库、括号符号库、姓氏库以及人名前缀词库,所述专用数据库群可自定义增减数据。

优选的,所述文本为电子格式的面向计算机信息处理的文本组合。

优选的,所述抽取其中的人员职务称呼的流程如下:

s1,根据预先创建的专用数据库群中的职务称呼名称库,检索分词数据集中的职务称呼名称词,获得职务称呼名称数据集;

s2,同时或逐次检索职务称呼名称数据集中职务称呼名称词和其左侧、右侧的字符的连续序列组合,抽取其中的职务称呼名称词为人员的职务称呼。

本发明具备以下有益效果:

1、该从文本中抽取职务称呼的方法,通过创建包含职务称呼名称库、括号符号库、姓氏库等数据库的数据库群,获得文本内容中的分词数据集,再利用分词数据集中的职务称呼名称,同时或逐次检索,从而精确地提取用户的职务和称呼信息,确保信息提取正确,以便用户正常使用。

2、该从文本中抽取职务称呼的方法,通过自定义增减数据库群中的数据,确保字、词等准确地分类在数据库群中的各个数据库,使得职务称呼名称的检索更准确,进一步提高了信息提取的正确率。

附图说明

图1为本发明从文本中抽取职务称呼的流程图;

图2为本发明专用数据库群示意图;

图3为本发明抽取人员称呼流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅图1-3,一种从文本中抽取职务称呼的方法,从文本中抽取职务称呼的方法如下:

第一步,预先创建专用数据库群,专用数据库群包括职务称呼名称库、职务称呼前后的标点符号库、括号符号库、姓氏库以及人名前缀词库,专用数据库群可自定义增减数据,职务称呼名词库包括“总经理、总裁、董事长、主管、所长、博士、教授”等担任工作的专门称呼,职务称呼前后的标点符号库包括“【:】、【-】”等符号,括号符号库包括“小括号符号、中括号符号、大括号符号、书名号符号、六角括号符号、特殊括号符号”等,姓氏库包括百家姓里面的所有姓氏,人名前缀词库包括“是、乃、系、为”等,通过对专用数据库群中的数据库进行分类,并自定义增减数据,确保专用数据库群中的各个数据库准确地涵盖相应的字、词和符号,以便后续针对文本进行准确的分词检索操作,提高了信息提取的正确率;

第二步,针对已获得的文本内容,进行分词,获得分词数据集,文本为电子格式的面向计算机信息处理的文本组合;

第三步,针对分词数据集,抽取其中的人员职务称呼。

抽取其中的人员职务称呼的流程如下:

s1,根据预先创建的专用数据库群中的职务称呼名称库,检索分词数据集中的职务称呼名称词,获得职务称呼名称数据集;

s2,同时或逐次检索职务称呼名称数据集中职务称呼名称词和其左侧、右侧的字符的连续序列组合,抽取其中的职务称呼名称词为人员的职务称呼,规则如下:

若职务称呼名称的左侧为抽取出的人名或姓氏库中的姓氏,则抽取其中的职务称呼名称,例如“张三博士”,抽取“博士”;

若职务称呼名称的左侧为职务称呼前后的标点符号库中的标点符号,则抽取其中的职务称呼名称,例如“:博士”,抽取“博士”;

若职务称呼名称的左侧依次为不高于设定数量的空格、抽取出的人名或姓氏库中的姓氏,则抽取其中的职务称呼名称,例如“张三博士”,抽取“博士”;

若职务称呼名称在括号内,左侧为抽取出的人名或姓氏库中的姓氏,则抽取其中的职务称呼名称,例如“张三(博士)”,抽取“博士”;

若职务称呼名称的右侧依次为职务称呼前后的标点符号库中的标点符号、抽取出的人名或姓氏库中的姓氏,则抽取其中的职务称呼名称,例如“博士:张三”,抽取“博士”;

若职务称呼名称的右侧为抽取出的人名或姓氏库中的姓氏,则抽取其中的职务称呼名称,例如“博士张三”,抽取“博士”;

若职务称呼名称的右侧依次为人名前缀词库中的人民前缀词、抽取出的人名或姓氏库中的姓氏,则抽取其中的职务称呼名称,例如“博士是张三”,抽取“博士”。

其中抽取人名的流程为:先创建人名专用数据库群,获取文本,根据人名专用数据库群中的数据库,获取相应的分词数据集,抽取该分词数据集中的姓氏,汇总为姓氏数据集,再依据人名专用数据库群,检索文本中的人名,并提取人名。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。



技术特征:

技术总结
本发明涉及文本信息提取技术领域,且公开了一种从文本中抽取职务称呼的方法,所述从文本中抽取职务称呼的方法如下:第一步,预先创建专用数据库群;第二步,针对已获得的文本内容,进行分词,获得分词数据集;第三步,针对分词数据集,抽取其中的人员职务称呼。该从文本中抽取职务称呼的方法,通过创建包含职务称呼名称库、括号符号库、姓氏库等数据库的数据库群,获得文本内容中的分词数据集,再利用分词数据集中的职务称呼名称,同时或逐次检索,从而精确地提取用户的职务和称呼信息,确保信息提取正确,通过自定义增减数据库群中的数据,确保字、词等准确地分类在数据库群中的各个数据库中,使得职务称呼名称的检索更准确。

技术研发人员:陈包容
受保护的技术使用者:陈包容
技术研发日:2019.03.01
技术公布日:2019.06.18
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1