从文本中抽取电子邮箱地址的方法与流程

文档序号:17927469发布日期:2019-06-15 00:31阅读:623来源:国知局
从文本中抽取电子邮箱地址的方法与流程

本发明涉及文本数据挖掘提抽取技术领域,具体为从文本中抽取电子邮箱地址的方法。



背景技术:

文本数据挖掘是一种利用计算机处理技术从文本数据中抽取有价值的信息和知识的应用驱动型学科,其处理的数据类型是文本数据,属于数据挖据的一个分支,与机器学习、自然语言处理、数理统计等学科具有紧密联系,文本挖掘在很多应用中都扮演重要角色,例如数据采集、信息抽取(例如互联网搜索)等。

而文本信息抽取是文本数据挖掘的一个基础技术,文本信息抽取是从文本数据中抽取特定信息的一种技术,其主要是由一些具体的单位构成的,例如句子、段落及篇章等,文本信息正是由一些小的具体的单位构成的,例如字、词、词组、句子、段落或是这些具体的单位的组合,从中抽取文本数据中的联系方式、电子邮箱地址、社交号码、短语、人名或地名等都是文本信息抽取,当然,文本信息抽取技术所抽取的信息可以是各种类型的信息。

而在抽取文本数据中的英文电子邮箱地址,通过目前已有的技术方案实现时,其精准率比较低,时常会导致提取信息出错、用户无法使用的问题,同时计算机系统的计算量较大,严重影响了用户的使用体验及提取文本数据时的效率,故亟需提供一种从文本数据中精准快速地提取电子邮箱地址的方法。



技术实现要素:

(一)解决的技术问题

本发明提供了从文本中抽取电子邮箱地址的方法,具备精准率高、不会出现提取的信息出错和提取数据的效率高的优点,解决了在抽取文本数据中的英文电子邮箱地址,通过目前已有的技术方案实现时,其精准率比较低,时常会导致提取信息出错、用户无法使用的问题,同时计算机系统的计算量较大,严重影响了用户的使用体验及提取文本数据时的效率的问题。

(二)技术方案

本发明提供如下技术方案:从文本中抽取电子邮箱地址的方法,包括以下操作步骤:

s01、预先创建专用数据库群;

s02、将电子邮箱名称文本分为三部分,并获得电子邮箱名称分词数据集;

s03、针对已获得的文本内容,进行分词,获得分词数据集;

s04、针对分词数据集,抽取电子邮箱地址。

优选的,所述专用数据库群,包括创建域名后缀库、创建正常空格的数目阈值规则库、创建电子邮箱地址连接符号库,所述正常空格的数目阈值规则库是用户自定义设定空格字符数量阈值。

优选的,所述专用数据库群均支持用户自定义增减数据。

优选的,所述电子邮箱名称分词数据集包括:

电子邮箱第一部分,所述电子邮箱第一部分是指@左侧的文本;

电子邮箱第二部分,所述电子邮箱第二部分是指@与域名之间的文本;

电子邮箱第三部分,所述电子邮箱第三部分是指电子邮箱的域名后缀。

优选的,所述电子邮箱名称文本是指英文、数字、电子邮箱地址连接符号的任意不连续地组合,且电子邮箱第一部分和电子邮箱第二部分中的英文、数字、标点符号之间无任何中文文字和空格。

优选的,所述分词数据集根据已经获得的电子邮箱名称文本进行分词获取,且电子邮箱名称文本为电子格式的面向计算机信息处理的文字组合。

优选的,所述针对分词数据集,抽取电子邮箱地址,包括以下操作步骤:

s0401、检索分词数据集中的@,若有@,则进行下一步推理计算,若否,则系统不再检索;

s0402、检索@左右侧的文字,是否满足正常空格的数目阈值规则库,若是,则继续推理计算,若否,系统则不予计算;

s0403、系统自动将所述电子邮箱第一部分、后面的@、后面的电子邮箱第二部分和后面的电子邮箱第三部分按前后序列组合,抽取为电子邮箱地址。

(三)有益效果

本发明具备以下有益效果:

本发明提供的从文本中抽取电子邮箱地址的方法,通过将数据中的电子邮箱名称文本分为三个部分,获得电子邮箱名称分词数据集并以@为分隔点,在进行筛选抽取时,分步检测@左右两侧的文字信息,是否符合设定的阈值,以此来判断是否进行下一步检测,与现有的技术方案相比,可以有效地减少计算机不必要的检测,提高了计算机提取文本数据时的速度,同时可以有效地剔除错误或相似的无效文本信息,进而提高了该从文本中抽取电子邮箱地址方法的精准度。

附图说明

图1为本发明方法的流程图;

图2为本发明方法专用数据库群的示意图;

图3为本发明方法电子邮箱名称分词数据集的示意图;

图4为本发明方法中抽取电子邮箱地址的流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅图1,本发明提供了从文本中抽取电子邮箱地址的方法,包括以下操作步骤:

步骤s01,预先创建专用数据库群;

步骤s02,将电子邮箱名称文本分为三部分,获得电子邮箱名称分词数据集;

步骤s03,针对已获得的文本内容,进行分词,获得分词数据集;

步骤s04,针对分词数据集,抽取电子邮箱地址。

通过将数据中的电子邮箱名称文本分为三个部分,获得电子邮箱名称分词数据集并以@为分隔点,在进行筛选抽取文本中的电子邮箱地址,可以有效地减少计算机不必要的检测,提高了计算机提取文本数据时的速度,同时可以有效地剔除错误或相似的无效文本信息,进而提高了该从文本中抽取电子邮箱地址方法的精准度。

请参阅图2,本发明提供了从文本中抽取电子邮箱地址的方法,在步骤s01中,包括:

①创建域名后缀库,其中域名后缀库有【.com】、【.net】、【.cn】、【.com.cn】、【.top】、【.ai】等;

②创建正常空格的数目阈值规则库,并且正常空格的数目阈值规则库是用户自定义设定空格字符数量阈值,根据以下2个规则判断空格数目是否正常:

规则一:如若特定电邮文本中的空格字符数量低于设定的数目阈值,默认为合法正常的空格,系统自动删除空格,

规则二:如特定电邮文本中的空格字符数量高于设定的数目阈值,则默认为不合法不正常的空格,系统不予计算;

③创建电子邮箱地址连接符号库,其中电子邮箱地址连接符号库有【-】、【_】、【\】、【/】、【——】等。

其中,专用数据库群支持用户自定义增减数据。

请参阅图3,本发明提供了从文本中抽取电子邮箱地址的方法,在步骤s02中,其中电子邮箱名称文本的三部分之间无任何文字和空格中,并且电子邮箱名称分词数据集的三个部分分别为:

电子邮箱第一部分是指@左侧的文本,包含英文、数字、电子邮箱地址连接符号的任意不连续地组合;

电子邮箱第二部分是指@与域名之间的文本,英文、数字、电子邮箱地址连接符号的任意不连续地组合;

电子邮箱第三部分是指电子邮箱的域名后缀。

其中,电子邮箱第一部分和电子邮箱第二部分中的英文、数字、标点符号之间无任何中文文字和空格。

请参阅图4,本发明提供了从文本中抽取电子邮箱地址的方法,在步骤s04中,包括:

步骤s0401,检索分词数据集中的@,如有,进入步骤s0402推理计算,若无,则不进行推算;

步骤s0402,检索@左右侧的文字并进行判定,其检测判定的方法如下:

检索@的左侧直接序列组合的文字,是否英文、数字、电子邮箱地址连接符号和空格的任意组合,如是,根据预先创建的专用数据库群中的正常空格的数目阈值规则库,检索其中的空格字符数量是否低于预先设置的正常空格的数目阈值,如低于阈值,系统自动删除空格,并将剩余部分按原有先后序列组合成电子邮箱第一部分文本,如空格字符数量高于阈值,系统不予计算;

检索@的右侧直接序列组合的文字,是否英文、数字、电子邮箱地址连接符号、标点符号和空格的任意组合,如是,根据预先创建的专用数据库群中的正常空格的数目阈值规则库,检索其中的空格字符数量是否低于预先设置的正常空格的数目阈值,如低于阈值,系统自动删除空格,并将剩余部分按原有先后序列组合成电子邮箱第二部分文本,如空格字符数量高于阈值,系统不予计算;

若@的右侧有电子邮箱第二部分,则根据预先创建的专用数据库群中的域名后缀库,检索电子邮箱第二部分后面有无域名,如有,则默认为电子邮箱第三部分,如@的右侧无电子邮箱第二部分,系统则不检索;

步骤s0403,如步骤s0402中检索@左侧有电子邮箱第一部分,右侧依次有电子邮箱第二部分和后面的电子邮箱第三部分,则系统自动将电子邮箱第一部分和后面的@、后面的电子邮箱第二部分和后面的电子邮箱第三部分按前后序列组合,抽取为电子邮箱地址。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1