联系方式的识别方法、装置、设备及存储介质与流程

文档序号:16468744发布日期:2019-01-02 22:56阅读:294来源:国知局
联系方式的识别方法、装置、设备及存储介质与流程

本发明涉及人工智能领域,特别是涉及一种联系方式的识别方法、装置、设备及存储介质。



背景技术:

目前,用户可以在分类信息网、论坛等发布信息,但是基于安全性等方面考虑,分类信息网、论坛等一般会隐藏用户的联系方式,禁止用户发布联系方式;因此,需要在用户发布的信息中识别出联系方式。由于发布信息的用户一般会将联系方式进行多种变形后发布,从而导致现有识别方式存在识别率较低的问题。



技术实现要素:

为了克服上述缺陷,本发明要解决的技术问题是提供一种联系方式的识别方法、装置、设备及存储介质,用以至少提高联系方式的识别率。

为解决上述技术问题,本发明实施例中的一种联系方式的识别方法包括:

在待识别的文本中、在所述文本的联系方式的疑似区域中以及在所述疑似区域的临近字符串中提取与联系方式相关的特征;

将所述与联系方式相关的特征输入到预设的联系方式分类器中,以识别出所述文本中的联系方式。

可选地,所述在待识别的文本中、在所述文本的联系方式的疑似区域中以及在所述疑似区域的临近字符串中提取与联系方式相关的特征之前,包括:

将所述文本中具有多种格式的字符转化为预设格式的字符。

可选地,所述在待识别的文本中、在所述文本的联系方式的疑似区域中以及在所述疑似区域的临近字符串中提取与联系方式相关的特征之前,包括:

根据预设的首字符提取规则、中间字符提取规则和字符串长度规则,在所述文本中定位出所述疑似区域。

可选地,所述首字符提取规则包括:所述疑似区域的首字符为以下至少之一:符号、字母和数字;

所述中间字符提取规则包括:所述疑似区域的中间字符为以下至少之一:符号、字母、数字和空格。

可选地,所述在待识别的文本中、在所述文本的联系方式的疑似区域中以及在所述疑似区域的临近字符串中提取与联系方式相关的特征,包括:

在所述疑似区域中提取与所述联系方式的结构相关的第一特征;

在所述临近字符串中提取用于辅助确认所述联系方式的第二特征;所述临近字符串符合预设的字符串长度,并且在所述疑似区域前后两侧;

在所述文本中提取与所述联系方式对应的关键字符串相关的第三特征。

可选地,所述联系方式分类器为随机森林分类器;所述将所述与联系方式相关的特征输入到预设的联系方式分类器中,以识别出所述文本中的联系方式,包括:

将所述第一特征、所述第二特征和所述第三特征输入到所述随机森林分类器的决策树的相应节点;

通过投票机制在所述相应节点对所述第一特征、所述第二特征和所述第三特征进行投票;

根据所述投票结果,识别所述文本中是否存在联系方式。

可选地,所述方法还包括:

根据预设的提取个数,在所述临近字符串和所述疑似区域的边界处提取用于辅助确认所述联系方式的第四特征;和/或,

在所述临近字符串和所述疑似区域提取具有预设的特定意义的字符串特征。

可选地,所述第一特征包括以下至少之一:

数字和/或与所述数字形状相近的字符的个数;

最长的连续数字长度;

连接字符串个数;

关键字符串;

关键字符串的变形字符串和预设提示符号的个数;

关键字符串的变形字符串和预设提示符号的位置;

连续字母长度

连续数字长度;

连续的数字、字母和连接字符串的长度;

所述第二特征包括以下至少之一:

词性;

拼音首字母二元组;

关键字符串;

生僻字;

与关键字符串形近的字符;

所述第三特征包括以下至少之一:

关键字符串中各字符是否出现的组合标识;

关键字符串的变形字符串;

关键字符串中各字符之间的距离;

临近关键字符串的预设提示符号。

为解决上述技术问题,本发明实施例中的一种联系方式的识别装置包括:

提取模块,用于在待识别的文本中、在所述文本的联系方式的疑似区域中以及在所述疑似区域的临近字符串中提取与联系方式相关的特征;

识别模块,用于将所述与联系方式相关的特征输入到预设的联系方式分类器中,以识别出所述文本中的联系方式。

可选地,所述装置还包括:

矫正模块,用于将所述文本中具有多种格式的字符转化为预设格式的字符。

可选地,所述装置还包括:

定位模块,用于根据预设的首字符提取规则、中间字符提取规则和字符串长度规则,在所述文本中定位出所述疑似区域。

可选地,所述首字符提取规则包括:所述疑似区域的首字符为以下至少之一:符号、字母和数字;

所述中间字符提取规则包括:所述疑似区域的中间字符为以下至少之一:符号、字母、数字和空格。

可选地,所述提取模块,具体用于在所述疑似区域中提取与所述联系方式的结构相关的第一特征;在所述临近字符串中提取用于辅助确认所述联系方式的第二特征;所述临近字符串符合预设的字符串长度,并且在所述疑似区域前后两侧;在所述文本中提取与所述联系方式对应的关键字符串相关的第三特征。

可选地,所述联系方式分类器为随机森林分类器;所述识别模块,具体用于将所述第一特征、所述第二特征和所述第三特征输入到所述随机森林分类器的决策树的相应节点;通过投票机制在所述相应节点对所述第一特征、所述第二特征和所述第三特征进行投票;根据所述投票结果,识别所述文本中是否存在联系方式。

可选地,所述提取模块,还具体用于根据预设的提取个数,在所述临近字符串和所述疑似区域的边界处提取用于辅助确认所述联系方式的第四特征;和/或,在所述临近字符串和所述疑似区域提取具有预设的特定意义的字符串特征。

可选地,所述第一特征包括以下至少之一:

数字和/或与所述数字形状相近的字符的个数;

最长的连续数字长度;

连接字符串个数;

关键字符串;

关键字符串的变形字符串和预设提示符号的个数;

关键字符串的变形字符串和预设提示符号的位置;

连续字母长度

连续数字长度;

连续的数字、字母和连接字符串的长度;

所述第二特征包括以下至少之一:

词性;

拼音首字母二元组;

关键字符串;

生僻字;

与关键字符串形近的字符;

所述第三特征包括以下至少之一:

关键字符串中各字符是否出现的组合标识;

关键字符串的变形字符串;

关键字符串中各字符之间的距离;

临近关键字符串的预设提示符号。

为解决上述技术问题,本发明实施例中的一种服务器设备包括存储器和处理器,所述存储器存储有联系方式的识别程序,所述处理器执行所述程序,以实现如上任意一项所述方法的步骤。

为解决上述技术问题,本发明实施例中的一种计算机可读存储介质存储有联系方式的识别程序,所述程序可被至少一个处理器执行,以实现如上任意一项所述方法的步骤。

本发明有益效果如下:

本发明各个实施例通过在全文本中、在疑似区域中已经在临近字符串中提取与联系方式相关的特征,相对于局部识别方式,有效提高了变形的联系方式的识别效果,有效提高联系方式的识别率,有效降低对联系方式识别的人力资源。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1是本发明实施例中一种联系方式的识别方法的流程图;

图2是本发明实施例中文本切割原理示意图;

图3是本发明实施例中一种可选地联系方式的识别方法的流程图;

图4是本发明实施例中另一种可选地联系方式的识别方法的流程图;

图5是本发明实施例中又一种可选地联系方式的识别方法的流程图;

图6是本发明实施例中与联系方式相关的特征的示意图;

图7是本发明实施例中一种联系方式的识别装置的结构示意图;

图8是本发明实施例中一种可选地联系方式的识别装置的结构示意图;

图9是本发明实施例中另一种可选地联系方式的识别装置的结构示意图;

图10是本发明实施例中一种服务器设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。

使用用于区分元件的诸如“第一”、“第二”等前缀仅为了有利于本发明的说明,其本身没有特定的意义。

实施例一

本发明实施例提供一种联系方式的识别方法,如图1所示,所述方法包括:

s101,在待识别的文本中、在所述文本的联系方式的疑似区域中以及在所述疑似区域的临近字符串中提取与联系方式相关的特征;

s102,将所述与联系方式相关的特征输入到预设的联系方式分类器中,以识别出所述文本中的联系方式。

其中,联系方式可以是电话、即时通讯等方式,即时通讯可以包括微信、qq等。

其中,可以将文本如图2所示进行切割,疑似区域属于文本中可能包含有联系方式的字符串区域,可以使用宽泛的定位方法,在整篇文档中定位疑似为联系方式的区域,目的缩小后续的文本处理规模。临近字符串也可以描述为子串,可以预先设置字符串长度,例如15个字符的长度,则在疑似区域前后15个字符属于临近字符串或子串,即图中所示的左右子串。

其中,文本也可以描述为文章、信息、帖子等。在文本中提取的与联系方式相关的特征属于全局特征,对应于一篇文本进行提取特征,从而可以召回距离疑似区域很远的与联系方式相关的特征,在疑似区域中提取的与联系方式相关的特征属于局部特征,在临近字符串中提取的与联系方式相关的特征属于扩展特征。

其中,联系方式分类器可以对一些样本数据进行模型训练而得到。

本发明实施例中通过在全文本中、在疑似区域中已经在临近字符串中提取与联系方式相关的特征,相对于局部识别方式,有效提高了变形的联系方式的识别效果,有效提高联系方式的识别率,有效降低对联系方式识别的人力资源。

在一些实施例中,所述在待识别的文本中、在所述文本的联系方式的疑似区域中以及在所述疑似区域的临近字符串中提取与联系方式相关的特征之前,也包括:

将所述文本中具有多种格式的字符转化为预设格式的字符。通过转化,可以对文本进行可容忍的矫正,从而有效降低后续特征提取过程的复杂度,进而提高识别效率。

在一些实施例中,所述在待识别的文本中、在所述文本的联系方式的疑似区域中以及在所述疑似区域的临近字符串中提取与联系方式相关的特征之前,也包括:

根据预设的首字符提取规则、中间字符提取规则和字符串长度规则,在所述文本中定位出所述疑似区域。通过定位出的疑似区域可以降低特征的提取量,有效提高识别速度。

实施例二

本发明实施例提供一种联系方式的识别方法,如图3所示,所述方法包括:

s201,将所述文本中具有多种格式的字符转化为预设格式的字符;

s202,在待识别的文本中、在所述文本的联系方式的疑似区域中以及在所述疑似区域的临近字符串中提取与联系方式相关的特征;

s203,将所述与联系方式相关的特征输入到预设的联系方式分类器中,以识别出所述文本中的联系方式。

本发明实施例有效降低特征提取过程的复杂度,从而有效提高联系方式的识别率,有效降低对联系方式识别的人力资源的基础上,并有效提高了识别速度。

其中,将所述文本中具有多种格式的字符转化为预设格式的字符可以实现对文本可容忍性矫正,从而可以把一些非恶意的符合、字母、数字矫正,进行标准化,例如,可以包括:

1.去除html、script、style标签;

2.字母矫正:大小写转化;例如都转化成小写字母;

3.数字矫正:;0---9、①---⑴---⒇、1.---⒛、①---⑩、㈠---㈩、一---十等形式统一标准化的数字;

4.对于全中文:一二三四五六七八九十、零壹贰叁肆伍陆柒捌玖拾等,将采用相邻比较归一化进行矫正转化为数字。例如,判断一个中文为数字,并且相邻的两个字符存在一个可以转化为标准数字的字符即可归一化矫正为数字。

5.符号矫正:将一些全角符号进行统一矫正;例如矫正转化为半角符号等。

实施例三

本发明实施例提供一种联系方式的识别方法,如图4所示,所述方法包括:

s301,根据预设的首字符提取规则、中间字符提取规则和字符串长度规则,在所述文本中定位出所述疑似区域;

s3202,在待识别的文本中、在所述文本的联系方式的疑似区域中以及在所述疑似区域的临近字符串中提取与联系方式相关的特征;

s303,将所述与联系方式相关的特征输入到预设的联系方式分类器中,以识别出所述文本中的联系方式。

本发明实施例在有效提高了变形的联系方式的识别效果,有效提高联系方式的识别率,有效降低对联系方式识别的人力资源的基础上,有效提高了识别速度。

在一些实施例中,所述首字符提取规则包括:所述疑似区域的首字符为以下至少之一:符号、字母和数字;

所述中间字符提取规则包括:所述疑似区域的中间字符为以下至少之一:符号、字母、数字和空格。

字符串长度规则可以是总长度在预设长度范围内个字符,例如,预设长度范围为6-20个字符。

通过定位疑似区域可以有效缩小文本的处理规模,进而可以有效降低识别过程的复杂度,提供识别速度。

实施例四

本发明实施例提供一种联系方式的识别方法,如图5所示,所述方法包括:

s401,在所述疑似区域中提取与所述联系方式的结构相关的第一特征;

s402,在所述临近字符串中提取用于辅助确认所述联系方式的第二特征;所述临近字符串符合预设的字符串长度,并且在所述疑似区域前后两侧;

s403,在所述文本中提取与所述联系方式对应的关键字符串相关的第三特征;

s404,将所述与联系方式相关的第一、第二和第三特征输入到预设的联系方式分类器中,以识别出所述文本中的联系方式。

其中关键字符串可以是关键词,关键词也可以描述为敏感词;关键字符串可以用来描述联系方式的类型,例如微信(wechat)、qq、电话(tel)等等。

在一些实施例中,所述方法还可以包括:

根据预设的提取个数,在所述临近字符串和所述疑似区域的边界处提取用于辅助确认所述联系方式的第四特征;和/或,

在所述临近字符串和所述疑似区域提取具有特定意义的字符串特征。

其中,在边界处提取特征可以进一步提供识别率。

其中,特定意义的字符串可以是标识一些设备型号的字符串,例如iphone6,可以在识别的过程中提出这些具有特定意义的字符串特征,可在识别联系方式的过程中,可以滤除第一特征、第二特征、第三特征和第四特征中这些具有特定意义的字符串特征,从而进一步提高识别率。

其中,第一特征与联系方式的结构相关,包括以下至少之一特征:

特征1,数字和/或与所述数字形状相近的字符的个数;例如,数字0或字母o,又如数字1或字母i;

特征2,最长的连续数字长度;

特征3,连接字符串个数;例如“-”个数;

特征4,关键字符串;

特征5,关键字符串的变形字符串和预设提示符号的个数;例如,统计“[v/w+:]”的个数,其中v和w为关键字符串“微信”的变形字符串,“+”为提示符号;

特征6,关键字符串的变形字符串和预设提示符号的位置;统计第一个“[vw+:]”位置;

特征7,连续字母长度

特征8,连续数字长度;

特征9,连续的数字、字母和连接字符串的长度;例如,连续“数字”、“字母”、“_”长度。

其中,第二特征用于辅助确认所述联系方式,可以包括以下至少之一特征:

特征1,词性;例如,提取子串离疑似区域最近的x个词的词性,保留位置关系,其中x可以为3;

特征2,拼音首字母二元组;例如,离疑似区域最近的n个字符的拼音首字母的二元组,保留位置关系,其中n可以为4;

特征3,关键字符串;

特征4,生僻字;

特征5,与关键字符串形近的字符;

特征6,子串分词后为单独字符的个数。

其中,第三特征属于全局特征,可以包括以下至少之一:

特征1,关键字符串中各字符是否出现的组合标识;例如,以微信为例,微”信'两个字符都未出现,标识:00;'微'字未出现,'信'字出现,标识:01;'微'字出现,'信'字未出现,标识:10;'微”信'两个字都出现,标识:11;

特征2,关键字符串的变形字符串;例如,微信的变形字符串vx;又如,关键字符串'微”信'是否为同音字转换的变形字符串;

特征3,关键字符串中各字符之间的距离;例如,标识'微”信'两个字符之间相距的距离,以距离m作为一个跨度,当相距的距离在小于等于m的用1标识,当相距的距离介于m到2m之间的用2标识,当相聚的距离大2m的用3标识。其中m可以设置为5、6、7、8等;

特征4,临近关键字符串的预设提示符号;其中,临近可以是最接近关键字符串的y个字符串,其中y可以是1、2、3、4、5等。

以微信为例,提取的与联系方式相关的特征如图6所示,其中,在文本中提取的与联系方式相关的特征属于全局特征,在疑似区域中提取的与联系方式相关的特征属于局部特征,在临近字符串即子串中提取的与联系方式相关的特征属于扩展特征。

第四特征可以包括以下至少之一特征:

特征1,词性;例如,提取子串离疑似区域最近的x个词的词性,保留位置关系,其中x可以为3;

特征2,拼音首字母二元组;例如,离疑似区域最近的n个字符的拼音首字母的二元组,保留位置关系,其中n可以为4;

特征3,关键字符串;

特征4,生僻字;

特征5,与关键字符串形近的字符;

特征6,子串分词后为单独字符的个数。

在一些实施例中,所述联系方式分类器为随机森林分类器;所述将所述与联系方式相关的特征输入到预设的联系方式分类器中,以识别出所述文本中的联系方式,可以包括:

将所述第一特征、所述第二特征和所述第三特征输入到所述随机森林分类器的决策树的相应节点;

通过投票机制在所述相应节点对所述第一特征、所述第二特征和所述第三特征进行投票;

根据所述投票结果,识别出所述文本中的联系方式。

其中,决策树是一类机器学习方法,该方法在使用中最重要的就是分类特征的构造,在决策树的节点处按照某一特征的不同划分构造不同的分支。随机森林分类方法可以认为是引入投票机制的多个决策树。因此有了样本和特征集合后,即可按照随机森林的构建方法,训练得到一个随机森林分类器。有了随机森林分类器后,即可通过将所述第一特征、所述第二特征和所述第三特征输入到所述随机森林分类器的决策树的相应节点,得到属于各分类的预测概率,从而可以识别所述文本中是否存在联系方式。

当然,所述将所述与联系方式相关的特征输入到预设的联系方式分类器中,以识别出所述文本中的联系方式,也可以包括:

将所述第一特征、所述第二特征、所述第三特征和所述具有特定意义的字符串特征输入到所述随机森林分类器的决策树的相应节点;

通过投票机制在所述相应节点对所述第一特征、所述第二特征所述第三特征、所述第三特征和所述具有特定意义的字符串特征进行投票;

根据所述投票结果,识别出所述文本中的联系方式。

本发明实施例中联系方式的识别方法,对文本联系方式特征提取结束后,可以使用随机森林分类器作为联系方式分类器进行识别,各个业务线的准确率达到93%以上,从而识别的准确率和疑似联系方式的召回率将更加优于局部识别方法,并且在面对变形联系方式时,局部识别方法将无法识别疑似区域和关键词距离很远的变形,而本发明实施例中方法可以有效解决该问题,同时本发明实施例中方法将大大提高线上召回率,大大减少人力资源。

在一些实施例中,将所述与联系方式相关的特征输入到预设的联系方式分类器中,以识别出所述文本中的联系方式之前,可以包括:

在预先获取的样本中、在所述样本的联系方式的疑似区域中以及在所述疑似区域的临近字符串中提取与联系方式相关的特征;

根据从样本中提取的与联系方式相关的特征进行模型训练,得到所述联系方式分类器。

其中,训练过程中的特征提取与识别过程中的特征提取相同,在此不再赘述。

实施例五

本发明实施例提供一种联系方式的识别装置,如图7所示,所述装置包括:

提取模块14,用于在待识别的文本中、在所述文本的联系方式的疑似区域中以及在所述疑似区域的临近字符串中提取与联系方式相关的特征;

识别模块16,用于将所述与联系方式相关的特征输入到预设的联系方式分类器中,以识别出所述文本中的联系方式。

其中,联系方式可以是电话、即时通讯等方式,即时通讯可以包括微信、qq等。

其中,疑似区域属于文本中可能包含有联系方式的字符串区域,可以使用宽泛的定位方法,在整篇文档中定位疑似为联系方式的区域,目的缩小后续的文本处理规模。临近字符串也可以描述为子串,可以预先设置字符串长度,例如15个字符的长度,则在疑似区域前后15个字符属于临近字符串或子串。

其中,文本也可以描述为文章、信息、帖子等。在文本中提取的与联系方式相关的特征属于全局特征,对应于一篇文本进行提取特征,从而可以召回距离疑似区域很远的与联系方式相关的特征,在疑似区域中提取的与联系方式相关的特征属于局部特征,在临近字符串中提取的与联系方式相关的特征属于扩展特征。

其中,联系方式分类器可以对一些样本数据进行模型训练而得到。

本发明实施例中通过在全文本中、在疑似区域中已经在临近字符串中提取与联系方式相关的特征,相对于局部识别方式,有效提高了变形的联系方式的识别效果,有效提高联系方式的识别率,有效降低对联系方式识别的人力资源。

在一些实施例中,所述装置还可以包括:矫正模块,用于将所述文本中具有多种格式的字符转化为预设格式的字符。

在一些实施例中,所述装置还可以包括:定位模块,用于根据预设的首字符提取规则、中间字符提取规则和字符串长度规则,在所述文本中定位出所述疑似区域。

在一些实施例中,所述提取模块14,具体用于在所述疑似区域中提取与所述联系方式的结构相关的第一特征;在所述临近字符串中提取用于辅助确认所述联系方式的第二特征;所述临近字符串符合预设的字符串长度,并且在所述疑似区域前后两侧;在所述文本中提取与所述联系方式对应的关键字符串相关的第三特征。

在一些实施例中,所述提取模块14,还具体用于根据预设的提取个数,在所述临近字符串和所述疑似区域的边界处提取用于辅助确认所述联系方式的第四特征;和/或,在所述临近字符串和所述疑似区域提取具有预设的特定意义的字符串特征。

实施例六

本发明实施例提供一种联系方式的识别装置,如图8所示,所述装置包括:

矫正模块12,用于将所述文本中具有多种格式的字符转化为预设格式的字符;

提取模块14,用于在待识别的文本中、在所述文本的联系方式的疑似区域中以及在所述疑似区域的临近字符串中提取与联系方式相关的特征;

识别模块16,用于将所述与联系方式相关的特征输入到预设的联系方式分类器中,以识别出所述文本中的联系方式。

发明实施例有效降低特征提取过程的复杂度,从而有效提高联系方式的识别率,有效降低对联系方式识别的人力资源的基础上,并有效提高了识别速度。

其中,将所述文本中具有多种格式的字符转化为预设格式的字符可以实现对文本可容忍性矫正,从而可以把一些非恶意的符合、字母、数字矫正,进行标准化,例如,可以包括:

1.去除html、script、style标签;

2.字母矫正:大小写转化;例如都转化成小写字母;

3.数字矫正:;0---9、①---⑴---⒇、1.---⒛、①---⑩、㈠---㈩、一---十等形式统一标准化的数字;

4.对于全中文:一二三四五六七八九十、零壹贰叁肆伍陆柒捌玖拾等,将采用相邻比较归一化进行矫正转化为数字。例如,判断一个中文为数字,并且相邻的两个字符存在一个可以转化为标准数字的字符即可归一化矫正为数字。

5.符号矫正:将一些全角符号进行统一矫正;例如矫正转化为半角符号等。

实施例七

本发明实施例提供一种联系方式的识别装置,如图9所示,所述装置包括:

定位模块10,用于根据预设的首字符提取规则、中间字符提取规则和字符串长度规则,在所述文本中定位出所述疑似区域。

提取模块14,用于在待识别的文本中、在所述文本的联系方式的疑似区域中以及在所述疑似区域的临近字符串中提取与联系方式相关的特征;

识别模块16,用于将所述与联系方式相关的特征输入到预设的联系方式分类器中,以识别出所述文本中的联系方式。

本发明实施例在有效提高了变形的联系方式的识别效果,有效提高联系方式的识别率,有效降低对联系方式识别的人力资源的基础上,有效提高了识别速度。

在一些实施例中,所述首字符提取规则包括:所述疑似区域的首字符为以下至少之一:符号、字母和数字;

所述中间字符提取规则包括:所述疑似区域的中间字符为以下至少之一:符号、字母、数字和空格。

字符串长度规则可以是总长度在预设长度范围内个字符,例如,预设长度范围为6-20个字符。

通过定位疑似区域可以有效缩小文本的处理规模,进而可以有效降低识别过程的复杂度,提供识别速度。

当然,本发明实施例中装置也可以包括实施例六中的矫正模块12,也就是说,矫正模块12在完成矫正后,定位模块10、提取模块14和识别模块16再开始进行相应的工作。

实施例八

本发明实施例提供一种联系方式的识别装置,如图7所示,所述装置包括:

所述提取模块12,用于在所述疑似区域中提取与所述联系方式的结构相关的第一特征;在所述临近字符串中提取用于辅助确认所述联系方式的第二特征;所述临近字符串符合预设的字符串长度,并且在所述疑似区域前后两侧;在所述文本中提取与所述联系方式对应的关键字符串相关的第三特征。

识别模块14,用于将所述第一特征、所述第二特征和所述第三特征输入到预设的联系方式分类器中,以识别出所述文本中的联系方式。

本发明实施例对文本联系方式特征提取结束后,可以使用随机森林分类器作为联系方式分类器进行识别,各个业务线的准确率达到93%以上,从而识别的准确率和疑似联系方式的召回率将更加优于局部识别方法,并且在面对变形联系方式时,局部识别方法将无法识别疑似区域和关键词距离很远的变形,而本发明实施例中方法可以有效解决该问题,同时本发明实施例中方法将大大提高线上召回率,大大减少人力资源。

在一些实施例中,所述提取模块12,还具体用于根据预设的提取个数,在所述临近字符串和所述疑似区域的边界处提取用于辅助确认所述联系方式的第四特征;和/或,在所述临近字符串和所述疑似区域提取具有预设的特定意义的字符串特征。

在一些实施例中,所述第一特征包括以下至少之一:

数字和/或与所述数字形状相近的字符的个数;

最长的连续数字长度;

连接字符串个数;

关键字符串;

关键字符串的变形字符串和预设提示符号的个数;

关键字符串的变形字符串和预设提示符号的位置;

连续字母长度

连续数字长度;

连续的数字、字母和连接字符串的长度;

所述第二特征包括以下至少之一:

词性;

拼音首字母二元组;

关键字符串;

生僻字;

与关键字符串形近的字符;

所述第三特征包括以下至少之一:

关键字符串中各字符是否出现的组合标识;

关键字符串的变形字符串;

关键字符串中各字符之间的距离;

临近关键字符串的预设提示符号;

所述第四特征包括以下至少之一:

词性;

拼音首字母二元组;

关键字符串;

生僻字;

与关键字符串形近的字符。

在一些实施例中,所述联系方式分类器为随机森林分类器;所述识别模块,具体用于将所述第一特征、所述第二特征和所述第三特征输入到所述随机森林分类器的决策树的相应节点;通过投票机制在所述相应节点对所述第一特征、所述第二特征和所述第三特征进行投票;根据所述投票结果,识别所述文本中是否存在联系方式。

在一些实施例中,所述识别模块,也可以具体用于将所述第一特征、所述第二特征、所述第三特征和所述具有特定意义的字符串特征输入到所述随机森林分类器的决策树的相应节点;通过投票机制在所述相应节点对所述第一特征、所述第二特征所述第三特征、所述第三特征和所述具有特定意义的字符串特征进行投票;根据所述投票结果,识别出所述文本中的联系方式。

在一些实施例中,所述装置还可以包括:

训练模块,用于在预先获取的样本中、在所述样本的联系方式的疑似区域中以及在所述疑似区域的临近字符串中提取与联系方式相关的特征;

根据从样本中提取的与联系方式相关的特征进行模型训练,得到所述联系方式分类器。

实施例九

本发明实施例提供一种服务器设备,如图10所示,所述设备包括存储器20和处理器22,所述存储器20存储有联系方式的识别程序,所述处理器22执行所述程序,以实现如实施例一至实施例四中任意一项所述方法的步骤。

实施例十

本发明实施例提供一种计算机可读存储介质,所述存储介质存储有联系方式的识别程序,所述程序可被至少一个处理器执行,以实现如实施例一至实施例四中任意一项所述方法的步骤。

其中,在具体实现时,实施例五至实施例十可以参阅实施例一至实施例四中方法,具有相应的技术效果。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1