一种文本识别方法和装置的制造方法

文档序号:9631534阅读:178来源:国知局
一种文本识别方法和装置的制造方法
【技术领域】
[0001] 本发明涉及文本识别技术领域,特别是涉及一种文本识别方法和一种文本识别装 置。
【背景技术】
[0002] 随着大数据时代的到来,文本识别是信息提取、数据分析和数据处理中的惯用手 段,例如,在建立电影和演员数据库过程中,往往需要准确识别并提取演员的名称信息。
[0003] 目前,正则匹配法是文本识别的惯用手段,通过建立正则表达式,可以识别满足该 正则表达式的特定文本,对于不满足该正则表达式的其他文本,往往无法识别或识别出错。
[0004] 在实际应用中,正则匹配法具有极大的局限性,缺乏通用性,尤其对于复杂的、非 结构化的网络文本,正则匹配法更是难以适用,例如,在演员名称的识别过程中,假如存在 第一文本"关德兴/邓碧云/梁醒波/"和第二文本"安德烈?卡拉斯科/AndreyKrasko, 米盖尔?普莱切科夫/Μ η x",针对第一文本的正则表达式以"/"为演员名称的分隔符, 然而,将该正则表达式套用在第二文本时,将会识别出"安德烈·卡拉斯科"和"Andrey Krasko"、"米盖尔?普莱切科夫"和"Μη X"分别为两个不同的演员名称,而实际上, "Andrey Krasko"仅为"安德烈?卡拉斯科"的别名,"Μ η X"仅为"米盖尔?普莱切科夫" 的别名。

【发明内容】

[0005] 鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地 解决上述问题的一种文本识别方法和相应的一种文本识别装置。
[0006] 为了解决上述问题,本发明实施例公开了一种文本识别方法,包括:
[0007] 对待识别文本进行分割,获得若干个分割文本;其中,各个分割文本被分割为一个 或多个字段;
[0008] 将所述各个分割文本中的字段,与预置的文本识别数据库中的文本进行匹配,获 得匹配数量;
[0009] 对各个所述字段分配与其匹配数量相应的分值;
[0010] 统计所述各个分割文本的总分值;
[0011] 将总分值最高的分割文本作为所述待识别文本的最优识别结果。
[0012] 优选的,所述将待识别文本分割成若干个分割文本的步骤包括:
[0013] 确定待识别文本中分割符的位置;
[0014] 在所述分割符的位置对所述待识别文本进行分割,获得2η个分割文本,η为所述待 识别文本中分割符的数量,η为正整数。
[0015] 优选的,所述预置的文本识别数据库包括主要文本和次要文本,所述将所述各个 分割文本中的字段,与预置的文本识别数据库中的文本进行匹配,获得匹配数量的步骤包 括:
[0016] 将所述各个分割文本中的字段,与所述预置的文本识别数据库中的主要文本进行 匹配,获得匹配数量;
[0017] 若某字段与所述主要文本进行匹配所获得的匹配数量为0,则将其与所述预置的 文本识别数据库中的次要文本进行匹配,获得匹配数量。
[0018] 优选的,所述对各个所述字段分配与其匹配结果相应的分值的步骤包括:
[0019] 若某字段的匹配数量为0,则分配的分值为
[0020] 若某字段的匹配数量为1,则分配的分值为1 ;
[0021] 若某字段的匹配数量为m,则分配的分值为1,m为大于或等于2的正整数。 m
[0022] 优选的,所述对各个所述字段分配与其匹配结果相应的分值的步骤包括:
[0023] 获取所述各个分割文本中字段的数量p;
[0024] 若某字段的匹配数量为q,则分配的分值为f,其中,p为正整数,q为0或正整数。
[0025] 本发明实施例还公开了一种文本识别装置,包括:
[0026] 文本分割模块,用于对待识别文本进行分割,获得若干个分割文本;其中,各个分 割文本被分割为一个或多个字段;
[0027] 匹配模块,用于将所述各个分割文本中的字段,与预置的文本识别数据库中的文 本进行匹配,获得匹配数量;
[0028] 分值分配模块,用于对各个所述字段分配与其匹配数量相应的分值;
[0029] 总分值统计模块,用于统计所述各个分割文本的总分值;
[0030] 最优识别结果确定模块,用于将总分值最高的分割文本作为所述待识别文本的最 优识别结果。
[0031] 优选的,所述文本分割模块包括:
[0032] 分割符位置确定子模块,用于确定待识别文本中分割符的位置;
[0033] 文本分割子模块,用于在所述分割符的位置对所述待识别文本进行分割,获得2n 个分割文本,η为所述待识别文本中分割符的数量,η为正整数。
[0034] 优选的,所述预置的文本识别数据库包括主要文本和次要文本,所述匹配模块包 括:
[0035] 第一匹配子模块,用于将所述各个分割文本中的字段,与所述预置的文本识别数 据库中的主要文本进行匹配,获得匹配数量;
[0036] 第二匹配子模块,用于在某字段与所述主要文本进行匹配所获得的匹配数量为0 时,则将其与所述预置的文本识别数据库中的次要文本进行匹配,获得匹配数量。
[0037] 优选的,所述分值分配模块包括:
[0038] 第一分值分配子模块,用于在某字段的匹配数量为0时,则分配的分值为
[0039] 第二分值分配子模块,用于在某字段的匹配数量为1,则分配的分值为1 ;
[0040] 第三分值分配子模块,用于在某字段的匹配数量为m,则分配的分值为1,m为大 m 于或等于2的正整数。
[0041] 优选的,所述分值分配模块包括:
[0042] 字段数量获取子模块,用于获取所述各个分割文本中字段的数量p;
[0043] 第四分值分配子模块,用于在某字段的匹配数量为q时,则分配的分值为其 中,P为正整数,q为〇或正整数。
[0044] 本发明实施例包括以下优点:
[0045] 本发明实施例可以对待识别文本进行分割,获得若干个分割文本,将各个分割文 本中的字段,与预置的文本识别数据库中的文本进行匹配,获得匹配数量,对各个字段分配 与其匹配数量相应的分值,将总分值最高的分割文本作为待识别文本的最优识别结果,由 于本发明实施例采用的是文本分割方式,获得的分割文本可以涵括所有的可能分割结果, 最后将总分值最高的分割文本作为所有可能分割结果中的最优识别结果,因此,本发明实 施例可以适用于任意格式的待识别文本,能够准确识别复杂的、非结构化的网络文本,相对 于正则匹配法而言,具有更好的通用性和更高的识别准确性。
【附图说明】
[0046] 图1是本发明的一种文本识别方法实施例的步骤流程图;
[0047] 图2是本发明的一种文本识别装置实施例的结构框图。
【具体实施方式】
[0048] 为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实 施方式对本发明作进一步详细的说明。
[0049] 本发明实施例的核心构思之一在于,本发明实施例采用的是文本分割方式,获得 的分割文本可以涵括所有的可能分割结果,最后将总分值最高的分割文本作为所有可能分 割结果中的最优识别结果,因此,本发明实施例可以适用于任意格式的待识别文本,能够准 确识别复杂的、非结构化的网络文本,相对于正则匹配法而言,具有更好的通用性和更高的 识别准确性。
[0050] 通常,在信息提取
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1