一种提取中文人名地名的方法及装置的制造方法

文档序号:9810509阅读:918来源:国知局
一种提取中文人名地名的方法及装置的制造方法
【技术领域】
[0001] 本发明属于计算机语言学中的自然语言处理领域,具体涉及一种提取中文人名地 名的方法及装置。
【背景技术】
[0002] 随着时代的变迀,信息呈现出爆炸性的增长,为了从海量的数据中提取中有用的 信息,各领域都在大力研究相关的技术,中文人名及地名的提取就是其中的一部分,也是电 子数据取证分析的一个热点,由于中文本身的复杂性和多义性,中文人名及地名的提取研 究要落后于英文很多。
[0003] 参考专利文献CN104182423A公开了一种基于条件随机场的中文人名自动识别方 法,通过对中文人名特征的研究,结合统计学的概率模型,构建出中文人名自动识别系统。 参考专利文献CN103870489A公开了一种基于搜索日志的中文人名自扩展识别方法,利用搜 索日志本身特点构建种子人名、生成人名模板,根据人名上下文在对应查询串及整个搜索 日志查询串的变化趋势,过滤人名模板,降低了人名识别时的噪音信息,提高了搜索日志中 人名识别率。
[0004] 目前中文人名地名提取方式主要包含两种:
[0005] 1.基于规则的方法,此类方法为找出人名地名的构成规则,依据构成规则与样本 数据进行匹配,优点在于效率高,匹配速度快,但是也存在着很明显的缺点:覆盖面需不断 完善定义,对于歧义词,生词识别率较低,标注准确率低。
[0006] 2.基于统计的方法,目前自然语言处理技术的主流方向,对于歧义词和生词识别 的效果较好,可以用于识别人名地名以及组织机构名称等。

【发明内容】

[0007] 针对传统的中文人名地名的提取方式对于中文人名地名的识别率低,且占用内存 高,速度较慢,无法应用于实际生产环境中。本发明提出了一种提取中文人名地名的方法, 该方法通过去除脏数据,并行分析处理,数据分段的方法,使得内存占用减少,速度提升,且 识别的结果准确性显著提高。
[0008] 本发明采用如下技术方案:
[0009] 一种提取中文人名地名的方法,它包括以下步骤,
[0010] S1,将文本转换为UTF-8编码格式;
[0011] S2,预设文本阈值L,判断文本长度T是否大于阈值L,如果T大于L,则采用延伸分段 法将文本分段,分段后转到步骤S3,如果T小于等于L,则转到步骤S3;
[0012] S3,对本文进行预处理去除脏数据;
[0013] S4,对预处理后文本中的中文单字进行词性标注,并将标注后的单字进行分词组 词;
[0014] S5,将文本中与目标词组匹配的词组标记出来,并统计匹配结果。
[0015] 进一步的,步骤S2中的延伸分段法为:
[0016] S201,初始化η为0;
[0018] S203,η = η+1,转到步骤S202,当η大于4时,转到步骤S204;
[0019] S204,将文本按照L+n的长度进行分段。
[0020] 进一步的,步骤S3中的脏数据包括符号、字母、数字、空格中的一种或几种。
[0021] -种提取中文人名地名的装置,它包括,
[0022] 格式转换模块,用于将文本转换为UTF-8编码格式;
[0023]延伸分段模块,用于将转换格式后的文本进行分段;
[0024]预处理模块,用于处理分段后的文本,去除文本中的脏数据;
[0025]词性处理模块,用于预处理后文本中的中文单字进行词性标注,并将标注后的单 字进行由字组词;
[0026] 显示模块,将文本中与目标词组匹配的词组标记出来,并显示统计匹配结果。
[0027] 进一步的,脏数据包括符号、字母、数字、空格中的一种或几种。
[0028] 本发明提出的一种提取中文人名地名的方法能够较好地解决传统人名地名提取 占用内存高,速度慢的缺点,极大地降低了结果中的脏数据,提升了识别的准确性,不仅为 传统电子数据取证提供了一个新的思路,而且能够广泛应用于搜索引擎、机器翻译、数据挖 掘等领域中命名实体的识别。
【附图说明】
[0029] 图1是本发明的流程图;
[0030] 图2是文本预处理除去脏数据前图;
[0031]图3是文本预处理除去脏数据后图;
[0032]图4是人名识别效果图;
[0033]图5是地名识别效果图。
【具体实施方式】
[0034]为进一步说明各实施例,本发明提供有附图。这些附图为本发明揭露内容的一部 分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理。配合参 考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。图中 的组件并未按比例绘制,而类似的组件符号通常用来表示类似的组件。
[0035]现结合附图和【具体实施方式】对本发明进一步说明。
[0036]参阅图1所示,本发明提出了一种提取中文人名地名的方法,它包括以下步骤: [0037] S1,将接收到的文本转换为UTF-8编码格式;
[0038] 常见的文本格式有Of f i ce、PDF、RTF、网页邮件、XML等,不同的文本不同的格式,在 对这些文本进行处理时比较麻烦,为了简便,将所有的文本转换为统一格式。
[0039] UTF-8(8_bit Unicode Transformation Format)是一种针对Unicode的可变长度 字符编码,也称为万国码。由于万国码可以表示Unicode标准中的任何字符,且其编码中的 第一个字节仍与ASCII兼容,这使得原来处理ASCII字符的软件无须或只须做少部份修改, 即可继续使用。因此,万国码逐渐成为电子邮件、网页及其他存储或传送文字的应用中,优 先采用的编码。本发明将各种格式的文本都转换为UTF-8编码格式。
[0040] S2,预设文本阈值L,判断文本长度T是否大于阈值L,如果T大于L,则采用延伸分段 法将文本分段,分段后转到步骤S3,如果T小于等于L,则转到步骤S3。
[0041] 传统的人名地名提取都是将所有数据直接放入处理机中处理,这样不仅会使解析 的速度变慢,而且会使所需的内存加大。发明人通过多次试验寻找最佳的分段点L,使得加 载所需的内存降低,识别的速度加快,达到一个最佳的平衡点。另外由于中文在UTF-8中所 占字节不是为1,所以每L分段中可能导致边界的汉字被分割到两个相邻的段中。为防止边 界汉字被分割开,本发明采用延伸分段法,具体如下:
[0042]对传入的文本T按照常量值L长度设置偏移,需要确定T(L+n) (n = 0,1,2,3,4)右邻 边界字符的二进制编码,算法如下:
[0043] 3201,初始化11为0;
[0045] 3203,11 =
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1