一种用于语言材料的数据识别与提取方法

文档序号:6640238阅读:360来源:国知局
一种用于语言材料的数据识别与提取方法
【专利摘要】本发明公开了一种用于语言材料的数据识别与提取方法,包括:根据原始数据文件中的内容对应的计算机字符编码,将组成所述内容的数据单元进行第一次转换处理,生成预处理数据单元;根据与所述原始数据文件相应的数据库中的数据单元属性的相互关系,将所述预处理数据单元进行第二次转换处理,生成与所述原始数据文件相应的数据库中的数据单元相一致的规范化的数据单元;对所述规范化的数据单元进行提取。本发明的方法操作简单、运算速度快。
【专利说明】一种用于语言材料的数据识别与提取方法

【技术领域】
[0001] 本发明涉及计算机数据处理领域,特别涉及一种用于语言材料的数据识别与提取 方法。

【背景技术】
[0002] 随着数据信息的爆炸式发展,大数据时代已经来临,数据的数量、类型、书写的等 方面的差异,使得数据日益复杂,这给计算机识别与提取数据带来了障碍。作为数据信息 中一个重要分支,语言文字是人类进行信息交流和文化传承的工具,经过无数代人继承、发 展、进化而自然形成。词汇是语言表达组成的最小单位,也是语言研究、语言教学的核心内 容。随着科学技术的发展,词汇研究由简单的单个词汇的语义研究、使用研究开始进入词汇 宏观的数据分析研究,学界近年来开始关注词汇数据信息的挖掘、研究、利用,以了解不同 地区、不同阶层、不同时代人群用词特点,提高对语言规律的再认识和语言发展趋势。由此 一批学者试图通过系列研究,来形成了一批分析词汇特征、差异和规律的测定指标,类似医 院做肝功能检查,做血液检查一样,通过不同指标的数值高低判断被测材料的总体规模、用 词特征、易读性、适用对象等等,得出客观的、科学的判断。
[0003] 但是,语言文字材料词汇本身数量就十分的庞大,语句的变化、词汇的变形极其复 杂,所以国际上目前尚没有这类词汇数据测定的专用工具,给词汇数据分析带来极大的困 难,致使该类研究停滞不前。本发明依据外语特点,实现了多步骤智能识别、提取词汇,获得 基础数据,并在此基础上进行多指标的测定,为词汇研究建立了一个便捷的通用平台,并填 补了该领域测试手段的空白。


【发明内容】

[0004] 针对现有技术存在的各种缺陷,本发明提出了一种用于语言材料的数据识别与提 取方法。该方法包括:
[0005] (1)根据原始数据文件中的内容对应的计算机字符编码,将组成所述内容的数据 单元进行第一次转换处理,生成预处理数据单元;
[0006] (2)根据与所述原始数据文件相应的数据库中的数据单元属性的相互关系,将所 述预处理数据单元进行第二次转换处理,生成与所述原始数据文件相应的数据库中的数据 单元相一致的规范化的数据单元;
[0007] (3)对所述规范化的数据单元进行提取。
[0008] 通过对数据文件进行规范化处理,使其成为计算机可是别的数据信息,再进行提 取基础数据,并在此基础上进行多指标的测定,此方法操作简单、运算速度快。
[0009] 在一些实施方式中,所述步骤(1)包括:
[0010] 将所述原始数据的数据单元中的有效数据信息用计算机对应的字符编码;
[0011] 将所述原始数据的数据单元中的无效数据信息用计算机预设的字符编码;
[0012] 根据所述计算机对应或者预设的字符编码,滤除所述原始数据的数据单元中的无 效数据信息,生成仅保留所述原始数据的数据单元的有效数据信息。
[0013] 在一些实施方式中,所述步骤(2)包括:
[0014] 针对与所述原始数据文件相应的数据库中的数据单元在预处理数据单元中进行 全文检索;
[0015] 根据所述数据库中的数据单元属性的相互关系,将所述预处理数据单元用与所述 数据库中的数据单元进行替换处理;
[0016] 生成与所述原始数据文件相应的数据库中的数据单元相一致的规范化的数据单 J Li 〇
[0017] 在一些实施方式中,所述原始数据文件是书写不规范的外文材料,所述外文包括: 英文、法文、德文、西班牙文和俄文。
[0018] 在一些实施方式中,所述相互关系包括:字符大小写关系、惯用语句关系、词汇缩 写关系、动词的时态语态变化关系、词汇的英/美拼写差异关系、词汇的比较级关系、名词 的单/复数变化关系。
[0019] 在一些实施方式中,根据所述步骤(3)提取的内容包括:词汇总量、单词量、词汇 构成、词汇频率、词汇覆盖率、词表覆盖率、词汇密度、容词率。
[0020] 在一些实施方式中,所述词汇覆盖率是通过外文材料中词表包含的单词量与外文 材料中词汇的单词量的比值确定的。
[0021] 在一些实施方式中,所述词表覆盖率是通过外文材料中词表包含的单词量与所述 外文材料中词表词量的比值确定的。
[0022] 在一些实施方式中,所述词汇密度是通过外文材料中实意词量与所述外文材料词 汇量的比值确定的。
[0023] 在一些实施方式中,所述容词率是通过外文材料的词汇量与所述外文材料词汇总 量的比值确定的。
[0024] 通过对数据文件进行规范化处理,使其成为计算机可是别的数据信息,再进行提 取基础数据,并在此基础上进行多指标的测定,此种智能信息识别、提取的方法操作简单、 运算速度快。

【专利附图】

【附图说明】
[0025] 图1为本发明一实施方式的语言材料数据识别、提取程序流程图;
[0026] 图2为本发明一实施方式的数据信息智能识别、提取程序流程图;
[0027] 图3为本发明一实施方式的无效字符的滤除流程图;
[0028] 图4为本发明一实施方式的语句关系矫正程序流程图;
[0029] 图5为本发明一实施方式的词汇提取与原型转换流程图;
[0030] 图6为本发明一实施方式的词汇表覆盖率分布散点图。

【具体实施方式】
[0031] 下面结合附图对本发明作进一步详细的说明。
[0032] 图1示意性地显示了本发明一实施方式的语言材料数据识别、提取程序流程图。 其中具体包括以下步骤:
[0033] 1、根据原始数据文件中的内容对应的计算机字符编码,将组成所述内容的数据单 元进行第一次转换处理,生成预处理数据单元。其中,原始数据文件包括:英文、法文、德文、 西班牙文和俄文数据。
[0034] 具体而言:将所述原始数据的数据单元中的有效数据信息用计算机对应的字符编 码;将所述原始数据的数据单元中的无效数据信息用计算机预设的字符编码;根据所述计 算机对应或者预设的字符编码,滤除所述原始数据的数据单元中的无效数据信息,生成仅 保留所述原始数据的数据单元的有效数据信息。
[0035] 2、根据与所述原始数据文件相应的数据库中的数据单元属性的相互关系,将所述 预处理数据单元进行第二次转换处理,生成与所述原始数据文件相应的数据库中的数据单 元相一致的规范化的数据单元。其中,所述相互关系包括:字符大小写关系、惯用语句关系、 词汇缩写关系、动词的时态语态变化关系、词汇的英美拼写差异关系、词汇的比较级关系、 名词的单复数变化关系。
[0036] 具体而言:针对与所述原始数据文件相应的数据库中的数据单元在预处理数据单 元中进行全文检索;根据所述数据库中的数据单元属性的相互关系,将所述预处理数据单 元用与所述数据库中的数据单元进行替换处理;生成与所述原始数据文件相应的数据库中 的数据单元相一致的规范化的数据单元。
[0037] 3、在上述规范化的基础数据基础上对数据单元进行提取并进行统计。其中,提取 的内容包括:词汇总量、单词量、词汇构成、词汇频率、词汇覆盖率、词表覆盖率、词汇密度、 容词率。数据提取后就可以对语言材料进行一些列的科学测定,例如:词频测定、容词率测 定、词汇构成测定、词汇覆盖率测定、词汇密度测定、此表覆盖率测定等。
[0038] 图2示意性地显示了本发明一实施方式的数据信息智能识别、提取程序流程图。 以下仅以英文为例,法文、德文、西班牙文均类同,俄文为双字节字母文字,单词起始点和终 止点的识别与英文类似,文字过滤可参考中文字符处理方法。运用所掌握的语言学规律,对 外文材料中出现的不规则句型、语句、词汇进行多步骤识别、处理,最终获得系列基础数据。 参照图2,其处理流程为:文本字符小写转换一字符过滤一规则矫正一"'"和"后连空格 者转换成空格一相连多空格符转换为单空格符一词汇提取一原型转换/入库一排序。
[0039] 图3为本发明一实施方式的无效字符的滤除流程图。其中,所测材料含有各种符 号以及夹杂的控制符或其他ASCII码这些干扰杂文字符,特别是含有非关注语种文字,通 常的文字统计程序对这些无效字符一并进行统计,其数据只适合出版部门用于稿费计算, 但在英语词汇研究中使用这类数据将使信息严重失真,必须予以滤除。参照图3,滤除的方 法是对文本进行ASCII码逐个过滤,例如小写字母a-z的ASCII码值97-122,符号"的 ASCII码值为46,空格的ASCII码值为32,","的ASCII码值为39, 的ASCII码值为 45,这些符号均给予保留,其他符号全部用空格符取代。
[0040] 图4为本发明一实施方式的语句关系矫正程序流程图。其中,通过语句关系矫正 程序将影响词汇准确计数的惯用语句的改写与自适应技术。如:It's going to be a lot of fun.自动改写成:It is going to be a lot of fun.该句词数应为9,不能允许为8, 同时避免了 it' s为单词的可能。参照图4,程序设计一个规则库,将所有这类情况存入库 中,在对材料处理时将规则库中的情况逐一在被测材料中全文检索,然后自动替换。
[0041] 字母大小写的处理在进行词汇识别时,字母大小写也会干扰识别过程(如标题、 语句的起始词等),解决方法是在词汇识别前全部转换成小写,而词汇信息库的检索关键 词字段一律使用小写,对于常用人名、地名,在词汇信息库的原型词字段放置首字母大写单 词。如:China (原文形式)一china (识别形式)一China (转换后形式)。
[0042] 缩写词的处理,缩写词的处理原理:在去除句号"时已考虑到缩写词问题,采用 仅去除其后带空格的词汇信息库的检索关键词做适应性改动,如U. S.的检索形式为 "11.8",原型转换后为^.".
[0043] 其它如:3th ;〇' clock等均采用与规则库配合,在词汇信息库的原型词汇字段进 行自适应处理。lth、2th、3th等等众多,在字母过滤时其首的阿拉伯数字已被滤除,因此凡 提取到"th"时就自动转换成"Xth" ;〇' clock类的处理是配合规则库,将o' clock先改写 为o-clock,然后对提取到的"o-clock"就自动转换成o' clok。
[0044] 图5为本发明一实施方式的词汇提取与原型转换流程图。其中,词汇的识别提取, 英语的变化形式繁多大致包括有:
[0045] 1)动词的时态语态的变化,如:
[0046] abandon, abandons, abandoned, abandoning
[0047] blend,blended,blent,blends,blending
[0048] 2)词汇的英/美拼写差异,如:airplane/aeroplane
[0049] 3)比较级,如:good,better,best ;great,greater,greatest
[0050] 4)名词的单 / 复数变化,如:looker_on,lookers-on ;know_all,know-alls
[0051] 通常基础数据如对这些词汇分别统计将造成数据的极大混乱,我们不能容许出现 如下的数据统计现象(应该是:词汇do计数14):
[0052]
[0053] ......

【权利要求】
1. 一种用于语言材料的数据识别与提取方法,包括: (1) 根据原始数据文件中的内容对应的计算机字符编码,将组成所述内容的数据单元 进行第一次转换处理,生成预处理数据单元; (2) 根据与所述原始数据文件相应的数据库中的数据单元属性的相互关系,将所述预 处理数据单元进行第二次转换处理,生成与所述原始数据文件相应的数据库中的数据单元 相一致的规范化的数据单元; (3) 对所述规范化的数据单元进行提取。
2. 根据权利要求1所述的方法,其特征在于,所述步骤(1)包括: 将所述原始数据的数据单元中的有效数据信息用计算机对应的字符编码; 将所述原始数据的数据单元中的无效数据信息用计算机预设的字符编码; 根据所述计算机对应或者预设的字符编码,滤除所述原始数据的数据单元中的无效数 据信息,生成仅保留所述原始数据的数据单元的有效数据信息。
3. 根据权利要求1所述的方法,其特征在于,所述步骤(2)包括: 针对与所述原始数据文件相应的数据库中的数据单元在预处理数据单元中进行全文 检索; 根据所述数据库中的数据单元属性的相互关系,将所述预处理数据单元用与所述数据 库中的数据单元进行替换处理; 生成与所述原始数据文件相应的数据库中的数据单元相一致的规范化的数据单元。
4. 根据权利要求1-3任一项权利要求所述的方法,其特征在于,所述原始数据文件是 书写不规范的外文材料,所述外文包括;英文、法文、德文、西班牙文和俄文。
5. 根据权利要求4所述的方法,其特征在于,所述相互关系包括:字符大小写关系、惯 用语句关系、词汇缩写关系、动词的时态语态变化关系、词汇的英美拼写差异关系、词汇的 比较级关系、名词的单复数变化关系。
6. 根据权利要求4所述的方法,其特征在于,根据所述步骤(3)提取的内容包括;词汇 总量、单词量、词汇构成、词汇频率、词汇覆盖率、词表覆盖率、词汇密度、容词率。
7. 根据权利要求6所述的方法,其特征在于,所述词汇覆盖率是通过外文材料中词表 包含的单词量与外文材料中词汇的单词量的比值确定的。
8. 根据权利要求6所述的方法,其特征在于,所述词表覆盖率是通过外文材料中词表 包含的单词量与所述外文材料中词表词量的比值确定的。
9. 根据权利要求6所述的方法,其特征在于,所述词汇密度是通过外文材料中实意词 量与所述外文材料词汇量的比值确定的。
10. 根据权利要求6所述的方法,其特征在于,所述容词率是通过外文材料的词汇量与 所述外文材料词汇总量的比值确定的。
【文档编号】G06F17/30GK104462032SQ201410829863
【公开日】2015年3月25日 申请日期:2014年12月26日 优先权日:2014年12月26日
【发明者】李冬, 庄勋, 李漓 申请人:南通大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1