一种基于逻辑和统计技术的数据元识别方法

文档序号:6506792阅读:657来源:国知局
一种基于逻辑和统计技术的数据元识别方法
【专利摘要】本发明涉及数据识别【技术领域】,具体公开了一种基于逻辑和统计技术的数据元识别方法;包括:客户端提交待测试语料的数据处理请求,用计算机统计数据元库中数据的长度特征以及数据元结构的词法规则,根据数据的长度特征对数据进行分类,分别总结不同分类下的数据元结构的词法规则,用词法分析工具对待测试语料中的数据进行分词及词性标注处理,并用长度特征和词法规则从测试语料中抽取出候选数据元;统计候选数据元在测试语料中的分布情况,将候选数据元逐步划分到数据元和非数据元两个类别;分别用过滤子串算法、短语搭配检验并结合词汇活跃度进行过滤,再计算领域相关度,再将短语按领域相关度从大到小排序。本发明解决了数据元识别自动化的问题。
【专利说明】一种基于逻辑和统计技术的数据元识别方法

【技术领域】
[0001] 本发明涉及数据识别【技术领域】,尤其是涉及一种基于逻辑和统计技术的数据元识 别方法。

【背景技术】
[0002] 数据元(Data Flement):又称数据类型,通过定义、标识、表示以及允许值等一系 列属性描述的数据单元。在一定语境下,通常用于构建一个语义正确、独立且无歧义的特定 概念语义的信息单元,是用来对行业数据进行统一的名、型、值的规范及分类;目的是建立 满足各种类型的行业领域数据库建设和数据库整合,以及数据集成、交换、共享、服务和应 用对数据标准化的需要。
[0003] 6W原则是诺贝尔文学奖获得者英国作家吉卜林提出的思考问题、解决问题的方 法,S卩"Where (什么地方)、When (什么时间)、Who (什么人)、Which (针对什么)、What (做 了什么,及如何做)、Why (为什么)"。任何一件事情、一个问题,都无法逃脱这六个"W",若 弄通了这六个"W",对于这件事情或这个问题,才可以彻底清楚明白。
[0004] 国家在2005年发布了"数据元标准化的基本原则与方法"科学数据共享工程技术 标准(SDS/T2132-2004)。很多行业依据该标准启动了相关业务领域数据元标准的建设工 作。分析目前已发布的数据元标准,多为逻辑层面的数据元,目前数据元标准化只能是人工 依据数据结构或业务逻辑通过人工定义的方法进行分析和定义,而数据元标准化的基础就 是要先得到数据元,现有技术只能人工进行识别数据元,然后根据人工识别的结果进行人 工数据元分类,至今还没有自动化的识别方法。如何有效地利用计算机自动识别获取自由 文本中的数据元,目前尚无有效地解决方案。


【发明内容】

[0005] 本发明所解决的技术问题是提供一种基于逻辑和统计技术的数据元识别方法,本 方法解决了数据元识别自动化的问题,为数据元后期的分类打下了良好的基础。本发明在 自由文本数据元提取和数据元提取后的分类处理过程中,采用6W原则对提取的数据元进 行时间类、位置类、组织类、对象类、活动类和特征类定义,增强了对自由文本中的数据元抽 取、定义和命名的可靠性与适用性。本发明为行业领域建立了适用通用和专用的数据元目 录,即数据元字典,为行业数据元标准体系建设提供了依据。
[0006] 为了解决上述技术问题,本发明提供了一种基于逻辑和统计技术的数据元识别方 法;包括:
[0007] 步骤一:数据元语言规则的获取:所述客户端提交待测试语料的数据处理请求, 依据数据元库中的数据为基础,用计算机统计数据元库中所述数据的长度特征以及数据元 结构的词法规则,根据所述统计的结果总结所述数据的长度特征,根据所述数据的所述长 度特征对所述数据进行分类,然后分别总结不同分类下的数据元结构的词法规则,用词法 分析工具对所述待测试语料中的所述数据进行分词及词性标注处理,并用所述长度特征和 所述词法规则从测试语料中抽取出候选数据元;
[0008] 步骤二:概念数据元识别:统计所述候选数据元在所述测试语料中的分布情况, 根据所述候选数据元的所述分布情况构造样本空间,基于FCM聚类算法的框架下,将所述 候选数据元逐步划分到数据元和非数据元两个类别中,完成所述数据元的自动识别;
[0009] 步骤三:逻辑数据元和应用数据元识别:用过滤子串算法去除抽取的所述候选数 据元中结构不完整的数据元候选项,用短语搭配检验,删除所述候选项中搭配不正确的词 串,并结合词汇活跃度过滤包含活跃词汇的固定搭配,再计算领域相关度,将过滤后的短语 按所述领域相关度从大到小进行排序,排序结果即为逻辑数据元和应用数据元识别的最终 结果。
[0010] 优选的,所述步骤一中,所述数据的长度特征以及数据元结构的词法规则是指不 同长度的所述数据的出现频次、不同词性所述数据的出现频次以及不同词性序列所述数据 的出现频次。
[0011] 更加优选的,所述步骤一中,所述分词及词性标注采用词法分析工具ICTCLAS进 行分词及词性标注。
[0012] 更加优选的,所述步骤一中,所述数据元库是指收录了需要进行所述数据识别的 相关领域的数据元的库,所述数据元库中的每条数据都以三元组的形式记录,所述三元组 包括数据元库中的一条数据元,所述此条数据元的长度,即所述此条数据元中包含的单词 数,以及所述此条数据元的词性组合序列。
[0013] 更加优选的,所述步骤一中,所述数据元结构的词法规则包括词性序列特征和构 词特征。
[0014] 更加优选的,所述步骤一中,所述数据元结构的词法规则是基于所述数据元的长 度特征进行分类的。
[0015] 更加优选的,所述步骤一中,基于所述数据的所述长度特征对所述数据元结构的 词法规则进行分类时,所述分类包括四个部分:单词型的概念数据元,即只包含1个单词的 数据元;短词组型的逻辑数据元和应用数据元,即包含2或3个单词的数据元;包中词组型 逻辑和应用数据元,即包含4?6个单词的数据元;长词组型的逻辑数据元和应用数据元, 即包含大于6个单词的数据元。
[0016] 更加优选的,所述步骤一中,抽取出所述候选数据元时,所述候选数据元包括候选 概念数据元、候选逻辑数据元和候选应用数据元。
[0017] 更加优选的,所述步骤一中,抽取出所述候选数据元时,所述候选概念数据元抽取 的候选项包括:n表示名词、V表示动词、a表示形容词、b表示区别词、1表示习用语、d表示 副词、m表示数词以及q表示量词。
[0018] 更加优选的,所述步骤一中,抽取出所述候选数据元时,所述候选逻辑数据元和所 述候选应用数据元的抽取规则包括:二词三词的词法模式以及四词五词六词的抽取规则, 二i司i司法模式包f舌 n+n、v+n、n+v、v+v、a+n、b+n、a+v、d+v、m+n、n+a 司i司法模式包f舌: n+n+n、n+v+n、v+v+n、v+n+n、n+n+v、d+v+n、a+n+n、v+n+v、n+v+v、a+v+n ;四词五 i司六 i司白勺手由 取规则包括:规则一 :4?6个单词的所述数据元候选项中不得包含如下性质的词语表 示标点、r表示代词、g表示语素、1表示习用语、z表示状态词、X表示非语素词、s表示处 所词、〇表示拟声词、e表示叹词、y表示语气词以及i表示成语;规则二:4?6个单词的所 述数据元候选项中不得以C表示连词、U表示助词以及k表示后接成分作为词首;规则三: 4?6个单词的所述数据元候选项中不得以c表示连词、f表示方位词以及h表示前接成分 作为词尾;规则四:4?6个单词的所述数据元候选项中至少有一个词属于η表示名词、V表 示动词、q表示量词、1表示习用语、j表示简称略语或k表示后接成分。
[0019] 更加优选的,所述步骤二中,在所述FCM聚类算法采用TFIDF准则度量每个所述候 选数据元,分别选择所述TFIDF值中最大的样本作为正例集合的初始类中心点,选择所述 TFIDF值中最小的样本作为负例集合的初始类中心;并同时采用向量空间模型作为特征表 示方法,将所述向量空间模型和所述TFIDF值相乘得到的结果作为领域相关度的最终评价 结果。
[0020] 更加优选的,所述步骤二中,在所述FCM聚类算法计算之前,先将所述FCM聚类算 法优选规则进行设置,预设聚类类别数c、模糊加权指数m以及收敛阈值ε,所述收敛阈值 ε的是第k次迭代和第k+Ι次迭代类中心向量的误差I IVk-Vk-Il I彡ε时,则停止迭代计 算。
[0021] 更加优选的,所述步骤二中,所述聚类类别数c设为2,所述模糊加权指数m设为 2,所述收敛阈值ε为Ie'
[0022] 更加优选的,所述步骤三中,所述过滤字串算法是指在信息抽取任务中,以词串的 独立概率作为衡量指标,当父串和子串同时出现在抽取结果中时,考察子串的结构是否完 整,或子串和父串是否重叠,为每个所述子串寻找所述语料中出现的最短父串,根据所述子 串与所述父串之间的关系来判断所述子串是否独立存在,进而判断是否该删除所述考察子 串,当判断每条候选项的结构不完整时,删除不合格的破碎子串。
[0023] 更加优选的,所述步骤三中,所述短语搭配是检验短语中词语搭配是否合适,分别 给互信息和活跃度加入一个阈值,将所述互信息和所述活跃度加入阈值后求和作为最终判 断标准,从短语列表中剔除结构不稳定的候选项,所述结构不稳定的候选项包括短语内部 词语之间的搭配不合理以及短语中包含活跃度较高的词汇;所述互信息指词语之间的搭配 程度,所述活跃度指词语的活跃度。
[0024] 更加优选的,所述步骤三中,所述领域相关度是基于词频分布变化基础对候选项 与专业领域的相关程度进行对比,通过候选项在每篇文档中出现频次的分布方差反映所 述候选项在每篇文档中的变化程度,结合TFIDF方法体现所述候选项在整个语料中的覆盖 量,评估出所述候选项与专业领域知识的关联程度。
[0025] 更加优选的,所述步骤三中,所述领域相关度计算公式为:
[0026] DR(t) = tf-idf⑴· σ⑴;其中,所述tf-idf⑴根据TFIDF方法计算,所述 〇 (t)为方差。
[0027] 更加优选的,所述步骤三中,所述结构不完整的候选项指不具备独立存在的意义、 结构不完整的破碎子串。
[0028] 更加优选的,在所述步骤二和所述步骤三之后,按照6W原则对识别出的概念数据 元、逻辑数据元和应用数据元进行分类分析,并将分析结果输出给所述客户端。
[0029] 其中,所述数据元包括概念数据元、逻辑数据元和应用数据元,其中:概念数据元 属高度抽象的最小概念定义,如:井、时间、原油、产量;逻辑数据元属实例化赋予明确意义 的数据元,类似数据库实体属性或数据项,如:井号、生产日期、原油产量;应用数据元是对 数据的明确语义表达,如:油井每日原油产量,它可以离开任何数据结构对数据进行精确表 达。逻辑数据元和应用数据元都可以通过概念数据元进行表达。在数据建模过程中,首要 任务就是确定逻辑数据元,然后从逻辑数据元中分析出纯概念数据元,本案称其为数据元 素,并依据分析结果建立数据元素之间的联系,进而得到数据元素之间的语义网状结构,用 于对数据元的准确定义,并繁衍出用于数据语义描述的应用数据元。
[0030] 其中,所述数据元库是指收录了需要进行数据元识别的相关领域的数据元的库, 该数据元库中的每个条目都以三元组的形式记录,记为〈Ti,Len (Ti),POS (Ti) >,其中Ti表 示数据元库中第i条数据元;Len(Ti)表示第i条数据元的长度,即该条数据元中包含的单 词数;POS (Ti)表示第i条数据元的词性组合序列。
[0031] 其中,所述词法分析工具ICTCLAS是中科院计算所研制的,该工具中使用的词性 标注集为北大汉语文本词性标注标记集。ICTCLAS可通过网络免费获取,并在其相关文档中 附有北大汉语文本词性标注标记集。
[0032] 其中,所述FCM聚类算法即模糊C均值聚类算法(Fuzzy C-Means,FCM),该算法是 对自变量的一个约束优化处理,通过初始化类中心或者隶属度矩阵、方程迭代,直到使得目 标函数最小化。在FCM算法中,各类中心的初始位置和属性是随机选取的,若初始类中心与 实际的类中心十分接近,则迭代次数很小,快速收敛于实际类中心。反之,则会消耗大量的 聚类时间。
[0033] 其中,现有的过滤字串算法主要从父串出发,删除与父串具有相同词频或相差 K-频次的子串。由于公共破碎子串与父串之间词频差异较大,这些方法在识别由公共子串 引起的错误时,效果并不理想。如何在删除普通破碎子串的同时,也能够过滤掉公共破碎子 串,目前还没有理想的方法。
[0034] 其中,现有的检验词语之间的搭配程度可以使用互信息作为度量标准,检验词语 活跃度可以使用词语活跃度计算公式现有技术中,只能单独考察这两方面中的一方面对短 语搭配的影响。
[0035] 其中,所述TFIDF(term frequency-inverse document frequency)是一种统计方 法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
[0036] 其中,所述数据元的长度指包含在数据元中的单词数。概念数据元是指最基本的 数据元,即为对象、特性、活动中的一个,逻辑数据元是指在基本数据元的基础上加入修饰 的特征词,即由对象、特性、活动中的两两构成,而应用数据元是指有完整的场景描述的数 据元,即由对象、特性、活动三者共同构成。数据元的最小长度为1,也就是数据元中仅包含 1个单词,即概念数据元,概念数据元为单词型的。例如:"油井"仅由1个单词构成,属于概 念数据元(单词型)。逻辑和应用数据元包含两个及更多的单词,是词组型的,词组型数据 元的长度是大于1的,例如:"油井深度"经分析后可拆分为两个单词"油井"和"深度",因 此长度为2。
[0037] 其中,所述向量空间模型(VSM :Vector Space Model)把对文本内容的处理简化 为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。具体 步骤包括:①将候选概念数据元作为输入数据;②使用TFIDF准则度量每个候选样本,分别 选择TFIDF值最大的样本作为正例集合的初始类中心点,选择值最小的样本作为负例集合 的初始类中心,由正例和负例的初始类中心点构成初始化类中心矩阵V(O);预设误差阂值 ε,且ε>〇;设迭代次数k = 0;③对Vxi E X,根据欧氏距离计算该样本对各类的隶 属程度;若dik = I |xi-vk| I = 0,则设uik = 1,且令uir = 0(r关k);④根据FCM目标函 数,更新类中心矩阵,记为V(k+1);⑤如果||V(k)-V(k+l)|| < ε,则停止迭代;否则,令k =k+Ι,并跳至步骤2 ;⑥返回类中心矩阵V(k)。
[0038] 本发明与现有技术相比,具有如下有益效果:
[0039] 本方法解决了数据元识别自动化的问题,为数据元后期的分类打下了良好的基 础。本发明在自由文本数据元提取和数据元提取后的分类处理过程中,采用6W原则对提取 的数据元进行时间类、位置类、组织类、对象类、活动类和特征类定义,增强了对自由文本中 的数据元抽取、定义和命名的可靠性与适用性。本发明为行业领域建立了适用通用和专用 的数据元目录,即数据元字典,为行业数据元标准体系建设提供了依据。

【专利附图】

【附图说明】
[0040] 图1示例性地示出了基于逻辑和统计技术的数据元识别方法流程示意图;
[0041] 图2示例性地示出了概念数据元的识别流程示意图;
[0042] 图3示例性地示出了逻辑数据元和应用数据元的识别流程示意图。

【具体实施方式】
[0043] 为了更好地理解本发明所解决的技术问题、所提供的技术方案,以下结合附图及 实施例,对本发明进行进一步详细说明。此处所描述的具体实施例仅用以解释本发明的实 施,但并不用于限定本发明。
[0044] 在优选的实施例中,图1示例性地示出了一种基于逻辑和统计技术的数据元识别 方法流程图;包括:
[0045] 整个数据元识别方法可以划分为三个模块,分别为数据元语言规则获取模块、概 念数据元识别模块(单词型)以及逻辑和应用数据元识别模块(词组型)。(1)数据元语 言规则获取模块:以数据元库中的数据为基础,用计算机统计数据元库中所述数据的长度 特征以及数据元结构的词法规则,根据所述统计的结果总结所述数据的长度特征,根据长 度特征对数据元进行分类,然后分别总结不同分类下的数据元结构的词法规则,用词法分 析工具对测试预料进行分词及词性标注处理,并用所述长度特征和所述词法规则从测试语 料中抽取出候选数据元;(2)概念数据元(单词型)识别模块:统计候选项在语料中的分布 数据,利用数据元在语料中分布的局部信息来构造特征空间,在FCM算法的框架下,将候选 项逐步划分到数据元和非数据元这两个类别中,实现数据元的自动识别和标注;(3)逻辑 和应用数据元(词组型)抽取模块:由于使用的语言规则比较宽松,接纳了更多非名词性的 词汇和短语,因此在抽取出的候选项中会存在很多噪声数据。在该模块中,将会使用过滤子 串算法去除其中结构不完整的候选项;利用短语搭配结构检验,删除其中搭配不正确的词 串,结合词汇活跃度过滤那些包含活跃词汇的固定搭配;最后计算领域相关度,将过滤后的 短语按相关度从大到小排序,排序结果即为逻辑数据元和应用数据元识别的最终结果。 [0046] 最后,综合概念数据元、逻辑和应用数据元的识别结果即为数据元识别的最终结 果。
[0047] 具体的实施例中:
[0048] 文本分词及词性标注:本方法中凡是涉及到需要对自由文本进行分词及词性标注 工作的,都采用中科院计算所的词法分析工具ICTCLAS进行分词并对所有条目进行了词性 标注,该工具中使用的词性标注集为北大汉语文本词性标注标记集。ICTCLAS可通过网络 http://ictclas. org免费获取,在其相关文档中附有北大汉语文本词性标注标记集。
[0049] 语言规则获取模块:数据元库中的每个条目都以三元组的形式记录,记为〈Ti, Len(Ti), POS (Ti) >,其中Ti表示数据元库中第i条数据元;Len (Ti)表示第i条数据元的 长度,即该条数据元中包含的单词数;POS(Ti)表示第i条数据元的词性组合序列。例如: 数据元"压力"、"井口压力"、"测试压力"和"地层测试井口压力"的记录如表1中所示。
[0050] 表1、数据元库中记录示例
[0051]

【权利要求】
1. 一种基于逻辑和统计技术的数据元识别方法,其特征在于,包括: 步骤一:数据元语言规则的获取:所述客户端提交待测试语料的数据处理请求,依据 数据元库中的数据为基础,用计算机统计数据元库中所述数据的长度特征W及数据元结构 的词法规则,根据所述统计的结果总结所述数据的长度特征,根据所述数据的所述长度特 征对所述数据进行分类,然后分别总结不同分类下的数据元结构的词法规则,用词法分析 工具对所述待测试语料中的所述数据进行分词及词性标注处理,并用所述长度特征和所述 词法规则从测试语料中抽取出候选数据元; 步骤二;概念数据元识别:统计所述候选数据元在所述测试语料中的分布情况,根据 所述候选数据元的所述分布情况构造样本空间,基于FCM聚类算法的框架下,将所述候选 数据元逐步划分到数据元和非数据元两个类别中,完成所述数据元的自动识别; 步骤H ;逻辑数据元和应用数据元识别:用过滤子串算法去除抽取的所述候选数据元 中结构不完整的数据元候选项,用短语搭配检验,删除所述候选项中搭配不正确的词串,并 结合词汇活跃度过滤包含活跃词汇的固定搭配,再计算领域相关度,将过滤后的短语按所 述领域相关度从大到小进行排序,排序结果即为逻辑数据元和应用数据元识别的最终结 果。
2. 根据权利要求1所述的基于逻辑和统计技术的数据元识别方法,其特征在于,所述 步骤一中,所述数据的长度特征W及数据元结构的词法规则是指不同长度的所述数据的出 现频次、不同词性所述数据的出现频次W及不同词性序列所述数据的出现频次。
3. 根据权利要求1所述的基于逻辑和统计技术的数据元识别方法,其特征在于,所述 步骤一中,所述分词及词性标注采用词法分析工具ICTCLAS进行分词及词性标注。
4. 根据权利要求1所述的基于逻辑和统计技术的数据元识别方法,其特征在于,所述 步骤一中,所述数据元库是指收录了需要进行所述数据识别的相关领域的数据元的库,所 述数据元库中的每条数据都元组的形式记录,所述H元组包括数据元库中的一条数据 元,所述此条数据元的长度,即所述此条数据元中包含的单词数,W及所述此条数据元的词 性组合序列。
5. 根据权利要求1所述的基于逻辑和统计技术的数据元识别方法,其特征在于,所述 步骤一中,所述数据元结构的词法规则是基于所述数据元的长度特征进行分类的。
6. 根据权利要求1所述的基于逻辑和统计技术的数据元识别方法,其特征在于,所述 步骤一中,基于所述数据的所述长度特征对所述数据元结构的词法规则进行分类时,所述 分类包括四个部分;单词型的概念数据元,即只包含1个单词的数据元;短词组型的逻辑数 据元和应用数据元,即包含2或3个单词的数据元;包中词组型逻辑和应用数据元,即包含 4?6个单词的数据元;长词组型的逻辑数据元和应用数据元,即包含大于6个单词的数据 J L 〇
7. 根据权利要求1所述的基于逻辑和统计技术的数据元识别方法,其特征在于,所述 步骤一中,抽取出所述候选数据元时,所述候选逻辑数据元和所述候选应用数据元的抽取 规则包括;二词H词的词法模式W及四词五词六词的抽取规则,二词词法模式包括n+n、 v+n、n+v、V+V、a+n、b+n、a+v、d+v、m+n、n+a 己词词法模式包括:n+n+n、n+v+n、v+v+n、 v+n+n、n+n+v、d+v+n、a+n+n、v+n+v、n+v+v、a+v+n ;四词五词六词的抽取规则包括;规则一: 4?6个单词的所述数据元候选项中不得包含如下性质的词语;W表示标点、r表示代词、g 表示语素、1表示习用语、Z表示状态词、X表示非语素词、s表示处所词、o表示拟声词、e表 示叹词、y表示语气词W及i表示成语;规则二;4?6个单词的所述数据元候选项中不得 W C表示连词、U表示助词W及k表示后接成分作为词首;规则H ;4?6个单词的所述数据 元候选项中不得W C表示连词、f表示方位词W及h表示前接成分作为词尾;规则四;4? 6个单词的所述数据元候选项中至少有一个词属于n表示名词、V表示动词、q表示量词、1 表示习用语、j表示简称略语或k表示后接成分。
8. 根据权利要求1所述的基于逻辑和统计技术的数据元识别方法,其特征在于,所述 步骤二中,所述聚类类别数C设为2,所述模糊加权指数m设为2,所述收敛阔值e为le-3。
9. 根据权利要求1所述的基于逻辑和统计技术的数据元识别方法,其特征在于,所述 步骤H中,所述短语搭配是检验短语中词语搭配是否合适,分别给互信息和活跃度加入一 个阔值,将所述互信息和所述活跃度加入阔值后求和作为最终判断标准,从短语列表中剔 除结构不稳定的候选项,所述结构不稳定的候选项包括短语内部词语之间的搭配不合理W 及短语中包含活跃度较高的词汇;所述互信息指词语之间的搭配程度,所述活跃度指词语 的活跃度。
10. 根据权利要求1所述的基于逻辑和统计技术的数据元识别方法,其特征在于,所述 步骤H中,所述领域相关度是基于词频分布变化基础对候选项与专业领域的相关程度进行 对比,通过候选项在每篇文档中出现频次的分布方差反映所述候选项在每篇文档中的变化 程度,结合TFIDF方法体现所述候选项在整个语料中的覆盖量,评估出所述候选项与专业 领域知识的关联程度。
【文档编号】G06F17/27GK104346379SQ201310330181
【公开日】2015年2月11日 申请日期:2013年7月31日 优先权日:2013年7月31日
【发明者】谭远华, 朱平, 杨雪 申请人:克拉玛依红有软件有限责任公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1