基于层次关系组织的多语种词库管理方法

文档序号:9489473阅读:173来源:国知局
基于层次关系组织的多语种词库管理方法
【技术领域】
[0001]本发明涉及语义分析领域,尤其涉及一种基于层次关系组织的多语种词库管理方法。
【背景技术】
[0002]互联网尤其是移动互联网带来了数据大爆炸,大数据日益成为信息化的主流技术。大数据的关键难点在于非结构化数据的分析,而语义技术则是非结构化数据分析的关键技术之一。任何一种类型语义技术的开展,都离不开词库的管理。
[0003]然而,词库中的词条动辄上千乃至数十万,词条之间的关系错综复杂。现有的词库管理技术无法解决清晰表述词条之间关系的难题,使得难以对词库进行有效的维护和管理。

【发明内容】

[0004]本发明的目的在于提供一种基于层次关系组织的多语种词库管理方法,可以有效提升词库的管理效率。
[0005]为实现上述目的,本发明的技术方案是设计一种基于层次关系组织的多语种词库管理方法,采用多层结构管理所有词汇,所述多层结构包括主题、范畴、关键词、识别词和标签;
[0006]所述主题,用于区分关键词所属领域的标识和名称;
[0007]所述范畴,用于说明关键词分类的标准;
[0008]所述关键词,为词条的标识和名称;
[0009]所述识别词,用于表达关键词的近义或同义文字,该文字包括单字、词汇、短语;
[0010]所述标签,用于标识主题和关键词的父节点。
[0011]遵循可控原则,即:每个层级设置三到十个节点;少于三个节点不作为独立的一个层级;多于十个节点需要进一步划分为更多层级。
[0012]遵循命名唯一原则,S卩:在同一词库中,主题命名唯一;在同一词库中,关键词命名唯一。
[0013]所述主题,包括多个层级,遵循可控原则,每层设置三到十个主题。
[0014]所述主题,遵循独立性原则,即:将主题内部关系最大化;将主题之间关系最小化。
[0015]所述主题,遵循完整性原则,即:同层主题的全体应尽最大可能完整表述上层主题的内涵。
[0016]所述主题,遵循渐进性原则,即按主题性质的一般到复杂顺序排列。
[0017]所述主题,包括通用类主题、社会类主题、专业类主题,以及以下主题:
[0018]抽象类主题,其涵盖计量、时间、空间、性质、行为、本体和助词;
[0019]生命类主题,其涵盖自然、生物、感知、情感和智慧;
[0020]生活类主题,其涵盖饮食、时尚、家居、体育、娱乐、流通和交通;
[0021]文化类主题,其涵盖信仰、语言、文学、艺术、历史和传播;
[0022]时政类主题,其涵盖民生、党政、法制和军事;
[0023]财经类主题,其涵盖经济、金融、管理和财富;
[0024]科技类主题,其涵盖科学、工程技术和信息技术。
[0025]所述主题,遵循流行性原则,具体为:以最近三年的代表性语料聚合而成;时间越近语料权重越高,一年内、一至两年、两至三年语料的权重分比为50%、33.3%和16.7%;每年滚动调整5% -10%的主题。
[0026]所述范畴,设在主题之下,在且仅在主题之下有不少于一种主流分类方式的情况下需要,其类型包括但不限于:按所有者、按受众、按性质、按流程。
[0027]所述关键词,设在主题或范畴之下,包括多个层级,遵循可控原则,每层配三到十个关键词。
[0028]所述关键词,遵循友好性原则,即命名应简明易懂,具体为:优先采用最重要的识别词命名关键词;在使用最重要识别词无法满足唯一性要求时,在最重要识别词基础上加上简明的语境说明文字命名关键词。
[0029]所述识别词,设在关键词之下,每个关键词配至少一个识别词。
[0030]所述标签,设在主题和关键词之下,每个主题配零或一个标签,每个关键词配至少一个标签;主题配零个标签时,代表其为根节点;主题有一个标签时,代表为上层主题的子节点;关键词的标签数量,代表关键词所属父节点的数量。
[0031]所述标签,遵循可识别原则,即标签必须是主题或者关键词。
[0032]本发明的优点和有益效果在于:提供一种基于层次关系组织的多语种词库管理方法,可以有效提升词库的管理效率。
【附图说明】
[0033]图1是本发明基于层次关系组织的多语种词库管理方法的结构示例;
[0034]图2是标准主题分类示意图。
【具体实施方式】
[0035]下面结合附图和实施例,对本发明的【具体实施方式】作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
[0036]本发明具体实施的技术方案是:
[0037]如图1、图2所示,本发明提供一种基于层次关系组织的多语种词库管理方法,采用多层结构管理所有词汇,所述多层结构包括主题、范畴、关键词、识别词和标签;
[0038]所述主题,用于区分关键词所属领域的标识和名称;
[0039]所述范畴,用于说明关键词分类的标准;
[0040]所述关键词,为词条的标识和名称;
[0041]所述识别词,用于表达关键词的近义或同义文字,该文字包括单字、词汇、短语;
[0042]所述标签,用于标识主题和关键词的父节点。
[0043]包括以下步骤:
[0044]步骤1,依使用习惯、行业、社会常规等维度对主题进行标准分类,能够独立的类别单独成一类,得出经济、金融、文学、艺术、历史、传播等等,再根据渐进性原则概况分类,得出抽象、生命、生活、文化、时政、财经和科技的分类。所述主题,包括多个层级,遵循可控原贝1J,每层有三到十个主题。
[0045]步骤2,经济、金融、文学、艺术、历史、传播等所有主题都有不少于一种分类的情况,按所有者、按受众、按性质、按流程还可以细化主题分类。这样,我们可以扩充标准主题分类,以保证其完整性。如,根据行业或者社会习惯,文学艺术,是会被看作一类主题的,但是根据受众的不同分析得出,二者还是可以再细化成文学和艺术。
[0046]步骤3,所述识别词,最开始起源于能够独立表达意思的字或词。如“恶心”、“好”、“差”。而“好的”,其中“的”是无意义的。整理识别词的时候,需要把这一类无意义的词剔除掉,所以无意义的这一类助词,也是单独一类。
[0047]步骤4,优先采用最重要的识别词命名所述关键词,在使用最重要识别词无法满足唯一性要求时,在最重要识别词的基础上加上简明的语境说明文字命名关键词,如“脏”既是识别词,又是“关键词”;“心理”和“心里”都为重要识别词的条件下,只有加上语境说明文字命名关键词才能区分,“心里”和“心理安慰”。
[0048]步骤5,在主题和关键词之下,每个主题有零到一个标签,每个关键词有一到多个标签。标签,应从关键词中选取,如:关键词“非常好”,它的识别词为“好”、“棒”、“合理”,它的标签词为“好”。由于标签来自关键词,带标签的关键词也继承了标签关键词的层次关系,所以“非常好”也就被归于“好”,有好差的层次关系。
[0049]以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
【主权项】
1.基于层次关系组织的多语种词库管理方法,其特征在于,采用多层结构管理所有词汇,所述多层结构包括主题、范畴、关键词、识别词和标签; 所述主题,用于区分关键词所属领域的标识和名称; 所述范畴,用于说明关键词分类的标准; 所述关键词,为词条的标识和名称; 所述识别词,用于表达关键词的近义或同义文字,该文字包括单字、词汇、短语; 所述标签,用于标识主题和关键词的父节点。2.根据权利要求1所述的基于层次关系组织的多语种词库管理方法,其特征在于: 每个层级设置三到十个节点; 少于三个节点不作为独立的一个层级; 多于十个节点需要进一步划分为更多层级。3.根据权利要求1所述的基于层次关系组织的多语种词库管理方法,其特征在于:在同一词库中,主题命名唯一;在同一词库中,关键词命名唯一。4.根据权利要求1所述的基于层次关系组织的多语种词库管理方法,其特征在于,所述主题,包括多个层级,每层设置三到十个主题。5.根据权利要求1所述的基于层次关系组织的多语种词库管理方法,其特征在于:将主题内部关系最大化;将主题之间关系最小化。6.根据权利要求1所述的基于层次关系组织的多语种词库管理方法,其特征在于:同层主题的全体应尽最大可能完整表述上层主题的内涵。7.根据权利要求1所述的基于层次关系组织的多语种词库管理方法,其特征在于,所述主题,包括通用类主题、社会类主题、专业类主题,以及以下主题: 抽象类主题,其涵盖计量、时间、空间、性质、行为、本体和助词; 生命类主题,其涵盖自然、生物、感知、情感和智慧; 生活类主题,其涵盖饮食、时尚、家居、体育、娱乐、流通和交通; 文化类主题,其涵盖信仰、语言、文学、艺术、历史和传播; 时政类主题,其涵盖民生、党政、法制和车事; 财经类主题,其涵盖经济、金融、管理和财富; 科技类主题,其涵盖科学、工程技术和信息技术。8.根据权利要求1所述的基于层次关系组织的多语种词库管理方法,其特征在于,所述主题,以最近三年的代表性语料聚合而成; 时间越近语料权重越高,一年内、一至两年、两至三年语料的权重分比为50%、33.3%和 16.7% ; 每年滚动调整5% -10%的主题。9.根据权利要求1所述的基于层次关系组织的多语种词库管理方法,其特征在于,所述识别词,设在关键词之下,每个关键词配至少一个识别词。10.根据权利要求1所述的基于层次关系组织的多语种词库管理方法,其特征在于,所述标签,设在主题和关键词之下,每个主题配零或一个标签,每个关键词配至少一个标签; 主题配零个标签时,代表其为根节点; 主题有一个标签时,代表为上层主题的子节点;关键词的标签数量,代表关键词所属父节点的数量。
【专利摘要】本发明公开了一种基于层次关系组织的多语种词库管理方法,采用多层结构管理所有词汇,所述多层结构包括主题、范畴、关键词、识别词和标签;所述主题,用于区分关键词所属领域的标识和名称;所述范畴,用于说明关键词分类的标准;所述关键词,为词条的标识和名称;所述识别词,用于表达关键词的近义或同义文字,该文字包括单字、词汇、短语;所述标签,用于标识主题和关键词的父节点。本发明基于层次关系组织的多语种词库管理方法,可以有效提升词库的管理效率。
【IPC分类】G06F17/30
【公开号】CN105243111
【申请号】CN201510621820
【发明人】梁智
【申请人】常熟商数信息技术有限公司
【公开日】2016年1月13日
【申请日】2015年9月25日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1