汉语语意数据智能识别系统及方法

文档序号：6413875阅读：143来源：国知局

专利名称：汉语语意数据智能识别系统及方法
技术领域：
本发明涉及一种与汉语语意数据识别技术以及数据挖掘技术相关的网络数据互相识别技术领域，更具体地涉及一种汉语语意数据智能识别系统及方法。
背景技术：
中国政府明确提出了以信息化带动工业化的方针政策，大力推进信息化建设。随着我国各行各业信息化工作的快速发展，各行业各企业建设了内部的信息系统，在发展过程中积累了大量数据。但是在信息共享过程中发现，各数据源中对信息的汉语语意表达差异很大，同一事物在各系统中存在多种不规范描述。由于汉语数据不能有效识别，严重制约企业间、行业间数据信息共享与系统间的互联需求。由此产生了大量的“信息孤岛”，占用了国家、企业大量的人力物力，已成为制约国家信息化的瓶颈之一。
当前，国际上自然语言处理研究深入开展，中国在汉语处理方面取得一定成果。但由于汉语信息识别难度与西文相比要大得多，以至于实际应用很不成熟。但目前汉语自然语言处理研究成果主要应用于翻译机、图书馆文献管理系统、中文搜索引擎中，还没有应用在数据库数据集成领域的先例，原因是数据库数据集成领域中语言文字使用极不标准、应用难度大。

发明内容
本发明的目的是提供一种适用于企业、政府、行业、以及电子商务所迫切需要的高效、低成本、高可用性，可运行在任何中文数据环境下的终端产品的汉语语意数据智能识别系统及方法。
本发明是这样实现的
一种汉语语意数据智能识别系统，该系统是一种在互联网、局域网和广域网环境中，具有开放性、自主化和智能化的语意数据探索、语意分析、词性标注、数据减噪、词性过滤、关键词确认能力的跨网络、跨平台、跨数据库的汉语语意数据集成系统，该系统包括一个实现了过程管理和数据流管理的基础内核，该内核提供上述系统在汉语语意数据识别处理中的算法、规则、模型、底层调用和设备管理；一个连接到上述基础内核的分析器，该分析器实现语意数据词法分析和切分处理；一个连接到上述基础内核的标注器，该标注器实现语意数据单词集的词性标注处理；一个连接到上述基础内核的减噪器，该减噪器实现搜索单词集并自动删除语意数据中无相关辅助描述的信息；一个连接到上述基础内核的过滤器，该过滤器实现语意识别处理中的数据清洗及词性过滤；一个连接上述基础内核的确认器，该确认器根据语意字典库，针对过滤器的输出结果，即关键词集进行最终确认处理，用规范用词替换语意数据中的汉语不规范用法，达到语意表达准确识别目的；系统中预置独立的语料字典及关键词字典，语料字典是构建在汉语词典基础上的专业字典，收集语意描述过程中的各种缩写及方言；关键词字典是语意表达确认的主要依据。
所述的基础内核为该系统核心，提供系统与外部数据库的信息交换接口，实现接收系统外部数据库中数据及将数据导入系统内部数据存储器的功能，实现将系统内部存放的数据转化为标准格式的功能，实现基础内核与系统外部的指令信息交换和事务调度功能，实现系统内部数据交换服务，实现系统内部汉语语意数据智能识别全过程的事务调度，即在系统内部各模块间的进程管理。
所述的分析器、标注器、过滤器、过滤器和确认器之间通过系统内部数据存储器连接，以实现数据内部传输、消息交换和数据堆栈访问。
一种汉语语意智能数据识别方法，该方法是一种在互联网、局域网和广域网环境中的语意数据探索、语意分析、词性标注、语意减噪、清洗过滤、关键词挖掘、及语意确认的跨数据库的汉语语意集成方法，该方法包括下列步骤利用基础内核进行汉语语意数据的自动数据探索，将外部数据库中的语意数据导入系统中，将需要识别处理的数据推入数据存储器，同时发出指令启动分析器；基于上述步骤的结果，利用分析器对存储器中的数据进行单词分析及切分处理；基于上述步骤的结果，利用标注器对切分后的单词进行词性标注处理；基于上述步骤的结果，利用减噪器去除数据中的无相关辅助描述的信息；基于上述步骤的结果，利用过滤器进行数据清洗及词性过滤；基于上述步骤的结果，利用确认器进行语意字典映射，规范汉语用词。
最后，基础内核将数据存储器中的数据反馈给外部数据库系统，完成整个语意识别。
所述的分析器步骤中还包括层级分检及梯次处理步骤，层级分检步骤指在分析过程中分两个层级对专业词素与通用词素分检的步骤；梯次处理步骤指对不同字数的词素设定不同的系数的步骤。
所述的减噪器步骤中还包括发现并清除汉语语意数据中无相关的单词子集的步骤。
所述的过滤器步骤中还包括通过设定词性过滤时过滤的词性类别产生语意语干的处理步骤。
所述的确认器步骤中还包括核心语意认定步骤，指用标准含义关键词替换原语意数据表达，达到语意标准化目的步骤。
与现有技术比较，本发明具备如下优点开放的体系结构，可以适用于不同行业；汉语语意有效识别率高；汉语语意识别处理速度快；全面支持中文环境；支持各类数据库的智能语意数据识别。

根据下面附图及最佳实施例的描述，本发明的特性和优点将会更加易于理解。
图1是本发明汉语语意数据智能识别系统的总体方框图；图2为图1中的基础内核的内部模块结构示意图；图3为图1中的分析器的内部模块结构示意图；图4为图1中的标注器的内部模块结构示意图；图5为图1中的减噪器的内部模块结构示意图；图6为图1中的过滤器的内部模块结构示意图；图7为图1中的确认器的内部模块结构示意图；图8为本发明汉语语意数据智能识别方法的流程图。
具体实施例方式
图1是本发明汉语语意数据智能识别系统的总体方框图，在图1中，本发明包括基础内核10，和通过基础内核连接的分析器11、标注器12、减噪器13、过滤器14和确认器15。
基础内核10提供底层计算和服务基础，包括实现一个通用数据库的接口，将需要处理的数据表导入系统并转化为标准格式，推入系统内部数据存储器23；与基础内核10连接的分析器11主要实现汉语数据的词性切分，其算法依据存放于系统内部设置的语料字典21中；与基础内核10连接的标注器12主要实现切分词单元的词性标注，其标注依据存放于系统内部设置的语料字典21中；与基础内核10连接的减噪器13主要实现删除语意数据中无相关辅助描述信息，所谓无相关辅助信息是指那些不构成与语意表达含义发生关系的词料；与基础内核10连接的过滤器14主要实现关键词探查，生成后选关键词集；与基础内核10连接的确认器15主要实现标准语意确认，其算法依据存放于系统内部设置的关键词字典22中，语意确认之后将数据推回基础内核。
语意分析器11、词性标注器12、噪音过滤器13、词性过滤器14和语意确认器15之间通过系统内部数据存储器23连接，以实现数据内部传输、消息交换和数据堆栈访问。
图2更详细地图示了基础内核10的内部模块结构。
基础内核10包括数据库服务引擎101、事务服务引擎102、数据库接口103、公共类接口104、数据转化器105、数据接收器106、XML引擎107和消息队列管理器108，各部件组成系统核心。在基础内核10中的数据库接口103提供系统与外部数据库的信息交换接口功能，与数据库接口103连接的数据接收器106及数据库服务引擎101实现接收系统外部数据库中数据及将数据导入系统内部数据存储器23的功能，与数据库接口103连接的数据转化器105实现将系统内部存放的数据转化为标准格式的功能。在基础内核10中的公共类接口104实现基础内核与系统外部的指令信息交换和事务调度功能，与公共类接口104连接的XML引擎107实现系统内部数据交换服务，消息队列管理器108实现系统内部汉语语意数据智能识别全过程的事务调度，即在系统内部各模块间的进程管理。
图3更详细地图示了分析器11的内部模块结构。
分析器11中算法采用国家863研究成果“汉语切分技术”，包括单词分析模块111、单词切分模块112，和北京慧讯信息技术有限公司开发的语料字典21，各模块间通过内部管道相连接，处理数据的输入输出。分析器11中的单词分析模块111实现基于汉语的词法分析，分析过程采用创新的层级分检、梯次处理等算法，有效提高分析的准确性能；单词切分模块112实现将单词分析模块的数据输出通过内部管道读入，基于语料字典中的单词库，将原始数据进行切分，即将一个汉语语意表达信息切分为汉语单词集，单词间由分隔符连接。系统内部预设的语料字典21以汉语词典为基础，考虑数据语意集成特点，集合北京慧讯信息技术有限公司按统计学原理整理出的专业化的汉语标注语料库。
图4更详细地图示了标注器12的内部模块结构。
标注器12包括单词标注模块121和北京慧讯信息技术有限公司开发的语料字典21。标注器12中的单词标注模块121基于分析器11输出结果，实现对切分后单词集中各元素的词性标注；语料字典21在单词标注过程中在“北京大学分词标注标记集2003规范”基础上进行扩充。
图5更详细地图示了减噪器13的内部模块结构。
减噪器13包括噪音探查模块131和噪音清除模块132，各模块间通过内部管道相连接，处理数据输入输出。减噪器13中的噪音探查模块131实现对单词切分后的单词集进行探求，发现其中无相关的单词子集，这些单词往往导致语意识别过程中产生歧义，噪音探查模块将其定义为语意噪音；减噪器13中的噪音清除模块132按照噪音清除规则算法，实现删除语意噪音，保留语意主干信息，提高语意描述清晰度。
图6更详细地图示了过滤器14的内部模块结构。
过滤器14包括词性定义模块141和词性过滤模块142，各模块间通过内部管道相连接，处理数据输入输出。过滤器14中的词性定义模块141实现存储过滤规则，装置可以根据不同需要规定需要保留的词性类别，如识别语意主语时选择名词，识别语意定语时选择形容词，可以通过内存擦洗更改规则；过滤器14中的词性过滤模块142根据词性定义模块141制定的过滤规则，自动删除不符合所选词性的单词，保留语意关键词词集。
图7更详细地图示了确认器15的内部模块结构。
确认器15包括关键词检索模块151，关键词认定模块152和北京慧讯信息技术有限公司开发的关键词字典22，各模块间通过内部管道相连接，处理数据输入输出。确认器15中的关键词检索模块151实现将过滤后的关键词词集导入模块后，从基础内核中读取规则(正序或倒序)，对系统中预置的关键词字典22进行检索；确认器15中的关键词认定模块152实现最终认定语意的最终含义，并用标准含义关键词替换原语意数据表达，达到语意标准化目的；关键词字典22是实现语意标准化的依据，因为关键词集中的元素中只有一个元素表示语意最终含义，所以关键词字典具有专业特性。
图8说明了本发明汉语语意数据智能识别方法的全过程步骤顺序。
图8更深入地说明了各个模块组件处理语意数据的全过程。在装置基础内核10将语意数据从外部数据库中导入装置后，在步骤301中，分析器11接收到基础内核10发出的语意数据处理请求，自动从系统内部数据存储器23读取待处理数据，对其进行初始化处理；在步骤302中，分析器11从系统基础内核10中导入分析规则，包括层级分检和梯次处理规则，这些规则是单词分析304的准则；在步骤303中，分析器11依次读取初始化后的语意数据，将其存储于系统数据存储器23中；步骤304对内存中的语意数据进行分析，生成语法分析结果；在步骤305中，分析器11根据语法分析结果，对汉语语意数据进行切分，生成该语意数据的单词集；在步骤306中，依次读取语意数据单词集中的单元，与语料库中的词元素匹配；步骤307判断匹配成功与否，如果成功转至步骤308，如果不成功，说明单词分析有误，转至步骤304重新对该语意数据进行分析；在步骤308中，将匹配成功的单词按顺序推入系统存储器，并添加词间分隔符号；步骤309判断语意数据是否全部分析完毕，如仍有单词未被匹配，则转至步骤306继续处理，否则转至标注器12。
在步骤310中，标注器12依次读取数据存储器23中的单词集单元；在步骤311中，将读取出的单词单元与语料库词元素匹配；步骤312判断匹配成功与否，如果成功，记录词元素的词性标记后转至步骤313，如果不成功，转至上一步骤311继续在语料库中寻找匹配的词元素；在步骤313中，将词性标记追加至单词单元后，按顺序推入系统数据存储器23；步骤315判断语意数据是否全部标注完毕，如仍有单词未被标注，则转至步骤310继续处理，否则转至减噪器13。
在步骤316中，减噪器13依次读取数据存储器23中的单词集单元和词性标注；在步骤317中，系统根据噪音类型分别对单词集各单元数据进行探求；步骤318判断单元数据是否为噪音数据，如果是噪音自动转至步骤319清除该单元数据，否则自动转至步骤320，将该单词单元推入数据存储器23；步骤321判断系统是否对全部单词单元进行减噪处理，如仍有单词未被减噪处理，则转至步骤316继续处理，否则转至过滤器14。
在步骤322中，过滤器14依次读取数据存储器23中的单词集单元和词性标注；在步骤323中，系统根据词性选择规则对读取的单词进行匹配；步骤324判断单元数据匹配成功，如果匹配失败，自动转至步骤325将该单元数据丢弃，如果匹配成功自动转至步骤326，将该单词单元推入数据存储器23；步骤327判断系统是否对全部单词单元进行过滤处理，如仍有单词集中的单词仍停留在未处理系统堆栈中，则转至步骤322继续处理，否则转至确认器15。
在步骤328中，确认器15首先导入读取规则，规定读取顺序；步骤329中，依次读取数据存储器23中的关键词集单元；在步骤330中，系统将读取出的关键词单元与关键词字典中的词条进行匹配；步骤331判断关键词数据是否匹配成功，如果匹配失败，自动转至步骤332将该关键词丢弃，并转至步骤329继续按读取规则读取下一个关键词单元，如果匹配成功自动转至步骤333，将该关键词推入数据存储器23，之后自动转至步骤334；步骤334将数据存储器23中的关键字认定为语意数据最终含义，将此关键字返回系统基础内核10，并结束进程。
应当理解前面只是图解本发明的原理，本领域的技术人员在不脱离本发明的范围和本质的情况下可以进行各种修改。
权利要求
1.一种汉语语意数据智能识别系统，该系统是一种在互联网、局域网和广域网环境中，具有开放性、自主化和智能化的语意数据探索、语意分析、词性标注、数据减噪、词性过滤、关键词确认能力的跨网络、跨平台、跨数据库的汉语语意数据集成系统，其特征在于，该系统包括一个实现了过程管理和数据流管理的基础内核，该内核提供上述系统在汉语语意数据识别处理中的算法、规则、模型、底层调用和设备管理；一个连接到上述基础内核的分析器，该分析器实现语意数据词法分析和切分处理；一个连接到上述基础内核的标注器，该标注器实现语意数据单词集的词性标注处理；一个连接到上述基础内核的减噪器，该减噪器实现搜索单词集并自动删除语意数据中无相关辅助描述的信息；一个连接到上述基础内核的过滤器，该过滤器实现语意识别处理中的数据清洗及词性过滤；一个连接上述基础内核的确认器，该确认器根据语意字典库，针对过滤器的输出结果，即关键词集进行最终确认处理，用规范用词替换语意数据中的汉语不规范用法，达到语意表达准确识别目的；系统中预置独立的语料字典及关键词字典，语料字典是构建在汉语词典基础上的专业字典，收集语意描述过程中的各种缩写及方言；关键词字典是语意表达确认的主要依据。
2.根据权利要求1所述的汉语语意数据智能识别系统，其特征在于，所述的基础内核为该系统核心，提供系统与外部数据库的信息交换接口，实现接收系统外部数据库中数据及将数据导入系统内部数据存储器的功能，实现将系统内部存放的数据转化为标准格式的功能，实现基础内核与系统外部的指令信息交换和事务调度功能，实现系统内部数据交换服务，实现系统内部汉语语意数据智能识别全过程的事务调度，即在系统内部各模块间的进程管理。
3.根据权利要求1所述的汉语语意数据智能识别系统，其特征在于，所述的分析器、标注器、减噪器、过滤器和确认器之间通过系统内部数据存储器连接，以实现数据内部传输、消息交换和数据堆栈访问。
4.一种汉语语意智能数据识别方法，该方法是一种在互联网、局域网和广域网环境中的语意数据探索、语意分析、词性标注、语意减噪、清洗过滤、关键词挖掘、及语意确认的跨数据库的汉语语意集成方法，其特征在于，该方法包括下列步骤利用基础内核进行汉语语意数据的自动数据探索，将外部数据库中的语意数据导入系统中，将需要识别处理的数据推入数据存储器，同时发出指令启动分析器；基于上述步骤的结果，利用分析器对存储器中的数据进行单词分析及切分处理；基于上述步骤的结果，利用标注器对切分后的单词进行词性标注处理；基于上述步骤的结果，利用减噪器去除数据中的无相关辅助描述的信息；基于上述步骤的结果，利用过滤器进行数据清洗及词性过滤；基于上述步骤的结果，利用确认器进行语意字典映射，规范汉语用词。最后，基础内核将数据存储器中的数据反馈给外部数据库系统，完成整个语意识别。
5.根据权利要求4所述的汉语语意数据智能识别方法，其特征在于，所述的分析器步骤中还包括层级分检及梯次处理步骤，层级分检步骤指在分析过程中分两个层级对专业词素与通用词素分检的步骤；梯次处理步骤指对不同字数的词素设定不同的系数的步骤。
6.根据权利要求4所述的汉语语意数据智能识别方法，其特征在于，所述的减噪器步骤中还包括发现并清除汉语语意数据中无相关的单词子集的步骤。
7.根据权利要求4所述的汉语语意数据智能识别方法，其特征在于，所述的过滤器步骤中还包括通过设定词性过滤时过滤的词性类别产生语意语干的处理步骤。
8.根据权利要求4所述的汉语语意数据智能识别方法，其特征在于，所述的确认器步骤中还包括核心语意认定步骤，指用标准含义关键词替换原语意数据表达，达到语意标准化目的步骤。
全文摘要
本发明公开一种汉语语意数据智能识别系统及方法，其特征在于，该发明利用基础内核对外部数据库中的语意数据表达自动探索、导入并预处理；利用分析器对汉语语意数据进行有效切分；利用标注器对语意数据切分单词集进行词性标注；利用减噪器对语意数据进行减噪处理；利用过滤器过滤汉语语意表达中的非关键词性；利用确认器锁定表达中的准确语意；最后利用基础内核向外部数据库进行反馈。本发明提供一种适用于企业、政府、行业、以及电子商务所迫切需要的高效、低成本、高可用性，可运行在任何中文数据环境下的终端产品的汉语语意数据智能识别系统及方法。
文档编号G06F17/20GK1588357SQ20041005680
公开日2005年3月2日申请日期2004年8月20日优先权日2004年8月20日
发明者孙晓红, 杨肖, 张世韵申请人:北京慧讯信息技术有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：孙晓红;杨肖;张世韵
技术所有人：北京慧讯信息技术有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。