一种自然语言处理系统的制作方法

文档序号:16628706发布日期:2019-01-16 06:21阅读:354来源:国知局
一种自然语言处理系统的制作方法

本发明属于计算机技术领域,具体地说,涉及一种自然语言处理系统。



背景技术:

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。

自然语言的形式(字符串)与其意义之间是一种多对多的关系。其实这也正是自然语言的魅力所在。但从计算机处理的角度看,我们必须消除歧义,而且有人认为它正是自然语言理解中的中心问题,即要把带有潜在歧义的自然语言输入转换成某种无歧义的计算机内部表示。

歧义现象的广泛存在使得消除它们需要大量的知识和推理,这就给基于语言学的方法、基于知识的方法带来了巨大的困难,因而以这些方法为主流的自然语言处理研究几十年来一方面在理论和方法方面取得了很多成就,但在能处理大规模真实文本的系统研制方面,成绩并不显著。研制的一些系统大多数是小规模的、研究性的演示系统。

目前存在的问题有两个方面:一方面,迄今为止的语法都限于分析一个孤立的句子,上下文关系和谈话环境对本句的约束和影响还缺乏系统的研究,因此分析歧义、词语省略、代词所指、同一句话在不同场合或由不同的人说出来所具有的不同含义等问题,尚无明确规律可循,需要加强语用学的研究才能逐步解决。另一方面,人理解一个句子不是单凭语法,还运用了大量的有关知识,包括生活知识和专门知识,这些知识无法全部贮存在计算机里。因此一个书面理解系统只能建立在有限的词汇、句型和特定的主题范围内。



技术实现要素:

本发明的目的在于提供一种提高处理质量的自然语言处理系统。

其技术方案如下:

一种自然语言处理系统,包括输入模块、语境处理模块、预处理模块、分词处理模块、后处理模块、参数标注模块、语法数据库、文法规则匹配模块、知识数据库、逻辑推理模型库和输出模块;

所述输入模块用于通过输入设备输入自然语言;

所述语境处理模块用于通过联系上下文,分析自然语言所处的语境;

所述预处理模块用于对自然语言的源文本进行标记、拆分以及干扰符号的删除,提高分词速度和准确率;

所述分词处理模块用于将自然语言的句子划分为词序列;

所述后处理模块用于对分词处理模块的分词结果进行优化;

所述参数标注模块用于对后处理模块的分词结果进行参数标注;

所述文法规则匹配模块根据语法数据库、知识数据库、逻辑推理模型库和参数标注模块标注后的分词结果进行匹配;

所述输出模块用于通过输出设备输出自然语言的处理结果的文字、图形和语音。

进一步,所述输入设备包括键盘、语音设备、图文扫描设备。

进一步,所述干扰符号包括无用的空格、回车和与输入介质相关的符号。

进一步,所述输出设备包括屏幕、麦克风、打字机。

本发明的有益效果:

本发明的自然语言处理系统通过联系上下文、扩充参数词典和规则集来提高对自然语言信息的理解能力,使系统有较好的领域扩展性。对于识别效果不好的语言信息只需按照其语法结构抽象出新的规则并添加到系统中,就能够改善对这类句子的识别效果,实现起来简单而有效。

附图说明

图1为本发明的自然语言处理系统的原理图。

具体实施方式

下面结合附图和具体实施方式对本发明的技术方案作进一步详细地说明。

参照图1,一种自然语言处理系统,包括输入模块、语境处理模块、预处理模块、分词处理模块、后处理模块、参数标注模块、语法数据库、文法规则匹配模块、知识数据库、逻辑推理模型库和输出模块;

所述输入模块用于通过输入设备输入自然语言;

所述语境处理模块用于通过联系上下文,分析自然语言所处的语境;

所述预处理模块用于对自然语言的源文本进行标记、拆分以及干扰符号的删除,提高分词速度和准确率;

所述分词处理模块用于将自然语言的句子划分为词序列;

所述后处理模块用于对分词处理模块的分词结果进行优化;比如表示“今天”可以说:今天,今日,今儿,今儿个等,这里采用同义词集生成的规范化映射表,可以将分词处理模块的分词结果中不规范的词全部替换为标准词,便于机器识别。

所述参数标注模块用于对后处理模块的分词结果进行参数标注;比如在查询天气时候可以问“今天北京天气怎么样”,这句话包含了两类参数,它们分别是时间参数“今天”和城市参数“北京”。

所述文法规则匹配模块根据语法数据库、知识数据库、逻辑推理模型库和参数标注模块标注后的分词结果进行匹配;由于参数对机器理解自然语言信息起到了较大的辅助作用,参数标注也就成为了分词结果进行文法规则匹配前的一个重要准备工作。参数标注与词性标注类似,不过标注的内容不是词性,而是词所包含的参数类型。比如“天安门”在进行参数标注时,将被标记两个参数:[地点]和[景点],分别对应“问路”和“旅游”两个领域的信息查询。

所述输出模块用于通过输出设备输出自然语言的处理结果的文字、图形和语音。

所述输入设备包括键盘、语音设备、图文扫描设备。

所述干扰符号包括无用的空格、回车和与输入介质相关的符号。

所述输出设备包括屏幕、麦克风、打字机。

本发明的自然语言处理系统在具体应用过程中,通过输入模块的输入设备输入自然语言“今儿个,北京天儿怎么样,想去天安门”;语境处理模块通过联系上下文,分析自然语言所处的语境,该句子的意思是想去天安门旅游,并不是问路,而是问天气;预处理模块对自然语言的源文本进行标记、拆分以及干扰符号的删除,提高分词速度和准确率;分词处理模块将自然语言的句子划分为词序列;后处理模块用于对分词处理模块的分词结果进行优化;参数标注模块对后处理模块的分词结果进行参数标注;所述文法规则匹配模块根据语法数据库、知识数据库、逻辑推理模型库和参数标注模块标注后的分词结果进行匹配;输出模块通过输出设备输出自然语言的处理结果的文字、图形和语音:“北京今天的天气怎么样,想去天安门旅游”。本发明所述系统的作用是把不规范的自然语言句子,经过此系统后,变为规范的自然语言句子,便于计算机进行处理。

以上所述,仅为本发明较佳的具体实施方式,本发明的保护范围不限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可显而易见地得到的技术方案的简单变化或等效替换均落入本发明的保护范围内。



技术特征:

技术总结
本发明公开了一种自然语言处理系统,包括输入模块、语境处理模块、预处理模块、分词处理模块、后处理模块、参数标注模块、语法数据库、文法规则匹配模块、知识数据库、逻辑推理模型库和输出模块。本发明的自然语言处理系统通过联系上下文、扩充参数词典和规则集来提高对自然语言信息的理解能力,使系统有较好的领域扩展性。对于识别效果不好的语言信息只需按照其语法结构抽象出新的规则并添加到系统中,就能够改善对这类句子的识别效果,实现起来简单而有效。

技术研发人员:张巍;胡慧香;郭继红;张晓瑛;徐雅琴;边婧
受保护的技术使用者:山西卫生健康职业学院
技术研发日:2018.09.13
技术公布日:2019.01.15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1