一种基于自然语言处理的语意理解系统及方法与流程

文档序号:16670130发布日期:2019-01-18 23:31阅读:673来源:国知局
一种基于自然语言处理的语意理解系统及方法与流程

本发明属于自然语言领域,特别是涉及一种基于自然语言处理的语意理解系统及方法。



背景技术:

近年人工智能领域高速发展,基于自然语言处理的语义理解相关应用、产品层出不穷,但各行业应用效果差距较大。语义理解是通过先进的自然语言处理技术手段识别语句的语义,目的是推算意图并执行意图相关命令。

本发明是基于意图分类、意图、说法、命令四层概念建立来的可执行模型,与其它常规的模型相比,其简化了复杂的、不必要的技术手段,缩短了业务模型应用的周期,且易维护、可学习。



技术实现要素:

本发明的目的在于提供一种基于自然语言处理的语意理解系统及方法,通过自然语言处理技术识别语句的语义,并对意图分类、意图、说法和命令四层概念建立可执行系统,再通过语义理解器进行相识度匹配,能够快速执行服务命令,解决了现有的语义理解系统结构复杂、维护困难、操作难度大的问题。

为解决上述技术问题,本发明是通过以下技术方案实现的:

本发明为一种基于自然语言处理的语意理解系统及方法,用以接收用户输入待识别语句,并将上述待识别语句输入至语意理解系统中经过计算处理后输出结果响应,包括:一控制器模块,用以接收用户输入的待识别语句,获取待识别语句说法和停用词;一语意理解器模块,耦接于上述控制器模块,用以接收控制器模块获取的说法和停用词,并将说法和停用词进行处理,产出用户意图反馈至控制器模块;一命令执行器模块,耦接于上述控制器模块,用以接收上述控制器模块根据用户意图生成的服务指令,并返回最终结果。

优选地,所述控制器模块还包括一自然语言输入器、一语言说法辨识器和一停用词获取器;

所述语言说法辨识器和停用词获取器均耦接于自然语言输入器;所述自然语言输入器用以接收待识别语句的输入;所述语言说法辨识器用以获取辨识待识别语句的说法;所述停用词获取器用以取辨识待输入语言的停用词。

优选地,所述语意理解器模块包括一分词器、一停用词排除器和一存储器;所述分词器用以将匹配不到说法的待识别语句进行分词处理并生成对应词组;所述停用词排除器用以删除分词器生成词组中与实际业务无关的停用词;所述存储器用于存储分词器的分词结果。

本发明为一种基于自然语言处理的语意理解系统的理解方法,包括如下步骤:

步骤s01:用户输入待识别语句到控制器模块;

步骤s02:控制器模块获取说法并调用语义理解器模块进行全字说法匹配;

若匹配成功,则直接执行步骤s07;

若匹配失败,则执行步骤s03;

步骤s03:语义理解器模块进行中文分词,生成一组词;

步骤s04:语义理解器模块从生成的词组中剔除跟实际业务无关的停用词;

步骤s05:语义理解器模块进行相似度说法匹配;

若匹配成功,则执行步骤s06;

若匹配失败,则直接执行步骤s07;

步骤s06:控制器模块根据说法查找所属意图及命令;

步骤s07:命令执行器模块根据命令查找可执行服务并执行返回结果

优选地,所述步骤s05中,相似度说法匹配的具体算法如下:

步骤t01:获取所有说法的分词结果并计算tf-idf值获取关键词;

步骤t02:计算待匹配说法的分词结果的tf-idf值并获取关键词;

步骤t03:将带匹配说法关键词与所有说法的关键词循环进行余弦相似性计算;

步骤t04:将余弦相似性计算结果按照从高到底排列;

步骤t05:获得余弦相似性值最高且大于m说法即为匹配结果,否则匹配失败。

优选地,所述步骤t01中,tf-idf值用以评估一个词对于一个文件集或词料库中一份文件的重要程度;所述tf-idf值的具体算法公式如下:tf-idf=tf*idf;其中,tf为词频,即词条在文档中出现的次数,idf为逆文档词频,即词条在文档内的区分能力。

本发明具有以下有益效果:

本发明通过自然语言处理技术识别语句的语义,并对意图分类、意图、说法和命令四层概念建立可执行系统,再通过语义理解器进行相识度匹配,能够快速执行服务命令,降低了维护难度和人工成本,方便用户操作。

当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明的一种基于自然语言处理的语意理解系统的结构示意图;

图2为本发明的一种基于自然语言处理的语意理解系统的理解方法步骤图;

图3为相似度说法匹配的算法流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

请参阅图1所示,本发明为一种基于自然语言处理的语意理解系统,用以接收用户输入待识别语句,并将上述待识别语句输入至语意理解系统中经过计算处理后输出结果响应,包括:

一控制器模块,用以接收用户输入的待识别语句,获取待识别语句说法和停用词;

一语意理解器模块,耦接于上述控制器模块,用以接收控制器模块获取的说法和停用词,并将说法和停用词进行处理,产出用户意图反馈至控制器模块;

一命令执行器模块,耦接于上述控制器模块,用以接收上述控制器模块根据用户意图生成的服务指令,并返回最终结果。

其中,控制器模块还包括一自然语言输入器、一语言说法辨识器和一停用词获取器;语言说法辨识器和停用词获取器均耦接于自然语言输入器;自然语言输入器用以接收待识别语句的输入,自然语言输入器为话筒;语言说法辨识器用以获取辨识待识别语句的说法,语言说法辨识器将接收的待识别语句通过参考语言结构数据库对自然语言输入进行说法撷取及辨识;停用词获取器用以取辨识待输入语言的停用词,停用词获取器将接收的待识别语句通过停用词数据库对自然语言输入进行说法撷取及辨识;每次对输入的待识别语句提取说法和停用词成功后,都会将说法和停用词存入参考语言结构数据库和停用词数据库,用于增加词库的容纳量,方便提升下一次对待识别语句的处理速度。

停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为stopwords(停用词)。这些停用词都是人工输入、非自动化生成的,生成后的停用词会形成一个停用词表,停用词表会存储在控制器中,常用的停用词表包括:语气助词,如“啊、呀、哎呀、哎”等,连接词,如“除非、从而、此外、但是”等。

其中,语意理解器模块包括一分词器、一停用词排除器和一存储器;分词器用以将匹配不到说法的待识别语句进行分词处理并生成对应词组;停用词排除器用以删除分词器生成词组中与实际业务无关的停用词;存储器用于存储分词器的分词结果。

请参阅图2所示,本发明为一种基于自然语言处理的语意理解系统的理解方法,如下步骤:

步骤s01:用户输入待识别语句到控制器模块;

步骤s02:控制器模块获取说法并调用语义理解器模块进行全字说法匹配;

若匹配成功,则直接执行步骤s07;

若匹配失败,则执行步骤s03;

步骤s03:语义理解器模块进行中文分词,生成一组词;

步骤s04:语义理解器模块从生成的词组中剔除跟实际业务无关的停用词;

步骤s05:语义理解器模块进行相似度说法匹配;

若匹配成功,则执行步骤s06;

若匹配失败,则直接执行步骤s07;

步骤s06:控制器模块根据说法查找所属意图及命令;

步骤s07:命令执行器模块根据命令查找可执行服务并执行返回结果。

请参阅图3所示,步骤s05中,相似度说法匹配的具体算法如下:

步骤t01:获取所有说法的分词结果并计算tf-idf值获取关键词;

步骤t02:计算待匹配说法的分词结果的tf-idf值并获取关键词;

步骤t03:将带匹配说法关键词与所有说法的关键词循环进行余弦相似性计算;

步骤t04:将余弦相似性计算结果按照从高到底排列;

步骤t05:获得余弦相似性值最高且大于m说法即为匹配结果,否则匹配失败。

其中,步骤t01中,tf-idf值用以评估一个词对于一个文件集或词料库中一份文件的重要程度;tf-idf的具体算法公式如下:tf-idf=tf*idf;其中,tf为词频,即词条在文档中出现的次数,idf为逆文档词频,即词条在文档内的区分能力;当文档越少idf越大,则说明词条具有很好的类别区分能力。

其中,步骤t05中,m的值根据实际情况应用取值,其用来屏蔽较低相识度的说法。

idf的主要思想是:如果包含词条t的文档越少,也就是n越小,idf越大,则说明词条t具有很好的类别区分能力。如果某一类文档c中包含词条t的文档数为m,而其它类包含t的文档总数为k,显然所有包含t的文档数n=m+k,当m大的时候,n也大,按照idf公式得到的idf的值会小,就说明该词条t类别区分能力不强。

值得注意的是,上述系统实施例中,所包括的各个单元只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。

另外,本领域普通技术人员可以理解实现上述各实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,相应的程序可以存储于一计算机可读取存储介质中。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1