一种语义理解方法及系统与流程

文档序号:17741064发布日期:2019-05-24 20:06阅读:194来源:国知局
一种语义理解方法及系统与流程

本发明涉及语言处理技术领域,尤指一种语义理解方法及系统。



背景技术:

当前随着网络的飞速发展,智能处理信息也是越来越普遍。计算机、智能设备等每天可能需要处理成千上万的信息。智能设备一般通过分析语料得到对应的正则表达式,从而解析语料。

但是,在利用分词技术的语料处理过程中,会遇到分词后,正则表达式的构成中有多种词性,以及获取的用户语料对应的正则表达式与多个正则表达式匹配相符的情况,还是无法准确判断语义和实体,因此,有必要通过一种语义理解方法及系统解析用户语料从而得到最有可能的对应的用户语义。



技术实现要素:

本发明的目的是提供一种语义理解方法及系统,实现基于概率语义模型对获取的用户语料进行解析,从而得到最有可能的用户语义。

本发明提供的技术方案如下:

本发明提供一种语义理解方法,包括:

获取语料样本,根据所述语料样本建立语料库;

根据所述语料样本获取特征信息,根据所述特征信息生成对应的正则表达式;

分别抽取所述正则表达式中的所述特征信息生成多个不同的正则式组合;

分析每一个正则式组合中每一个特征信息的存在准确性,对所述正则式组合进行筛选;

根据所述语料库分析所述正则式对应的正则式概率,所述正则式为所述正则表达式和筛选后的正则式组合;

根据所述正则式以及所述正则式概率生成概率语义模型;

获取用户语料;

根据所述用户语料生成对应的用户正则式;

将所述用户正则式和所述概率语义模型进行对比,得到所述用户语料的用户语义。

进一步的,所述的根据所述语料样本获取特征信息,根据所述特征信息生成对应的正则表达式具体包括:

通过分词技术对所述语料样本进行分词,得到样本分词和所述样本分词对应的分词词性;

根据所述样本分词和所述分词词性确定所述样本分词中的样本承接词;

分析所述语料样本的句式结构得到所述样本分词之间的关联关系;

根据所述特征信息生成对应的正则表达式,所述特征信息包括所述样本分词、所述分词词性、所述样本承接词以及所述关联关系。

进一步的,所述的分析每一个正则式组合中每一个特征信息的存在准确性,对所述正则式组合进行筛选具体包括:

分析每一个正则式组合中每一个特征信息的存在准确性,对所述正则式组合进行筛选;

若某一个正则式组合中每一个特征信息的存在都是准确的,则保存所述特征信息存在准确的正则式组合;

若某一个正则式组合中存在至少一个特征信息的存在是不准确的,则删除所述特征信息存在不准确的正则式组合。

进一步的,所述的根据所述语料库分析所述正则式对应的正则式概率,所述正则式为所述正则表达式和筛选后的正则式组合具体包括:

根据每一条正则式中的特征信息确定对应的正则式中的样本关键词;

分析所述样本关键词在所述语料库中出现的样本关键词概率;

根据所述样本关键词概率确定对应的所述正则式的正则式概率。

进一步的,所述的将所述用户正则式和所述概率语义模型进行对比,得到所述用户语料的用户语义具体包括:

将所述用户正则式和所述概率语义模型进行对比;

若所述用户正则式和所述概率语义模型中多个正则式匹配相符,则根据匹配相符的多个正则式对应的正则式概率确定目标正则式;

根据所述目标正则式解析所述用户语料得到所述用户语义。

本发明还提供一种语义理解系统,包括:

语料库建立模块,获取语料样本,根据所述语料样本建立语料库;

表达式生成模块,根据所述语料库建立模块获取的所述语料样本获取特征信息,根据所述特征信息生成对应的正则表达式;

表达式组合模块,分别抽取所述表达式生成模块生成的所述正则表达式中的所述特征信息生成多个不同的正则式组合;

筛选模块,分析所述表达式组合模块生成的每一个正则式组合中每一个特征信息的存在准确性,对所述正则式组合进行筛选;

概率分析模块,根据所述语料库建立模块建立的所述语料库分析所述正则式对应的正则式概率,所述正则式为所述正则表达式和筛选后的正则式组合;

模型生成模块,根据所述表达式生成模块和所述筛选模块得到的所述正则式以及所述概率分析模块得到的所述正则式概率生成概率语义模型;

语料获取模块,获取用户语料;

处理模块,根据所述语料获取模块获取的所述用户语料生成对应的用户正则式;

对比模块,将所述处理模块得到的所述用户正则式和所述模型生成模块生成的所述概率语义模型进行对比,得到所述用户语料的用户语义。

进一步的,所述表达式生成模块具体包括:

分词单元,通过分词技术对所述语料库建立模块获取的所述语料样本进行分词,得到样本分词和所述样本分词对应的分词词性;

承接词确定单元,根据所述分词单元得到的所述样本分词和所述分词词性确定所述样本分词中的样本承接词;

关系分析单元,分析所述语料库建立模块获取的所述语料样本的句式结构得到所述分词单元得到的所述样本分词之间的关联关系;

表达式生成单元,根据所述特征信息生成对应的正则表达式,所述特征信息包括所述分词单元得到的所述样本分词、所述分词词性、所述承接词确定单元得到的所述样本承接词以及所述关系分析单元确定的所述关联关系。

进一步的,所述筛选模块具体包括:

准确性分析单元,分析所述表达式组合模块生成的每一个正则式组合中每一个特征信息的存在准确性,对所述正则式组合进行筛选;

筛选单元,若所述准确性分析单元得到某一个正则式组合中每一个特征信息的存在都是准确的,则保存所述特征信息存在准确的正则式组合;

所述筛选单元,若所述准确性分析单元得到某一个正则式组合中存在至少一个特征信息的存在是不准确的,则删除所述特征信息存在不准确的正则式组合。

进一步的,所述概率分析模块具体包括:

关键词分析单元,根据每一条正则式中的特征信息确定对应的正则式中的样本关键词;

概率分析单元,分析所述关键词分析单元确定的所述样本关键词在所述语料库建立模块建立的所述语料库中出现的样本关键词概率;

概率确定单元,根据所述概率分析单元得到的所述样本关键词概率确定对应的所述正则式的正则式概率。

进一步的,所述对比模块具体包括:

对比单元,将所述用户正则式和所述概率语义模型进行对比;

处理单元,若所述对比单元得到所述用户正则式和所述概率语义模型中多个正则式匹配相符,则根据匹配相符的多个正则式对应的正则式概率确定目标正则式;

解析单元,根据所述处理单元得到的所述目标正则式解析所述用户语料得到所述用户语义。

通过本发明提供的一种语义理解方法及系统,能够带来以下至少一种有益效果:

1、本发明中,根据语料样本生成对应的正则表达式,然后抽取正则表达式中的特征信息得到正则式组合,结合语料库分析正则表达式和正则式组合的正则式概率,从而解析获取的用户语料最大可能的用户语义。

2、本发明中,根据分词技术对语料样本进行分词,并分析语料样本的句式结构,从而生成对应的正则表达式,便于后续总结出对应的正则式组合分析正则式概率。

3、本发明中,对抽取正则表达式中的特征信息生成的正则式组合中的特征信息进行分析,判断该正则式组合是否符合逻辑,具有实际语义,从而对正则式组合进行筛选。

附图说明

下面将以明确易懂的方式,结合说明书附图说明优选的实施方式,对一种语义理解方法及系统的上述特性、技术特征、优点及其实现方式予以进一步说明。

图1是本发明一种语义理解方法的一个实施例的流程图;

图2是本发明一种语义理解方法的另一个实施例的流程图;

图3是本发明一种语义理解方法的另一个实施例的流程图;

图4是本发明一种语义理解方法的另一个实施例的流程图;

图5是本发明一种语义理解方法的另一个实施例的流程图;

图6是本发明一种语义理解系统的一个实施例的结构示意图;

图7是本发明一种语义理解系统的另一个实施例的结构示意图。

附图标号说明:

100语义理解系统

110语料库建立模块

120表达式生成模块121分词单元122承接词确定单元123关系分析单元124表达式生成单元

130表达式组合模块

140筛选模块141准确性分析单元142筛选单元

150概率分析模块151关键词分析单元152概率分析单元153概率确定单元

160模型生成模块

170语料获取模块

180处理模块

190对比模块191对比单元192处理单元193解析单元

具体实施方式

为了能够更加清楚地说明本发明实施例或现有技术中的技术方案,下面将对照说明书附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并且获得其他的实施方式。

为了使图面简洁,各图中只示意性地表示出了与本发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。

本发明的一个实施例,如图1所示,一种语义理解方法,包括:

s100获取语料样本,根据所述语料样本建立语料库。

具体的,获取大量的语料样本,根据语料样本建立语料库。其中语料样本可以是规范的书面用语,也可以是用户语音、音频等,因为在人机交互的过程中用户语音输入和文字输入都是主流的交互方式。

另外,由于整个分析过程是针对书面文本,因此如果收集的是用户语音、音频等语音文件,首先需要将语音文件转化为识别文本,然后对该识别文本进行相应的处理。

s200根据所述语料样本获取特征信息,根据所述特征信息生成对应的正则表达式。

具体的,分析语料样本的句子中包含的分词词性以及句式结构,从而获取语料样本包含的特征信息,然后根据特征信息生成该语料样本对应的正则表达式。

s300分别抽取所述正则表达式中的所述特征信息生成多个不同的正则式组合。

具体的,分别抽取正则表达式中的特征信息生成多个不同的正则式组合,相当于对正则表达式中包含的特征信息进行排列组合得到若干个正则式组合。例如,首先任意选取两个特征信息组合成正则式组合,然后任意选取三个特征信息组合成正则式组合,直至得到所有的正则式组合。

s400分析每一个正则式组合中每一个特征信息的存在准确性,对所述正则式组合进行筛选。

具体的,上述排列组合得到的若干个正则式组合中可能存在某些句子成分结构不合理的组合,因此分析每一个正则式组合中每一个特征信息的存在准确性,从而对正则式组合进行筛选。

s500根据所述语料库分析所述正则式对应的正则式概率,所述正则式为所述正则表达式和筛选后的正则式组合。

具体的,有用户语料直接得到的正则表达式,以及经过筛选之后得到的组合之后的正则式组合是符合句子结构逻辑的正则式,根据语料库中所有的语料样本分析每一条正则式对应的在语料库中出现的正则式概率。

s600根据所述正则式以及所述正则式概率生成概率语义模型。

具体的,根据正则式以及对应的正则式概率生成概率语义模型,在概率语义模型中建立正则式和正则式概率的映射关系。

s700获取用户语料。

具体的,获取用户语料,智能设备在获取用户语料的过程中,用户通过语音输入和文字输入都是主流的交互方式,但是无论获取的用户语料是何种形式,最终系统进行处理的都是文本形式,因此,如果获取到语音形式,需要将其首先转化为文本形式。

s800根据所述用户语料生成对应的用户正则式。

具体的,根据上述获取的用户语料的句子中包含的分词词性以及句式结构,从而生成对应的用户正则式。

s900将所述用户正则式和所述概率语义模型进行对比,得到所述用户语料的用户语义。

具体的,将上述得到的用户正则式和概率语义模型中的正则式逐一进行对比,选择匹配的正则式中正则式概率最大的正则式解析得到用户语料,得到对应的用户语义。

本实施例中,根据语料样本生成对应的正则表达式,然后抽取正则表达式中的特征信息得到正则式组合,结合语料库分析正则表达式和正则式组合的正则式概率,从而解析获取的用户语料最大可能的用户语义。

本发明的另一个实施例,是上述的实施例的优化实施例,如图2所示,包括:

s100获取语料样本,根据所述语料样本建立语料库。

s200根据所述语料样本获取特征信息,根据所述特征信息生成对应的正则表达式。

所述的s200根据所述语料样本获取特征信息,根据所述特征信息生成对应的正则表达式具体包括:

s210通过分词技术对所述语料样本进行分词,得到样本分词和所述样本分词对应的分词词性。

具体的,根据分词技术对语料样本进行分词,识别语料样本中的每一句话中词语的词性,然后将语料样本中的每一句话中根据词语的词性将整个句子划分为字、词以及短语等分词构成。因此得到了语料样本中包含的样本分词以及对应的分词词性。

例如,某一语料样本为“鲸鱼会喷水”,进行分词得到的样本分词为“鲸鱼”、“会”、“喷水”,“鲸鱼”对应的分词词性为名词,“会”对应的分词词性为代词,“喷水”对应的分词词性为名词。

s220根据所述样本分词和所述分词词性确定所述样本分词中的样本承接词。

具体的,根据样本分词和分词词性确定样本分词中的样本承接词,例如“和”、“或”、“不但”、“而且”等样本承接词,有助于确定样本分词之间的关系。

s230分析所述语料样本的句式结构得到所述样本分词之间的关联关系。

具体的,上述根据分词技术得到了语料样本中包含的样本分词以及分词词性,然后根据语料样本的句式结构分析语料样本中包含的样本分词之间的关联关系。

例如,某一语料样本为“鲸鱼会喷水”,进行分词得到的样本分词为,“鲸鱼”、“会”、“喷水”,“鲸鱼”对应的分词词性为名词,“会”对应的分词词性为代词,“喷水”对应的分词词性为名词,分析语料样本的句式结构得出名词“鲸鱼”和动词“喷水”是主谓关系。

s240根据所述特征信息生成对应的正则表达式,所述特征信息包括所述样本分词、所述分词词性、所述样本承接词以及所述关联关系。

具体的,根据样本分词、分词词性、样本承接词以及关联关系生成对应的正则表达式,例如,某一语料样本为“鲸鱼会喷水”,进行分词得到的内容分词为,“鲸鱼”、“会”、“喷水”,“鲸鱼”对应的分词词性为名词,“会”对应的分词词性为代词,“喷水”对应的分词词性为名词,分析实体内容的句子结构得出名词“鲸鱼”和动词“喷水”是主谓关系,得到的正则表达式为:名词(鲸鱼)#代词(会)#动词(喷水)。

s300分别抽取所述正则表达式中的所述特征信息生成多个不同的正则式组合。

s400分析每一个正则式组合中每一个特征信息的存在准确性,对所述正则式组合进行筛选。

s500根据所述语料库分析所述正则式对应的正则式概率,所述正则式为所述正则表达式和筛选后的正则式组合。

s600根据所述正则式以及所述正则式概率生成概率语义模型。

s700获取用户语料。

s800根据所述用户语料生成对应的用户正则式。

s900将所述用户正则式和所述概率语义模型进行对比,得到所述用户语料的用户语义。

本实施例中,根据分词技术对语料样本进行分词,并分析语料样本的句式结构,从而生成对应的正则表达式,便于后续总结出对应的正则式组合分析正则式概率。

本发明的另一个实施例,是上述的实施例的优化实施例,如图3所示,包括:

s100获取语料样本,根据所述语料样本建立语料库。

s200根据所述语料样本获取特征信息,根据所述特征信息生成对应的正则表达式。

s300分别抽取所述正则表达式中的所述特征信息生成多个不同的正则式组合。

s400分析每一个正则式组合中每一个特征信息的存在准确性,对所述正则式组合进行筛选。

所述的s400分析每一个正则式组合中每一个特征信息的存在准确性,对所述正则式组合进行筛选具体包括:

s410分析每一个正则式组合中每一个特征信息的存在准确性,对所述正则式组合进行筛选。

具体的,抽取正则表达式中的特征信息生成若干个不同的正则式组合,但是其中可能存在某些句子成分结构不合理的组合,例如,某一语料样本为“鲸鱼会喷水”,得到的对应的正则表达式为:名词(鲸鱼)#代词(会)#动词(喷水),抽取其中的特征信息生成的部分正则式组合为:名词(鲸鱼)#代词(会)、代词(会)#动词(喷水)、名词(鲸鱼)#动词(喷水),其中正则式组合名词(鲸鱼)#代词(会)的结构不完整,名词(鲸鱼)和代词(会)的搭配组合不准确,并不具有完整的语义。

因此,需要分析每一个正则式组合中每一个特征信息的存在准确性,对正则式组合进行筛选。

s420若某一个正则式组合中每一个特征信息的存在都是准确的,则保存所述特征信息存在准确的正则式组合。

具体的,如果某一个正则式组合中每一个特征信息的存在都是准确的,说明该正则式组合具有真实语义,因此保存该正则式组合。

s430若某一个正则式组合中存在至少一个特征信息的存在是不准确的,则删除所述特征信息存在不准确的正则式组合。

具体的,如果某一个正则式组合中至少一个特征信息的存在是不准确的,例如抽取名词、代词以及主谓关系特征信息生成的正则式组合,其中主谓关系是不准确的,则删除该正则式组合。

s500根据所述语料库分析所述正则式对应的正则式概率,所述正则式为所述正则表达式和筛选后的正则式组合。

s600根据所述正则式以及所述正则式概率生成概率语义模型。

s700获取用户语料。

s800根据所述用户语料生成对应的用户正则式。

s900将所述用户正则式和所述概率语义模型进行对比,得到所述用户语料的用户语义。

本实施例中,对抽取正则表达式中的特征信息生成的正则式组合中的特征信息进行分析,判断该正则式组合是否符合逻辑,具有实际语义,从而对正则式组合进行筛选。

本发明的另一个实施例,是上述的实施例的优化实施例,如图4所示,包括:

s100获取语料样本,根据所述语料样本建立语料库。

s200根据所述语料样本获取特征信息,根据所述特征信息生成对应的正则表达式。

s300分别抽取所述正则表达式中的所述特征信息生成多个不同的正则式组合。

s400分析每一个正则式组合中每一个特征信息的存在准确性,对所述正则式组合进行筛选。

s500根据所述语料库分析所述正则式对应的正则式概率,所述正则式为所述正则表达式和筛选后的正则式组合。

所述的s500根据所述语料库分析所述正则式对应的正则式概率,所述正则式为所述正则表达式和筛选后的正则式组合具体包括:

s510根据每一条正则式中的特征信息确定对应的正则式中的样本关键词。

具体的,根据每一条正则式中的特征信息确定样本关键词,例如根据关联关系确定样本关键词,将主谓关系中的主语对应的样本分词确定为样本关键词,或者根据分词词性确定样本关键词,将正则式中的动词或名词对应的样本分词确定为样本关键词。样本关键词的确定规则用户根据实际需要进行设定,样本关键词的数量可以是一个也可以是多个。

例如,某一语料样本为“鲸鱼会喷水”,得到的正则表达式为:名词(鲸鱼)#代词(会)#动词(喷水)。如果将主谓关系中的主语对应的样本分词确定为样本关键词,则样本关键词为“鲸鱼”,如果将动词和名词对应的样本分词确定为样本关键词,则样本关键词为“鲸鱼”和“喷水”,因此样本关键词的数量也并不是限制为一个。

s520分析所述样本关键词在所述语料库中出现的样本关键词概率。

具体的,确定每个正则式中的样本关键词之后,统计该样本关键词在语料库中所有的语料样本中出现的样本关键词概率。例如,某一语料样本为“鲸鱼会喷水”,得到的正则表达式为:名词(鲸鱼)#代词(会)#动词(喷水),确定的样本关键词为“鲸鱼”和“喷水”,则分别统计“鲸鱼”和“喷水”在所有的语料样本中出现的样本关键词概率,譬如语料库中包含100条语料样本,其中20条语料样本中包含“鲸鱼”,10条语料样本中包含“喷水”,则样本关键词“鲸鱼”对应的样本关键词概率为0.2,样本关键词“喷水”对应的样本关键词概率为0.1。

s530根据所述样本关键词概率确定对应的所述正则式的正则式概率。

具体的,根据样本关键词概率确定对应的正则式的正则式概率,如果正则式只有一个样本关键词,则该样本关键词对应的样本关键词概率即为该正则式对应的正则式概率。如果正则式有多个样本关键词,则样本关键词对应的样本关键词概率最高的为该正则式对应的正则式概率。

s600根据所述正则式以及所述正则式概率生成概率语义模型。

s700获取用户语料。

s800根据所述用户语料生成对应的用户正则式。

s900将所述用户正则式和所述概率语义模型进行对比,得到所述用户语料的用户语义。

本实施例中,通过预设的规则确定每个正则式中的样本关键词,然后结合语料库分析该样本关键词的样本关键词概率,从而得到对应的正则式的正则式概率。

本发明的另一个实施例,是上述的实施例的优化实施例,如图5所示,包括:

s100获取语料样本,根据所述语料样本建立语料库。

s200根据所述语料样本获取特征信息,根据所述特征信息生成对应的正则表达式。

s300分别抽取所述正则表达式中的所述特征信息生成多个不同的正则式组合。

s400分析每一个正则式组合中每一个特征信息的存在准确性,对所述正则式组合进行筛选。

s500根据所述语料库分析所述正则式对应的正则式概率,所述正则式为所述正则表达式和筛选后的正则式组合。

s600根据所述正则式以及所述正则式概率生成概率语义模型。

s700获取用户语料。

s800根据所述用户语料生成对应的用户正则式。

s900将所述用户正则式和所述概率语义模型进行对比,得到所述用户语料的用户语义。

所述的s900将所述用户正则式和所述概率语义模型进行对比,得到所述用户语料的用户语义具体包括:

s910将所述用户正则式和所述概率语义模型进行对比。

具体的,将根据用户语料得到的用户正则式和概率语义模型中的正则式逐一地进行对比匹配。

s920若所述用户正则式和所述概率语义模型中多个正则式匹配相符,则根据匹配相符的多个正则式对应的正则式概率确定目标正则式。

s930根据所述目标正则式解析所述用户语料得到所述用户语义。

具体的,由于用户正则式中包含多个特征信息,可能部分特征信息与概率语义模型中的正则式1匹配相符,另外部分特征信息与概率语义模型中的正则式2匹配相符,从而造成与概率语义模型中多个正则式匹配相符的情形,则对比比较匹配相符的多个正则式对应的正则式概率确定目标正则式,如比较上述正则式1和正则式2对应的正则式概率确定目标正则式,得到的目标正则式为解析该用户语料最可能的正则式,从而根据该目标正则式解析用户语料,得到对应的用户语义。

本实施例中,根据用户语料得到对应的用户正则式,然后和语义概率模型进行对比得到相应的目标正则式,通过该目标正则式解析用户语料从而得到最可能的用户语义。

本发明的一个实施例,如图6所示,一种语义理解系统100,包括:

语料库建立模块110,获取语料样本,根据所述语料样本建立语料库。

具体的,语料库建立模块110获取大量的语料样本,根据语料样本建立语料库。其中语料样本可以是规范的书面用语,也可以是用户语音、音频等,因为在人机交互的过程中用户语音输入和文字输入都是主流的交互方式。

另外,由于整个分析过程是针对书面文本,因此如果收集的是用户语音、音频等语音文件,首先需要将语音文件转化为识别文本,然后对该识别文本进行相应的处理。

表达式生成模块120,根据所述语料库建立模块110获取的所述语料样本获取特征信息,根据所述特征信息生成对应的正则表达式。

具体的,表达式生成模块120分析语料样本的句子中包含的分词词性以及句式结构,从而获取语料样本包含的特征信息,然后根据特征信息生成该语料样本对应的正则表达式。

表达式组合模块130,分别抽取所述表达式生成模块120生成的所述正则表达式中的所述特征信息生成多个不同的正则式组合。

具体的,表达式组合模块130分别抽取正则表达式中的特征信息生成多个不同的正则式组合,相当于对正则表达式中包含的特征信息进行排列组合得到若干个正则式组合。例如,首先任意选取两个特征信息组合成正则式组合,然后任意选取三个特征信息组合成正则式组合,直至得到所有的正则式组合。

筛选模块140,分析所述表达式组合模块130生成的每一个正则式组合中每一个特征信息的存在准确性,对所述正则式组合进行筛选。

具体的,上述排列组合得到的若干个正则式组合中可能存在某些句子成分结构不合理的组合,因此筛选模块140分析每一个正则式组合中每一个特征信息的存在准确性,从而对正则式组合进行筛选。

概率分析模块150,根据所述语料库建立模块110建立的所述语料库分析所述正则式对应的正则式概率,所述正则式为所述正则表达式和筛选后的正则式组合。

具体的,有用户语料直接得到的正则表达式,以及经过筛选之后得到的组合之后的正则式组合是符合句子结构逻辑的正则式,概率分析模块150根据语料库中所有的语料样本分析每一条正则式对应的在语料库中出现的正则式概率。

模型生成模块160,根据所述表达式生成模块120和所述筛选模块140得到的所述正则式以及所述概率分析模块150得到的所述正则式概率生成概率语义模型。

具体的,模型生成模块160根据正则式以及对应的正则式概率生成概率语义模型,在概率语义模型中建立正则式和正则式概率的映射关系。

语料获取模块170,获取用户语料。

具体的,语料获取模块170获取用户语料,智能设备在获取用户语料的过程中,用户通过语音输入和文字输入都是主流的交互方式,但是无论获取的用户语料是何种形式,最终系统进行处理的都是文本形式,因此,如果获取到语音形式,需要将其首先转化为文本形式。

处理模块180,根据所述语料获取模块170获取的所述用户语料生成对应的用户正则式。

具体的,处理模块180根据上述获取的用户语料的句子中包含的分词词性以及句式结构,从而生成对应的用户正则式。

对比模块190,将所述处理模块180得到的所述用户正则式和所述模型生成模块160生成的所述概率语义模型进行对比,得到所述用户语料的用户语义。

具体的,对比模块190将上述得到的用户正则式和概率语义模型中的正则式逐一进行对比,选择匹配的正则式中正则式概率最大的正则式解析得到用户语料,得到对应的用户语义。

本实施例中,根据语料样本生成对应的正则表达式,然后抽取正则表达式中的特征信息得到正则式组合,结合语料库分析正则表达式和正则式组合的正则式概率,从而解析获取的用户语料最大可能的用户语义。

本发明的另一个实施例,是上述的实施例的优化实施例,如图7所示,包括:

语料库建立模块110,获取语料样本,根据所述语料样本建立语料库。

表达式生成模块120,根据所述语料库建立模块110获取的所述语料样本获取特征信息,根据所述特征信息生成对应的正则表达式。

所述表达式生成模块120具体包括:

分词单元121,通过分词技术对所述语料库建立模块110获取的所述语料样本进行分词,得到样本分词和所述样本分词对应的分词词性。

具体的,分词单元121根据分词技术对语料样本进行分词,识别语料样本中的每一句话中词语的词性,然后将语料样本中的每一句话中根据词语的词性将整个句子划分为字、词以及短语等分词构成。因此得到了语料样本中包含的样本分词以及对应的分词词性。

例如,某一语料样本为“鲸鱼会喷水”,进行分词得到的样本分词为“鲸鱼”、“会”、“喷水”,“鲸鱼”对应的分词词性为名词,“会”对应的分词词性为代词,“喷水”对应的分词词性为名词。

承接词确定单元122,根据所述分词单元121得到的所述样本分词和所述分词词性确定所述样本分词中的样本承接词。

具体的,承接词确定单元122根据样本分词和分词词性确定样本分词中的样本承接词,例如“和”、“或”、“不但”、“而且”等样本承接词,有助于确定样本分词之间的关系。

关系分析单元123,分析所述语料库建立模块110获取的所述语料样本的句式结构得到所述分词单元121得到的所述样本分词之间的关联关系。

具体的,上述根据分词技术得到了语料样本中包含的样本分词以及分词词性,然后关系分析单元123根据语料样本的句式结构分析语料样本中包含的样本分词之间的关联关系。

例如,某一语料样本为“鲸鱼会喷水”,进行分词得到的样本分词为,“鲸鱼”、“会”、“喷水”,“鲸鱼”对应的分词词性为名词,“会”对应的分词词性为代词,“喷水”对应的分词词性为名词,分析语料样本的句式结构得出名词“鲸鱼”和动词“喷水”是主谓关系。

表达式生成单元124,根据所述特征信息生成对应的正则表达式,所述特征信息包括所述分词单元121得到的所述样本分词、所述分词词性、所述承接词确定单元122得到的所述样本承接词以及所述关系分析单元123确定的所述关联关系。

具体的,表达式生成单元124根据样本分词、分词词性、样本承接词以及关联关系生成对应的正则表达式,例如,某一语料样本为“鲸鱼会喷水”,进行分词得到的内容分词为,“鲸鱼”、“会”、“喷水”,“鲸鱼”对应的分词词性为名词,“会”对应的分词词性为代词,“喷水”对应的分词词性为名词,分析实体内容的句子结构得出名词“鲸鱼”和动词“喷水”是主谓关系,得到的正则表达式为:名词(鲸鱼)#代词(会)#动词(喷水)。

表达式组合模块130,分别抽取所述表达式生成模块120生成的所述正则表达式中的所述特征信息生成多个不同的正则式组合。

筛选模块140,分析所述表达式组合模块130生成的每一个正则式组合中每一个特征信息的存在准确性,对所述正则式组合进行筛选。

所述筛选模块140具体包括:

准确性分析单元141,分析所述表达式组合模块130生成的每一个正则式组合中每一个特征信息的存在准确性,对所述正则式组合进行筛选。

具体的,抽取正则表达式中的特征信息生成若干个不同的正则式组合,但是其中可能存在某些句子成分结构不合理的组合,例如,某一语料样本为“鲸鱼会喷水”,得到的对应的正则表达式为:名词(鲸鱼)#代词(会)#动词(喷水),抽取其中的特征信息生成的部分正则式组合为:名词(鲸鱼)#代词(会)、代词(会)#动词(喷水)、名词(鲸鱼)#动词(喷水),其中正则式组合名词(鲸鱼)#代词(会)的结构不完整,名词(鲸鱼)和代词(会)的搭配组合不准确,并不具有完整的语义。

因此,需要准确性分析单元141分析每一个正则式组合中每一个特征信息的存在准确性,对正则式组合进行筛选。

筛选单元142,若所述准确性分析单元141得到某一个正则式组合中每一个特征信息的存在都是准确的,则保存所述特征信息存在准确的正则式组合。

具体的,如果筛选单元142判断某一个正则式组合中每一个特征信息的存在都是准确的,说明该正则式组合具有真实语义,因此保存该正则式组合。

所述筛选单元142,若所述准确性分析单元141得到某一个正则式组合中存在至少一个特征信息的存在是不准确的,则删除所述特征信息存在不准确的正则式组合。

具体的,如果筛选单元142判断某一个正则式组合中至少一个特征信息的存在是不准确的,例如抽取名词、代词以及主谓关系特征信息生成的正则式组合,其中主谓关系是不准确的,则删除该正则式组合。

概率分析模块150,根据所述语料库建立模块110建立的所述语料库分析所述正则式对应的正则式概率,所述正则式为所述正则表达式和筛选后的正则式组合。

所述概率分析模块150具体包括:

关键词分析单元151,根据每一条正则式中的特征信息确定对应的正则式中的样本关键词。

具体的,关键词分析单元151根据每一条正则式中的特征信息确定样本关键词,例如根据关联关系确定样本关键词,将主谓关系中的主语对应的样本分词确定为样本关键词,或者根据分词词性确定样本关键词,将正则式中的动词或名词对应的样本分词确定为样本关键词。样本关键词的确定规则用户根据实际需要进行设定,样本关键词的数量可以是一个也可以是多个。

例如,某一语料样本为“鲸鱼会喷水”,得到的正则表达式为:名词(鲸鱼)#代词(会)#动词(喷水)。如果将主谓关系中的主语对应的样本分词确定为样本关键词,则样本关键词为“鲸鱼”,如果将动词和名词对应的样本分词确定为样本关键词,则样本关键词为“鲸鱼”和“喷水”,因此样本关键词的数量也并不是限制为一个。

概率分析单元152,分析所述关键词分析单元151确定的所述样本关键词在所述语料库建立模块110建立的所述语料库中出现的样本关键词概率。

具体的,确定每个正则式中的样本关键词之后,概率分析单元152统计该样本关键词在语料库中所有的语料样本中出现的样本关键词概率。例如,某一语料样本为“鲸鱼会喷水”,得到的正则表达式为:名词(鲸鱼)#代词(会)#动词(喷水),确定的样本关键词为“鲸鱼”和“喷水”,则分别统计“鲸鱼”和“喷水”在所有的语料样本中出现的样本关键词概率,譬如语料库中包含100条语料样本,其中20条语料样本中包含“鲸鱼”,10条语料样本中包含“喷水”,则样本关键词“鲸鱼”对应的样本关键词概率为0.2,样本关键词“喷水”对应的样本关键词概率为0.1。

概率确定单元153,根据所述概率分析单元152得到的所述样本关键词概率确定对应的所述正则式的正则式概率。

具体的,概率确定单元153根据样本关键词概率确定对应的正则式的正则式概率,如果正则式只有一个样本关键词,则该样本关键词对应的样本关键词概率即为该正则式对应的正则式概率。如果正则式有多个样本关键词,则样本关键词对应的样本关键词概率最高的为该正则式对应的正则式概率。

模型生成模块160,根据所述表达式生成模块120和所述筛选模块140得到的所述正则式以及所述概率分析模块150得到的所述正则式概率生成概率语义模型。

语料获取模块170,获取用户语料。

处理模块180,根据所述语料获取模块170获取的所述用户语料生成对应的用户正则式。

对比模块190,将所述处理模块180得到的所述用户正则式和所述模型生成模块160生成的所述概率语义模型进行对比,得到所述用户语料的用户语义。

所述对比模块190具体包括:

对比单元191,将所述用户正则式和所述概率语义模型进行对比。

具体的,对比单元191将根据用户语料得到的用户正则式和概率语义模型中的正则式逐一地进行对比匹配。

处理单元192,若所述对比单元191得到所述用户正则式和所述概率语义模型中多个正则式匹配相符,则根据匹配相符的多个正则式对应的正则式概率确定目标正则式。

解析单元193,根据所述处理单元192得到的所述目标正则式解析所述用户语料得到所述用户语义。

具体的,由于用户正则式中包含多个特征信息,可能部分特征信息与概率语义模型中的正则式1匹配相符,另外部分特征信息与概率语义模型中的正则式2匹配相符,从而造成与概率语义模型中多个正则式匹配相符的情形,则处理单元192对比比较匹配相符的多个正则式对应的正则式概率确定目标正则式,如比较上述正则式1和正则式2对应的正则式概率确定目标正则式,得到的目标正则式为解析该用户语料最可能的正则式,从而解析单元193根据该目标正则式解析用户语料,得到对应的用户语义。

本实施例中,根据分词技术对语料样本进行分词,并分析语料样本的句式结构,从而生成对应的正则表达式,对抽取正则表达式中的特征信息生成的正则式组合中的特征信息进行分析,判断该正则式组合是否符合逻辑,具有实际语义,从而对正则式组合进行筛选。

通过预设的规则确定每个正则式中的样本关键词,结合语料库分析该样本关键词的样本关键词概率,从而得到对应的正则式的正则式概率。根据用户语料得到对应的用户正则式,然后和语义概率模型进行对比得到相应的目标正则式,通过该目标正则式解析用户语料从而得到最可能的用户语义。

应当说明的是,上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1