一种语义理解方法及装置与流程

文档序号:13736145阅读:168来源:国知局
一种语义理解方法及装置与流程

本发明涉及智慧城市技术领域,特别是涉及一种语义理解方法及装置。



背景技术:

智慧城市的建设离不开人机的深入交互,更离不开语义理解系统的支撑。智慧城市应用的智慧性对语义理解提出了更高的要求。

目前常见的语义理解方法主要有两种,一种为基于人理解的统计方法,具体地,预先统计并存储同一种语义的多种说法,当具有待分析的语义文本时,将语义文本与预先存储的多种说法进行比对,以确定待分析的语义文本所表达的真实语义;另一种方法基于模板规则配置实现,具体地,为不同的场景设置不同的模板,当具有待分析的语义文本时,将语义文本与各模板匹配,直至确定符合该语义文本的模板,并根据确定的模板确定待分析的语义文本所表达的真实语义。例如,待分析的语义文本为“我要买去长沙的火车票”,配置的场景模板可以为,第一个词为主语,间隔“买”为动作,第五个词开始一般为“目的地”地名等,当待分析的语义文本与各模板匹配后,确定与上述场景模板匹配,所以可确定待分析的语义文本所所表达的真实语义为购买目的地为长沙的火车票。

发明人在对现有技术的研究过程中发现,第一种语义理解方法需要预先存储多种说法,然而由于地域和生活习惯的不同,不可能做到穷举一个意思的所有说法,所以,该语义理解方法的准确度较低;而第二种语义理解方法,,需要预先为不同的场景配置不同的模板,语义理解效率较低。



技术实现要素:

为解决上述技术问题,本发明实施例提供了一种方法及装置,以解决现有技术中在线编程时间长的问题,技术方案如下:

一种语义理解方法,包括:

获取待分析的语义文本;

基于意向图式构建所述语义文本的语义网;

获取所述语义网的向量空间与本体数据库中的各标准文本的向量空间的距离差;

根据所述距离差确定与所述语义文本对应的标准文本。

优选地,基于意向图构建所述语义文本的语义网之前,还包括:

按照所述本体数据库中对单个本体的定义规则,对所述语义文本进行分词,以获得多个语义子文本;

分别标注所述多个语义子文本的词性;

相应地,基于意向图构建所述语义文本的语义网,包括:

根据所述多个语义子文本和所述词性,基于意向图构建所述语义文本的语义网。

优选地,根据所述距离差确定与所述语义文本对应的标准文本,包括:

从所述距离差中确定最小距离差;

将与所述最小距离差对应的标准文本作为与所述语义文本对应的标准文本。

优选地,还包括:

输出与确定的标准文本对应的答案。

优选地,还包括:

预先通过网络节点上的自动爬虫从各网站抓取文本信息;

将所述文本信息转换为符合所述定义规则的本体;

将所述本体存储至所述本体数据库中。

一种语义理解装置,包括:

获取待分析的语义文本;

基于意向图式构建所述语义文本的语义网;

获取所述语义网的向量空间与本体数据库中的各标准文本的向量空间的距离差;

根据所述距离差确定与所述语义文本对应的标准文本。

优选地,基于意向图构建所述语义文本的语义网之前,还包括:

按照所述本体数据库中对单个本体的定义规则,对所述语义文本进行分词,以获得多个语义子文本;

分别标注所述多个语义子文本的词性;

相应地,基于意向图构建所述语义文本的语义网,包括:

根据所述多个语义子文本和所述词性,基于意向图构建所述语义文本的语义网。

优选地,根据所述距离差确定与所述语义文本对应的标准文本,包括:

从所述距离差中确定最小距离差;

将与所述最小距离差对应的标准文本作为与所述语义文本对应的标准文本。

优选地,还包括:

输出与确定的标准文本对应的答案。

优选地,还包括:

预先通过网络节点上的自动爬虫从各网站抓取文本信息;

将所述文本信息转换为符合所述定义规则的本体;

将所述本体存储至所述本体数据库中。

本发明实施例提供的技术方案,获取待分析的语义文本,基于意象图式构建语义文本的语义网,获取语义网的向量空间与本体数据库中的各标准文本的向量空间的距离差,并根据距离差确定与语义文本对应的标准文本。本发明实施例提供的方案,无需针对同一语义预先存储多种表达形式,且也不需要预先为不同的场景配置不同的模板,语义理解效率高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例所提供的一种语义理解方法的一种流程示意图;

图2为本发明实施例所提供的一种语义理解方法的另一种流程示意图;

图3为本发明实施例所提供的一种语义理解装置的一种结构示意图;

图4为本发明实施例所提供的一种语义理解装置的另一种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅图1,图1为本发明实施例提供的一种语义理解方法的一种实现流程图,所述方法包括:

步骤s101、获取待分析的语义文本;

该待分析的语义文本的形式可以为语音文本,也可以为文字文本,还可以为语音文本与文字文本的组合,另外,根据实际应用的需要,语义文本的形式并不仅限于上述三种形式。

步骤s102、基于意象图式构建所述语义文本的语义网;

意象图式是为了把空间结构映射到概念结构面对感性经验进行的压缩性的再描写。

以下举例说明意象图式:

1)我们从家来到大学。

2)看一列长长的火车,从第一节车厢到最后一节。

3)一滴水从桌面滚到地面上。

4)从香港飞到细腻。

5)高速公路连接北京和上海。

上述例句表示的虽然活动有动态的有静态的,但是看似无关的活动之间实际都有共同之处,具体地,都有一个始源,或称出发点,沿着一个路径到达终端,即都遵循“始源-路径-终点”这样的模式,因此,上述例句组成了一个意象图式,称为路径图式。

又如:

a我从冰箱里拿出一瓶牛奶。

b我从奶瓶里导出牛奶。

c我把牛奶倒进茶杯。

d我把钱装进口袋,走出银行,钻进轿车。

以上例句都和“容器”有关,我把钱装进了口袋这个“容器”,走出了银行这个“容器”,再度进入另一个“容器”轿车,经过无数次“容器”的经验,形成一个“容器”的意向图式。

本发明实施例所采用的是意象图式的语域表达形式,语域是一种认知语境,用它来表现语义单位特点或描写概念特征。例如,定义“手指”的时候,必须要提及“手”,定义“手”的时候,必须要提及“胳膊”,因此,“手”是“手指”的语域;“胳膊”是“手”的语域,最终,“空间”、“时间”和“运动”是“身体”的语域,因为“身体”在时间和空间中存在和运动。因此,可以根据意象图式的语域表达形式构建语义文本的语义网。

其中,语义网是一种理想的网状结构,用以描述词语和概念的相互关系,语义网中具有多个网络节点,不同的网络节点所组成的网络路径所表示的语义不同。

步骤s103、获取所述语义网的向量空间与本体数据库中的各标准文本的向量空间的距离差;

本体数据库中存在着各种语义的标准表达形式,如针对“你吃饭了吗”这一标准文本,其所对应的待分析的语义文本可以有多种,如“吃了吗”“你吃了呗”等等,根据方言和生活习惯的不同,待分析的语义文本和标准文本的表达形式千差万别。

需要说明的是,即使表达“你吃饭了吗”语义的待分析文本与标准文本相差甚多,那么待分析文本与标准文本的空间向量的距离差仍然小于该待分析文本与其他标准文本的空间向量的距离差,该其他标准文本与标准文本表达的语义不同,例如,其他标准文本可以为“我乘火车去北京”。

当构建完待分析的语义文本的语义网后,获取该语义网的空间向量以及本体数据库中各标准文本所对应的语义网的空间向量,并获取两个空间向量的距离差。

步骤s104、根据所述距离差确定与所述语义文本对应的标准文本。

本发明实施例提供的技术方案,获取待分析的语义文本,基于意象图式构建语义文本的语义网,获取语义网的向量空间与本体数据库中的各标准文本的向量空间的距离差,并根据距离差确定与语义文本对应的标准文本。本发明实施例提供的方案,无需针对同一语义预先存储多种表达形式,且也不需要预先为不同的场景配置不同的模板,语义理解效率高。

请参阅图2,图2为本发明实施例提供的一种语义理解方法的另一种实现流程图,所述方法包括:

步骤s201、获取待分析的语义文本;

该待分析的语义文本的形式可以为语音文本,也可以为文字文本,还可以为语音文本与文字文本的组合,另外,根据实际应用的需要,语义文本的形式并不仅限于上述三种形式。

步骤s202、按照所述本体数据库中对单个本体的定义规则,对所述语义文本进行分词,以获得多个语义子文本;

通常对语义文本分词后所得到的子文本为自然词,其中,自然次句子分词后的结果,如“我要买去长沙的火车票”,分词后的自然词为,我、要、买、去、长沙、的、火车、票共八个自然词。

但是,在本体数据库中,火车票属于单个本体,是整体成词的,而不是拆开分别定义的,所以,在对待分析的语义文本进行分词时,不能按照划分自然词的规则划分待分析的语义文本,而应该按照本体数据库中对单个本体的定义规则划对待分析的语义文本进行分词操作,如,对于我要买去长沙的火车票”,分词后的多个语义子文本为,我、要、买、去、长沙、的、火车票。

步骤s203、分别标注所述多个语义子文本的词性;

本实施例中的词性指的是语义子文本的动词、名词或形容词等属性,例如对于语义子文本“我、要、买、去、长沙、的、火车票”,“我”是代词,“要”为副词,“买、去”为动词,“长沙、火车票”为名词,“的”为形容词。

在对待分析语义文本进行分词操作后,对分词操作得到多个语义子文本标注词性。

步骤s204、根据所述多个语义子文本和所述词性,基于意向图构建所述语义文本的语义网;

本发明实施例所采用的是意象图式的语域表达形式,语域是一种认知语境,用它来表现语义单位特点或描写概念特征。例如,定义“手指”的时候,必须要提及“手”,定义“手”的时候,必须要提及“胳膊”,因此,“手”是“手指”的语域;“胳膊”是“手”的语域,最终,“空间”、“时间”和“运动”是“身体”的语域,因为“身体”在时间和空间中存在和运动。因此,可以根据意象图式的语域表达形式构建语义文本的语义网。

其中,语义网是一种理想的网状结构,用以描述词语和概念的相互关系,语义网中具有多个网络节点,不同的网络节点所组成的网络路径所表示的语义不同。

语义网中具有多个节点,本发明实施例通过多个语义子文本和子文本的词性确定语义网中的多个节点,并进一步构建语义网。

步骤s205、获取所述语义网的向量空间与本体数据库中的各标准文本的向量空间的距离差;

本体数据库中的本体又可以称为熟语料,该熟语料是将生语料、按照本体数据库中的定义规则转换得来

其中,本体包括单个本体和标准文本,单个本体指的是可以构成语句的单个本体,而标准文本则指的是由单个本体组成的语句。

其中,生语料指的是预先通过网络节点上的自动爬虫从各网站抓取的文本信息,将抓取的文本信息转换为符合所述定义规则的文本后,即可获得对应的熟语料,之后将熟语料存储至本体数据库中,即可获得本体数据库中的本体。

步骤s206、从所述距离差中确定最小距离差;

步骤s207、将与所述最小距离差对应的标准文本作为与所述语义文本对应的标准文本;

本体数据库中存在着各种语义的标准表达形式,如针对“你吃饭了吗”这一标准文本,其所对应的待分析的语义文本可以有多种,如“吃了吗”“你吃了呗”等等,根据方言和生活习惯的不同,待分析的语义文本和标准文本的表达形式千差万别。

需要说明的是,即使表达“你吃饭了吗”语义的待分析文本与标准文本相差甚多,那么待分析文本与标准文本的空间向量的距离差仍然小于该待分析文本与其他标准文本的空间向量的距离差,该其他标准文本与标准文本表达的语义不同,例如,其他标准文本可以为“我乘火车去北京”。

当构建完待分析的语义文本的语义网后,获取该语义网的空间向量以及本体数据库中各标准文本所对应的语义网的空间向量,并获取两个空间向量的距离差。

根据空间向量的最小距离差可以确定与待分析语义文本最接近的标准文本。

步骤s208、输出与确定的标准文本对应的答案。

当确定与待分析文本最接近的标准文本后,可以依据确定的标准文本向用户输出答案。

本发明实施例提供的技术方案,获取待分析的语义文本,基于意象图式构建语义文本的语义网,获取语义网的向量空间与本体数据库中的各标准文本的向量空间的距离差,并根据距离差确定与语义文本对应的标准文本。本发明实施例提供的方案,无需针对同一语义预先存储多种表达形式,且也不需要预先为不同的场景配置不同的模板,语义理解效率高。

请参阅图3,图3为本发明实施例提供的语义理解装置的一种结构示意图,该装置结构示意图中的各单元的工作过程参照图1对应的实施例中方法的执行过程,该装置包括:

第一获取单元310,用于获取待分析的语义文本;

构建单元320,用于基于意向图式构建所述语义文本的语义网;

第二获取单元330,用于获取所述语义网的向量空间与本体数据库中的各标准文本的向量空间的距离差;

确定单元340,用语言根据所述距离差确定与所述语义文本对应的标准文本。

本发明实施例提供的技术方案,获取待分析的语义文本,基于意象图式构建语义文本的语义网,获取语义网的向量空间与本体数据库中的各标准文本的向量空间的距离差,并根据距离差确定与语义文本对应的标准文本。本发明实施例提供的方案,无需针对同一语义预先存储多种表达形式,且也不需要预先为不同的场景配置不同的模板,语义理解效率高。

请参阅图4,图4为本发明实施例提供的语义理解装置的一种结构示意图,该装置结构示意图中的各单元的工作过程参照图3对应的实施例中方法的执行过程,该装置包括:

第一获取单元410,用于获取待分析的语义文本;

分词单元420,用于基于意向图构建所述语义文本的语义网之前,按照所述本体数据库中对单个本体的定义规则,对所述语义文本进行分词,以获得多个语义子文本;

标注单元430,用于分别标注所述多个语义子文本的词性;

构建子单元440,用于根据所述多个语义子文本和所述词性,基于意向图构建所述语义文本的语义网

第二获取单元450,用于获取所述语义网的向量空间与本体数据库中的各标准文本的向量空间的距离差;

第一确定子单元460,用于从所述距离差中确定最小距离差;

第二确定子单元470,用于将与所述最小距离差对应的标准文本作为与所述语义文本对应的标准文本。

输出单元480,用于输出与确定的标准文本对应的答案。

本发明实施例提供的技术方案,获取待分析的语义文本,基于意象图式构建语义文本的语义网,获取语义网的向量空间与本体数据库中的各标准文本的向量空间的距离差,并根据距离差确定与语义文本对应的标准文本。本发明实施例提供的方案,无需针对同一语义预先存储多种表达形式,且也不需要预先为不同的场景配置不同的模板,语义理解效率高。

对于装置或系统实施例而言,由于其基本相应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置或系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,在没有超过本发明的精神和范围内,可以通过其他的方式实现。当前的实施例只是一种示范性的例子,不应该作为限制,所给出的具体内容不应该限制本发明的目的。例如,所述单元或子单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或多个子单元结合一起。另外,多个单元可以或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。

另外,所描述系统,装置和方法以及不同实施例的示意图,在不超出本发明的范围内,可以与其它系统,模块,技术或方法结合或集成。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

以上所述仅是本发明的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1