语句分析的方法及装置与流程

文档序号:18620548发布日期:2019-09-06 22:26阅读:183来源:国知局
语句分析的方法及装置与流程

本发明涉及语言处理技术领域,尤其涉及一种语句分析的方法及装置。



背景技术:

随着技术的不断进步,人机间的语言交流已逐步走进人们的生活,也正因如此对于用户的语言的处理和解析已逐步为人们所重视,例如,在大数据搜索或者聊天回复等场景中,在用户输入了语句后,机器需要对该语句进行语义分析,并根据相应的语义来反馈与该语义对应的搜索结果或者进行聊天回复。

目前,在现有的语句分析过程中,往往都是基于语句的主要词语进行分析的,然而,在实际应用中,用户所输入的语句中不仅仅包含关键词,还有非关键词部分,而在基于现有的通过关键词进行语义分析的过程中,极易受到此部分非关键词的干扰,从而影响语句分析的准确性。



技术实现要素:

鉴于上述问题,本发明提出了一种语句分析的方法及装置,主要目的在于解决在现有的语句分析过程中,语义分析的结果易受到非关键词的干扰,从而导致语句分析的准确性易受影响的问题,提高语句分析结果的准确性。

为达到上述目的,本发明主要提供如下技术方案:

一方面,本发明提供一种语句分析的方法,具体包括:

从待分析语句中获取基本词汇;

分别对所述基本词汇及待分析语句进行特征提取,得到对应每个基本词汇的词特征以及待分析语句的语句特征;

根据所述每个基本词汇的词特征以及所述待分析语句的语句特征,确定所述待分析语句中的非关键词汇;

将所述非关键词汇从所述待分析语句中剔除,以便对剔除非关键词汇后的待分析语句进行分析。

优选的,所述从待分析语句中获取基本词汇包括:

对所述待分析语句进行分词操作,得到所述基本词汇。

优选的,所述分别对所述基本词汇及待分析语句进行特征提取,得到对应每个基本词汇的词特征以及待分析语句的语句特征包括:

确定每个基本词汇的词向量;以及

确定所述待分析语句的语句向量。

优选的,所述根据所述每个基本词汇的词特征以及所述待分析语句的语句特征,确定所述待分析语句中的非关键词汇,包括:

根据所述每个基本词汇的词向量,分别与所述待分析语句的语句向量进行计算,确定每个基本词汇对于所述待分析语句的重要程度,并根据每个基本词汇的重要程度,确定所述待分析语句中的非关键词汇。

优选的,所述根据所述每个基本词汇的词向量,分别与所述待分析语句的语句向量进行计算,确定每个基本词汇对于所述待分析语句的重要程度,并根据每个基本词汇的重要程度,确定所述待分析语句中的非关键词汇,包括:

将所述每个基本词汇的词向量与所述待分析语句的语句向量进行点乘操作,得出对应每个基本词汇的权重值;

根据所述权重值,确定每个基本词汇对于所述待分析语句的重要程度,所述权重值与重要程度呈正相关;

根据所述重要程度,将重要程度低于预设阈值的基本词汇确定为非关键词汇。

另一方面,本发明提供一种语句分析的装置,具体包括:

获取单元,用于从待分析语句中获取基本词汇;

处理单元,用于分别对所述基本词汇及待分析语句进行特征提取,得到对应每个基本词汇的词特征以及待分析语句的语句特征;

确定单元,用于根据所述每个基本词汇的词特征以及所述待分析语句的语句特征,确定所述待分析语句中的非关键词汇;

分析单元,用于将所述非关键词汇从所述待分析语句中剔除,以便对剔除非关键词汇后的待分析语句进行分析。

优选的,所述获取单元包括:

处理模块,用于对所述待分析语句进行分词操作,得到所述基本词汇。

优选的,所述处理单元包括:

第一确定模块,用于确定每个基本词汇的词向量;

第二确定模块,用于确定所述待分析语句的语句向量。

优选的,所述确定单元,具体用于根据所述每个基本词汇的词向量,分别与所述待分析语句的语句向量进行计算,确定每个基本词汇对于所述待分析语句的重要程度,并根据每个基本词汇的重要程度,确定所述待分析语句中的非关键词汇。

优选的,所述确定单元包括:

计算模块,用于将所述每个基本词汇的词向量与所述待分析语句的语句向量进行点乘操作,得出对应每个基本词汇的权重值;

第一确定模块,用于根据所述权重值,确定每个基本词汇对于所述待分析语句的重要程度,所述权重值与重要程度呈正相关;

第二确定模块,用于根据所述重要程度,将重要程度低于预设阈值的基本词汇确定为非关键词汇。

另一方面,本发明提供一种计算机可读存储介质,其中,所述计算机可读存储介质上存储有计算机程序,其中,所述计算机程序被一个或多个计算装置执行时实现上述的语句分析的方法。

另一方面,本发明提供一种包括一个或多个计算装置和一个或多个存储装置的系统,所述一个或多个存储装置上记录有计算机程序,所述计算机程序在被所述一个或多个计算装置执行时使得所述一个或多个计算装置实现上述的语句分析的方法。

借由上述技术方案,本发明提供的一种语句分析的方法及装置,能够提高语句分析结果的准确性。相对现有的基于语句分析过程中,语句的语义分析时存在非关键词汇的干扰的问题,本发明能够从待分析语句中获取基本词汇,然后分别对所述基本词汇及待分析语句进行特征提取,得到对应每个基本词汇的词特征以及待分析语句的语句特征,之后根据所述每个基本词汇的词特征以及所述待分析语句的语句特征,确定所述待分析语句中的非关键词汇,最后将所述非关键词汇从所述待分析语句中剔除,以便对剔除非关键词汇后的待分析语句进行分析,从而实现对语句的分析,相较于现有的分析方式,本发明通过对词汇特征和语句特征确定待分析语句中的非关键词汇,从而在进行语句分析时将非关键词汇进行剔除,继而确保了后续分析时,排除了非关键词汇对语句的分析时的干扰,提高了语句分析结果的准确性。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1示出了本发明实施例提出的一种语句分析的方法的流程图;

图2示出了本发明实施例提出的另一种语句分析的方法的流程图;

图3示出了本发明实施例提出的一种语句分析的装置的组成框图;

图4示出了本发明实施例提出的另一种语句分析的装置的组成框图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。

本发明实施例提供了一种语句分析的方法,该方法用于在对语句进行分析的过程中,排除非关键词对语句分析时的干扰,解决了现有的语句的分析过程中因非关键词干扰语句的分析结果准确性较低的问题。本方法具体步骤如图1所示,包括:

101、从待分析语句中获取基本词汇。

基于现有的语句分析过程是通过对待分析语句中的每个词汇进行的,因此,在本发明实施例中,当确定了待分析语句时,则需要从待分析语句中获取该语句中的基本词汇,所述基本词汇可以理解为将语句中进行拆分后得到的语句中每一个最基本的词汇。

例如,当待分析语句为“我觉得这件衣服不错”,则根据本步骤所述的方法从该待分析语句中获取基本词汇后得到的基本词汇可以包括:“我觉得”“这件”、“衣服”、“不错”。

在此需要说明的是,在本步骤中在从待分析语句中获取基本词汇时的方式可以通过现有的任一种方式进行,例如可以通过对待分析语句进行分词操作来得到所述基本词汇。当然,还可以采用其他任一种方式进行,本步骤所述的方法仅为示例性的,在此并不做具体的限定。

102、分别对所述基本词汇及待分析语句进行特征提取,得到对应每个基本词汇的词特征以及待分析语句的语句特征。

由于在日常的交互过程中,语句中的每个词汇的含义和句子的整体含义之间并不相同,因此,在语句分析的过程中,需要对上述步骤中得到的基本词汇的词特征及语句的语句特征进行提取。其中,词特征可以理解为能够表征基本词汇含义或情绪倾向的特征,而语句特征则可以理解为能够表征语句整体的含义或情绪倾向的特征,在此,对于词特征及语句特征的种类不做具体的限定,可以根据实际需要选取词特征、语句特征的具体种类及对应的提取方式。但需要说明的是,为了确保后续词特征及语句特征之间的对比的实现,在本发明实施例中需要确保所提取的词特征与提取的语句特征之间是相同一类的特征。例如,当所提取的词特征为基础词汇的词向量时,则提取的语句特征为对应词向量的语句向量。

103、根据所述每个基本词汇的词特征以及所述待分析语句的语句特征,确定所述待分析语句中的非关键词汇。

基于前述步骤102中得到了基本词汇的词特征及语句的语句特征,基于词特征及语句特征是能够用来表征词汇及语句的特征,因此在本步骤汇总可以通过特征间的对比,将语句中的每个基本词汇的词特征与整个语句对应的语句特征进行对此,从而基于特征间的区别程度的不同,将其中的词特征与语句特征之间相似度较小,或区别较大的基本词汇确定为这个语句中的非关键词汇。例如,当所选取的词特征为词向量,语句特征为语句向量时,则可以根据词向量与语句向量间的相似度进行对比,从而将二者之间相似度小于一定阈值的,确定为非关键词汇。

104、将所述非关键词汇从所述待分析语句中剔除,以便对剔除非关键词汇后的待分析语句进行分析。

在确定了待分析语句中的非关键词汇后,则说明这些非关键词汇对于分析待分析语句时是不必要的考虑的,因此,为了避免这些非关键词汇对待语句分析时的影响,则可以在本步骤中将上述非关键词汇从待分析语句中进行剔除,继而得到剔除了非关键词后的待分析语句,并以此语句进行语句的分析,从而能够提高整个语句分析时的准确性。

作为图1所述的语句分析的方法进行进一步的扩展和延伸,本发明实施例还提供了另一种语句分析的方法,其过程如图2所示,具体步骤包括:

201、从待分析语句中获取基本词汇。

具体的,在本发明实施例中,在从待分析语句中获取基本词汇时,其具体的执行过程中可以通过分词操作进行,因此,本步骤具体获取基本词汇的方式可以为:对所述待分析语句进行分词操作,得到所述基本词汇。

202、分别对所述基本词汇及待分析语句进行特征提取,得到对应每个基本词汇的词特征以及待分析语句的语句特征。

其中,在实际操作的过程中,为了确保后续分析时的准确性,在本发明实施例中提取词特征及语句特征的具体方式可以是通过对基本词汇及待分析语句进行基于向量化的操作进行特征提取,因此,本步骤执行时的方式可以包括:首先,确定每个基本词汇的词向量。然后确定所述待分析语句的语句向量。当然,在本发明实施例中,对于词向量及语句向量的确定过程之间并没有先后顺序,二者也可以同时进行。

203、根据所述每个基本词汇的词特征以及所述待分析语句的语句特征,确定所述待分析语句中的非关键词汇。

具体的,本步骤可以为:根据所述每个基本词汇的词向量,分别与所述待分析语句的语句向量进行计算,确定每个基本词汇对于所述待分析语句的重要程度,并根据每个基本词汇的重要程度,确定所述待分析语句中的非关键词汇。其中,所述重要程度可以理解为基于词向量及语句向量间计算记过确定的。

进一步的,在根据每个基本词汇的重要程度,确定所述待分析语句中的非关键词汇时,其执行方式可以按照下述方式进行:

首先,将所述每个基本词汇的词向量与所述待分析语句的语句向量进行点乘操作,得出对应每个基本词汇的权重值。其中,点乘,在数学中,又称为数量积(dotproduct;scalarproduct,也称为点积)是接受在实数r上的两个向量并返回一个实数值标量的二元运算。它是欧几里得空间的标准内积。该操作的意义可以确定点乘操作的两个向量的相似性。因此,通过将词向量与语句向量之间进行点乘操作,其实质能够确定两个向量之间的相似度,因此,本步骤中得到的权重值即表征了每一个词向量与语句向量之间的相似程度。具体的,在进行点乘计算的过程中,其执行方式可以如下所示:

例如,当存在两个向量,向量a=[a1,a2,…,an]和向量b=[b1,b2,…,bn]时,则这两个向量之间进行点乘为:

a·b=a1b1+a2b2+……+anbn

在上述点乘公式中,其计算结果相当于两个向量之间的夹角的余弦值,即余弦值的域位于[-1,1],从数学角度来说,余弦值越大,说明a向量在b向量上的投影越大,继而说明这两个向量之间越相似,反之,当余弦值是-1时,则说明这两个向量的代表方向相反,不近似。

然后,根据所述权重值,确定每个基本词汇对于所述待分析语句的重要程度,所述权重值与重要程度呈正相关。基于权重值能够表征词向量与语句向量之间的相似程度,因此,相似程度的高低能够直观的体现出该词向量所对应的基本词汇对于该待分析语句的重要程度。

最后,根据所述重要程度,将重要程度低于预设阈值的基本词汇确定为非关键词汇。这样,能够通过以向量间点乘操作的方式得到用以表征向量间相似度的权重值,并基于权重值确定每一个基本词汇对于待分析语句的重要程度,并以此确定其中的非关键词汇,能够以较为直观、准确的方式确定语句中的非关键部分,即非关键词汇,从而确保非关键词汇的确定的准确性,继而为整体上排除非关键词汇对待分析语句分析时的干扰奠定了基础。

204、将所述非关键词汇从所述待分析语句中剔除,以便对剔除非关键词汇后的待分析语句进行分析。

基于前述步骤203中确定了待分析语句中的非关键词汇,并且,这些非关键词汇在语句分析的过程中会对分析结果造成影响,因此,在确定了非关键词汇后,则可以将这些非关键词汇进行剔除,从而使得在对剔除了上述非关键词汇的待分析语句分析时,减少了非关键词汇对其分析结果的干扰,提高了分析时的准确性。

例如,当待分析语句为“我觉得挺好”时,则可以对其进行分词操作得到基本词汇“我觉得”、“挺好”。然后分别提取基本词汇的词向量得到“我觉得”的词向量a,“挺好”的词向量b,以及语句向量a。然后将词向量a与语句向量a之间点乘操作,得到权重值0.1,同时将词向量b与语句向量a之间点乘操作,得到权重值0.7。并根据权重值的大小,确定向量a对应的基本词汇“我觉的”的重要程度为低,确定向量b对应的基本词汇“挺好”的重要程度为高。再根据重要程度的高低,将基本词汇“我觉得”确定为非关键词汇,并将该非关键词汇“我觉得”从待分析语句“我觉得挺好”中剔除,得到剔除后的待分析语句为“挺好”。并基于剔除了非关键词汇后的待分析语句“挺好”进行语句分析

又例如,在待分析语句1“我想吃苹果、橘子,还有其他各种各样的水果”及时待分析语句2“我想吃苹果”中,则在进行分词操作后,语句全集语句2中均可以得到的基本词汇“苹果”,但在根据本发明实施例所述的方法在对基于语句向量与词向量进行权重值确定时,语句1中的“苹果”的权重仅为0.2,而语句2中的“苹果”的权重为0.6,因此在待分析语句1中可以确定基础词汇“苹果”为非关键词汇,因此在对待分析语句1进行分析时是要将“苹果”进行剔除后分析,而在待分析语句2中“苹果”具有较高的权重,可以确定其并非是非关键词汇,因此在对待分析语句2进行分析时,则需要分析包含“苹果”的语句。

进一步的,作为对上述语句分析的方法的实现,本发明实施例提供了一种语句分析的装置,该装置主要用于解决在现有的语句分析过程中,语义分析的结果易受到非关键词的干扰,从而导致语句分析的准确性易受影响的问题,提高语句分析结果的准确性。为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。该装置如图3所示,具体包括:

获取单元31,可以用于从待分析语句中获取基本词汇;

处理单元32,可以用于分别对所述获取单元31获取的基本词汇及待分析语句进行特征提取,得到对应每个基本词汇的词特征以及待分析语句的语句特征;

确定单元33,可以用于根据所述处理单元32得到的每个基本词汇的词特征以及所述待分析语句的语句特征,确定所述待分析语句中的非关键词汇;

分析单元34,可以用于将所述确定单元33确定的非关键词汇从所述待分析语句中剔除,以便对剔除非关键词汇后的待分析语句进行分析。

进一步的,如图4所示,所述获取单元31包括:

处理模块311,可以用于对所述待分析语句进行分词操作,得到所述基本词汇。

进一步的,如图4所示,所述处理单元32包括:

第一确定模块321,可以用于确定每个基本词汇的词向量;

第二确定模块322,可以用于确定所述待分析语句的语句向量。

进一步的,如图4所示,所述确定单元33,可以具体用于根据所述每个基本词汇的词向量,分别与所述待分析语句的语句向量进行计算,确定每个基本词汇对于所述待分析语句的重要程度,并根据每个基本词汇的重要程度,确定所述待分析语句中的非关键词汇。

进一步的,如图4所示,所述确定单元33包括:

计算模块331,可以用于将所述每个基本词汇的词向量与所述待分析语句的语句向量进行点乘操作,得出对应每个基本词汇的权重值;

第一确定模块332,可以用于根据所述计算模块331计算的权重值,确定每个基本词汇对于所述待分析语句的重要程度,所述权重值与重要程度呈正相关;

第二确定模块333,可以用于根据所述第一确定模块332确定的重要程度,将重要程度低于预设阈值的基本词汇确定为非关键词汇。

进一步的,本发明实施例还提供了一种计算机可读存储介质,其中,所述计算机可读存储介质上存储有计算机程序,其中,所述计算机程序被一个或多个计算装置执行时实现上述的语句分析的方法。

另外,本发明实施例还提供了一种包括一个或多个计算装置和一个或多个存储装置的系统,所述一个或多个存储装置上记录有计算机程序,所述计算机程序在被所述一个或多个计算装置执行时使得所述一个或多个计算装置实现上述的语句分析的方法。

综上所述,本发明实施例提出的一种语句分析的方法及装置,能够提高语句分析结果的准确性。相对现有的基于语句分析过程中,语句的语义分析时存在非关键词汇的干扰的问题,本发明能够从待分析语句中获取基本词汇,然后分别对所述基本词汇及待分析语句进行特征提取,得到对应每个基本词汇的词特征以及待分析语句的语句特征,之后根据所述每个基本词汇的词特征以及所述待分析语句的语句特征,确定所述待分析语句中的非关键词汇,最后将所述非关键词汇从所述待分析语句中剔除,以便对剔除非关键词汇后的待分析语句进行分析,从而实现对语句的分析,相较于现有的分析方式,本发明通过对词汇特征和语句特征确定待分析语句中的非关键词汇,从而在进行语句分析时将非关键词汇进行剔除,继而确保了后续分析时,排除了非关键词汇对语句的分析时的干扰,提高了语句分析结果的准确性。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

可以理解的是,上述方法及装置中的相关特征可以相互参考。另外,上述实施例中的“第一”、“第二”等是用于区分各实施例,而并不代表各实施例的优劣。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

此外,存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram),存储器包括至少一个存储芯片。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1