一种获取多指标问题答案的方法及装置与流程

文档序号:20029816发布日期:2020-02-28 10:15阅读:214来源:国知局
一种获取多指标问题答案的方法及装置与流程

本发明涉及自然语言处理技术领域,具体而言,涉及一种获取多指标问题答案的方法及装置。



背景技术:

目前,主流的金融问题搜索方法是基于关键字匹配的数据库检索技术。数据库中保存了海量的字段与数据,当用户提问时,使用传统分词算法提取出问题的关键词后,根据关键词进入数据库查询,找到结果。

这种搜索技术主要存在以下的问题和缺点:

基于关键词匹配的结果会展示所有含有关键词的大量文件,需要人工从答案中阅读和筛选,效率低。且基于关键词匹配,无法对问题进行理解,难以展示精确的答案,返回结果经常只具有相关性,但不能确切回答问题。此外,现有检索方式一般只支持一个指标的检索,在需要同时检索多个指标时检索效果略差。



技术实现要素:

为解决上述问题,本发明实施例的目的在于提供一种获取多指标问题答案的方法及装置。

第一方面,本发明实施例提供了一种获取多指标问题答案的方法,包括:

获取用户输入的问题信息,所述问题信息包括多个具有相同属性的指标;

基于多模态模型对所述问题信息进行分词处理,确定分词结果,并提取出所述问题信息中的多个指标,所述多模态模型包括词模型、字符模型、拼音模型、字形模型中的至少两项;

根据分词结果建立词与词之间的依存关系,并根据所述依存关系将所述问题信息转换为每个指标对应的机器语言形式的查询语句;

根据所述查询语句查询相应的数据库,确定每个指标所对应的查询结果,并在同一坐标系下显示所有指标的查询结果。

第二方面,本发明实施例还提供了一种获取多指标问题答案的装置,包括:

问题获取模块,用于获取用户输入的问题信息,所述问题信息包括多个具有相同属性的指标;

分词模块,用于基于多模态模型对所述问题信息进行分词处理,确定分词结果,并提取出所述问题信息中的多个指标,所述多模态模型包括词模型、字符模型、拼音模型、字形模型中的至少两项;

处理模块,用于根据分词结果建立词与词之间的依存关系,并根据所述依存关系将所述问题信息转换为每个指标对应的机器语言形式的查询语句;

查询显示模块,用于根据所述查询语句查询相应的数据库,确定每个指标所对应的查询结果,并在同一坐标系下显示所有指标的查询结果。

本发明实施例上述第一方面提供的方案中,基于多模态模型对用户输入的问题信息进行分词处理,可以提取出具有相同属性的多个指标,并建立词与词之间的依存关系;根据依存关系将问题信息转换为机器语言形式的查询语句,从而利用查询语句快速确定每个指标的查询结果,并同时显示多个指标的查询结果。该方法基于多模态模型进行分词处理,可以基于多模态更加精准地进行语义分析,使得分词结果更加准确;基于词与词的依存关系可以更加完整全面地刻画句子的语义信息,使得查询语句更加精确,进而可以查询到更加准确的结果,提高了查询的准确率;通过提取具有相同属性的指标,并将问题信息转换为每个指标对应的查询语句,可以简化原始的问题信息,更有利于精确查询到每个指标对应的查询结果;同时显示所有指标的查询结果也方便用户对指标间的查询结果进行对比。

为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1示出了本发明实施例所提供的一种获取多指标问题答案的方法的流程图;

图2示出了本发明实施例所提供的获取多指标问题答案的方法中,基于多模态模型进行分词处理的具体方法的流程图;

图3示出了本发明实施例所提供的双向长短记忆递归神经网络模型示意图;

图4示出了本发明实施例所提供的基于stack-lstm的句法依存树模型示意图;

图5示出了本发明实施例所提供的查询结果的显示示意图;

图6示出了本发明实施例所提供的获取多指标问题答案的装置的结构示意图。

具体实施方式

在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。

此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。

在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。

本发明实施例提供的一种获取多指标问题答案的方法,用于查询多指标问题的答案。参见图1所示,该方法包括:

步骤101:获取用户输入的问题信息,该问题信息包括多个具有相同属性的指标。

本发明实施例中,“问题信息”指的是用户需要查询时所输入的信息,该问题信息不需要必须是问句形式的。比如,用户需要查询中国gdp时,可以只输入“中国gdp”,也可以输入问句形式的“中国gdp是多少”。同时,该问题信息包括一个或多个指标。本实施例中,“指标”为该问题信息中包含的内容;例如,问题信息为“中国的gdp”,则该问题信息中包含两个指标“中国”和“gdp”。同时,指标具有相应的属性,该属性包括语义属性(比如人名、地名)、语法属性(比如主语、形容词)等,本实施例对此不做限定。若该问题信息中包含多个指标,且其中的部分或全部指标具有相同的属性,则该问题信息即为多指标问题,用户需要查询多指标问题时,该查询过程适用于本发明实施例。例如,问题信息为“中国、美国和日本的gdp”,其中包含四个指标,即“中国”、“美国”、“日本”、“gdp”,而“中国”、“美国”、“日本”均是国家名称,这三个指标具有相同的属性,则该问题为一个多指标问题。或者,问题信息为“中国的人均gdp和人均钢材消耗量”,该问题信息包括“中国”、“人均gdp”、“人均钢材消耗量”三个指标,其中的“人均gdp”和“人均钢材消耗量”均是由“中国”限定的名词,则可认为“人均gdp”和“人均钢材消耗量”是具有相同属性的两个指标。

步骤102:基于多模态模型对问题信息进行分词处理,确定分词结果,并提取出问题信息中的多个指标,该多模态模型包括词模型、字符模型、拼音模型、字形模型中的至少两项。

本发明实施例中基于词、字符、拼音、字形生成多模态模型,通过多维度进行自然语言处理,相对于传统仅仅基于字符的处理方式具有更高的准确度。具体的,“词”指的是基于传统分词模型所确定的分词;“字符”指的是语言中的基本信息,比如一个汉字为一个字符等;“拼音”为汉字特有的属性,每个汉字的发音在一定程度上也包含了其语义信息,比如多音字等;“字形”指的是属于象形文字类的文字字形,比如汉字,每个汉字的形状也可以包含特定的语义。例如,原文是“我是一个中国人”,基于“词”处理后可以分为“我/是/一个/中国人”;基于“字符”处理后可以分为“我/是/一/个/中/国/人”;基于“拼音”处理后可以分为“wo/shi/yi/ge/zhong/guo/ren”;基于“字形”可以将每个字符映射为一个汉字图片,之后再进行相应的处理。

其中,多模态模型中所包含的一个模型用于基于相应的参数进行语义分析处理,比如多模态模型中的“词模型”用于基于“词”进行语义分析;最后基于多模态模型中的所有模型(比如词模型、字符模型、拼音模型、字形模型)最终确定最合适最准确的分词结果。

同时,根据分词处理过程以及分词结果可以每个分词的属性,并确定哪些分词具有相同的属性;在确定某些分词具有相同的属性时,即可将该种分词作为具有相同属性的指标。一般情况下,一个指标包含一个或多个分词。比如指标“gdp”包含一个分词“gdp”,而指标“人均钢材消耗量”可以包含三个分词“人均”、“钢材”、“消耗量”。其中,指标中所包含的分词数量具体根据实际情况以及分词方式而定。例如,也可以将“人均钢材消耗量”作为一个分词,其此时也对应一个指标。

步骤103:根据分词结果建立词与词之间的依存关系,并根据依存关系将问题信息转换为每个指标对应的机器语言形式的查询语句。

本发明实施例中,具体可以基于深度学习模型建立词与词之间的依存关系,通过该依存关系可以揭示问题信息的句法结构,即依存句法(dependencyparsing),进而可以将问题信息分析成一颗依存关系句法树,并将自然语言翻译成机器能够理解的查询语句。同时,由于问题信息包含多个具有相同属性的指标,此时可以以该指标为单位生成查询语句,即一个指标对应一个查询语句。例如,问题信息为“中国、美国和日本的gdp”,本实施例中将该问题信息转换为三个查询语句,分别是“中国gdp”、“美国gdp”和“日本gdp”。

步骤104:根据查询语句查询相应的数据库,确定每个指标所对应的查询结果,并在同一坐标系下显示所有指标的查询结果。

本发明实施例中,预先设置相应的数据库供用户查询;具体的,对于金融问题,可以通过多种方式(比如网络爬取等)获取金融文本,进而生成与金融数据相关的数据库。在确定查询语句后即可查询该数据库,进而提取出每个指标相对应的查询结果并显示,供用户查阅。同时,在同一个坐标系下显示所有具有相同属性的指标的查询结果,可以方便用户对指标间的查询结果进行对比。其中,同一坐标系指的是坐标系的横轴、纵轴相同。

本发明实施例提供的一种获取多指标问题答案的方法,基于多模态模型对用户输入的问题信息进行分词处理,可以提取出具有相同属性的多个指标,并建立词与词之间的依存关系;根据依存关系将问题信息转换为机器语言形式的查询语句,从而利用查询语句快速确定每个指标的查询结果,并同时显示多个指标的查询结果。该方法基于多模态模型进行分词处理,可以基于多模态更加精准地进行语义分析,使得分词结果更加准确;基于词与词的依存关系可以更加完整全面地刻画句子的语义信息,使得查询语句更加精确,进而可以查询到更加准确的结果,提高了查询的准确率;通过提取具有相同属性的指标,并将问题信息转换为每个指标对应的查询语句,可以简化原始的问题信息,更有利于精确查询到每个指标对应的查询结果;同时显示所有指标的查询结果也方便用户对指标间的查询结果进行对比。

在上述实施例的基础上,参见图2所示,上述步骤102“基于多模态模型对问题信息进行分词处理”包括步骤1021-1025:

步骤1021:通过预设的分词模型确定初始分词结果,并以词为基本单元确定问题信息的第一语义。

本发明实施例中,该分词模型可以采用现有的分词模型,比如汉语分词器等。基于该初始分词结果,以词为基本单元建立词模型,该词模型具体可以为长短记忆神经网络模型(lstm),基于该词模型即可确定问题信息的语义。例如,对于句子“我是一个中国人”,该词模型的输入为“我/是/一个/中国人”,并输出相应的语义。

步骤1022:确定问题信息的所有字符,并以字符为基本单元确定问题信息的第二语义。

传统分词模型仅仅以词作为语言单元,该种模型忽略了字符层面上的中文语义;本发明实施例中,以字符为基本单元建立字符模型,该字符模型具体也可采用长短记忆神经网络模型;基于该字符模型即可处理句子层面的语义。例如,对于句子“我是一个中国人”,字符模型的输入为“我/是/一/个/中/国/人”。

步骤1023:确定与每个字符所对应的拼音,确定每个拼音的拼音向量,并通过卷积神经网络确定与拼音向量相对应的第一字符向量,进而以字符为基本单元、根据第一字符向量确定问题信息的第三语义。

由于汉字具有表音属性,即每个字的发音一定程度上包含了其语义信息,故本发明实施例中,将每个汉字映射成汉语拼音,每一个拼音字符被一个向量所代表,然后通过卷积神经网络(cnn)基于拼音向量得到字符向量,即第一字符向量,随后再通过另外一层长短记忆神经网络(lstm)将字符的语义组合成句子的语义。例如,对于句子“我是一个中国人”,输入为“wo/shi/yi/ge/zhong/guo/ren”。

步骤1024:为每个字符生成相应的字形图片,并将字形图片转换为相应的第二字符向量,进而以字符为基本单元、根据第二字符向量确定问题信息的第四语义。

本发明实施例中,由于汉字属于象形文字,每个汉字的形状包含了丰富的语义,故增加字形模型,将每个汉字视作一个图片,用机器视觉中的卷积神经网络将每一个字形图片变化成向量。这样一来,汉字的图形含义便被涵盖,随后再通过另外一层长短记忆神经网络(lstm)将字符的语义组合成句子的语义。

步骤1025:根据第一语义、第二语义、第三语义和第四语义综合确定问题信息的语义信息,并根据语义信息对问题信息进行分词处理,确定最终的分词结果,并提取出问题信息中的多个具有相同属性的指标。

本发明实施例中,基于词、字、拼音、字形多模态中文自然语言处理模型确定综合的语义,最后用基于注意力(attention)的神经网络系统确定四个不同的模型的重要性或权重,确定最终的处理结果。其中,对于整个多模态模型来说,第一语义、第二语义、第三语义和第四语义是中间处理结果,可以不向用户展示,即该多模态模型将问题信息转换为相应的词、字符、拼音、字形后作为模型输入,进而可以得出最终的分词结果。同时,根据分词处理过程以及分词结果可以每个分词的属性,并确定哪些分词具有相同的属性;在确定某些分词具有相同的属性时,即可将该种分词作为具有相同属性的指标。

在上述实施例的基础上,在步骤102“基于多模态模型对问题信息进行分词处理”之后,该方法还包括:

根据分词结果对问题信息进行语义理解处理,根据语义理解处理结果判断是否需要对问题信息进行改写,并在需要改写时修正问题信息。

本发明实施例中,由于某些金融方面的问题会涉及专业术语,若必须由用户手动输入准确问题则对用户的专业水平要求较高,且费时费力,故本实施例中基于语义理解处理来修正问题信息,使得后续生成的查询语句更加精确。例如,若用户输入的问题信息为“十年十倍股”,则可以将该问题改写为“过去十年前复权收盘价涨幅大于十倍的股票”等。

在上述实施例的基础上,基于多模态模型对问题信息进行分词处理包括:

基于多模态模型对问题信息进行分词处理,并基于预设的双向长短记忆递归神经网络模型对分词进行词性标注。

本发明实施例中,对问题信息进行分词处理的同时,还进行词性标注,具体可基于预设的双向长短记忆递归神经网络模型对分词进行词性标注。本实施例中,预先基于中文语料库训练双向语言模型(bi-directionallanguagemodel),然后运用所训练的语言模型对词向量进行初始化。词向量初始化后,用双向长短记忆递归神经网络模型获得每个单词位点的词向量,此词向量作为分类模型的输入决定每个词的词性标记。以“我是一个中国人”为例,对其进行词性标注的过程参见图3所示。

在上述实施例的基础上,步骤103中建立词与词之间的依存关系的过程具体可以基于栈-神经网络的shift-reduce算法实现,每一个步骤,算法运用一个分类器决定下一步的动作是shift还是reduce。算法用两个长短记忆神经网络对已经建立句法树的字符(stacklstm)和未建立句法树的字符(queuelstm)进行建模。基于stack-lstm的句法依存树模型参见图4所示。步骤103中,生成查询语句时,可以预先基于中文语料库训练双向语言模型,然后运用所训练的语言模型对词向量进行初始化。词向量初始化后,用双向长短记忆递归神经网络模型获得每个单词位点的词向量,此词向量作为分类模型的输入确定每个词的词性标记。之后基于栈-神经网络的shift-reduce算法建立词与词之间的依存关系,并根据依存关系将问题信息转换为每个指标对应的机器语言形式的查询语句。

在上述实施例的基础上,步骤104“在同一坐标系下显示所有指标的查询结果”包括:

确定问题信息中每个指标需要显示的参数,并确定与参数相应的显示方式,该显示方式包括曲线图、柱状图、饼状图、表格中的一项或多项;以该显示方式显示每个指标对应的参数。

本发明实施例中,对问题信息进行语义分析可以确定其中需要显示的参数。一般情况下,需要显示的参数是问题信息中最后的一个指标。例如,问题信息为“中国、美国和日本的gdp”,对于该问题信息,其需要显示的参数是“gdp”。同时,该参数可以以多种显示方式进行显示,本实施例中可以选取一种或多种显示方式。优选的,一个参数选取一种显示方式,且具有相同属性的指标所对应的参数也以相同的显示方式进行显示,以方便用户对比查看。以用户查询“中国、美国和日本的gdp”为例,显示查询结果的一种显示方式参见图5所示。图5中,曲线1表示美国gdp,曲线2表示中国gdp,曲线3表示日本gdp。

可选的,还可以确定每个指标的参数的变化率(比如同比增长率),在显示该参数的同时,还显示参数变化率。其中,参数变化率一般以折线图形式显示。

本发明实施例提供的一种获取多指标问题答案的方法,基于多模态模型对用户输入的问题信息进行分词处理,可以提取出具有相同属性的多个指标,并建立词与词之间的依存关系;根据依存关系将问题信息转换为机器语言形式的查询语句,从而利用查询语句快速确定每个指标的查询结果,并同时显示多个指标的查询结果。该方法基于多模态模型进行分词处理,可以基于多模态更加精准地进行语义分析,使得分词结果更加准确;基于词与词的依存关系可以更加完整全面地刻画句子的语义信息,使得查询语句更加精确,进而可以查询到更加准确的结果,提高了查询的准确率;通过提取具有相同属性的指标,并将问题信息转换为每个指标对应的查询语句,可以简化原始的问题信息,更有利于精确查询到每个指标对应的查询结果;同时显示所有指标的查询结果也方便用户对指标间的查询结果进行对比。在必要时基于语义对问题进行改写,以生成更加准确的查询语句。基于指标确定显示方式,并显示数据的变化率,方便用户查看查询结果。

以上详细介绍了获取多指标问题答案的方法流程,该方法也可以通过相应的装置实现,下面详细介绍该装置的结构和功能。

本发明实施例提供的一种获取多指标问题答案的装置,参见图6所示,包括:

问题获取模块61,用于获取用户输入的问题信息,所述问题信息包括多个具有相同属性的指标;

分词模块62,用于基于多模态模型对所述问题信息进行分词处理,确定分词结果,并提取出所述问题信息中的多个指标,所述多模态模型包括词模型、字符模型、拼音模型、字形模型中的至少两项;

处理模块63,用于根据分词结果建立词与词之间的依存关系,并根据所述依存关系将所述问题信息转换为每个指标对应的机器语言形式的查询语句;

查询显示模块64,用于根据所述查询语句查询相应的数据库,确定每个指标所对应的查询结果,并在同一坐标系下显示所有指标的查询结果。

在上述实施例的基础上,分词模块62包括:

词处理单元,用于通过预设的分词模型确定初始分词结果,并以词为基本单元确定问题信息的第一语义;

字符处理单元,用于确定问题信息的所有字符,并以字符为基本单元确定问题信息的第二语义;

拼音处理单元,用于确定与每个字符所对应的拼音,确定每个拼音的拼音向量,并通过卷积神经网络确定与拼音向量相对应的第一字符向量,进而以字符为基本单元、根据第一字符向量确定问题信息的第三语义;

字形处理单元,用于为每个字符生成相应的字形图片,并将字形图片转换为相应的第二字符向量,进而以字符为基本单元、根据第二字符向量确定问题信息的第四语义;

多模态分词单元,用于根据第一语义、第二语义、第三语义和第四语义综合确定问题信息的语义信息,并根据语义信息对问题信息进行分词处理,确定最终的分词结果,并提取出所述问题信息中的多个具有相同属性的指标。

在上述实施例的基础上,该装置还包括改写模块;

在分词模块62基于多模态模型对问题信息进行分词处理之后,改写模块用于根据分词结果对问题信息进行语义理解处理,根据语义理解处理结果判断是否需要对问题信息进行改写,并在需要改写时修正问题信息。

在上述实施例的基础上,分词模块62用于:

基于多模态模型对问题信息进行分词处理,并基于预设的双向长短记忆递归神经网络模型对分词进行词性标注。

在上述实施例的基础上,查询显示模块64用于:

确定所述问题信息中每个指标需要显示的参数,并确定与所述参数相应的显示方式,所述显示方式包括曲线图、柱状图、饼状图、表格中的一项或多项;

以所述显示方式显示每个指标对应的参数。

本发明实施例提供的一种获取多指标问题答案的装置,基于多模态模型对用户输入的问题信息进行分词处理,可以提取出具有相同属性的多个指标,并建立词与词之间的依存关系;根据依存关系将问题信息转换为机器语言形式的查询语句,从而利用查询语句快速确定每个指标的查询结果,并同时显示多个指标的查询结果。该方法基于多模态模型进行分词处理,可以基于多模态更加精准地进行语义分析,使得分词结果更加准确;基于词与词的依存关系可以更加完整全面地刻画句子的语义信息,使得查询语句更加精确,进而可以查询到更加准确的结果,提高了查询的准确率;通过提取具有相同属性的指标,并将问题信息转换为每个指标对应的查询语句,可以简化原始的问题信息,更有利于精确查询到每个指标对应的查询结果;同时显示所有指标的查询结果也方便用户对指标间的查询结果进行对比。在必要时基于语义对问题进行改写,以生成更加准确的查询语句。基于指标确定显示方式,并显示数据的变化率,方便用户查看查询结果。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1