信息处理系统及方法与流程

文档序号:12178202阅读:229来源:国知局
信息处理系统及方法与流程

本发明涉及人机交互技术领域,尤其涉及一种用于智能问答的信息处理系统及方法。



背景技术:

人机交互是研究系统与用户之间的交互关系的科学。系统可以是各种各样的机器,也可以是计算机化的系统和软件。例如,通过人机交互可以实现各种人工智能系统,例如,智能客服系统、语音控制系统等等。

智能问答系统是人机交互的一种典型应用,其中当用户提出问题后,智能问答系统给出该问题的答案。为此,智能问答系统中有一套知识库,里面有大量的问题和与每个问题相对应的答案。智能问答系统首先需要识别用户所提出的问题,即从知识库中找到与该用户问题所对应的问题,然后找出与该问题相匹配的答案。

知识库的配置至关重要。针对不同项目的智能问答系统需要配置不同的知识库,例如针对医疗行业和金融行业两个完全不同的项目需要配置不同的知识库。现有技术中都是采用人工的方式向该项目知识库中添加知识分类,即部署单独环境,在各个环境中分别录入所有所需的知识的方式来实现知识与所属项目的对应,这种人工实现成本高,效率低,最终减慢整个项目的进度。



技术实现要素:

以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。

本发明提供了一种信息处理系统及方法,以解决不同项目知识库录入知识人工实现成本高,效率低的问题。

一方面,本发明提供了一种信息处理方法,包括:

将知识库中的知识分组,以获得多个知识集,每个知识集与一知识类别相关联,每个知识集的知识点包括问句和相关联的答案,其中所述问句包括标准问及其扩展问;以及

依据账户所需的知识类别为账户指派所述多个知识集中的至少一个知识集,以用于来自该账户的用户问句的问句应答。

另一方面,本发明提供了一种信息处理系统,包括:

知识库,所述知识库中的知识用于为用户问句提供应答;

分组模块,用于将所述知识库中的知识分组,以获得多个知识集,每个知识集与一知识类别相关联,每个知识集的知识点包括问句和相关联的答案,其中所述问句包括标准问及其扩展问;以及

指派模块,用于为账户指派所述多个知识集中的至少一个知识集,以用于来自该账户的用户问句的问句应答。

与现有技术相比,本发明的有益技术效果为:通过将知识分为不同的知识类别的知识集,不同的项目可以使用公共的知识库,只需要按需为之指派知识集即可,大大提高了效率。通过自定义知识集,改善了识别准确率,因为用户自己提供的知识点往往具有较高的准确性和针对性,同时可以不断完善智能问答系统。

附图说明

在结合以下附图阅读本公开的实施例的详细描述之后,能够更好地理解本发明的上述特征和优点。在附图中,各组件不一定是按比例绘制,并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。

图1是示出了根据本发明的一方面的信息处理方法的流程图;

图2是示出了根据本发明的一方面的智能问答流程的流程图;以及

图3是示出了根据本发明的一方面的信息处理系统的框图。

具体实施方式

以下结合附图和具体实施例对本发明作详细描述。注意,以下结合附图和具体实施例描述的诸方面仅是示例性的,而不应被理解为对本发明的保护范围进行任何限制。

知识库中的基本知识点最原始和最简单的形式就是平时常用的FAQ,一般的形式是“问-答”对。在本发明中,“标准问”是用来表示某个知识点的文字,主要目标是表达清晰,便于维护。例如,“彩铃的资费”就是表达清晰的标准问描述。这里的“问”不应被狭义地理解为“询问”,而应广义地来理解一“输入”,该“输入”具有对应的“输出”。例如,对于用于控制系统的语义识别而言,用户的一个指令,例如“打开收音机”也应可以被理解为是一个“问”,此时对应的“答”可以是用于执行相应控制的控制程序的调用。

用户在向机器输入时,最理想的情况是使用标准问,则机器的智能语义识别系统马上能够理解用户的意思。然而,用户往往并非使用的是标准问,而是标准问的一些变形的形式。例如,若对于收音机的电台切换的标准问形式是“换一个电台”,那么用户可能使用的命令是“切换一个电台”,机器也需要能够识别用户表达的是同一个意思。

因此,对于智能语义识别而言,知识库里需要有标准问的扩展问,该扩展问与标准问表达形式有略微差异,但是表达相同的含义。

进一步,为了更准确、高效地识别用户问题,智能问答系统还发展出了抽象语义的概念。抽象语义是对本体类属性的进一步抽象。一个类别的抽象语义通过一组抽象语义表达式的集合来描述一类抽象语义的不同表达,为表达更为抽象的语义,这些抽象语义表达式在组成元素上进行了扩充。当这些扩充的元素一旦被赋予了相应的值就可以表达各种各样的具体语义。

每一个抽象语义表达式主要可包括缺失语义成分和语义规则词。缺失语义成分由语义成分符表示,当这些缺失的语义成分被填充了相应的值(即内容)后可以表达各式各样的具体语义。

抽象语义的语义成分符可包括:

[concept]:表示主体或客体成份的词或短语。

比如:“彩铃如何开通”中的“彩铃”

[action]:表示动作成分的词或短语。

比如:“信用卡如何办理”中的“办理”

[attribute]:表示属性成份的词或短语。

比如:“iphone有哪些颜色”中的“颜色”

[adjective]:表示修饰成分的词或短语。

比如:“冰箱哪个品牌便宜”中的“便宜”

一些主要的抽象语义类别示例有:

概念说明[concept]是什么

属性构成[concept]有哪些[attribute]

行为方式[concept]如何[action]

行为地点[concept]在什么地方[action]

行为原因[concept]为什么会[action]

行为预测[concept]会不会[action]

行为判断[concept]有没有[attribute]

属性状况[concept]的[attribute]是不是[adjective]

属性判断[concept]是不是有[attribute]

属性原因[concept]的[attribute]为什么这么[adjective]

概念比较[concept1]和[concept2]的区别在哪里

属性比较[concept1]和[concept2]的[attribute]有什么不同之处

问句在抽象语义层面的成份判断可以通过词性标注来做一般的评判,concept对应的词性为名词,action对应的词性为动词、attribute对应的词性为名词、adjective对应的是形容词。

以类别为“行为方式”的抽象语义[concept]如何[action]为例,该类别的抽象语义集合下可包括多条抽象语义表达式:

抽象语义类别:行为方式

抽象语义表达式:

a.[concept][需要|应该?][如何]<才[可以]?><进行?>[action]

b.{[concept]~[action]}

c.[concept]<的?>[action]<方法|方式|步骤?>

d.<有哪些|有什么|有没有><通过|用|在>[concept][action]<的?>[方法]

e.[如何][action]~[concept]

上述a、b、c、d四个抽象语义表达式都是用来描述“行为方式”这一抽象语义类别的。符号“|”表示“或”关系,符号“?”表示该成分可有可无。以上述抽象语义表达式c为例,可展开为以下的抽象语义表达:

c1.[concept]<的>[action]<方法>

c2.[concept]<的>[action]<方式>

c3.[concept]<的>[action]<步骤>

c4.[concept]<的>[action]

c5.[concept][action]<方法>

c6.[concept][action]<方式>

c7.[concept][action]<步骤>

c8.[concept][action]

在上述抽象语义表达式中,除了作为缺失语义成分的抽象的语义成分符之外,其他出现的具体的词如“如何”、“应该”、“方法”等等,这些词需要在抽象语义规则中被使用,所以可统称为语义规则词。

以上介绍了智能问答系统中的一些基本概念。

本发明中,在一个公共的知识库中对知识进行分类,使得不同应用场景的项目按需调用相应类别的知识,从而实现不同应用场景的项目之间对一个公共知识库的共用。以此方式,运营人员只需要对一个知识库进行部署和维护,而不需要分别针对不同的项目单独部署和维护不同的知识库,大大节省了人力物力。另外,本发明还允许用户自己定义知识点以制备专用于该用户自己的自定义知识集,从而提升问答准确率。

图1是示出了根据本发明的一方面的信息处理方法100的流程图。该信息处理方法100可用于智能问答系统的知识库的部署和维护。

如图1所示,信息处理方法100可包括以下步骤:

步骤102:将知识库中的知识分组,以获得多个知识集,每个知识集与一知识类别相关联。每个知识集的知识点包括问句和相关联的答案,其中问句包括标准问及其扩展问。

知识的分组以知识的类别为基础,不同知识类别的知识点被分为不同的知识集。这里的“知识类别”可以是管理员希望用来对知识进行区分的任何类别。作为示例,知识类别可以包括景点知识类、酒店知识类、公交线路知识类等等。

步骤104:依据账户所需的知识类别为账户指派这多个知识集中的至少一个知识集,以用于来自该账户的用户问句的问句应答。

这里的“账户”与不同的应用领域的应用相对应,为每个应用指派一个账户。例如针对为旅游局的项目开发的应用,为其指派一个账户,针对为民政局的项目开发的应用,为其指派一个账户。以此方式,可基于账户来管理不同应用所用到的知识。这里的“应用”可以是智能问答系统的具体应用程序,该应用可以是基于网页版的网页程序,也可以是用于移动操作系统的APP。

知识库中按照知识类别具有许多的知识集,不同的账户,即与该账户所对应的应用(例如,智能问答系统)需要用到不同的知识。因此,基于该账户所需的知识类别为之指派知识库中的至少一个知识集,以用于来自该账户的用户问句的问句应答。

举例而言,针对与旅游局项目相关联的账户,为之指派与旅游相关的知识类别的知识集,例如知识集A、B、C、D。针对与民政局项目相关联的账户,为之指派与民政设施相关的知识类别的知识集,例如知识集C、D、E、F。

这里,知识集A、B、C、D的知识类别可以是与旅游相关的,知识集C、D、E、F的知识类别可以是与民政设施相关的。

在本发明中,为不同账户所指派的知识集中可能有公共的知识集。例如,如前所述,为第一账户(旅游局项目)指派的知识集A、B、C、D与为第二账户(民政局项目)指派的知识集C、D、E、F之间存在公共的知识集C、D。

这是因为该公共的知识集C、D的知识类别可能同时与这两个账户的应用领域相关。知识集C的知识类别可能为酒店知识类,知识集D的知识类别可能为公交线路类。这两个知识类别的知识既属于与旅游相关的信息,也属于与地方政府的民政设施相关的信息。

往往不同的项目之间可能会用到相同的知识,按照传统方式,需要为每个项目部署独立的知识库,其中涉及大量知识的重复部署。在本发明中,通过将知识分为不同的知识类别的知识集,不同的项目可以使用公共的知识库,只需要按需为之指派知识集即可,大大提高了效率。

根据本发明的另一方面,可基于由用户针对一账户提供的知识点制备用于该账户的自定义知识集,以用于来自该账户的用户问句的问句应答。这提供了知识点的用户自定义功能。

这里的“用户”可以是该账户所对应的应用的权利所有人,也可以是该账户的直接使用者。例如,对于为旅游局开发的应用(例如,一款与旅游相关的智能问答系统的APP),该“用户”可以是这款应用的权利所有人,即旅游局,也可以是这款应用的使用者,即游客。无论是旅游局还是游客都可以自行提供知识点,以不断完善这款应用。

可通过向用户提供接口来接收用户提供的知识点,例如在应用中提供一个专用于输入知识点的用户界面。用户输入的知识点可以是问句+答案的形式。

然而,用户提供的知识点往往并不能直接被用于智能问答系统。标准的用于智能问答系统的知识点包括标准问及其扩展问,如上所述的。因此,首先需要为用户提供的每一知识点建立该知识点的标准问。标准问的建立可以通过对用户提供的知识点中的问句进行编辑而成。

制备自定义知识集的关键在于为建立的标准问扩展出若干扩展问。

在本发明中,扩展问的生成借用了抽象语义表达式。为此,首先需要提供一个抽象语义数据库,其中包括多个抽象语义表达式,抽象语义表达式包括缺失语义成份。

图2示出了对标准问进行扩展的方法200的流程图。如图2所示,方法200可包括如下步骤。

步骤202,根据抽象语义数据库对该标准问进行抽象语义推荐处理,以获得与该标准问对应的一个或多个抽象语义表达式。

例如,一个标准问为:“怎么查违章”。

首先,需要找到抽象语义数据库中与该标准问相对应的抽象语义表达式。在一实例中,该抽象语义推荐首先对该标准问进行分词处理,得到若干单词,该单词为语义规则词或非语义规则词。

例如,“怎么查违章”可分为单词“怎么”、“查”、“违章”。这些单词中,“怎么”为语义规则词,“查”和“违章”是非语义规则词。

然后,分别对每个非语义规则词进行词性标注处理,例如“查”被标注为动词,“违章”被标注为名词。

之后,对每个语义规则词进行词类判断处理,得到每个语义规则词的词类信息。词类简单的理解即为一组有共性的词,这些词在语义上可以相似也可以不相似。

最后,根据这些词性信息和词类信息对抽象语义数据库进行搜索处理,得到与标准问“怎么查违章”匹配的抽象语义表达式。

实践中,与用户匹配的抽象语义表达式满足以下条件:

1)抽象语义表达式的缺失语义成分对应的词性包括标准问对应的填充内容的词性;

2)抽象语义表达式和标准问中对应的语义规则词相同或属于同一词类;

3)抽象语义表达式的顺序与标准问的表达顺序相同。

在上述抽象语义类别“行为方式”中,抽象语义表达式e的缺失语义成分action的词性为动词,标准问“怎么查违章”对应的填充内容“查”也为动词,缺失语义成分concept的词性为名词,标准问“怎么查违章”对应的填充内容“违章”也为名词,因此符合上述条件1)。

其次,抽象语义表达式e中的语义规则词“如何”与标准问“怎么查违章”中对应的语义规则词“怎么”属于同一词类,因此符合上述条件2)。

最后,抽象语义表达式e的顺序也与标准问的表达顺序相同,符合上述条件3)。

因此,在抽象语义数据库中,找到与标准问“怎么查违章”匹配的抽象语义表达式e,即[如何][action]~[concept]。该抽象语义表达式属于“行为方式”类别,由于一个类别中的抽象语义表达式具有相同的表达含义,因此在本发明中,为上述标准问推荐“行为方式”这一类别的抽象语义表达式的集合。换言之,所匹配的抽象语义表达式所属的类别中的所有抽象语义表达式皆被推荐为与该标准问相对应的抽象语义表达式。

步骤204,从该标准问中提取与一个或多个抽象语义表达式的缺失语义成分对应的内容,并将提取的内容填充到对应的缺失语义成分中以得到与该标准问对应的一个或多个具体语义表达式。这些具体语义表达式作为该标准问的扩展问。

以上述标准问“怎么查违章”为例,推荐如下的抽象语义表达式:

a.[concept][需要|应该?][如何]<才[可以]?><进行?>[action]

b.{[concept]~[action]}

c.[concept]<的?>[action]<方法|方式|步骤?>

d.<有哪些|有什么|有没有><通过|用|在>[concept][action]<的?>[方法]

e.[如何][action]~[concept]

用上述抽象语义表达式对标准问“怎么查违章”进行扩充处理。

在一实例中,从标准问中提取与每一抽象语义表达式的缺失语义成分对应的内容,并将提取的内容填充至每一抽象语义表达式对应的缺失语义成分中以得到与该标准问对应的具体语义表达式。

以抽象语义表达式a:[concept][需要|应该?][如何]<才[可以]?><进行?>[action]为例,从“怎么”、“查”、“违章”中提取与该表达式的缺失语义成分对应的内容:

concept对应的内容:“违章”

action对应的内容:“查”

因此,将“查”和“违章”违章填充至对应的缺失语义成分得到一具体语义表达式:[违章][需要|应该?][如何]<才[可以]?><进行?>[查询]。

以抽象语义表达式b.{[concept]~[action]}为例,从“怎么”、“查”、“违章”中提取与该表达式的缺失语义成分对应的内容:

concept对应的内容:“违章”

action对应的内容:“查”

因此,将“查”和“违章”违章填充至对应的缺失语义成分得到一具体语义表达式:[违章][查询]。

以抽象语义表达式c.[concept]<的?>[action]<方法|方式|步骤?>为例,从“怎么”、“查”、“违章”中提取与该表达式的缺失语义成分对应的内容:

concept对应的内容:“违章”

action对应的内容:“查”

因此,将“查”和“违章”违章填充至对应的缺失语义成分得到一具体语义表达式:[违章]<的?>[查询]<方法|方式|步骤?>。

以抽象语义表达式d.<有哪些|有什么|有没有><通过|用|在>[concept][action]<的?>[方法]为例,从“怎么”、“查”、“违章”中提取与该表达式的缺失语义成分对应的内容:

concept对应的内容:“违章”

action对应的内容:“查”

因此,将“查”和“违章”违章填充至对应的缺失语义成分得到一具体语义表达式:<有哪些|有什么|有没有><通过|用|在>[违章][查询]<的?>[方法]。

上述描述了如何利用抽象语义数据库对标准问进行扩展的过程。

在针对某一账户建立了自定义知识集后,针对来自该账户的用户问句,当首先利用该自定义知识集为其用户问句执行知识匹配以提供答案,若匹配失败,再利用该用户的所指派知识集为其用户问句执行知识匹配以提供答案。如果再次匹配失败,则系统可以输出预设的答案,例如“对不起,请重新输入”。

通过自定义知识集,改善了识别准确率,因为用户自己提供的知识点往往具有较高的准确性和针对性,同时可以不断完善智能问答系统。

尽管为使解释简单化将上述方法图示并描述为一系列动作,但是应理解并领会,这些方法不受动作的次序所限,因为根据一个或多个实施例,一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。

图3是示出了根据本发明的一方面的信息处理系统300的框图。

如图3所示,信息处理系统300可包括知识库301、分组模块302、指派模块303、知识制备模块304、抽象语义数据库305、匹配模块306、以及输出模块307。

知识库301中的知识可用于为用户问句提供应答。在本发明中,分组模块302将知识库301中的知识分组,以获得多个知识集,每个知识集与一知识类别相关联。指派模块303为账户指派所述多个知识集中的至少一个知识集,以用于来自该账户的用户问句的问句应答。

在一实例中,分组模块302可为第一账户指派多个知识集中的第一预定数目个知识集,以及为第二账户指派多个知识集中的第二预定数目个知识集,该第一预定数目个知识集与该第二预定数目个知识集之间可具有公共的知识集。

在一实例中,知识制备模块304可基于由用户针对一账户提供的知识点制备用于该账户的自定义知识集,以用于来自该账户的用户问句的问句应答。

往往不同的项目之间可能会用到相同的知识,按照传统方式,需要为每个项目部署独立的知识库,其中涉及大量知识的重复部署。在本发明中,通过将知识分为不同的知识类别的知识集,不同的项目可以使用公共的知识库,只需要按需为之指派知识集即可,大大提高了效率。

具体而言,知识制备模块304可为用户提供的每一知识点建立该知识点的标准问,并进一步为建立的标准问扩展出若干扩展问。扩展问的生成可利用抽象语义数据库305来完成。具体而言,知识制备模块304可根据抽象语义数据库305对标准问进行抽象语义推荐处理,当获得与该标准问对应的一个或多个抽象语义表达式时,从该标准问中提取与一个或多个抽象语义表达式的缺失语义成分对应的内容,并将提取的内容填充到对应的缺失语义成分中以得到与该标准问对应的一个或多个具体语义表达式。

针对来自预定账户的用户问句,当该预定账户有相关联的自定义知识集时,匹配模块306首先利用其自定义知识集为该用户问句执行知识匹配以提供答案,若匹配失败,则利用该用户的所指派知识集为该用户问句执行知识匹配以提供答案。

在一实例中,匹配模块306可包括语义相似度计算单元(图中未示出),用于将该用户问句与用于知识匹配的知识集中的问句执行语义相似度计算,语义相似度高于阈值的问句中具有最高语义相似度的问句被确定为匹配问句。输出模块307将与该匹配问句相关联的答案提供给用户。

通过自定义知识集,改善了识别准确率,因为用户自己提供的知识点往往具有较高的准确性和针对性,同时可以不断完善智能问答系统。

本发明中信息处理系统的具体实现方式可参见信息处理方法实施例,在此不再赘述。

提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的,且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此,本公开并非旨在被限定于本文中所描述的示例和设计,而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1