用于智能机器人的文本处理方法及系统与流程

文档序号:12733629阅读:816来源:国知局
用于智能机器人的文本处理方法及系统与流程

本发明涉及智能机器人领域,尤其涉及一种用于智能机器人的文本处理方法及系统。



背景技术:

随着科学技术的不断发展,信息技术、计算机技术以及人工智能技术的引入,机器人的研究已经逐步走出工业领域,逐渐扩展到了医疗、保健、家庭、娱乐以及服务行业等领域。

而人们对于机器人的要求也从简单重复的机械动作提升为具有拟人问答、自主性及智能性的智能机器人,人机交互也就成为决定智能机器人发展的重要因素,因此,提高智能机器人的人机交互效率,成为目前亟需解决的重要问题,那么相应的,对机器人的开发者也提出了更高的要求,以提高对于处理机器人产品性能和机器人数据处理效能。



技术实现要素:

本发明所要解决的技术问题之一是需要提供一种提高对于处理机器人产品性能和机器人数据处理效能,提升智能机器人的智能性的解决方案。

为了解决上述技术问题,本申请的实施例首先提供了一种用于智能机器人的文本处理方法,所述智能机器人安装有机器人操作系统,该方法包括:获取待处理的文本数据;通过句法分析对所述待处理的文本数据进行核心词提取,基于核心词比对进行文本归一化处理,其中,对基于核心词比对归一化失败的文本数据,基于语义相似度算法进行文本归一化;输出和/或存储文本归一化结果。

优选地,在基于语义相似度算法进行文本归一化的步骤中,基于最短路径长度和分类中的最大深度来计算语义相似度。

优选地,所述语义相似度算法为混合了根据语义内容计算相似度和根据概念的语义距离计算相似度的算法。

优选地,在基于核心词比对进行文本归一化处理的步骤中,将归一化后的文本数据放在同一归一化列表中,其中,将字数最短的文本数据作为该列表的归一化词条,其他的文本数据作为该列表的列表成员。

本发明实施例还提供了一种用于智能机器人的文本处理系统,所述智能机器人安装有机器人操作系统,该文本处理系统包括:文本数据获取模块,其获取待处理的文本数据;文本归一化模块,其通过句法分析对所述待处理的文本数据进行核心词提取,基于核心词比对进行文本归一化处理,其中,对基于核心词比对归一化失败的文本数据,基于语义相似度算法进行文本归一化;结果处理模块,其输出和/或存储文本归一化结果。

优选地,所述文本归一化模块,其进一步在基于语义相似度算法进行文本归一化时,基于最短路径长度和分类中的最大深度来计算语义相似度。

优选地,所述语义相似度算法为混合了根据语义内容计算相似度和根据概念的语义距离计算相似度的算法。

优选地,所述文本归一化模块,其进一步在基于核心词比对进行文本归一化处理时,将归一化后的文本数据放在同一归一化列表中,其中,将字数最短的文本数据作为该列表的归一化词条,其他的文本数据作为该列表的列表成员。

与现有技术相比,上述方案中的一个或多个实施例可以具有如下优点或有益效果:

本发明实施例通过对用户输入的待处理文本数据进行句法分析获取每个文本数据中的核心词,然后基于核心词比对进行文本归一化处理来得到文本归一化结果。而且,对基于核心词比对归一化失败的文本数据,基于语义相似度算法进行文本归一化。上述方法能够提高机器人智能性以及与用户的交互能力,对待处理的文本数据能够进行较好的文本归一化处理,便于后续的语言处理,能够提高智能机器人的语言交互能力,更好的满足用户需求。

本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明的技术方案而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构和/或流程来实现和获得。

附图说明

附图用来提供对本申请的技术方案或现有技术的进一步理解,并且构成说明书的一部分。其中,表达本申请实施例的附图与本申请的实施例一起用于解释本申请的技术方案,但并不构成对本申请技术方案的限制。

图1为本申请第一实施例的用于智能机器人的文本处理方法的流程示意图。

图2为本申请实施例的文本归一化处理的示意图。

图3为本申请第二实施例的用于智能机器人的文本处理系统的结构示意图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成相应技术效果的实现过程能充分理解并据以实施。本申请实施例以及实施例中的各个特征,在不相冲突前提下可以相互结合,所形成的技术方案均在本发明的保护范围之内。

另外,附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

在现有的智能机器人领域中,大多数机器人能够与用户进行单独的语音交互,完成用户赋予的任务或者与用户进行简单的问答行为。现有的这种人机交互模式一般是由用户主动发问,唤醒机器人与之进行交互的,而且机器人根据用户的问题从问答数据库中查找相应的应答信息,并根据应答信息输出语音信息。但是,现有的问答数据库要求查询的问题语句具备一定的(语法、格式等方面)规范性,用户在与机器人进行语音交互时,需要输出规范性问题,机器人才能查询到相应的结果,而根据用户的个性或年龄等因素的影响,他们提出的问题往往具有不确定性,导致机器人无法根据问题从数据库中查询相应的答案。而且,这种要求用户发出规范性问题的模式也降低了用户使用机器人的兴趣,带来不好的用户体验。本发明实施例提出了一种用于智能机器人的文本处理方法,该方法能够对类似问答数据库进行更新,将待处理的文本数据(例如大量的问题语句)进行文本归一化处理,为后续的语言处理(如机器人回答问题)奠定基础。具体地,本方法通过句法分析对待处理的文本数据进行核心词提取,基于核心词比对进行文本归一化处理,其中,对基于核心词比对归一化失败的文本数据,基于语义相似度算法进行文本归一化,最终完成归一化处理过程,以提高对于处理机器人产品性能和机器人数据处理效能。

第一实施例

图1为涉及本发明的用于智能机器人的文本处理方法的示例一的流程示意图,该智能机器人优选为安装有机器人操作系统的机器人,然而,其他具有语音、表情、动作等表达能力的、不使用所述机器人操作系统的智能机器人(或设备)也可以实现本实施例。下面参考图1来说明该方法所涉及的各个步骤。

在步骤S110中,获取待处理的文本数据。

在文本信息获取的过程中,可以通过网络抓取大量的文本信息或者通过输入设备(例如键盘、语音识别设备等)直接录入待处理的文本信息。待处理的文本信息可以是多条语句、多个词汇混合组成的文本数据,例如包括词汇“律师”和语句“移民案件辩护的律师”的文本数据。为了后续的语言处理,实现用户与机器人更好的语音交互,本实施例中获取的待处理的文本数据主要是应用于对话中的不同形式的问题数据,这些问题语句多是以句子形式表述的,例如“能介绍一下贝多芬吗”,“贝多芬是谁,我不知道啊,可以告诉我吗”等文本数据。

在步骤S120中,通过句法分析对待处理的文本数据进行核心词提取,基于核心词比对进行文本归一化处理。

具体地,先将待处理的文本数据中不同表现形式的文本信息进行归类,得到词语种类的文本信息、句子种类的文本信息。由于词语种类的文本其本身已经是词条形式了,因此不需要对其再做处理。而对于句子种类的文本信息,还需要通过句法分析将其中涉及的核心词提取出来,以为后面的文本归一化做准备。

在进行核心词提取时,可以采用句法分析的方式来实现。具体来说,就是根据给定的语法规则集,分析出句子形成过程中所采用的语法规则。句法分析的结果一般表示为树结构,树的节点表示句子的语法单元的名称。具体算法可以是基于转换的依存句法分析方法,在基于转换的分析方法中,依存分析被看作是对输入句子执行若干动作,由这些动作建立起句子中词与词之间的联系。每一动作都将当前的分析状态转换到新的状态。基于转换的分析方法并不搜索全局最优的动作序列,而是采用贪婪的策略,根据当前状态选择局部最优的动作,一个动作一旦执行就不会再改变,因而又称确定性分析法。

在对“移民案件辩护的律师”进行分析时,输出格式如下:

0移民 名词1定语

1案件 名词3的字结构

2辩护 名词1补语

3的结构助词4定语

4律师名词-1核心词

因此确定上述语句的核心词为“律师”。

除了采取上面的算法以外,还可以采用集成了概率上下文无关文法、基于神经网络的依存句法分析和基于转换的依存句法分析的方法。

在完成了核心词提取之后,通过核心词比对进行文本归一化处理。在本例中,将文本归一化处理的层次主要包括:词语与词语、词语与句子,句子与句子。在核心词比对的过程中,如果核心词比对结果一致,则将二者放在同一个列表中,重复这个过程,直到将本次需要归一化的内容遍历完成。为了方便后期使用该归一化列表,在归一化列表中,选取字数最少的文本数据作为归一化词条,其他的作为该归一化列表的成员。例如,“律师”和“移民案件辩护的律师”,核心词均为“律师”,经过核心词对比将二者放在同一类列表中,由于“律师”的字数最少,则将其作为归一化词条,而“移民案件辩护的律师”作为该列表的成员。

在步骤S130中,判断是否存在基于核心词比对归一化失败的文本数据,若存在,则执行步骤S140,否则执行步骤S150。

在步骤S140中,对基于核心词比对归一化失败的文本数据,基于语义相似度算法进行文本归一化。

通过步骤S120,已经完成了待处理的文本数据的大部分内容的归一化处理,然而,由于不同句子之间的差异,很可能会存在核心词不一致的情况,在该情况下,针对归一化失败的文本数据,基于语义相似度算法进行归一化处理。需要说明的是,该语义相似度算法为混合了根据语义内容计算相似度和根据概念的语义距离计算相似度的算法,优选地,该语义相似度算法是基于最短路径长度和分类中的最大深度来计算语义相似度。

该语义相似度算法模型如下式:

其中,分母中的maxdepth(c)表示词汇网络分类树中的最大深度。该算法考虑了两概念c1,c2之间的最短路径长度length(c1,c2),对于一个固定的分类树来说,两概念之间的路径越大,语义相似度越小。例如“博士后”和“行政人员”的语义相似度为0.57,“人物”和“博士后”的语义相似度为0.4,则将“博士后”和“行政人员”分为一类。

从信息论的角度来看,该算法所求解得到的语义相似度值是概念间路径所提供的信息量。该语义相似度的计算不仅仅局限于同一分类中的语义深度,同时改进了所有语义连接相同权重的问题。

通过上面的语义相似度算法来计算基于核心词比对归一化失败的文本数据中的核心词之间的相似度,进一步进行文本归一化处理。

在步骤S150中,输出和/或存储文本归一化结果。

待后续的语音处理时,利用该归一化的结果进行分析处理,完成机器人与用户的语音交互。

综上所述,本实施例的方法能够提高机器人智能性以及与用户的交互能力,对待处理的文本数据能够进行较好的文本归一化处理,便于后续的语言处理,提高对于处理机器人产品性能和机器人数据处理效能,从而提升智能机器人的语言交互能力,更好的满足用户需求。

第二实施例

图3为本发明实施例的用于智能机器人的文本处理系统300的结构框图。其中的智能机器人为安装有机器人操作系统的机器人。如图3所示,本申请实施例的系统300主要包括:文本数据获取模块310、文本归一化模块320以及结果处理模块330。

文本数据获取模块310,其获取待处理的文本数据。

文本归一化模块320,其通过句法分析对所述待处理的文本数据进行核心词提取,基于核心词比对进行文本归一化处理,其中,对基于核心词比对归一化失败的文本数据,基于语义相似度算法进行文本归一化。文本归一化模块320,其进一步在基于语义相似度算法进行文本归一化时,基于最短路径长度和分类中的最大深度来计算语义相似度。所述语义相似度算法为混合了根据语义内容计算相似度和根据概念的语义距离计算相似度的算法。所述文本归一化模块320,其进一步在基于核心词比对进行文本归一化处理时,将待处理的文本数据中字数最短的文本数据作为归一化词条,其他的文本数据作为需要进行归一化的列表成员。

结果处理模块330,其输出和/或存储文本归一化结果。

该系统300可以配置为图2所示的文本归一化模型。

通过合理设置,本实施例的系统300可以执行第一实施例的各个步骤,此处不再赘述。

由于本发明的方法描述的是在计算机系统中实现的。该计算机系统例如可以设置在机器人的控制核心处理器中。例如,本文所述的方法可以实现为能以控制逻辑来执行的软件,其由机器人操作系统中的CPU来执行。本文所述的功能可以实现为存储在非暂时性有形计算机可读介质中的程序指令集合。当以这种方式实现时,该计算机程序包括一组指令,当该组指令由计算机运行时其促使计算机执行能实施上述功能的方法。可编程逻辑可以暂时或永久地安装在非暂时性有形计算机可读介质中,例如只读存储器芯片、计算机存储器、磁盘或其他存储介质。除了以软件来实现之外,本文所述的逻辑可利用分立部件、集成电路、与可编程逻辑设备(诸如,现场可编程门阵列(FPGA)或微处理器)结合使用的可编程逻辑,或者包括它们任意组合的任何其他设备来体现。所有此类实施例旨在落入本发明的范围之内。

应该理解的是,本发明所公开的实施例不限于这里所公开的特定结构、处理步骤或材料,而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是,在此使用的术语仅用于描述特定实施例的目的,而并不意味着限制。

说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。

虽然本发明所公开的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所公开的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1