一种面向智能机器人的故事数据处理方法及系统与流程

文档序号:17264426发布日期:2019-03-30 09:54阅读:156来源:国知局
一种面向智能机器人的故事数据处理方法及系统与流程

本发明涉及计算机领域,具体涉及一种面向智能机器人的故事数据处理方法及系统。



背景技术:

在传统的人类日常生活中,文字阅读是人们鉴赏文学作品的主要途径。但是,在某些特定场景下,人们也通过声音鉴赏文学作品,例如,聆听评书、聆听朗诵等。其中最常见的,针对文字阅读能力不够的儿童,其通常是通过他人的讲述(听别人讲故事)来聆听文学作品。

随着多媒体技术的不断发展,越来越多的多媒体设备被应用于人类的日常生活当中。在多媒体技术的支持下,文学作品的声音形式的播放,尤其是讲故事,的主体逐渐转换到了多媒体设备上。

一般的,利用多媒体设备讲故事通常是事先人工讲故事并录制音频文件。多媒体设备只是播放录制好的音频文件。随着计算机技术的发展,为了简单方便的获取声源,在现有技术中,还采用了将文字数据转化为音频数据的方式。这样,就不需要人工进行文字朗诵并录音,只需要提供故事文本就可以实现利用多媒体设备讲故事。但是,利用计算机技术直接进行文本到语音的转换,只能保证文本内容的直接转换,其无法做到真人在故事讲述时的声情并茂,这就导致在现有技术中,基于文本转换技术的故事讲述十分干涩无趣,只能简单的传达直接的文字含义,用户体验很差。



技术实现要素:

本发明提供了一种面向智能机器人的故事数据处理方法,所述方法包括:

获取故事文本数据;

解析所述故事文本数据,识别故事文本中的角色;

针对识别出的不同的角色调用对应的角色音效数据;

调用故事数据处理模型,基于所述角色音效数据对所述故事文本中与所述角色相关的故事文本进行音效处理,生成带有角色音效的故事语音数据;

生成并输出匹配所述故事文本的多模态数据,所述多模态数据包括所述带有角色音效的故事语音数据。

在一实施例中,解析所述故事文本数据,包括:

对所述故事文本数据进行预处理,所述预处理包括大小写统一转换、全角/半角转换和/或同义词替换;

针对预处理结果进行分句处理;

针对分句处理结果进行基础语义识别,包括分词、词性、中文命名实体和/或句法识别;

基于基础语义识别结果识别角色。

在一实施例中,解析所述故事文本数据,还包括:

针对中文命名实体识别未识别的实体,调用新词发现模型进行识别。

在一实施例中,识别故事文本中的角色,包括:

识别所述故事文本数据中的指代词;

利用上下文识别所述指代词对应的角色。

在一实施例中,识别故事文本中的角色,包括:

区分所述故事文本数据中的旁白和对话;

从所述旁白中根据基础语义识别结果来识别角色。

在一实施例中,识别故事文本中的角色,包括:

对识别出的角色进行归类处理。

本发明还提出了一种存储介质,所述存储介质上存储有可实现如本发明所述方法的程序代码。

本发明还提出了一种面向智能机器人的故事数据处理系统,所述系统包括:

文本获取模块,其配置为获取故事文本数据;

文本解析模块,其配置为解析所述故事文本数据,识别故事文本中的角色;

音效匹配模块,其配置为针对所述文本解析模块识别出的不同的角色调用对应的角色音效数据;

音效处理模块,其配置为调用故事数据处理模型,基于所述音效匹配模块调出的角色音效数据对所述故事文本中与所述角色相关的故事文本进行音效处理,生成带有角色音效的故事语音数据;

多模态故事数据生成模块,生成并输出匹配所述故事文本的多模态数据,所述多模态数据包括所述带有角色音效的故事语音数据。

在一实施例中,所述文本解析模块包括:

预处理单元,其配置为对所述故事文本数据进行预处理,所述预处理包括大小写统一转换、全角/半角转换和/或同义词替换;

分句处理单元,其配置为针对所述预处理单元的预处理结果进行分句处理;

语义识别单元,其配置为针对所述分句处理单元的分句处理结果进行基础语义识别,包括分词、词性、中文命名实体和/或句法识别;

角色识别单元,其配置为基于所述语义识别单元的基础语义识别结果识别角色。

本发明还提出了一种智能机器人系统,包括:

如本发明所述的故事数据处理系统,其配置为根据所述用户故事需求获取对应的故事文本数据,生成所述多模态数据;

以及,智能机器人,包括:

输入获取模块,其配置为采集用户多模态输入,接收用户故事需求;

输出模块,其配置为向用户输出所述多模态数据。

相较于现有技术,根据本发明的方法及系统,可以将文本形式的故事转化为可多模态展现的多模态数据并根据故事中出现的角色对相关文本进行针对性优化,从而大大提高讲述故事时聆听者的用户体验。

本发明的其它特征或优点将在随后的说明书中阐述。并且,本发明的部分特征或优点将通过说明书而变得显而易见,或者通过实施本发明而被了解。本发明的目的和部分优点可通过在说明书、权利要求书以及附图中所特别指出的步骤来实现或获得。

附图说明

附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例共同用于解释本发明,并不构成对本发明的限制。在附图中:

图1是根据本发明一实施例的方法流程图;

图2是根据本发明一实施例的部分方法流程图;

图3是根据本发明一实施例的系统结构简图;

图4是根据本发明一实施例的系统部分结构简图;

图5以及图6是根据本发明实施例的智能机器人系统结构简图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式,借此本发明的实施人员可以充分理解本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程并依据上述实现过程具体实施本发明。需要说明的是,只要不构成冲突,本发明中的各个实施例以及各实施例中的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。

随着多媒体技术的不断发展,越来越多的多媒体设备被应用于人类的日常生活当中。在多媒体技术的支持下,文学作品的声音形式的播放,尤其是讲故事,的主体逐渐转换到了多媒体设备上。

一般的,利用多媒体设备讲故事通常是事先人工讲故事并录制音频文件。多媒体设备只是播放录制好的音频文件。随着计算机技术的发展,为了简单方便的获取声源,在现有技术中,还采用了将文字数据转化为音频数据的方式。这样,就不需要人工进行文字朗诵并录音,只需要提供故事文本就可以实现利用多媒体设备讲故事。但是,利用计算机技术直接进行文本到语音的转换,只能保证文本内容的直接转换,其无法做到真人在故事讲述时的声情并茂,这就导致在现有技术中,基于文本转换技术的故事讲述十分干涩无趣,只能简单的传达直接的文字含义,用户体验很差。

为了提高用户体验,本发明提出了一种面向智能机器人的故事数据处理方法。在本发明的方法中,为故事匹配对应的音效,将音效数据与故事文本数据融合,生成故事语音数据,从而提高故事内容的表现力。

进一步的,在实际应用场景中,音效是多种多样的,如果在故事文本中融入错误的音效,不仅不会提高故事内容的表现力,反而会降低聆听故事的用户体验。并且,即使是正确的音效,如果在故事文本中过多的融入,也会干扰聆听者的注意力,从而对故事内容本身的展现造成影响。因此,为了融入正确的音效并尽可能的避免音效融入过多,在本发明的方法中,针对特定的故事元素进行音效融入。

具体的,考虑到故事角色是故事内容中必不可少的重要组成部分,在本发明的方法中,针对故事角色进行音效融入,为故事内容附加去对应的角色特征,从而使得故事内容的展现更加生动。具体的,首先对故事内容中的故事角色进行识别,然后根据识别结果匹配对应的角色音效,最后将角色音效融入故事文本数据中,生成可多模态展现的多模态数据。

相较于现有技术,根据本发明的方法及系统,可以将文本形式的故事转化为可多模态展现的多模态数据并根据故事中出现的角色对相关文本进行针对性优化,从而大大提高讲述故事时聆听者的用户体验。

接下来基于附图详细描述根据本发明实施例的方法的详细流程,附图的流程图中示出的步骤可以在包含诸如一组计算机可执行指令的计算机系统中执行。虽然在流程图中示出了各步骤的逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

如图1所示,在一实施例中,方法包括以下流程:

s110,获取故事文本数据;

s120,解析故事文本数据,识别故事文本中的角色;

s130,针对识别出的不同的角色调用对应的角色音效数据;

s140,调用故事数据处理模型,基于角色音效数据对故事文本中与角色相关的故事文本进行音效处理,生成带有角色音效的故事语音数据;

s150,生成并输出匹配所述故事文本的多模态数据,所述多模态数据包括所述带有角色音效的故事语音数据。

进一步的,本发明的方法流程的关键点之一在于解析故事文本数据,识别故事文本中的角色。如果角色识别错误,那么之后调用的角色音效数据也是错误的。这样,最终生成的故事语音数据不但不能提高故事内容的表现力,反而会影响用户的聆听体验。

为了准确故事文本中的角色,在一实施例中,对故事文本数据进行语义识别,根据语义识别结果来提取故事文本中所包含的角色。

具体的,如图2所示,在一实施例中,解析故事文本数据,包括:

s210,对故事文本数据进行预处理,预处理包括大小写统一转换、全角/半角转换和/或同义词替换;

s220,针对预处理结果进行分句处理;

s230,针对分句处理结果进行基础语义识别,包括分词、词性、中文命名实体和/或句法识别;

s240,基于基础语义识别结果识别角色。

进一步的,考虑到在进行中文命名实体识别时,识别对象有可能是没有预存的实体,也就是说无法通过中文命名实体识别对象。在一实施例中,解析故事文本数据的流程还包括:

针对中文命名实体识别未识别的实体,调用新词发现模型进行识别。

进一步的,考虑到故事文本中存在指代词,从故事内容理解的角度上看,指代词与特定的实体是关联的,但是在中文命名实体过程中,指代词是不会识别为其对应的实体的。针对这一情况,在一实施例中,识别故事文本中的角色的过程还包括:

识别故事文本数据中的指代词;

利用上下文识别指代词对应的角色。

进一步的,考虑到实际应用场景中,角色实体不光会关联到其对应的指代词上,同一角色很有可能具有不同的文本表现方式。例如,在一故事文本中,男主人公的名字是a,a同时也是小女孩b的父亲以及女士c的丈夫。那么,当故事文本中提及a、小女孩b的父亲或女士c的丈夫的时候其所要表达的角色都是男主人公。因此,在一实施例中,在识别故事文本中的角色的过程中还对识别出的角色进行归类处理,将指代同一角色实体的不同文本表现方式归类到同一角色识别结果下,从而为其调用统一的角色音效数据。

进一步的,考虑到实际应用场景中,如果严格地将所有的角色都匹配上对应的、不同的音效,不仅会明显加重数据处理压力,而且很容易会造成故事语音播放的混乱,干扰聆听者的注意力,从而对故事内容本身的展现造成影响。因此,在一实施例中,在识别故事文本中的角色的过程中还对识别出的角色进行归类处理,将特征相近的角色识别结果归类到同一类角色识别结果下,从而为该类角色识别结果调用统一的角色音效数据。例如,在一故事文本中,d、e、f三人虽然是不同的三个角色,但是其都是10岁左右的小女孩,因此将其归为一类角色,在调用角色音效数据时均为其调用与10岁左右的小女孩匹配的角色音效数据。

进一步的,本发明的方法流程的关键点之一在于将角色音效数据融入故事文本。具体的,在一实施例中,为了以声音播放方式展示不同角色的特征,将角色的音色特征作为该角色对应的角色音效数据。角色音效的融入即是将该角色的相关对话文本转化为具有对应音色特征的语音输出。

具体的,在一实施例中,为不同的角色设定背景音效。角色音效的融入即是为该角色的相关文本附加对应的背景音效。

进一步的,考虑到实际应用场景中,故事文本一般包含旁白内容和对话内容。虽然旁白内容和对话内容均有可能包含描述角色实体的文本内容,但是从含义上看,对话内容通常是与具体的角色直接关联的(对话的讲述者),对话内容的关联对象则一般是由旁白所体现出来的(通过旁白来表述该对话的讲述者是谁),而对话中所包含的描述角色实体的文本内容则并不是直接关联到具体的角色上。也就是说,从角色音效数据的关联性上,对话内容所对应的角色音效数据应该是旁白内容所描述对话讲述者,而不是对话内容中所包含的文本内容所描述的角色实体。因此,在一实施例中,在识别故事文本中的角色的过程中:

区分故事文本数据中的旁白和对话;

从旁白中根据基础语义识别结果来识别角色。

进一步的,在一实施例中,主要通过语音方式进行故事讲述。因此,最终输出的多模态数据主要为语音数据,其中,与角色对应的语音数据融合有该角色的角色音效。例如,角色的对话以与该角色对应的音色所讲述;或者,描述角色的旁白被附加有与该角色对应的背景音乐。具体的,在故事文本中,除了与角色相关的故事内容外还可能包含其他内容。在一实施例中,将故事文本数据中除了与角色相关的故事内容外的文本也转化为语音数据并和带有角色音效的故事语音数据融合。

进一步的,为了进一步提高故事表现的生动性,在一实施例中,并不仅限于用语音方式讲述故事,还通过文字方式展示故事内容。具体的,在一实施例中,多模态数据包含带有角色音效的故事语音数据以及文本数据。

进一步的,为了进一步提高故事表现的生动性,在一实施例中,并不仅限于用语音和/或文字方式讲述故事。具体的,在一实施例中,多模态数据还包括智能机器人动作数据,其中,针对故事文本生成对应的智能机器人动作数据。

这样,在智能机器人进行故事讲述时,在其输出带有角色音效的故事语音数据的同时还可以辅助以对应的动作,从而大大提高故事讲述的生动性。

综上,本发明提出了一种面向智能机器人的故事数据处理方法。相较于现有技术,根据本发明的方法及系统,可以将文本形式的故事转化为可多模态展现的多模态数据并根据故事中出现的角色对相关文本进行针对性优化,从而大大提高讲述故事时聆听者的用户体验。

进一步的,基于本发明的方法,本发明还提出了一种存储介质,该存储介质上存储有可实现如本发明所述方法的程序代码。

进一步的,基于本发明的方法,本发明还提出了一种面向智能机器人的故事数据处理系统。

具体的,如图3所示,在一实施例中,系统包括:

文本获取模块310,其配置为获取故事文本数据;

文本解析模块320,其配置为解析故事文本数据,识别故事文本中的角色;

音效匹配模块330,其配置为针对文本解析模块320识别出的不同的角色调用对应的角色音效数据;

音效处理模块340,其配置为调用故事数据处理模型,基于音效匹配模块330调出的角色音效数据对故事文本中与角色相关的故事文本进行音效处理,生成带有角色音效的故事语音数据;

多模态故事数据生成模块350,生成并输出匹配故事文本的多模态数据,多模态数据包括所述带有角色音效的故事语音数据。

进一步的,如图4所示,在一实施例中,文本解析模块包括:

预处理单元421,其配置为对故事文本数据进行预处理,预处理包括大小写统一转换、全角/半角转换和/或同义词替换;

分句处理单元422,其配置为针对预处理单元421的预处理结果进行分句处理;

语义识别单元423,其配置为针对分句处理单元422的分句处理结果进行基础语义识别,包括分词、词性、中文命名实体和/或句法识别;

角色识别单元424,其配置为基于语义识别单元423的基础语义识别结果识别角色。

进一步的,基于本发明提出的故事数据处理系统,本发明还提出了一种智能机器人系统。如图5所示,在一实施例中,智能机器人系统包括:

故事数据处理系统510,,其配置为根据用户故事需求获取对应的故事文本数据,生成多模态数据;

智能机器人520,智能机器人520包括:

输入获取模块521,其配置为采集用户多模态输入,接收用户故事需求;

输出模块522,其配置为向用户输出多模态数据。

具体的,在一实施例中,智能机器人包括支持感知、控制等输入输出模块的智能设备,例如平板电脑、机器人、手机、故事机或儿童专用设备。

具体的,如图6所示,在一实施例中,智能机器人系统包括智能机器人610以及云端服务器620,其中:

云端服务器620包含故事数据处理系统630。故事数据处理系统630配置为调用云端服务器820的能力接口获取故事文本数据并解析,生成并输出包含融合有音效的故事语音数据。具体的,故事数据处理系统630在数据解析处理过程中各个能力接口分别调用对应的逻辑处理。

具体的,在一实施例中,云端服务器620的能力接口包括文本分词接口624、文本识别接口621、文本/语音转换接口622、音效合成接口623。

智能机器人610包括人机交互输入输出模块611、通信模块612、播放模块613。

人机交互输入输出模块611配置为获取用户的控制指令,确定用户故事聆听需求。

通信模块612配置为输出人机交互输入输出模块611获取到的用户故事聆听需求到云端服务器620,并接收来自云端服务器620的多模态数据。

播放模块613配置为播放故事语音数据。

具体的,在一具体应用场景中,人机交互输入输出模块611获取用户的控制指令,确定用户故事聆听需求。

通信模块612将用户故事聆听需求发送到云端服务器620。

云端服务器620基于用户故事聆听需求选取对应的故事文本数据。云端服务器620中的故事数据处理系统获取故事文本数据并解析,生成并输出故事语音数据。

通信模块612接收云端服务器620发送的故事语音数据。

播放模块613播放通信模块612接收的故事语音数据。

应该理解的是,本发明所公开的实施例不限于这里所公开的特定结构、处理步骤或材料,而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是,在此使用的术语仅用于描述特定实施例的目的,而并不意味着限制。

说明书中提到的“一实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,说明书通篇各个地方出现的短语“一实施例”并不一定均指同一个实施例。

虽然本发明所公开的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。本发明所述的方法还可有其他多种实施例。在不背离本发明实质的情况下,熟悉本领域的技术人员当可根据本发明做出各种相应的改变或变形,但这些相应的改变或变形都应属于本发明的权利要求的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1