一种面向智能机器人的故事数据处理方法及系统与流程

文档序号：17090631发布日期：2019-03-13 23:25阅读：201来源：国知局

本发明涉及计算机领域，具体涉及一种面向智能机器人的故事数据处理方法及系统。

背景技术：

在传统的人类日常生活中，文字阅读是人们鉴赏文学作品的主要途径。但是，在某些特定场景下，人们也通过声音鉴赏文学作品，例如，聆听评书、聆听朗诵等。其中最常见的，针对文字阅读能力不够的儿童，其通常是通过他人的讲述(听别人讲故事)来聆听文学作品。

随着多媒体技术的不断发展，越来越多的多媒体设备被应用于人类的日常生活当中。在多媒体技术的支持下，文学作品的声音形式的播放，尤其是讲故事，的主体逐渐转换到了多媒体设备上。

一般的，利用多媒体设备讲故事通常是事先人工讲故事并录制音频文件。多媒体设备只是播放录制好的音频文件。随着计算机技术的发展，为了简单方便的获取声源，在现有技术中，还采用了将文字数据转化为音频数据的方式。这样，就不需要人工进行文字朗诵并录音，只需要提供故事文本就可以实现利用多媒体设备讲故事。但是，利用计算机技术直接进行文本到语音的转换，只能保证文本内容的直接转换，其无法做到真人在故事讲述时的声情并茂，这就导致在现有技术中，基于文本转换技术的故事讲述十分干涩无趣，只能简单的传达直接的文字含义，用户体验很差。

技术实现要素：

为了提高用户体验，本发明提供了一种面向智能机器人的故事数据处理方法，所述方法包括：

获取故事文本数据；

解析所述故事文本数据，其中，对所述故事文本数据进行分词处理以及文本识别；

调用故事数据处理模型，基于所述故事文本数据的解析结果针对每一文本片段进行音效匹配，当存在匹配的音效时调用对应的音效数据；

根据所述故事文本数据以及所述音效数据生成用于讲述故事内容的多模态数据。

在一实施例中，所述多模态数据包括智能机器人动作数据，其中：

针对所述音效数据生成对应的智能机器人动作数据。

在一实施例中，根据所述故事文本数据以及所述音效数据生成用于讲述故事内容的多模态数据，包括：

将所述故事文本数据转化为故事语音数据；

融合所述故事语音数据以及所述音效数据，生成故事音频数据。

在一实施例中，针对每一文本片段进行音效匹配，当存在匹配的音效时调用对应的音效数据，包括：

根据所述文本片段的语义判断是否存在音效描述；

当存在音效描述时，调用所述音效描述对应的音效数据。

在一实施例中：

解析所述故事文本数据，包括：

对故事进行内容元素拆解，提取故事元素，所述故事元素包括故事角色和/或故事场景；

确定每一文本片段对应的故事元素；

针对每一文本片段进行音效匹配，当存在匹配的音效时调用对应的音效数据，包括：

判断是否存在与所述文本片段对应的故事元素对应的音效；

当存在对应音效时调用所述音效对应的音效数据。

在一实施例中：

解析所述故事文本数据，包括：

对故事进行内容元素拆解，提取故事元素，所述故事元素包括故事类型和/或故事背景；

调用对应的音效数据，包括：

基于所述故事元素限定所述音效数据的选取范围。

在一实施例中，当存在匹配的音效时调用对应的音效数据，包括：

确定用户身份，当用户为儿童用户时，调用匹配儿童用户的音效库；

从所述音效库中调用所述音效数据。

本发明还提出了一种存储介质，所述存储介质上存储有可实现如权利要求1-7中任一项所述方法的程序代码。

本发明还提出了一种面向智能机器人的故事数据处理系统，所述系统包括：

文本获取模块，其配置为获取故事文本数据；

文本解析模块，其配置为解析所述故事文本数据，其中，对所述故事文本数据进行分词处理以及文本识别；

音效处理模块，其配置为调用故事数据处理模型，基于所述故事文本数据的解析结果针对每一文本片段进行音效匹配，当存在匹配的音效时调用对应的音效数据；

多模态故事数据生成模块，其配置为根据所述故事文本数据以及所述音效数据生成用于讲述故事内容的多模态数据。

本发明还提出了一种智能故事机，所述故事机包括：

输入获取模块，其配置为采集用户多模态输入，确认用户故事需求；

如权利要求9所述的故事数据处理系统，其配置为根据所述用户故事需求获取对应的故事文本数据，生成所述多模态数据；

输出模块，其配置为向用户输出所述多模态数据，其中，播放所述带有音效的对话及旁白语音数据。

相较于现有技术，根据本发明的方法及系统，可以将文本形式的故事转化为带有音效的、可多模态展现的多模态数据，从而大大提高讲述故事时聆听者的用户体验。

本发明的其它特征或优点将在随后的说明书中阐述。并且，本发明的部分特征或优点将通过说明书而变得显而易见，或者通过实施本发明而被了解。本发明的目的和部分优点可通过在说明书、权利要求书以及附图中所特别指出的步骤来实现或获得。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例共同用于解释本发明，并不构成对本发明的限制。在附图中：

图1以及图3是根据本发明实施例的方法流程图；

图2是根据本发明一实施例的部分方法流程图；

图4是根据本发明实施例的系统结构简图；

图5以及图6是根据本发明实施例的故事机结构简图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此本发明的实施人员可以充分理解本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程并依据上述实现过程具体实施本发明。需要说明的是，只要不构成冲突，本发明中的各个实施例以及各实施例中的各个特征可以相互结合，所形成的技术方案均在本发明的保护范围之内。

为了提高用户体验，本发明提出了一种面向智能机器人的故事数据处理方法。在本发明的方法中，为故事文本添加对应的音效从而提高故事内容的表现力。具体的，考虑到只有音效与故事内容相互匹配才能提高表现了，不匹配的音效不但不能提高故事内容的表现力，反而会影响用户体验。因此，在本发明的方法中，在添加音效时，首先对故事文本进行解析，根据解析结果来确定什么样的音效与故事文本是匹配的。

具体的，在实际应用场景中，事件发生时通常会伴随声音，声音的来源可以是故事时间中的角色动作、环境音等等。在本发明的方法的一实施例中，音效的主要作用是模拟事件发生时应该发生的声音，从而给予用户身临其境的感觉，进而提高故事的表现力。因此，在一实施例中，音效匹配即是确定当前故事进程中应该会发出什么样的声音。具体的，即是首先确定当前的故事进程，确定当前的角色动作、当前环境等等。因此，在一实施例中，对故事文本进行文本识别，从而确定当前的故事进程情况，根据当前的故事进程情况确定对应的音效。

进一步的，在实际应用场景中，伴随着不同的事件，其发出的声音不可能是一成不变的。也就是说，针对故事，不可能存在单一的音效全程匹配的情况。伴随着故事进程的展开，对应的音效也应该随着故事内容的变化而变化。因此，在本发明的方法中，针对故事文本进行分词处理，将故事文本划分成多个文本片段，分别针对每个文本片段进行音效匹配。

进一步的，在实际应用场景中，并不是每一段故事进程的展开都会发出声音。因此，在一实施例中，音效匹配的步骤还包括判断当前的文本片段是否存在对应的音效。

接下来基于附图详细描述根据本发明实施例的方法的详细流程，附图的流程图中示出的步骤可以在包含诸如一组计算机可执行指令的计算机系统中执行。虽然在流程图中示出了各步骤的逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

如图1所示，在一实施例中，本发明的方法包括以下步骤：

s110，获取故事文本数据；

s120，解析故事文本数据，其中，对故事文本数据进行分词处理以及文本识别；

s130，调用故事数据处理模型，基于故事文本数据的解析结果针对每一文本片段进行音效匹配，当存在匹配的音效时调用对应的音效数据；

s140，根据故事文本数据以及音效数据生成用于讲述故事内容的多模态数据。

进一步的，在一实施例中，为了进一步提高故事讲述的表现力，提升用户体验，在最终生成的多模态数据中还包括智能机器人动作数据。这样，在智能机器人讲述故事的时候，其不仅可以播放音效来提高故事内容的表现力，而且还可以根据智能机器人动作数据进行动作展示，从而进一步提高故事内容的表现力。

具体的，在一实施例中，智能机器人动作数据是与音效数据相互匹配的，具体的，在生成用于讲述故事内容的多模态数据的过程中，针对音效数据生成对应的智能机器人动作数据。这样，就可以避免智能机器人的动作的突兀感，避免智能机人动作打断故事讲述，影响用户体验的情况的发生。

进一步的，在一实施例中，基于语音方式进行故事的讲述。具体的，如图2所示，在一实施例中，在根据故事语音数据以及音效数据生成用于讲述故事内容的多模态数据的过程中：

s210，将故事文本数据转化为故事语音数据；

s220，融合故事语音数据以及音效数据，生成故事音频数据。

这样，就相当于多模态数据中包含故事音频数据。智能机器人输出多模态数据的过程就包含播放故事音频数据，而播放故事音频数据就相当于在朗读故事文本的同时播放对应的音效。

进一步的，在一实施例中，基于文字方式进行故事的讲述。具体的，最终生成的多模态数据中包括故事文本。智能机器人输出多模态数据的过程就包含展示文本，并且在展示文本的同时播放音效。

进一步的，在一实施例中，基于文字以及语音方式进行故事的讲述。即，智能机器人输出多模态数据的过程就包含在播放故事音频数据的同时展示文本。

进一步的，在一实施例中，根据故事文本的语义确定当前故事文本对应的故事进程，从而判断其是否具备对应的音效以及具体对应什么样的音效。

具体的，在一实施例中，在针对每一文本片段进行音效匹配的过程中：

根据文本片段的语义判断是否存在音效描述；

当存在音效描述时，调用音效描述对应的音效数据。

例如，文本片段“门吱呀一声开了”，根据其语义可以直接判断“吱呀一声”为音效描述，因此直接调用其对应的音效数据。

进一步的，在实际的应用场景中，故事文本数据的文本片段并不是孤立存在的，其是与故事整体进程相互关联的，也就是说，在某些应用场景中，虽然某个单独的文本片段并不包含音效描述，但其所代表的故事进程是存在对应的音效的。例如，文本片段“他躺在床上思考”，从该文本片段的直接语义分析上看，其并不包含音效描述，因此也就不存在匹配的音效。但是，如果考虑该文本片段所对应的故事整体进程，例如，“他躺在床上思考”是发生在“事情发生在一个雷电交加的雨夜”，那么“他躺在床上思考”就该匹配“雷电交加的雨”这一音效描述。

因此，在一实施例中，在进行音效匹配时，对故事整体进行分析，确定文本片段所对应的故事进程状态，从故事整体的角度判断文本片段是否具备对应的音效以及具体对应什么样的音效。

进一步的，考虑到计算机解析的特点，在一实施例中，采用元素分解的方式对故事文本数据进行解析从而实现对故事整体的分析。具体的，在一实施例中，对故事进行内容元素拆解，提取故事元素，故事元素包括故事角色和/或故事场景。将文本片段与故事元素进行关联，根据文本片段所关联的故事元素判断文本片段是否具备对应的音效以及具体对应什么样的音效。

例如，文本片段“他躺在床上思考”所关联的故事场景是“雷电交加的雨夜”，因此，可以判断文本片段“他躺在床上思考”匹配的音效是雷雨音效。

具体的，在一实施例中，如图3所示，在解析故事文本数据的过程中：

s321，对故事进行内容元素拆解，提取故事元素，故事元素包括故事角色和/或故事场景；

s322，确定每一文本片段对应的故事元素；

在针对每一文本片段进行音效匹配的过程中：

s330，判断是否存在与文本片段对应的故事元素对应的音效；

s340，当存在对应音效时调用音效对应的音效数据。

进一步的，在实际应用场景中，现场可能发出的声音是十分复杂多变的。而在故事文本数据中，音效描述通常只是一个大概的描述，针对同样的音效描述，可能存在多种匹配的音效。因此，为了筛选音效，并进一步的提高音效与故事本身的匹配程度，在一实施例中，还根据故事的整体风格对音效进行筛选。具体的，在一实施例中，首先确定故事风格，然后根据故事风格限定音效数据的选取范围，这样，在进行音效匹配的过程中，只能从已限定的范围中选取音效，这就保证了选出的音效与故事整体风格的匹配。

具体的，在一实施例中：

解析故事文本数据，包括：

对故事进行内容元素拆解，提取故事元素，故事元素包括故事类型和/或故事背景；

调用对应的音效数据，包括：

基于故事元素限定音效数据的选取范围。

进一步的，在实际应用场景中，不同的用户对于音效的感官是不同的。也就是说，同一音效对不同的聆听者所起到的气氛烘托效果是不同的。因此，在一实施例中，为了尽可能的提高用户体验，针对不同的故事聆听者限定音效数据的不同选取范围和/或针对不同的故事聆听者选取不同的音效匹配策略。即，根据故事聆听者的身份选取对应的音效数据。

具体的，在一实施例中，在调用故事数据处理模型时，确认用户身份，调用与用户身份匹配的故事数据处理模型。

进一步的，在实际应用场景中，不同身份用户在对音效的感受的不同主要集中在年龄差异上。因此，在一实施例中，在调用故事音乐模型时，确认用户年龄，调用与用户年龄阶段匹配的音效数据的选取范围和/或音效数据匹配策略。

进一步的，在根据年龄阶段区分音效感受特点时，很多年龄阶段所喜好的音效是具有一定共性的。即，某些年龄阶段间的音效感受差异并不十分明显，很多音效是多个年龄阶段的用户共同喜好的。但是，儿童用户群的音效感受特点差异却尤其突出，儿童所能接受的音效与其他年龄层存在明显的差异。具体的，很多成人熟悉并理解的音效是儿童无法理解的，甚至于，很多成人所习惯的音效并不适合儿童聆听或接受的。。例如，儿童对渲染恐怖气氛的音效接收能力很低。

因此，当音效选择错误时，会严重降低儿童用户的用户体体验。因此，在一实施例中，针对儿童用户设定音效数据的选取范围和/或音效数据匹配策略。具体的，在一实施例中，当用户为儿童用户时，调用儿童故事数据处理模型。

具体的，在一实施例中，当存在匹配的音效时调用对应的音效数据，包括：

确定用户身份，当用户为儿童用户时，调用匹配儿童用户的音效库；

从匹配儿童用户的音效库中调用音效数据。

进一步的，基于本发明的方法，本发明还提出了一种存储介质，该存储介质上存储有可实现如本发明所述方法的程序代码。

进一步的，基于本发明的方法，本发明还提出了一种面向智能机器人的故事数据处理系统。

具体的，如图4所示，在一实施例中，系统包括：

文本获取模块410，其配置为获取故事文本数据；

文本解析模块420，其配置为解析故事文本数据，其中，对故事文本数据进行分词处理以及文本识别；

音效处理模块430，其配置为调用故事数据处理模型，基于故事文本数据的解析结果针对每一文本片段进行音效匹配，当存在匹配的音效时调用对应的音效数据；

多模态故事数据生成模块440，其配置为根据故事文本数据以及音效数据生成用于讲述故事内容的多模态数据。

进一步的，基于本发明提出的故事数据处理系统，本发明还提出了一种智能故事机。具体的，如图5所示，在一实施例中，故事机包括：

输入获取模块510，其配置为采集用户多模态输入，确认用户故事需求；

故事数据处理系统520，其配置为根据用户故事需求获取对应的故事文本数据，生成多模态数据；

输出模块530，其配置为向用户输出多模态数据，其中，播放带有音效的对话及旁白语音数据。

具体的，如图6所示，在一实施例中，故事机包括智能设备610以及云端服务器620，其中：

云端服务器620包含故事数据处理系统630以及音效数据库640。故事数据处理系统630配置为调用云端服务器620的能力接口获取故事文本数据并解析，从云端服务器620的音效数据库640中挑选音效数据，生成并输出多模态数据。具体的，多模态数据解析过程中各个能力接口分别调用对应的逻辑处理。

具体的，在一实施例中，云端服务器620的能力接口包括文本识别接口621、文本/语音转换接口622、音频合成接口623。

智能设备610包括人机交互输入输出模块611、通信模块612以及播放模块613。

需要说明的是，所述智能设备可以为：平板电脑、儿童手表、机器人，手机，故事机，绘本阅读机器人。

人机交互输入输出模块611配置为获取用户的控制指令，确定用户故事聆听需求。

通信模块612配置为输出人机交互输入输出模块611获取到的用户故事聆听需求到云端服务器620，并接收来自云端服务器620的多模态数据。

播放模块613配置为播放多模态数据中的音频数据(音效数据或包含音效的故事音频数据)。

具体的，在一具体应用场景中，人机交互输入输出模块611获取用户的控制指令，确定用户故事聆听需求。

通信模块612将用户故事聆听需求发送到云端服务器620。

云端服务器620基于用户故事聆听需求选取对应的故事文本数据。云端服务器620中的故事数据处理系统获取故事文本数据并解析，从云端服务器620的音乐数据库中挑选背景音乐数据，生成并输出故事音频文件。

通信模块612接收云端服务器620发送的故事音频文件；

播放模块613播放通信模块612接收的故事音频文件。

应该理解的是，本发明所公开的实施例不限于这里所公开的特定结构、处理步骤或材料，而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是，在此使用的术语仅用于描述特定实施例的目的，而并不意味着限制。

说明书中提到的“一实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，说明书通篇各个地方出现的短语“一实施例”并不一定均指同一个实施例。

虽然本发明所公开的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。本发明所述的方法还可有其他多种实施例。在不背离本发明实质的情况下，熟悉本领域的技术人员当可根据本发明做出各种相应的改变或变形，但这些相应的改变或变形都应属于本发明的权利要求的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：贾志强
技术所有人：北京光年无限科技有限公司
我是此专利的发明人

上一篇：一种多肽面部紧致恢复水的制作方法
上一篇：高温混风型淬渣蒸汽消白装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。