基于电子书的对话人物识别方法、电子设备及存储介质与流程

文档序号：25483114发布日期：2021-06-15 21:43阅读：97来源：国知局

本发明涉及计算机领域，具体涉及一种基于电子书的对话人物识别方法、电子设备及存储介质。

背景技术：

目前，随着有声读物的日益普及，越来越多的用户开始从看书转换为听书，相应的，在制作有声读物的过程中，需要针对电子书执行文本转语音的操作。

通常情况下，直接调用开源的文本转语音工具实现语音合成处理。在上述处理方式中，针对电子书文本中的全部内容均执行统一的处理。但是，发明人在实现本发明的过程中发现：对于包含对话内容的电子书而言，旁白内容以及对话内容的感情色彩不同，采用相同的处理方式不利于用户快速理解书籍内容；并且，对应于不同说话人的多个对话内容的感情色彩以及人物音质特征也各不相同，采用相同的处理方式不利于用户区分与对话内容相对应的说话人。

由此可见，为了提升语音合成效果，亟需一种能够准确识别电子书中的对话人物的方案，以便针对不同的对话人物执行不同的语音合成处理方式。

技术实现要素：

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的基于电子书的对话人物识别方法、电子设备及存储介质。

根据本发明的一个方面，提供了一种基于电子书的对话人物识别方法，该方法包括：

获取电子书文本中包含的对话信息，提取所述对话信息中包含的人物对话内容以及对话关联内容，确定所述人物对话内容以及对话关联内容之间的次序关系；

获取预先训练的与所述人物对话内容以及对话关联内容之间的次序关系相匹配的对话人物识别模型，将所述对话信息输入获取到的对话人物识别模型；

根据所述对话人物识别模型的输出结果，识别所述对话信息中包含的与说话者相对应的人物类实体。

根据本发明的另一方面，提供了一种电子设备，该电子设备包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行以下操作：

获取预先训练的与所述人物对话内容以及对话关联内容之间的次序关系相匹配的对话人物识别模型，将所述对话信息输入获取到的对话人物识别模型；

根据所述对话人物识别模型的输出结果，识别所述对话信息中包含的与说话者相对应的人物类实体。

根据本发明的又一方面，提供了一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使所述处理器执行以下操作：

获取预先训练的与所述人物对话内容以及对话关联内容之间的次序关系相匹配的对话人物识别模型，将所述对话信息输入获取到的对话人物识别模型；

根据所述对话人物识别模型的输出结果，识别所述对话信息中包含的与说话者相对应的人物类实体。

在本发明提供的基于电子书的对话人物识别方法、电子设备及存储介质中，首先，获取电子书文本中包含的对话信息，提取对话信息中包含的人物对话内容以及对话关联内容，确定人物对话内容以及对话关联内容之间的次序关系；然后，获取预先训练的与人物对话内容以及对话关联内容之间的次序关系相匹配的对话人物识别模型，根据该对话人物识别模型识别对话关联内容中包含的与说话者相对应的人物类实体。由此可见，该方式能够预先训练与人物对话内容以及对话关联内容之间的次序关系相匹配的对话人物识别模型，从而根据对话信息中包含的人物对话内容以及对话关联内容的次序关系调用相应的对话人物识别模型进行识别，进而提升识别结果的准确性。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明一个实施例提供的基于电子书的对话人物识别方法的流程图；

图2示出了本发明另一个实施例提供的基于电子书的对话人物识别方法的流程图；

图3示出了根据本发明另一个实施例的一种电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

实施例一

图1示出了本发明一个实施例提供的基于电子书的对话人物识别方法的流程图。如图1所示，该方法包括以下步骤：

步骤s110：获取电子书文本中包含的对话信息，提取对话信息中包含的人物对话内容以及对话关联内容，确定人物对话内容以及对话关联内容之间的次序关系。

其中，电子书文本中包含的对话信息是指：含有人物对话内容的文本信息，具体包括人物说话的具体内容以及与说话内容相关的上下文信息。其中，对话关联内容与人物对话内容关联紧密且位置相邻，用于交代人物对话内容的对话情景信息，具体包括：人物情景、地点情景、时间情景等多个维度的情景信息。相应的，通过分割人物对话内容以及对话关联内容，能够确定人物对话内容以及对话关联内容之间的次序关系，并基于该次序关系从对话关联内容中提取用于指示说话人的信息，达到识别说话人的目的。

其中，发明人在实现本发明的过程中发现，人物对话内容以及对话关联内容之间的次序关系对于识别说话人具有重要影响，不同的次序关系所对应的识别结果也可能存在差异。因此，为了准确识别对话内容的说话人，在本实施例中，需要确定人物对话内容以及对话关联内容之间的次序关系。其中，人物对话内容以及对话关联内容之间的次序关系主要包括以下两种情况：

在第一种情况中，人物对话内容位于对话关联内容之前。例如，对话信息如下：“我已经考虑清楚了。”李四悠悠的说。其中，“我已经考虑清楚了”为人物对话内容，“李四悠悠的说”为对话关联内容。显然，人物对话内容位于对话关联内容之前，该种方式用于重点突出人物对话内容，因而将对话关联内容后置。

在第二种情况中，人物对话内容位于对话关联内容之后。例如，对话信息如下：张三笑呵呵的说道：“你今天怎么有空过来了？”其中，“你今天怎么有空过来了”为人物对话内容，“张三笑呵呵的说道”为对话关联内容。显然，人物对话内容位于对话关联内容之后，该种方式用于重点突出对话人物。

除上述两种方式外，人物对话内容以及对话关联内容之间的次序关系还可能为各种情况。例如，对话关联内容可能位于两段不同的人物对话内容之间，或者，人物对话内容也可能位于两段不同的对话关联内容之间。本发明对具体实现细节不作限定。

步骤s120：获取预先训练的与人物对话内容以及对话关联内容之间的次序关系相匹配的对话人物识别模型，将对话信息输入获取到的对话人物识别模型。

其中，根据获取到的电子书样本内容训练对话人物识别模型。根据电子书样本内容中的人物对话内容以及对话关联内容之间的次序关系，将电子书样本内容划分为分别与各种次序关系相对应的多个内容集合，并分别根据各个内容集合训练得到与各种次序关系相对应的人物识别模型。

例如，针对人物对话内容位于对话关联内容之前的情况，训练与该情况对应的第一人物识别模型；针对人物对话内容位于对话关联内容之后的情况，训练与该情况对应的第二人物识别模型。由于不同的对话人物识别模型根据不同的样本内容训练得到，因而能够准确识别对应种类的文本内容。

步骤s130：根据对话人物识别模型的输出结果，识别对话信息中包含的与说话者相对应的人物类实体。

具体的，对话人物识别模型用于识别对话信息中包含的与说话者相对应的人物类实体。因此，通过对话人物识别模型能够识别说话人，从而便于根据说话人的特点进行差异化的语音合成处理。

由此可见，该方式能够预先训练与人物对话内容以及对话关联内容之间的次序关系相匹配的对话人物识别模型，从而根据对话信息中包含的人物对话内容以及对话关联内容的次序关系调用相应的对话人物识别模型进行识别，进而提升识别结果的准确性。

实施例二

图2示出了本发明另一个实施例提供的基于电子书的对话人物识别方法的流程图。如图2所示，该方法包括以下步骤：

步骤s200：预先训练与人物对话内容以及对话关联内容之间的次序关系相匹配的对话人物识别模型。

其中，人物对话内容为具体的说话内容，对话关联内容与人物对话内容关联紧密且位置相邻，用于交代人物对话内容的对话情景信息，具体包括：人物情景、地点情景、时间情景等多个维度的情景信息。相应的，通过分割人物对话内容以及对话关联内容，能够确定人物对话内容以及对话关联内容之间的次序关系，并基于该次序关系从对话关联内容中提取用于指示说话人的信息，达到识别说话人的目的。

其中，与人物对话内容以及对话关联内容之间的次序关系相匹配的对话人物识别模型至少包括：人物对话内容位于对话关联内容之前的第一识别模型，以及人物对话内容位于对话关联内容之后的第二识别模型。其中，第一识别模型通过预先获取到的人物对话内容位于对话关联内容之前的第一训练样本训练得到；第二识别模型通过预先获取到的人物对话内容位于对话关联内容之后的第二训练样本训练得到。

具体实施时，预先从大量电子书中提取对话信息作为训练样本，其中，将人物对话内容位于对话关联内容之前的训练样本作为第一训练样本，用以训练人物对话内容位于对话关联内容之前的第一识别模型；将人物对话内容位于对话关联内容之后的训练样本作为第二训练样本，用以训练人物对话内容位于对话关联内容之后的第二识别模型。其中，预先针对训练样本中包含的说话者进行标注，以便根据标注结果训练得到对话人物识别模型。

步骤s210：获取电子书文本中包含的对话信息，提取对话信息中包含的人物对话内容以及对话关联内容，确定人物对话内容以及对话关联内容之间的次序关系。

其中，电子书文本中包含的对话信息是指：含有人物对话内容的文本信息，具体包括人物说话的具体内容以及与说话内容相关的上下文信息。具体实施时，可通过预设标点符号提取电子书文本中包含的对话信息。其中，预设标点符号包括：引号、冒号等。具体的，首先，通过预设标点符号提取出人物对话内容。然后，基于人物对话内容的上下文确定对应的对话关联内容。

通过分割人物对话内容以及对话关联内容，能够确定人物对话内容以及对话关联内容之间的次序关系，并基于该次序关系从对话关联内容和/或人物对话内容中提取用于指示说话人的信息，达到识别说话人的目的。

考虑到人物对话内容以及对话关联内容之间的次序关系对于识别说话人具有重要影响，不同的次序关系所对应的识别结果也可能存在差异。因此，为了准确识别对话内容的说话人，在本实施例中，需要确定人物对话内容以及对话关联内容之间的次序关系。其中，人物对话内容以及对话关联内容之间的次序关系至少包括以下两种情况：在第一种情况中，人物对话内容位于对话关联内容之前。在第二种情况中，人物对话内容位于对话关联内容之后。除上述两种方式外，人物对话内容以及对话关联内容之间的次序关系还可能为各种情况。

另外，发明人在实现本发明的过程中发现，实际情况中的对话信息可能包括多个连续出现的人物对话内容或多个连续出现的对话关联内容。例如，在人物之间连续对话的情况下，经常出现上述情况。为了在上述情况中准确识别说话者，在本实施例中，进一步执行以下处理：当提取出的人物对话内容为至少两个，和/或提取出的对话关联内容为至少两个时，将相邻的人物对话内容以及对话关联内容确定为一个关联次序组合，得到对话信息中包含的至少两个关联次序组合，从而分别确定各个关联次序组合中的人物对话内容以及对话关联内容之间的次序关系。

举例而言，假设一段对话信息中包括两个人物对话内容(分别为第一人物对话内容d1以及第二人物对话内容d2)以及位于两个人物对话内容之间的对话关联内容t。则上述对话信息表示如下：d1td2。相应的，将第一人物对话内容以及对话关联内容作为第一关联次序组合d1t，将对话关联内容以及第二人物对话内容作为第二关联次序组合td2。由此可见，第一关联次序组合d1t属于人物对话内容位于对话关联内容之前的组合情况，而第二关联次序组合td2属于人物对话内容位于对话关联内容之后的组合情况。相应的，在后续步骤中，需要针对各个关联次序组合分别进行处理。

由此可见，通过划分关联次序组合的方式，能够将每相邻的一组人物对话内容以及对话关联内容确定为一个关联次序组合，从而将包含多个人物对话内容以及对话关联内容的对话信息划分为多个关联次序组合，进而便于在后续过程中使用上述的第一识别模型或第二识别模型实现精准识别。

步骤s220：获取预先训练的与人物对话内容以及对话关联内容之间的次序关系相匹配的对话人物识别模型，将对话信息输入获取到的对话人物识别模型。

具体的，在本步骤中，需要根据步骤s210中确定的人物对话内容以及对话关联内容之间的次序关系，选择与该次序关系相匹配的对话人物识别模型。当提取出的人物对话内容为至少两个，和/或提取出的对话关联内容为至少两个时，分别获取与各个关联次序组合中的人物对话内容以及对话关联内容之间的次序关系相对应的对话人物识别模型，得到与关联次序组合相对应的输出结果。例如，仍以上例为例，由于第一关联次序组合d1t属于人物对话内容位于对话关联内容之前的组合情况，因此，将第一关联次序组合d1t输入上述的第一识别模型；而第二关联次序组合td2属于人物对话内容位于对话关联内容之后的组合情况，因此，将第二关联次序组合td2输入上述的第二识别模型。

步骤s230：根据对话人物识别模型的输出结果，识别对话信息中包含的与说话者相对应的人物类实体。

当提取出的人物对话内容为至少两个，和/或提取出的对话关联内容为至少两个时，在本步骤中，需要获取与各个关联次序组合相对应的多个输出结果，根据多个输出结果的置信度确定对话关联内容中包含的与说话者相对应的人物类实体。仍以上例为例，分别获取第一识别模型输出的与第一关联次序组合d1t相对应的第一识别结果，以及第二识别模型输出的与第二关联次序组合td2相对应的第二识别结果。接下来，可以通过评价机制对各个识别结果进行评价打分处理，根据打分结果确定各个识别结果的置信度，从而根据置信度高的识别结果确定对话关联内容中包含的与说话者相对应的人物类实体。其中，当多个识别结果相同时，则说明与说话者相对应的人物类实体识别准确；当多个识别结果不同时，根据各个识别结果的置信度确定与说话者相对应的人物类实体。

另外，除通过识别模型进行识别之外，在本实施例中，还可以灵活借助多种方式识别与说话者相对应的人物类实体。

例如，在第一种可选的实现方式中，在本步骤中，进一步识别对话关联内容中包含的人物类候选实体以及与人物类候选实体相对应的上下文信息；将上下文信息与预设的句式特征词集合进行匹配；结合匹配结果识别对话信息中包含的与说话者相对应的人物类实体。

其中，人物类候选实体是指用于指代人物的实体类名词。具体实施时，可以先识别出电子书文本中包含的命名实体，由于命名实体包含时间、地点、人物等多种类型，相应的，进一步从命名实体中筛选人物类候选实体。其中，人物类候选实体在电子书中通常具有出现频次高、经常与动词等谓语成分同时出现于同一个语句中的特点，因此，根据上述特点，统计电子书文本中的各个分词的出现频次、与动词的搭配次数等信息，进而将属于人物类型的分词作为人物类候选实体。在一种具体的实现方式中，通过以下方式识别对话关联内容中包含的人物类候选实体：首先，统计电子书文本中包含的各个词语单元的出现频次、和/或与各个词语单元相对应的动词的数量；然后，将出现频次大于第一频次阈值、和/或动词的数量大于第二数量阈值的词语单元识别为人物类候选实体。其中，词语单元是指：由多个顺次出现的文字构成的文字组合。由此可见，词语单元由两个或更多个文字构成，并且，所谓顺次出现是指：词语单元内部的各个文字之间具有固定的顺序关系，且在该词语单元内部未掺杂其他无关文字。例如，假设电子书文本中包含“夏天”这一人物类候选实体，统计“夏天”这一词语单元的出现频次时应注意以下两点：首先，词语单元中的各个文字的顺序不能颠倒，如“天夏”不统计在内；其次，词语单元内部不得出现无关文字，如“夏一天”不统计在内。除根据出现频次确定人物类候选实体之外，还可以根据与各个词语单元相对应的动词的数量来确定人物类候选实体：通常，对于任一人名而言，其必然对应于多个不同的动词，如“夏天走过来”中的“走”、“夏天微微一笑”中的“笑”等，通过统计该词语单元与不同动词之间的组合次数，即可确定该词语单元是否为人物类实体。另外，在统计电子书文本中包含的各个词语单元的出现频次时，为了降低内存，提升处理速度，通过构建词典树的方式进行统计。具体的，根据电子书文本中包含的各个语句，构建与语句中的词语单元相对应的词典树；根据已构建的词典树，统计电子书文本中包含的各个词语单元的出现频次。其中，词典树包括：前缀树和/或后缀树，且词语单元中包含的文字数量不大于预设单元阈值。考虑到人名通常不超过四个字，因此，预设单元阈值可以设置为4，从而仅针对不超过4个字的词语单元进行统计，进而降低待处理的数据量。其中，前缀树是指：根据多个句首相同的句子构建的字典树，适用于人名出现于句首的情况；后缀树是指：根据多个句尾相同的句子构建的字典树，适用于人名出现于句尾的情况。考虑到人名大多出现于句首，因此，可以主要通过前缀树来统计人名出现于句首的频次。

另外，与人物类候选实体相对应的上下文信息用于描述与人物类候选实体相关的描述内容，通过该部分描述内容能够判断该人物类候选实体是否为说话者。为了便于判断，在本实施例中，预先设置有句式特征词集合，用于存储与说话动作相关的句式特征词。其中，句式特征词集合中存储的句式特征词可以是单个词汇，也可以是由两个甚至更多个词汇构成的组合词汇。另外，句式特征词集合进一步包括：用于指示人物类候选实体是说话者的第一句式特征词集合、以及用于指示人物类候选实体不是说话者的第二句式特征词集合。例如，第一句式特征词集合中存储有“说道、吼道、问道”等明确表示人物类候选实体是说话者的词汇。第二句式特征词集合中存储有“被……骂道、被……吼道”等明确表示人物类候选实体不是说话者的词汇。相应的，在结合匹配结果识别对话信息中包含的与说话者相对应的人物类实体时，若上下文信息与第一句式特征词集合匹配成功，则将人物类候选实体确定为与说话者相对应的人物类实体；若上下文信息与第二句式特征词集合匹配成功，则确定人物类候选实体不是与说话者相对应的人物类实体。

又如，在第二种可选的实现方式中，根据对话人物识别模型的输出结果，识别对话信息中包含的与说话者相对应的人物类实体时，进一步提取人物对话内容中包含的人物类候选实体以及与人物类候选实体相对应的称谓词信息；结合人物对话内容中包含的人物类候选实体以及称谓词信息，识别对话信息中包含的与说话者相对应的人物类实体。该方式主要识别人物对话内容中包含的人物类候选实体。其中，人物类候选实体的确定方式可参照第一种实现方式中的相应描述。另外，称谓词主要包括“我”、“你”、“他”等人称代词。相应的，借助称谓词能够判断说话者。例如，若人物对话内容中出现了“我是张三”的内容，则能够确定与说话者相对应的人物类实体为“张三”。

由此可见，上述的第一种可选实现方式主要基于对话信息中的对话关联内容判断说话者，而第二种可选实现方式主要基于对话信息中的人物对话内容判断说话者。

上述几种方式既可以单独使用，也可以结合使用。当几种方式结合使用时，可以根据各种方式的准确率设置优先级，从而先通过优先级高的方式进行识别，若优先级高的方式未识别成功，再通过优先级较低的其他方式进行识别。例如，考虑到第一种可选实现方式以及第二种可选实现方式的准确率较高，因此，可以先采用第一种可选实现方式和/或第二种可选实现方式进行识别，若未识别成功，再通过对话人物识别模型进行识别。

步骤s240：根据识别出的与说话者相对应的人物类实体，确定说话者的人物语调信息，并根据人物语调信息执行文本转语音处理，得到与人物对话内容相对应的语音合成结果。

具体的，根据与人物类实体相对应的上下文信息，确定人物类实体的人物属性信息以及与人物属性信息相匹配的人物语调信息；针对与人物类实体相对应的人物对话内容添加与人物语调信息相对应的语调特征标签；根据人物对话内容的语调特征标签，执行文本转语音处理，得到与人物对话内容相对应的语音合成结果。

其中，人物属性信息包括以下属性维度中的至少一个：性别维度、年龄维度、角色类型维度、以及情感类型维度。人物属性信息具体可以通过分析人物所在的上下文确定。并且，当接收到用户触发的语音播放指令时，根据所述语音合成结果执行语音播放处理。由于人物属性信息与人物语调信息之间具有固定的对应关系，因此，基于人物属性信息能够准确识别与对话文本信息相匹配的人物语调信息，进而为后续的语音合成操作提供便利，有利于提升合成语音的音质效果。语调特征标签用于指示对应内容的语调特征，语调特征具体包括：音色、音量、情感等各种内容，具体的，语调特征标签包括以下中的至少一类：情感类标签、性别类标签、年龄类标签、以及角色类标签。其中，每种类型的标签又可以进一步细分为多个种类，例如，情感类标签进一步细分为：喜、怒、哀、乐、急躁、不急躁等多个种类；性别类标签进一步细分为：男性标签以及女性标签；年龄类标签进一步细分为：年老类标签、年轻类标签、年幼类标签等。角色类标签进一步细分为：正派类标签、反派类标签等。其中，当接收到用户触发的语音播放指令时，根据语音合成结果执行语音播放处理。由此可见，本实施例中的语调特征标签用于提供给tts(texttospeech，从文本到语音)软件实现语音合成处理。考虑到机器合成的语音存在着发音死板、与真实说话方式存在差别的缺陷，为了提升合成语音的音质，通过语调特征标签使合成后的语音的语调与特征标签相匹配，从而提升合成语音的真实性，使合成语音的情感更加丰富细腻。

综上可知，该方式能够预先训练与人物对话内容以及对话关联内容之间的次序关系相匹配的对话人物识别模型，从而根据对话信息中包含的人物对话内容以及对话关联内容的次序关系调用相应的对话人物识别模型进行识别，进而提升识别结果的准确性。并且，本实施例能够进一步结合句式特征词集合以及称谓词等内容识别说话者，从而显著提升了识别的准确性。在识别出说话者的基础上，能够进一步基于说话者的属性特征确定对应的语调特征，进而在后续的语音合成阶段使合成的语音更加逼真。

实施例三

本申请实施例提供了一种非易失性计算机存储介质，所述计算机存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的基于电子书的对话人物识别方法。

可执行指令具体可以用于使得处理器执行以下操作：

获取预先训练的与所述人物对话内容以及对话关联内容之间的次序关系相匹配的对话人物识别模型，将所述对话信息输入获取到的对话人物识别模型；

根据所述对话人物识别模型的输出结果，识别所述对话信息中包含的与说话者相对应的人物类实体。

在一种可选的实现方式中，所述预先训练的与所述人物对话内容以及对话关联内容之间的次序关系相匹配的对话人物识别模型包括：

人物对话内容位于所述对话关联内容之前的第一识别模型，以及人物对话内容位于所述对话关联内容之后的第二识别模型；

其中，所述第一识别模型通过预先获取到的人物对话内容位于所述对话关联内容之前的第一训练样本训练得到；所述第二识别模型通过预先获取到的人物对话内容位于所述对话关联内容之后的第二训练样本训练得到。

在一种可选的实现方式中，所述可执行指令使所述处理器执行以下操作：

当提取出的人物对话内容为至少两个，和/或提取出的对话关联内容为至少两个时，

将相邻的人物对话内容以及对话关联内容确定为一个关联次序组合，得到所述对话信息中包含的至少两个关联次序组合，分别确定各个关联次序组合中的所述人物对话内容以及对话关联内容之间的次序关系。

在一种可选的实现方式中，所述可执行指令使所述处理器执行以下操作：

分别获取与各个关联次序组合中的所述人物对话内容以及对话关联内容之间的次序关系相对应的对话人物识别模型，得到与所述关联次序组合相对应的输出结果；

获取与各个关联次序组合相对应的多个输出结果，根据多个输出结果的置信度确定所述对话关联内容中包含的与说话者相对应的人物类实体。

在一种可选的实现方式中，所述可执行指令使所述处理器执行以下操作：

识别所述对话关联内容中包含的人物类候选实体以及与所述人物类候选实体相对应的上下文信息；

将所述上下文信息与预设的句式特征词集合进行匹配；

结合匹配结果识别所述对话信息中包含的与说话者相对应的人物类实体。

在一种可选的实现方式中，所述句式特征词集合包括：用于指示人物类候选实体是说话者的第一句式特征词集合、以及用于指示人物类候选实体不是说话者的第二句式特征词集合；

则所述可执行指令使所述处理器执行以下操作：

若所述上下文信息与所述第一句式特征词集合匹配成功，则将所述人物类候选实体确定为所述与说话者相对应的人物类实体；

若所述上下文信息与所述第二句式特征词集合匹配成功，则确定所述人物类候选实体不是所述与说话者相对应的人物类实体。

在一种可选的实现方式中，所述可执行指令使所述处理器执行以下操作：

统计所述电子书文本中包含的各个词语单元的出现频次、和/或与各个词语单元相对应的动词的数量；

将出现频次大于第一频次阈值、和/或动词的数量大于第二数量阈值的词语单元识别为人物类候选实体。

在一种可选的实现方式中，所述可执行指令使所述处理器执行以下操作：

根据与所述人物类实体相对应的上下文信息，确定所述人物类实体的人物属性信息以及与所述人物属性信息相匹配的人物语调信息；

针对与所述人物类实体相对应的人物对话内容添加与所述人物语调信息相对应的语调特征标签；

其中，所述人物属性信息包括以下属性维度中的至少一个：性别维度、年龄维度、角色类型维度、以及情感类型维度。

在一种可选的实现方式中，所述可执行指令使所述处理器执行以下操作：

根据所述人物对话内容的语调特征标签，执行文本转语音处理，得到与所述人物对话内容相对应的语音合成结果；

其中，当接收到用户触发的语音播放指令时，根据所述语音合成结果执行语音播放处理。

在一种可选的实现方式中，所述可执行指令使所述处理器执行以下操作：

提取所述人物对话内容中包含的人物类候选实体以及与所述人物类候选实体相对应的称谓词信息；

结合所述人物对话内容中包含的人物类候选实体以及所述称谓词信息，识别所述对话信息中包含的与说话者相对应的人物类实体。

实施例四

图3示出了根据本发明另一个实施例的一种电子设备的结构示意图，本发明具体实施例并不对电子设备的具体实现做限定。

如图3所示，该电子设备可以包括：处理器(processor)302、通信接口(communicationsinterface)304、存储器(memory)306、以及通信总线308。

其中：处理器302、通信接口304、以及存储器306通过通信总线308完成相互间的通信。通信接口304，用于与其它设备比如客户端或其它服务器等的网元通信。处理器302，用于执行程序310，具体可以执行上述基于电子书的对话人物识别方法实施例中的相关步骤。

具体地，程序310可以包括程序代码，该程序代码包括计算机操作指令。

处理器302可能是中央处理器cpu，或者是特定集成电路asic(applicationspecificintegratedcircuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个cpu；也可以是不同类型的处理器，如一个或多个cpu以及一个或多个asic。

存储器306，用于存放程序310。存储器306可能包含高速ram存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

程序310具体可以用于使得处理器302执行以下操作：

获取预先训练的与所述人物对话内容以及对话关联内容之间的次序关系相匹配的对话人物识别模型，将所述对话信息输入获取到的对话人物识别模型；

根据所述对话人物识别模型的输出结果，识别所述对话信息中包含的与说话者相对应的人物类实体。

在一种可选的实现方式中，所述预先训练的与所述人物对话内容以及对话关联内容之间的次序关系相匹配的对话人物识别模型包括：

人物对话内容位于所述对话关联内容之前的第一识别模型，以及人物对话内容位于所述对话关联内容之后的第二识别模型；

在一种可选的实现方式中，所述可执行指令使所述处理器执行以下操作：

当提取出的人物对话内容为至少两个，和/或提取出的对话关联内容为至少两个时，

在一种可选的实现方式中，所述可执行指令使所述处理器执行以下操作：

获取与各个关联次序组合相对应的多个输出结果，根据多个输出结果的置信度确定所述对话关联内容中包含的与说话者相对应的人物类实体。

在一种可选的实现方式中，所述可执行指令使所述处理器执行以下操作：

识别所述对话关联内容中包含的人物类候选实体以及与所述人物类候选实体相对应的上下文信息；

将所述上下文信息与预设的句式特征词集合进行匹配；

结合匹配结果识别所述对话信息中包含的与说话者相对应的人物类实体。

则所述可执行指令使所述处理器执行以下操作：

若所述上下文信息与所述第一句式特征词集合匹配成功，则将所述人物类候选实体确定为所述与说话者相对应的人物类实体；

若所述上下文信息与所述第二句式特征词集合匹配成功，则确定所述人物类候选实体不是所述与说话者相对应的人物类实体。

在一种可选的实现方式中，所述可执行指令使所述处理器执行以下操作：

统计所述电子书文本中包含的各个词语单元的出现频次、和/或与各个词语单元相对应的动词的数量；

将出现频次大于第一频次阈值、和/或动词的数量大于第二数量阈值的词语单元识别为人物类候选实体。

在一种可选的实现方式中，所述可执行指令使所述处理器执行以下操作：

根据与所述人物类实体相对应的上下文信息，确定所述人物类实体的人物属性信息以及与所述人物属性信息相匹配的人物语调信息；

针对与所述人物类实体相对应的人物对话内容添加与所述人物语调信息相对应的语调特征标签；

其中，所述人物属性信息包括以下属性维度中的至少一个：性别维度、年龄维度、角色类型维度、以及情感类型维度。

在一种可选的实现方式中，所述可执行指令使所述处理器执行以下操作：

根据所述人物对话内容的语调特征标签，执行文本转语音处理，得到与所述人物对话内容相对应的语音合成结果；

其中，当接收到用户触发的语音播放指令时，根据所述语音合成结果执行语音播放处理。

在一种可选的实现方式中，所述可执行指令使所述处理器执行以下操作：

提取所述人物对话内容中包含的人物类候选实体以及与所述人物类候选实体相对应的称谓词信息；

结合所述人物对话内容中包含的人物类候选实体以及所述称谓词信息，识别所述对话信息中包含的与说话者相对应的人物类实体。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本发明还公开了a1.一种基于电子书的对话人物识别方法，其中，所述方法包括：

获取预先训练的与所述人物对话内容以及对话关联内容之间的次序关系相匹配的对话人物识别模型，将所述对话信息输入获取到的对话人物识别模型；

根据所述对话人物识别模型的输出结果，识别所述对话信息中包含的与说话者相对应的人物类实体。

a2.根据a1所述的方法，其中，所述预先训练的与所述人物对话内容以及对话关联内容之间的次序关系相匹配的对话人物识别模型包括：

人物对话内容位于所述对话关联内容之前的第一识别模型，以及人物对话内容位于所述对话关联内容之后的第二识别模型；

a3.根据a2所述的方法，其中，所述提取所述对话信息中包含的人物对话内容以及对话关联内容，确定所述人物对话内容以及对话关联内容之间的次序关系包括：

当提取出的人物对话内容为至少两个，和/或提取出的对话关联内容为至少两个时，

a4.根据a3所述的方法，其中，所述获取预先训练的与所述人物对话内容以及对话关联内容之间的次序关系相匹配的对话人物识别模型，将所述对话信息输入获取到的对话人物识别模型包括：

则所述根据所述对话人物识别模型的输出结果，识别所述对话信息中包含的与说话者相对应的人物类实体包括：

获取与各个关联次序组合相对应的多个输出结果，根据多个输出结果的置信度确定所述对话关联内容中包含的与说话者相对应的人物类实体。

a5.根据a1-4任一所述的方法，其中，所述根据所述对话人物识别模型的输出结果，识别所述对话信息中包含的与说话者相对应的人物类实体进一步包括：

识别所述对话关联内容中包含的人物类候选实体以及与所述人物类候选实体相对应的上下文信息；

将所述上下文信息与预设的句式特征词集合进行匹配；

结合匹配结果识别所述对话信息中包含的与说话者相对应的人物类实体。

a6.根据a5所述的方法，其中，所述句式特征词集合包括：用于指示人物类候选实体是说话者的第一句式特征词集合、以及用于指示人物类候选实体不是说话者的第二句式特征词集合；

则所述结合匹配结果识别所述对话信息中包含的与说话者相对应的人物类实体包括：

若所述上下文信息与所述第一句式特征词集合匹配成功，则将所述人物类候选实体确定为所述与说话者相对应的人物类实体；

若所述上下文信息与所述第二句式特征词集合匹配成功，则确定所述人物类候选实体不是所述与说话者相对应的人物类实体。

a7.根据a5或6所述的方法，其中，所述识别所述对话关联内容中包含的人物类候选实体包括：

统计所述电子书文本中包含的各个词语单元的出现频次、和/或与各个词语单元相对应的动词的数量；

将出现频次大于第一频次阈值、和/或动词的数量大于第二数量阈值的词语单元识别为人物类候选实体。

a8.根据a1-7任一所述的方法，其中，所述识别所述对话信息中包含的与说话者相对应的人物类实体之后，进一步包括：

根据与所述人物类实体相对应的上下文信息，确定所述人物类实体的人物属性信息以及与所述人物属性信息相匹配的人物语调信息；

针对与所述人物类实体相对应的人物对话内容添加与所述人物语调信息相对应的语调特征标签；

其中，所述人物属性信息包括以下属性维度中的至少一个：性别维度、年龄维度、角色类型维度、以及情感类型维度。

a9.根据a8所述的方法，其中，所述针对与所述人物类实体相对应的人物对话内容添加与所述人物语调信息相对应的语调特征标签之后，进一步包括：

根据所述人物对话内容的语调特征标签，执行文本转语音处理，得到与所述人物对话内容相对应的语音合成结果；

其中，当接收到用户触发的语音播放指令时，根据所述语音合成结果执行语音播放处理。

a10.根据a1-9任一所述的方法，其中，所述根据所述对话人物识别模型的输出结果，识别所述对话信息中包含的与说话者相对应的人物类实体包括：

提取所述人物对话内容中包含的人物类候选实体以及与所述人物类候选实体相对应的称谓词信息；

结合所述人物对话内容中包含的人物类候选实体以及所述称谓词信息，识别所述对话信息中包含的与说话者相对应的人物类实体。

b11.一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行以下操作：

获取预先训练的与所述人物对话内容以及对话关联内容之间的次序关系相匹配的对话人物识别模型，将所述对话信息输入获取到的对话人物识别模型；

根据所述对话人物识别模型的输出结果，识别所述对话信息中包含的与说话者相对应的人物类实体。

b12.根据b11所述的电子设备，其中，所述预先训练的与所述人物对话内容以及对话关联内容之间的次序关系相匹配的对话人物识别模型包括：

人物对话内容位于所述对话关联内容之前的第一识别模型，以及人物对话内容位于所述对话关联内容之后的第二识别模型；

b13.根据b12所述的电子设备，其中，所述可执行指令使所述处理器执行以下操作：

当提取出的人物对话内容为至少两个，和/或提取出的对话关联内容为至少两个时，

b14.根据b13所述的电子设备，其中，所述可执行指令使所述处理器执行以下操作：

获取与各个关联次序组合相对应的多个输出结果，根据多个输出结果的置信度确定所述对话关联内容中包含的与说话者相对应的人物类实体。

b15.根据b11-14任一所述的电子设备，其中，所述可执行指令使所述处理器执行以下操作：

识别所述对话关联内容中包含的人物类候选实体以及与所述人物类候选实体相对应的上下文信息；

将所述上下文信息与预设的句式特征词集合进行匹配；

结合匹配结果识别所述对话信息中包含的与说话者相对应的人物类实体。

b16.根据b15所述的电子设备，其中，所述句式特征词集合包括：用于指示人物类候选实体是说话者的第一句式特征词集合、以及用于指示人物类候选实体不是说话者的第二句式特征词集合；

则所述可执行指令使所述处理器执行以下操作：

若所述上下文信息与所述第一句式特征词集合匹配成功，则将所述人物类候选实体确定为所述与说话者相对应的人物类实体；

若所述上下文信息与所述第二句式特征词集合匹配成功，则确定所述人物类候选实体不是所述与说话者相对应的人物类实体。

b17.根据b15或16所述的电子设备，其中，所述可执行指令使所述处理器执行以下操作：

统计所述电子书文本中包含的各个词语单元的出现频次、和/或与各个词语单元相对应的动词的数量；

将出现频次大于第一频次阈值、和/或动词的数量大于第二数量阈值的词语单元识别为人物类候选实体。

b18.根据b11-17任一所述的电子设备，其中，所述可执行指令使所述处理器执行以下操作：

根据与所述人物类实体相对应的上下文信息，确定所述人物类实体的人物属性信息以及与所述人物属性信息相匹配的人物语调信息；

针对与所述人物类实体相对应的人物对话内容添加与所述人物语调信息相对应的语调特征标签；

其中，所述人物属性信息包括以下属性维度中的至少一个：性别维度、年龄维度、角色类型维度、以及情感类型维度。

b19.根据b18所述的电子设备，其中，所述可执行指令使所述处理器执行以下操作：

根据所述人物对话内容的语调特征标签，执行文本转语音处理，得到与所述人物对话内容相对应的语音合成结果；

其中，当接收到用户触发的语音播放指令时，根据所述语音合成结果执行语音播放处理。

b20.根据b11-19任一所述的电子设备，其中，所述可执行指令使所述处理器执行以下操作：

提取所述人物对话内容中包含的人物类候选实体以及与所述人物类候选实体相对应的称谓词信息；

结合所述人物对话内容中包含的人物类候选实体以及所述称谓词信息，识别所述对话信息中包含的与说话者相对应的人物类实体。

c21.一种用于显示对象展示页面的计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如c1-10任一所述的方法。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：丁廷震
技术所有人：掌阅科技股份有限公司
我是此专利的发明人

上一篇：羊卵巢成熟相关的基因及其应用的制作方法
上一篇：体内器具磁力取出器及输尿管支架管组件的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。