一种信息处理方法及电子设备的制造方法

文档序号：10665676阅读：310来源：国知局

一种信息处理方法及电子设备的制造方法
【专利摘要】本发明提供一种信息处理方法及电子设备，所述方法应用于一电子设备中，所述电子设备包括图像采集单元和声音采集单元，所述方法包括：当利用所述声音采集单元采集声音信息时，利用所述图像采集单元采集图像信息，所述图像信息至少包括发出所述声音信息的说话者的第一图像信息；利用所述声音信息和所述图像信息，获得所述说话者的身份信息；对所述声音信息进行识别，获得所述声音信息对应的文字信息；基于预定的会议脚本模板、所述说话者的身份信息及所述文字信息，生成会议脚本记录。
【专利说明】
_种信息处理方法及电子设备
技术领域
[0001]本发明涉及信息处理技术领域，尤其涉及一种信息处理方法及电子设备。
【背景技术】
[0002]随着信息时代的到来，多人会议成为人们日常工作和生活中不可或缺的一环，而多人会议的脚本记录作为会议的回顾备份也成为会议中必不可少的一部分。
[0003]现有技术中，对会议的脚本记录通常采用人工方式进行。记录员主要记录的内容是:说话者信息、说话者所说的内容。例如:多人会议中，与会者A首先说话，说话的内容为:大家好！接着与会者B说话，说话的内容是:欢迎大家。
[0004]但本申请发明人在实现本申请实施例中发明技术方案的过程中，发现上述技术至少存在如下技术问题:
[0005]现有技术中，需要人工进行会议的脚本记录，专人记录花费劳力，且人工记录容易引入差错，记录后还需人工手动将记录的内容填充至需要的模板中。现有技术中还不存在电子设备在会议进行过程中自动生成脚本记录的方案。
[0006]因此，现有技术中存在的技术问题是:电子设备在会议进行的过程中不能自动生成会议的脚本记录。

【发明内容】

[0007]本发明实施例提供一种信息处理方法及电子设备，用于解决现有技术中存在的电子设备在会议进行的过程中不能自动生成会议的脚本记录的技术问题，提供了一种电子设备在会议进行的过程中自动生成会议的脚本记录的方法，节约了劳力成本，提高了会议的脚本记录的准确性，简化了用户操作。
[0008]—方面，本发明实施例提供了一种信息处理方法，应用于电子设备中，所述电子设备包括图像采集单元和声音采集单元，所述方法包括:
[0009]当利用所述声音采集单元采集声音信息时，利用所述图像采集单元采集图像信息，所述图像信息至少包括发出所述声音信息的说话者的第一图像信息；
[0010]利用所述声音信息和所述图像信息，获得所述说话者的身份信息；
[0011]对所述声音信息进行识别，获得所述声音信息对应的文字信息；
[0012]基于预定的会议脚本模板、所述说话者的身份信息及所述文字信息，生成会议脚本记录。
[0013]可选的，在所述利用所述声音信息和所述图像信息，获得所述说话者的身份信息之前，所述方法还包括:
[0014]利用所述图像采集单元采集与会者的样本图像信息，并利用所述声音采集单元采集与会者的样本声音信息，所述与会者包括所述说话者；
[0015]利用所述样本图像信息和所述样本声音信息，建立说话者识别模型。
[0016]可选的，所述利用所述声音信息和所述图像信息，获得所述说话者的身份信息，具体为:
[0017]利用所述声音信息识别所述说话者的身份信息，获得初步识别结果；
[0018]利用所述样本图像信息对所述初步识别结果进行检验，获得所述说话者的身份信息。
[0019]可选的，所述利用所述样本图像信息对所述初步识别结果进行检验，获得所述说话者的身份信息，包括:
[0020]将所述样本图像信息依次与所述声音信息绑定，获得多个图像声音信息对；
[0021]依次将多个图像声音对输入所述说话者识别模型，获得多个身份信息；
[0022]将多个身份信息中出现次数最多的身份信息作为所述说话者的身份信息。
[0023]可选的，所述利用所述声音信息和所述图像信息，获得所述说话者的身份信息，具体为:
[0024]利用所述图像信息识别所述说话者的身份信息，获得初步识别结果；
[0025]利用所述声音信息对所述初步识别结果进行检验，获得所述说话者的身份信息。
[0026]可选的，所述利用所述图像信息对所述初步识别结果进行检验，获得所述说话者的身份信息，包括:
[0027]从所述样本声音信息中提取所述初步识别结果表征的第一说话者的第一样本声首?目息;
[0028]判断所述声音信息是否与所述第一样本声音信息相同，获得判断结果；
[0029]若所述判断结果为是，则所述说话者的身份信息为所述第一说话者。
[0030]可选的，在所述获得所述说话者的身份信息之后，所述方法还包括:
[0031]根据所述图像信息，确定所述说话者的位置信息；
[0032]所述基于预定的会议脚本模板、所述说话者的身份信息及所述文字信息，生成会议脚本记录，具体为:
[0033]基于预定的会议脚本模板、所述说话者的身份信息、所述说话者的位置信息及所述文字信息，生成所述会议脚本记录。
[0034]另一方面，本发明实施例提供了一种电子设备，包括:
[0035]声音采集单元，用于采集声音信息；
[0036]图像采集单元，用于采集图像信息，所述图像信息至少包括发出所述声音信息的说话者的第一图像信息；
[0037]第一获得单元，用于利用所述声音信息和所述图像信息，获得所述说话者的身份信息；
[0038]第二获得单元，用于对所述声音信息进行识别，获得所述声音信息对应的文字信息;
[0039]生成单元，用于基于预定的会议脚本模板、所述说话者的身份信息及所述文字信息，生成会议脚本记录。
[0040]可选的，所述图像采集单元还用于:在所述利用所述声音信息和所述图像信息，获得所述说话者的身份信息之前，采集与会者的样本图像信息；
[0041]所述声音采集单元还用于:在所述利用所述声音信息和所述图像信息，获得所述说话者的身份信息之前，采集与会者的样本声音信息，所述与会者包括所述说话者；
[0042]所述电子设备还包括:
[0043]建立单元，用于利用所述样本图像信息和所述样本声音信息，建立说话者识别模型。
[0044]可选的，所述第一获得单元具体包括:
[0045]第一获得模块，用于利用所述声音信息识别所述说话者的身份信息，获得初步识别结果；
[0046]第二获得模块，用于利用所述样本图像信息对所述初步识别结果进行检验，获得所述说话者的身份信息。
[0047]可选的，所述第二获得模块包括:
[0048]第一获得子模块，用于将所述样本图像信息依次与所述声音信息绑定，获得多个图像声音信息对；
[0049]第二获得子模块，用于依次将多个图像声音对输入所述说话者识别模型，获得多个身份信息；
[0050]确定子模块，用于将多个身份信息中出现次数最多的身份信息作为所述说话者的身份信息。
[0051]可选的，所述第一获得单元具体包括:
[0052]第三获得模块，用于利用所述图像信息识别所述说话者的身份信息，获得初步识别结果；
[0053]第四获得模块，用于利用所述声音信息对所述初步识别结果进行检验，获得所述说话者的身份信息。
[0054]可选的，所述第四获得模块包括:
[0055]提取子模块，用于从所述样本声音信息中提取所述初步识别结果表征的第一说话者的第一样本声音信息；
[0056]判断子模块，用于判断所述声音信息是否与所述第一样本声音信息相同，获得判断结果；
[0057]确定子模块，用于若所述判断结果为是，则所述说话者的身份信息为所述第一说话者。
[0058]可选的，所述电子设备还包括:
[0059]确定单元，用于在所述获得所述说话者的身份信息之后，根据所述图像信息，确定所述说话者的位置信息；
[0060]所述生成单元具体用于:
[0061]基于预定的会议脚本模板、所述说话者的身份信息、所述说话者的位置信息及所述文字信息，生成所述会议脚本记录。
[0062]本发明实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点:
[0063]1、本发明实施例中，当利用电子设备的声音采集单元采集声音信息时，利用电子设备的图像采集单元采集图像信息，所述图像信息至少包括发出所述声音信息的说话者的第一图像信息；然后利用所述声音信息和所述图像信息，获得所述说话者的身份信息；接着对所述声音信息进行识别，获得所述声音信息对应的文字信息；最后基于预定的会议脚本模板、所述说话者的身份信息及所述文字信息，生成会议脚本记录。在会议进行的过程中电子设备自动生成会议脚本记录，解决了现有技术中存在的电子设备在会议进行的过程中不能自动生成会议的脚本记录的技术问题，提供了一种电子设备在会议进行的过程中自动生成会议的脚本记录的方法，节约了劳力成本，提高了会议的脚本记录的准确性，简化了用户操作。
[0064]2、本发明实施例中，还根据所述图像信息，确定所述说话者的位置信息；然后基于预定的会议脚本模板、所述说话者的身份信息、所述说话者的位置信息及所述文字信息，生成所述会议脚本记录。同时记录每个说话者何时开始说话、说话的具体内容、何时结束说话以及与会者的座位排布等精确信息，方便还原真实的会议场景。
[0065]3、本发明实施例中，利用所述声音信息和所述图像信息，获得所述说话者的身份信息，比传统的人脸和语音识别准确度都要高能有效的保证最终的说话者识别的精确度。
【附图说明】
[0066]为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0067]图1为本发明实施例中一种信息处理方法的流程图；
[0068]图2为本发明实施例中步骤12的第一种实施方式的详细流程图；
[0069]图3为本发明实施例中步骤12的第二种实施方式的详细流程图；
[0070]图4为本发明实施例中一种电子设备的模块图。
【具体实施方式】
[0071]本发明实施例提供一种信息处理方法及电子设备，用于解决现有技术中存在的电子设备在会议进行的过程中不能自动生成会议的脚本记录的技术问题，提供了一种电子设备在会议进行的过程中自动生成会议的脚本记录的方法，节约了劳力成本，提高了会议的脚本记录的准确性，简化了用户操作。
[0072]本发明实施例中，当利用电子设备的声音采集单元采集声音信息时，利用电子设备的图像采集单元采集图像信息，所述图像信息至少包括发出所述声音信息的说话者的第一图像信息；然后利用所述声音信息和所述图像信息，获得所述说话者的身份信息；接着对所述声音信息进行识别，获得所述声音信息对应的文字信息；最后基于预定的会议脚本模板、所述说话者的身份信息及所述文字信息，生成会议脚本记录。在会议进行的过程中电子设备自动生成会议脚本记录，解决了现有技术中存在的电子设备在会议进行的过程中不能自动生成会议的脚本记录的技术问题，提供了一种电子设备在会议进行的过程中自动生成会议的脚本记录的方法，节约了劳力成本，提高了会议的脚本记录的准确性，简化了用户操作。
[0073]为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0074]本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示:单独存在A，同时存在A和B，单独存在B这三种情况。另夕卜，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。
[0075]下面结合附图对本发明的实施方式进行详细说明。
[0076]本发明实施例提供了一种信息处理方法，应用于电子设备中，所述电子设备包括图像采集单元和声音采集单元。所述电子设备可以是:笔记本电脑、平板电脑、智能手机等，所述图像采集单元可以是:所述电子设备上的摄像头、照相机、摄像机等具有图像采集功能的装置，所述声音采集单元可以是:所述电子设备上的麦克风、录音机、摄像机、拾音器等具有声音采集功能的装置，在此仅是对电子设备、图像采集单元及声音采集单元举例说明，本发明并不做任何限定。
[0077]请参考图，图1为本发明实施例提供的信息处理方法的流程图。所述方法包括:
[0078]步骤11:当利用所述声音采集单元采集声音信息时，利用所述图像采集单元采集图像信息，所述图像信息至少包括发出所述声音信息的说话者的第一图像信息；
[0079]步骤12:利用所述声音信息和所述图像信息，获得所述说话者的身份信息；
[0080]步骤13:对所述声音信息进行识别，获得所述声音信息对应的文字信息；
[0081]步骤14:基于预定的会议脚本模板、所述说话者的身份信息及所述文字信息，生成会议脚本记录。
[0082]在多人会议进行的过程中，电子设备的声音采集单元和图像采集单元可以始终处于工作状态。当与会者中有人说话时，利用声音采集单元采集说话者发出的声音信息，同时，利用图像采集单元采集与会者的图像信息，由于说话者是与会者中的一员，所以利用图像采集单元采集到的图像信息中包括发出声音信息的说话者的图像信息。
[0083]以电子设备是笔记本电脑为例，在与会者为甲、乙和丙的三人会议进行的过程中，笔记本电脑的录音机功能和拍照功能均处于工作状态。当甲、乙和丙三人中有人说话时，假设甲说话，则录音机采集甲发出的声音信息，同时，利用相机采集甲、乙和丙的图像。
[0084]为了减小电子设备的功耗，在多人会议进行的过程中，电子设备的声音采集单元可以始终处于工作状态，而图像采集单元默认处于睡眠状态或待机状态，当声音采集单元检测到与会者中有说话者发出声音信息时，一方面声音采集单元采集说话者发出的声音信息，另一方面通知电子设备的中央处理器，中央处理器控制图像采集单元由睡眠状态或待机状态切换为工作状态，然后利用图像采集单元采集与会者的图像信息，由于说话者是与会者中的一员，所以利用图像采集单元采集到的图像信息中包括发出声音信息的说话者的图像信息。
[0085]继续以电子设备是笔记本电脑为例，在与会者为甲、乙和丙的三人会议进行的过程中，笔记本电脑的录音机功能处于工作状态，而拍照功能处于睡眠状态或待机状态，当录音机检测到甲、乙和丙三人中有人说话时，假设甲说话，则录音机一方面采集甲发出的声音信息，另一方面通知笔记本电脑的中央处理器，中央处理器控制相机由睡眠状态或待机状态切换为工作状态，然后利用相机采集甲、乙和丙的图像。
[0086]在获得图像信息以及说话者的声音信息，其中，图像信息至少包括说话者的第一图像信息之后，执行步骤12，获得说话者的身份信息，也就是确定说话者是与会者中的哪一个。由于本发明实施例中，确定说话者的身份信息需要借助于与会者的声音信息和与会者的图像信息，所以在执行步骤12之前，还要执行以下步骤:
[0087]利用所述图像采集单元采集与会者的样本图像信息，并利用所述声音采集单元采集与会者的样本声音信息，所述与会者包括所述说话者；
[0088]利用所述样本图像信息和所述样本声音信息，建立说话者识别模型。
[0089]具体来讲，利用图像采集单元采集每一个与会者的图像信息作为样本图像信息，利用声音采集单元采集每一个与会者的声音信息作为样本声音信息。
[0090]继续以电子设备是笔记本电脑为例，在与会者为甲、乙和丙的三人会议开始之前，甲、乙和丙三人会陆续申请加入到会议中，在每个人申请加入会议的过程中，可以采集
【申请人】的图像信息和声音信息，将采集到的甲、乙和丙三人的图像信息和声音信息收集起来，获得样本图像信息和样本声音信息。
[0091]在采集样本图像信息和样本声音信息的过程中，每采集一个样本图像信息或样本声音信息，就标注该样本图像信息或该样本声音信息属于哪一个与会者。然后将样本图像信息和样本声音信息作为输入，输入至说话者模型，通过对模型中的参数进行调节，使得模型输出的结果为样本图像信息和样本声音信息所标注的与会者。
[0092]继续以电子设备是笔记本电脑为例，在与会者为甲、乙和丙的三人会议开始之前，甲、乙和丙三人会陆续申请加入到会议中，以甲申请加入会议为例，采集甲的图像信息和声音信息作为样本图像信息和样本声音信息，并对采集到的样本图像信息标注为:甲的图像信息，对采集到的样本声音信息标注为:甲的声音信息。按照此方法，还可以获得2个样本图像信息且分别标注为:乙的图像信息、丙的图像信息，同时可以获得2个样本声音信息且分别标注为:乙的声音信息、丙的声音信息。
[0093]假设采集到N种样本图像信息和N种样本声音信息，则共有N乘以N种组合输入至说话者模型，N乘以N种组合中有属于同一与会者的组合，也有属于不同与会者的组合，通过对说话者模型中的参数进行调节，可以筛选出属于同一与会者的组合，并且使得说话者模型的输出结果为正确的与会者。
[0094]继续以电子设备是笔记本电脑为例，在与会者为甲、乙和丙的三人会议开始之前，获得3个样本图像信息且分别标注为:甲的图像信息、乙的图像信息、丙的图像信息，同时获得3个样本声音信息且分别标注为:甲的声音信息、乙的声音信息、丙的声音信息。3个样本图像信息和3个样本声音信息总共能够形成9种组合。
[0095]将9种组合输入到说话者识别模型中，通过对说话者模型中的参数进行调节，可以筛选出属于同一与会者的组合，并且使得说话者模型的输出结果为正确的与会者。例如:输入甲的图像信息和乙的声音信息至说话者识别模型，则输出结果为空，即识别不出说话者是谁，因为说话者识别模型识别出输入的图像信息和声音信息不属于同一个与会者。又例如:输入甲的图像信息和甲的声音信息至说话者识别模型，则输出结果为甲，即说话者是甲。
[0096]在执行完上述步骤后，可以执行步骤12。步骤12具体有以下两种实施方式:
[0097]请参考图2，步骤12的第一种实施方式包括:
[0098]步骤1211:利用所述声音信息识别所述说话者的身份信息，获得初步识别结果；
[0099]步骤1212:利用所述样本图像信息对所述初步识别结果进行检验，获得所述说话者的身份信息。
[0100]其中步骤1212具体为:将所述样本图像信息依次与所述声音信息绑定，获得多个图像声音信息对；依次将多个图像声音对输入所述说话者识别模型，获得多个身份信息；将多个身份信息中出现次数最多的身份信息作为所述说话者的身份信息。
[0101]具体来讲，第一种实施方式需要用到说话者识别模型。首先利用现有的声音识别技术，可以初步判断说话者是与会者中的哪一个，然后利用说话者识别模型对初步判断的结果进行检验，以提高识别结果的准确度。
[0102]例如:在与会者为甲、乙和丙的三人会议进行的过程中，假设甲说话，则录音机会采集到甲的声音信息，利用现有的声音识别技术，初步判断说话者为甲。
[0103]然后利用说话者识别模型对初步判断的结果进行检验。当初步判断的结果为说话者是甲，则将分别标注为:甲的图像信息、乙的图像信息、丙的图像信息的3个样本图像信息与甲的声音信息绑定，得出3个组合:甲的图像信息加甲的声音信息、乙的图像信息加甲的声音信息、丙的图像信息加甲的声音信息。接着将3个组合依次输入到说话者识别模型中，由说话者识别模型识别出说话者为甲。进而确定说话者的身份信息为甲。
[0104]请参考图3，步骤12的第二种实施方式包括:
[0105]步骤1221:利用所述图像信息识别所述说话者的身份信息，获得初步识别结果；
[0106]步骤1222:利用所述声音信息对所述初步识别结果进行检验，获得所述说话者的身份信息。
[0107]其中，步骤1222具体为:从所述样本声音信息中提取所述初步识别结果表征的第一说话者的第一样本声音信息；判断所述声音信息是否与所述第一样本声音信息相同，获得判断结果；若所述判断结果为是，则所述说话者的身份信息为所述第一说话者。
[0108]具体来讲，第二种实施方式需要用到样本声音信息。首先利用现有的人脸识别技术，可以初步判断说话者是与会者中的哪一个，然后将初步判断结果所表征的声音信息与样本声音信息中对应的声音信息进行比较，如果相同，则验证初步判断的结果准确，进而提高识别结果的准确度。
[0109]例如:在与会者为甲、乙和丙的三人会议进行的过程中，假设甲说话，则录音机会采集到甲的声音信息且相机会采集到甲的图像，利用现有的人脸识别技术，初步判断说话者为甲。
[0110]然后从3个样本声音信息中提取出标注为甲的声音信息的样本声音信息，将提取出的样本声音信息与采集到的声音信息进行比较，即比较二者的声纹是否一致，因为一个人的声纹是固定不变的。如果一致，则确定说话者的身份信息为甲。
[0111]在确定说话者的身份信息后，执行步骤13。因为声音采集单元已经采集到说话者所发出的声音信息，所以利用现有的声音识别技术可以识别出声音信息对应的文字内容。
[0112]例如:在与会者为甲、乙和丙的三人会议进行的过程中，假设甲说话，则录音机会采集到甲的声音信息，且确定说话者是甲，然后利用现有的声音识别技术，识别出甲所发出的声音信息对应的文字内容。
[0113]最后，执行步骤14。在预定的会议脚本模板中，填充说话者的身份信息，以及说话者所发出的声音信息对应的文字内容，进而生成会议脚本记录。
[0114]例如:在与会者为甲、乙和丙的三人会议进行的过程中，确定甲先说话，且甲发出的声音信息对应的文字内容为:大家好，接着乙说话，且乙发出的声音信息对应的文字内容为:欢迎大家。而会议脚本模板如下:
[0115]说话者为:_;说话内容:_;
[0116]说话者为:_;说话内容:_ο
[0117]则生成的会议脚本记录如下:
[0118]说话者为:里;说话内容:大家好.'
[0119]说话者为:乙.;说话内容:欢迎大家。
[0120]在本发明另一实施例中，在执行完步骤12，获得说话者的身份信息之后，还可以执行以下步骤:
[0121]根据所述图像信息，确定所述说话者的位置信息；
[0122]则步骤14相应为:
[0123]基于预定的会议脚本模板、所述说话者的身份信息、所述说话者的位置信息及所述文字信息，生成所述会议脚本记录。
[0124]具体来讲，由于执行完步骤11，获得了与会者中每一个人的图像信息，所以可以确定与会者的相对位置，即谁与谁相邻。
[0125]然后在执行步骤14，生成会议脚本记录的过程中，可以记录说话者的位置，进而确定发言顺序等，方便真实还原会议场景。
[0126]基于同一发明构思，本发明实施例中还提供了一种电子设备，由于该电子设备与上述信息处理方法解决问题的原理与信息处理方法相似，因此该电子设备的实施可以参见方法的实施，重复之处不再赘述。
[0127]请参考图4，图4为本发明实施例中一种电子设备的模块示意图。电子设备包括:
[0128]声音采集单元41，用于采集声音信息；
[0129]图像采集单元42，用于采集图像信息，所述图像信息至少包括发出所述声音信息的说话者的第一图像信息；
[0130]第一获得单元43，用于利用所述声音信息和所述图像信息，获得所述说话者的身份信息；
[0131]第二获得单元44，用于对所述声音信息进行识别，获得所述声音信息对应的文字信息；
[0132]生成单元45，用于基于预定的会议脚本模板、所述说话者的身份信息及所述文字信息，生成会议脚本记录。
[0133]可选的，所述图像采集单元42还用于:在所述利用所述声音信息和所述图像信息，获得所述说话者的身份信息之前，采集与会者的样本图像信息；
[0134]所述声音采集单元41还用于:在所述利用所述声音信息和所述图像信息，获得所述说话者的身份信息之前，采集与会者的样本声音信息，所述与会者包括所述说话者；
[0135]所述电子设备还包括:
[0136]建立单元，用于利用所述样本图像信息和所述样本声音信息，建立说话者识别模型。
[0137]可选的，所述第一获得单元43具体包括:
[0138]第一获得模块，用于利用所述声音信息识别所述说话者的身份信息，获得初步识别结果；
[0139]第二获得模块，用于利用所述样本图像信息对所述初步识别结果进行检验，获得所述说话者的身份信息。
[0140]可选的，所述第二获得模块包括:
[0141]第一获得子模块，用于将所述样本图像信息依次与所述声音信息绑定，获得多个图像声音信息对；
[0142]第二获得子模块，用于依次将多个图像声音对输入所述说话者识别模型，获得多个身份信息；
[0143]确定子模块，用于将多个身份信息中出现次数最多的身份信息作为所述说话者的身份信息。
[0144]可选的，所述第一获得单元43具体包括:
[0145]第三获得模块，用于利用所述图像信息识别所述说话者的身份信息，获得初步识别结果；
[0146]第四获得模块，用于利用所述声音信息对所述初步识别结果进行检验，获得所述说话者的身份信息。
[0147]可选的，所述第四获得模块包括:
[0148]提取子模块，用于从所述样本声音信息中提取所述初步识别结果表征的第一说话者的第一样本声音信息；
[0149]判断子模块，用于判断所述声音信息是否与所述第一样本声音信息相同，获得判断结果；
[0150]确定子模块，用于若所述判断结果为是，则所述说话者的身份信息为所述第一说话者。
[0151]可选的，所述电子设备还包括:
[0152]确定单元，用于在所述获得所述说话者的身份信息之后，根据所述图像信息，确定所述说话者的位置信息；
[0153]所述生成单元45具体用于:
[0154]基于预定的会议脚本模板、所述说话者的身份信息、所述说话者的位置信息及所述文字信息，生成所述会议脚本记录。
[0155]本发明实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点:
[0156]1、本发明实施例中，当利用电子设备的声音采集单元采集声音信息时，利用电子设备的图像采集单元采集图像信息，所述图像信息至少包括发出所述声音信息的说话者的第一图像信息；然后利用所述声音信息和所述图像信息，获得所述说话者的身份信息；接着对所述声音信息进行识别，获得所述声音信息对应的文字信息；最后基于预定的会议脚本模板、所述说话者的身份信息及所述文字信息，生成会议脚本记录。在会议进行的过程中电子设备自动生成会议脚本记录，解决了现有技术中存在的电子设备在会议进行的过程中不能自动生成会议的脚本记录的技术问题，提供了一种电子设备在会议进行的过程中自动生成会议的脚本记录的方法，节约了劳力成本，提高了会议的脚本记录的准确性，简化了用户操作。
[0157]2、本发明实施例中，还根据所述图像信息，确定所述说话者的位置信息；然后基于预定的会议脚本模板、所述说话者的身份信息、所述说话者的位置信息及所述文字信息，生成所述会议脚本记录。同时记录每个说话者何时开始说话、说话的具体内容、何时结束说话以及与会者的座位排布等精确信息，方便还原真实的会议场景。
[0158]3、本发明实施例中，利用所述声音信息和所述图像信息，获得所述说话者的身份信息，比传统的人脸和语音识别准确度都要高能有效的保证最终的说话者识别的精确度。
[0159]本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
[0160]本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0161]这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0162]这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0163]具体来讲，本发明实施例中的一种信息处理方法应用于电子设备中，所述电子设备包括图像采集单元和声音采集单元，所述方法对应的计算机程序指令可以被存储在光盘，硬盘，U盘等存储介质上，当存储介质中的与一种信息处理方法对应的计算机程序指令被电子设备读取或被执行时，包括如下步骤:
[0164]当利用所述声音采集单元采集声音信息时，利用所述图像采集单元采集图像信息，所述图像信息至少包括发出所述声音信息的说话者的第一图像信息；
[0165]利用所述声音信息和所述图像信息，获得所述说话者的身份信息；
[0166]对所述声音信息进行识别，获得所述声音信息对应的文字信息；
[0167]基于预定的会议脚本模板、所述说话者的身份信息及所述文字信息，生成会议脚本记录。
[0168]可选的，所述存储介质中还存储有另外一些计算机指令，这些计算机指令在与步骤:利用所述声音信息和所述图像信息，获得所述说话者的身份信息，对应的计算机指令被执行之前被执行，在被执行时包括如下步骤:
[0169]利用所述图像采集单元采集与会者的样本图像信息，并利用所述声音采集单元采集与会者的样本声音信息，所述与会者包括所述说话者；
[0170]利用所述样本图像信息和所述样本声音信息，建立说话者识别模型。
[0171]可选的，所述存储介质中存储的与步骤:利用所述声音信息和所述图像信息，获得所述说话者的身份信息，对应的计算机指令在具体被执行过程中，具体包括如下步骤:
[0172]利用所述声音信息识别所述说话者的身份信息，获得初步识别结果；
[0173]利用所述样本图像信息对所述初步识别结果进行检验，获得所述说话者的身份信息。
[0174]可选的，所述存储介质中存储的与步骤:利用所述样本图像信息对所述初步识别结果进行检验，获得所述说话者的身份信息，对应的计算机指令在具体被执行过程中，具体包括如下步骤:
[0175]将所述样本图像信息依次与所述声音信息绑定，获得多个图像声音信息对；
[0176]依次将多个图像声音对输入所述说话者识别模型，获得多个身份信息；
[0177]将多个身份信息中出现次数最多的身份信息作为所述说话者的身份信息。
[0178]可选的，所述存储介质中存储的与步骤:利用所述声音信息和所述图像信息，获得所述说话者的身份信息，对应的计算机指令在具体被执行过程中，具体包括如下步骤:
[0179]利用所述图像信息识别所述说话者的身份信息，获得初步识别结果；
[0180]利用所述声音信息对所述初步识别结果进行检验，获得所述说话者的身份信息。
[0181]可选的，所述存储介质中存储的与步骤:利用所述图像信息对所述初步识别结果进行检验，获得所述说话者的身份信息，对应的计算机指令在具体被执行过程中，具体包括如下步骤:
[0182]从所述样本声音信息中提取所述初步识别结果表征的第一说话者的第一样本声首?目息;
[0183]判断所述声音信息是否与所述第一样本声音信息相同，获得判断结果；
[0184]若所述判断结果为是，则所述说话者的身份信息为所述第一说话者。
[0185]可选的，所述存储介质中还存储有另外一些计算机指令，这些计算机指令在与步骤:获得所述说话者的身份信息，对应的计算机指令被执行之后被执行，在被执行时包括如下步骤:
[0186]根据所述图像信息，确定所述说话者的位置信息；
[0187]所述基于预定的会议脚本模板、所述说话者的身份信息及所述文字信息，生成会议脚本记录，具体为:
[0188]基于预定的会议脚本模板、所述说话者的身份信息、所述说话者的位置信息及所述文字信息，生成所述会议脚本记录。
[0189]尽管已描述了本发明的实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
[0190]显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。
【主权项】
1.一种信息处理方法，应用于电子设备中，所述电子设备包括图像采集单元和声音采集单元，所述方法包括: 当利用所述声音采集单元采集声音信息时，利用所述图像采集单元采集图像信息，所述图像信息至少包括发出所述声音信息的说话者的第一图像信息；利用所述声音信息和所述图像信息，获得所述说话者的身份信息；对所述声音信息进行识别，获得所述声音信息对应的文字信息；基于预定的会议脚本模板、所述说话者的身份信息及所述文字信息，生成会议脚本记录。2.如权利要求1所述的方法，其特征在于，在所述利用所述声音信息和所述图像信息，获得所述说话者的身份信息之前，所述方法还包括: 利用所述图像采集单元采集与会者的样本图像信息，并利用所述声音采集单元采集与会者的样本声音信息，所述与会者包括所述说话者；利用所述样本图像信息和所述样本声音信息，建立说话者识别模型。3.如权利要求2所述的方法，其特征在于，所述利用所述声音信息和所述图像信息，获得所述说话者的身份信息，具体为: 利用所述声音信息识别所述说话者的身份信息，获得初步识别结果；利用所述样本图像信息对所述初步识别结果进行检验，获得所述说话者的身份信息。4.如权利要求3所述的方法，其特征在于，所述利用所述样本图像信息对所述初步识别结果进行检验，获得所述说话者的身份信息，包括: 将所述样本图像信息依次与所述声音信息绑定，获得多个图像声音信息对；依次将多个图像声音对输入所述说话者识别模型，获得多个身份信息；将多个身份信息中出现次数最多的身份信息作为所述说话者的身份信息。5.如权利要求2所述的方法，其特征在于，所述利用所述声音信息和所述图像信息，获得所述说话者的身份信息，具体为: 利用所述图像信息识别所述说话者的身份信息，获得初步识别结果；利用所述声音信息对所述初步识别结果进行检验，获得所述说话者的身份信息。6.如权利要求5所述的方法，其特征在于，所述利用所述图像信息对所述初步识别结果进行检验，获得所述说话者的身份信息，包括: 从所述样本声音信息中提取所述初步识别结果表征的第一说话者的第一样本声音信息; 判断所述声音信息是否与所述第一样本声音信息相同，获得判断结果；若所述判断结果为是，则所述说话者的身份信息为所述第一说话者。7.如权利要求1至6中任一权项所述的方法，其特征在于，在所述获得所述说话者的身份信息之后，所述方法还包括: 根据所述图像信息，确定所述说话者的位置信息；所述基于预定的会议脚本模板、所述说话者的身份信息及所述文字信息，生成会议脚本记录，具体为: 基于预定的会议脚本模板、所述说话者的身份信息、所述说话者的位置信息及所述文字信息，生成所述会议脚本记录。8.一种电子设备，包括: 声首米集单兀，用于米集声首?目息；图像采集单元，用于采集图像信息，所述图像信息至少包括发出所述声音信息的说话者的第一图像信息；第一获得单元，用于利用所述声音信息和所述图像信息，获得所述说话者的身份信息; 第二获得单元，用于对所述声音信息进行识别，获得所述声音信息对应的文字信息；生成单元，用于基于预定的会议脚本模板、所述说话者的身份信息及所述文字信息，生成会议脚本记录。9.如权利要求8所述的电子设备，其特征在于，所述图像采集单元还用于:在所述利用所述声音信息和所述图像信息，获得所述说话者的身份信息之前，采集与会者的样本图像信息；所述声音采集单元还用于:在所述利用所述声音信息和所述图像信息，获得所述说话者的身份信息之前，采集与会者的样本声音信息，所述与会者包括所述说话者；所述电子设备还包括: 建立单元，用于利用所述样本图像信息和所述样本声音信息，建立说话者识别模型。10.如权利要求9所述的电子设备，其特征在于，所述第一获得单元具体包括: 第一获得模块，用于利用所述声音信息识别所述说话者的身份信息，获得初步识别结果; 第二获得模块，用于利用所述样本图像信息对所述初步识别结果进行检验，获得所述说话者的身份信息。11.如权利要求10所述的电子设备，其特征在于，所述第二获得模块包括: 第一获得子模块，用于将所述样本图像信息依次与所述声音信息绑定，获得多个图像声音信息对；第二获得子模块，用于依次将多个图像声音对输入所述说话者识别模型，获得多个身份信息；确定子模块，用于将多个身份信息中出现次数最多的身份信息作为所述说话者的身份?目息O12.如权利要求9所述的电子设备，其特征在于，所述第一获得单元具体包括: 第三获得模块，用于利用所述图像信息识别所述说话者的身份信息，获得初步识别结果; 第四获得模块，用于利用所述声音信息对所述初步识别结果进行检验，获得所述说话者的身份信息。13.如权利要求12所述的电子设备，其特征在于，所述第四获得模块包括: 提取子模块，用于从所述样本声音信息中提取所述初步识别结果表征的第一说话者的第一样本声音信息；判断子模块，用于判断所述声音信息是否与所述第一样本声音信息相同，获得判断结果; 确定子模块，用于若所述判断结果为是，则所述说话者的身份信息为所述第一说话者。14.如权利要求8至13中任一权项所述的电子设备，其特征在于，所述电子设备还包括: 确定单元，用于在所述获得所述说话者的身份信息之后，根据所述图像信息，确定所述说话者的位置信息；所述生成单元具体用于: 基于预定的会议脚本模板、所述说话者的身份信息、所述说话者的位置信息及所述文字信息，生成所述会议脚本记录。
【文档编号】G06F9/44GK106033339SQ201510112532
【公开日】2016年10月19日
【申请日】2015年3月13日
【发明人】胡永涛
【申请人】联想(北京)有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：胡永涛;
技术所有人：联想（北京）有限公司;
我是此专利的发明人

上一篇：手游战斗技能的可视化编辑方法及系统的制作方法
上一篇：基于fog数据的源代码导入及解析的方法和装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。