一种会议记录生成方法和装置与流程

文档序号：17686473发布日期：2019-05-17 20:40阅读：150来源：国知局

本发明涉及人工智能
技术领域：
，尤其涉及一种会议记录生成方法和装置。
背景技术：
：在会议过程中，由记录人员把会议的各个发言人的发言内容记录并整理，形成会议记录。当会议时间比较长，需要记录的内容比较多的时候，人工整理会议记录费时费力、效率低。技术实现要素：有鉴于此，本发明实施例提供了一种会议记录生成方法和装置，用以解决现有技术中人工整理会议记录费时费力、效率低的问题。一方面，本发明实施例提供了一种会议记录生成方法，所述方法包括：获取会议语音；将所述会议语音进行分割，得到n个语音片段，n为大于等于2的自然数；将所述n个语音片段进行聚类，得到m个类别的语音片段，m为大于等于2的自然数，m≤n，所述m个类别的语音片段分别与m个发言人具有一一对应关系；确定所述m个类别的语音片段中每个类别的语音片段对应的发言人；根据所述m个类别的语音片段确定所述m个发言人中每个发言人的发言内容；根据所述m个发言人中每个发言人的发言内容生成会议记录。进一步地，所述确定所述m个类别的语音片段中每个类别的语音片段对应的发言人，包括：从所述m个类别的语音片段中每个类别的语音片段中各选择至少一个语音片段转换成文本片段，得到l个文本片段，l为自然数，l≥m；向用户展示所述l个文本片段和发言人列表，所述发言人列表包括所述m个发言人中每个发言人的信息；接收匹配指令，所述匹配指令为所述用户发出的用于指示将所述l个文本片段中每个文本片段与发言人进行匹配的指令；根据所述匹配指令确定所述m个类别的语音片段中每个类别的语音片段对应的发言人。进一步地，所述确定所述m个类别的语音片段中每个类别的语音片段对应的发言人，包括：从所述m个类别的语音片段中每个类别的语音片段中各选择至少一个语音片段，得到z个语音片段，z为自然数，z≥m；向用户播放选择出的所述z个语音片段并展示发言人列表，所述发言人列表包括所述m个发言人中每个发言人的信息；接收匹配指令，所述匹配指令为所述用户发出的用于指示将所述z个语音片段中每个语音片段与发言人进行匹配的指令；根据所述匹配指令确定所述m个类别的语音片段中每个类别的语音片段对应的发言人。进一步地，所述将所述n个语音片段进行聚类，包括：s1：从所述n个语音片段中随机选择m个语音片段，将选择的m个语音片段作为m个类别的聚类中心；s2：对于剩余的n-m个语音片段中的第i个语音片段，计算所述第i个语音片段与m个聚类中心中每个聚类中心之间的距离，并将所述第i个语音片段归类到与所述第i个语音片段距离最近的聚类中心对应的类别中，i依次取1至n-m之间的自然数；s3：当所述m个语音片段归类完成之后，根据所述m个类别中每个类别包括的语音片段重新计算所述m个类别的聚类中心，并更新所述m个类别的聚类中心，循环执行s2和s3，直到所述m个类别中每个类别的相邻两次聚类中心的距离在预设距离之内。进一步地，所述将所述会议语音进行分割，得到n个语音片段，包括：确定所述会议语音中的静音片段；去除所述会议语音中的静音片段；根据所述静音片段对去除所述静音片段后的会议语音进行分割，得到w个长语音片段，w为大于等于2的自然数，w＜n；提取所述w个长语音片段中每一个长语音片段的声学特征；对所述w个长语音片段中每一个长语音片段的声学特征进行相对熵分析；根据相对熵分析的结果对所述w个长语音片段进行切分，得到所述n个语音片段。一方面，本发明实施例提供了一种会议记录生成装置，所述装置包括：获取单元，用于获取会议语音；分割单元，用于将所述会议语音进行分割，得到n个语音片段，n为大于等于2的自然数；聚类单元，用于将所述n个语音片段进行聚类，得到m个类别的语音片段，m为大于等于2的自然数，m≤n，所述m个类别的语音片段分别与m个发言人具有一一对应关系；第一确定单元，用于确定所述m个类别的语音片段中每个类别的语音片段对应的发言人；第二确定单元，用于根据所述m个类别的语音片段确定所述m个发言人中每个发言人的发言内容；生成单元，用于根据所述m个发言人中每个发言人的发言内容生成会议记录。进一步地，所述第一确定单元包括：第一选择子单元，用于从所述m个类别的语音片段中每个类别的语音片段中各选择至少一个语音片段转换成文本片段，得到l个文本片段，l为自然数，l≥m；第一展示子单元，用于向用户展示所述l个文本片段和发言人列表，所述发言人列表包括所述m个发言人中每个发言人的信息；第一接收子单元，用于接收匹配指令，所述匹配指令为所述用户发出的用于指示将所述l个文本片段中每个文本片段与发言人进行匹配的指令；第一确定子单元，用于根据所述匹配指令确定所述m个类别的语音片段中每个类别的语音片段对应的发言人。进一步地，所述第一确定单元包括：第二选择子单元，用于从所述m个类别的语音片段中每个类别的语音片段中各选择至少一个语音片段，得到z个语音片段，z为自然数，z≥m；第二展示子单元，用于向用户播放选择出的所述z个语音片段并展示发言人列表，所述发言人列表包括所述m个发言人中每个发言人的信息；第二接收子单元，用于接收匹配指令，所述匹配指令为所述用户发出的用于指示将所述z个语音片段中每个语音片段与发言人进行匹配的指令；第二确定子单元，用于根据所述匹配指令确定所述m个类别的语音片段中每个类别的语音片段对应的发言人。进一步地，所述聚类单元用于执行以下步骤：s1：从所述n个语音片段中随机选择m个语音片段，将选择的m个语音片段作为m个类别的聚类中心；s2：对于剩余的n-m个语音片段中的第i个语音片段，计算所述第i个语音片段与m个聚类中心中每个聚类中心之间的距离，并将所述第i个语音片段归类到与所述第i个语音片段距离最近的聚类中心对应的类别中，i依次取1至n-m之间的自然数；s3：当所述m个语音片段归类完成之后，根据所述m个类别中每个类别包括的语音片段重新计算所述m个类别的聚类中心，并更新所述m个类别的聚类中心，循环执行s2和s3，直到所述m个类别中每个类别的相邻两次聚类中心的距离在预设距离之内。进一步地，所述分割单元包括：第三确定子单元，用于确定所述会议语音中的静音片段；去除子单元，用于去除所述会议语音中的静音片段；分割子单元，用于根据所述静音片段对去除所述静音片段后的会议语音进行分割，得到w个长语音片段，w为大于等于2的自然数，w＜n；提取子单元，用于提取所述w个长语音片段中每一个长语音片段的声学特征；相对熵分析子单元，用于对所述w个长语音片段中每一个长语音片段的声学特征进行相对熵分析；切分子单元，用于根据相对熵分析的结果对所述w个长语音片段进行切分，得到所述n个语音片段。一方面，本发明实施例提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述的会议记录生成方法。一方面，本发明实施例提供了一种计算机设备，包括存储器和处理器，所述存储器用于存储包括程序指令的信息，所述处理器用于控制程序指令的执行，所述程序指令被处理器加载并执行时实现上述的会议记录生成方法的步骤。在本发明实施例中，将会议语音进行分割，得到n个语音片段，将n个语音片段进行聚类，得到m个类别的语音片段，确定每个类别的语音片段对应的发言人；根据m个类别的语音片段确定m个发言人的发言内容；根据各个发言人的发言内容，生成会议记录，解决了现有技术中人工整理会议记录费时费力、效率低的问题，达到了智能分析会议上的发言内容，高效整理出会议记录的效果。【附图说明】为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。图1是根据本发明实施例一种可选的会议记录生成方法的流程图；图2是根据本发明实施例一种可选的会议记录生成装置的示意图；图3是本发明实施例提供的一种可选的计算机设备的示意图。【具体实施方式】为了更好的理解本发明的技术方案，下面结合附图对本发明实施例进行详细描述。应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。图1是根据本发明实施例一种可选的会议记录生成方法的流程图，如图1所示，该方法包括：步骤s102，获取会议语音。步骤s104，将会议语音进行分割，得到n个语音片段，n为大于等于2的自然数。步骤s106，将n个语音片段进行聚类，得到m个类别的语音片段，m为大于等于2的自然数，m≤n，m个类别的语音片段分别与m个发言人具有一一对应关系。步骤s108，确定m个类别的语音片段中每个类别的语音片段对应的发言人。步骤s110，根据m个类别的语音片段确定m个发言人中每个发言人的发言内容。步骤s112，根据m个发言人中每个发言人的发言内容生成会议记录。在本发明实施例中，会议可以包括两种情况：第一种情况：所有参会人员都到场的情况。例如，某部门举行了一次会议，所有人聚在同一个会议室开会。第二种情况：借助于某些应用软件进行开会的情况。例如，某部门举行了一次会议，一些人聚在同一个会议室，另一些人在外地出差，通过微信、qq或其他应用软件参加会议。再例如，某公司举行了一次会议，参会人员有3个，分别为北京的部门经理、上海的部门经理、深圳的部门经理，这些人的地理位置分别位于北京、上海、深圳，这三个人在不同的城市通过微信、qq或其他应用软件开会。在本发明实施例中，会议语音可以为以上任意一种方式开会的过程中产生的语音。会议语音可以是在开会时现场录制的，例如，若干人聚在一起开会，其中一个人用手机、录音机、录音笔或者其他录音设备录制会议过程中产生的语音得到会议语音；会议语音也可以是通过录制通过即时通讯软件开会的过程中产生的语音得到的，例如，若干人通过微信/qq开会，其中一个人用手机、录音机、录音笔或者其他录音设备录制会议过程中产生的微信语音/qq语音得到会议语音。在本发明实施例中，发言人指的是在会议过程中发言的人，发言人的数量小于或等于参会人员的数量，如果所有参会人员都发言了，那么发言人的数量等于参会人员的数量；如果只有部分参会人员发言了，那么发言人的数量小于参会人员的数量。下面举一个具体的例子对本发明实施例提供的会议记录生成方法进行说明。例如，若干个人开会，录制会议过程中产生的语音，得到会议语音，假设会议语音为20分钟，将会议语音进行分割，例如得到6000(n＝6000)个语音片段，将这6000个语音片段进行聚类，得到3(m＝3)个类别的语音片段，其中，类别1包括3000个语音片段，分别为语音片段p(1，1)、语音片段p(1，2)、……、语音片段p(1，3000)，这3000个语音片段对应同一个发言人；类别2包括1000个语音片段，分别为语音片段p(2，1)、语音片段p(2，2)、……、语音片段p(2，1000)，这1000个语音片段对应同一个发言人；类别3包括2000个语音片段，分别为语音片段p(3，1)、语音片段p(3，2)、……、语音片段p(3，2000)，这2000个语音片段对应同一个发言人。然后，分别确定每个类别的语音片段对应的发言人，例如，假设确定出类别1包括的3000个语音片段对应发言人甲，类别2包括的1000个语音片段对应发言人乙，类别3包括的2000个语音片段对应发言人丙，如表1所示。根据语音片段p(1，1)、语音片段p(1，2)、……、语音片段p(1，3000)确定发言人甲的发言内容；根据语音片段p(2，1)、语音片段p(2，2)、……、语音片段p(2，1000)确定发言人乙的发言内容；根据语音片段p(3，1)、语音片段p(3，2)、……、语音片段p(3，2000)确定发言人丙的发言内容。根据发言人甲、发言人乙和发言人丙的发言内容生成会议记录。表1在本发明实施例中，将会议语音进行分割，得到n个语音片段，将n个语音片段进行聚类，得到m个类别的语音片段，确定每个类别的语音片段对应的发言人；根据m个类别的语音片段确定m个发言人的发言内容；根据各个发言人的发言内容，生成会议记录，解决了现有技术中人工整理会议记录费时费力、效率低的问题，达到了智能分析会议上的发言内容，高效整理出会议记录的效果。确定每个类别的语音片段对应的发言人，具体方法可以有多种，下面举出几种。方法一：从m个类别的语音片段中每个类别的语音片段中各选择至少一个语音片段转换成文本片段，得到l个文本片段，l为自然数，l≥m；向用户展示l个文本片段和发言人列表，发言人列表包括m个发言人中每个发言人的信息；接收匹配指令，匹配指令为用户发出的用于指示将l个文本片段中每个文本片段与发言人进行匹配的指令；根据匹配指令确定m个类别的语音片段中每个类别的语音片段对应的发言人。从m个类别的语音片段中每个类别的语音片段中各选择至少一个语音片段转换成文本片段，得到l个文本片段，具体地，可以从m个类别的语音片段中每个类别的语音片段中各随机选择至少一个语音片段转换成文本片段。例如，从表1所示的3个类别的语音片段中每个类别的语音片段中各选择一个语音片段，从类别1中选出的语音片段为语音片段p(1，1)；从类别2中选出的语音片段为语音片段p(2，1)；从类别3中选出的语音片段为语音片段p(3，1)。将这3个语音片段分别进行转换，得到文本片段f(1，1)、文本片段f(2，1)、文本片段f(3，1)，这三个文本片段与上述三个语音片段之间的对应关系如表2所示。表2语音片段语音片段转化得到的文本片段语音片段p(1，1)文本片段f(1，1)语音片段p(2，1)文本片段f(2，1)语音片段p(3，1)文本片段f(3，1)向用户展示这3(l＝3)个文本片段和发言人列表，发言人列表包括3个发言人中每个发言人的信息。发言人的信息可以包括发言人的姓名、职位等。用户可以是会议的主持人，可以是其他参会人员。用户看到这3个文本片段后，即可知道与文本片段相对应的是哪位参会人员的发言。例如，假设有一个文本片段的内容是：“大家好，我是今天会议的主持人。”当用户看到这个文本片段后，即可知道这个文本片段对应的是会议主持人的发言。用户可发出匹配指令，匹配指令为用于指示将3个文本片段中每个文本片段与发言人进行匹配的指令，例如，匹配指令指示按照表3将文本片段与发言人进行匹配。表3文本片段文本片段对应的发言人文本片段f(1，1)甲文本片段f(2，1)乙文本片段f(3，1)丙由于文本片段f(1，1)是类别1中的语音片段转换得到的，而类别1中的所有语音片段对应的是同一个发言人，因此，文本片段f(1，1)对应的发言人甲即为类别1中的所有语音片段对应的发言人，即，类别1中的所有语音片段都是发言人甲发出的；同理，由于文本片段f(2，1)是类别2中的语音片段转换得到的，类别2中的所有语音片段都是发言人乙发出的；同理，由于文本片段f(3，1)是类别3中的语音片段转换得到的，类别3中的所有语音片段都是发言人丙发出的，语音片段与发言人之间的对应关系如表4所示。表4方法二：从m个类别的语音片段中每个类别的语音片段中各选择至少一个语音片段，得到z个语音片段，z为自然数，z≥m；向用户播放选择出的z个语音片段并展示发言人列表，发言人列表包括m个发言人中每个发言人的信息；接收匹配指令，匹配指令为用户发出的用于指示将z个语音片段中每个语音片段与发言人进行匹配的指令；根据匹配指令确定m个类别的语音片段中每个类别的语音片段对应的发言人。从m个类别的语音片段中每个类别的语音片段中各选择至少一个语音片段，具体地，可以从m个类别的语音片段中每个类别的语音片段中各随机选择至少一个语音片段。假设从类别1中随机选择了2个语音片段，分别为语音片段f(1，32)、语音片段f(1，450)；从类别2中随机选择了2个语音片段，分别为语音片段f(2，100)、语音片段f(2，400)；从类别3中随机选择了2个语音片段，分别为语音片段f(3，900)、语音片段f(3，600)。向用户播放这6(z＝6)个语音片段，用户听到这6个语音片段后，根据声音的音色能够轻松识别每个语音片段是哪位参会人员的发言。用户可发出匹配指令，匹配指令为用于指示将6个语音片段中每个语音片段与发言人进行匹配的指令，匹配方式如表5所示。表5语音片段语音片段对应的发言人语音片段f(1，32)、语音片段f(1，450)甲语音片段f(2，100)、语音片段f(2，400)乙语音片段f(3，900)、语音片段f(3，600)丙由于语音片段f(1，32)、语音片段f(1，450)是类别1中的语音片段，而类别1中的所有语音片段对应的是同一个发言人，因此，语音片段f(1，32)、语音片段f(1，450)对应的发言人甲即为类别1中的所有语音片段对应的发言人，即，类别1中的所有语音片段都是发言人甲发出的；同理，由于语音片段f(2，100)、语音片段f(2，400)是类别2中的语音片段，类别2中的所有语音片段都是发言人乙发出的；同理，由于语音片段f(3，900)、语音片段f(3，600)是类别3中的语音片段，类别3中的所有语音片段都是发言人丙发出的，语音片段与发言人之间的对应关系如表4所示。在本发明实施例中，通过根据聚类算法将同一个发言人对应的语音片段聚类到一起，然后从每个类别中随机选择一个或多个语音片段，向用户播放选择的语音片段，请用户将语音片段与发言人进行对应；或者将选择出的语音片段转换成文本片段，向用户展示文本片段，请用户将文本片段与发言人进行对应，非常简单方便，不需要事先知道发言人的声纹特征或其他声音相关的特征。将n个语音片段进行聚类的具体过程如下：s1：从n个语音片段中随机选择m个语音片段，将选择的m个语音片段作为m个类别的聚类中心；s2：对于剩余的n-m个语音片段中的第i个语音片段，计算第i个语音片段与m个聚类中心中每个聚类中心之间的距离，并将第i个语音片段归类到与第i个语音片段距离最近的聚类中心对应的类别中，i依次取1至n-m之间的自然数；s3：当m个语音片段归类完成之后，根据m个类别中每个类别包括的语音片段重新计算m个类别的聚类中心，并更新m个类别的聚类中心，循环执行s2和s3，直到m个类别中每个类别的相邻两次聚类中心的距离在预设距离之内。在本发明实施例中，可采用k-means算法对语音片段进行聚类。m即为发言人的数量，该数量可以由会议主持人或其他参会人员提供。k-means算法是很典型的基于距离的聚类算法，采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。该算法认为簇是由距离靠近的对象组成的，因此把得到紧凑且独立的簇作为最终目标。初始类聚类中心点的选取对聚类结果具有较大的影响，因为在该算法第一步中是随机的选取任意k(在本发明实施例中，k＝m)个对象作为初始聚类的中心，初始地代表一个簇。该算法在每次迭代中对数据集中剩余的每个对象，根据其与各个簇中心的距离将每个对象重新赋给最近的簇。当考察完所有数据对象后，一次迭代运算完成，新的聚类中心被计算出来。如果在一次迭代前后，新的质心与原质心相等或小于指定阈值，算法结束。在本发明实施例中，当m个类别中每个类别的相邻两次聚类中心的距离在预设距离之内时，循环结束，得到聚类结果。上述步骤s2：对于剩余的n-m个语音片段中的第i个语音片段，计算第i个语音片段与m个聚类中心中每个聚类中心之间的距离，可以通过声纹特征进行计算，具体过程可以是：提取第i个语音片段(待聚类的语音片段)的声纹特征；提取m个聚类中心中的每个聚类中心的声纹特征；将第i个语音片段的声纹特征与m个聚类中心中的每个聚类中心的声纹特征进行相似度计算，将计算出的相似度作为第i个语音片段与聚类中心之间的距离。由于每个人与发音有关的解剖学结构不同，并且受社会经济状况、教育水平、出生地等影响，不同人的声纹特征不完全相同。本发明实施例中提取的声纹特征可以为韵律特征。音色、音强、音高等，总称为语音的韵律特征，又称超音段特征。音强显示语音的重音、轻音等强弱变化，音高表现语音的字调与语调。在本发明实施例中，提取语音片段的声纹特征，通过声纹特征对语音片段进行聚类，将声纹特征相似度高的语音片段聚在一起，作为同一个发言人发出的语音片段，在这个过程中，并需要预先知道发言人的声纹特征，更不需要预先存储发言人的声纹特征，保护了发言人的隐私，安全性高，用户体验好。可选地，将会议语音进行分割，得到n个语音片段，包括：确定会议语音中的静音片段；去除会议语音中的静音片段；根据静音片段对去除静音片段后的会议语音进行分割，得到w个长语音片段，w为大于等于2的自然数，w＜n；提取w个长语音片段中每一个长语音片段的声学特征；对w个长语音片段中每一个长语音片段的声学特征进行相对熵分析；根据相对熵分析的结果对w个长语音片段进行切分，得到n个语音片段。可选地，对每一个长语音段的声学特征进行相对熵分析；根据相对熵分析的结果对长语音段进行切分，包括：对长语音段进行分帧，得到长语音段的语音帧，提取语音帧的声学特征，对声学特征进行相对熵分析，确定相对熵的最大值处，判断长语音段的时长是否大于预设时长；如果长语音段的时长大于预设时长，在相对熵的最大值处对长语音段进行切分。在概率论或信息论中，相对熵(relativeentropy)，又称kl散度(kullback–leiblerdivergence)，是描述两个概率分布p和q差异的一种方法。它是非对称的，这意味着d(p||q)≠d(q||p)。特别的，在信息论中，d(p||q)表示当用概率分布q来拟合真实分布p时，产生的信息损耗，其中p表示真实分布，q表示p的拟合分布。对一个离散随机变量的两个概率分布p和q来说，它们的kl散度定义为：d(p||q)＝∑p(i)lnp(i)/q(i)，对于连续的随机变量，定义类似。图2是根据本发明实施例一种可选的会议记录生成装置的示意图，该装置用于执行上述会议记录生成方法，如图2所示，该装置包括：获取单元10、分割单元20、聚类单元30、第一确定单元40、第二确定单元50、生成单元60。获取单元10，用于获取会议语音。分割单元20，用于将会议语音进行分割，得到n个语音片段，n为大于等于2的自然数。聚类单元30，用于将n个语音片段进行聚类，得到m个类别的语音片段，m为大于等于2的自然数，m≤n，m个类别的语音片段分别与m个发言人具有一一对应关系。第一确定单元40，用于确定m个类别的语音片段中每个类别的语音片段对应的发言人。第二确定单元50，用于根据m个类别的语音片段确定m个发言人中每个发言人的发言内容。生成单元60，用于根据m个发言人中每个发言人的发言内容生成会议记录。在本发明实施例中，将会议语音进行分割，得到n个语音片段，将n个语音片段进行聚类，得到m个类别的语音片段，确定每个类别的语音片段对应的发言人；根据m个类别的语音片段确定m个发言人的发言内容；根据各个发言人的发言内容，生成会议记录，解决了现有技术中人工整理会议记录费时费力、效率低的问题，达到了智能分析会议上的发言内容，高效整理出会议记录的效果。可选地，第一确定单元40包括：第一选择子单元、第一展示子单元、第一接收子单元、第一确定子单元。第一选择子单元，用于从m个类别的语音片段中每个类别的语音片段中各选择至少一个语音片段转换成文本片段，得到l个文本片段，l为自然数，l≥m。第一展示子单元，用于向用户展示l个文本片段和发言人列表，发言人列表包括m个发言人中每个发言人的信息。第一接收子单元，用于接收匹配指令，匹配指令为用户发出的用于指示将l个文本片段中每个文本片段与发言人进行匹配的指令。第一确定子单元，用于根据匹配指令确定m个类别的语音片段中每个类别的语音片段对应的发言人。可选地，第一确定单元40包括：第二选择子单元、第二展示子单元、第二接收子单元、第二确定子单元。第二选择子单元，用于从m个类别的语音片段中每个类别的语音片段中各选择至少一个语音片段，得到z个语音片段，z为自然数，z≥m。第二展示子单元，用于向用户播放选择出的z个语音片段并展示发言人列表，发言人列表包括m个发言人中每个发言人的信息。第二接收子单元，用于接收匹配指令，匹配指令为用户发出的用于指示将z个语音片段中每个语音片段与发言人进行匹配的指令。第二确定子单元，用于根据匹配指令确定m个类别的语音片段中每个类别的语音片段对应的发言人。可选地，聚类单元用于执行以下步骤：s1：从n个语音片段中随机选择m个语音片段，将选择的m个语音片段作为m个类别的聚类中心。s2：对于剩余的n-m个语音片段中的第i个语音片段，计算第i个语音片段与m个聚类中心中每个聚类中心之间的距离，并将第i个语音片段归类到与第i个语音片段距离最近的聚类中心对应的类别中，i依次取1至n-m之间的自然数。s3：当m个语音片段归类完成之后，根据m个类别中每个类别包括的语音片段重新计算m个类别的聚类中心，并更新m个类别的聚类中心。循环执行s2和s3，直到m个类别中每个类别的相邻两次聚类中心的距离在预设距离之内。可选地，分割单元20包括：第三确定子单元、去除子单元、分割子单元、提取子单元、相对熵分析子单元、切分子单元。第三确定子单元，用于确定会议语音中的静音片段。去除子单元，用于去除会议语音中的静音片段。分割子单元，用于根据静音片段对去除静音片段后的会议语音进行分割，得到w个长语音片段，w为大于等于2的自然数，w＜n。提取子单元，用于提取w个长语音片段中每一个长语音片段的声学特征。相对熵分析子单元，用于对w个长语音片段中每一个长语音片段的声学特征进行相对熵分析。切分子单元，用于根据相对熵分析的结果对w个长语音片段进行切分，得到n个语音片段。一方面，本发明实施例提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行以下步骤：获取会议语音；将会议语音进行分割，得到n个语音片段，n为大于等于2的自然数；将n个语音片段进行聚类，得到m个类别的语音片段，m为大于等于2的自然数，m≤n，m个类别的语音片段分别与m个发言人具有一一对应关系；确定m个类别的语音片段中每个类别的语音片段对应的发言人；根据m个类别的语音片段确定m个发言人中每个发言人的发言内容；根据m个发言人中每个发言人的发言内容生成会议记录。可选地，在程序运行时控制存储介质所在设备还执行以下步骤：从m个类别的语音片段中每个类别的语音片段中各选择至少一个语音片段转换成文本片段，得到l个文本片段，l为自然数，l≥m；向用户展示l个文本片段和发言人列表，发言人列表包括m个发言人中每个发言人的信息；接收匹配指令，匹配指令为用户发出的用于指示将l个文本片段中每个文本片段与发言人进行匹配的指令；根据匹配指令确定m个类别的语音片段中每个类别的语音片段对应的发言人。可选地，在程序运行时控制存储介质所在设备还执行以下步骤：从m个类别的语音片段中每个类别的语音片段中各选择至少一个语音片段，得到z个语音片段，z为自然数，z≥m；向用户播放选择出的z个语音片段并展示发言人列表，发言人列表包括m个发言人中每个发言人的信息；接收匹配指令，匹配指令为用户发出的用于指示将z个语音片段中每个语音片段与发言人进行匹配的指令；根据匹配指令确定m个类别的语音片段中每个类别的语音片段对应的发言人。可选地，在程序运行时控制存储介质所在设备还执行以下步骤：s1：从n个语音片段中随机选择m个语音片段，将选择的m个语音片段作为m个类别的聚类中心；s2：对于剩余的n-m个语音片段中的第i个语音片段，计算第i个语音片段与m个聚类中心中每个聚类中心之间的距离，并将第i个语音片段归类到与第i个语音片段距离最近的聚类中心对应的类别中，i依次取1至n-m之间的自然数；s3：当m个语音片段归类完成之后，根据m个类别中每个类别包括的语音片段重新计算m个类别的聚类中心，并更新m个类别的聚类中心，循环执行s2和s3，直到m个类别中每个类别的相邻两次聚类中心的距离在预设距离之内。可选地，在程序运行时控制存储介质所在设备还执行以下步骤：确定会议语音中的静音片段；去除会议语音中的静音片段；根据静音片段对去除静音片段后的会议语音进行分割，得到w个长语音片段，w为大于等于2的自然数，w＜n；提取w个长语音片段中每一个长语音片段的声学特征；对w个长语音片段中每一个长语音片段的声学特征进行相对熵分析；根据相对熵分析的结果对w个长语音片段进行切分，得到n个语音片段。一方面，本发明实施例提供了一种计算机设备，包括存储器和处理器，存储器用于存储包括程序指令的信息，处理器用于控制程序指令的执行，程序指令被处理器加载并执行时实现以下步骤：获取会议语音；将会议语音进行分割，得到n个语音片段，n为大于等于2的自然数；将n个语音片段进行聚类，得到m个类别的语音片段，m为大于等于2的自然数，m≤n，m个类别的语音片段分别与m个发言人具有一一对应关系；确定m个类别的语音片段中每个类别的语音片段对应的发言人；根据m个类别的语音片段确定m个发言人中每个发言人的发言内容；根据m个发言人中每个发言人的发言内容生成会议记录。可选地，程序指令被处理器加载并执行时还实现以下步骤：从m个类别的语音片段中每个类别的语音片段中各选择至少一个语音片段转换成文本片段，得到l个文本片段，l为自然数，l≥m；向用户展示l个文本片段和发言人列表，发言人列表包括m个发言人中每个发言人的信息；接收匹配指令，匹配指令为用户发出的用于指示将l个文本片段中每个文本片段与发言人进行匹配的指令；根据匹配指令确定m个类别的语音片段中每个类别的语音片段对应的发言人。可选地，程序指令被处理器加载并执行时还实现以下步骤：从m个类别的语音片段中每个类别的语音片段中各选择至少一个语音片段，得到z个语音片段，z为自然数，z≥m；向用户播放选择出的z个语音片段并展示发言人列表，发言人列表包括m个发言人中每个发言人的信息；接收匹配指令，匹配指令为用户发出的用于指示将z个语音片段中每个语音片段与发言人进行匹配的指令；根据匹配指令确定m个类别的语音片段中每个类别的语音片段对应的发言人。可选地，程序指令被处理器加载并执行时还实现以下步骤：s1：从n个语音片段中随机选择m个语音片段，将选择的m个语音片段作为m个类别的聚类中心；s2：对于剩余的n-m个语音片段中的第i个语音片段，计算第i个语音片段与m个聚类中心中每个聚类中心之间的距离，并将第i个语音片段归类到与第i个语音片段距离最近的聚类中心对应的类别中，i依次取1至n-m之间的自然数；s3：当m个语音片段归类完成之后，根据m个类别中每个类别包括的语音片段重新计算m个类别的聚类中心，并更新m个类别的聚类中心，循环执行s2和s3，直到m个类别中每个类别的相邻两次聚类中心的距离在预设距离之内。可选地，程序指令被处理器加载并执行时还实现以下步骤：确定会议语音中的静音片段；去除会议语音中的静音片段；根据静音片段对去除静音片段后的会议语音进行分割，得到w个长语音片段，w为大于等于2的自然数，w＜n；提取w个长语音片段中每一个长语音片段的声学特征；对w个长语音片段中每一个长语音片段的声学特征进行相对熵分析；根据相对熵分析的结果对w个长语音片段进行切分，得到n个语音片段。图3是本发明实施例提供的一种计算机设备的示意图。如图3所示，该实施例的计算机设备50包括：处理器51、存储器52以及存储在存储器52中并可在处理器51上运行的计算机程序53，该计算机程序53被处理器51执行时实现实施例中的会议记录生成方法，为避免重复，此处不一一赘述。或者，该计算机程序被处理器51执行时实现实施例中会议记录生成装置中各模型/单元的功能，为避免重复，此处不一一赘述。计算机设备50可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可包括，但不仅限于，处理器51、存储器52。本领域技术人员可以理解，图3仅仅是计算机设备50的示例，并不构成对计算机设备50的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如计算机设备还可以包括输入输出设备、网络接入设备、总线等。所称处理器51可以是中央处理单元(centralprocessingunit，cpu)，还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor，dsp)、专用集成电路(applicationspecificintegratedcircuit，asic)、现场可编程门阵列(field-programmablegatearray，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。存储器52可以是计算机设备50的内部存储单元，例如计算机设备50的硬盘或内存。存储器52也可以是计算机设备50的外部存储设备，例如计算机设备50上配备的插接式硬盘，智能存储卡(smartmediacard,smc)，安全数字(securedigital,sd)卡，闪存卡(flashcard)等。进一步地，存储器52还可以既包括计算机设备50的内部存储单元也包括外部存储设备。存储器52用于存储计算机程序以及计算机设备所需的其他程序和数据。存储器52还可以用于暂时地存储已经输出或者将要输出的数据。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(read-onlymemory，rom)、随机存取存储器(randomaccessmemory，ram)、磁碟或者光盘等各种可以存储程序代码的介质。以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。当前第1页12

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴欢;田甜
技术所有人：平安科技（深圳）有限公司
我是此专利的发明人