基于语音识别的会议记录生成方法、装置及存储介质与流程

文档序号:18890247发布日期:2019-10-15 21:41阅读:319来源:国知局
基于语音识别的会议记录生成方法、装置及存储介质与流程

本发明涉及互联网技术领域,尤其涉及一种基于语音识别的会议记录生成方法、电子装置及计算机可读存储介质。



背景技术:

目前,会议记录的撰写方式主要为:首先,会议现场记录关键词;其次,会议后在会议录音中寻找关键词并重听关键词附近录音并扩展关键词以形成会议记录。但是由于关键词和录音之间没有对应关系,记录人员在会后翻找关键词时需要通过人工反复定位寻找,耗费时间,操作也比较麻烦,更进一步,如果会议中同一个关键词出现多次,仅靠人工重听录音定位可能出现错误定位的情况,导致会议记录出现记录错误。

为了解决上述问题,目前市面上出现了依托于语音转换技术自动生成会议记录文本的会议记录产品,然而,这种现有的会议记录产品通常为简单的语音转文字产品,语音转换的准确率得不到保障,记录人员在使用后得到的是一篇长文本,它与会议录音并无挂钩,加上语音转文字技术不够成熟,往往记录人员在拿到文本后因转文错误较多无从下手,最后还是只能依靠人工听录音的方式去完成会议记录。

因此,如何便捷、准确地生成会议记录成为一个亟待解决的技术问题。



技术实现要素:

鉴于以上内容,本发明提供一种基于语音识别的会议记录生成方法、电子装置及计算机可读存储介质,其主要目的在于提高会议记录生成的效率及准确性。

为实现上述目的,本发明提供一种基于语音识别的会议记录生成方法,该方法包括:

接收步骤:接收用户发出的会议记录生成指令,根据所述会议记录生成指令获取待转换音频,或者,定时或实时从预设存储路径中获取待转换音频;

第一划分步骤:对所述待转换音频进行句子划分,得到所述待转换音频的音频句子;

第二划分步骤:分别从所述音频句子中提取声纹特征,将各个所述音频句子的声纹特征与预设声纹特征库进行对比分析,确定各个所述音频句子对应的说话人身份信息,并根据所述说话人身份信息将所述音频句子划分为语音段,确定所述待转换音频对应的语音段集合;

语音识别步骤:根据所述语音段集合中各语音段对应的说话人身份信息调用各语音段对应的目标语音识别模型,依次将各语音段输入对应的目标语音识别模型,得到各语音段对应的文本片段,其中,所述目标语音识别模型是基于口音语料库及行业语料库进行更新训练得到的;及

生成步骤:合并各语音段对应的文本片段,生成所述待转换音频对应的目标文本,并在所述目标文本的每个所述文本片段中关联对应的语音段及说话人身份信息,生成所述待转换音频对应的会议记录。

此外,为实现上述目的,本发明还提供一种电子装置,该装置包括:存储器、处理器,所述存储器中存储有可在所述处理器上运行的会议记录生成程序,所述会议记录生成程序被所述处理器执行时可实现如上所述基于语音识别的会议记录生成方法中的任意步骤。

此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中包括会议记录生成程序,所述会议记录生成程序被处理器执行时,可实现如上所述基于语音识别的会议记录生成方法中的任意步骤。

本发明提出的基于语音识别的会议记录生成方法、电子装置及计算机可读存储介质,1.通过对待转换音频进行分句、语音特征提取及说话人身份信息匹配,根据匹配结果确定待转换音频对应的语音段集合,分别调用不同的目标语音识别模型对各语音段进行语音识别,提高了语音识别的效率及准确率,为后续生成完整准确的会议记录打下基础;2.通过利用说话人口音语料库及行业语料库更新训练模型,提高语音识别的准确性;3.通过关联说话人身份信息、语音段、文本片段、关键词等生成会议记录,提高了会议记录的完整性及便利性。

附图说明

图1为本发明基于语音识别的会议记录生成方法较佳实施例的流程图;

图2为本发明电子装置较佳实施例的示意图;

图3为图2中会议记录生成程序较佳实施例的程序模块示意图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本发明提供一种基于语音识别的会议记录生成方法。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。

参照图1所示,为本发明基于语音识别的会议记录生成方法较佳实施例的流程图。

在本发明基于语音识别的会议记录生成方法一实施例中,该方法仅包括:步骤s1-步骤s5。

步骤s1,接收用户发出的会议记录生成指令,根据所述会议记录生成指令获取待转换音频,或者,定时或实时从预设存储路径中获取待转换音频。

在以下描述中,以电子装置为主体,对本发明的各实施例进行说明。

本实施例中,用户通过终端向电子装置发出会议记录生成指令,其中,所述指令中包括待转换音频;上述待转换音频为会议过程中录制的语音音频,其可以是由用户通过话筒等语音设备输入并保存,或者,由用户从网上下载或本地导入的语音资料文件。上述预设存储路径不仅限于用于存储会议记录相关音频的数据库。

上述定时或实时从预设存储路径中获取待转换音频的步骤包括:定时(每天上午9:00、每天下午5:30)判断待存储路径中是否存在未经转换的会议记录相关音频,若是,则将未经转换的会议记录相关音频作为待转换音频,若否,则判断不存在待转换音频。或者,每当预设存储路径中写入一段会议记录相关音频时,则将其作为待转换音频并读取出来,以执行后续步骤。

步骤s2,基于预设句子划分规则对所述待转换音频进行句子划分,得到所述待转换音频的音频句子。

对待转换音频进行句子切分的目的是为了得到更易于进行语音识别的短句,提高后续将音频转换为文本的准确性。在本实施例中,所述基于预设句子划分规则对所述待转换音频进行句子划分,得到所述待转换音频的音频句子,包括:

a1、识别所述待转换音频中的第一停顿,记录第一停顿的开始时间和结束时间;

a2、识别出所述待转换音频中的第一句子,并将第一停顿的结束时间作为第一句子的开始时间;

a3、识别第二停顿,记录第二停顿的开始时间和结束时间,并将第二停顿的开始时间作为第一句子的结束时间,实现第一句子的划分;

a4、依次执行上述步骤,直至所述待转换音频结束,得到所述待转换音频的所有音频句子。

其中,第一停顿、第二停顿包括待转换音频中的静音段、非语音段;第一句子为待转换音频的语音段。需要说明的是,第一停顿和第二停顿仅为了区分不同时间对应的停顿。

可以理解的是,音频句子的划分结果与后续音频转换的准确率息息相关,音频句子划分准确率越高,音频转换的准确率越高。本实施例中,每一个停顿具有最小长度限制,用于忽略短伴音信息,例如说话人的瞬时换气等,以保护一句话的完整性;划分得到的每个句子具有最小长度限制,用于过滤掉音频中的短时无效信息,例如,说话人的咳嗽等;同时,划分得到的每个句子还具有最大长度限制,用于限制句子的长度,提高后续音频的转换准确率。

步骤s3,分别从所述音频句子中提取声纹特征,将各个所述音频句子的声纹特征与预设声纹特征库进行对比分析,确定各个所述音频句子对应的说话人身份信息,并根据所述说话人身份信息将所述音频句子划分为语音段,确定所述待转换音频对应的语音段集合。

以公司p为例,上述预设声纹特征库中包括:公司p的各员工的声纹特征及对应的员工身份信息。上述说话人身份信息包括:说话人姓名、籍贯、口音等。

在本实施例中,所述“根据所述说话人身份信息将所述音频句子划分为语音段”的步骤包括:

将时间相邻且对应的说话人身份信息相同的音频句子合并生成一个语音段,并根据所述语音段包含的至少一个音频句子的起止时间确定所述语音段的起止时间。

其中,每个语音段的起止时间由其包含的至少一个音频句子的起止时间确定,例如,将一个语音段的第一个音频句子的起始时间作为该语音段的起始时间,最后一个音频句子的终止时间作为该语音段的终止时间。

语音段集合中包括:语音段及各语音段对应的说话人身份信息。例如,音频句子划分得到的结果按照时间先后顺序依次为:句子1、句子2、句子3、句子4、句子5;各音频句子对应的说话人分别为:甲、乙、乙、丙、乙;那么,最终的语音段集合包括:{语音段1(句子1),甲}、{语音段2(句子2、句子3),乙}、{语音段3(句子4),丙}、{语音段4(句子5),乙}。

可以理解的是,需定期对预设声纹特征库进行更新,以提高声纹特征比对的效率。另外,从音频中提取声纹特征及声纹比对等技术均较成熟,这里不作赘述。

在其他实施例中,所述待转换音频还可以是通过麦克风实时录入的语音,通过预先对麦克风信号通道进行编号,且需在会议前预先确定麦克风信号通道编号与说话人身份信息的对应关系。当待转换音频为通过麦克风实时录入的语音时,还可通过麦克风信号通道编号确认对应的说话人身份信息,这里不作赘述。

上述步骤通过确定说话人的身份,一方面确定各音频句子对应的发言人,有助于会议记录的完整性;另一方面,便于后续根据发言人的身份信息调用最优的语音转换模型,以提高语音转换的准确性。

步骤s4,根据所述语音段集合中各语音段对应的说话人身份信息调用各语音段对应的目标语音识别模型,依次将各语音段输入对应的目标语音识别模型,得到各语音段对应的文本片段,其中,所述目标语音识别模型是基于口音语料库及行业语料库进行更新训练得到的;

为了提高语音识别的准确性,所述目标语音识别模型是在一般的语音识别模型的基础上进行了两次更新训练:

1)根据说话人口音(即,语言特征)对一般的语音识别模型进行更新训练,得到第一语音转换模型,所述第一语音识别模型通过以下步骤确定:

将口音划分为几大类,例如,无口音(即,标准普通话)、北京口音、山东口音、广东口音、湖南口音、四川口音等,分别收集各类口音对应的录音音频;

对各类口音对应的录音音频进行预处理,删去不易、不便理解的片段,并将剩余片段转换为文字文本,得到各类口音的语料库;

将处理过的音频与文字文本送入一般的语音识别模型,使得模型获得针对特定口音的优化;

在会议实际场景中,将发现的转录错误片段重新送入模型中进行再优化,分别得到各口音类别对应的第一语音识别模型。

2)根据公司、行业特性对各类口音对应的第一语音识别模型进行更新训练,得到第二语音转换模型,所述第二语音识别模型通过以下步骤确定:

编列公司/行业专用词语列表,以文本形式保存;

使专人以各类口音朗读上述专用词语,形成各类口音对应的音频文件;

将文本与音频文件以配对的形式送入各类口音对应的第一语音识别模型进行训练,使得各第一语音识别模型获得针对特定公司/行业的优化;

在会议实际场景中,将更多与专有名词语相关的语料送入模型中进行再优化,分别得到各口音类别对应的第二语音识别模型。

例如,通过声纹识别确定当前语音段1对应的说话人为甲,根据甲的身份信息确定其口音为山东,获取山东口音对应的第二语音转换模型作为目标语音识别模型。

上述步骤通过在进行音频转换前,预先训练一般的语音转换模型,并根据说话人的口音特征对语音识别模型进行更新训练,以提高语音转换模型对说话人的语音的识别能力,同时还根据公司/行业特性对语音转换模型进行更新训练,提高语音转换模型对公司特定业务语音的识别能力。

步骤s5,合并各语音段对应的文本片段,生成所述待转换音频对应的目标文本,并在所述目标文本的每个所述文本片段中关联对应的语音段及说话人身份信息,生成所述待转换音频对应的会议记录。

例如,依次获取上述语音段集合中各语音段对应的文本分别为:文本1、文本2、文本3、文本4、文本5,对获取的文本进行合并拼接得到待转换音频对应的目标文本。然后,根据各语音段的起止时间从待转换语音段中截取相应的语音段与目标文本中对应的文本片段进行关联,也就是说,目标文本中每一个文本片段都标注着对应的说话人信息及其对应的语音段,从而生成会议记录,保存得到的会议记录并将其推送至会议记录生成指令对应的终端。

本实施例中,说话人信息、语音段以超链接的形式与文本片段关联。

通过在会议记录中关联以上信息,便于会议记录管理者重听相关语音段及调整会议记录。

上述实施例提出的基于语音识别的会议记录生成方法,通过对待转换音频进行分句、语音特征提取及匹配,根据匹配结果确定待转换音频对应的语音段,分别调用不同的目标语音识别模型对各语音段进行语音识别,提高了语音识别的效率及准确率,从而提高了会议记录生成的准确率;同时,通过关联说话人身份信息、语音段、文本片段,生成会议记录,提高了会议记录的完整性及便利性。

进一步地,为了提高待转换音频的转换准确性,在本发明基于语音识别的会议记录生成方法另一实施例中,在步骤s2之前,该方法还包括:对所述待转换音频进行预处理,得到预处理后的待转换音频。

一般的会议中,由于周围环境的影响,会产生不同的噪音,因此需要对会议记录对应的待转换音频进行预处理。所述预处理包括但不仅限于:

b1、进行回声消除处理;例如,可以采用回波抵消方法,也即可以通过估计回波信号的大小,然后在接收信号中减去该估计值以抵消回波;

b2、进行波束成形处理;例如,通过多个麦克风在不同方位采集用户的语音信息,确定声源的方向。根据不同方位的权重不同,进行加权求和。例如,声源方向的权重比其他方位的声音权重更大,以保证增强用户输入的语音信息,削弱其他声音的影响;

b3、进行降噪处理;例如:可以先通过采用与噪音频率相同、振幅相同、相位相反的声音进行相互抵消,然后采用去混响的音频插件或者传声器阵列消除混响;

b4、进行增强放大处理;例如,采用agc(自动增益控制)方式对音频进行放大处理。

上述实施例提出的基于语音识别的会议记录生成方法,通过对待转换音频进行预处理,减少了外接干扰,可提高语音识别的精确性,从而为后续生成会议记录打下良好的基础。

进一步地,为了使会议记录更清晰,在本发明的基于语音识别的会议记录生成方法另一实施例中,该方法还包括:

对所述会议记录进行分词,得到分词后的列表,并从所述分词后的列表中识别出关键词;

分别确定每个关键词对应的文本片段集合,根据各文本片段对应的说话人身份信息对所述文本片段集合进行分类,并按照时间先后顺序对各关键词及各关键词对应的文本片段进行排序,得到每个关键词对应的排序后的文本片段集合。

其中,上述“对会议记录进行分词”的步骤包括:a)基于预设词表对所述会议记录进行匹配,得到分词后的第一列表,其中,词表为配合公司业务所制定的公司特有专用词语和公司所处行业的专有词语;b)对于剩下的文本,采用基于理解的分词方法和基于统计的分词方法对步骤a)剩下的文本进行分词,得到分词后的第二列表;c)去掉无信息的停用词,如‘的’、‘啊’等,得到分词后的第三列表;d)合并上述第一列表、第二列表及第三列表,得到最终分词后的列表。分词最终将文本转为内含多个词语的列表。

上述“从所述分词后的列表中识别出关键词”的步骤包括:a)计算所述列表中每个词语的信息价值,例如,tf-idf值(termfrequency–inversedocumentfrequency,词频-逆向文件频率);b)分别判断每个词语的信息价值是否大于或等于预设阈值,将信息价值大于或等于预设阈值的词语确定为关键词,其中,预设阈值可根据实际需要进行调整。

假设从会议记录中识别出关键词a、b、c,以关键词a为例,上述排序结果中关键词a对应的文本片段集合中包括:说话人甲对应的文本片段1、说话人乙对应的文本片段2、文本片段4、说话人丙对应的文本片段3。

进一步地,每个关键词对应的排序后的文本片段集合中还可以包括各文本片段对应的语音段,通过关联文本片段及语音段,便于会议记录管理者及查询者重听相关语音段。

上述实施例提出的基于语音识别的会议记录生成方法,通过关联说话人身份信息、语音段、文本片段、关键词等生成会议记录,提高了会议记录的完整性及便利性。

在本发明的基于语音识别的会议记录生成方法另一实施例中,该方法还包括:

响应用户发出的会议记录查看指令,向用户展示所述会议记录;及/或

响应用户发出的文本片段点击操作,向用户展示所述文本片段对应的关联信息;例如,关联信息包括:关键词、说话人身份信息、对应的语音段链接,当用户点击语音段链接时,播放当前语音段;及/或

响应用户发出的会议记录修改指令,基于所述修改指令更新并保存所述会议记录;及/或

响应用户发出的携带查询字段的查询指令,从所述会议记录中查询与所述查询字段匹配的文本片段,以预设形式将查询到的文本片段及对应的关联信息反馈给该用户。其中,查询字段可以是关键词也可以不是关键词,查询字段的查询匹配可以是模糊查找也可以是语义查找,这里不作赘述。当匹配到对应的文本片段后,以预设形式(例如,树状图,或者按照时间先后顺序等)向用户展示与查询字段对应的所有文本片段及关联信息,例如,关键词、说话人身份信息、对应的语音段链接等。

本发明还提出一种电子装置。参照图2所示,为本发明电子装置较佳实施例的示意图。

在本实施例中,电子装置1可以是服务器、智能手机、平板电脑、便携计算机、桌上型计算机等具有数据处理功能的终端设备,所述服务器可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器。

该电子装置1包括存储器11、处理器12及网络接口13。

其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是所述电子装置1的内部存储单元,例如该电子装置1的硬盘。存储器11在另一些实施例中也可以是所述电子装置1的外部存储设备,例如该电子装置1上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。进一步地,存储器11还可以既包括该电子装置1的内部存储单元也包括外部存储设备。

存储器11不仅可以用于存储安装于该电子装置1的应用软件及各类数据,例如,会议记录生成程序10等,还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(centralprocessingunit,cpu)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如,会议记录生成程序10等。

网络接口13可选的可以包括标准的有线接口、无线接口(如wi-fi接口),通常用于在该电子装置1与其他电子设备之间建立通信连接,例如,会议记录管理者及会议记录查询者使用的终端。电子装置1的组件11-13通过通信总线相互通信。

图2仅示出了具有组件11-13的电子装置1,本领域技术人员可以理解的是,图2示出的结构并不构成对电子装置1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。

可选地,该电子装置1还可以包括用户接口,用户接口可以包括显示器(display)、输入单元比如键盘(keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。

可选地,在一些实施例中,显示器可以是led显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(organiclight-emittingdiode,oled)触摸器等。其中,显示器也可以称为显示屏或显示单元,用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。

在图2所示的电子装置1实施例中,作为一种计算机存储介质的存储器11中存储会议记录生成程序10的程序代码,处理器12执行会议记录生成程序10的程序代码时,实现如下步骤:

接收步骤:接收用户发出的会议记录生成指令,根据所述会议记录生成指令获取待转换音频,或者,定时或实时从预设存储路径中获取待转换音频。

本实施例中,用户通过终端向电子装置1发出会议记录生成指令,其中,所述指令中包括待转换音频;上述待转换音频为会议过程中录制的语音音频,其可以是由用户通过话筒等语音设备输入并保存,或者,由用户从网上下载或本地导入的语音资料文件。上述预设存储路径不仅限于用于存储会议记录相关音频的数据库。

上述定时或实时从预设存储路径中获取待转换音频的步骤包括:定时(每天上午9:00、每天下午5:30)判断待存储路径中是否存在未经转换的会议记录相关音频,若是,则将未经转换的会议记录相关音频作为待转换音频,若否,则判断不存在待转换音频。或者,每当预设存储路径中写入一段会议记录相关音频时,则将其作为待转换音频并读取出来,以执行后续步骤。

第一划分步骤:基于预设句子划分规则对所述待转换音频进行句子划分,得到所述待转换音频的音频句子。

对待转换音频进行句子切分的目的是为了得到更易于进行语音识别的短句,提高后续将音频转换为文本的准确性。在本实施例中,所述基于预设句子划分规则对所述待转换音频进行句子划分,得到所述待转换音频的音频句子,包括:

a1、识别所述待转换音频中的第一停顿,记录第一停顿的开始时间和结束时间;

a2、识别出所述待转换音频中的第一句子,并将第一停顿的结束时间作为第一句子的开始时间;

a3、识别第二停顿,记录第二停顿的开始时间和结束时间,并将第二停顿的开始时间作为第一句子的结束时间,实现第一句子的划分;

a4、依次执行上述步骤,直至所述待转换音频结束,得到所述待转换音频的所有音频句子。

其中,第一停顿、第二停顿包括待转换音频中的静音段、非语音段;第一句子为待转换音频的语音段。需要说明的是,第一停顿和第二停顿仅为了区分不同时间对应的停顿。

可以理解的是,音频句子的划分结果与后续音频转换的准确率息息相关,音频句子划分准确率越高,音频转换的准确率越高。本实施例中,每一个停顿具有最小长度限制,用于忽略短伴音信息,例如说话人的瞬时换气等,以保护一句话的完整性;划分得到的每个句子具有最小长度限制,用于过滤掉音频中的短时无效信息,例如,说话人的咳嗽等;同时,划分得到的每个句子还具有最大长度限制,用于限制句子的长度,提高后续音频的转换准确率。

第二划分步骤:分别从所述音频句子中提取声纹特征,将各个所述音频句子的声纹特征与预设声纹特征库进行对比分析,确定各个所述音频句子对应的说话人身份信息,并根据所述说话人身份信息将所述音频句子划分为语音段,确定所述待转换音频对应的语音段集合。

以公司p为例,上述预设声纹特征库中包括:公司p的各员工的声纹特征及对应的员工身份信息。上述说话人身份信息包括:说话人姓名、籍贯、口音等。

在本实施例中,所述“根据所述说话人身份信息将所述音频句子划分为语音段”的步骤包括:

将时间相邻且对应的说话人身份信息相同的音频句子合并生成一个语音段,并根据所述语音段包含的至少一个音频句子的起止时间确定所述语音段的起止时间。

其中,每个语音段的起止时间由其包含的至少一个音频句子的起止时间确定,例如,将一个语音段的第一个音频句子的起始时间作为该语音段的起始时间,最后一个音频句子的终止时间作为该语音段的终止时间。

语音段集合中包括:语音段及各语音段对应的说话人身份信息。例如,音频句子划分得到的结果按照时间先后顺序依次为:句子1、句子2、句子3、句子4、句子5;各音频句子对应的说话人分别为:甲、乙、乙、丙、乙;那么,最终的语音段集合包括:{语音段1(句子1),甲}、{语音段2(句子2、句子3),乙}、{语音段3(句子4),丙}、{语音段4(句子5),乙}。

可以理解的是,需定期对预设声纹特征库进行更新,以提高声纹特征比对的效率。另外,从音频中提取声纹特征及声纹比对等技术均较成熟,这里不作赘述。

在其他实施例中,所述待转换音频还可以是通过麦克风实时录入的语音,通过预先对麦克风信号通道进行编号,且需在会议前预先确定麦克风信号通道编号与说话人身份信息的对应关系。当待转换音频为通过麦克风实时录入的语音时,还可通过麦克风信号通道编号确认对应的说话人身份信息,这里不作赘述。

上述步骤通过确定说话人的身份,一方面确定各音频句子对应的发言人,有助于会议记录的完整性;另一方面,便于后续根据发言人的身份信息调用最优的语音转换模型,以提高语音转换的准确性。

语音识别步骤:根据所述语音段集合中各语音段对应的说话人身份信息调用各语音段对应的目标语音识别模型,依次将各语音段输入对应的目标语音识别模型,得到各语音段对应的文本片段,其中,所述目标语音识别模型是基于口音语料库及行业语料库进行更新训练得到的;

为了提高语音识别的准确性,所述目标语音识别模型是在一般的语音识别模型的基础上进行了两次更新训练:

1)根据说话人口音(即,语言特征)对一般的语音识别模型进行更新训练,得到第一语音转换模型,所述第一语音识别模型通过以下步骤确定:

将口音划分为几大类,例如,无口音(即,标准普通话)、北京口音、山东口音、广东口音、湖南口音、四川口音等,分别收集各类口音对应的录音音频;

对各类口音对应的录音音频进行预处理,删去不易、不便理解的片段,并将剩余片段转换为文字文本,得到各类口音的语料库;

将处理过的音频与文字文本送入一般的语音识别模型,使得模型获得针对特定口音的优化;

在会议实际场景中,将发现的转录错误片段重新送入模型中进行再优化,分别得到各口音类别对应的第一语音识别模型。

2)根据公司、行业特性对各类口音对应的第一语音识别模型进行更新训练,得到第二语音转换模型,所述第二语音识别模型通过以下步骤确定:

编列公司/行业专用词语列表,以文本形式保存;

使专人以各类口音朗读上述专用词语,形成各类口音对应的音频文件;

将文本与音频文件以配对的形式送入各类口音对应的第一语音识别模型进行训练,使得各第一语音识别模型获得针对特定公司/行业的优化;

在会议实际场景中,将更多与专有名词语相关的语料送入模型中进行再优化,分别得到各口音类别对应的第二语音识别模型。

例如,通过声纹识别确定当前语音段1对应的说话人为甲,根据甲的身份信息确定其口音为山东,获取山东口音对应的第二语音转换模型作为目标语音识别模型。

上述步骤通过在进行音频转换前,预先训练一般的语音转换模型,并根据说话人的口音特征对语音识别模型进行更新训练,以提高语音转换模型对说话人的语音的识别能力,同时还根据公司/行业特性对语音转换模型进行更新训练,提高语音转换模型对公司特定业务语音的识别能力。

生成步骤:合并各语音段对应的文本片段,生成所述待转换音频对应的目标文本,并在所述目标文本的每个所述文本片段中关联对应的语音段及说话人身份信息,生成所述待转换音频对应的会议记录。

例如,依次获取上述语音段集合中各语音段对应的文本分别为:文本1、文本2、文本3、文本4、文本5,对获取的文本进行合并拼接得到待转换音频对应的目标文本。然后,根据各语音段的起止时间从待转换语音段中截取相应的语音段与目标文本中对应的文本片段进行关联,也就是说,目标文本中每一个文本片段都标注着对应的说话人信息及其对应的语音段,从而生成会议记录,保存得到的会议记录并将其推送至会议记录生成指令对应的终端。

本实施例中,说话人信息、语音段以超链接的形式与文本片段关联。

通过在会议记录中关联以上信息,便于会议记录管理者重听相关语音段及调整会议记录。上述实施例提出的电子装置1,通过对待转换音频进行分句、语音特征提取及匹配,根据匹配结果确定待转换音频对应的语音段,分别调用不同的目标语音识别模型对各语音段进行语音识别,提高了语音识别的效率及准确率,从而提高了会议记录生成的准确率;同时,通过关联说话人身份信息、语音段、文本片段,生成会议记录,提高了会议记录的完整性及便利性。

进一步地,为了提高待转换音频的转换准确性,在本发明电子装置1另一实施例中,在第一划分步骤之前,处理器12执行会议记录生成程序10的程序代码还实现:预处理步骤。

预处理步骤:对所述待转换音频进行预处理,得到预处理后的待转换音频。

一般的会议中,由于周围环境的影响,会产生不同的噪音,因此需要对会议记录对应的待转换音频进行预处理。所述预处理包括但不仅限于:

b1、进行回声消除处理;例如,可以采用回波抵消方法,也即可以通过估计回波信号的大小,然后在接收信号中减去该估计值以抵消回波;

b2、进行波束成形处理;例如,通过多个麦克风在不同方位采集用户的语音信息,确定声源的方向。根据不同方位的权重不同,进行加权求和。例如,声源方向的权重比其他方位的声音权重更大,以保证增强用户输入的语音信息,削弱其他声音的影响;

b3、进行降噪处理;例如:可以先通过采用与噪音频率相同、振幅相同、相位相反的声音进行相互抵消,然后采用去混响的音频插件或者传声器阵列消除混响;

b4、进行增强放大处理;例如,采用agc(自动增益控制)方式对音频进行放大处理。

上述实施例提出的电子装置1,通过对待转换音频进行预处理,减少了外接干扰,可提高语音识别的精确性,从而为后续生成会议记录打下良好的基础。

进一步地,为了使会议记录更清晰,在本发明电子装置1另一实施例中,处理器12执行会议记录生成程序10的程序代码时,还实现如下步骤:

对所述会议记录进行分词,得到分词后的列表,并从所述分词后的列表中识别出关键词;及

分别确定每个关键词对应的文本片段集合,根据各文本片段对应的说话人身份信息对所述文本片段集合进行分类,并按照时间先后顺序对各关键词及各关键词对应的文本片段进行排序,得到每个关键词对应的排序后的文本片段集合。

其中,上述“对会议记录进行分词”的步骤包括:a)基于预设词表对所述会议记录进行匹配,得到分词后的第一列表,其中,词表为配合公司业务所制定的公司特有专用词语和公司所处行业的专有词语;b)对于剩下的文本,采用基于理解的分词方法和基于统计的分词方法对步骤a)剩下的文本进行分词,得到分词后的第二列表;c)去掉无信息的停用词,如‘的’、‘啊’等,得到分词后的第三列表;d)合并上述第一列表、第二列表及第三列表,得到最终分词后的列表。分词最终将文本转为内含多个词语的列表。

上述“从所述分词后的列表中识别出关键词”的步骤包括:a)计算所述列表中每个词语的信息价值,例如,tf-idf值;b)分别判断每个词语的信息价值是否大于或等于预设阈值,将信息价值大于或等于预设阈值的词语确定为关键词,其中,预设阈值可根据实际需要进行调整。

假设从会议记录中识别出关键词a、b、c,以关键词a为例,上述排序结果中关键词a对应的文本片段集合中包括:说话人甲对应的文本片段1、说话人乙对应的文本片段2、文本片段4、说话人丙对应的文本片段3。

进一步地,每个关键词对应的排序后的文本片段集合中还可以包括各文本片段对应的语音段,通过关联文本片段及语音段,便于会议记录管理者及查询者重听相关语音段。

上述实施例提出的电子装置1,通过关联说话人身份信息、语音段、文本片段、关键词等生成会议记录,提高了会议记录的完整性及便利性。

在本发明电子装置1另一实施例中,处理器12执行会议记录生成程序10的程序代码时,还实现如下步骤:

响应用户发出的会议记录查看指令,向用户展示所述会议记录;及/或

响应用户发出的文本片段点击操作,向用户展示所述文本片段对应的关联信息;例如,关联信息包括:关键词、说话人身份信息、对应的语音段链接,当用户点击语音段链接时,播放当前语音段;及/或

响应用户发出的会议记录修改指令,基于所述修改指令更新并保存所述会议记录;及/或

响应用户发出的携带查询字段的查询指令,从所述会议记录中查询与所述查询字段匹配的文本片段,以预设形式将查询到的文本片段及对应的关联信息反馈给该用户。其中,查询字段可以是关键词也可以不是关键词,查询字段的查询匹配可以是模糊查找也可以是语义查找,这里不作赘述。当匹配到对应的文本片段后,以预设形式(例如,树状图,或者按照时间先后顺序等)向用户展示与查询字段对应的所有文本片段及关联信息,例如,关键词、说话人身份信息、对应的语音段链接等。

可选地,在其他的实施例中,会议记录生成程序10还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器12所执行,以完成本发明,本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。

例如,参照图3所示,为图2中会议记录生成程序10的程序模块示意图。

在所述会议记录生成程序10一实施例中,会议记录生成程序10包括:模块110-150,其中:

接收模块110,用于接收用户发出的会议记录生成指令,根据所述会议记录生成指令获取待转换音频,或者,定时或实时从预设存储路径中获取待转换音频;

第一划分模块120,用于基于预设句子划分规则对所述待转换音频进行句子划分,得到所述待转换音频的音频句子;

第二划分模块130,用于分别从所述音频句子中提取声纹特征,将各个所述音频句子的声纹特征与预设声纹特征库进行对比分析,确定各个所述音频句子对应的说话人身份信息,并根据所述说话人身份信息将所述音频句子划分为语音段,确定所述待转换音频对应的语音段集合;

语音识别模块140,用于根据所述语音段集合中各语音段对应的说话人身份信息调用各语音段对应的目标语音识别模型,依次将各语音段输入对应的目标语音识别模型,得到各语音段对应的文本片段,其中,所述目标语音识别模型是基于口音语料库及行业语料库进行更新训练得到的;及

生成模块150,用于合并各语音段对应的文本片段,生成所述待转换音频对应的目标文本,并在所述目标文本的每个所述文本片段中关联对应的语音段及说话人身份信息,生成所述待转换音频对应的会议记录。

所述模块110-150所实现的功能或操作步骤均与上文类似,此处不再详述。

此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质中包括会议记录生成程序10,所述会议记录生成程序10被处理器执行时实现如下操作:

接收步骤:接收用户发出的会议记录生成指令,根据所述会议记录生成指令获取待转换音频,或者,定时或实时从预设存储路径中获取待转换音频;

第一划分步骤:基于预设句子划分规则对所述待转换音频进行句子划分,得到所述待转换音频的音频句子;

第二划分步骤:分别从所述音频句子中提取声纹特征,将各个所述音频句子的声纹特征与预设声纹特征库进行对比分析,确定各个所述音频句子对应的说话人身份信息,并根据所述说话人身份信息将所述音频句子划分为语音段,确定所述待转换音频对应的语音段集合;

语音识别步骤:根据所述语音段集合中各语音段对应的说话人身份信息调用各语音段对应的目标语音识别模型,依次将各语音段输入对应的目标语音识别模型,得到各语音段对应的文本片段,其中,所述目标语音识别模型是基于口音语料库及行业语料库进行更新训练得到的;及

生成步骤:合并各语音段对应的文本片段,生成所述待转换音频对应的目标文本,并在所述目标文本的每个所述文本片段中关联对应的语音段及说话人身份信息,生成所述待转换音频对应的会议记录。

本发明之计算机可读存储介质的具体实施方式与上述基于语音识别的会议记录生成方法的具体实施方式大致相同,在此不再赘述。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1