一种智能会议纪要生成方法和系统与流程

文档序号:19745242发布日期:2020-01-21 18:15阅读:1137来源:国知局
一种智能会议纪要生成方法和系统与流程
本发明涉及人工智能自然语言处理的
技术领域
,尤其涉及一种智能会议纪要生成方法和系统。
背景技术
:近年来在日常办公过程当中,每个工作日几乎都可能会面临各项会议,而在参会过程中,参会成员一般专注于跟进会议内容、进程,在会议结束后,会议纪要往往需要依靠专门的工作人员根据参会过程进行收集整理,纪要人需要跟进会议上所有人的反馈做记录并会下整理、转发,甚至需要跟进,从而导致整理会议纪要的过程需要人力成本的投入,耗费人力又费时。目前,会议纪要整理通常是通过纪要人员手记录,虽然有少部分使用了语音识别技术,由机器识别发言人的语音并转换为文字记录。但是,机器只能单纯实现从语音到文字上的转换,并不能够对会议内容进行理解和整理。会议纪要是用于记录会议要点、以便于存档和传递会议信息的重要手段,随着信息时代的到来,会议纪要被越来越多的企业重视。比较传统的实现会议纪要的方式就是安排书记员进行会议过程的记录,比较依赖于书记员的专注力,书记员开小差会出现漏记的现象。随着科技的发展,涌现出了录音笔、拾音器等产品帮助记录会议的录音,而后通过对录音的回放进行关键点的人工提炼,解决了会议纪要漏记的情况。技术实现要素:本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。鉴于上述现有存在的问题,提出了本发明。因此,本发明解决的一个技术问题是:提出一种智能会议纪要生成方法满足会议纪要生成需求。为解决上述技术问题,本发明提供如下技术方案:一种智能会议纪要生成方法,包括以下步骤,获取会议音、视频信号;提取实时语音信号的声纹特征;并在预设声纹数据库中检索该声纹特征,若检索不到,则将改声纹特征添加到数据库中并添加身份id;所述声纹特征与预设声纹数据库进行特征匹配,识别出不同语音信号所对应的发言人身份,将不同发言人的发言语音分离;将分离后的语音信号分别转写为文字,并生成与发言者对应的初步文本;对所述初步文本进行纠错、优化处理为目标文本;抽取所述目标文本内的重要句子组成摘要,并按照预设的模板整理成所述会议纪要。作为本发明所述的智能会议纪要生成方法的一种优选方案,其中:还包括以下步骤,实时视频记录开会时的现场环境;所述音、视频信号均保存在后端,通过时间戳进行会后访问;将整理的所述会议纪要和/或目标文本通过邮件、微信或传真推送给与会人员以及其他相关人员;向指定用户提供以网页显示方式浏览所述会议纪要和/或所述目标文本;将所述会议纪要和/或所述目标文本与视频信号中的图像组合。作为本发明所述的智能会议纪要生成方法的一种优选方案,其中:使用序列标注的思想进行错误字词的检测,并将检测结果标记为错误点,序列标注的模型结构为bilstm+crf;使用bigram统计语言模型对纠错候选空间进行筛选,生成搜索空间更小的纠错候选词集;使用神经网络语言模型对替换纠错候选词集后的句子打分,根据分数选择正确的句子。作为本发明所述的智能会议纪要生成方法的一种优选方案,其中:包括纠错算法流程步骤,错误检测:使用序列标注的思想检测文本中的错误字词,并将检测结果标记为错误点,其中序列标注模型结构为bilstm+crf,模型训练语料为标注的语音转录文本及对正确进行同音字词、近音字词替换后的文本;纠错候选集生成:根据所述错误检测的结果,在每个错误点生成由其同音、近音字词组成的纠错候选空间。由于纠错候选空间较大,存在大量明显不适配错误点的字词,且神经语言模型计算句子ppl耗费时间多,因此使用ppl计算速度更快的bigram统计语言模型对纠错候选空间进行筛选。每个错误点依次替换纠错候选空间的候选字词,使用bigram统计语言模型对替换后的句子计算ppl分值,每个错误点选择更合理的词组成对应的纠错候选集合,每个纠错候选集合的字词数量不超过k(常数)个;错误纠正:根据所述错误检测的结果纠错候选集,每个错误点依次替换对应纠错候选集的字词后分别计算替换后句子的ppl,根据ppl将句子排序,选择ppl分数低的句子作为正确句子。作为本发明所述的智能会议纪要生成方法的一种优选方案,其中:所述针对初步文本存在大量的语气词、连续重复字词及短句、因转录产生的错误字词及标点,制定一系列过滤规则,规则引擎的设计采用将文本处理的基础操作封装到基础模块、具体过滤规则封装到核心模块,并留有装饰模块及扩展模块用于之后的代码维护;所述规则引擎是避免使用大量条件判断语句而集成进行规则匹配。作为本发明所述的智能会议纪要生成方法的一种优选方案,其中:所述基于规则引擎的文本处理包括如下步骤,制定featurepipeline;每当一条待执行数据和其待判断的规则链通过json传入规则引擎;规则引擎生成一个对应的规则pipeline,将待判断数据从头到尾经过这个规则的pipeline;满足判断条件的输入句子会执行其规则所指定的行为。作为本发明所述的智能会议纪要生成方法的一种优选方案,其中:所述利用bilstm做标点纠错为采用前向lstm和后向lstm组合起来的双向lstm,前向lstm将输入数据从前向后时序编码,后向lstm将输入数据从后向前时序编码,将两次编码结果拼接形成bilstm编码结果,bilstm编码结果每个位置都有上文信息和下文信息,能够捕捉双向的语义依赖。作为本发明所述的智能会议纪要生成方法的一种优选方案,其中:使用双向rnn的分类算法模型,模型中包括输入层、字词级别编码层、句子级别编码层、分类层,通过判断文本句子是否为摘要句子实现文本摘要抽取;使用有标注的训练语料训练摘要抽取模型,训练语料的标注为每句话重要性的文本,将训练语料输入到rnn的分类算法模型中,通过神经网络的计算及更新迭代,拟合分类结果。。作为本发明所述的智能会议纪要生成方法的一种优选方案,其中:包括采用回归的方法来设定输入文本数据需抽取句子数量;使用与所述摘要抽取模型同样的语料训练回归模型,输入为文本和文本的带抽取句子数;当更改模型可根据不同的文本动态调整待抽取句子的数量,使输入文本数据需抽取句子数量的选取更加接近实际的应用需求。本发明解决的另一个技术问题是:提出一种智能会议纪要生成系统满足会议纪要生成需求,上述方法能够依托于本系统实现。为解决上述技术问题,本发明提供如下技术方案:一种智能会议纪要生成系统,包括采集模块、声纹特征提取模块、角色分离模块、语音转写模块、文本处理模块和纪要生成模块;所述采集模块用于获取会议音、视频信号;所述声纹特征提取模块与所述采集模块连接,用于提取实时语音信号的声纹特征;所述角色分离模块用于根据所述声纹特征与预设声纹数据库进行的特征匹配,识别不同发言人的语音信号,并将语音信号分离;所述语音转写模块与所述角色分离模块连接,用于将分离的语音信号转写为文字生成各自对应的初步文本;所述文本处理模块与所述语音转写模块连接,用于将所述初步文本进行纠错、优化处理为目标文本;所述纪要生成模块与所述文本处理模块连接,用于抽取所述目标文本内重要句子组成摘要,并按照一定模板整理成所述会议纪要。本发明的有益效果:能够提升检测时间,提高了算法的执行效率,减少运行时间;减少负责的文本处理流程,增加代码的复用性;减少算法研究人员的工作量;更好的捕捉双向的语义依赖。附图说明为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:图1为本发明第一种实施例所述智能会议纪要生成方法的纠错流程示意图;图2为本发明第二种实施例所述智能会议纪要生成系统的使用流程示意图;图3为本发明第二种实施例所述智能会议纪要生成系统的原理结构示意图;图4为本发明第二种实施例所述会议系统效果前端使用界面展示图;图5为本发明第二种实施例所述会议纪要系统后端管理登录展示图;图6为本发明第二种实施例所述会议纪要系统后端管理展示图。具体实施方式为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。同时在本发明的描述中,需要说明的是,术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一、第二或第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。本发明中除非另有明确的规定和限定,术语“安装、相连、连接”应做广义理解,例如:可以是固定连接、可拆卸连接或一体式连接;同样可以是机械连接、电连接或直接连接,也可以通过中间媒介间接相连,也可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。实施例1参照图1的示意,示意为本实施例提出的一种智能会议纪要生成方法的纠错流程,为了找出文本中可能错误的字,包括字形错误、字音错误的词,然后进行纠错,现阶段技术通常采用的纠错流程包括:错误检测,利用规则或深度模型对文本进行错误检测并形成疑似错误位置候选集,通常会有字粒度和词粒度两方面的检测;错误纠正,对疑似错误位置候选集的每个错误点生成对应的候选集,然后逐个替换计算ppl,确定正确的词。现阶段的纠错方法主要存在以下问题:(1)使用规则、ngram语言模型等方法检测错误字词的过程中,相比较现在的深度学习算法rnn、lstm等存在泛化能力差、容易将正确的句首词检测为错误字词等问题。(2)在确定错误字词后会产生大量的候选词集,所以整个算法的耗时较大,如使用错误检错模型中用到的测试语料进行现已有的深度模型算法与本实施实例中提出的算法进行耗时测试,结果为现已有的深度模型算法纠错耗时约为279字/秒,本实施例中提出的算法耗时约419字/秒。在现有基于规则引擎的文本处理时,现有技术为了找出并删除转录的口语文本中的冗余数据,直接转录的讲话文本数据通常存在大量的因讲话习惯造成的冗余文本数据,如口语词、语气词、重复词等。这些数据通常没有实际意义,但大大影响阅读体验以及后续的文本处理。传统的处理方法中通常要使用大量的规则,造成规则复杂,缺少统一可用的接口,且大量在规则中使用条件判断语语句会产生大量运行时间等问题。在后续的维护中,代码复用性差会给算法研究人员代码较大的工作负担。利用bilstm做标点纠错,为了纠正转录出的文本中错误的、使用不当的标点。标点纠错部分,早前的算法是使用lstm进行标点的纠错,但是该方法在只能对句子从前向后编码,无法获得句子的从后向前的语义信息。利用rnn抽取重要句子生成摘要,为了实现对文本的重要句子进行抽取,传统的方法利用text-rank进重要句子的抽取,但是效果不能得到很好的保障,抽出的句子不能满足会议纪要生成的需要。进一步的,本实施例提出一种智能会议纪要生成方法,具体包括以下步骤,获取会议音、视频信号;提取实时语音信号的声纹特征,并在预设声纹数据库中检索该声纹特征,若检索不到,则将改声纹特征添加到数据库中并添加身份id;声纹特征与预设声纹数据库进行特征匹配,识别出不同语音信号所对应的发言人身份,将不同发言人的发言语音分离;将分离后的语音信号分别转写为文字,并生成与发言者对应的初步文本;对初步文本进行纠错、优化处理为目标文本;抽取目标文本内的重要句子组成摘要,并按照预设的模板整理成会议纪要。再进一步的,本方法还包括以下步骤:实时视频记录开会时的现场环境;音、视频信号均保存在后端,通过时间戳进行会后访问;将整理的会议纪要和/或目标文本通过邮件、微信或传真推送给与会人员以及其他相关人员;向指定用户提供以网页显示方式浏览会议纪要和/或目标文本;将会议纪要和/或目标文本与视频信号中的图像组合。本实施例提出的初步文本包括如下纠错步骤,使用bilstm深度模型进行错误字词的检测;使用bigram统计语言模型对纠错候选空间进行筛选,生成搜索空间更小的纠错候选词集;使用神经网络语言模型对替换纠错候选词集后的句子打分,根据分数选择正确的句子。包括纠错算法流程步骤,错误检测:使用序列标注的思想检测文本中的错误字词,并将检测结果标记为错误点,其中序列标注模型结构为bilstm+crf,模型训练语料为标注的语音转录文本及对正确进行同音字词、近音字词替换后的文本;纠错候选集生成:根据错误检测的结果,在每个错误点生成由其同音、近音字词组成的纠错候选空间。由于纠错候选空间较大,存在大量明显不适配错误点的字词,且神经语言模型计算句子ppl耗费时间多,因此使用ppl计算速度更快的bigram统计语言模型对纠错候选空间进行筛选。每个错误点依次替换纠错候选空间的候选字词,使用bigram统计语言模型对替换后的句子计算ppl分值,每个错误点选择更合理的词组成对应的纠错候选集合,每个纠错候选集合的字词数量不超过k(常数)个。错误纠正:根据错误检测的结果,在每个错误点生成对应的同音、近音词候选集纠错候选集,每个错误点依次替换对应纠错候选集的字词后分别计算替换后句子的ppl,根据ppl将句子排序,选择ppl分数低的句子作为正确句子。需要说明的是,ppl可以用来评价语言模型,其原理是在假定测试集的句子都为正确的句子的前提下,给测试集句子赋予较高概率值的语言模型较好。句子s(由n个词组成)的ppl计算公式为:两边同时取log句子s出现的概率为p(w1w2…wn),由此可见对于一个句子,其概率值和ppl值相反,概率越大,ppl越小。对于使用大规模正确句子训练得到的语言模型来说,一个正确句子相比于一个错误句子的概率值更大,因此正确句子的ppl小。综上,在错误纠正步骤中使用ppl评估替换候选词集后,每个句子的ppl,ppl越小则该句是正确句子的可能性越高。ppl越小模型效果越好。模型的ppl也是通过计算测试语料每个句子的ppl值得到的。在纠错方面改进主要包括以下部分:(1)在错误字词检测方面,使用bilstm深度模型进行错误字词的检测,相比较使用规则、ngram等方法,获得了更好的检测效果;(2)在生成候选词集筛选方面,使用bigram语言模型对候选词空间进行筛选,按照每个错误点最多保留k个候选词,组成纠错候选集进行筛选。为了对比我们改进方面对整个纠错流程带来的提升,在测试机上对文本纠错模块算法进行评估,如下表1所示:表1:测试数据accuracyprecisonrecallf1time优化前0.94240.42220.86360.567112s优化后0.93250.56520.90690.69644s从上表1中可以看出算法的综合指标f1值获得了大的提升,尤其在检测时间方面的提升最为明显。进一步的,本实施例中初步文本的优化包括基于规则引擎的文本处理和利用bilstm做标点纠错;其中针对初步文本存在大量的语气词、连续重复字词及短句、因转录产生的错误字词及标点,制定一系列过滤规则,规则引擎的设计采用将文本处理的基础操作封装到基础模块、具体过滤规则封装到核心模块,并留有装饰模块及扩展模块用于之后的代码维护;规则引擎是避免使用大量条件判断语句而集成进行规则匹配。基于规则引擎的文本处理包括如下步骤,制定featurepipeline(特征管道);每当一条待执行数据和其待判断的规则链通过json(一种数据格式)传入规则引擎;规则引擎(专门针对初步文本中存在的冗余数据设计的,规则引擎能有效实现代码复用、利于后期代码维护)生成一个对应的规则pipeline(管道),将待判断数据从头到尾经过这个规则的pipeline(管道),判断输入的数据是否满足规则pipeline(管道)判断条件;满足判断条件的输入句子会执行其规则所指定的行为。此处相比较每一次新增或调整规则时都要更新大量代码的传统的方法,利用规则引擎来进行文本处理主要有以下优势:(1)优化了大量条件判断语句,提高了算法的执行效率,减少运行时间。(2)利用整体的引擎设计减少负责的文本处理流程,增加代码的复用性。减少代码后期维护工作的工作量。进一步的,利用bilstm做标点纠错为采用前向lstm和后向lstm组合起来的双向lstm,用于捕捉双向的语义依赖。具有的优点:lstm只能编码从前到后的信息,而bilstm的前向lstm将输入数据从前向后时序编码,后向lstm将输入数据从后向前时序编码,将两次编码结果拼接形成bilstm编码结果,bilstm编码结果每个位置都有上文信息和下文信息,能够捕捉双向的语义依赖。本实施例抽取重要句子生成摘要包括如下步骤,使用双向rnn的算法模型,该算法模型中包括输入层、字词级别编码层、句子级别编码层、分类层,通过判断文本句子是否为摘要句子实现文本摘要抽取;使用有标注的训练语料训练摘要双向rnn的算法模型,训练语料是标注了每句话重要性的文本,将训练语料输入到rnn的分类算法模型中,通过神经网络的计算及更新迭代拟合分类结果,训练语料是标注语料,该训练过程为监督学习。进一步,包括以下步骤,采用回归的方法来设定输入文本数据需抽取句子数量;使用与所述摘要抽取模型同样的语料训练回归模型,输入为文本和文本的带抽取句子数;当更改模型可根据不同的文本动态调整待抽取句子的数量,使输入文本数据需抽取句子数量的选取更加接近实际的应用需求。需要说明的是,传统的方法利用text-rank进重要句子的抽取,但是效果不能得到很好的保障,抽出的句子不能满足会议纪要生成的需要。在会议系统中使用双向rnn的算法模型,模型主要由词级rnn、句子级rnn以及分类层构成;使用标注语料训练摘要抽取模型,训练语料是标注了每句话重要性的文本,将语料输入到神经网络模型中,拟合分类结果。并创新的采用了回归的方法来设定topk,具体为使用与摘要抽取模型同样的语料训练回归模型,输入为文本和文本的带抽取句子数,改模型可根据不同的文本动态调整待抽取句子的数量,使topk的选取更加接近实际的应用需求。应当认识到,本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现,其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。此外,可按任何合适的顺序来执行本文描述的过程的操作,除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行,并且可作为共同地在一个或多个处理器上执行的代码(例如,可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。进一步,所述方法可以在可操作地连接至合适的任何类型的计算平台中实现,包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现,无论是可移动的还是集成至计算平台,如硬盘、光学读取和/或写入存储介质、ram、rom等,使得其可由可编程计算机读取,当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外,机器可读代码,或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时,本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时,本发明还包括计算机本身。计算机程序能够应用于输入数据以执行本文所述的功能,从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中,转换的数据表示物理和有形的对象,包括显示器上产生的物理和有形对象的特定视觉描绘。实施例2参照图2~6的示意,本实施例提出一种智能会议纪要生成系统,上述实施例的生成方法基于本实施例实现。具体的,本实施例中包括采集模块100、声纹特征提取模块200、角色分离模块300、语音转写模块400、文本处理模块500和纪要生成模块600。进一步的,其中采集模块100用于获取会议音、视频信号;声纹特征提取模块200与采集模块100连接,用于提取实时语音信号的声纹特征;角色分离模块300用于根据声纹特征与预设声纹数据库进行的特征匹配,识别不同发言人的语音信号,并将语音信号分离;语音转写模块400与角色分离模块300连接,用于将分离的语音信号转写为文字生成各自对应的初步文本;文本处理模块500与语音转写模块400连接,用于将初步文本进行纠错、优化处理为目标文本;纪要生成模块600与文本处理模块500连接,用于抽取目标文本内重要句子组成摘要,并按照一定模板整理成会议纪要。如在本申请所使用的,术语“组件”、“模块”、“系统”等等旨在指代计算机相关实体,该计算机相关实体可以是硬件、固件、硬件和软件的结合、软件或者运行中的软件。例如,组件可以是,但不限于是:在处理器上运行的处理、处理器、对象、可执行文件、执行中的线程、程序和/或计算机。作为示例,在计算设备上运行的应用和该计算设备都可以是组件。一个或多个组件可以存在于执行中的过程和/或线程中,并且组件可以位于一个计算机中以及/或者分布在两个或更多个计算机之间。此外,这些组件能够从在其上具有各种数据结构的各种计算机可读介质中执行。这些组件可以通过诸如根据具有一个或多个数据分组(例如,来自一个组件的数据,该组件与本地系统、分布式系统中的另一个组件进行交互和/或以信号的方式通过诸如互联网之类的网络与其它系统进行交互)的信号,以本地和/或远程过程的方式进行通信。应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1