本发明涉及智能会议处理,具体地说,涉及利用ai的会议纪要处理方法及其系统。
背景技术:
1、企业内部经常开设会议,在开设会议后会记录会议纪要信息,以便未参加会议人员可以阅读会议纪要以了解会议内容,参加会议人员可以再次阅读,复习会议内容,会议纪要用于对会议讨论内容、决策事项、任务分工等关键信息的结构化记录,但是用文字记录下来会议纪要内容较多,随着ai智能的发展,ai可实现实时转写,自动生成完整会议纪要,实现对会议内容的实时记录与总结。
2、但是由于缺乏对行业术语的针对性优化,导致领域词汇误识别率高,在专业会议中术语转写错误频发,且无法根据上下文动态调整语言模型权重,导致语义连贯性差,因此,提供利用ai的会议纪要处理方法及其系统。
技术实现思路
1、本发明的目的在于提供利用ai的会议纪要处理方法及其系统,以解决缺乏对行业术语的针对性优化,导致领域词汇误识别率高,在专业会议中术语转写错误频发,且无法根据上下文动态调整语言模型权重,导致语义连贯性差的问题。
2、为实现上述目的,本发明目的在于提供了利用ai的会议纪要处理方法,包括以下步骤:
3、s1、采用多源传感器采集会议音频流及关联文本数据,通过噪声抑制算法对采集会议音频流和关联文本数据进行实时噪声抑制,并采用跨模态对齐算法对降噪后的数据进行跨模态对齐,得到融合特征;
4、s2、部署混合ctc/attention的端到端asr模型,并在预训练transformer模型的注意力层中插入领域专用注意力头,构建领域增强的语音识别模型,用于将音频转换为带说话人标签的文本序列;
5、s3、基于融合特征、带说话人标签的文本序列和ppt章节结构并通过解析文本的语义角色与时序关系,采用异构图神经网络构建结构化议题演进图谱;
6、s4、基于强化学习策略提取结构化议题演进图谱中的关键决策节点,生成最终会议摘要文档。
7、作为本技术方案的进一步改进,所述s1中,多源传感器包括音频传感器、视觉传感器和文本输入源;
8、所述音频传感器通过波束成形算法定向捕获发言人音频;
9、所述文本输入源实时接入ppt/pdf文档解析器,用于提取文本内容及翻页事件时间戳。
10、作为本技术方案的进一步改进,所述s1中,通过噪声抑制算法对采集的数据进行实时噪声抑制涉及的具体步骤为:
11、原始音频信号通过谱减法降噪得到降噪后幅度谱;
12、将经过谱减法降噪后幅度谱与相位谱输入至深度神经网络细化降噪,得到降噪后音频信号。
13、作为本技术方案的进一步改进,所述s1中,跨模态对齐算法对降噪后的数据进行跨模态对齐,涉及的具体步骤为:
14、采用slidetimer算法解析ppt翻页日志,提取章节时间集合;
15、通过silero-vad检测静默段,分割为段落边界集合;
16、将章节时间集合与段落边界集合构建为候选配对集合,通过匈牙利算法筛选候选配对集合中的合法时间戳配对集合,实现粗粒度时间对齐;
17、输出得到粗粒度对齐的章节-音频段落对;
18、通过对比学习框架训练音频编码器与文本编码器,并构建统一特征空间:
19、;
20、式中,用于衡量音频与文本跨模态对齐的损失值;表示音频编码器;表示文本编码器;表示音频片段通过音频编码器提取的特征向量;表示文本片段通过文本编码器提取的特征向量;表示负样本文本,指与音频片段不匹配的文本片段;表示预设的阈值;
21、其中,使关联的音频片段与文本片段在嵌入空间中满足:
22、,且;
23、式中,表示音频编码器对音频片段的编码结果;表示文本编码器对文本片段的编码结果;表示与的余弦相似度;表示预设的边界裕度,用于增强正负样本的区分度;
24、表示对所有与不匹配的文本片段均满足;
25、基于粗粒度对齐的章节-音频段落对,计算章节标题与音频段落的相似度;
26、采用改进动态时间规整算法对齐语句片段,结合语义代价函数补偿局部时序抖动;
27、使用crf序列标注识别专业术语,标注转移矩阵动态更新;
28、根据实时音频特征向量和文本特征向量,动态计算权重;
29、通过音频投影矩阵和文本投影矩阵将音频/文本特征统一至512维,生成融合特征。
30、作为本技术方案的进一步改进,构建所述领域增强的语音识别模型涉及的具体步骤为:
31、部署混合ctc/attention的端到端asr模型;
32、通过上下文自适应机制,在解码阶段动态调整语言模型权重;
33、构建包含声学置信度评估的门控网络,实时接收声学模型输出的后验概率分布;
34、通过预训练的领域术语检测器分析当前语音片段的词汇分布,生成领域相关性分数;
35、将融合特征作为门控网络的输入,同时引入声学置信度特征和领域相关性分数,计算动态语言模型权重系数;
36、执行上下文感知的模型融合生成最终解码概率;
37、同时,在预训练transformer模型的注意力层中插入k个领域专用注意力头,形成混合注意力结构,构建可学习的领域掩码矩阵,并采用多任务迁移学习策略优化模型参数,将音频特征转写为文本序列。
38、作为本技术方案的进一步改进,所述音频转换为带说话人标记的初始文本涉及的具体步骤为:
39、并行提取降噪后音频信号的mfcc特征和fbank特征,将双模态特征拼接为;
40、将作为gmm-ubm模型的输入,通过最大后验概率估计获得说话人嵌入向量;
41、基于t-sne降维与dbscan聚类算法,将声纹特征向量集合分为个说话人簇,输出声纹聚类标签;
42、基于每个声纹聚类段落的文本和融合特征,使用bi-lstm+crf模型计算语义角色概率分布,并将语义角色与声纹聚类结果交叉验证,最终为每一段文本标注对应的说话人身份,生成最终说话人标签;
43、在动态时间规整中引入语义相似度约束和融合特征的时序特征作为约束项,优化语义代价函数,将说话人标签与ppt章节信息对齐,生成带说话人标签的文本序列;
44、其中,带说话人标签的文本序列为:
45、
46、式中,表示文本内容;表示时间戳;为融合声纹与语义的说话人标签。
47、作为本技术方案的进一步改进,所述s3中,构建结构化议题演进图谱涉及的具体步骤为:
48、将融合特征、带说话人标签的文本序列和ppt章节结构作为输入,其中,ppt章节结构由ppt/pdf文档解析器提取得到;
49、对带说话人标签的文本序列进行多模态特征提取,提取语义、声学与时序特征,并将语义角色嵌入与时间间隔信息融合,生成文本的语义表示向量;
50、将融合特征通过线性投影与语义表示向量拼接,生成联合特征;
51、采用嵌套狄利克雷过程对会议内容进行议题节点建模,挖掘会议文本中的父子议题层级,生成议题节点;
52、从带说话人标签的文本序列中,提取位说话人,构成说话人节点,并记录说话人对应的发言频次和声纹置信度;
53、根据输入的ppt章节结构,提取章节节点;
54、则完整节点集合;
55、基于语义角色嵌入向量和议题节点嵌入向量,构建角色-议题关联评分模型,用于量化不同语义角色与特定议题的关联强度,并结合发言频次与议题热度,动态生成贡献关系边;
56、通过构建时序邻接矩阵,量化议题与议题之间的转移关系,并结合时间图注意力网络,动态生成演进关系边;
57、对每一章节节点与每一议题节点,计算章节节点与议题节点的语义相似度,并以语义相似度的值作为包含关系边的权重,得到包含关系边;
58、则完整边集合;
59、基于异构图神经网络对完整节点集合和完整边集合进行多层消息传递与节点更新,并引入时间戳,生成结构化议题演进图谱。
60、作为本技术方案的进一步改进,所述s4中,生成最终会议摘要文档涉及的具体步骤为:
61、将图谱中每个议题节点及其语义特征、时序特征和说话人贡献作为状态输入;
62、采用深度q-learning从图谱中选择对摘要贡献最大的议题节点;
63、针对每一关键决策节点,通过术语分布模型确定议题文本槽位值,通过最大贡献边权确定发言人槽位值,通过srl模型生成决策内容槽位值,并通过余弦相似度对齐章节节点输出时间区间槽位值与章节槽位值;
64、将上述各槽位值按预设模板的顺序拼接,形成最终会议摘要文档。
65、另一方面,本发明提供了利用ai的会议纪要处理系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行计算机程序实现上述任意一项所述的利用ai的会议纪要处理方法。
66、与现有技术相比,本发明的有益效果:
67、1、该利用ai的会议纪要处理方法及其系统中,采用混合ctc/attention 的端到端asr模型,结合领域专用注意力头和动态语言模型权重调整机制,对行业术语进行针对性优化,并在解码阶段,基于实时声学置信度动态调整声学模型与语言模型的融合比例,提高专业领域词汇的识别率,有效降低专业会议中术语转写错误频发,语义连贯性差的问题。
68、2、该利用ai的会议纪要处理方法及其系统中,通过异构图神经网络构建结构化议题演进图谱,整合议题节点、说话人贡献和ppt章节信息,动态量化语义角色与议题的关联强度,实现会议内容的多维度结构化表示,便于关键信息的提取与追溯;
69、同时,基于强化学习策略从图谱中提取关键决策节点,结合术语分布模型、语义角色标注和时序对齐,自动生成包含议题、发言人、决策内容、时间区间等关键槽位的会议摘要,确保内容精准且符合实际讨论逻辑。