一种会议信息智能检索方法与流程

文档序号:26484212发布日期:2021-08-31 17:40阅读:71来源:国知局
一种会议信息智能检索方法与流程
本发明涉及会议记录
技术领域
,具体涉及一种会议信息智能检索方法。
背景技术
:随着技术进步,很多自动记录会议内容的产品不断被推出。从最早的录音机,到自动化语音转文字的设备。而这些记录方法记录的内容会很多,因为往往开会都会持续几个小时。从而导致查阅或者检索会议记录费时费力。虽然有些高级产品按照人的生物特征如声纹、指纹等方式为会议参与者加注标签,之后通过标签快速定位会议记录内容,甚至使用地理信息、行政级别的方式标注,但还是有不够人性化的缺点,例如:会议记录无法按照内容进行查询和检索,查询记录的方式单一,只能人为的回看,回听,不能快速定位。技术实现要素:本发明的目的是提供一种会议信息智能检索方法,以解决现有技术中的上述不足之处。为了实现上述目的,本发明提供如下技术方案:一种会议信息智能检索方法,包括以下步骤:步骤一、会议信息记录,全程实时以多媒体方式记录,包含会议整个视频、音频以及文本等形式的归档;步骤二、提取会议视频内容的音频流,从视频流提取音频流通常使用解复用(demux)将音频流从媒体文件或者流文件的容器(container)复制一份出来,而原始视频文件保持不变,再将音频流发送到语音识别模块将语音转换为文字信息并存储;步骤三、对会议记录的视频、音频、文本按会议进行的时间进行标记,通过说话检测技术或者静音检测技术为起始和结束判断依据,再进一步结合nlp(自然语言处理)的上下文判断技术包括且不限于sbd(sentenceboundarydisambiguation)以及粒度更细小的ws(wordsegmentation)将说话内容按照句子为单元,或者词为单元进行处理,处理的后的会议记录内容被分别按句以及按词添加标记并存储;步骤四、用户搜索会议记录,输入文本信息或者语音信息进行查询,若接收到语音信息,则通过语音转文本模块将语音转换为文本,并与先前存储的会议信息匹配、查询,并返回对应的音频或视频信息,并附带语音转换而成的文本信息;步骤五、用户在查看返回结果时,可以快速检索上下文的记录内容,即用户可同时查看被检索时间段之前与之后的会议信息,且记录内容以文本、音频或者视频信息通过高亮展示给用户,用户可直观的定位、选取以及修改对应的内容。优选的,所述步骤一中,如果会议为网络视频会议,则会议信息直接通过网络获取,如会议为非网络会议,则通过录音、录像等多媒体设备将会议进行录制,并进行提取转换。优选的,所述步骤二中语音转换的文字信息在存储的同时,也可被用于实时会议字幕展示,以及被记录。优选的,所述步骤三中标记的时间间隔以音频中包含说话内容的一句话、或者一个停顿为标记。优选的,所述步骤三中被标记的视频段、音频段以及文字段是分别设置时间顺序表一一对应存储,其中视频段按照时间顺序被记录在列表vsrl(videosegmentsrecordinglist)中,音频段按时间顺序被记录在列表ssrl(speechsegmentsrecordinglist),文字段信息按时间顺序记录在列表tsrl(textsegmentsrecordinglist)中。优选的,所述步骤四中的匹配过程包括以下步骤:步骤a、第一级文字匹配,用户搜索产生的文本信息用于在tsrl存储的文本信息匹配,如果能够匹配到则返回对应时间段的音频信息,如果有对应的视频信息则直接返回对应时间段的视频信息。步骤b、第二级文字匹配,如果第一级无法匹配到,则将文本信息经过sbd降为更小粒度再次匹配,如果能匹配到则返回与之对应的音频或视频信息,步骤c、第二级处理,如果第二级还无法匹配则再将信息经过ws分解为更小粒度再次匹配,如果能匹配到则返回对应的音频或视频信息,否则确实匹配不到查询信息。在上述技术方案中,本发明提供的技术效果和优点:本发明通过以多媒体方式记录会议信息,对会议记录的视频、音频、文本按会议进行的时间进行标记、存储,用户通过文本信息进行检索匹配,通过多级处理,对检索信息与会议信息进行匹配、查询,当匹配到会议记录,则显示对应记录所在时间轴的信息,用户可通过交互设备选择文本信息,对应的音频也被高亮显示,同时播放让用户直观听到当时会议说话的音频信息,用户可以随意选择文本模块中的任意段落,对应的音频或视频会被同步定位并播放,反之,用户快速检索音频或者视频内容,对应的文本信息也会立即展示出来,从而使得会议后期分析以及了解更加便捷,极大的提升了会议记录检索的体验。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。图1为本发明的流程图。图2为本发明查询匹配过程的流程图。图3为本发明返回结果时的交互界面示例图。图4为本发明返回结果只有音频和文本信息情况的另一种拾音界面示例图。图5为本发明图4状态下用户选择查询信息状态的界面示例图。附图标记说明:a、视频信息展示模块;b、时间轴的视频信息片段展示模块;c、文本信息展示模块;d、音频信息展示模块;e、时间位置展示模块。具体实施方式为了使本领域的技术人员更好地理解本发明的技术方案,下面将结合附图对本发明作进一步的详细介绍。本发明提供了一种会议信息智能检索方法,包括以下步骤:步骤一、会议信息记录,全程实时以多媒体方式记录,包含会议整个视频、音频以及文本等形式的归档,如果会议为网络视频会议,则会议信息直接通过网络获取,如会议为非网络会议,则通过录音、录像等多媒体设备将会议进行录制,并进行提取转换;步骤二、提取会议视频内容的音频流,从视频流提取音频流通常使用解复用(demux)将音频流从媒体文件或者流文件的容器(container)复制一份出来,而原始视频文件保持不变,再将音频流发送到语音识别模块将语音转换为文字信息并存储,同时,也可被用于实时会议字幕展示,以及被记录;步骤三、对会议记录的视频、音频、文本按会议进行的时间进行标记,通过说话检测技术或者静音检测技术为起始和结束判断依据,时间间隔以音频中包含说话内容的一句话、或者一个停顿为标记,再进一步结合nlp(自然语言处理)的上下文判断技术包括且不限于sbd(sentenceboundarydisambiguation)以及粒度更细小的ws(wordsegmentation)将说话内容按照句子为单元,或者词为单元进行处理,处理的后的会议记录内容被分别按句以及按词添加标记并存储;被标记的视频段、音频段以及文字段是分别设置时间顺序表一一对应存储,其中视频段按照时间顺序被记录在列表vsrl(videosegmentsrecordinglist)中,音频段按时间顺序被记录在列表ssrl(speechsegmentsrecordinglist),文字段信息按时间顺序记录在列表tsrl(textsegmentsrecordinglist)中,vsrl,ssrl以及tsrl的结构示意分别如表1、表2和表3所示:表1.vsrl示例sequenceno.timeoffsetdurationsegmentsurl000:00:00.0001000vs001.mp4100:00:01.0001000vs002.mp4200:00:02.0001500vs003.mp4…………其中,sequenceno.表示标记序号,该标记类似关系表格的键值唯一,且与ssrl和tsrl对应相同;timeoffset表示相对整个视频的偏移量,从开始到当前;duration表示当前段的时间长,以毫秒ms为单位;segmentsurl表示存储当前段的视频文件url信息;流媒体播放器使用改url可直接播放对应视频;实际使用中该地址应该被进一步加密,通过加密提高数据的安全性。表2.ssrl示例sequenceno.timeoffsetdurationsegmentsurl000:00:00.0001000ss001.wav100:00:01.0001000ss002.wav200:00:02.0001500ss003.wav…………其中,sequenceno.表示标记序号,与vsrl相同;timeoffset表示相对整个视频的偏移量,从开始到当前;duration表示当前段的时间长,以毫秒ms为单位;segmentsurl表示存储当前段的音频文件url信息;流媒体播放器使用改url可直接播放对应音频;实际使用中该地址应该被进一步加密,通过加密提高数据的安全性。其中sequenceno.vsrl=sequenceno.ssrl=sequenceno.tsrl表3.tsrl示例其中,sequenceno.表示标记序号,与vsrl相同;originallanguagecode,表示原始文本的语言,此处用iso-639-1标准表示,en为英语,zh为中文等;codepage,表示文字编码的字符集,1209为utf-8unicode;characters,表示存储文本的文件url;步骤四、用户搜索会议记录,输入文本信息或者语音信息进行查询,若接收到语音信息,则通过语音转文本模块将语音转换为文本,并与先前存储的会议信息匹配、查询,并返回对应的音频或视频信息,并附带语音转换而成的文本信息;其中,文本匹配过程包括以下步骤:步骤a、第一级文字匹配,用户搜索产生的文本信息用于在tsrl存储的文本信息匹配,如果能够匹配到则返回对应时间段的音频信息,如果有对应的视频信息则直接返回对应时间段的视频信息。步骤b、第二级文字匹配,如果第一级无法匹配到,则将文本信息经过sbd降为更小粒度再次匹配,如果能匹配到则返回与之对应的音频或视频信息,步骤c、第二级处理,如果第二级还无法匹配则再将信息经过ws分解为更小粒度再次匹配,如果能匹配到则返回对应的音频或视频信息,否则确实匹配不到查询信息步骤五、用户在查看返回结果时,可以快速检索上下文的记录内容,即用户可同时查看被检索时间段之前与之后的会议信息,且记录内容以文本、音频或者视频信息通过高亮展示给用户,用户可直观的定位、选取以及修改对应的内容。综上所述,本发明通过以多媒体方式记录,包含会议整个视频、音频以及文本等形式的归档,并将音频流发送到语音识别模块将语音转换为文字信息,再对会议记录的视频、音频、文本按会议进行的时间进行标记,并以时间标记为依据一一对应存储,用户通过输入文本信息或者语音信息进行查询,若接收到语音信息,则通过语音转文本模块将语音转换为文本,通过多级处理,对会议信息进行匹配、查询,当匹配到会议记录,则显示对应记录所在时间轴的信息,包含上下段落的信息,用户可通过交互设备如鼠标,或者触摸屏选择文本信息,则文本信息被高亮显示,对应的音频也被高亮显示,同时播放让用户直观听到当时会议说话的音频信息,如果有对应记录的视频信息则播放对应视频片段,用户可以随意选择文本模块中的任意段落,对应的音频或视频会被同步定位并播放,反之,用户快速检索音频或者视频内容,对应的文本信息也会立即展示出来,从而使得会议后期分析以及了解更加便捷,极大的提升了会议记录检索的体验。以上只通过说明的方式描述了本发明的某些示范性实施例,毋庸置疑,对于本领域的普通技术人员,在不偏离本发明的精神和范围的情况下,可以用各种不同的方式对所描述的实施例进行修正。因此,上述附图和描述在本质上是说明性的,不应理解为对本发明权利要求保护范围的限制。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1