本发明涉及知识图谱构建方法,更具体地说是指富媒体培训课件知识图谱构建方法、装置及计算机设备。
背景技术:
1、富媒体培训课件采用文字、图片、音频、视频、动画等多种媒体元素,利用富媒体制作的培训课件生动、直观和易于理解,因此被广泛用在电力安全教育培训中。电力培训部门一般都积累了大量的富媒体课件,建立了主要由视频和音频课件组成的富媒体课件库。富媒体由于其内容以视频、音频的的多媒体形式呈现,并非传统的文本,因此无法直接被索引和搜索。搜索引擎通常依赖于文本和标记来理解和组织内容,而富媒体中的内容并不容易被直接解读和分析。现有的增加富媒体课件的可搜索性的方法是为视频添加元数据,包括为视频添加标题、描述、关键字和标签等元信息,使搜索引擎能够更好地理解富媒体课件的内容和主题。这种方案存在诸多不足,如因只包含课件中很小一部分信息,因此无法实现对课件中知识的完整搜索;无法将搜索内容直接定位到视频的具体位置、无法实现语义搜索等。
2、因此,有必要设计一种新的方法,实现对对富媒体课件库建立知识图谱,满足搜索、智能推荐等场景需求。
技术实现思路
1、本发明的目的在于克服现有技术的缺陷,提供富媒体培训课件知识图谱构建方法、装置及计算机设备。
2、为实现上述目的,本发明采用以下技术方案:富媒体培训课件知识图谱构建方法,包括:
3、获取富媒体培训课件;
4、对所述富媒体培训课件进行预处理,以得到文字脚本;
5、根据所述文字脚本构建知识图谱。
6、其进一步技术方案为:所述对所述富媒体培训课件进行预处理,以得到文字脚本,包括:
7、对所述富媒体培训课件中的音频课件进行预处理,以得到课件时序脚本;
8、对所述富媒体培训课件中的视频课件进行预处理,以得到语音与课件时序脚本以及图像与课件时序脚本;
9、组合所述课件时序脚本、语音与课件时序脚本以及图像与课件时序脚本,以得到文字脚本。
10、其进一步技术方案为:所述对所述富媒体培训课件中的音频课件进行预处理,以得到课件时序脚本,包括:
11、对所述富媒体培训课件中的音频课件使用语音识别和自然语言处理技术识别人声讲话内容,并将人声讲话内容转化为文本,生成课件时序脚本。
12、其进一步技术方案为:所述对所述富媒体培训课件中的视频课件进行预处理,以得到语音与课件时序脚本以及图像与课件时序脚本,包括:
13、对所述富媒体培训课件中的视频课件提取视频课件音轨,使用语音识别和自然语言处理技术识别人声讲话内容,以生成包含时序信息的语音与课件时序脚本;
14、对所述富媒体培训课件中的视频课件逐帧提取为图片;
15、对所述图片的指定区域进行ocr识别,以生成包含时序信息的图像与课件时序脚本。
16、其进一步技术方案为:所述对所述图片的指定区域进行ocr识别,以生成包含时序信息的图像与课件时序脚本,包括:
17、对所述图片的指定区域进行ocr识别,以提取字幕信息;
18、对所述字幕信息进行重复字幕的去除,以生成包含时序信息的图像与课件时序脚本。
19、其进一步技术方案为:所述根据所述文字脚本构建知识图谱,包括:
20、对所述文字脚本提取命名实体;
21、对所述文字脚本提取所述命名实体的关系;
22、采用所述命名实体以及所述命名实体的关系构建带有上下文的实体关系三元组;
23、利用所述实体关系三元组构建知识图谱。
24、本发明还提供了富媒体培训课件知识图谱构建装置,包括:
25、课件获取单元,用于获取富媒体培训课件;
26、预处理单元,用于对所述富媒体培训课件进行预处理,以得到文字脚本;
27、构建单元,用于根据所述文字脚本构建知识图谱。
28、其进一步技术方案为:所述预处理单元包括:
29、第一预处理子单元,用于对所述富媒体培训课件中的音频课件进行预处理,以得到课件时序脚本;
30、第二预处理子单元,用于对所述富媒体培训课件中的视频课件进行预处理,以得到语音与课件时序脚本以及图像与课件时序脚本;
31、组合子单元,用于组合所述课件时序脚本、语音与课件时序脚本以及图像与课件时序脚本,以得到文字脚本。
32、本发明还提供了一种计算机设备,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法。
33、本发明还提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法。
34、本发明与现有技术相比的有益效果是:本发明通过语音识别、图像识别、自然语言处理等方法,提取富媒体培训课件中能够反映其内容的文字脚本,以此为基础来构建带时序信息的知识图谱,解决了富媒体课件因不能直接提取实体和实体关系而无法构建知识图谱的难题,实现了对富媒体培训库语义搜索的支持,并且搜索结果能够直接定位到富媒体课件的具体位置,将时序信息保存到知识图谱中,搜索结果能够直接定位到富媒体课件的具体位置,实现对对富媒体课件库建立知识图谱,满足搜索、智能推荐等场景需求。
35、下面结合附图和具体实施例对本发明作进一步描述。
1.富媒体培训课件知识图谱构建方法,其特征在于,包括:
2.根据权利要求1所述的富媒体培训课件知识图谱构建方法,其特征在于,所述对所述富媒体培训课件进行预处理,以得到文字脚本,包括:
3.根据权利要求2所述的富媒体培训课件知识图谱构建方法,其特征在于,所述对所述富媒体培训课件中的音频课件进行预处理,以得到课件时序脚本,包括:
4.根据权利要求2所述的富媒体培训课件知识图谱构建方法,其特征在于,所述对所述富媒体培训课件中的视频课件进行预处理,以得到语音与课件时序脚本以及图像与课件时序脚本,包括:
5.根据权利要求4所述的富媒体培训课件知识图谱构建方法,其特征在于,所述对所述图片的指定区域进行ocr识别,以生成包含时序信息的图像与课件时序脚本,包括:
6.根据权利要求1所述的富媒体培训课件知识图谱构建方法,其特征在于,所述根据所述文字脚本构建知识图谱,包括:
7.富媒体培训课件知识图谱构建装置,其特征在于,包括:
8.根据权利要求7所述的富媒体培训课件知识图谱构建装置,其特征在于,所述预处理单元包括:
9.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的方法。
10.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的方法。