多媒体信息话题分析方法、装置、设备及存储介质与流程

文档序号：31062808发布日期：2022-08-09 19:55阅读：71来源：国知局

1.本公开涉及深度学习、计算机视觉和自然语言处理领域，尤其涉及一种多媒体信息话题分析方法、装置、设备及计算机可读存储介质。

背景技术：

2.在互联网环境中，多媒体信息在日常生活中越来越重要，准确分析多媒体信息的话题对多媒体信息的筛选、阅读、多媒体内容检索、多媒体个性化推荐至关重要。而视频作为多媒体信息的一种很重要的体现形式，准确分析出视频的话题也就尤为重要。
3.视频是一种典型的多模态组合类型，其包括文本、图像、音频等不同模态特征。但是，现有技术中，面向视频的话题分析技术，通常情况下是直接利用视频标题以及视频相似关键帧对视频话题进行分析；因为视频的多模态特征，仅仅通过视频标题以及视频相似关键帧进行话题分析，导致话题分析不全面，话题分析结果准确度不高，进一步的导致视频的筛选、阅读、视频内容检索、视频个性化推荐等准确性不高。

技术实现要素：

4.为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种多媒体信息话题分析方法、装置、设备及计算机可读存储介质，充分考虑了视频数据的多模态特征，全面的分析视频话题，提高了话题分析的准确性；进一步的，通过准确的话题分析，可以使受众快速有效的获取视频的主要信息，提升了工作效率，并可以广泛应用于视频个性化推荐、视频内容检索等场景。
5.第一方面，本公开实施例提供一种多媒体信息话题分析方法，包括：
6.提取多媒体信息中的音频数据和视频数据；
7.将所述音频数据转换为第一文本信息，并根据所述第一文本信息得到语音识别文本；
8.从所述音频数据提取语音信息，得到语音识别文本；
9.从所述视频数据的关键帧中提取字幕信息，得到字幕文本；
10.从所述语音识别文本和所述字幕文本中提取实体和关键词，以及确定所述语音识别文本和所述字幕文本的语义标签；
11.提取所述关键帧中的人脸标签、以及确定所述关键帧的图片标签；
12.根据所述实体、所述关键词、所述语义标签、所述人脸标签和所述图片标签，确定所述多媒体信息的目标话题。
13.第二方面，本公开实施例提供一种多媒体信息话题分析装置，包括：
14.第一提取模块，用于提取多媒体信息中的音频数据和视频数据；
15.第二提取模块，用于从所述音频数据提取语音信息，得到语音识别文本；
16.第三提取模块，用于从所述视频数据的关键帧中提取字幕信息，得到字幕文本；
17.第四提取模块，用于从所述语音识别文本和所述字幕文本中提取实体和关键词；
18.第一确定模块，用于确定所述语音识别文本和所述字幕文本的语义标签；
19.第五提取模块，用于提取所述关键帧中的人脸标签；
20.第二确定模块，用于确定所述关键帧的图片标签；
21.第三确定模块，用于根据所述实体、所述关键词、所述语义标签、所述人脸标签和所述图片标签，确定所述多媒体信息的目标话题。
22.第三方面，本公开实施例提供一种电子设备，包括：
23.存储器；
24.处理器；以及
25.计算机程序；
26.其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如第一方面所述的方法。
27.第四方面，本公开实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现第一方面所述的方法。
28.第五方面，本公开实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机程序或指令，该计算机程序或指令被处理器执行时实现如上所述的多媒体信息话题分析方法。
29.本公开实施例提供的多媒体信息话题分析方法、装置、设备及计算机可读存储介质，通过音频数据得到语音识别文本、通过视频数据的关键帧得到字幕文本；针对上述语音识别文本及字幕文本从实体、关键词、语义标签三方面提取话题信息，实现了基于文本数据的全方面、多粒度的文本话题提取；针对视频数据的关键帧，从人脸标签及图片标签两方面提取话题信息，实现了基于图像数据的视觉话题提取；本公开实施例充分考虑了视频数据的多模态信息，全面的分析视频话题，提高了话题分析的准确性；进一步的，通过准确的话题分析，可以使受众快速有效的获取视频的主要信息，提升了工作效率，并可以广泛应用于视频个性化推荐、视频内容检索等场景。
附图说明
30.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。
31.为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
32.图1为本公开实施例提供的一种多媒体信息话题分析方法流程图；
33.图2为本公开实施例提供的一种多媒体信息话题分析方法实现流程图；
34.图3为本公开实施例提供的一种基于文本数据的话题信息提取实现流程图；
35.图4为本公开实施例提供的一种基于图像数据的话题信息提取实现流程图；
36.图5为本公开实施例提供的另一种多媒体信息话题分析方法流程图；
37.图6为本公开实施例提供的一种多媒体信息话题分析装置的结构示意图；
38.图7为本公开实施例提供的电子设备的结构示意图。
具体实施方式
39.为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。
40.在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。
41.在互联网环境中，多媒体信息在日常生活中越来越重要，准确分析多媒体信息的话题对多媒体信息的筛选、阅读、多媒体内容检索、多媒体个性化推荐至关重要。而视频作为多媒体信息的一种很重要的体现形式，准确分析出视频的话题也就尤为重要。
42.通常情况下，面向视频的话题分析技术，大部分是直接利用视频标题或者是视频相似关键帧对视频话题进行分析；但是因为视频的多模态特征，仅仅通过视频标题以及视频相似关键帧进行话题分析，导致话题分析不全面，话题分析结果准确度不高，进一步的导致视频的筛选、阅读、视频内容检索、视频个性化推荐等准确性不高。
43.针对该问题，本公开实施例提供了一种多媒体信息话题分析方法，下面结合具体的实施例对该方法进行介绍。
44.图1为本公开实施例提供的一种多媒体信息话题分析方法流程图；图2为本公开实施例提供的一种多媒体信息话题分析方法实现流程图；该多媒体信息话题分析方法可以由多媒体信息话题分析装置执行，该装置可以采用软件和/或硬件实现，并可集成在任意具有计算能力的电子设备上，例如终端，具体包括智能手机、掌上电脑、平板电脑、带显示屏的可穿戴设备、笔记本电脑等。
45.现阶段，视频已经成为多媒体信息的一种很重要的体现形式，本实施例中提供的多媒体信息话题分析方法，适用于以视频形式展示的的多媒体信息，因此，下面从视频角度对多媒体信息话题分析方法进行介绍。
46.如图1所示，本公开实施例提供的多媒体信息话题分析方法包括如下几个步骤：
47.s101、提取多媒体信息中的音频数据和视频数据。
48.具体的，在本实施例中，提取多媒体信息中的音频数据和视频数据是指对多媒体信息进行分离处理，将多媒体信息拆分成单独的音频数据和视频数据两部分。其中，音频数据包括多媒体信息中的语音内容，视频数据包括除音频数据外的所有视频数据。
49.需要说明的是，对多媒体数据分离可以采用任何可用的方法、工具或设备，本公开实施例对此不做限定。
50.s102、从音频数据提取语音信息，得到语音识别文本。
51.具体的，本步骤的主要目的是得到语音识别文本。通过自动语音识别技术(automatic speech recognition，asr)从音频数据中提取语音信息，得到语音识别信息。
52.示例性的，在一些实施例中，从分离后的音频数据中提取语音信息，得到语音识别文本主要包括以下几个过程：特征提取、声学模型、语言模型以及字典与解码。具体的，音频数据实质是一组声音信号，对上述声音信号进行特征提取，将声音信号从时域转换到频域，为声学模型提供合适的特征向量；声学模型中再根据声学特征计算每一个特征向量在声学特征上的得分；之后，语言模型根据语言学相关的理论，计算该声音信号对应的可能词组序
列的概率；最后根据已有的字典，对词组序列进行解码，进而得到语音识别文本。
53.需要说明的是，上述从音频数据提取语音信息，得到语音识别文本的实现方式只能是一种可行的技术方案，本技术对从音频数据提取语音信息，得到语音识别文本实现方式不做限定。
54.s103、从视频数据的关键帧中提取字幕信息，得到字幕文本。
55.具体的，在本实施例中，抽取视频数据中的关键帧，得到视频处理的最小单元。利用光学字符标识(optical character recognition，ocr)识别关键帧中的文本信息。
56.可选的，识别关键帧中的文本信息可以使用文字识别模型。示例性的，可以使用文字识别模型paddle ocr模型。
57.因为视频中的视频标题最能体现视频的话题，例如，新闻联播的视频中，会在视频页面显示视频标题，用于概括新闻的中心内容，因此，视频标题中的字幕文本对于视频话题分析起重要作用。
58.所以，在本实施例中，使用文字识别模型，需要获取到的是视频数据中的视频标题的字幕文本；因此，在本实施例中，使用paddle ocr文字识别模型时的输入是关键帧，输出的是字幕文本。
59.为了避免与视频标题的字幕文本无关的区域的干扰，在使用paddle ocr文字识别模型进行文本识别之前，需要对从视频数据中抽取的关键帧添加掩码(mask)。在本实施例中，掩码所起的作用是对关键帧上与视频标题的字幕文本无关的区域做屏蔽,使其不参加文本识别；然后再使用paddle ocr文字识别模型对未屏蔽区域进行文本识别，进而得到字幕文本。
60.s104、从语音识别文本和字幕文本中提取实体和关键词，以及确定语音识别文本和字幕文本的语义标签。
61.具体的，在本实施例中，通过提取语音识别文本和字幕文本中的实体、提取语音识别文本和字幕文本中的关键词以及确定语音识别文本和字幕文本的语义标签三个方面得到话题信息，该步骤实现流程图如图3所示，下面结合图3进行具体介绍：
62.第一方面，在自然语言领域中，实体是非结构化文本数据中的结构化属性。通过命名实体识别(named entity recognition，ner)获得包括人名、地名、机构名、时间等实体。从语义学的角度看，特定时间、特定地点、指定人物或机构等实体对文本内容有限定作用，在话题检测中引入该特征，可以提高话题分析准确性。
63.具体的，在本实施例中，得到实体可以通过以下方式实现：
64.首先，对语音识别文本和字幕文本进行分句、分词、去除停用词和词性标注预处理，即图3中的文本预处理。
65.其中，分句、分词指的是将上述语音识别文本和字幕文本切分成单独的句子、单独的词语等；
66.去除停用词指的是将语音识别文本和字幕文本中包含的需自动过滤掉的字或词语进行去除。去除停用词既可以提高文本数据处理效率，又可以节省存储空间，同时还可以提高话题分析的准确性。
67.词性标注是指将语音识别文本和字幕文本中的字或词语标注词性，其中，词性包括但不限于名词、动词、形容词等。
68.通过该步骤，得到了去除停用词的且标注了词性的分词集。
69.示例性的，对语音识别文本和字幕文本的分句、分词、词性标注可以采用中文分词开源库jieba实现。对语音识别文本和字幕文本去除停用词可以利用现有的停用词表与语音识别文本和字幕文本进行匹配，若语音识别文本和字幕文本中的字或者词语等在停用表中，则去除该字或者词语。其中，停用词表，例如是百度停用词表，或者是自定义停用词表，本公开实施例对此不做限定。
70.其次，基于上述处理后的语音识别文本和字幕文本，筛选词性为名词的词语，得到名词分词集。
71.因为实体大部分为名词，因此，在本实施例中，筛选词性为名词的字或词语等，进而得到词性为名词的分词集。在一些其他的实施例中，还可以筛选其他词性的词语，本公开实施例对此不做限定。
72.然后，识别人名、地名、组织机构、时间等实体，即图3中的实体识别。
73.可选的，可以利用深度学习模型提取语音识别文本及所述字幕文本中的实体。
74.示例性的，可以通过长短期记忆人工神经网络模型(long short-term memory，lstm)及条件随机场(conditional random field，crf)识别名词分词集中的人名、地名、组织机构、时间等实体。在本实施例中，使用上述两个模型，输入为分词序列，输出为实体识别序列。
75.最后，对上述输出的实体识别序列进行实体过滤和实体去重，过滤掉不关注的实体及重复的实体，即图3所示的实体过滤，进而得到需要的实体。
76.第二方面，关键词作为代表某个文本的重要词汇，一定程度上表达了整个文本的主题思想，因此提取文本中的关键词对于话题分析同样重要。
77.具体的，在本实施例中，抽取语音识别文本和字幕文本的关键词可以通过以下方式实现：
78.首先，对语音识别文本和字幕文本进行分句、分词、去除停用词处理，即图3所示的文本预处理。在本实现方式中，与上述实体中的分句、分词、去除停用词实现方式相同，在此不再赘述。
79.通过该步骤，得到了去除了停用词的分词集。
80.其次，提取上述去除停用词的分词集中的出现次数较多且文本集中不常见的词语作为关键词，即图3所示的关键词提取。
81.可选的，可以利用关键词提取模型提取语音识别文本及所述字幕文本中的关键词。
82.示例性的，可以使用关键词提取模型(term frequency
–
inverse document frequency，tf-idf)。tf-idf模型的主要逻辑是：如果某个词语在文本中出现的频率高，并且在其他文章中很少出现，则认为该词语对于表示这篇文档具有很好的区分能力；某一个词语在一个文本中为高词语频率以及该词语在整个文件集合中为低文件频率，该词语可以产生高权重。将上述模型应用于本实施例中，该模型的输入为去除了停用词的分词集，输出为关键词及各个关键词的权重。
83.可选的，可以对上述输出的关键词按照权重进行排序，即图3所示的关键词排序，排序越靠前表示越重要，可以根据需要选择前k个关键词作为最终的关键词。
84.第三方面，由于上述实体及关键词是从文本中提取部分内容，缺乏全局信息，而对语音识别文本和字幕文本进行融合，并确定融合后的语音识别文本和字幕文本的语义标签，则是从全局角度分析视频话题。
85.在本实施例中，确定语音识别文本和字幕文本的语义标签具体可以是确定语音识别文本和字幕文本对应的一级标签及二级标签。具体的，确定融合后的语音识别文本和字幕文本的语义标签可以通过以下方式实现：
86.首先，确定语音识别文本和字幕文本的一级标签，示例性的，一级标签包括：财经、军事、科技、体育、娱乐等。
87.可选的，可以利用多分类模型确定语音识别文本及字幕文本的一级标签。
88.示例性的，多分类模型可以使用预训练模型(bidirectional encoder representations from transformers，bert)。使用bert模型之前，需要对该模型进行训练，训练阶段的分类数据，可以采用现已公开的中文文本分类数据集或自定义中文文本分类数据集。
89.该模型训练完成后，应用于本实施例中，该模型的输入为语音识别文本和字幕文本，输出为语音识别文本和字幕文本的一级标签。
90.其次，确定语音识别文本和字幕文本的二级标签，在确定二级标签之前，需要预先设置好每个一级标签下二级标签。示例性的，对于上述一级标签中的体育，设置其对应的二级标签包括：篮球、足球、体育明星等。
91.可选的，对于二级标签可以采用多标签分类模型确定所述语音识别文本及字幕文本的二级标签。
92.示例性的，多标签分类模型可以使用bert模型。使用该模型之前，也需要对该模型进行训练，训练阶段使用的分类数据，使用已公开的或自定义的中文多标签分类数据集。
93.该模型训练完成后，应用于本实施例中，该模型的输入为语音识别文本和字幕文本，输出为语音识别文本和字幕文本的多个二级标签。
94.基于上述实现方案，可以确定语音识别文本和字幕文本的一个一级标签及多个二级标签，即图3所示的语义标签。
95.需要说明的是，当视频中只包含语音识别文本，不包含字幕文本时，只需要确定语音识别文本对应的一级标签和二级标签。当视频中只包含字幕文本，不包含语音识别文本时，只需要确定字幕文本对应的一级标签和二级标签。
96.可以理解的是，因为语音识别文本及字幕文本都属于文本数据，因此，本步骤实现了基于文本数据的话题信息提取，即图3所示的基于文本数据的文本话题信息。
97.s105、提取关键帧中的人脸标签、以及确定关键帧的图片标签。
98.具体的，对于视频，其除了包括语音识别文本和字幕文本之外，还包括关键帧图像。关键帧图像在一定程度上的信息容量相比于本文更大，对于真实话题的代表性更强。
99.针对视频中包括的关键帧图像，在本实施例中，通过人脸标签及图片标签两个方面获取话题信息，该步骤实现流程图如图4所示，下面结合图4进行具体介绍。
100.在本实施例中，人脸标签具体可以是人脸名称，示例性的，人脸标签为张三、李四等；图片标签具体可以是对图片分类后得到的分类标签，示例性的，图片标签为人物、动物、植物等。
101.第一方面，针对人脸标签，可以通过以下方式实现。
102.具体的，人脸标签提取分为人脸检测、人脸特征抽取、特征比对几个步骤。
103.首先，从关键帧数据中进行人脸关键点检测，即图4所示的人脸检测；
104.示例性的，对人脸关键点检测可以使用人脸检测模型(multi task cascaded convolutional networks，mtcnn)，该模型的输入为关键帧数据，输出为人脸关键点的位置信息。
105.其次，基于人脸关键点检测结果，抽取对应位置包含的人脸特征，即图4所示的特征提取。
106.示例性的，抽取对应位置包含的人脸特征可以使用人脸特征抽取模型facenet，该模型的输入为上述人脸关键点的位置信息，输出为上述人脸关键点对应的人脸特征向量。
107.最后，将关键帧中抽取的人脸特征向量和人脸特征库中的人脸特征向量逐一比对，得到人脸标签提取结果，即图4所示的特征比对。
108.可以理解的是，将关键帧中抽取的人脸特征向量和人脸特征库中的人脸特征向量逐一比对之前，需要预先构建人脸特征库。其中，人脸特征库来源于人脸库中包括的姿态、光照、表情各异的面部图像，该人脸库可以根据业务场景自行建立。
109.具体的，建立人脸库后，将人脸库中的面部图像使用人脸特征抽取模型facenet得到人脸特征库中的人脸特征向量，将关键帧中抽取的人脸特征向量和人脸特征库中的人脸特征向量逐一比对，提取得到人脸标签，示例性的，根据该模型得到关键帧中的人物名字为张三。
110.第二方面，针对关键帧的图片标签，可以通过以下方式实现。
111.可选的，对关键帧确定图片标签可以采用图片分类模型对关键帧进行分类。示例性的，图片分类模型为resnet模型，即图4所示的图片分类。
112.可选的，在使用图片分类模型resnet之前，预先在大规模图片数据集imagenet上训练图片分类模型，即图4所示的模型训练。训练完成后，应用于本实例中，该模型的输入为关键帧，输出为图片标签。示例性的，根据该模型得到关键帧的图片标签是动物等。
113.可以理解的是，因为关键帧属于图像数据，因此，本步骤实现了基于图像数据的视觉话题提取，即图4所示的基于图像数据的视觉话题信息。
114.s106、根据实体、关键词、语义标签、人脸标签和图片标签，确定多媒体信息的目标话题。
115.具体的，针对视频中的语音识别文本及字幕文本，从实体、关键词、语义标签三方面提取话题信息，得到多个话题；针对视频中包含的关键帧从人脸标签及图片标签两方面提取话题信息，得到多个话题；将上述得到的话题作为多媒体信息的目标话题。
116.本公开实施例通过音频数据得到语音识别文本、通过视频数据的关键帧得到字幕文本；针对上述语音识别文本及字幕文本从实体、关键词、语义标签三方面提取话题信息，实现了基于文本数据的全方面、多粒度的文本话题提取；针对视频数据中的关键帧，从人脸标签及图片标签两方面提取话题信息，实现了基于图像数据的视觉话题提取；本公开实施例充分考虑了视频数据的多模态特征，全面的分析视频话题，提高了话题分析的准确性；进一步的，通过准确的话题分析，可以使受众快速有效的获取视频的主要信息，提升了工作效率，并可以广泛应用于视频个性化推荐、视频内容检索等场景。
117.图5为本公开实施例提供的另一种多媒体新话题分析方法，该方法包括以下步骤：
118.s501、提取多媒体信息中的音频数据和视频数据。
119.在本实施例中，该步骤与s101相同，在此不再赘述。
120.s502、从音频数据中提取出语音信息中的第一文本信息，对第一文本信息进行纠错处理；基于纠错处理后的第一文本信息得到语音识别文本。
121.具体的，在本实施例中，首先，从分离后的音频数据中提取语音信息，得到第一文本信息。其中，从分离后的音频数据中提取语音信息得到第一文本信息可以采用s101描述的实现方式实现。
122.其次，对第一文本信息进行纠错处理，将纠错处理后的第一文本信息作为语音识别文本。
123.具体的，纠错处理是指纠正第一文本信息中出现的形近词、音近词、成语使用、量词搭配、语法等错误。示例性的，可以将第一文本信息与预先收集的词库进行匹配，对与词库不匹配的字、词语或语句等进行纠正，从而将纠正后的第一文本信息作为语音识别文本。
124.s503、从视频数据的关键帧中提取第二文本信息，对第二文本信息进行纠错处理；基于纠错处理后的第二文本信息得到字幕文本。
125.具体的，在本实施例中，首先，从分离后的视频数据的关键帧中得到第二文本信息。其中，从分离后的视频数据的关键帧中得到第二文本信息可以采用s103描述的实现方式实现。
126.其次，对第二文本信息进行纠错处理，将纠错处理后的第二文本信息作为字幕文本。其中，对第二文本信息进行纠错处理可以采用s202中描述的纠错处理实现方式相同，在此不再赘述。
127.s504、从语音识别文本和字幕文本中提取实体和关键词，以及确定语音识别文本和字幕文本的语义标签。
128.在本实施例中，该步骤与s104相同，在此不再赘述。
129.s505、提取关键帧中的人脸标签、以及确定关键帧的图片标签。
130.在本实施例中，该步骤与s105相同，在此不再赘述。
131.s506、将实体、关键词和语义标签进行合并，得到合并后的文本话题信息；将人脸标签和图片标签进行合并，得到合并后的视觉话题信息；根据合并后的文本话题信息和合并后的视觉话题信息，确定多媒体信息中出现的多个话题。可选的，利用图片分类模型确定关键帧的图片标签；将人脸标签与所述关键帧的图片标签分别去重后进行合并，得到合并后的视觉话题信息。
132.具体的，在本实施例中，因为视频关键帧中包含很多相似关键帧，因此s205中得到的人脸标签提取结果包含重复内容，同理关键帧的图片标签提取结果中也会包含有重复内容，因此需要对人脸标签提取结果及关键帧的图片标签提取结果分别进行去重，然后再将去重后的人脸标签及图片标签进行合并。针对语音识别文本及字幕文本，从实体、关键词、语义标签三方面提取文本话题信息，将上述实体、关键词、语义标签合并，可以得到多个文本话题信息；针对视频中包含的关键帧，从人脸标签和图片标签两方面提取视觉话题信息，将上述人脸标签和图片标签进行合并，得到多个视觉话题信息。将上述文本话题信息及视觉话题信息合并，可以确定多个话题。
133.示例性的，从一段视频中，提取出来实体包括玫瑰花、节日等；关键词包括植物、玫瑰花、红色等；语义标签包括一级标签植物，二级标签玫瑰花等，将实体、关键词、语义标签合并，得到多个文本话题信息；人脸标签包括张三；图片标签包括玫瑰花、百合花等，将人脸标签和图片标签合并，得到多个视觉话题信息。根据上述多个文本话题信息及多个视觉话题信息，可以确定该视频的话题包括植物、玫瑰花等。
134.s507、根据多个话题中每个话题的出处，确定每个话题的权重值；根据每个话题的权重值，确定多媒体信息的目标话题，目标话题是权重值满足预设条件的话题。
135.具体的，在本实施例中，每个话题的出处是指每个话题的来源是文本数据还是图像数据，还是同时来源于文本数据及图像数据。
136.在本实施例中，根据每个话题的来源确定每个话题的权重值。
137.可选的，若话题出现在文本数据中，则确定话题的权重值为第一权重值，文本数据包括语音识别文本和/或字幕文本；示例性的，第一权重值为0.4。
138.若话题出现在图像数据中，则确定话题的权重值为第二权重值，图像数据包括关键帧；示例性的，第二权重值为0.6
139.若话题同时出现在文本数据和所述图像数据，则确定话题的权重值为第三权重值，第三权重值是第一权重值和所述第二权重值的和值。示例性的，第三权重值为1。
140.然后，基于上述每个话题的权重，当话题的权重值满足预设条件时，该权重值对应的话题为目标话题。
141.示例性的，针对每个话题的权重值，预设条件可以是将话题权重值大于等于0.6的话题作为目标话题。
142.示例性的，可以将话题按照权重值进行降序排列，预设条件可以是将话题权重进行降序排列后，取前k个话题作为目标话题。本实施例对预设条件不做限定。
143.本公开实施例通过从音频数据中提取语音信息得到第一文本信息和从视频数据的关键帧中得到第二文本信息，并对第一文本信息和第二文本信息进行纠错处理，避免了错误语法、错别字等对话题分析的干扰，进一步的提高了话题分析的准确性；同时根据话题的不同出处确定不同的权重值，既能全方面，多粒度的对话题进行分析，又能区别对待不同出处的话题，提高了话题分析的准确性。
144.图6为本公开实施例提供的多媒体信息话题分析装置的结构示意图。该多媒体信息话题分析装置可以是如上实施例所述终端设备，或者该多媒体信息话题分析装置可以是如上所述终端设备部件或组件。本公开实施例提供的多媒体信息话题分析装置可以执行多媒体信息话题分析方法实施例提供的处理流程，如图6所示，多媒体信息话题分析装置60包括：
145.第一提取模块61，用于提取多媒体信息中的音频数据和视频数据。
146.第二提取模块62，用于从所述音频数据提取语音信息，得到语音识别文本。
147.第三提取模块63，用于从所述视频数据的关键帧中提取字幕信息，得到字幕文本。
148.第四提取模块64，用于从所述语音识别文本和所述字幕文本中提取实体和关键词。
149.第一确定模块65，用于确定所述语音识别文本和所述字幕文本的语义标签。
150.第五提取模块66，用于提取所述关键帧中的人脸标签。
151.第二确定模块67，用于确定所述关键帧的图片标签。
152.第三确定模块68，用于根据所述实体、所述关键词、所述文本语义标签、所述人脸标签和所述图片标签，确定所述多媒体信息的目标话题。
153.可选的，第三确定模块包括合并单元681、第一确定单元682、第二确定单元683、第三确定单元684。其中，合并单元681用于将所述人脸标签和所述图片标签进行合并，得到合并后的视觉话题信息；第一确定单元682用于根据所述实体、所述关键词、所述语义标签和所述合并后的视觉话题信息，确定所述多媒体信息中出现的多个话题；第二确定单元683用于根据所述多个话题中每个话题的出处，确定每个话题的权重值；第三确定单元684用于根据每个话题的权重值，确定所述多媒体信息的目标话题，所述目标话题是权重值满足预设条件的话题。
154.可选的，第二确定单元683用于根据所述多个话题中每个话题的出处，确定每个话题的权重值时，具体用于：若所述话题出现在文本数据中，则确定所述话题的权重值为第一权重值，所述文本数据包括所述语音识别文本和/或所述字幕文本；若所述话题出现在图像数据中，则确定所述话题的权重值为第二权重值，所述图像数据包括所述关键帧；若所述话题同时出现在所述文本数据和所述图像数据，则确定所述话题的权重值为第三权重值，所述第三权重值是所述第一权重值和所述第二权重值的和值。
155.可选的，合并单元681用于将所述人脸标签和所述图片标签进行合并，得到合并后的视觉话题信息时，具体用于：将所述人脸标签与所述关键帧的图片标签分别去重后进行合并，得到合并后的视觉话题信息。
156.可选的，第二提取模块62用于从所述音频数据提取语音信息，得到语音识别文本时，具体用于：从所述音频数据中提取出语音信息中的第一文本信息，对所述第一文本信息进行纠错处理；基于纠错处理后的第一文本信息得到所述语音识别文本。
157.可选的，第三提取模块63用于从所述视频数据的关键帧中提取字幕信息，得到字幕文本时，具体用于：从所述视频数据的关键帧中提取第二文本信息，对所述第二文本信息进行纠错处理；基于纠错处理后的第二文本信息得到所述字幕文本。
158.可选的，第四提取模块64用于从所述语音识别文本和所述字幕文本中提取实体和关键词时，具体用于：利用深度学习模型提取所述语音识别文本及所述字幕文本中的实体；利用关键词提取模型提取所述语音识别文本及所述字幕文本中的关键词。
159.可选的，第一确定模块65用于确定所述语音识别文本和所述字幕文本的语义标签时，具体用于：利用多分类模型和多标签分类模型确定所述语音识别文本及字幕文本中的语义标签。
160.图6所示实施例的多媒体信息话题分析装置可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。
161.图7为本公开实施例提供的电子设备的结构示意图。该电子设备可以是如上实施例所述的电子设备。本公开实施例提供的电子设备可以执行多媒体信息话题分析方法实施例提供的处理流程，如图7所示，设备70包括：存储器71、处理器72、计算机程序和通讯接口73；其中，计算机程序存储在存储器71中，并被配置为由处理器72执行如上所述的方法。
162.另外，本公开实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现上述实施例所述的多媒体信息话题分析方法。
163.此外，本公开实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机程序或指令，该计算机程序或指令被处理器执行时实现如上所述的多媒体信息话题分析方法。
164.需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
165.以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈志鹏张旭朱晓航刘宏宇马先钦姜文华曹家罗引王磊
技术所有人：北京中科闻歌科技股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。