一种音视频标签自动标注方法及系统的制作方法

文档序号：6552491阅读：186来源：国知局

一种音视频标签自动标注方法及系统的制作方法
【专利摘要】本发明涉及信息标注【技术领域】，公开了一种音视频标签自动标注方法及系统。该方法包括：预先抓取各学科知识点和学科词汇，构建对应的学科知识图谱；将所述学科词汇作为热词资源，将待标注的音频或视频提取出的音频转写成文本；提取所述文本中的关键词，并根据所述关键词与所述知识图谱的关联关系确定所述音频或视频所属的学科及知识点；建立对应所述音频或视频的标签，所述标签包括：所述关键词以及所述音频或视频所属的学科、知识点。本发明可以充分挖掘音视频资源内容，实现标签自动标注，减少人工参与量，同时可以为后续的资源推送等服务提供很好的依据。
【专利说明】一种音视频标签自动标注方法及系统

【技术领域】
[0001] 本发明涉及信息标注【技术领域】，具体涉及一种音视频标签自动标注方法及系统。

【背景技术】
[0002] 随着互联网和教育云的蓬勃发展，教育教学类资源玲琅满目、参差不齐。对于教师、学生而言，可以通过少量的元数据，如标题等来判断资源是否是自身所需，这种方式较依赖于元数据，标题中的错别字可能都会影响用户的判断；也可能需要完整浏览整个音视频才能确定此资源的内容是否为所需的资源，而完整浏览整个音视频会比较耗时。可见，传统的这种音视频获取方式已经无法满足当前从海量互联网资源中快速获取满足自身要求资源的需求。
[0003] 对教育教学类资源，尤其是音视频进行标签自动标注，一方面，标注的标签可以更好地挖掘当前资源的实际内容，弥补元数据不足的缺点，用户不再需要完整浏览整个音视频就可以捕获到实质内容，另一方面，标注的标签对资源推送领域有着极大的促进作用，因此，标签的自动标注对当前现代教育教学模式的变革意义重大。

【发明内容】

[0004] 本发明实施例提供了一种音视频标签自动标注方法及系统，能让用户在不浏览整个音视频的情况下，准确把握该音视频资源的内容；减少人工参与量；为后续的资源推荐等服务提供更准确的依据。
[0005] 为此，本发明提供如下技术方案：
[0006] -种音视频标签自动标注方法，包括：
[0007] 预先抓取各学科知识点和学科词汇，构建对应的学科知识图谱；
[0008] 将所述学科词汇作为热词资源，将待标注的音频或视频提取出的音频转写成文本；
[0009] 提取所述文本中的关键词，并根据所述关键词与所述知识图谱的关联关系确定所述音频或视频所属的学科及知识点；
[0010] 建立对应所述音频或视频的标签，所述标签包括：所述关键词以及所述音频或视频所属的学科、知识点。
[0011] 优选地，所述关键词有一个或者多个。
[0012] 优选地，所述提取所述文本中的关键词包括：
[0013] 对所述文本进行分词，得到各子词；
[0014] 计算各子词的TF-IDF值；
[0015] 将所述TF-IDF值高于设定阈值的子词作为关键词，或者依照所述TF-IDF值由高到低的顺序选取前面设定个数的子词作为关键词。
[0016] 优选地，所述关键词与知识图谱的关联关系包括：所述关键词在所述知识图谱中出现的位置和次数。
[0017] 优选地，所述方法还包括：
[0018] 统计用户对标签的选择次数，根据所述选择次数进行添加、删除或替换标签。
[0019] -种音视频标签自动标注系统，包括：
[0020] 抓取模块，用于预先抓取各学科知识点和学科词汇；
[0021] 图谱构建模块，用于构建对应所述学科知识点和学科词汇的学科知识图谱；
[0022] 转写模块，用于将待标注的音频或视频提取出的音频转写成文本，转写时，以所述学科词汇作为热词资源；
[0023] 关键词提取模块，用于提取所述文本中的关键词；
[0024] 信息确定模块，用于根据所述关键词与所述知识图谱的关联关系确定所述音频或视频所属的学科及知识点；
[0025] 标签建立模块，用于建立对应所述音频或视频的标签,所述标签中包括：所述关键词以及所述音频或视频所属的学科、知识点。
[0026] 优选地，所述关键词有一个或者多个。
[0027] 优选地，所述关键词提取模块包括：
[0028] 分词单元，用于对所述文本进行分词，得到各子词；
[0029] 计算单元，用于计算所述各子词的TF-IDF值；
[0030] 提取单元，用于将所述TF-IDF值高于设定阈值的子词提取为关键词，或者依照所述TF-IDF值由高到低的顺序选取前面设定个数的子词提取为关键词。
[0031] 优选地，所述关键词与知识图谱的关联关系包括：所述关键词在所述知识图谱中出现的位置和次数。
[0032] 优选地，所述系统还包括：
[0033] 优化模块，用于统计用户对标签的选择次数，根据所述选择次数进行添加、删除或替换标签。
[0034] 本发明实施例提供的音视频标签自动标注方法及系统，利用语音转写技术和丰富的互联网数据，对音视频资源进行语音转写、关键词提取，并依据关键词及知识图谱确定音频或视频所属的学科及知识点，实现标签自动标注，减少了人工参与量，同时可以为后续的资源推送等服务提供很好的依据，更有利于教师、学生及时地发现优质教学资源。

【专利附图】

【附图说明】
[0035]为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其它的附图。
[0036] 图1是本发明实施例音视频标签自动标注方法的流程图；
[0037] 图2是本发明实施例中构建的学科知识图谱的一种简单示例；
[0038] 图3是本发明实施例音视频标签自动标注系统的一种结构示意图。

【具体实施方式】
[0039] 为了使本【技术领域】的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。
[0040] 随着互联网和教育云的蓬勃发展，各种音视频资源玲琅满目、参差不齐。现有技术中，可以通过少量的元数据，如标题等来判断资源是否是自身所需，这种方式较依赖于元数据，标题中的错别字可能都会影响用户的判断；也可能需要完整浏览整个音视频才能确定此资源的内容是否为所需的资源，而完整浏览整个音视频会比较耗时。为此，本发明实施例提供一种音视频标签自动标注方法及系统，使用户不再需要完整浏览整个音视频就可以捕获到实质内容。首先，通过网络爬虫等工具抓取各学科知识点和学科词汇，构建对应的学科知识图谱；然后，以所述学科词汇作为热词资源，将待标注的音频或视频提取出的音频转写成文本；其次，提取转写文本中的关键词，并根据该关键词与所构建的知识图谱的关联关系确定对应的音频或视频所属的学科及知识点；最后，建立对应所述音频或视频的标签，所述标签包括：所述关键词以及所述音频或视频所属的学科、知识点。
[0041] 如图1所示，是本发明实施例音视频标签自动标注方法的流程图，包括以下步骤：
[0042] 步骤101，预先抓取各学科知识点和学科词汇，构建对应的学科知识图谱。
[0043] 知识图谱，也可称为知识地图，是以科学知识为计量研究对象，来显示知识发展进程与结构关系的一系列各种不同的图形，它可以用可视化技术描述人类随时间拥有的知识资源及其载体，绘制、挖掘、分析和显示科学知识以及它们之间的相互联系。互联网上普遍存在的超文本链接就是知识图谱的一种简单形式。在本发明实施例中，所述学科知识图谱包括具体到某个学科的各知识点及其相互关系。学科知识图谱的作用在于显示本学科中各词汇的相关性，对学科的预测和资源的推送有着至关重要的作用。
[0044] 实际应用中，可以先通过网络爬虫等工具抓取学科知识点和学科词汇，比如，物理学科中浮力这个知识点，然后，以学科知识点作为起点，利用垂直搜索引擎获取知识点关联的词汇列表。垂直搜索引擎是针对某一个行业的专业搜索引擎，是搜索引擎的细分和延伸，是对网页库中的某类专门的信息进行一次整合，定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。对每一个词汇，获取其百科内容和百科词条标签，以判断该词汇是否是该学科词汇，不断地对词汇进行深度遍历，形成对应学科的知识图谱。如图2所示，是本发明实施例中构建的学科知识图谱的一种简单示例。
[0045] 步骤102,将所述学科词汇作为热词资源，将待标注的音频或视频提取出的音频转写成文本。
[0046] 具体地，将待标注的音频或视频提取出的音频转写成文本时，可以使用现有的语音转写技术进行音视频转写。但是由于汉语的复杂性，传统的语音转写技术转写准确率普遍较低，不能满足实际应用的需求，仍需大幅提高才能加以应用，尤其对于包含大量专业词汇的教育教学类音视频资源，语音转写的准确率可能更低。
[0047] 为此，在本发明实施例中，以抓取到的专业词汇作为热词资源，进行语音转写，语音解码可以选用传统的声学模型和语言模型，在不需要修改当前模型的前提下，可以使语音转写准确率得到大幅度的提高。
[0048] 步骤103,提取所述文本中的关键词，并根据所述关键词与所述知识图谱的关联关系确定所述音频或视频所属的学科及知识点。
[0049] 具体地，在提取所述文本中的关键词时，首先要对该文本进行分词，得到各子词，然后计算各子词的 TF_IDF(Term Frequency-Inverse Document Frequency，词频-逆向文档频率）值，最后根据各子词的TF-IDF值（即通过统计各子词在当前文档中出现的频率以及该词语在众多文档中出现的频次）来判断该词能否作为该文本的关键词。
[0050] 本实施例中，根据各子词的TF-IDF值确定文本的关键词时，可以有以下多种确定方法，比如：
[0051] (1)设定阈值法：此方法首先设定TF-IDF阈值（如0· 202)，然后将文本中TF-IDF 值高于设定阈值的子词确定为关键词；对于不同的文本，在同一设定阈值下，提取到的关键词个数可能不同。
[0052] (2)设定个数法：此方法首先设定待提取的关键词个数（如5)，然后依照文本中各子词的TF-IDF值由高到低的顺序选取设定个数的子词作为关键词。
[0053] 使用TF-IDF技术提取的关键词准确性对语音转写的准确性的依赖很小，即使语音转写准确率低于50%，使用TF-IDF技术仍然可以提取到准确的关键词信息。
[0054] 需要说明的是，可以提取文本中的一个或者多个子词作为文本的关键词，关键词个数（通常情况下可取3?5个）可以根据用户需求进行设定。
[0055] 在确定了文本的关键词后，根据关键词与学科知识图谱的关联关系确定所述音频或视频所属的学科及知识点。比如，如果提取到的关键词在数学学科知识图谱中方程求解这个知识点处出现的次数最高，则可以确定该关键词所对应的音频或视频所属的学科及知识点为数学学科的方程求解。
[0056] 步骤104,建立对应所述音频或视频的标签，所述标签包括：所述关键词以及所述音频或视频所属的学科、知识点。
[0057] 在提取到音频或视频的关键词，确定了该音视频所对应的学科及知识点后，可以将所述关键词、所属学科、知识点作为该音视频的标签进行自动标注。比如：提取关键词个数为5,则该关键词对应的音视频的标签包括：5个关键词、所属学科、知识点，共计7个标签。
[0058] 本发明实施例提供的音视频标签自动标注方法，利用语音转写技术和丰富的互联网数据，对音视频资源进行语音转写、关键词提取、依据知识图谱确定学科和知识点，可以充分挖掘音视频资源内容，及时发现优质的音视频资源，也可以为后续的资源推送等服务提供很好的依据。
[0059] 为了进一步优化自动标注的标签，更好地反映音视频的实质内容，在本发明音视频标签自动标注方法另一实施例中，还包括：统计用户对标签的选择次数，根据所述选择次数进行添加、删除或替换标签。比如：统计用户对标签的选择次数，保留用户选择次数高于设定次数阈值的标签，删除或替换用户选择次数低于设定次数阈值的标签。并且可以根据对标签的删减或添加，对热词资源和知识图谱进行完善，进而再次建立更优的音视频标签。
[0060] 例如：对于一篇已转写的文本，系统标注的结果可能为"重力、万有引力、质量、牛顿、实验、物理、牛顿定律"这些标签，在用户对标签的反馈过程中，发现90%以上的用户不支持词语"实验"这个标签，而支持其他词语，则在优化知识图谱和热词资源时，首先降低 "实验"在语料库中的权值，其次搜索知识图谱，关联其余词语，将"万有引力、质量、牛顿、物理、牛顿定律"和"重力"关联起来，并记录关联度，随着用户反馈的增多，知识图谱会越来越丰富，越来越准确。
[0061] 相应地，本发明实施例还提供一种音视频标签自动标注系统，如图3所示，是该系统的一种结构示意图。
[0062] 在该实施例中，所述系统包括：抓取模块201，图谱构建模块202,转写模块203,关键词提取模块204,信息确定模块205以及标签建立模块206。其中：
[0063] 抓取模块201，用于预先抓取各学科知识点和学科词汇。
[0064] 实际应用中，抓取模块201可以先通过网络爬虫等工具抓取学科知识点和学科词汇，以学科知识点作为起点，依据百度垂直搜索获取知识点关联的词汇列表。
[0065] 图谱构建模块202,用于构建对应所述学科知识点和学科词汇的学科知识图谱。
[0066] 具体的，图谱构建模块202对抓取到的每一个词汇，获取其百度百科内容和百度百科词条标签，以判断该词汇是否是该学科词汇，不断的对词汇进行深度遍历，得到各学科知识点、各学科词汇的关联关系，并根据学科知识点、学科词汇及其关联关系构建知识图谱。
[0067] 转写模块203,用于将待标注的音频或视频提取出的音频转写成文本，转写时，以所述学科词汇作为热词资源。
[0068] 具体地，转写模块203在将待标注的音频或视频提取出的音频转写成文本时，可以使用现有的语音转写技术进行音视频转写。但是由于汉语的复杂性，传统的语音转写技术转写准确率普遍较低，不能满足实际应用的需求，仍需大幅提高才能加以应用，尤其对于包含大量专业词汇的教育教学类音视频资源，语音转写的准确率可能更低。
[0069] 为此，在本发明实施例中，转写模块203以抓取到的专业词汇作为热词资源，进行语音转写，语音解码选用传统的声学模型或者语言模型，在不需要修改当前模型的前提下，可以使语音转写准确率得到大幅度的提高。
[0070] 关键词提取模块204,用于提取所述文本中的关键词。
[0071] 具体地，关键词提取模块204包括：分词单元、计算单元和提取单元。在提取所述文本中的关键词时，所述分词单元对所述文本进行分词，得到各子词；所述计算单元计算各子词的TF-IDF值，所述提取单元根据各子词的TF-IDF值提取对应文本的关键词，比如，可以将所述TF-IDF值高于设定阈值的子词提取为关键词，或者依照所述TF-IDF值由高到低的顺序选取前面设定个数的子词提取为关键词。对于不同的文本，在同一设定阈值下，提取到的关键词个数可能不同。
[0072] 关键词提取模块204使用TF-IDF技术提取的关键词准确性对语音转写的准确性的依赖很小，即使语音转写准确率低于50%，仍然可以提取到准确的关键词信息。
[0073] 需要说明的是，关键词提取模块204可以提取文本中的一个或者多个子词作为文本的关键词，关键词个数（通常情况下可以取3?5个）可以根据用户需求进行设定。
[0074] 信息确定模块205,用于根据所述关键词与所述知识图谱的关联关系确定所述音频或视频所属的学科及知识点。
[0075] 具体地，在确定了文本的关键词后，信息确定模块205根据关键词与学科知识图谱的关联关系确定所述音频或视频所属的学科及知识点。比如：如果关键词提取模块204 提取到的关键词在数学学科知识图谱中方程求解这个知识点处出现的次数最高，则可以确定该关键词所对应的音频或视频所属的学科及知识点为数学学科的方程求解。
[0076] 标签建立模块206,用于建立对应所述音频或视频的标签，所述标签中包括：所述关键词以及所述音频或视频所属的学科、知识点。比如：得到的关键词个数为5,则该关键词对应的音视频的标签包括：5个关键词、所属学科、知识点，标签建立模块206需要为该音视频建立7个标签（5个关键词、所属学科、知识点）。
[0077] 本发明实施例提供的音视频标签自动标注系统，利用目前先进的语音转写技术和丰富的互联网数据，对音视频资源进行语音转写、关键词提取、依据知识图谱确定学科和知识点，可以充分挖掘音视频资源内容，及时发现优质的音视频资源，也可以为后续的资源推送等服务提供很好的依据。
[0078] 为了进一步优化自动标注的标签，更好地反映音视频的实质内容，在本发明音视频标签自动标注系统另一实施例中，还包括：优化模块（未图示），用于统计用户对标签的选择次数，根据所述选择次数进行添加、删除或替换标签。比如：统计用户对标签的选择次数，保留用户选择次数高于设定阈值的标签，删除或替换用户选择次数低于设定阈值的标签，根据对标签的删减或添加，对热词资源和知识图谱进行完善，进而再次建立更优的音视频标签。
[0079] 本说明书中的各个实施例之间相同相似的部分互相参见即可，对于系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。
[0080] 本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器（DSP)来实现根据本发明实施例中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序（例如，计算机程序和计算机程序产品）。
[0081] 以上对本发明实施例进行了详细介绍，本文中应用了【具体实施方式】对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及设备；同时，对于本领域的一般技术人员，依据本发明的思想，在【具体实施方式】及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。
【权利要求】
1. 一种音视频标签自动标注方法，其特征在于，包括：预先抓取各学科知识点和学科词汇，构建对应的学科知识图谱；将所述学科词汇作为热词资源，将待标注的音频或视频提取出的音频转写成文本；提取所述文本中的关键词，并根据所述关键词与所述知识图谱的关联关系确定所述音频或视频所属的学科及知识点；建立对应所述音频或视频的标签，所述标签包括：所述关键词以及所述音频或视频所属的学科、知识点。
2. 根据权利要求1所述的方法，其特征在于，所述关键词有一个或者多个。
3. 根据权利要求1所述的方法，其特征在于，所述提取所述文本中的关键词包括：对所述文本进行分词，得到各子词；计算各子词的TF-IDF值；将所述TF-IDF值高于设定阈值的子词作为关键词，或者依照所述TF-IDF值由高到低的顺序选取前面设定个数的子词作为关键词。
4. 根据权利要求1所述的方法，其特征在于，所述关键词与知识图谱的关联关系包括：所述关键词在所述知识图谱中出现的位置和次数。
5. 根据权利要求1至4任一项所述的方法，其特征在于，所述方法还包括：统计用户对标签的选择次数，根据所述选择次数进行添加、删除或替换标签。
6. -种音视频标签自动标注系统，其特征在于，包括：抓取模块，用于预先抓取各学科知识点和学科词汇；图谱构建模块，用于构建对应所述学科知识点和学科词汇的学科知识图谱；转写模块，用于将待标注的音频或视频提取出的音频转写成文本，转写时，以所述学科词汇作为热词资源；关键词提取|吴块，用于提取所述文本中的关键词；信息确定模块，用于根据所述关键词与所述知识图谱的关联关系确定所述音频或视频所属的学科及知识点；标签建立模块，用于建立对应所述音频或视频的标签，所述标签中包括：所述关键词以及所述音频或视频所属的学科、知识点。
7. 根据权利要求6所述的系统，其特征在于，所述关键词有一个或者多个。
8. 根据权利要求6所述的系统，其特征在于，所述关键词提取模块包括：分词单元，用于对所述文本进行分词，得到各子词；计算单元，用于计算所述各子词的TF-IDF值；提取单元，用于将所述TF-IDF值高于设定阈值的子词提取为关键词，或者依照所述 TF-IDF值由高到低的顺序选取前面设定个数的子词提取为关键词。
9. 根据权利要求6所述的系统，其特征在于，所述关键词与知识图谱的关联关系包括：所述关键词在所述知识图谱中出现的位置和次数。
10. 根据权利要求6至9任一项所述的系统，其特征在于，所述系统还包括：优化模块，用于统计用户对标签的选择次数，根据所述选择次数进行添加、删除或替换标签。
【文档编号】G06F17/30GK104090955SQ201410320555
【公开日】2014年10月8日申请日期:2014年7月7日优先权日:2014年7月7日
【发明者】徐玉林, 王政, 钟锟, 胡国亮, 梁昭, 张建华, 王丽红, 郭强申请人:科大讯飞股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐玉林;王政;钟锟;胡国亮;梁昭;张建华;王丽红;郭强
技术所有人：科大讯飞股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。