一种广播音频流解析方法及系统与流程

文档序号：29745209发布日期：2022-04-21 21:29阅读：191来源：国知局

1.本发明提供的技术方案涉及广播音频和多媒体内容自动解析领域。具体涉及一种适用于对各种广播音频流进行内容解析的方法，系统及计算机可读存储介质。

背景技术：

2.全国各广播电台每天都在进行广播内容的生产和播出，产生了大量广播音频流。这些广播音频流以音频数据的形式存在，通过互联网进行分发和消费，并且随时间不断增加。据不完全统计，全国各地有上千广播音频流，不间断产生海量音频内容。广播音频流中内容包罗万象：广播音频流中包含了音乐、人声、电话、有声书、影视作品、播音、采访、历史声音片段、广告、片头片花、频率标志、合成电音等。
3.目前社会存在着对广播音频流进行内容理解的巨大需求。这是因为对广播音频流进行内容解析有利于广播音频流的再加工、分发、消费、运维、数据统计等多个环节。然而不间断产生的海量广播音频数据以及广播音频数据复杂的内容构成，使得实现对广播音频流进行自动内容解析变得非常困难。
4.针对广播音频流的自动内容理解，现有技术有：1、短音频内容理解，通常为针对短音频进行分类、关键信息提取设计的算法。处理对象为各种短音频内容，通常不涉及短音频的拆分和剪辑。2、解决广播音频特定任务的技术，比如声纹技术用于广播音频检索和比对、实体识别算法用于广播关键信息提取、广播新闻节目的结构化。
5.现有的对广播音频进行解析的技术存在以下缺点：
6.1、短音频内容理解技术的处理对象是短音频。一条短音频中的内容从语义上通常是一个内容点。而广播音频流中，包含多个内容点。因此、现有的短音频内容理解技术无法直接用于广播音频流的内容解析。
7.2、基于广播音频的特定任务，只能对广播节目音频进行某些方面的解析，解析的内容方面比较单一、有限。针对广播音频流目前还没有完善的结构化处理流程。

技术实现要素：

8.为了解决对广播音频内容解析的现有技术存在的上述缺点，本发明提供结构化可扩展，解析层次丰富且适应性强的广播音频流解析方案。
9.本发明的第一方面提供一种广播音频流解析方法，所述方法包括以下步骤：
10.s1、采用计算机从广播音频流中检测出静音时段和非静音时段；
11.s2、检测所述广播音频流的非静音时段中各节目的边界，基于所述各节目的边界将所述广播音频流的非静音时段分成若干节目时段音频，每个节目时段音频对应一期节目；
12.s3、检测所述步骤s2得到的所述若干节目时段音频属于重复节目音频还是非重复节目音频；
13.s4、将步骤s3得到的非重复节目音频和重复节目音频均划分为节目内容片段和非
节目内容片段；
14.s5、采用内容解析模块对由非重复节目音频产生的节目内容片段和所有的非节目内容片段进行解析，并根据解析结果将每个所述由非重复节目音频产生的节目内容片段音频划分为若干短音频，并对每个所述短音频附加结构化描述信息。
15.优选地、所述结构化描述信息包括：音频流id、短音频开始时间、短音频结束时间、短音频类别、短音频文本语义信息以及说话人信息；部分所述说话人信息根据预设的说话人参考音频对内容音频片段进行匹配得到。
16.进一步地、对所述步骤s1检测出的静音时段和非静音时段采用包括：音频流id、静音或非静音时段的开始时间和结束时间、类型为“静音”或“非静音”的时段标识信息进行描述。
17.所述步骤s3具体实现为：对于所述广播音频流的非静音时段，通过音频指纹对比的方式识别给定广播音频在早于当前时段的预设时间范围内是否存在与所述若干节目时段音频在节目内容上重复的节目音频流，并根据识别结果对所述若干节目时段音频采用包括音频流id、开始时间、结束时间以及类型为“重复”或“不重复”的标识信息进行标识。
18.进一步地、当所述方法中步骤s4的识别结果采用内容片段类别描述信息进行标识，该内容片段类别描述信息包括：音频流id、该内容片段的开始时间和结束时间、“内容”或“非内容”的内容类别；其中、所述内容片段音频指播出节目内容的音频片段，所述非内容片段音频指节目播出过程中插入的广告、片头片花、频率标语对应的音频片段。
19.可选地、当该方法应用于需要对广播音频流中的特定事件进行检测的场景时，所述方法现在步骤s1之后、步骤s2之前还包括：步骤a，采用基于神经网络的声音事件检测模块识别所述非静音时段对应音频流中的指定声音事件，并对识别出的指定声音事件采用预设数据结构进行描述，该预设数据结构至少包括：音频流id、事件的开始时间和结束时间、事件类型，所述事件类型包括：广播报时、频率标语、笑声、哭声、掌声、欢呼声、背景音效声。
20.可选地、当需要对节目内容进行解析分类时，所述方法的步骤s3还包括：将各所述节目时段音频转写为文本数据以提取节目语义信息，所述节目语义信息包括：节目名称，节目文本摘要以及关键词；基于所述文本数据对所述广播音频流进行分类；最后得到每个广播节目的信息，每个所述广播节目的信息包括：音频流id、节目开始时间和结束时间、节目名称、节目分类信息和节目语义信息。
21.进一步地、所述步骤s4还包括：对检测、划分得到的节目片段采用节目片段类别描述信息进行标识，该节目片段类别描述信息包括：音频流id、该节目片段的开始时间和结束时间、该节目片段属于“内容”或“非内容”的片段类别；其中、所述内容片段指播出节目内容的音频片段，所述非内容片段指节目播出过程中插入的广告、片头片花、频率标语对应的音频片段。
22.本发明的第二方面还提供一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算器程序当被处理器执行时实现上述广播音频流解析方法。
23.与上述方法相对应，本发明的第三方面还提供一种广播音频流解析系统，所述系统包括：
24.静音时段识别模块，重复节目识别模块，节目音频分割模块，节目内容片段提取模块以及内容解析模块；其中、
25.静音时段识别模块，用于从广播音频流中检测出静音时段和非静音时段；
26.节目音频分割模块，用于检测所述静音时段识别模块输出的非静音时段中各节目的边界，基于所述各节目的边界将所述广播音频流的非静音时段分成若干节目时段音频，每个节目时段音频对应一期节目；
27.重复节目识别模块，用于检测所述节目音频分割模块输出的所述若干节目时段音频属于重复节目音频还是非重复节目音频；
28.节目内容片段提取模块，用于检测、划分所述重复节目识别模块得到的非重复节目音频以及重复节目音频中的节目内容片段和非节目内容片段；
29.内容解析模块，用于对所述节目内容片段提取模块输出的所有非节目内容片段和由所述非重复节目音频产生的节目内容片段进行解析，并根据解析结果将每个所述由非重复节目音频产生的节目内容片段音频划分为若干短音频，并对每个所述短音频附加结构化描述信息。
30.可选地、当该系统应用于需要对广播音频流中的特定事件进行检测的场景时，所述系统还包括基于神经网络模型的声音事件识别模块。所述声音事件识别模块用于识别所述非静音时段对应音频流中的指定声音事件，并对识别出的指定声音事件采用预设数据结构进行描述，该预设数据结构至少包括：音频流id、事件的开始时间和结束时间、事件类型；所述事件类型包括广播报时、频率标语、笑声、哭声、掌声、欢呼声、背景音效声。
31.本发明提供了一种通用的广播音频流内容理解框架、综合现有的音频处理技术，对广播音频流的从节目级别、短音频级别、声音事件级别和文本语义级别，进行层次化内容解析，生成多层次、多颗粒度的结构化结果。本发明提供的技术方案对广播音频流的解析层次丰富全面，对各种广播音频流，以及各种广播音频流解析的场景/需求适应性好。
附图说明
32.图1为本发明提供广播音频流解析方法的流程示意图。
具体实施方式
33.为了使本发明所解决的技术问题、技术方案以及有益效果更加清楚明白，以下结合附图对本发明进行进一步详细说明。应该理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。
34.如图1所示、本发明提供的广播音频流解析方法包括以下步骤：
35.a、检测广播音频流中的静音时段和非静音时段，该步骤采用计算机程序检测出广播音频流中非播音时段产生的连续静音信号。对所述步骤s1检测出的静音时段和非静音时段采用包括：音频流id、静音或非静音时段的开始时间和结束时间、类型为“静音”或“非静音”的时段标识信息进行描述。对于类型为“静音”的音频段落，不再进行后续处理。
36.b、对非静音时段进行指定声音事件的检测，采用基于神经网络模型的声音事件检测模型识别所述非静音时段对应音频流中的指定声音事件，并对识别出的指定声音事件采用预设数据结构进行描述。该预设数据结构至少包括：音频流id、事件的开始时间和结束时间、事件类型，所述事件类型包括：广播报时、频率标语、笑声、哭声、掌声、欢呼声、背景音效声。该步骤为可选步骤，主要用于需要对广播音频流中的特定事件进行检测的场景对所述
广播音频流解析方法进行扩展。对于广播报时事件，无需在全部非静音音频中检测，仅在整点前t1秒至整点后t2秒的时间范围内进行，t1和t2的取值可根据实际需要进行配置。
37.c、对广播音频流的非静音时段进行广播节目时段拆分，检测所述广播音频流的非静音时段中各节目的边界，基于所述各节目的边界将所述广播音频流的非静音时段分成若干节目时段音频，每个节目时段音频对应一期节目。
38.上述广播节目时段拆分包括时段分割、节目分类和节目语义提取三个阶段；其中、在时段分割阶段，从音频流中检测出一系列广播节目的时间边界(包括实际开始时间和实际结束时间)，并将对应广播节目的实际开始时间对齐到最接近的整点、半点或刻钟点作为该广播节目开始时间。根据广播节目开始时间和结束时间点，将所述广播音频流的非静音时段分成若干节目时段，每个节目时段对应一期节目音频。
39.在节目分类阶段，将各所述节目时段音频采用语音识别模块转写为文本数据以提取节目语义信息，所述节目语义信息包括：节目名称，节目文本摘要以及关键词；基于所述文本数据对所述广播音频流进行分类；输出得到每个广播节目的信息，每个所述广播节目的信息包括：音频流id、节目开始时间和结束时间、节目名称、节目分类信息和节目语义信息。这一阶段为根据实际中是否需要对节目内容进行解析分类，由用户进行选择是否用于对对所述广播音频流解析方法进行扩展。节目内容分类可以根据一级或多级内容分类树进行，分类结果为一级或多级内容类别标签。以下是本发明的一个实施例中的广播节目内容分类树：
40.内容分类树组织实例
41.42.43.[0044][0045]
d、检测所述步骤c得到的所述若干节目时段音频属于重复节目音频还是非重复节目音频。对于所述广播音频流的非静音时段，通过音频指纹对比的方式识别给定广播音频在早于当前时段的预设时间范围内是否存在与所述若干节目时段音频在节目内容上重复的节目音频流，并根据识别结果对所述若干节目时段音频采用包括音频流id、开始时间、结束时间以及类型为“重复”或“不重复”的标识信息进行标识。对于类型为“重复”的音频时段，无需进行后续处理流程步骤中e。
[0046]
重复节目音频是内容重复时间比较长、达到节目级别(比如7:00-8:00，12:30-13:00)的音频片段，时长通常在30分钟以上。重复节目音频一般为重播、转播、联播形式的节目音频；但节目音频内插播的广告，可能不重复(比如一档重播节目1小时，其中包括重复的节目内容部分40分钟，不重复的广告位15分钟。基于上面的原因，对于类型为“重复”的节目音频，如有需要、用户仍然可以选择对其进行后续节目内容片段拆分的处理，当然、此时仅需要采用内容解析模块对重复节目提取出的非节目内容片段进行解析。
[0047]
e、将步骤d得到的非重复节目音频和重复节目音频均划分为节目内容片段和非节目内容片段。在步骤e中采用节目片段类别描述信息对节目片段进行标识。该节目片段类别描述信息包括：音频流id、该节目片段的开始时间和结束时间、该节目片段属于“内容”或“非内容”；其中、所述内容片段指播出节目内容的音频片段所述非节目内容片段指节目播出过程中插入的广告、片头片花、频率标语相关的片段。
[0048]
节目内容片段/非节目内容片段的识别可以根据一档节目开始时主持人的声纹特征作为参照，结合非内容片段的语料模块来识别，当检测到节目过程中某段时间主持人声音消失时且出现语料库中的广告/片头片花/频率标语则该段时间音频流为非内容片段。除此之外，其他的用于识别节目音频内容，或识别非节目音频内容的现有技术都可以用于识别所述非重复节目时段的每个所述节目时段音频中的内容片段音频和非内容片段音频。
[0049]
f、采用内容解析模块对步骤e划分得到的由非重复节目音频产生的节目内容片段
和所有的非节目内容片段进行解析，并根据解析结果将每个所述由非重复节目音频产生的节目内容片段音频划分为若干短音频，并对每个所述短音频附加结构化描述信息。所述内容解析模块的输出为若干条短音频及短音频的结构化描述信息：音频流id、开始时间、结束时间、短音频类别、文本语义信息、说话人信息。部分所述说话人信息根据预设的说话人参考音频对内容音频片段进行匹配得到。
[0050]
优选地、所述短音频内容解析模块包括：音乐识别子模块、音频分类子模块、音频聚类子模块，语音转写子模块，文本分类子模块、文本信息提取子模块。
[0051]
音乐识别子模块用于从一段音频中识别出音乐，并且给出音乐的开始时间、结束时间、名称、歌手/演奏者、专辑等信息。对节目内容片段进行音乐识别，就可以解析出节目内容中的音乐片段及其信息。
[0052]
音频分类子模块用于指对给定的音频片段，基于分类器本身的类别定义，返回该音频片段的类别；这里音频分类子模块不止包含一个分类器，可以包含多种类别体系的分类器。对节目内容片段进行分类，比如“戏曲/非戏曲”，就可以获得节目内容中戏曲片段及其开始和结束时间；比如“人声/非人声”，就可以获得节目内容片段中人声片段及其开始和结束时间；比如“音乐/非音乐”，就可以获得节目内容片段中音乐片段及其开始和结束时间(但并不知道这个音乐片段的名称、歌手、专辑等信息)。另外并不局限于二分类，也可以进行音频的多分类，比如“人声/音乐/戏曲/其他”，类别也可以根据实际需要进行定义和训练分类器，比如“演播室/外场/其他”等。
[0053]
音频聚类子模块，用于对所述音频分类子模块中没有明确的预先定义好的类别体系，根据音频样本自身的特征，将相似的音频聚集到一起，聚成若干类。比如节目内容音频中包含了若干个说话人(并不知道说话人都有谁)，通过音频聚类可近似拆分出各说话人对应的音频片段；比如节目音频中包含了评书和音乐，通过音频聚类可近似拆分出评书片段和音乐片段，但不能告知哪个片段是评书，哪个片段是音乐。
[0054]
语音转写子模块，用于对音乐识别子模块、音频分类子模块、音频聚类子模块输出的短音频进行文本转写。文本分类子模块，用于对所述语音转写子模块获得的短音频文本进行分类。文本信息提取子模块，用于对所述语音转写子模块获得的短音频文本进行摘要/关键词提取。
[0055]
本发明还提供一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算器程序当被处理器执行时实现前述广播音频流解析方法。
[0056]
与上述广播音频流解析方法对应，本发明还提供一种广播音频流解析系统。所述系统包括：静音时段识别模块，重复节目识别模块，节目音频分割模块，节目内容片段提取模块以及内容解析模块；其中、
[0057]
静音时段识别模块，用于从广播音频流中检测出静音时段和非静音时段；
[0058]
节目音频分割模块，用于检测所述静音时段识别模块输出的非静音时段中各节目的边界，基于所述各节目的边界将所述广播音频流的非静音时段分成若干节目时段音频，每个节目时段音频对应一期节目；
[0059]
重复节目识别模块，用于检测所述节目音频分割模块输出的所述若干节目时段音频属于重复节目音频还是非重复节目音频；
[0060]
节目内容片段提取模块，用于检测、划分所述重复节目识别模块得到的非重复节
目音频以及重复节目音频中的节目内容片段和非节目内容片段；
[0061]
内容解析模块，用于对所述节目内容片段提取模块输出的所有非节目内容片段和由所述非重复节目音频产生的每个所述节目内容片段进行解析，并根据解析结果将每个由所述非重复节目音频产生的节目内容片段音频划分为若干短音频，并对每个所述短音频附加结构化描述信息。
[0062]
可选地、当该系统应用于需要对广播音频流中的特定事件进行检测的场景时，所述系统还包括基于神经网络模型的声音事件识别模块。所述声音事件识别模块用于识别所述非静音时段对应音频流中的指定声音事件，并对识别出的指定声音事件采用预设数据结构进行描述，该预设数据结构至少包括：音频流id、事件的开始时间和结束时间、事件类型；所述事件类型包括广播报时、频率标语、笑声、哭声、掌声、欢呼声、背景音效声。
[0063]
上述广播音频流解析系统的各模块的实现功能与上述广播音频流解析方法的细节对应。并且各模块和各模块的功能，可以根据实际应用场景/需要配置为启动或者不启用。
[0064]
以上所述实施例仅用以说明本技术的技术方案，而非对其限制；尽管参照前述实施例对本技术进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围，均应包含在本技术的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：范晓安胡蓓蓓李强白子龙
技术所有人：阿基米德（上海）传媒有限公司
我是此专利的发明人

上一篇：事件节点归因分析方法、装置、电子设备及存储介质与流程
下一篇：一种滚珠丝杆副丝杆扭矩检测仪的制作方法

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！