一种直播流的审查干预方法、装置、存储介质及设备与流程

文档序号：29628051发布日期：2022-04-13 15:02阅读：153来源：国知局

1.本技术涉及计算机技术领域，尤其涉及一种直播流的审查干预方法、装置、存储介质及设备。

背景技术：

2.随着互联网经济的飞速发展，让直播经济异军突起，闯入了人们的视野中，当前很多直播和短视频平台对于内容的审查较为严格，对于直播主体来说，将一些违规的信息提前干预，规避敏感信息再播放出去是一个必要场景。
3.目前，对于直播流的审查干预方法通常有两种：一种是采用传统审查型干预系统进行审查干预，这类审查系统虽然能够通过技术手段让审查人员可以随时随地审查的更加方便，并且提供一些技术手段对违规的码流替换后播出，但由于需要安排审查员进行审查，对于提供直播平台的机构来说大量的直播活动需要投入大量的人工审查员，成本较高，并且也由于人工的参与，即使这类审查系统提供一些技术手段能够对违规的码流替换后播出，也必然需要延时几十秒，对于有些场合的直播也不太适用；而另一种则是采用技术封禁型系统进行审查干预，这类审查干预系统是利用计算机技术对直播流中的视频和音频数据进行违规内容的检测，以及结合历史大数据，比如直播间的异常流量、用户评论的违规情况等信息进行违规判断，但这类系统会对判断属于违规的直播进行技术提醒或直接封禁，虽然减少了审查人员的投入，但是也忽略了主播在某些场合只是无意识的说出违规内容，直接封禁对直播活动影响较大。可见，现有直播流的审查干预方法的审查干预结果并不理想，用户的直播体验较差。

技术实现要素：

4.本技术实施例的主要目的在于提供一种直播流的审查干预方法、装置、存储介质及设备，能够在降低延时的情况下，对直播流媒体的敏感信息进行审查干预后将其正常播出。
5.本技术实施例提供了一种直播流的审查干预方法，包括：
6.获取待审查的目标直播数据流，并对所述目标直播数据流进行预处理，分离出所述目标直播数据流中的音频流和视频流进行缓存；
7.对所述音频流进行语音识别，得到敏感词以及所述敏感词对应的标记信息；
8.根据所述敏感词对应的标记信息，确定所述敏感词在所述音频流中出现的目标位置，并利用预设消音方式对所述目标位置上的音频流进行干预，得到审查干预后的音频流；
9.根据所述审查干预后的音频流中音频帧的时间戳信息，从缓存的所述视频流中检索对应的视频帧，并将所述审查干预后的音频帧和视频帧进行同步，以及将同步后的视频流进行播放。
10.一种可能的实现方式中，所述获取待审查的目标直播数据流，包括：
11.通过预设音视频采集设备获取待审查的目标直播数据流；和/或，根据网络实时消
息传输协议rtmp拉流地址获取待审查的目标直播数据流；和/或，从本地视频文件获取待审查的目标直播数据流。
12.一种可能的实现方式中，所述对所述音频流进行语音识别，得到敏感词以及所述敏感词对应的标记信息，包括：
13.对所述音频流进行语音识别，并将识别结果转换为标准字幕格式的字幕文本；
14.根据预设敏感词库，对所述字幕文本进行敏感词检测，确定所述敏感词并进行标记，得到所述字幕文本中包含的敏感词以及所述敏感词对应的标记信息。
15.一种可能的实现方式中，所述根据所述敏感词对应的标记信息，确定所述敏感词在所述音频流中出现的目标位置，包括：
16.根据所述敏感词对应的标记信息，确定所述敏感词在所述音频流中出现的开始时间和结束时间；
17.根据所述开始时间和结束时间，标记出所述敏感词在所述音频流中出现的目标位置。
18.一种可能的实现方式中，所述预设消音方式为静音或哔音；所述利用预设消音方式对所述目标位置上的音频流进行干预，得到审查干预后的音频流，包括：
19.利用静音或哔音覆盖所述目标位置上的敏感词发声的效果，得到审查干预后的音频流。
20.一种可能的实现方式中，所述根据所述审查干预后的音频流中音频帧的时间戳信息，从缓存的所述视频流中检索对应的视频帧，并将所述审查干预后的音频帧和视频帧进行同步，以及将同步后的视频流进行播放，包括：
21.根据所述审查干预后的音频流中当前时刻音频帧的时间戳信息，从缓存的所述视频流中检索出开始播放时间不大于所述当前时刻音频帧的开始播放时间的视频帧，并将所述当前时刻音频帧和检索出的视频帧编码成预设格式的视频流，作为当前时刻同步后的视频流进行播放。
22.一种可能的实现方式中，所述根据所述审查干预后的音频流中音频帧的时间戳信息，从缓存的所述视频流中检索对应的视频帧，并将所述审查干预后的音频帧和视频帧进行同步，以及将同步后的视频流进行播放，包括：
23.根据所述审查干预后的音频流中当前时刻音频帧的时间戳信息，从缓存的所述视频流中检索出开始播放时间不大于所述音频帧的开始播放时间的视频帧，以及从脱敏处理后的字幕文本中检索出开始播放时间不大于所述音频帧的开始播放时间的字幕帧；
24.将所述当前时刻音频帧和检索出的视频帧以及字幕帧编码成预设格式的视频流，作为当前时刻同步后的视频流进行播放。
25.一种可能的实现方式中，所述方法还包括：
26.记录对所述目标直播数据流进行审查干预所消耗的处理时间；
27.判断所述处理时间是否小于预设审查干预时间，若是，则调小所述预设审查干预时间；如否，则调大所述预设审查干预时间。
28.本技术实施例还提供了一种直播流的审查干预装置，包括：
29.获取单元，用于获取待审查的目标直播数据流，并对所述目标直播数据流进行预处理，分离出所述目标直播数据流中的音频流和视频流进行缓存；
30.识别单元，用于对所述音频流进行语音识别，得到敏感词以及所述敏感词对应的标记信息；
31.干预单元，用于根据所述敏感词对应的标记信息，确定所述敏感词在所述音频流中出现的目标位置，并利用预设消音方式对所述目标位置上的音频流进行干预，得到审查干预后的音频流；
32.同步单元，用于根据所述审查干预后的音频流中音频帧的时间戳信息，从缓存的所述视频流中检索对应的视频帧，并将所述审查干预后的音频帧和视频帧进行同步，以及将同步后的视频流进行播放。
33.一种可能的实现方式中，所述获取单元具体用于：
34.通过预设音视频采集设备获取待审查的目标直播数据流；和/或，根据网络实时消息传输协议rtmp拉流地址获取待审查的目标直播数据流；和/或，从本地视频文件获取待审查的目标直播数据流。
35.一种可能的实现方式中，所述识别单元包括：
36.识别子单元，用于对所述音频流进行语音识别，并将识别结果转换为标准字幕格式的字幕文本；
37.第一确定子单元，用于根据预设敏感词库，对所述字幕文本进行敏感词检测，确定所述敏感词并进行标记，得到所述字幕文本中包含的敏感词以及所述敏感词对应的标记信息。
38.一种可能的实现方式中，所述干预单元包括：
39.第二确定子单元，用于根据所述敏感词对应的标记信息，确定所述敏感词在所述音频流中出现的开始时间和结束时间；
40.标记子单元，用于根据所述开始时间和结束时间，标记出所述敏感词在所述音频流中出现的目标位置。
41.一种可能的实现方式中，所述预设消音方式为静音或哔音；所述干预单元具体用于：
42.利用静音或哔音覆盖所述目标位置上的敏感词发声的效果，得到审查干预后的音频流。
43.一种可能的实现方式中，所述同步单元具体用于：
44.根据所述审查干预后的音频流中当前时刻音频帧的时间戳信息，从缓存的所述视频流中检索出开始播放时间不大于所述当前时刻音频帧的开始播放时间的视频帧，并将所述当前时刻音频帧和检索出的视频帧编码成预设格式的视频流，作为当前时刻同步后的视频流进行播放。
45.一种可能的实现方式中，所述同步单元包括：
46.检索子单元，用于根据所述审查干预后的音频流中当前时刻音频帧的时间戳信息，从缓存的所述视频流中检索出开始播放时间不大于所述音频帧的开始播放时间的视频帧，以及从脱敏处理后的字幕文本中检索出开始播放时间不大于所述音频帧的开始播放时间的字幕帧；
47.编码子单元，用于将所述当前时刻音频帧和检索出的视频帧以及字幕帧编码成预设格式的视频流，作为当前时刻同步后的视频流进行播放。
48.一种可能的实现方式中，所述装置还包括：
49.记录单元，用于记录对所述目标直播数据流进行审查干预所消耗的处理时间；
50.调整单元，用于判断所述处理时间是否小于预设审查干预时间，若是，则调小所述预设审查干预时间；如否，则调大所述预设审查干预时间。
51.本技术实施例还提供了一种直播流的审查干预设备，包括：处理器、存储器、系统总线；
52.所述处理器以及所述存储器通过所述系统总线相连；
53.所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述直播流的审查干预方法中的任意一种实现方式。
54.本技术实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述直播流的审查干预方法中的任意一种实现方式。
55.本技术实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述直播流的审查干预方法中的任意一种实现方式。
56.本技术实施例提供的一种直播流的审查干预方法、装置、存储介质及设备，首先获取待审查的目标直播数据流，并对目标直播数据流进行预处理，分离出目标直播数据流中的音频流和视频流进行缓存，然后，对音频流进行语音识别，得到敏感词以及敏感词对应的标记信息，接着，根据敏感词对应的标记信息，确定敏感词在音频流中出现的目标位置，并利用预设消音方式对目标位置上的音频流进行干预，得到审查干预后的音频流，进而可以根据审查干预后的音频流中音频帧的时间戳信息，从缓存的视频流中检索对应的视频帧，并将音频帧和视频帧进行同步，以及将同步后的视频流进行播放。可见，本技术实施例是先基于语音识别技术，实时识别目标直播数据流中的敏感词，再利用预设消音方式，实时检测和干预敏感词，完成敏感词的提取和替换以及音视频的同步播出，从而能够在有限的延时时间内实现适时的延时播放，保障了用户的安全直播。
附图说明
57.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
58.图1为本技术实施例提供的一种直播流的审查干预方法的流程示意图；
59.图2为本技术实施例提供的敏感词的检测过程的示意图；
60.图3为本技术实施例提供的将音频帧和视频帧进行同步的示意图；
61.图4为本技术实施例提供的将音频帧和视频帧以及字幕帧进行同步的示意图；
62.图5为本技术实施例提供的更新预设审查干预时间的示意图；
63.图6为本技术实施例提供的一种直播流的审查干预装置的组成示意图。
具体实施方式
64.随着网络技术的快速发展，当前已存在一些对直播流进行审查干预的系统，有些系统是利用违规封禁的策略，检测出违规即进行封禁，但是有时候主播只是无意识的说出违规内容，直接封禁对直播活动影响较大；有些系统是利用互联网技术提供随时随地的人工审查平台，但是人工审查成本很高且需要几十秒的延时；有些系统是利用直播间异常流量或抓取用户评论来判断直播是否违规，但是忽略了主播的直播内容而且不良信息已经播出，造成了不良影响。
65.可见，现有直播流的审查干预方法得到的审查干预结果并不理想，用户的直播体验较差。
66.为解决上述缺陷，本技术实施例提供了一种直播流的审查干预方法，首先获取待审查的目标直播数据流，并对目标直播数据流进行预处理，分离出目标直播数据流中的音频流和视频流进行缓存，然后，对音频流进行语音识别，得到敏感词以及敏感词对应的标记信息，接着，根据敏感词对应的标记信息，确定敏感词在音频流中出现的目标位置，并利用预设消音方式对目标位置上的音频流进行干预，得到审查干预后的音频流，进而可以根据审查干预后的音频流中音频帧的时间戳信息，从缓存的视频流中检索对应的视频帧，并将音频帧和视频帧进行同步，以及将同步后的视频流进行播放。可见，本技术实施例是先基于语音识别技术，实时识别目标直播数据流中的敏感词，再利用预设消音方式，实时检测和干预敏感词，完成敏感词的提取和替换以及音视频的同步播出，从而能够在有限的延时时间内实现适时的延时播放，保障了用户的安全直播。
67.为使本技术实施例的目的、技术方案和优点更加清楚，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
68.第一实施例
69.参见图1，为本实施例提供的一种直播流的审查干预方法的流程示意图，该方法包括以下步骤：
70.s101：获取待审查的目标直播数据流，并对目标直播数据流进行预处理，分离出目标直播数据流中的音频流和视频流进行缓存。
71.在本实施例中，为了确保直播数据流的脱敏播放成功，首先需要获取待审查的任一直播数据流作为目标直播数据流，然后，再对目标直播数据流进行预处理，以便分离出目标直播数据流中的音频流和视频流，并将分离出的音频流和视频流进行缓存，用以执行后续步骤s102-s104，实现对目标直播数据流的审查干预。
72.其中，目标直播数据流的获取方式包括但不限于通过预设音视频采集设备(如麦克风、摄像头等)来获取；和/或，根据网络实时消息传输协议(real time messaging protocol，简称rtmp)拉流地址获取；和/或，从本地视频文件中获取。需要说明的是，对于目标直播数据流的获取方式本技术不做限定，前述获取方式仅为本技术提出的优选实现方式。
73.进一步的，在获取到待审查的目标直播数据流后，还需要对目标直播数据流进行统一编码，如转换为h264 acc格式音视频流(视频可以采用h264，音频可以采用acc)，并通
过音视频帧识别技术将目标直播数据流识别为以帧为单位的数据集合，再从中分离出音频流帧数据和视频流帧数据并进行缓存，用以执行后续步骤。
74.s102：对音频流进行语音识别，得到敏感词以及敏感词对应的标记信息。
75.在本实施例中，通过步骤s101获取到待审查的目标直播数据流并从中分离出音频流和视频流进行缓存后，进一步可以利用现有或未来出现的语音识别技术，对音频流进行语音识别，以根据识别结果确定出敏感词以及敏感词对应的标记信息，用以执行后续步骤s103。
76.其中，一种可选的实现方式是，本步骤s102的具体实现过程可以包括下述步骤a-b：
77.步骤a：对音频流进行语音识别，并将识别结果转换为标准字幕格式的字幕文本。
78.在本实现方式中，在获取到目标直播数据流中的音频流后，进一步可以对音频流进行语音识别，并将识别结果转换为标准字幕格式的字幕文本，具体的识别方式本技术不进行限制。
79.步骤b：根据预设敏感词库，对字幕文本进行敏感词检测，确定敏感词并进行标记，得到字幕文本中包含的敏感词以及敏感词对应的标记信息。
80.需要说明的是，为了实现对直播流进行更准确、有效的审查干预，本技术预先构建了敏感词库，该预设敏感词库中包含了用户根据自身审查场景自定义的各个敏感词，如图2所示。
81.在此基础上，通过步骤a确定出音频流对应的字幕文本后，进一步可以根据预设敏感词库，对字幕文本进行敏感词检测，确定出其中包含的敏感词并进行标记，从而得到字幕文本中包含的敏感词以及敏感词对应的标记信息。
82.具体来讲，如图2所示，可以按时序读取语音活动检测(voice activity detection，简称vad)字幕文本，为防止一个敏感词有跨vad的现象，在进行敏感词检测时，可以读取当前vad和前一帧vad的字幕文本进行检测。当检测到敏感词后，可以记录敏感词出现的时段(及将敏感词进行高亮显示)，作为敏感词对应的标记信息，并通过后续步骤s103将该时段内的敏感词音频帧用静音或哔音等预设消音方式进行覆盖，以达到音频的审查干预的效果。
83.s103：根据敏感词对应的标记信息，确定敏感词在音频流中出现的目标位置，并利用预设消音方式对目标位置上的音频流进行干预，得到审查干预后的音频流。
84.在本实施例中，通过步骤s102对音频流进行语音识别，得到敏感词以及敏感词对应的标记信息后，进一步可以根据敏感词对应的标记信息(如字幕文本中敏感词的高亮显示)，确定出敏感词在音频流中出现的目标位置，并利用预设消音方式对目标位置上的音频流进行干预，得到审查干预后的音频流。
85.具体来讲，一种可选的实现方式是，可以根据敏感词对应的标记信息，如根据字幕文本中敏感词的高亮标记，确定敏感词在音频流中出现的开始时间和结束时间，进而可以根据该开始时间和结束时间，对应标记出敏感词在音频流中出现的位置(此处将其定义为目标位置)。进一步的，可以利用静音或哔音等预设消音方式覆盖目标位置上的敏感词发声的效果，得到审查干预后的音频流，用以执行后续步骤s104。、
86.s104：根据审查干预后的音频流中音频帧的时间戳信息，从缓存的视频流中检索
对应的视频帧，并将审查干预后的音频帧和视频帧进行同步，以及将同步后的视频流进行播放。
87.在本实施例中，通过步骤s103利用预设消音方式对敏感词音频流进行干预，得到审查干预后的音频流后，进一步可以根据审查干预后的音频流中当前音频帧的时间戳信息，从缓存的视频流中检索出对应的视频帧数据，并将审查干预后的音频帧和视频帧进行同步后，同时送入媒体播放器，实现音视频数据流的同步播放。比如，可以通过本地播放器或通过网络rtmp推流两种音视频播放方式进行播放等。
88.具体来讲，一种可选的实现方式是，可以根据审查干预后的音频流中当前时刻音频帧的时间戳信息，从缓存的视频流中检索出开始播放时间不大于当前时刻音频帧的开始播放时间的视频帧，并将当前时刻音频帧和检索出的视频帧编码成预设格式的视频流，作为当前时刻同步后的视频流进行播放。
89.如图3所示，首先记录开始采集目标直播流数据的时间(begin time，简称bt)，作为本次音频流和视频流同步的起点。然后持续从目标直播流数据中读取音频帧数据和视频帧数据，并计算当前音视频帧的播放时间，再按照播放时间标记并缓存音频帧数据和视频帧数据，具体的，可以计算出当前音频帧的开始播放时间a1(即，a1＝当前时间-bt)以及视频帧的开始播放时间v1(即，v1＝当前时间-bt)，再将音视频帧数据和对应的a1、v1缓存到内存中。
90.这样，在通过步骤s103利用预设消音方式对敏感词音频流进行干预，得到审查干预后的音频流后，可以从审查干预后的音频流中按顺序读取音频帧数据，并根据读取出的音频帧的a1取值，从缓存的视频帧数据中查询出v1取值小于等于a1的视频帧数据，重复执行视频帧数据的检索操作，直至缓存的视频帧数据的v1全部大于音频帧的a1取值，从而说明当前音频帧对应的视频帧已经全部取出，进而可以将当前时刻音频帧和检索出的视频帧编码成预设格式(如mp4格式等)的视频流，作为当前时刻同步后的视频流进行播放。
91.另一种可选的实现方式是，可以根据审查干预后的音频流中当前时刻音频帧的时间戳信息，从缓存的视频流中检索出开始播放时间不大于音频帧的开始播放时间的视频帧，以及从脱敏处理后的字幕文本中检索出开始播放时间不大于音频帧的开始播放时间的字幕帧，并将当前时刻音频帧和检索出的视频帧以及字幕帧编码成预设格式的视频流，作为当前时刻同步后的视频流进行播放。
92.如图4所示，首先记录开始采集目标直播流数据的时间bt作为本次音频流和视频流以及字幕同步的起点。然后持续从目标直播流数据中读取音频帧数据和视频帧数据，并对音频流进行语音识别，并将识别结果转换为标准字幕格式的字幕文本，以及计算当前音视频帧的播放时间，再按照播放时间标记并缓存音频帧数据和视频帧数据以及字幕帧数据，具体的，可以计算出当前音频帧的开始播放时间a1(即，a1＝当前时间-bt)和视频帧的开始播放时间v1(即，v1＝当前时间-bt)以及字幕帧的开始播放时间s1(即，s1＝当前时间-bt)，再将音频帧数据、视频帧数据、字幕帧数据以及各自对应的a1、v1、s1缓存到内存中。
93.这样，在通过步骤s103利用预设消音方式对敏感词音频流进行干预，得到审查干预后的音频流后，可以从审查干预后的音频流中按顺序读取音频帧数据，并根据读取出的音频帧的a1取值，从缓存的视频帧数据中查询出v1取值小于等于a1的视频帧数据，并从缓存的字幕帧数据中查询出s1取值小于等于a1的字幕帧数据，重复执行视频帧数据和字幕帧
数据的检索操作，直至缓存的视频帧数据的v1全部大于音频帧的a1取值，以及缓存的字幕帧数据的s1全部大于音频帧的a1取值，从而说明当前音频帧对应的视频帧和字幕帧已经全部取出，进而可以将当前时刻音频帧与检索出的视频帧和字幕帧编码成预设格式(如mp4格式等)的视频流，作为当前时刻同步后的视频流进行播放。
94.另外，为了降低直播流的审查干预操作的延时，一种可选的实现方式是，还可以记录对目标直播数据流进行审查干预所消耗的处理时间，并判断该处理时间是否小于预设审查干预时间，若是，则调小预设审查干预时间；如否，则调大预设审查干预时间。其中，预设审查干预时间可根据实际情况进行设定，本技术实施例对此不进行限定。
95.在本实现方式中，如图5所示，在对目标直播流进行审查干预操作之前，可以设置默认可接受的延时间隔，作为预设审查干预时间，并将其定义为t1，且t1的取值是一个经验数值，能满足绝大部分审查干预操作的正常进行即可。在执行上述步骤s101开始本次对目标直播流的审查干预的同时，开始记录其所消耗的处理时间(此处将其定义为t2)，并在执行完上述步骤s104完成本次审查干预后，得到本次对目标直播数据流进行审查干预所消耗的处理时间t2的取值，依次类推，可以得到最近n(n为大于0的正整数)次的t2的取值，进一步可以判断最近n次t2是否小于预设审查干预时间t1，若是，则表示当前审查干预的实际耗时小于预设审查干预时间，此时，需要调小预设审查干预时间t1的取值，调整公式可以为：t1＝t1-t1*a，其中，a表示每次对于t1的调整步长，具体取值可根据实际情况进行设定，比如可将a取值为0.2等；反之，若判断最近n次t2存在不小于预设审查干预时间t1的情况，则表示当前审查干预的实际耗时会出现不小于预设审查干预时间的情况，造成审查干预失败的现象，此时，需要调大预设审查干预时间t1的取值，调整公式可以为：t1＝t1+t1*a，其中，a表示每次对于t1的调整步长，具体取值可根据实际情况进行设定，比如可将a取值为0.2等。
96.这样，通过执行上述步骤s101-s104，可以在降低延时的情况下，对目标直播流中的敏感词信息进行审查干预后将其正常播出，保障了直播的安全性，提高了用户的直播体验。
97.综上，本实施例提供的一种直播流的审查干预方法，首先获取待审查的目标直播数据流，并对目标直播数据流进行预处理，分离出目标直播数据流中的音频流和视频流进行缓存，然后，对音频流进行语音识别，得到敏感词以及敏感词对应的标记信息，接着，根据敏感词对应的标记信息，确定敏感词在音频流中出现的目标位置，并利用预设消音方式对目标位置上的音频流进行干预，得到审查干预后的音频流，进而可以根据审查干预后的音频流中音频帧的时间戳信息，从缓存的视频流中检索对应的视频帧，并将音频帧和视频帧进行同步，以及将同步后的视频流进行播放。可见，本技术实施例是先基于语音识别技术，实时识别目标直播数据流中的敏感词，再利用预设消音方式，实时检测和干预敏感词，完成敏感词的提取和替换以及音视频的同步播出，从而能够在有限的延时时间内实现适时的延时播放，保障了用户的安全直播。
98.第二实施例
99.本实施例将对一种直播流的审查干预装置进行介绍，相关内容请参见上述方法实施例。
100.参见图6，为本实施例提供的一种直播流的审查干预装置的组成示意图，该装置
600包括：
101.获取单元601，用于获取待审查的目标直播数据流，并对所述目标直播数据流进行预处理，分离出所述目标直播数据流中的音频流和视频流进行缓存；
102.识别单元602，用于对所述音频流进行语音识别，得到敏感词以及所述敏感词对应的标记信息；
103.干预单元603，用于根据所述敏感词对应的标记信息，确定所述敏感词在所述音频流中出现的目标位置，并利用预设消音方式对所述目标位置上的音频流进行干预，得到审查干预后的音频流；
104.同步单元604，用于根据所述审查干预后的音频流中音频帧的时间戳信息，从缓存的所述视频流中检索对应的视频帧，并将所述审查干预后的音频帧和视频帧进行同步，以及将同步后的视频流进行播放。
105.在本实施例的一种实现方式中，所述获取单元601具体用于：
106.通过预设音视频采集设备获取待审查的目标直播数据流；和/或，根据网络实时消息传输协议rtmp拉流地址获取待审查的目标直播数据流；和/或，从本地视频文件获取待审查的目标直播数据流。
107.在本实施例的一种实现方式中，所述识别单元602包括：
108.识别子单元，用于对所述音频流进行语音识别，并将识别结果转换为标准字幕格式的字幕文本；
109.第一确定子单元，用于根据预设敏感词库，对所述字幕文本进行敏感词检测，确定所述敏感词并进行标记，得到所述字幕文本中包含的敏感词以及所述敏感词对应的标记信息。
110.在本实施例的一种实现方式中，所述干预单元603包括：
111.第二确定子单元，用于根据所述敏感词对应的标记信息，确定所述敏感词在所述音频流中出现的开始时间和结束时间；
112.标记子单元，用于根据所述开始时间和结束时间，标记出所述敏感词在所述音频流中出现的目标位置。
113.在本实施例的一种实现方式中，所述预设消音方式为静音或哔音；所述干预单元603具体用于：
114.利用静音或哔音覆盖所述目标位置上的敏感词发声的效果，得到审查干预后的音频流。
115.在本实施例的一种实现方式中，所述同步单元604具体用于：
116.根据所述审查干预后的音频流中当前时刻音频帧的时间戳信息，从缓存的所述视频流中检索出开始播放时间不大于所述当前时刻音频帧的开始播放时间的视频帧，并将所述当前时刻音频帧和检索出的视频帧编码成预设格式的视频流，作为当前时刻同步后的视频流进行播放。
117.在本实施例的一种实现方式中，所述同步单元604包括：
118.检索子单元，用于根据所述审查干预后的音频流中当前时刻音频帧的时间戳信息，从缓存的所述视频流中检索出开始播放时间不大于所述音频帧的开始播放时间的视频帧，以及从脱敏处理后的字幕文本中检索出开始播放时间不大于所述音频帧的开始播放时
间的字幕帧；
119.编码子单元，用于将所述当前时刻音频帧和检索出的视频帧以及字幕帧编码成预设格式的视频流，作为当前时刻同步后的视频流进行播放。
120.在本实施例的一种实现方式中，所述装置还包括：
121.记录单元，用于记录对所述目标直播数据流进行审查干预所消耗的处理时间；
122.调整单元，用于判断所述处理时间是否小于预设审查干预时间，若是，则调小所述预设审查干预时间；如否，则调大所述预设审查干预时间。
123.进一步地，本技术实施例还提供了一种直播流的审查干预设备，包括：处理器、存储器、系统总线；
124.所述处理器以及所述存储器通过所述系统总线相连；
125.所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述直播流的审查干预方法的任一种实现方法。
126.进一步地，本技术实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述直播流的审查干预方法的任一种实现方法。
127.进一步地，本技术实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述直播流的审查干预方法的任一种实现方法。
128.通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如媒体网关等网络通信设备，等等)执行本技术各个实施例或者实施例的某些部分所述的方法。
129.需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。
130.还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
131.对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下，在其它实施例中实现。因此，本技术将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一
致的最宽的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王玮杨灿王兆育丁艳燕国丽
技术所有人：安徽听见科技有限公司
我是此专利的发明人

上一篇：一种防蚀性能好的立式冷藏陈列柜的制作方法
上一篇：一种具有自动清洁功能的光伏变电站的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。