多媒体文件处理方法、装置、设备及介质与流程

文档序号：26626158发布日期：2021-09-14 21:35阅读：50来源：国知局

1.本技术涉及计算机
技术领域：
：，尤其涉及人工智能
技术领域：
：，提供一种多媒体文件处理方法、装置、设备及介质。
背景技术：
：：2.短视频应用是炙手可热的互联网产品之一，2019年活跃于各类短视频应用的短视频平台上的用户已达8亿。短视频平台通常支持用户上传短视频，在短视频平台上每天会有大量用户上传大量新的短视频。但各个用户上传的短视频的质量参差不齐，为了保证短视频平台每天上传的短视频的质量，短视频平台通常会对短视频进行视频质量审核，一些短视频平台会借助人工智能算法审核短视频质量。3.目前，借助人工智能算法审核短视频质量的方式主要为：通过光学字符识别(opticalcharacterrecognition，ocr)算法从短视频中识别出字幕，通过自动语音识别(automaticspeechrecognition，asr)算法从音频中识别出对话内容，然后对比字幕和对话内容是否一致来判断短视频是否完整。但ocr算法和asr算法检测过程分别会受各类因素的影响，进而会影响最终的检测结果，导致目前这种方式检测短视频质量的准确性不高。技术实现要素：4.本技术实施例提供一种多媒体文件处理方法、装置、设备及介质，用于提高检测多媒体文件的准确性。5.一方面，提供一种多媒体文件处理方法，包括：6.获取待处理多媒体文件中的音频文件；7.从所述音频文件中获取至少一个音频文件片段，其中，所述至少一个音频文件片段包括头部音频文件片段和尾部音频文件片段中的至少一个，所述头部音频文件片段包括所述音频文件的起始部分，所述尾部音频文件片段包括所述音频文件的结尾部分；8.当获取的任一个音频文件片段中的语音满足异常条件时，确定所述待处理多媒体文件异常，其中，所述头部音频文件片段中的语音满足异常条件包括语音的起始时间与所述音频文件的起始时间之间的间隔小于或等于设定阈值；所述尾部音频文件片段中的语音满足异常条件包括语音的结束时间与所述音频文件的结束时间之间的间隔小于或等于设定阈值。9.本技术实施例还提供了一种多媒体文件处理装置，包括：10.第一获取模块，用于获取待处理多媒体文件中的音频文件；11.第二获取模块，用于从所述音频文件中获取至少一个音频文件片段，其中，所述至少一个音频文件片段包括头部音频文件片段和尾部音频文件片段中的至少一个，所述头部音频文件片段包括所述音频文件的起始部分，所述尾部音频文件片段包括所述音频文件的结尾部分；12.异常确定模块，用于当获取的任一个音频文件片段中的语音满足异常条件时，确定所述待处理多媒体文件异常，其中，所述头部音频文件片段中的语音满足异常条件包括语音的起始时间与所述音频文件的起始时间之间的间隔小于或等于设定阈值；所述尾部音频文件片段中的语音满足异常条件包括语音的结束时间与所述音频文件的结束时间之间的间隔小于或等于设定阈值。13.在一种可能的实施例中，所述异常确定模块还用于：14.所述当获取的任一个音频文件片段中的语音满足异常条件时，确定所述待处理多媒体文件异常之前，用于针对获取的每一个音频文件片段执行如下步骤：15.对音频文件片段进行语音检测，获得音频文件片段中各音频帧的分类；16.根据音频文件片段中各音频帧的分类，确定包含语音的音频帧；17.根据确定出的包含语音的音频帧，确定音频文件片段中的语音是否满足异常条件。18.在一种可能的实施例中，所述异常确定模块具体用于：19.提取音频文件片段中各音频帧的音频特征；20.根据各音频帧的音频特征，确定各音频帧的分类。21.在一种可能的实施例中，所述异常确定模块具体用于执行如下的至少一种：22.将各音频帧的音频特征与相应的门限值进行比较，确定各音频帧的分类；23.将各音频帧的音频特征输入语音检测模型，获得各音频帧的分类，其中，所述语音检测模型是根据样本音频帧的样本音频特征和样本音频帧所属的分类标签进行训练得到的。24.在一种可能的实施例中，所述异常确定模块具体用于：25.确定所述待处理多媒体文件对应的类型；26.确定与所述类型对应的语音检测方法，其中，不同类型对应的语音检测方法不同；27.按照所述语音检测方法，对音频文件片段进行语音检测，获得音频文件片段中各音频帧的分类。28.在一种可能的实施例中，所述异常确定模块还用于：29.所述对音频文件片段进行语音检测，获得音频文件片段中各音频帧的分类之前，若音频文件片段属于多声道，则对音频文件片段进行混合处理，获得单声道的音频文件片段；30.对所述单声道的音频文件片段进行归一化处理，获得预处理后的音频文件片段。31.在一种可能的实施例中，所述异常确定模块还用于：32.所述从所述音频文件中获取至少一个音频文件片段之后，针对每个音频文件片段，对音频文件片段进行音频信号突变检测；33.若任一音频文件片段存在音频信号突变，则确定所述待处理多媒体文件异常。34.在一种可能的实施例中，所述异常确定模块具体用于：35.针对每个音频文件片段，确定音频文件片段中的目标音频帧，其中，所述目标音频帧为音频文件片段中满足信号能量大于第一能量值的音频帧；36.针对每个音频文件片段，若目标音频帧的后n个音频帧，以及所述后n个音频帧中最后一帧之后的n个音频帧之间的信号能量之差大于第二能量值，则确定音频文件片段存在音频信号突变，其中，n为正整数。37.在一种可能的实施例中，所述异常确定模块还用于：38.所述针对每个音频文件片段，对音频文件片段进行音频信号突变检测之前，确定所述至少一个音频文件片段均不满足异常条件。39.本技术实施例提供一种计算机设备，包括：40.至少一个处理器，以及41.与所述至少一个处理器通信连接的存储器；42.其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述至少一个处理器通过执行所述存储器存储的指令实现如一方面中任一项所述的方法。43.本技术实施例提供一种计算机存储介质，所述计算机存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如一方面中任一项所述的方法。44.由于本技术实施例采用上述技术方案，至少具有如下技术效果：45.在本技术实施例中，对待处理多媒体文件进行处理时，从待处理多媒体文件中的音频文件中获取头部音频文件片段或尾部音频文件片段中的至少一个音频文件片段，并对至少一个音频文件片段进行异常检测，检测至少一个音频文件片段中的语音是否异常，如果头部音频文件片段在开始时较短时间内存在语音，则表示头部音频文件片段异常，如果尾部音频文件片段在结束之前较短时间内存在语音，则表示尾部音频文件片段异常，这样的检测方式与多媒体文件在开始或结尾较短时间内不存在语音的特点相符合，且无需借助多种算法，相对可以提升检测的准确性。且，只需对部分音频片段进行处理，相对可以减少处理量。附图说明46.图1a为本技术实施例提供的多媒体文件处理方法适用的应用场景示意图；47.图1b为本技术实施例提供的一种审核多媒体文件的流程图；48.图1c为本技术实施例提供的一种审核多媒体文件内容质量的流程图；49.图2为本技术实施例提供的一种多媒体文件处理方法的流程图一；50.图3为本技术实施例提供的从音频文件中截取音频文件片段的示例图；51.图4为本技术实施例提供的一种对音频文件片段进行预处理的过程示意图；52.图5为本技术实施例提供的图1a中各个设备之间的交互示意图；53.图6为本技术实施例提供的一种多媒体文件处理方法的流程图二；54.图7为本技术实施例提供的短视频中两个视频帧的示例图；55.图8为本技术实施例提供的一种多媒体文件处理装置的结构示意图；56.图9为本技术实施例提供的一种计算机设备的结构示意图。具体实施方式57.为了更好的理解本技术实施例提供的技术方案，下面将结合说明书附图以及具体的实施方式进行详细的说明。58.为了便于本领域技术人员更好地理解本技术的技术方案，下面对本技术涉及的名词进行介绍。59.1、人工智能(artificialintelligence,ai)：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。60.人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。在本技术实施例，可以利用人工智能技术对音频进行分类，具体过程将会在实施例中进行介绍。61.2、多媒体文件：是指泛指用于交互式资讯交流和传播的媒体相关的文件，多媒体包括图像、音频和视频中的一种或多种的组合。本技术实施例中涉及的多媒体文件中至少包括音频文件，本技术中的音频文件即为多媒体文件中的音频文件。62.3、音视频文件：是指音频文件和视频文件沿时间轴组合成的文件，本技术实施例中的音视频文件可以是根据音频文件的音频使用场景下生成的。音视频文件例如各类视频，具体例如短视频。63.4、音频帧：又可以简称帧，是指音频文件的基本处理单元，具体可以是对音频文件进行分帧后得到的，比如可以将音频文件按照某一个预设时间长度进行分割，分割后的每一个区间片对应为一帧，可以进一步理解为音频文件中的n个采样点集合成的一个单元，n的取值可以为512或256，在实际使用过程中，可以根据需要调整n值或预设时间长度。在对音频文件进行分帧的过程中，相邻两帧之间可以不存在重叠，也可以存在重叠，为了避免相邻两帧的变化过大，可以在分帧时让两相邻帧之间存在重叠区域。64.5、分帧：对音频文件进行分割的处理方式，以得到音频帧的过程。65.6、头部音频文件片段和尾部音频文件片段：均属于音频文件中的部分片段。头部音频文件片段是指音频文件中的起始部分，具体是指音频文件开始到第一设定时长内的音频片段。尾部音频文件片段是指音频文件中的结尾部分，具体是指音频文件结尾往前的第二设定时长内的音频片段。第一设定时长和第二设定时长可以不同，也可以相同。66.7、语音检测：可以借助人工智能技术实现语音检测，是一种基础的音频信号处理技术，从上世纪90年代到现在，广泛应用于语音通信，音频编码，语音识别，说话人识别，对话增强等场景中。声音可以细分为语音、音乐和背景音中的一种或多种的组合，而语音检测的目的为检测音频中是否包括语音。67.8、mpeg和3gppevs音频编码器：均属于混合音频编码器，一般是对借助音频分类模型对音频信号进行分类，然后选择核心编码器和参数对相应的音频信号进行分类编码，以提升编码质量。在本技术实施例中可以借助于这些音频编码器中的音频分类模型实现对音频的分类。68.下面对相关技术进行介绍：69.在相关技术中，ocr识别字幕和asr识别语音均会受到各类因素的影响，例如短视频背景复杂，分辨率高低会影响ocr识别字幕的准确率，而背景音乐、音效、多说话人的声音、空间混响等均会影响asr识别语音的准确率。另外，短视频还有缺少字幕，或存在非规范字体的字幕等也会导致检测结果不够准确。由于各方面因素均可能会影响短视频质量检测，因此导致检测出的结果准确性较低。70.有鉴于此，本技术实施例提供一种多媒体文件处理方法，下面对该方法的设计思想进行介绍：71.低质量的多媒体文件包括多个问题，例如多媒体文件内容无意义、多媒体文件呈现不完整、多媒体文件呈现不清晰，多媒体文件音视频不同步等。而本技术实施例可以用于检测多媒体文件不完整的情况，多媒体文件不完整包括多媒体文件开头或结尾突兀，另外还可以检测多媒体文件中的音频文件是否存在吞字情况等。72.本技术实施例中，在检测多媒体文件时，直接检测多媒体文件中的音频文件，具体检测音频文件中的开头部分和结尾部分中至少一个，判断开头部分或结尾部分在相应的时间段内是否在存在语音，从而判断多媒体文件是否完整，这与多媒体文件在开头的短时间内不会具有语音，结尾前的短时间内不会具有语音这一特点相符合，该方法相较于相关技术中检测短视频质量的方法，不会过度依赖算法，从而能够获得相对更为准确的检测结果。且，该方法能够避免过多因素干扰检测结果，提升了检测多媒体文件的鲁棒性。且，该方法能够排除大量的不完整的多媒体文件，相对提升用户使用多媒体文件平台的体验。73.基于上述设计思想，下面对本技术实施例的多媒体文件处理方法的应用场景进行介绍。74.请参图1a，为本技术实施例提供的多媒体文件处理方法的应用场景图，该应用场景包括普通用户对应的发布终端110、审核用户对应的审核终端120、服务器130和数据库140。图1a中是以一个发布终端110、两个审核终端120为例，实现不限制发布终端和审核终端的数量。75.在第一种可能的应用场景中、审核终端120和服务器130共同完成对多媒体文件的处理过程：76.普通用户可以通过发布终端110中的第一客户端111，发布多媒体文件。第一客户端111泛指各类多媒体文件的客户端，例如短视频客户端，第一客户端111的形式可以是网页版的客户端、预装在终端中的应用程序或者是嵌入在第三方应用程序中的子应用程序等。第一客户端111发布多媒体文件之后，服务器130对应获得了多媒体文件。77.服务器130可以将多媒体文件通过第二客户端121推送给审核终端120，使得审核人员可以及时地审核多媒体文件。其中，第二客户端121和第一客户端111可以是相同的应用，而“第一”和“第二”只是为了说明客户端所安装在不同类型用户所对应的终端。当然，第二客户端121和第一客户端111也可以是不同应用，例如第一客户端111为专门用于发布多媒体文件服务的客户端，而第二客户端121为专门提供多媒体文件审核服务的客户端。第二客户端121的类型和具体形式可以参照前文第一客户端111的论述内容，此处不再赘述。78.审核终端120从服务器接收多媒体文件之后，可以对多媒体文件进行审核，下面结合图1b所示的审核流程，对审核多媒体文件的审核过程进行示例：79.1、红线审核：80.审核终端120可以自动对多媒体文件进行审核，审核多媒体文件的合法性。或者，审核用户可以对多媒体文件的合法性进行人工审核。81.2、机器过滤：82.机器过滤包括基于过滤规则对多媒体文件进行基础过滤，过滤规则例如包括时长规则、时效规则、播控状态规则、清晰度规则。播控状态规则是指该多媒体文件是否被封禁等。机器过滤还包括基于算法进行的质量审核部分。本技术实施例中涉及的多媒体文件处理方法可以属于基于算法的质量审核中的部分。83.为了更清楚地说明机器过滤，下面结合图1c所示的机器过滤中基于算法进行的质量审核的部分进行示例介绍：84.请继续参照图1c，基于算法进行的质量审核具体包括标题质量审核、封面质量审核、内容质量审核等，内容质量审核具体包括审核多媒体文件的不清晰、不完整或者音视频不同步等问题。85.3、人工审核：86.在经过机器过滤之后，可以由审核人员再进行手动审核。87.4、建仓、分发：88.审核终端120确定多媒体文件审核合格之后，可以将审核合格的多媒体文件上传给服务器130，服务器130接收审核合格的各个多媒体文件，并为多媒体文件建仓，进而将各个多媒体文件分发到对应的仓库中。例如可以按照多媒体文件的类型进行建仓分仓，或者针对同一类型的多媒体文件可以按照多媒体文件的上传时间或者多媒体文件的标签等进行建仓或者分仓等。89.进一步地，服务器130可以按照相应的推送规则，将审核合格的多媒体文件推送给相应的普通用户。90.在第二种可能的场景中、服务器130对多媒体文件的处理过程：91.与第一种可能的应用场景不同，在第二种可能的应用场景中，服务器130在获得多媒体文件之后，可以直接对多媒体文件进行审核，无需服务器130下发审核终端120执行，服务器130具体审核过程与前文中审核终端120具体的审核过程相同，此处不再赘述。92.其中，上述中的发布终端110和审核终端120均可以为手机、个人计算机(personalcomputer，pc)、笔记本电脑或者平板电脑(portableandroiddevice，pad)等设备，服务器130可以为提供多媒体文件发布或审核功能的后台服务器，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(contentdeliverynetwork，cdn)以及大数据和人工智能平台等基础云计算服务的云服务器，但并不局限于此。93.基于上述场景，下面以审核终端执行多媒体文件处理方法为例，对本技术实施例涉及的多媒体文件处理方法进行介绍。94.请参照图2，为本技术实施例提供的一种多媒体文件处理方法的流程图，该方法的流程介绍如下：95.s201，获取待处理多媒体文件中的音频文件。96.在具体实施时，审核终端可以是从服务器获取待处理多媒体文件，或者是待处理多媒体文件的资源标识，根据资源标识，获取待处理多媒体文件。任意的需要进行处理的多媒体文件均可以视为待处理多媒体文件，多媒体文件的含义和类型可以参照前文论述的内容，此处不再赘述。97.审核终端获得待处理多媒体文件后，审核终端可以从该待处理多媒体文件中提取出音频，该音频包括待处理多媒体文件对应的完整音频，以获得音频文件。提取方式例如审核终端对待处理多媒体文件进行解码，获得多媒体文件中的音频文件，或者对待处理多媒体文件进行音频录制，获得音频文件，本技术不具体限制获得音频文件的方式。98.s202，从音频文件中获取至少一个音频文件片段。99.审核终端获得音频文件之后，可以从音频文件截取至少一个音频文件片段，每个音频文件片段均属于音频文件中的部分，本技术实施例中的至少一个音频文件片段包括头部音频文件片段和尾部音频文件片段中的至少一个。如前文论述的内容，头部音频文件片段为从开始时刻到第一设定时长内的音频片段，尾部音频文件片段为结束时刻往前的第二设定时长内的音频片段。需要说明的是，这里的开始时刻是指该音频文件的开始时刻，结束时刻是指该音频文件中的结束时刻。100.应当说明的是，如果音频文件较短，第一设定时长和第二设定时长设置较长时，那么头部音频文件片段和尾部音频文件片段之间可能具有音频文件中相同的部分。101.作为一种实施例，针对不同的音频文件，第一设定时长和第二设定时长的取值可以是变化的，例如审核终端根据音频文件的总时长确定第一设定时长和第二设定时长的取值，例如第一设定时长和第二设定时长的取值与第一设定时长和第二设定时长的取值正相关。例如，音频文件的总时长为10分钟，第一设定时长和第二设定时长均为2分钟；或者，例如当音频文件的总时长为20分钟，第一设定时长和第二设定时长均为4分钟。102.或者例如，审核终端根据音频文件的类型确定第一设定时长和第二设定时长。审核终端可以存储有不同多媒体文件类型对应的第一设定时长和第二设定时长的取值，审核终端可以根据待处理多媒体文件的类型，确定待处理多媒体文件的第一设定时长和第二设定时长。多媒体文件的类型例如为短视频等。103.例如，当待处理多媒体文件的类型为短视频，第一设定时长和第二设定时长均为2分钟，当待处理多媒体文件的类型为长视频时，第一设定时长和第二设定时长均为5分钟。这里的长视频与短视频相对应，可以理解为除了短视频之外的视频。104.例如，请参照图3，为获取头部音频文件和尾部音频文件的过程示意图，图3音频文件如a所示，音频文件的总时长为10s，审核终端获取音频文件之后，可以从音频文件开头往后2s内的音频文件片段确定为头部音频文件片段，以及从音频文件结尾往前3s内的音频文件片段确定为尾部音频文件片段。105.s203，当获取的任一音频文件中的语音满足异常条件时，确定待处理多媒体文件异常。106.审核终端在获取至少一个音频文件片段之后，对至少一个音频文件片段进行语音检测，进而判断至少一个音频文件中的语音是否满足异常条件，如果存在任意一个音频文件片段中的语音满足异常体条件，则确定待处理多媒体文件异常；如果至少一个音频文件片段中的语音均不满足异常条件，确定该多媒体文件正常。107.针对不同的音频文件片段，其对应的异常条件可能不完全相同。当音频文件片段包括头部音频文件片段时，如果头部音频文件片段中语音的起始时间与音频文件的起始时间之间的间隔时间小于或等于设定阈值。对于一个完整的音频文件，正常情况下在音频文件的起始部分是不存在语音的，例如：对于短视频，短视频的开头几秒一般是不存在语音的，而如果审核终端确定该音频文件中的头部音频文件片段中语音的起始时间与音频文件的起始时间之间的间隔时间小于或等于设定阈值，那也就表示音频文件中的语音出现较早，语音出现相对突兀，从而确定该音频文件异常。108.当音频文件片段包括尾部音频文件片段时，如果尾部音频文件片段中的语音的结束时间与音频文件的结束时间之间的间隔小于或等于设定阈值，则表示音频文件在结束前短时间内存在语音，则确定该音频文件异常。对于一个完整的音频文件，正常情况下该音频文件中的结尾部分是不存在语音的，例如：对于短视频，短视频的结尾几秒一般是不存在语音的，如果审核终端检测到尾部音频文件片段中的语音的结束时间与音频文件的结束时间之间的间隔小于或等于设定阈值，则表示该音频文件中的尾部很突兀地出现了语音，从而可以确定该音频文件异常。109.应当说明的是，头部音频文件片段对应的设定阈值与尾部音频文件对应的设定阈值可以是相同的，也可以是不同的。110.例如，继续沿用图3所示的例子，审核终端中设置的头部音频文件片段的异常条件为头部音频文件片段的语音的起始时间与音频文件的起始时间之间的间隔小于或等于1s，以及审核终端中设置的尾部音频文件片段的异常条件为尾部音频文件片段的语音的起始时间与音频文件的起始时间之间的间隔小于或等于1s。审核终端检测到头部音频文件片段在地1s内存在语音时，可以确定待处理多媒体文件异常。审核终端检测到尾部音频文件片段在倒数第0.5s内存在语音时，可以确定待处理多媒体文件异常。111.在图2所示的实施例中，审核终端可以以待处理多媒体文件中的头部音频文件片段和尾部音频文件片段中的至少一个作为检测对象，判断其中的语音是否满足异常条件，如果头部音频文件片段在音频文件开始的短时间内具有语音，则确定待处理多媒体文件异常，或者如果尾部音频文件片段在音频文件结束的短时间内具有语音，则确定待处理多媒体文件异常，这种检测方式符合多媒体文件的普遍特性，能够准确地检测多媒体文件的异常情况。且，该方法无需借助多种人工智能算法，相对简化处理，还无需对整个音频文件进行处理，进一步减少处理量。112.在对至少一个音频文件片段执行s203时，当音频文件片段为多声道时，如果对音频文件片段中每个声道信号进行处理，处理量较大，因此在本技术实施例中，在执行s203之前，可以对音频文件片段进行预处理，或者也可以对音频文件进行预处理，从预处理后的音频文件中获得至少音频文件片段，下面结合图4所示的预处理的流程图，对预处理过程进行介绍：113.s401、多声道下混：114.审核终端在获得至少一个音频文件片段之后，确定音频文件片段是否为多声道，如果音频文件片段为多声道，那么可以对音频文件片段进行下混处理，下面以对一个音频文件片段进行下混处理为例进行说明：115.在对音频文件片段进行下混处理时，可以对多声道中每个声道信号进加权求和，例如可以采用国际电信联盟(internationaltelecommunicationunion，itu)推荐算法进行处理，下面进行示例说明：116.(1)当音频文件片段包括l和r两个声道时，那么下混处理的具体公式可以如下：117.m＝(l+r)/2118.其中，l表示一个音频帧对应在左声道上的音频信号，r表示一个音频帧对应在右声道上的音频信号，m表示该音频文件片段中一个音频帧中左声道对应的音频信号和右声道对应的音频信号进行下混合后的音频信号。119.(2)当音频文件片段包括三个或三个以上多声道时，例如5.1声道，具体包含l、r、c、lfe、ls、rs共6个声道，那么下混处理的具体公式如下：120.m＝0.7071*l+0.7071*r+c+0.5*ls+0.5*rs121.m表示一个音频文件中一个音频帧对应的l、r、c、ls、rs声道对应音频信号的下混后的音频信号。122.s402、音量归一化：123.待处理多媒体文件的音量通常不规范，因此音频文件片段中的音频信号有大有小，而音频信号过大可能会影响下一步的语音检测性能，因此在本技术实施例中可以对音频文件片段进行归一化，以使得音频文件片段中的音频信号大小能够保持在一定范围内。归一化处理方式有多种，例如可以采用峰值归一化方法。124.具体地，获取音频文件片段中音频信号的最大值xmax，将1/xmax做为整个片段的归一化增益，这样音频片段所有音频信号的取值范围归一化为[‑1,1]。其中峰值归一化的具体公式如下：[0125]xmax＝max(|x(n)|),x(n),n＝1..n[0126]xnorm(n)＝x(n)/xmax,n＝1..n[0127]其中，|x|为x的绝对值，n表示音频文件片段中的某一音频帧，xnorm(n)表示归一化后的音频信号的值。[0128]在图4所示的实施例中，对音频文件片段进行下混和归一化处理，可以减少后续对音频文件片段的处理量，还可以避免音频文件片段中音频信号过大而造成检测不准确的情况，相对提升了后续音频检测的准确性。[0129]在执行s203时，需要对至少一个音频文件片段中各个音频文件片段进行语音检测，在对音频文件片段进行语音检测时，在本技术实施例中，可以将每个音频文件片段进行分帧处理，获得多个音频帧，确定每个音频帧的分类，进而获得包含语音的音频帧，进而根据包含语音的音频帧，确定音频文件片段中的语音是否满足异常条件。音频帧的分类例如音频帧属于语音、音乐、背景乐中的一种或两种的组合。[0130]在具体确定每个音频帧的分类时，可以提取每个音频帧的音频特征，审核终端可以获得各个音频帧的音频特征，将各个音频帧的音频特征与相应的门限值进行比较，进而确定各个音频帧的分类。[0131]例如审核终端可以采用语音活动检测(voiceactivitydetection，vad)检测音频帧的分类，vad检测方法中涉及的音频特征包括对数帧能量、过零率、在延迟一个位置处标准化自相关系数、阶线性预测的第一个系数、阶线性预测误差的对数等中的一种或几种，进而根据这些特征与门限值的比较，确定音频帧是否包括语音。以音频特征包括音频帧的能量为例，如果音频帧的能量大于阈值，则确定音频帧包括语音；如果音频帧的能量小于或等于阈值，则确定音频帧为背景帧。其中。vad检测方法可以用于ip电话、语音编码器和语音识别前处理等应用中。vad方法应用于通信环境，对纯语音和带平稳背景噪声的音频有效，可能并不适合音频内容过于复杂的多媒体文件。[0132]或者，审核终端可以将各音频帧的音频特征输入到语音检测模型中，从而获得音频帧的分类。[0133]语音检测模型可以有多种，例如杜比的智能对话技术模型或者音频编码器中的分类模型等，音频编码器例如和3gppevs和mpeg。mpeg音频编码器中的音频分类模型(signalclassifierandpsychoacousticmodel)可以用于输出音频帧属于语音，音乐和混合等各种分类。这些模型是根据样本音频帧的样本音频特征和样本音频帧所属的分类标签进行训练得到的，不同的模型所需的音频特征可能不完全相同。例如杜比的智能对话技术模型中，通常会利用音频的如下多个特征中的至少一个：[0134]1.加权频谱通量的均方值(averagesquaredl2‑normofweightedspectralflux，sfv)；[0135]2.频谱能量密度的最佳线性拟合的斜度(skewofregressivelineofbestfitthroughestimatedspectralpowerdensity，ast)；[0136]3.中断次数：(pausecount，psc)；[0137]4.零交叉率的偏斜系数(skewcoefficientofzerocrossingrate，zcs)；[0138]5.零交叉率的均值和中位数的比率(mean‑to‑medianratioofzerocrossingrate，zcm)；[0139]6.节奏度量(rhythmicmeasure，rpm)；[0140]7.长时节奏度量(longrhythmicmeasure，lrm))。[0141]其中，杜比的智能对话技术模型可以用于对话增强，智能响度调节应用中进行语音检测，具体可以在各类电影和电视等多媒体中检测语音，还适合用于检测短视频中的语音。[0142]在一种可能的实施例中，审核终端中可以存储有多种语音检测方法，以及每种语音检测适合的待处理多媒体文件的类型，审核终端可以根据待处理多媒体文件的类型，进而确定该待处理多媒体文件适用的语音检测方法，并根据确定出的语音检测方法对至少一个音频文件片段进行语音检测。例如，确定待处理多媒体文件为短视频，可能采用vad检测方法，待处理多媒体为mv，可以采用适用于检测音乐的检测方法等。[0143]在本技术实施例中，审核终端可以根据实际情况选用相适应的检测方法，可以相对提升语音检测的准确性，进而提高多媒体文件异常检测的准确性。[0144]为了进一步提升多媒体文件处理的准确性，在本技术实施例中，审核终端在对待处理多媒体文件进行语音检测之后，还可以对音频文件片段进行后处理，以进一步检测待处理多媒体文件是否异常。或者，也可以是在对多媒体文件进行语音检测后，确定待处理多媒体文件不存在异常，进而可以采用后处理检测待处理多媒体文件是否异常。[0145]具体地，例如有些不完整的多媒体文件，在开头或结尾处截断了半个字，由于截断的部分很短，语音检测很难识别出这种情况。因此，通过本技术实施例中中的后处理过程可以检测这种情况。审核终端可以对至少一个音频文件片段进行音频信号进行突变检测，如果任一音频文件片段存在音频信号突变，确定待处理多媒体文件异常。音频信号突变可以根据音频信号的能量值进行突变检测，下面以检测一个目标音频文件片段为例，对检测音频文件片段的突变情况进行说明：[0146]审核终端从音频文件片段中确定出目标音频帧，具体审核终端可以从音频文件片段中确定出音频信号能量大于第一能量值的音频帧。当然音频文件片段中音频信号能量大于第一能量值的音频帧可能不止一个，审核终端可以将音频文件片段中依次排列的多个音频帧中第一个满足能量大于第一能量值的音频帧作为目标音频帧，或者从满足能量大于第一能量值的多个音频帧中随机选择一个音频帧作为目标音频帧，或者将满足能量大于第一能量值的多个音频帧均作为目标音频帧。第一能量值可以为审核终端中预存的一个值，第一能量值可以参照背语音的能量值进行设定，例如第一能量值大于或等于语音的能量值。[0147]在获得目标音频帧之后，审核终端可以确定目标音频帧的n个音频帧，以及后n个音频帧中最后一帧之后的n个音频帧之间的信号能量之差，后n个音频帧可以理解为音频文件片段中多个音频帧往后的n个音频帧。如果目标音频帧的后n个音频帧，以及后n个音频帧中最后一帧之后的n个音频帧之间的信号能量之差大于第二能量值，那么表示目标音频帧附近的音频帧之间的信号能量值相差较大，从而确定音频文件片段存在信号突变情况，进而确定待处理多媒体文件异常。当选择的目标音频文件帧包括多个时，那么审核终端可以分别对每个目标音频文件帧执行上述过程，只要存在一个目标音频帧异常，则确定待处理多媒体文件异常。[0148]具体地，审核终端可以确定后n个音频帧的信号能量和，以及后n个音频帧中最后一帧之后的n个音频帧之间的信号能量和，进而计算信号能量和的差，将两个信号能量和的差作为目标音频帧的后n个音频帧，以及后n个音频帧中最后一帧之后的n个音频帧之间的信号能量之差。[0149]审核终端也可以确定目标音频帧的后n个音频帧的信号能量值的中位数，以及确定后n个音频帧中最后一帧之后的n个音频帧之间的信号能量值的中位数，进而确定两个中位数之间的差值，将两个中位数之间的差值确定为目标音频帧的后n个音频帧，以及后n个音频帧中最后一帧之后的n个音频帧之间的信号能量之差。[0150]下面检测音频文件片段是否异常的过程进行介绍：[0151]1、设音频文件片段的音频信号表示为xnorm(n)；[0152]2、在0≤n≤m0范围内寻找最小n0，且使得xnorm(n)＞e1；如果没有找到则结束检测，如果找到则继续后续步骤3，其中，n0表示确定出的目标音频帧，e1表示第一能量值。[0153]3、计算信号能量值x(n)＝log10(xnorm(n))，其中，n0≤n≤n0+m1；[0154]4、计算两个能量中位数，xmedian1＝median(x(n)),n0≤n≤n0+m1/2，以及，[0155]xmedian2＝median(x(n)),n0+m1/2<n≤n0+m1[0156]其中，m1/2表示目标音频帧中的后n个帧的音频数量，xmedian1表示后n个音频帧的中位数，xmedian2表示后n个音频帧中最后一帧之后的n个音频帧的中位数；[0157]5、如果(xmedian1‑xmedian2)>e2，则确定检测到信号突变，如果(xmedian1‑xmedian2)≤e2，则确定不存在信号突变情况。其中，e2对应第二能量值。[0158]头部音频文件片段和尾部音频文件片段中存在一个音频文件片段存在信号突变的情况时，表示该待处理多媒体文件有语音吞字发生，进而确定该待处理多媒体文件异常。[0159]进一步地，在确定待处理多媒体文件异常之后，审核终端可以显示提示信息，以提示该待处理多媒体文件异常，并将待处理多媒体文件异常的异常判断结果反馈给服务器。[0160]应当说明的是，上述实施例中是以审核终端执行上述方法为例，实际不限制执行多媒体处理方法的设备，例如服务器也可以执行上述方法，执行过程可以参照前文论述的内容，此处不再赘述，当服务器确定待处理多媒体文件异常之后，可以向发布终端反馈待处理多媒体文件异常的异常判断结果。[0161]在本技术实施例中，可以对头部音频片段和尾部音频片段进行信号突变检测，检测方式简单快速，且能够进一步地检测出音频文件片段是否存在吞字的情况，能够更全面地对待处理多媒体文件进行检测，提高待处理多媒体音频文件检测结果的可参考性。[0162]为了更清楚地说明本技术实施例中的多媒体文件处理方法，下面基于图1a所示的应用场景，对图1a中各设备之间的交互示意图进行示例介绍：[0163]请参照图5，为图1a中个设备之间的交互示意图，该交互过程具体包括：[0164]s501，发布终端响应于发布操作，获取待发布多媒体文件。[0165]当用户想要发布某个多媒体文件时，可以通过第一客户端111上进行发布操作，例如用户点击第一客户端111上的发布操作，发布终端响应于该发布操作，从而获取用户当前需要进行发布的待发布多媒体文件。[0166]s502，发布终端将待发布多媒体文件发送给服务器。[0167]发布终端可以将待发布多媒体文件或待发布多媒体文件的资源标识发送给服务器。[0168]s503，服务器将待发布多媒体文件发送给审核终端。[0169]服务器可以是实时地将待发布多媒体文件发送给审核终端，或者当满足一定条件时，再将该待发布多媒体文件发送给审核终端。一定条件例如可以是服务器在接收待发布多媒体文件达到预设时长后，或者审核终端当前处于空闲状态等。[0170]s504，审核终端从待处理多媒体文件中获取至少一个音频文件片段。[0171]当审核终端接收待发布多媒体文件后，也就相当于获得了待处理多媒体文件，并从待处理多媒体文件中获取至少一个音频文件片段，获取至少音频文件片段以及音频文件片段的含义等可以参照前文论述的内容，此处不再赘述。[0172]s505，审核终端确定待处理多媒体文件是否异常，获得异常判断结果。[0173]审核终端在获得至少一个音频文件片段之后，可以确定每个音频文件片段中的语音是否满足异常条件，确定每个音频文件片段是否满足异常条件的方式可以参照前文论述的内容，此处不再赘述。当存在至少一个音频文件片段中的语音满足异常条件时，则生成用于指示待处理多媒体文件异常的异常判断结果；如果至少一个音频文件片段均不满足异常条件时，则生成用于指示待处理多媒体文件正常的异常判断结果。[0174]s506，审核终端将异常判断结果发送给服务器。[0175]s507，服务器将异常判断结果发送给发布终端。[0176]当服务器确定异常判断结果用于指示待处理多媒体文件异常时，则确定待处理多媒体文件异常，进而向发布终端发送用于指示待处理多媒体文件异常的异常判断结果，发布终端还可以显示该异常判断结果，使得用户可以及时改进。当服务器确定异常判断结果用于指示待处理多媒体文件正常时，则确定待处理多媒体文件正常，进而向发布终端发送用于指示待处理多媒体文件正常的异常判断结果，进一步地，服务器还可以将待处理多媒体文件发送给发布终端将要发送的其它终端。[0177]进一步地，如果服务器确定待处理多媒体文件正常，可以将待处理多媒体文件发送给其它终端，从而实现对待处理多媒体文件的发布过程。[0178]在本技术实施例中，服务器可以借助于审核终端，对待处理多媒体文件进行审核，可以减少服务器的处理量，另外审核终端可以对待处理多媒体文件中的音频文件片段进行检测，以实现对待处理多媒体文件的异常检测，在简化待处理多媒体文件的处理量的同时，还能保证待处理多媒体文件处理的准确性。[0179]为了更清楚地说明多媒体文件处理方法，下面以待处理多媒体文件为短视频、服务器执行多媒体处理方法为例，对本技术实施例涉及的多媒体文件处理过程进行介绍：[0180]请参照图6，为一种多媒体处理方法的流程图，该方法包括：[0181]s601，服务器获取待处理短视频。[0182]s602，服务器截取待处理短视频的头部音频文件片段。[0183]s603，服务器对头部音频文件片段进行预处理。[0184]s604，服务器对头部音频文件片段进行语音检测。[0185]对头部音频文件片段进行语音检测，并确定头部音频文件片段中的语音是否异常条件。[0186]s605，服务器对头部音频文件片段进行后处理。[0187]s606，服务器截取待处理短视频的尾部音频文件片段。[0188]s607，服务器对尾部音频文件片段进行预处理。[0189]s608，服务器对尾部音频文件片段进行语音检测。[0190]对尾部音频文件片段进行语音检测，并确定尾部音频文件片段中的语音是否异常条件。[0191]s609，服务器对尾部音频文件片段进行后处理。[0192]s610，服务器输出待处理短视频的异常判断结果。[0193]其中，服务器可以执行s602～s605和s606～s609中的两部分或者其中的一部分。另外s605和s609为可选的步骤。[0194]下面以图7为例，对吞字的具体情况进行示例介绍，以短视频中的音频文件片段关联的一个视频帧如图7中(1)所示，当在该短视频中的字幕包括“东升西落”，而音频文件中不存在“太阳”时，则可以确定该音频文件存在吞字的情况。以短视频中的音频文件关联的一个视频帧如图7中(2)所示，当检测到该短视频中字幕包括“很多蛇都是的”时，而音频文件不存在“有毒”时，确定该音频文件存在吞字的情况。在本技术实施例中涉及的后处理过程可以检测出音频文件片段中可能存在的吞字的情况，但本技术实施例涉及的后处理过程无需具体检测出哪些字被遗漏。[0195]基于同一发明构思，本技术实施例提供一种多媒体文件处理装置，该装置可以用于实现前文审核终端或服务器的功能，请参照图8，该装置包括：[0196]第一获取模块801，用于获取待处理多媒体文件中的音频文件；[0197]第二获取模块802，用于从音频文件中获取至少一个音频文件片段，其中，至少一个音频文件片段包括头部音频文件片段和尾部音频文件片段中的至少一个，头部音频文件片段包括音频文件的起始部分，尾部音频文件片段包括音频文件的结尾部分；[0198]异常确定模块803，用于当获取的任一个音频文件片段中的语音满足异常条件时，确定待处理多媒体文件异常，其中，头部音频文件片段中的语音满足异常条件包括语音的起始时间与音频文件的起始时间之间的间隔小于或等于设定阈值；尾部音频文件片段中的语音满足异常条件包括语音的结束时间与音频文件的结束时间之间的间隔小于或等于设定阈值。[0199]在一种可能的实施例中，异常确定模块803还用于：[0200]当获取的任一个音频文件片段中的语音满足异常条件时，确定待处理多媒体文件异常之前，用于针对获取的每一个音频文件片段执行如下步骤：[0201]对音频文件片段进行语音检测，获得音频文件片段中各音频帧的分类；[0202]根据音频文件片段中各音频帧的分类，确定包含语音的音频帧；[0203]根据确定出的包含语音的音频帧，确定音频文件片段中的语音是否满足异常条件。[0204]在一种可能的实施例中，异常确定模块803具体用于：[0205]提取音频文件片段中各音频帧的音频特征；[0206]根据各音频帧的音频特征，确定各音频帧的分类。[0207]在一种可能的实施例中，异常确定模块具体用于执行如下的至少一种：[0208]将各音频帧的音频特征与相应的门限值进行比较，确定各音频帧的分类；[0209]将各音频帧的音频特征输入语音检测模型，获得各音频帧的分类，其中，语音检测模型是根据样本音频帧的样本音频特征和样本音频帧所属的分类标签进行训练得到的。[0210]在一种可能的实施例中，异常确定模块803具体用于：[0211]确定待处理多媒体文件对应的类型；[0212]确定与类型对应的语音检测方法，其中，不同类型对应的语音检测方法不同；[0213]按照语音检测方法，对音频文件片段进行语音检测，获得音频文件片段中各音频帧的分类。[0214]在一种可能的实施例中，异常确定模块803还用于：[0215]对音频文件片段进行语音检测，获得音频文件片段中各音频帧的分类之前，若音频文件片段属于多声道，则对音频文件片段进行混合处理，获得单声道的音频文件片段；[0216]对单声道的音频文件片段进行归一化处理，获得预处理后的音频文件片段。[0217]在一种可能的实施例中，异常确定模块803还用于：[0218]从音频文件中获取至少一个音频文件片段之后，针对每个音频文件片段，对音频文件片段进行音频信号突变检测；[0219]若任一音频文件片段存在音频信号突变，则确定待处理多媒体文件异常。[0220]在一种可能的实施例中，异常确定模块803具体用于：[0221]针对每个音频文件片段，确定音频文件片段中的目标音频帧，其中，目标音频帧为音频文件片段中满足信号能量大于第一能量值的音频帧；[0222]针对每个音频文件片段，若目标音频帧的后n个音频帧，以及后n个音频帧中最后一帧之后的n个音频帧之间的信号能量之差大于第二能量值，则确定音频文件片段存在音频信号突变，其中，n为正整数。[0223]在一种可能的实施例中，异常确定模块803还用于：[0224]针对每个音频文件片段，对音频文件片段进行音频信号突变检测之前，确定至少一个音频文件片段均不满足异常条件。[0225]基于同一发明构思，本技术实施例提供一种计算机设备，请参照图9，该计算机设备包括处理器901和存储器902。[0226]处理器901可以是一个中央处理单元(centralprocessingunit，cpu)，或者为数字处理单元等等。本技术实施例中不限定上述存储器902和处理器901之间的具体连接介质。本技术实施例在图9中以存储器902和处理器901之间通过总线903连接，总线903在图9中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。总线903可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。[0227]存储器902可以是易失性存储器(volatilememory)，例如随机存取存储器(random‑accessmemory，ram)；存储器902也可以是非易失性存储器(non‑volatilememory)，例如只读存储器，快闪存储器(flashmemory)，硬盘(harddiskdrive，hdd)或固态硬盘(solid‑statedrive，ssd)、或者存储器902是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器902可以是上述存储器的组合。[0228]处理器901，用于调用存储器902中存储的计算机程序时执行如前文论述的多媒体文件处理方法，还可以用于实现图8中装置的功能，以及前文审核终端或服务器的功能。[0229]基于同一发明构思，本技术实施例提供一种计算机存储介质，计算机存储介质存储有计算机指令，当计算机指令在计算机上运行时，使得计算机执行前文论述的任一的多媒体文件处理方法。[0230]本领域内的技术人员应明白，本技术的实施例可提供为方法、系统、或计算机程序产品。因此，本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd‑rom、光学存储器等)上实施的计算机程序产品的形式。[0231]基于同一发明构思，本技术实施例提供一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述的多媒体文件处理方法。[0232]本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(rom，read‑onlymemory)、随机存取存储器(ram，randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。[0233]或者，本技术上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本技术各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。[0234]显然，本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样，倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内，则本技术也意图包含这些改动和变型在内。当前第1页12当前第1页12

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杜正中
技术所有人：腾讯科技（北京）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。