音频处理方法和装置与流程

文档序号：17544400发布日期：2019-04-29 15:10阅读：238来源：国知局

本发明涉及音频处理领域，具体而言，涉及一种音频处理方法和装置。

背景技术：

在监控、车载智能、智能家居、手机语音助手等领域，音频通常都会被识别，以从中抽取信息，完成与用户的交互或信息挖掘。在这一过程中，部分信息会离开收音端，送至提供服务的企业的云端。由于用户的语音中携带有用户的声纹、部分有意识或无意识产生的隐私内容等，因此存在身份信息、隐私信息泄露至企业云端的风险。

目前，车载智能或智能家居对接收到的待处理音频信息的处理方式通常如下：本地收音端仅对唤醒词有反应，唤醒词不上传，仅上传唤醒后的前n轮语音，默认这几轮语音本身不涉及隐私。其他时候处于关闭状态，对非唤醒词的语音内容不接收。手机语音助手对接收到的待处理音频信息的处理方式通常如下：使用之前，会由用户确认协议，从法律上做规避。用户与语音助手的对话，为用户主动发起，用户主动结束。语音全部在云端处理，默认在此过程中，不涉及隐私信息。监控系统对接收到的待处理音频信息的处理方式通常如下：被监控对象可能并不知晓自己的语音正在被录取的，因此更可能透露隐私信息。

由上可知，现有的音频处理方案中，只能使用在使用者主动配合的场景，例如：手机助手，智能家居等，但无法用在监控场景。由于在监控场景下，使用者不是与机器对话，因此在说话时不会主动规避隐私的。

针对现有技术中监控领域下用户的对象容易透漏隐私的问题，目前尚未提出有效的解决方案。

技术实现要素：

本发明实施例提供了一种音频处理方法和装置，以至少解决现有技术中监控领域下用户的对象容易透漏隐私的技术问题。

根据本发明实施例的一个方面，提供了一种音频处理方法，包括：确定目标信息在待处理音频信息中的定位信息，其中，定位信息至少包括目标信息在待处理音频信息中出现的时间；根据定位信息查找到待处理音频信息中的目标音频，其中，目标音频为待处理音频信息中包括目标信息的音频片段；对目标音频进行预定处理。

进一步地，获取预设的关键词表；获取待处理音频信息对应的文本信息，其中，文本信息与待处理音频信息的时间轴具有第一对应关系；从文本信息中识别关键词表中的词语，并确定命中关键词表中任意关键词的文本信息为目标信息；根据第一对应关系获取目标信息对应的音频片段的时间轴信息；确定时间轴信息为定位信息。

进一步地，获取预设的第一特征信息；提取待处理音频信息中的第二特征信息，其中，第二特征信息与待处理音频信息的时间轴具有第二对应关系；将第二特征信息与第一特征信息进行匹配，确定命中第一特征信息的第二特征信息为目标信息；根据第二对应关系获取目标信息对应的音频片段的时间轴信息；确定时间轴信息为定位信息。

进一步地，对目标音频进行预定处理，包括如下任意一种：将目标音频清除；对目标音频进行消音处理；使用第一预设音频替换目标音频；在目标音频的基础上叠加第二预设音频。

进一步地，在对目标音频进行预定处理之后，对进行预定处理后的待处理音频信息的特征信息进行特征混淆；输出特征混淆后的待处理音频信息。

进一步地，在确定目标信息在待处理音频信息中的定位信息之前，获取音频信息，其中，音频信息包括语音信息；对音频信息进行去噪声处理，得到待处理音频信息。

根据本发明实施例的另一方面，还提供了一种音频处理装置，包括：确定模块，用于确定目标信息在待处理音频信息中的定位信息，其中，定位信息至少包括目标信息在待处理音频信息中出现的时间；查找模块，用于根据定位信息查找到待处理音频信息中的目标音频，其中，目标音频为待处理音频信息中包括目标信息的音频片段；处理模块，用于对目标音频进行预定处理。

进一步地，确定模块包括：第一获取子模块，用于获取预设的关键词表；第二获取子模块，用于获取待处理音频信息对应的文本信息，其中，得到的文本信息与待处理音频信息的时间轴具有第一对应关系；第一确定子模块，用于从文本信息中识别关键词表中的词语，并确定命中关键词表中任意关键词的文本信息为目标信息；第三获取子模块，用于根据第一对应关系获取目标信息对应的音频片段的时间轴信息；第二确定子模块，用于确定时间轴信息为定位信息。

根据本发明实施例的另一方面，还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述的音频处理方法。

根据本发明实施例的另一方面，还提供了一种处理器，处理器用于运行程序，其中，程序运行时执行上述的音频处理方法。

在本发明实施例中，确定目标信息在待处理音频信息中的定位信息，其中，定位信息至少包括目标信息在待处理音频信息中出现的时间；根据定位信息查找到待处理音频信息中的目标音频，其中，目标音频为待处理音频信息中包括目标信息的音频片段；对目标音频进行预定处理。上述方案通过对目标信息进行定位，从待处理音频信息中查找出目标音频，并通过对目标音频进行预定处理，从而达到了对语音信息中的目标信息进行特殊处理的目的，进而在监控领域，能够对隐私信息进行特殊处理，以对用户的隐私信息进行保护，解决了现有技术中监控领域下用户的对象容易透漏隐私的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种音频处理方法的流程图；

图2是根据本发明实施例的一种基于文本的隐私语音定位模型；

图3是根据本发明实施例的一种基于特征的隐私语音定位模型；

图4是根据本发明实施例的一种进行特征混淆的示意图；

图5是根据本发明实施例的一种音频处理方法的示意图；以及

图6是根据本发明实施例的一种音频处理装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本发明实施例，提供了一种音频处理方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种音频处理方法的流程图，如图1所示，该方法包括如下步骤：

步骤s102，确定目标信息在待处理音频信息中的定位信息，其中，定位信息至少包括目标信息在待处理音频信息中出现的时间。

具体的，上述待处理音频信息是包括语音信息的音频信息，上述目标信息可以是隐私信息，或具有特殊意义的信息。

在一种可选的实施例中，在监控领域，为了防止泄露用户语音的隐私，则可以将涉及隐私的信息作为目标信息，例如：姓名、证件号码等。

在另一种可选的实施例中，在数据分析领域，为了确定用户对某种对象的情感倾向，可以将涉及到上述对象的信息作为目标信息，例如：对该对象的评价语句，对同类其他对象的评论语句等。

上述定位信息至少包括目标信息在待处理音频信息中出现的时间，因此根据定位信息可以在待处理音频信息中定位至目标音频出现的位置，以对目标音频进行处理。在一种可选的实施例中，目标信息在待处理音频信息中出现的时间，可以为包括目标信息的目标音频持续的时间段，也可以是目标音频开始的时间点。

步骤s104，根据定位信息查找到待处理音频信息中的目标音频，其中，目标音频为待处理音频信息中包括目标信息的音频片段。

具体的，在定位信息包括目标音频持续的时间段的情况下，可以直接根据定位信息从待处理音频信息中查找到目标音频，在定位信息仅包括目标音频开始的时间点的情况下，可以设置预设长度，根据开始时间向后延长预设时间，作为目标音频的结束时间，从而根据开始时间和结束时间确定目标音频。

步骤s106，对目标音频进行预定处理。

具体的，上述预定处理用于对待处理音频信息中的目标信息进行隐去或突出。

在一种可选的实施例中，在监控领域，可以对目标音频进行隐去处理，从而防止用户隐私的泄露。

此处需要说明的是，上述步骤可以由获取音频的终端执行，终端通过上述方法对音频进行处理后，将处理后的音频发送至监控的服务器或其他服务器，例如，当上述方法应用于手机时，由用户的手机执行上述方案，对采集到的音频进行上述处理，再将处理后的音频发送至远端的监控服务器。

在另一种可选的实施例中，在数据分析领域，可以对目标音频前插入提示音，以对目标音频进行突出，从而提高数据分析效率。

由上可知，本申请上述实施例确定目标信息在待处理音频信息中的定位信息，其中，定位信息至少包括目标信息在待处理音频信息中出现的时间；根据定位信息查找到待处理音频信息中的目标音频，其中，目标音频为待处理音频信息中包括目标信息的音频片段；对目标音频进行预定处理。上述方案通过对目标信息进行定位，从待处理音频信息中查找出目标音频，并通过对目标音频进行预定处理，从而达到了对语音信息中的目标信息进行特殊处理的目的，进而在监控领域，能够对隐私信息进行特殊处理，以对用户的隐私信息进行保护，解决了现有技术中监控领域下用户的对象容易透漏隐私的技术问题。

作为一种可选的实施例，确定目标信息在待处理音频信息中的定位信息，包括：获取预设的关键词表；获取待处理音频信息对应的文本信息，其中，文本信息与待处理音频信息的时间轴具有第一对应关系；从文本信息中识别关键词表进行匹配，确定命中关键词表中任意关键词的文本信息为目标信息；根据第一对应关系获取目标信息对应的音频片段的时间轴信息；确定时间轴信息为定位信息。

上述方案根据语音信息对应的文本信息对待处理音频信息中的目标信息进行定位。具体的，上述关键词表可以包括预定的词语和句子，并可以根据经验确定，在不同场景可以确定不同的关键词表，例如，在营业厅的监控场景中，常会出现用户说出姓名、证件号码等信息，因此可以将这些信息及相关信息作为关键词表；再例如，在餐饮环境的监控场景中，用户常会在交谈过程中说出人名、地点等信息，因此可以将这些信息及相关信息作为关键词。

仍在上述方案中，首先通过语音识别模块将待处理音频信息中的语音信息转换为文本信息，再从文本信息中识别关键词表中的词语或句子，从而得到文本信息中包含的目标信息。

以目标信息为隐私信息为例，上述步骤可以通过基于文本的隐私语音定位模型实现，图2是根据本发明实施例的一种基于文本的隐私语音定位模型，在一种可选的实施例中，仍以监控领域为例，结合图2所示，首先获取预先确定的关键词表或特定语句，该关键词表或特定语句即为隐私文本判定规则，该关键词表根据使用场景的经验确定，将音频转为文本，再通过语音识别模块，在音频对应的文本中，识别关键词表中的词语或特定语句，由于文本中包含对应语音的时间轴信息，因此可以根据识别结果确定隐私语音在时间轴上的位置，即上述定位信息，最后输出所有隐私信息在时间轴上的位置，则完整了目标信息的定位。

作为一种可选的实施例，确定目标信息在待处理音频信息中的定位信息，包括：获取预设的第一特征信息；提取待处理音频信息中的第二特征信息，其中，第二特征信息与待处理音频信息的时间轴具有第二对应关系；将第二特征信息与第一特征信息进行匹配，确定命中第一特征信息的第二特征信息为目标信息；根据第二对应关系获取目标信息对应的音频片段的时间轴信息；确定时间轴信息为定位信息。

具体的，上述第一特征信息是预设的特征信息，可以是某种情绪下音频特征信息，音频特征可以包括声纹信息、音色信息以及音调信息等。在不同的场景下，可以通过经验设置不同的第一特征信息。

上述特征匹配模块将预设的第一特征信息和待处理音频中的第二特征性信息进行匹配，确定命中第一特征信息的第二特征信息为目标信息。

仍以目标信息为隐私信息为例，上述步骤可以通过基于特征的隐私语音定位模型实现，在一种可选的实施例中，图3是根据本发明实施例的一种基于特征的隐私语音定位模型，结合图3所示，首先根据使用场景，确定隐私特征的规则描述(即上述预设的第一特征信息)，再使用特征提取模块从待处理音频信息中提取第二特征信息，该第二特征信息与时间轴相对应。最后使用特征匹配模块，将第二特征信息与第一特征信息进行特征匹配，从而定位符合隐私特征的时间轴位置，该时间轴位置即为上述定位信息。最终输出所有隐私信息的待处理音频信息的时间轴上的位置。

作为一种可选的实施例，对目标音频进行预定处理，包括如下任意一种：将目标音频清除；对目标音频进行消音处理；使用第一预设音频替换目标音频；在目标音频的基础上叠加第二预设音频；在目标音频的基础上叠加第二预设音频。

上述方案提供了四种对目标音频的处理方式，下面分别进行说明。

在一种可选的实施例中，将目标音频清除，该方式可以是从待处理音频中，将目标音频截取并抛弃，处理后的一条音频信息可能被分为多段。例如，待处理音频信息中，第00:02-01:00秒出现了目标音频，则从待处理音频信息中截取出00:02-01:00秒，从而将目标音频清除，进而保护了用户的隐私。

还在一种可选的实施例中，对目标音频进行消音处理，从而使得目标音频中的目标信息被隐去，进而保护了用户的隐私。

在另一种可选的实施例中，使用第一预设音频替换目标音频。上述第一预设音频可以是从音乐中截取的音频，也可以是提前录制的音频，使用第一预设音频替换目标音频后，目标音频被隐去，进而保护了用户的隐私。

在又一种可选的实施例中，上述第二预设音频也可以是从音乐中截取的音频，或提前录制的音频，将第二预设音频叠加在目标音频后，第二预设音频将目标音频覆盖，从而使得目标音频的信息难以泄露，进而保护了用户的隐私。

作为一种可选的实施例，在对目标音频进行预定处理之后，上述方法还包括：对进行预定处理后的待处理音频信息的特征信息进行特征混淆；输出特征混淆后的待处理音频信息。

在上述方案中，对目标音频进行预定处理，从而使待处理音频信息中的隐私信息被隐去。上述步骤对隐去目标信息的待处理音频的特征信息进行特征混淆，以避免通过音频信息获取到发出语音信息的用户的身份。

具体的，上述特征信息可以是声纹特征、音调特征以及音色特征等，对特征信息进行混淆，可以是对特征信息进行变形，以混淆音频信息本身的特征，进而使得难以通过音频信息出用户的身份。

在一种可选的实施例中，以特征信息为音色特征为例，可以对音频信息的音色特征进行变形，以对音频信息的特征信息进行混淆。

在另一种可选的实施例中，特征信息为声纹信息为例，上述方案可以通过声纹特征混淆模块执行，图4是根据本发明实施例的一种进行特征混淆的示意图，结合图4所示，可以预先获取根据经验确定的声纹特征类型，将声纹特征类型作为对音频信息进行混淆处理的规则。在对音频信息进行处理时，使用特征提取模块，从音频信息中提取出声纹特征，再通过声纹特征定位模块，从音频信息的声纹特征中确定出属于声纹特征类型的声纹特征，并通过声纹特征变形模块对确定的声纹进行混淆，得到声纹特征被混淆的音频信息。

需要说明的是，声纹为用电声学一起显示的携带言语信息的声波频谱，通过声纹能够准确的确定说话者的身份，即使对音频的音色或音调进行了调整，仍难以影响判断结果，因此为了对说话者的身份进行保护，可以对音频信息的声纹信息进行混淆，从而最大程度保护说话者的身份。

由此可知，在本申请上述方案中，不仅对待处理音频信息中的隐私内容进行了隐去，避免了监控场景下用户的语音隐私的泄露，还对待处理音频信息的特征信息进行了特征混淆，以保证了监控场景下用户身份的泄露，从而为用户提供了较安全的隐私保障。

作为一种可选的实施例，在确定目标信息在待处理音频信息中的定位信息之前，方法还包括：获取音频信息，其中，音频信息包括语音信息；对音频信息进行去噪声处理，得到待处理音频信息。

具体的，上述音频信息可以是监控设备采集的音频信息，由于监控设备采集音频信息的环境可能存在其他声音，因此如果直接对音频信息进行处理，则可能会受到噪声的干扰。因此在获取到音频信息之后，为了对音频信息中语音信息的隐私信息进行处理，首先需要对音频信息进行去噪处理，以从音频信息中清除语音信息之外的噪声信息，进而得到上述待处理音频信息。

图5是根据本发明实施例的一种音频处理方法的示意图，结合图5，首先可以根据隐私语音定位模型，确定原始音频(即待处理音频信息)中隐私信息的定位信息，在使用隐私语音去除模块，从原始音频，根据隐私信息的定位信息，去除隐私语音信息，得到隐私语音已消除的音频。最后使用声纹特征混淆模块，对隐私语音已消除的音频进行声纹特征的混淆，从而得到隐私信息完全消除的音频。

实施例2

根据本发明实施例，提供了一种音频处理装置的实施例，图6是根据本发明实施例的一种音频处理装置的示意图，如图6所示，该装置包括：

确定模块60，用于确定目标信息在待处理音频信息中的定位信息，其中，定位信息至少包括目标信息在待处理音频信息中出现的时间。

查找模块62，用于根据定位信息查找到待处理音频信息中的目标音频，其中，目标音频为待处理音频信息中包括目标信息的音频片段。

处理模块64，用于对目标音频进行预定处理。

作为一种可选的实施例，确定模块包括：第一获取子模块，用于获取预设的关键词表；第二获取子模块，用于获取待处理音频信息对应的文本信息，其中，得到的文本信息与待处理音频信息的时间轴具有第一对应关系；第一确定子模块，用于从文本信息中识别关键词表中的词语，并确定命中关键词表中任意关键词的文本信息为目标信息；第三获取子模块，用于根据第一对应关系获取目标信息对应的音频片段的时间轴信息；第二确定子模块，用于确定时间轴信息为定位信息。

作为一种可选的实施例，确定模块包括：第四获取子模块，用于获取预设的第一特征信息；提取子模块，用于提取待处理音频信息中的第二特征信息，其中，第二特征信息与待处理音频信息的时间轴具有第二对应关系；第三确定模块，用于将第二特征信息与第一特征信息进行匹配，确定命中第一特征信息的第二特征信息为目标信息；第五获取子模块，用于根据第二对应关系获取目标信息对应的音频片段的时间轴信息；第四确定子模块，用于确定时间轴信息为定位信息。

作为一种可选的实施例，处理模块用于执行如下任意一个步骤：将目标音频清除；对目标音频进行消音处理；使用第一预设音频替换目标音频；在目标音频的基础上叠加第二预设音频。

作为一种可选的实施例，上述装置还包括：混淆模块，用于在对目标音频进行预定处理之后，对进行预定处理后的待处理音频信息的特征信息进行特征混淆；输出模块，用于输出特征混淆后的待处理音频信息。

作为一种可选的实施例，上述装置还包括：获取模块，用于在确定目标信息在待处理音频信息中的定位信息之前，获取音频信息，其中，音频信息包括语音信息；去噪模块，用于对音频信息进行去噪声处理，得到待处理音频信息。

实施例3

根据本发明实施例，提供了一种存储介质，存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行实施例1中任意一项所述的音频处理方法。

实施例4

根据本发明实施例，提供了一种处理器，处理器用于运行程序，其中，所述程序运行时执行实施例1中任意一项所述的音频处理方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，randomaccessmemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：唐大闰;徐浩;吴明辉
技术所有人：秒针信息技术有限公司
我是此专利的发明人

上一篇：一种日光灯管的垂吊式接驳头及垂吊式日光灯管的制作方法
上一篇：一种电力检修人员用头戴式照明灯的制作方法