基于原声检索技术的自动彩铃检测方法及系统的制作方法

文档序号：7819841阅读：251来源：国知局

基于原声检索技术的自动彩铃检测方法及系统的制作方法
【专利摘要】本发明公开了一种基于原声检索技术的自动彩铃检测方法，包括以下步骤：接收待审核的彩铃；对彩铃进行检测，得到与彩铃相关的信息；根据彩铃相关的信息判断彩铃是否来自相应运营商的版权音乐库；以及如果是，则判定彩铃通过审核，并将彩铃上传至服务器。本发明的方法能够自动、快速、准确地判别待检测彩铃的版权归属，该方法效率高、成本低。本发明还提供了一种基于原声检索技术的自动彩铃检测系统。
【专利说明】基于原声检索技术的自动彩铃检测方法及系统

【技术领域】
[0001]本发明涉及音频信号处理【技术领域】，特别涉及一种基于原声检索技术的自动彩铃检测方法及系统。

【背景技术】
[0002]彩铃业务是中国移动的一项用户普遍使用的业务，被叫客户开通这项业务后，主叫客户在拨打该用户手机等待接通的时候，听到的就不再是“嘟嘟”的回铃音，而是为主叫客户提供一段悦耳的音乐或一句问候语来替代普通回铃音。目前，中国联通，中国电信也有类似的业务。
[0003]而随着彩铃业务的发展，运营商的彩铃数量也呈现爆炸式增长，怎样保证新入库的彩铃不在库里面，怎样不让两个相似的彩铃成功注册，成为彩铃审核人员的一大难题。
[0004]针对于涉及彩铃音乐的版权问题，每个运营商都有自己的海量版权曲库，每个运营商的曲库也是各不相同的。彩铃审核人员很难在判别一首彩铃中的音乐是否有版权，且是否属于其应该所属的运营商。并且，人工审核的困难导致音乐版权也得不到有效保护。同时人工审核也受条件制约，不同的审核人员在不同的环境中，审核出的结论也不尽相同，随着业务量逐渐增加，彩铃企业也无法负担不断增长的审核业务人力成本。人工审核彩铃的流程如图1所示。

【发明内容】

[0005]本发明旨在至少在一定程度上解决上述相关技术中的技术问题之一。
[0006]为此,本发明的一个目的在于提出一种基于原声检索技术的自动彩铃检测方法，该方法能够自动、快速、准确地判别待检测彩铃的版权归属，且效率高、成本低。
[0007]本发明的另一个目的在于提供一种基于原声检索技术的自动彩铃检测系统。
[0008]为达到上述目的，本发明第一方面的实施例提出了一种基于原声检索技术的自动彩铃检测方法，包括以下步骤:接收待审核的彩铃；对所述彩铃进行检测，得到与所述彩铃相关的信息；根据与所述彩铃相关的信息判断所述彩铃是否来自相应运营商的版权音乐库；以及如果是，则判定所述彩铃通过审核，并将所述彩铃上传至服务器。
[0009]根据本发明实施例的基于原声检索技术的自动彩铃检测方法，对待审核的彩铃进行检测，得到彩铃的相关信息(如作者、名称、发行商信息)，然后将彩铃的相关信息与相应运营商的版权音乐库进行匹配，判断该彩铃是否来自相应运营商的版权音乐库，如果是，那么判定该彩铃审核通过，否则该彩铃审核不通过。因此，该方法能够自动、快速、准确地判别待检测彩铃的版权归属，且效率高、成本低。
[0010]另外，根据本发明上述实施例的基于原声检索技术的自动彩铃检测方法还可以具有如下附加的技术特征:
[0011]在本发明的一个实施例中，所述将所述彩铃上传至服务器之前，还包括:对所述彩铃进行频谱分析，确定所述彩铃的多个特征点；根据所述多个特征点在目标特征库进行投票；如果投票的命中数大于预设阈值，则判断所述彩铃已经存在或者所述彩铃存在异常语音，放弃将所述彩铃上传至所述服务器，否则将所述彩铃上传至所述服务器。
[0012]在本发明的一个实施例中，所述对所述彩铃进行检测之前，还包括:将所述彩铃转化为PCM数据。
[0013]在本发明的一个实施例中，与所述彩铃相关的信息至少包括名称、作者、版权信息和运营商信息。
[0014]本发明第二方面的实施例还提供了一种基于原声检索技术的自动彩铃检测系统，包括:接收端，用于接收待审核的彩铃；审核终端，用于对所述彩铃进行检测，得到与所述彩铃相关的信息，并根据与所述彩铃相关的信息判断所述彩铃是否来自相应运营商的版权音乐库，以及在判断所述彩铃来自相应运营商的版权音乐库时，判定所述彩铃通过审核；彩铃服务器，用于接收并存储通过审核的彩铃。
[0015]根据本发明实施例的基于原声检索技术的自动彩铃检测系统，对待审核的彩铃进行检测，得到与彩铃的相关信息(如作者、名称、发行商信息)，然后将彩铃的相关信息与相应运营商的版权音乐库进行匹配，判断该彩铃是否来自相应运营商的版权音乐库，如果是，那么判定该彩铃审核通过，否则该彩铃审核不通过。因此，该系统能够自动、快速、准确地判别待检测彩铃的版权归属，且效率高、成本低。
[0016]另外，根据本发明上述实施例的基于原声检索技术的自动彩铃检测系统还可以具有如下附加的技术特征:
[0017]在本发明的一个实施例中，所述审核终端用于对所述彩铃进行频谱分析，确定所述彩铃的多个特征点，并根据所述多个特征点在目标特征库进行投票，并在投票的命中数大于预设阈值时，判断所述彩铃已经存在或者所述彩铃存在异常语音，并放弃将所述彩铃上传至所述彩铃服务器，否则将所述彩铃上传至所述彩铃服务器。
[0018]在本发明的一个实施例中，所述审核终端还用于在对所述彩铃进行检测之前，将所述彩铃转化为PCM数据。
[0019]在本发明的一个实施例中，与所述彩铃相关的信息至少包括名称、作者、版权信息和运营商信息。
[0020]本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

【专利附图】

【附图说明】
[0021]本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中:
[0022]图1为目前传统的人工审核彩铃的流程示意图；
[0023]图2为根据本发明一个实施例的基于原声检索技术的自动彩铃检测方法的流程图；
[0024]图3为根据本发明另一个实施例基于原声检索技术的自动彩铃检测方法的流程示意图；
[0025]图4为根据本发明一个实施例的彩铃的音频特征点分布示意图；
[0026]图5为根据本发明一个实施例的原声检索的原理不意图；
[0027]图6为根据本发明另一个实施例原声检索的流程示意图；以及
[0028]图7为根据本发明一个实施例的基于原声检索技术的自动彩铃检测系统的结构框图。

【具体实施方式】
[0029]下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。
[0030]此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。
[0031]在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。
[0032]在本发明中，除非另有明确的规定和限定，第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触，也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且，第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正上方和斜上方，或仅仅表示第一特征水平高度小于第二特征。
[0033]下面参照附图描述根据本发明实施例的基于原声检索技术的自动彩铃检测方法及系统。
[0034]图2为根据本发明一个实施例的基于原声检索技术的自动彩铃检测方法的流程图。图3为根据本发明另一个实施例的基于原声检索技术的自动彩铃检测方法的流程示意图。结合图2和图3所示，该方法包括以下步骤:
[0035]步骤S201，接收待审核的彩铃。
[0036]步骤S202，对彩铃进行检测，得到与彩铃相关的信息。
[0037]在本发明的一个实施例中，在对彩铃进行检测之前，首先要将裁量转化为PCM(Pulse Code Modulat1n，脉冲编码调制)数据。也即，在接收到待审核的彩铃后，首先对彩铃进行音频预处理。由于所有的音频处理器都是基于PCM数据，因此要现将各种格式的彩铃音频转换成为8K16BIT的PCM数据以便于信号处理。
[0038]步骤S203，根据与彩铃相关的信息判断彩铃是否来自相应运营商的版权音乐库。其中，与彩铃相关的信息至少包括名称、作者、版权信息和运营商信息。
[0039]步骤S204，如果是，则判定彩铃通过审核，并将彩铃上传至服务器。
[0040]在本发明的一个实施例中，在该步骤S204之前，还包括以下步骤:
[0041]步骤1:对彩铃进行频谱分析，确定彩铃的多个特征点。
[0042]步骤2:根据多个特征点在目标特征库进行投票。
[0043]步骤3:如果投票的命中数大于预设阈值，则判断彩铃已经存在或者彩铃存在异常语音，放弃将彩铃上传至服务器，否则将彩铃上传至服务器。
[0044]换言之，在具体示例中，即对系统提示音的检测。系统提示音即通话过程中，固定的异常声音反馈，例如系统提示的:“您好！您拨打的电话已关机“等。因此，在本发明实施例的方法中采用音频特征点比对的方法，即原声检索技术。
[0045]具体而言，原声检索技术是基于音频频域特征的精确匹配技术。在本发明的实施例中，首先对彩铃的音频进行短时频谱分析，确定多个特征点。由于人对声音感知时，短时谱峰值频率点之间是相互影响，一个频率分量可能掩蔽与其相近的频率分量，即所谓的听觉掩蔽效应。因此，在选择峰值频率点时需要对特征点进行裁剪，使得选取的峰值点沿时间和频率轴分布比较均匀，具体分布如图4所示。
[0046]然后，对得到的特征点进行组合，例如通过下式实现:
[0047]L = It1If1, Δ f, At}，
[0048]其中，^和^为目标点的帧数与频带编号，At和Af为目标点与组合点在帧数和频带上的差值。进一步地，将L的前三项和后一项转换成键值对的形式，并制作一个倒排表，综上，即可建立目标特征库。
[0049]结合图5和图6所示，当检索的时候，提取音频特征点，然后在目标特征库上进行投票，便可形成一个投票直方图，然后依据最大投票命中数，得到一个预设阈值，如果目标音频的投票命中数超过预设阈值，则判断目标音频在目标特征库中存在，也即待审核彩铃已经存在于目标特征库中或者待审核彩铃存在语音异常，并放弃将该彩铃上传至服务器。
[0050]另一方面，如果目标音频的投票命中数不超过预设阈值，则判断待审核彩铃不存在于目标特征库中，则将该彩铃上传至服务器。
[0051]综上所述，通过上述一系列流程，该方法通过对彩铃的内容进行检测，得出彩铃音乐的作者、名称、发行商等信息；通过对彩铃的音乐内容进行检测，得出彩铃的版权归属公司、所属运营商、版权截止日期等信息。另外，在一些示例中，该方法还可对音乐彩铃的片段在全曲中进行匹配，得到片段起止时间；以及检测系统提示音，以检测出恶意的彩铃信息。并且，该方法的实现过程均为自动检测，无需人工干预，提高了审核效率，降低了成本。
[0052]根据本发明实施例的基于原声检索技术的自动彩铃检测方法，对待审核的彩铃进行检测，得到彩铃的相关信息(如作者、名称、发行商信息)，然后将彩铃的相关信息与相应运营商的版权音乐库进行匹配，判断该彩铃是否来自相应运营商的版权音乐库，如果是，那么判定该彩铃审核通过，否则该彩铃审核不通过。因此，该方法能够自动、快速、准确地判别待检测彩铃的版权归属以及匹配出系统提示音等非正常彩铃，且效率高、成本低。另外，该方法在实现时支持分布式部署，可扩展性好，便于企业级大数据量的彩铃的分析处理。
[0053]本发明的进一步实施例还提供了一种基于原声检索技术的自动彩铃检测系统。
[0054]图7为根据本发明一个实施例的基于原声检索技术的自动彩铃检测系统的结构框图。如图7所示，该系统700包括:接收端710、审核终端720和彩铃服务器730。
[0055]其中，接收端710用于接收待审核的彩铃。审核终端720用于对彩铃进行检测，得到与彩铃相关的信息，并根据与彩铃相关的信息判断彩铃是否来自相应运营商的版权音乐库，以及在判断彩铃来自相应运营商的版权音乐库时，判定彩铃通过审核。彩铃服务器730用于接收并存储通过审核的彩铃。其中，与彩铃相关的信息例如至少包括名称、作者、版权信息和运营商信息。
[0056]在本发明的一个实施例中，在审核终端720对彩铃进行检测之前，首先将彩铃转化为PCM数据。也即，在接收到待审核的彩铃后，首先对彩铃进行音频预处理。由于所有的音频处理器都是基于PCM数据，因此要现将各种格式的彩铃音频转换成为8K16BIT的PCM数据以便于信号处理。
[0057]在本发明的另一个实施例中，审核终端720用于对彩铃进行频谱分析，确定彩铃的多个特征点，并根据多个特征点在目标特征库进行投票，并在投票的命中数大于预设阈值时，判断彩铃已经存在或者彩铃存在异常语音，并放弃将彩铃上传至彩铃服务器730，否则将彩铃上传至彩铃服务器730。
[0058]换言之，在具体示例中，即对系统提示音的检测。系统提示音即通话过程中，固定的异常声音反馈，例如系统提示的:“您好！您拨打的电话已关机“等。因此，在本发明实施例中采用音频特征点比对的方法，即原声检索技术。
[0059]具体而言，原声检索技术是基于音频频域特征的精确匹配技术。在本发明的实施例中，首先对彩铃的音频进行短时频谱分析，确定多个特征点。由于人对声音感知时，短时谱峰值频率点之间是相互影响，一个频率分量可能掩蔽与其相近的频率分量，即所谓的听觉掩蔽效应。因此，在选择峰值频率点时需要对特征点进行裁剪，使得选取的峰值点沿时间和频率轴分布比较均匀，具体分布如图4所示。
[0060]然后，对得到的特征点进行组合，例如通过下式实现:
[0061]L= It1If1, Δ f, At}，
[0062]其中，&和4为目标点的帧数与频带编号，At和Af为目标点与组合点在帧数和频带上的差值。进一步地，将L的前三项和后一项转换成键值对的形式，并制作一个倒排表，综上，即可建立目标特征库。
[0063]结合图5和图6所示，当检索的时候，提取音频特征点，然后在目标特征库上进行投票，便可形成一个投票直方图，然后依据最大投票命中数，得到一个预设阈值，如果目标音频的投票命中数超过预设阈值，则判断目标音频在目标特征库中存在，也即待审核彩铃已经存在于目标特征库中或者待审核彩铃存在语音异常，并放弃将该彩铃上传彩铃至服务器 730。
[0064]另一方面，如果目标音频的投票命中数不超过预设阈值，则判断待审核彩铃不存在于目标特征库中，则将该彩铃上传至彩铃服务器730。
[0065]综上所述，通过上述一系列流程，该系统对彩铃的内容进行检测，得出彩铃音乐的作者、名称、发行商等信息；通过对彩铃的音乐内容进行检测，得出彩铃的版权归属公司、所属运营商、版权截止日期等信息。另外，在一些示例中，该系统还可对音乐彩铃的片段在全曲中进行匹配，得到片段起止时间；以及检测系统提示音，以检测出恶意的彩铃信息。并且，系统的实现过程均为自动检测，无需人工干预，提高了审核效率，降低了成本。
[0066]根据本发明实施例的基于原声检索技术的自动彩铃检测系统，对待审核的彩铃进行检测，得到彩铃的相关信息(如作者、名称、发行商信息)，然后将彩铃的相关信息与相应运营商的版权音乐库进行匹配，判断该彩铃是否来自相应运营商的版权音乐库，如果是，那么判定该彩铃审核通过，否则该彩铃审核不通过。因此，该系统能够自动、快速、准确地判别待检测彩铃的版权归属以及匹配出系统提示音等非正常彩铃，且效率高、成本低。另外，该系统支持分布式部署，可扩展性好，便于企业级大数据量的彩铃的分析处理。
[0067]流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属【技术领域】的技术人员所理解。
[0068]在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(R0M)，可擦除可编辑只读存储器(EPR0M或闪速存储器)，光纤装置，以及便携式光盘只读存储器(⑶ROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。
[0069]应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。
[0070]本【技术领域】的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。
[0071 ] 此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。
[0072]上述提到的存储介质可以是只读存储器，磁盘或光盘等。
[0073]在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0074]尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
【权利要求】
1.一种基于原声检索技术的自动彩铃检测方法，其特征在于，包括以下步骤: 接收待审核的彩铃；对所述彩铃进行检测，得到与所述彩铃相关的信息；根据与所述彩铃相关的信息判断所述彩铃是否来自相应运营商的版权音乐库；以及如果是，则判定所述彩铃通过审核，并将所述彩铃上传至服务器。
2.根据权利要求1所述的基于原声检索技术的自动彩铃检测方法，其特征在于，所述将所述彩铃上传至服务器之前，还包括: 对所述彩铃进行频谱分析，确定所述彩铃的多个特征点；根据所述多个特征点在目标特征库进行投票；如果投票的命中数大于预设阈值，则判断所述彩铃已经存在或者所述彩铃存在异常语音，放弃将所述彩铃上传至所述服务器，否则将所述彩铃上传至所述服务器。
3.根据权利要求1所述的基于原声检索技术的自动彩铃检测方法，其特征在于，所述对所述彩铃进行检测之前，还包括:将所述彩铃转化为PCM数据。
4.根据权利要求1-3任一项所述的基于原声检索技术的自动彩铃检测方法，其特征在于，与所述彩铃相关的信息至少包括名称、作者、版权信息和运营商信息。
5.一种基于原声检索技术的自动彩铃检测系统，其特征在于，包括: 接收端，用于接收待审核的彩铃；审核终端，用于对所述彩铃进行检测，得到与所述彩铃相关的信息，并根据与所述彩铃相关的信息判断所述彩铃是否来自相应运营商的版权音乐库，以及在判断所述彩铃来自相应运营商的版权音乐库时，判定所述彩铃通过审核；彩铃服务器，用于接收并存储通过审核的彩铃。
6.根据权利要求5所述的基于原声检索技术的自动彩铃检测系统，其特征在于，所述审核终端用于对所述彩铃进行频谱分析，确定所述彩铃的多个特征点，并根据所述多个特征点在目标特征库进行投票，并在投票的命中数大于预设阈值时，判断所述彩铃已经存在或者所述彩铃存在异常语音，并放弃将所述彩铃上传至所述彩铃服务器，否则将所述彩铃上传至所述彩铃服务器。
7.根据权利要求5所述的基于原声检索技术的自动彩铃检测系统，其特征在于，所述审核终端还用于在对所述彩铃进行检测之前，将所述彩铃转化为PCM数据。
8.根据权利要求5-7任一项所述的基于原声检索技术的自动彩铃检测系统，其特征在于，与所述彩铃相关的信息至少包括名称、作者、版权信息和运营商信息。
【文档编号】H04M3/42GK104320549SQ201410653285
【公开日】2015年1月28日申请日期:2014年11月17日优先权日:2014年11月17日
【发明者】王瑞申请人:科大讯飞股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王瑞
技术所有人：科大讯飞股份有限公司
我是此专利的发明人

上一篇：一种继电保护通道监测录波装置制造方法
上一篇：一种capwap数据的处理方法和装置制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。