用于获取节目信息的处理方法和系统的制作方法_3

文档序号：9220115阅读：来源：国知局

数量是2)。依此类推，通过比较2400维，可以得到最终的匹配值。
[0084]可以理解的是，上述描述了直接比较查询段和索引段的数据的方式，由于索引段在记录时可以采用倒排索引的方式记录，因此在记录匹配值时，还可以是从查询段内先找出数据是I的维度，之后再从识别模型中找到该维度对应的索引段，每个维度与查询段对应上，则相应的索引段的匹配值增加1，通过比较所有维度，得到每个索引段的最终匹配值。
[0085]在得到每个索引段的最终匹配值后，可以先从这些匹配值中找出最大的，再将该最大的匹配值与预设阈值比较，如果大于预设阈值，则识别结果就是该最大匹配值的索引段对应的电视台。
[0086]进一步的，由于录制时的音频数据与训练时对应的音频数据可能不同步，为了提高匹配成功率，则可以对查询段进行时移，对应每个原始的查询段，可以得到多个时移后的查询段，并且将每个时移后的查询段以及原始的查询段采用上述匹配方式与每个索引段进行匹配，从而得到识别结果。
[0087]为了方便描述，将2400维的数据简化为5维，假设识别模型中的一个索引段是01010，原始的查询段是10101，如果将原始的查询段与该索引段进行匹配，得到的结果是不匹配，而如果对原始的查询段进行时移，假设时移后的查询段是01010，则由于时移后的查询段与该索引段一致，匹配成功，则识别结果就是该索引段对应的电视台。
[0088]具体的，在时移时，对于一个200帧的查询段，可以对原始的查询段前后移动最多100帧，从而产生200个新的查询段，最终得到包括原始的查询段在内的201个查询段。
[0089]通过对查询段进行时移，而不是更改索引段，可以使得实现富有弹性，可扩展。
[0090]另一实施例中，在得到识别结果后，参见图3，该方法还可以包括:
[0091]S33:根据所述识别结果进行搜索，获取所述识别结果对应的节目信息。
[0092]例如，参见图2，解码器获取识别结果后，将识别结果发送给识别前端模块，识别前端模块可以依据搜索引擎的资源，根据识别结果获取相应的节目信息。例如，识别结果是CCTV-1，则可以获取CCTV-1的节目信息，节目信息包括但不限于节目单。
[0093]本实施例对应的产品可以嵌入到搜索引擎产品内，从而方便获取节目信息。
[0094]本实施例中，通过获取识别模型，并根据识别模型获取识别结果，可以实现系统根据音频数据主动得到识别结果，降低对用户的依赖，提高效率和准确度。另外，本实施例通过实时的数据传输以及处理，可以提高识别的速度和准确度。
[0095]图10是本发明另一实施例提出的用于获取节目信息的处理系统的结构示意图，该系统100包括解码器101，解码器101包括:
[0096]训练模块1011，用于获取识别模型，所述识别模型是对接收的特征数据进行训练后得到的，所述特征数据是根据音频数据得到的，所述音频数据是从源数据流中获取的；
[0097]本发明实施例中，以识别电视台为例，相应的，节目信息是指电视台的节目信息，节目信息例如节目单等。可以理解的是，本发明实施例的方法也可以应用到其他基于音频的识别领域，例如也可以用于识别仅存在音频数据的电台，进而获取电台的节目单等。
[0098]解码器可以位于服务端，解码器可以基于识别模型，识别要识别的音频数据来自的电视台。
[0099]一个实施例中，为了提高可靠性，解码器可以采用备份方式，相应的，多个解码器可以组成解码器集群。进一步的，可以在不同的地理区域上设置不同的解码器集群。例如，参见图2，对应北京地区设置一个解码器集群21，对应杭州地区设置另一个解码器集群22，每个解码器集群内包括多个解码器，多个是指至少两个。为了保证实时性，降低延时，同一个解码器集群内的多个解码器位于同一个子网下，例如位于同一个子网下的同一个物理机房内。
[0100]由于可以采用备份方式，因此，所述获取识别模型，包括:
[0101]从自身节点获取识别模型，所述识别模型是自身节点对接收的特征数据进行训练后得到的；或者，
[0102]从备份节点获取识别模块，所述识别模型是备份节点对接收的特征数据进行训练后得到的。
[0103]可以理解的是，备份节点可以是专门用于获取并存储识别模型的节点，该备份节点可以不用于识别，或者，备份节点可以与普通节点相同，可以用于获取识别模型以及用于识别。以一个解码器可以作为其他解码器的备份节点为例，当需要从备份节点获取识别模型时，不同解码器可以相互通信，获取其他解码器是否可用或者负载情况等，以确定用于提供识别模型的备份节点。
[0104]识别模型是解码器对接收的特征数据进行训练后得到的。
[0105]参见图11，当所述源数据流是电视信号对应的传输流时，所述系统100还包括:
[0106]音频数据提取模块102，用于接收电视台实时发送的电视信号对应的传输流，并从所述传输流中提取出音频数据；
[0107]特征数据提取模块103，用于对所述音频数据进行特征提取，获取所述特征数据。
[0108]参见图2，在每个电视台的机房内，可以设置音频数据提取模块和特征数据提取模块。
[0109]音频数据提取模块接收电视台实时发送的电视信号对应的传输流(TransportStream, TS)，并从所述传输流中提取出音频数据。音频数据例如为高级音频编码(AdvancedAud1 Coding，AAC或者ACC)数据。其中，TS中的视频数据和音频数据可以具有不同的标识信息，从而根据标识信息提取出音频数据。
[0110]电视台与音频数据提取模块之间可以采用用户数据报协议(User DatagramProtocol,UDP)进行通信。例如，电视台对外开放一个Μ)Ρ端口，电视台通过该UDP端口将TS实时输入到音频数据提取模块。
[0111]特征数据提取模块对所述音频数据进行特征提取，获取所述特征数据。
[0112]本实施例中，音频数据提取模块和特征数据提取模块可以位于同一个物理设备内。
[0113]由于音频数据的数据量较大，为了降低数据量可以对音频数据进行特征提取，得到数据量较小的特征数据。当然，可以理解的是，如果不考虑数据量等问题，用于识别模型训练的特征数据也可以是音频数据本身。
[0114]可选的，所述特征数据提取模块103具体用于:
[0115]对所述音频数据进行短时FFT，得到所述音频数据对应的频域数据；
[0116]根据预设的压缩算法，对所述频域数据进行转换，得到基础音色特征数据；
[0117]根据预设的统计算法，对所述基础音色特征数据进行转换，得到比特特征数据。
[0118]可以理解的是，在进行特征提取之前，可以将从TS中提取的ACC音频数据进行转换，转换为其他形式的音频数据，以方便处理。本实施例中，假设在提取出ACC音频数据后，先将ACC音频数据转换为脉冲编码调制(Pulse Code Modulat1n, PCM)音频数据。
[0119]例如，以每帧(通常是0.032秒)为单位，对ACC音频数据进行采样和量化后，得到一帧的PCM音频数据。PCM音频数据的采样率和量化位数是可设置的，例如，采样率是16KHz，量化位数是16b。在将ACC音频数据转换为PCM音频数据后，可以将PCM音频数据存储在队列中，等待特征提取。因此，进行特征提取的音频数据可以具体是指以每帧为单位的PCM音频数据。
[0120]在进行特征提取时，可以先对音频数据进行短时FFT，短时FFT是指在音频数据上乘以时间窗，将音频数据分为多个时间段的音频数据，并对每个时间段的音频数据进行FFT0其中，时间窗可以根据实际情况设置，使得每个时间段的音频数据是短时平稳信号。
[0121]经过频域转换，可以得到如图5所示的频域图，其中，横轴表示时间，纵轴表示频率。
[0122]电视信号中音频信号的种类繁多，包括语音、歌曲、各种配乐、声效等，这些音频信号都属于短时平稳信号，而且是按照既定的频率来呈现的，在不同的频率之间有着既定的关系。因此，在频谱图中，不同的音高(pitch)不是随机的，而是具有很大的相关性。这也说明频谱图中存在很多冗余信息，可以对频谱进行压缩，减少存贮空间。
[0123]本实施例中，预设的压缩算法是基于音符(midi note)的频率归一化算法，以实现对频谱的压缩。
[0124]在midi note 中，每个音阶(octave)有 12 个半音(semitone)，相邻的 octave的比值是2。把FFT频谱压缩到一个octave中，产生12维的chroma特征数据。例如:把A4 (440Hz)，A5 (880Hz)，A6 (1760Hz)，A7 (3520Hz)的对应的 FFT 频段谱加在一起产生一个midi note段的谱。这样的操作在一定程度上提高了抗噪声干扰能力，因为噪

完整全部详细技术资料下载

当前第3页1 2 3 4 5