多媒体处理方法及多媒体系统的制作方法

文档序号：6504363阅读：364来源：国知局

多媒体处理方法及多媒体系统的制作方法
【专利摘要】本发明涉及一种多媒体处理方法及多媒体系统，该方法应用于电子设备或多媒体系统，该电子设备或多媒体系统包括语音识别单元和多媒体匹配单元和多媒体输出单元，该方法包括：语音输入单元接收用户输入的语音信号；语音识别单元对用户输入的语音信号进行识别，得到语音识别结果；多媒体匹配单元根据语音识别结果匹配对应的多媒体信息；多媒体输出单元输出匹配的多媒体信息。本发明多媒体处理方法及多媒体系统可根据输入的语音输出个性化的多媒体内容。
【专利说明】多媒体处理方法及多媒体系统

【技术领域】
[0001]本发明涉及多媒体领域，尤其涉及一种多媒体处理方法及多媒体系统。

【背景技术】
[0002]近年来，多媒体和娱乐内容的可用性和供应量已经大幅地提高。例如，可用的电视和电台频道的数目大幅增长，并且因特网的普及也提供了新的多媒体内容分发手段。因此，用户面临着不同的来源的越来越多的多媒体内容，为了识别和选择所期望的内容，用户一般必须处理大量的信息，这会非常麻烦且不切实际。
[0003]现有的技术方案中，往往通过手动控制遥控器或手动控制按键板来控制对电视机的操作，从而选择自己期望收看的多媒体内容，但因现有电视节目是直接推动到用户界面，有时候，用户花费很长的时间操作按键、浏览节目都没有找到期望的内容，降低了用户的使用体验。
[0004]另外，随着消费电子市场技术日益更新，电视功能越来越强大，智能化和人性化程度越来越高。人们对于人机交互的要求也越来越高，如果通过良好的人机交互提供个性化的多媒体内容是个有待研究和解决技术问题。

【发明内容】

[0005]本发明所要解决的技术问题是提供一种多媒体处理方法及系统，以解决现有多媒体系统输出的多媒体内容不具备个性化的缺陷。
[0006]为了解决上述技术问题，本发明提供了一种多媒体处理方法，该方法应用于电子设备或多媒体系统，该电子设备或多媒体系统包括语音识别单元和多媒体匹配单元和多媒体输出单元，该方法包括:
[0007]语音输入单元接收用户输入的语音信号；
[0008]语音识别单元对用户输入的语音信号进行识别，得到语音识别结果；
[0009]多媒体匹配单元根据语音识别结果匹配对应的多媒体信息；
[0010]多媒体输出单元输出匹配的多媒体信息。
[0011]为解决以上技术问题，本发明还提供了一种多媒体系统，所述多媒体系统包括:
[0012]语音输入单元，用于接收用户输入的语音信号；
[0013]语音识别单元，用于对用户输入的语音信号进行识别，得到语音识别结果；
[0014]多媒体匹配单元，用于根据语音识别结果匹配对应的多媒体信息；
[0015]多媒体输出单元，用于输出匹配的多媒体信息。
[0016]与现有技术相比，本申请多媒体信息处理方法及多媒体系统，基于语音识别结果向用户推送个性化的多媒体节目，向用户有针对性地提供节目，可方便地实现节目分级管理，尤其是可以达成不向儿童推送限制级的成人节目，可以提升产品竞争力。
[0017]本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

【专利附图】

【附图说明】
[0018]图1是本发明多媒体处理方法实施例1的示意图；
[0019]图2是本发明多媒体处理方法实施例2的示意图；
[0020]图3是本发明多媒体系统实施例1的模块结构示意图；
[0021]图4是本发明多媒体系统实施例2的模块结构示意图；
[0022]图5是本发明多媒体系统实施例3的模块结构示意图。
[0023]附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

【具体实施方式】
[0024]为使本发明的目的、技术方案和优点更加清楚明白，下面结合附图和具体实施例对本发明所述技术方案作进一步的详细描述，以使本领域的技术人员可以更好的理解本发明并能予以实施，但所举实施例不作为对本发明的限定。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。
[0025]实施例1
[0026]本发明多媒体处理方法实施例1，应用于多媒体系统，该多媒体系统包括用户端设备和与用户端设备连接的服务器端设备，其中，所述用户端设备包括用于实现语音信号输入的语音输入单元和用于实现多媒体输出的多媒体输出单元，而用于实现语音识别的语音识别单元和用于实现多媒体匹配的多媒体匹配单元，根据具体设置，可以在用户端设备实现也可以在服务器端设备实现，比如所述语音识别单元和多媒体匹配单元在服务器端设备实现；或，所述语音识别设备在用户端设备实现，所述多媒体匹配单元在服务器端设备实现。
[0027]可理解地，无论上述各单元在具体的设备中如何配置，相互之间必然存在连接关系，以达成信号或数据的传送。
[0028]其具有如图1所示，该方法实施例1包括:
[0029]步骤101:语音输入单元接收用户输入的非特定内容语音；
[0030]所述语音输入单元通过与其连接的语音输入设备比如话筒输入，该话筒可以是独立的话筒或嵌入电子设备(比如手机、电脑等)的话筒，其连接方式可以是无线方式(比如蓝牙、wifi)或有线方式。
[0031]本实施例1中，用户通过用户输入的语音信号不限定特定内容，本实施例1中对语音内容并不关心，用户可以随意进行语音输入。
[0032]步骤102:语音识别单元基于预设的语音识别算法对用户输入的语音信号进行识另IJ，得到语音识别结果；
[0033]本实施例中，语音识别单元主要对语音的声音特征进行识别，可基于预设的现有语音识别算法对语音的声音特征进行识别，识别结果包括但不限于以下语音特征:性别、口音、年龄、或情感(高兴、生气、悲哀)。
[0034]以上语音特征的识别具有比较完善的现有技术，比如性别识别:
[0035]基音频率是性别识别最重要的判别依据。他反映了说话人发浊音时的声带振动频率。一般而言，男声的基音频率分布范围为O?200Hz，女声的基音频率分布范围为200?500Hz。因此，准确而可靠地估计基音周期对于说话人性别识别非常重要。判断说话人的性别可以采用类似说话人识别的方法，常用的性别识别方法有VQ算法、HMM算法、支持向量机方法等。
[0036]步骤103:多媒体匹配单元根据语音识别结果匹配对应的多媒体信息；
[0037]多媒体匹配单元可根据具体配置的不同在用户端设备或服务器端设备实现，比如在音视频节目提供商的服务器端实现，由该服务器端完成多媒体信息的匹配。
[0038]具体地，多媒体匹配单元基于预置的语音特征与多媒体信息的对应关系或匹配策略进行匹配。
[0039]预置的语音特征与多媒体信息的对应关系或策略可以是音视频节目提供商基于大量调查问卷或经验生成的各种类型的用户的喜好信息，比如与儿童对应的多媒体节目是儿歌类、儿童剧、少儿综艺和动画片等；与老人对应的多媒体节目是养生节目、旅游节目、家庭伦理剧等；与某一地方口音对应的多媒体节目是该地方台的节目或具有该地方特色的节目；与情感表现生气的青年男女对应的多媒体节目是现代偶像喜剧等。
[0040]所述多媒体信息是音频节目信息、音视频节目信息、多媒体节目类别列表信息或多媒体节目列表信息。
[0041]音频节目信息和音视频节目信息都是具体的某个节目，其中音频节目指以声音为传播方式的节目，比如电台广播的节目，例如《新闻夜班车》。
[0042]音视频节目信息指同时包括声音和图像的节目，一般由电视台录制或影视公司录制，包括电视剧、广告、电影、综艺节目等，具体的比如《媳妇的美好宣言》。
[0043]多媒体节目类别列表信息和多媒体节目列表信息是以列表的方式给出多个可供选择的项，其中多媒体节目类别列表可包括如下内容:新闻类、法律类、情感剧、偶像剧、综艺类，等，而多媒体节目列表可包括如下内容，比如:《新闻联播》、《焦点访谈》、《我爱发明》、《非常6+1》等。
[0044]步骤104:多媒体输出单元输出匹配的多媒体信息。
[0045]该实施例中，多媒体输出单元具体可通过用户的电子设备的显示屏和/或扬声器输出。
[0046]比如用户端设备是电视机，语音识别结果表明语音输入者是10岁以下儿童，则输出(即直接播放)匹配的适合儿童观看或收听的儿童节目，比如动画片《大闹天宫》，这样即可有效地防止儿童观看或收听到成人类节目，避免这些不合适的节目对儿童的成长带来不良影响。
[0047]又比如，语音识别结果表明语音输入者是50岁以上的老人，则输出匹配的适合老年人观看或收听的养生节目。
[0048]或语音识别结果表明语音输入者为男性、年龄20-30、情感表现为生气，则输出恐怖片或枪战片或警匪片的节目列表。
[0049]综上，该实施例1中，多媒体系统可根据语音识别结果主动向用户推送个性化的节目或列表，提高了用户的使用体验，也增加了良好的互动性。
[0050]实施例2
[0051]本发明多媒体处理方法实施例2，应用于电子设备，该电子设备包括语音输入单元、语音识别单元、多媒体匹配单元和多媒体输出单元，可认为是多媒体系统中各单元均设置在用户端设备的特例，如图1所示，该方法包括:
[0052]步骤201:语音输入单元接收用户输入的特定内容语音；
[0053]所述语音输入单元通过与其连接的语音输入设备比如话筒输入，该话筒可以是独立的话筒或嵌入电子设备(比如手机、电脑、遥控器等)的话筒，其连接方式可以是无线方式(比如蓝牙、wifi)或有线方式。
[0054]本实施例1中，用户通过用户输入的语音信号具有特定内容，实施例1中对语音内容并不关心，用户可以随意进行语音输入，本实施例2中，可根据用户设定或系统设置输入特定范围的语音，该语音内容可以是开机指令或节目搜索关键词，比如“警匪”或“新闻”。
[0055]步骤202:语音识别单元基于预设的训练样本对用户输入的语音信号进行识别，得到语音识别结果；
[0056]本实施例中，语音识别单元主要对语音的声音特征进行识别，可基于预设的训练样本进行匹配识别，具体的训练样本可以是用于识别特定人的训练样本，可以是用于识别性别、口音、年龄、情感(高兴、生气、悲哀)中的至少一种的非特定的训练样本。
[0057]比如，电子设备的某几个用户通过前期的语音训练得到各自的训练样本，当用户需要观看或收听节目时，输入语音后，根据提前得到的训练样本可以很快识别该特定用户。
[0058]综上，该实施例2中，语音识别结果包括以下至少一个语音特征:性别、口音、年龄、情感(高兴、生气、悲哀)或特定人信息。
[0059]步骤203:多媒体匹配单元根据语音识别结果匹配对应的多媒体信息；
[0060]具体地，多媒体匹配单元基于预置的语音特征与多媒体信息的对应关系或匹配策略进行匹配。
[0061]语音特征与多媒体信息的对应关系是用户根据个人喜好预先设置的，当语音识别为某特定用户时，匹配该用户预先根据个人喜好设定的节目。
[0062]如上所述，所述多媒体信息可以是音频节目信息、音视频节目信息、多媒体节目类别列表信息或多媒体节目列表信息。
[0063]另外，可通过设定语音特征的优先级来匹配特定的节目，比如语音识别结果表明语音输入者为儿童，但其输入的语音内容为爱情，若匹配策略设定年龄特征的优先级高于语音内容的优先级，则根据年龄特征匹配相应的多媒体节目，可避免儿童收看到不适合的多媒体节目。
[0064]步骤204:多媒体输出单元输出匹配的多媒体信息。
[0065]该实施例中，多媒体输出单元具体可通过用户的电子设备的显示屏和/或扬声器输出。
[0066]比如用户端设备是电视机，语音识别结果表明语音输入者是10岁以下儿童，则输出匹配的适合儿童观看或收听的儿童节目，比如动画片《大闹天宫》，这样即可有效地防止儿童观看或收听到成人类节目，避免这些不合适的节目对儿童的成长带来不良影响。
[0067]又比如，语音识别结果表明语音输入者是50岁以上的老人，则输出匹配的适合老年人观看或收听的养生节目。
[0068]或语音识别结果表明语音输入者为男性、年龄20-30、情感表现为生气，则输出恐怖片或枪战片或警匪片的节目列表。
[0069]综上，该实施例2中，电子设备可根据语音识别结果主动向用户推送个性化的节目或列表，提高了用户的使用体验，也增加了良好的互动性。
[0070]在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
[0071]为了实现上述方法，本发明还提供了一种多媒体系统，如图3所示，所述多媒体系统包括:
[0072]语音输入单元，用于接收用户输入的语音信号；
[0073]所述语音输入单元通过与其连接的语音输入设备输入语音。
[0074]语音识别单元，用于对用户输入的语音信号进行识别，得到语音识别结果；
[0075]所述语音识别单元基于预定算法或训练样本识别语音。
[0076]所述语音识别结果包括以下至少一个语音特征:特定人信息、性别、口音、年龄、情感、语音内容。
[0077]多媒体匹配单元，用于根据语音识别结果匹配对应的多媒体信息；
[0078]所述多媒体匹配单元根据预置的语音特征与多媒体信息的对应关系进行匹配或根据预置的匹配策略进行匹配。
[0079]所述多媒体信息包括音频节目信息、音视频节目信息、多媒体节目类别列表信息或多媒体节目列表信息。
[0080]多媒体输出单元，用于输出匹配的多媒体信息。
[0081]对应于方法实施例1，如图4所示，所述语音输入单元和多媒体输出单元在用户端设备实现，所述语音识别单元和多媒体匹配单元在服务器端设备实现；或，如托5所示，所述语音输入设备、语音识别设备和多媒体输出设备在用户端设备实现，所述多媒体匹配单元在服务器端设备实现。
[0082]对应于方法实施例2，所述语音输入单元、语音识别单元、多媒体输出单元和多媒体匹配单元均在用户端设备实现，相当于电子设备，比如电脑、电视、PDA等。
[0083]本申请多媒体信息处理方法及多媒体系统(电子设备)，基于语音识别结果向用户推送个性化的多媒体节目，向用户有针对性地提供节目，可方便地实现节目分级管理，尤其是可以达成不向儿童推送限制级的成人节目，可以提升产品竞争力。
[0084]本领域的技术人员应该明白，上述的本申请实施例所提供的装置和/或系统的各组成部分，以及方法中的全部或部分步骤可通过程序来指令相关硬件完成，所述程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上。可选地，它们可以用计算装置可执行的程序代码来实现。从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。
[0085]本发明实施例中所描述的各种单元、模块仅是根据其功能进行划分的一种示例，可理解地，在系统/装置/设备实现相同功能的情况下，本领域技术人员可给出一种或多种其他功能划分方式，在具体应用时可将其中任意一个或多个功能模块采用一个功能实体装置或单元实现，不可否认地，以上变换方式均在本申请保护范围之内。
[0086]虽然本发明所揭露的实施方式如上，但所述的内容仅为便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式及细节上进行任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。
【权利要求】
1.一种多媒体处理方法，其特征在于，该方法应用于电子设备或多媒体系统，该电子设备或多媒体系统包括语音识别单元和多媒体匹配单元和多媒体输出单元，该方法包括: 语音输入单元接收用户输入的语音信号；语音识别单元对用户输入的语音信号进行识别，得到语音识别结果；多媒体匹配单元根据语音识别结果匹配对应的多媒体信息；多媒体输出单元输出匹配的多媒体信息。
2.如权利要求1所述的多媒体处理方法，其特征在于:所述语音输入单元通过与其连接的语音输入设备输入语音。
3.如权利要求1所述的多媒体处理方法，其特征在于:所述语音识别单元基于预定算法或训练样本识别语音。
4.如权利要求1所述的多媒体处理方法，其特征在于:所述语音识别结果包括以下至少一个语音特征:特定人信息、性别、口音、年龄、情感、语音内容。
5.如权利要求1所述的多媒体处理方法，其特征在于:所述多媒体匹配单元根据预置的语音特征与多媒体信息的对应关系或根据预置的匹配策略进行匹配。
6.如权利要求1所述的多媒体处理方法，其特征在于:所述多媒体信息包括音频节目信息、音视频节目信息、多媒体节目类别列表信息或多媒体节目列表信息。
7.一种多媒体系统，其特征在于，所述多媒体系统包括: 语音输入单元，用于接收用户输入的语音信号；语音识别单元，用于对用户输入的语音信号进行识别，得到语音识别结果；多媒体匹配单元，用于根据语音识别结果匹配对应的多媒体信息；多媒体输出单兀，用于输出匹配的多媒体信息。
8.如权利要求7所述的多媒体系统，其特征在于:所述语音输入单元通过与其连接的语音输入设备输入语音。
9.如权利要求7所述的多媒体系统，其特征在于:所述语音识别单元基于预定算法或训练样本识别语音。
10.如权利要求7所述的多媒体系统，其特征在于:所述语音识别结果包括以下至少一个语音特征:特定人信息、性别、口音、年龄、情感、语音内容。
11.如权利要求7所述的多媒体系统，其特征在于:所述多媒体匹配单元根据预置的语音特征与多媒体信息的对应关系进行匹配或根据预置的匹配策略进行匹配。
12.如权利要求7所述的多媒体系统，其特征在于:所述多媒体信息包括音频节目信息、音视频节目信息、多媒体节目类别列表信息或多媒体节目列表信息。
13.如权利要求7所述的多媒体系统，其特征在于:所述语音输入单元和多媒体输出单元在用户端设备实现，所述语音识别单元和多媒体匹配单元在服务器端设备实现。
14.如权利要求7所述的多媒体系统，其特征在于:所述语音输入单元语音识别单元、多媒体输出单元和多媒体匹配单元均在用户端设备实现。
【文档编号】G06F17/30GK104239328SQ201310241299
【公开日】2014年12月24日申请日期:2013年6月18日优先权日:2013年6月18日
【发明者】陈琳, 王雷, 肖夏申请人:联想(北京)有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈琳;王雷;肖夏
技术所有人：联想（北京）有限公司
我是此专利的发明人

上一篇：基于服务器完成对应层次关联信息发送的方法
上一篇：存储数据记录式一卡通的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。