人脸仿真发音系统及其方法

文档序号：6583455阅读：186来源：国知局

专利名称：人脸仿真发音系统及其方法
技术领域：
本发明涉及一种人脸仿真系统及其方法，尤其是一种将示范嘴型图片结合于人像
图片进行语言学习发音示范的人脸仿真发音的系统及其方法。
背景技术：
随着信息科技的发展，信息的传播已逐渐的从单一区域扩展到可在短时间内传播到世界上的每一个角落，而讲求国际化的今天，一般人需要接触到外语的机会也大大的增加，为了顺应国际化趋势，外语能力成为现代人不可或缺的必备工具。由于数字学习的运用越来越广泛，加上计算机使用的普及率也越来越高，所以数字学习越来越受到瞩目，市面上有许多的语言学习软件提供单词发音的听力功能，使用者在学习单词时，可以学习单词的解释、翻译、例句，并借助语言学习软件发音的功能，来学习单词是如何正确发音，但是单词的发音学习除了听之外，嘴型也会影响发音的正确性，因此有厂商开发出具有发音嘴型示范功能的语言学习软件，使用者在学习单词如何发音时，配合听力与嘴型示范，才能有效学习发音，不过大多数的嘴型示范功能都是语言学习软件预设的嘴型示范图片，使用者不能选择自己喜爱的人物或以使用者个人人像来进行发音嘴型示范，只能观看预设的发音嘴型示范，造成使用者无法以个人化人像来进行发音嘴型示范的问题。综上所述，可知先前技术中长期以来一直存在语言学习时使用者无法以个人化人像来进行发音嘴型示范的问题，因此有必要提出改进的技术手段，来解决此问题。

发明内容
本发明为解决背景技术中存在的上述技术问题，而提出一种人脸仿真发音系统及其方法。
本发明的技术解决方案是本发明为一种人脸仿真发音系统，其特殊之处在于该系统包含接收模块，用来接收发音指令；加载模块，用来根据发音指令加载示范嘴型图片及预设人像图片；影像辨识模块，用来将预设人像图片进行影像辨识得到嘴部位置与嘴部轮廓参数；影像调整模块，用来将示范嘴型图片进行调整符合嘴部轮廓参数；影像结合模块，用来将示范嘴型图片根据嘴部位置与预设人像图片进行影像结合，得到目标人像图片；背景去除模块，用来将目标人像图片进行背景去除得到人像图片；执行显示模块，用来执行发音指令进行发音并显示人像图片，接收模块与加载模块连接，加载模块与影像辨识模块连接，影像辨识模块与影像调整模块连接，影像调整模块与影像结合模块连接，影像结合模块与背景去除模块连接，背景去除模块与执行显示模块连接。
上述预设人像图片由系统预先设定或由使用者自行设定。
上述影像辨识模块将预设人像图片进行影像辨识包含得到嘴部色彩像素值。
上述影像调整模块包含调整示范嘴型图片的像素值符合嘴部色彩像素值。
本发明还提供一种人脸仿真发音方法，其特殊之处在于，该方法包含以下步骤
l)接收发音指令； 2)根据发音指令加载示范嘴型图片及预设人像图片； 3)将预设人像图片进行影像辨识得到嘴部位置与嘴部轮廓参数； 4)将示范嘴型图片进行调整符合嘴部轮廓参数，再将示范嘴型图片根据嘴部位置
与预设人像图片进行影像结合，得到目标人像图片； 5)将目标人像图片进行背景去除得到人像图片； 6)执行发音指令进行发音并显示人像图片。上述预设人像图片由系统预先设定或由使用者自行设定。上述步骤3)中还包括将预设人像图片进行影像辨识得到嘴部色彩像素值。上述步骤4)中还包括调整示范嘴型图片的像素值符合嘴部色彩像素值。本发明与先前技术之间的差异在于具有将示范嘴型图片调整大小后置入预设人
像图片的嘴部位置进行影像结合，再利用背景去除得到人像图片，最后显示人像图片进行
发音嘴型示范的技术手段，通过此技术手段可以解决先前技术所存在语言学习时使用者无
法以个人化人像来进行发音嘴型示范的问题，进而达成在语言学习时提供使用者进行个人
化人像发音嘴型示范提高使用者学习乐趣的技术功效。

图1为本发明系统方块图；
图2为本发明方法流程图；
图3-图8为本发明实施例示意图。其中，100-人脸仿真发音系统，110-接收模块，120-加载模块，130-影像辨识模块，140-影像调整模块，150-影像结合模块，160-背景去除模块，170-执行显示模块， 300-语言学习接口， 310-发音组件，320-人像发音嘴型示范显示区，400-人脸仿真处理接口， 410-示范嘴型图片，420-预设人像图片，430-嘴部位置，440-目标人像图片，450-人像图片；
具体实施例方式
参见图l，人脸仿真发音系统100包含接收模块110、加载模块120、影像辨识模块130、影像调整模块140、影像结合模块150、背景去除模块160及执行显示模块170。人脸仿真发音系统100适用于语言学习需要使用人像仿真语言学习时嘴型示范发音的学习软件。接收模块110负责接收发音指令，也就是当使用者使用学习软件进行例如是英文单字的发音学习时，使用者点选或触发学习软件所提供的发音组件，接收模块110会接收到发音指令。加载模块120负责根据发音指令加载示范嘴型图片及预设人像图片，也就是当接收模块110接收到发音指令后，根据发音指令搜寻到发音所对应的示范嘴型图片，并加载示范嘴型图片及预设人像图片，值得注意的是，所述预设人像图片是由系统预先设定或由使用者自行设定，并且预设人像图片中的人像最好是脸部清晰的照片，可由使用者自行设定的目的是可以让使用者设定喜爱的人像图片或个人的人像图片，增加使用者学习发音时观看嘴型示范发音的学习乐趣。影像辨识模块130负责将预设人像图片进行影像辨识得到嘴部位置与嘴部轮廓参数，也就是当加载模块120加载预设人像图片后，影像辨识模块130可运用影像辨识技术利用辨识嘴唇轮廓等方式辨识出预设人像图片中的嘴巴，并可得到嘴巴在预设人像图片中的位置即为嘴部位置，且可由对影像辨识结果的计算，而得到嘴巴的长度、宽度、弯曲度、… 等参数即为嘴部轮廓参数例如是"O. 7公分、0. 2公分"，代表嘴巴长度为0. 7公分、嘴巴宽度为0.2公分。影像调整模块140负责将示范嘴型图片依照嘴部轮廓参数进行调整，也就是当影像辨识模块130得到嘴部轮廓参数后，影像调整模块140根据嘴部轮廓参数将示范嘴型图片的大小调整为与嘴部轮廓参数相符，换句话说，就是将示范嘴型图片的大小调整与预设人像图片中的嘴巴一样大，上述例子，若嘴部轮廓参数为"O. 7公分、0. 2公分"，示范嘴型图片的长度为"l公分"、宽度为"0. 5公分"，影像调整模块140会将示范嘴型图片的长度"1公分"调整为"O. 7公分"，宽度"O. 5公分"调整为"O. 2公分"，也就是将示范嘴型图片縮小到与预设人像图片中的嘴巴长度一样。影像结合模块150负责将示范嘴型图片根据嘴部位置与预设人像图片进行影像结合，得到目标人像图片，也就是当影像调整模块140得到调整的示范嘴型图片后，影像结合模块150根据嘴部位置将示范嘴型图片置入预设人像图片中，示范嘴型图片便会覆盖住预设人像图片中嘴巴的部份，再将示范嘴型图片与预设人像图片进行影像结合，即得到目标人像图片，所述目标人像图片是指将预设人像图片中嘴巴以示范嘴型图片覆盖取代。影像结合模块150目的在于让预设人像图片可以发音的示范嘴型图片结合后呈现出如同预设人像图片进行发音嘴型示范，因此影像调整模块140必须将示范嘴型图片调整与预设人像图片中的嘴巴大小一样，才能呈现比例相符的目标人像图片。背景去除模块160负责将目标人像图片进行背景去除得到人像图片，背景去除模块160将目标人像图片利用影像辨识技术运用颜色色差可辨识出人像轮廓，将人像与背景区分出来，区分出背景后背景去除模块160可以将背景以透明化方式去除，将目标人像图片背景去除后留下人像可得到人像图片。背景去除模块160目的在于将目标人像图片中多余背景的部份以透明化背景去除的方式去除，最后只留下进行发音嘴型示范的人像的人像图片，将目标人像图片背景去除的目的在于能将人像图片融合在学习软件的接口中，例如是发音单字的旁边，产生更生动的发音学习过程。执行显示模块170负责执行发音指令进行发音并显示人像图片，也就是当背景去除模块160得到人像图片后，执行显示模块170会将人像图片显示，同时执行发音指令进行发音，举例来说，若发音指令为执行单字"go"的发音，则执行显示模块170在发出"go"的发音时，同时会显示人像图片以"go"进行发音嘴型示范。值得注意的是，影像辨识模块130可以将预设人像图片进行影像辨识得到嘴部色彩像素值，也就是当加载模块120加载预设人像图片后，影像辨识模块130可运用影像辨识技术辨识出预设人像图片中嘴巴的RGB像素值，得到嘴部色彩像素值，接着影像调整模块 140会调整示范嘴型图片的RGB像素值符合嘴部色彩像素值，也就是影像调整模块140会根据影像辨识模块130得到的嘴部色彩像素值来调整示范嘴型图片的RGB像素值，让示范嘴型图片的RGB像素值符合嘴部色彩像素值。影像辨识模块130辨识嘴部色彩像素值以及影像调整模块140根据嘴部色彩像素值调整示范嘴型图片的RGB像素值的目的在于让示范嘴型图片的RGB像素值调整与预设人像图片中的嘴巴RGB像素值一样，当影像结合模块150 将示范嘴型图片与预设人像图片进行影像结合时，才能让示范嘴型图片的RGB像素值与预设人像图片的RGB像素值呈现协调状态。通过上述人脸仿真发音系统的运作，可以通过将示范嘴型图片调整大小后置入预设人像图片的嘴部位置进行影像结合，再利用背景去除得到人像图片，最后显示人像图片进行发音嘴型示范的技术手段，用来解决先前技术在语言学习时使用者无法以个人化人像来进行发音嘴型示范的问题。图2绘示为本发明人脸仿真发音方法流程图。参见图3，语言学习接口 300包含发音组件310，使用者利用语言学习系统学习单词的发音，单词例如是"hi"，使用者若要听单词"hi"如何发音时，可以点选发音组件310，语言学习系统就会发出发音指令例如是"hi"，而人脸仿真发音系统100会接收发音指令 "hi"(步骤201)。参见图4，人脸仿真发音系统100接收到发音指令"hi"后，人脸仿真发音系统100 会根据发音指令"hi"查找到发音指令"hi"所对应的示范嘴型图片410及预设人像图片 420加载至人脸仿真处理接口 400中，预设人像图片420是由使用者自行设定的图片，可以是使用者个人照片或个人喜爱人物的照片，但最好是脸部清晰的预设人像图片420，示范嘴型图片410则是单词"hi"的发音嘴型示范的图片(步骤202)。参见图5，人脸仿真发音系统100将预设人像图片420进行影像辨识，可辨识出预设人像图片420中嘴部位置430及嘴部轮廓参数例如是"l公分"(步骤203)，而人脸仿真发音系统100在加载示范嘴型图片410时，即可得知示范嘴型图片410的大小例如是"l. 5 公分"。参见图6，人脸仿真发音系统100得到嘴部位置430及嘴部轮廓参数"l公分"后，人脸仿真发音系统IOO根据嘴部轮廓参数"I公分"调整示范嘴型图片410符合嘴部轮廓参数"l公分"，也就是将示范嘴型图片410从"l. 5公分"縮小为"l公分"，再根据嘴部位置 430将已縮小为"l公分"的示范嘴型图片410放置在预设人像图片420中的嘴部位置430 上，并且将示范嘴型图片410与预设人像图片420进行影像结合，得到目标人像图片440，换句话说，就是将示范嘴型图片410覆盖预设人像图片420在嘴部位置430的嘴巴，因此目标人像图片440是以示范嘴型图片410为预设人像图片420的嘴巴(步骤204)。
参见图7，人脸仿真发音系统IOO在人脸仿真处理接口 400中将目标人像图片440 进行背景去除，也就是人脸仿真发音系统100利用影像辨识出人像与背景后，将背景透明化的方式去除背景，得到人像图片450，人像图片450是去除背景的目标人像图片440，只留下人像的部份(步骤205)。参见图8，人脸仿真发音系统100得到人像图片450后，将人像图片450显示在语言学习接口 300的人像发音嘴型示范显示区320中并且执行发音指令"hi"进行发音(步骤206)，使用者在学习单词"hi"的时候，听到单词"hi"的发音，同时可通过发音嘴型示范观看单词"hi"发音的嘴型，由于使用者可自行设定示范发音嘴型的人像，因此使用者可以观看到喜爱人物在进行发音嘴型示范或是使用者个人进行发音嘴型示范，可提高使用者语言学习的乐趣。
6
综上所述，可知本发明与先前技术之间的差异在于具有将示范嘴型图片调整大小后置入预设人像图片的嘴部位置进行影像结合，再利用背景去除得到人像图片，最后显示人像图片进行发音嘴型示范的技术手段，通过此技术手段可以解决先前技术所存在语言学习时使用者无法以个人化人像来进行发音嘴型示范的问题，进而达成在语言学习时提供使用者进行个人化人像发音嘴型示范提高使用者学习乐趣的技术功效。
权利要求
一种人脸仿真发音系统，其特征在于该系统包含接收模块，用来接收发音指令；加载模块，用来根据发音指令加载示范嘴型图片及预设人像图片；影像辨识模块，用来将预设人像图片进行影像辨识得到嘴部位置与嘴部轮廓参数；影像调整模块，用来将示范嘴型图片进行调整符合嘴部轮廓参数；影像结合模块，用来将示范嘴型图片根据嘴部位置与预设人像图片进行影像结合，得到目标人像图片；背景去除模块，用来将目标人像图片进行背景去除得到人像图片；执行显示模块，用来执行发音指令进行发音并显示人像图片，所述接收模块与加载模块连接，所述加载模块与影像辨识模块连接，所述影像辨识模块与影像调整模块连接，所述影像调整模块与影像结合模块连接，所述影像结合模块与背景去除模块连接，所述背景去除模块与执行显示模块连接。
2. 根据权利要求1所述的人脸仿真发音系统，其特征在于所述预设人像图片由系统预先设定或由使用者自行设定。
3. 根据权利要求1所述的人脸仿真发音系统，其特征在于所述影像辨识模块将预设人像图片进行影像辨识包含得到嘴部色彩像素值。
4. 根据权利要求3所述的人脸仿真发音系统，其特征在于所述影像调整模块包含调整示范嘴型图片的像素值符合嘴部色彩像素值。
5. —种人脸仿真发音方法，其特征在于，该方法包含以下步骤1) 接收发音指令；2) 根据发音指令加载示范嘴型图片及预设人像图片；3) 将预设人像图片进行影像辨识得到嘴部位置与嘴部轮廓参数；4) 将示范嘴型图片进行调整符合嘴部轮廓参数，再将示范嘴型图片根据嘴部位置与预设人像图片进行影像结合，得到目标人像图片；5) 将目标人像图片进行背景去除得到人像图片；6) 执行发音指令进行发音并显示人像图片。
6. 根据权利要求5所述的人脸仿真发音方法，其特征在于所述预设人像图片由系统预先设定或由使用者自行设定。
7. 根据权利要求5所述的一种人脸仿真发音方法，其特征在于所述步骤3) 中还包括将预设人像图片进行影像辨识得到嘴部色彩像素值。
8. 根据权利要求7所述的一种人脸仿真发音方法，其特征在于所述步骤4) 中还包括调整示范嘴型图片的像素值符合嘴部色彩像素值。
全文摘要
本发明涉及一种人脸仿真发音系统及其方法，通过将示范嘴型图片调整大小后置入预设人像图片的嘴部位置进行影像结合，再利用背景去除得到人像图片，最后显示人像图片进行发音嘴型示范的技术手段，可以解决在语言学习时使用者无法以个人化人像来进行发音嘴型示范的问题，由此达成在语言学习时提供使用者进行个人化人像发音嘴型示范提高使用者学习乐趣的技术功效。
文档编号G06T5/00GK101727765SQ200910218778
公开日2010年6月9日申请日期2009年11月3日优先权日2009年11月3日
发明者周骁, 朱海波, 陈淮琰申请人:无敌科技(西安)有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈淮琰;朱海波;周骁
技术所有人：无敌科技（西安）有限公司
我是此专利的发明人

上一篇：调整预览区域的方法与装置的制作方法
上一篇：基于有限能力的生产计划方法及其仿真系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。