文字转语音系统以及文字转语音方法与流程

文档序号：15097174发布日期：2018-08-04 14:51阅读：211来源：国知局

本发明有关于文字转语音系统以及文字转语音方法，特别有关于可根据语音产生辅助资讯自动调整输出语音的语言种类或语速的文字转语音系统以及文字转语音方法。

背景技术：

目前有些智慧电视会提供视障辅助功能，其利用文字转语音(TTS，text to speech)技术将操作介面的之文字资讯转换成输出语音，辅助视障人士便于使用电视。

请参阅图1，其绘示了已知技术的文字转语音系统的方块图。如图1所示，文字转语音系统100包含一文字转语音模块101。文字转语音模块101用以将文字资讯TXT转换成输出语音SP，而使用者可透过语音使用者介面设定输出语音的语言种类或语速。然而，对视障者而言，透过语音使用者介面进行设定仍较为不便，因此需要一更为友善的设定方式。

技术实现要素：

因此，本发明一目的为提供一种文字转语音方法，其可自动调整输出语音的语言种类或语速。

本发明另一目的为提供一种文字转语音系统，其可自动调整输出语音的语言种类或语速。

本发明一实施例揭示了一种文字转语音方法，适用于一文字转语音系统，其包含：(a)接收一生物特征资讯；(b)根据一生物特征资讯，决定一设定值；以及(c)根据该设定值将一文字资讯转换为一输出语音。

本发明另一实施例揭示了一种文字转语音方法，适用于一文字转语音系统，其包含：(a)接收一地理资讯；(b)根据该地理资讯，决定一语言种类；以及(c)根据该语言种类将一文字资讯转换为一输出语音。

本发明亦揭示了根据前述方法相对应的文字转语音系统，但于此不再赘述。

根据前述实施例，可根据不同的资讯来决定输出语音的语言种类或是语速，可避免习知技术中须自行调整语言种类或语速的问题，可让使用者在使用文字转语音的系统或方法时更为便利。

附图说明

图1绘示了已知技术的文字转语音系统的方块图。

图2绘示了根据本发明一实施例的文字转语音系统的方块图。

图3(a)、3(b)、4(a)、4(b)、5(a)、5(b)、6(a)和6(b)绘示了对应图2所示的文字转语音系统的不同实施例。

图7绘示了根据本发明一实施例的文字转语音系统的方块图。

图8(a)、8(b)、9(a)绘示了对应图7所示的文字转语音系统的不同实施例。

符号说明

101、200、700 文字转语音系统

201 文字转语音模块

203 设定模块

207 生物特征资讯提供装置

SD 数据库

300 人种/语言种类查找表

400 使用者/人种查找表

500 年龄/语速查找表

600 使用者/年龄查找表

701 地理资讯提供装置

800 使用者地区/语言种类查找表

900 经纬度/语言种类查找表

具体实施方式

以下将以不同实施例来说明本发明的内容。然请留意，以下实施例所提及的各种系统、装置、模块等，可以硬体方式实现(例如电路)，亦可以软件方式实现(例如微处理器中写入程序)。以下实施例将以电视来说明，但本发明所提供的系统以及方法亦可运用在电视以外的电子装置。

图2绘示了根据本发明一实施例的文字转语音系统的示意图。如图2所示，文字转语音系统200会根据输入文字TXT产生输出语音SP。此处的输入文字TXT可为使用者输入的文字，但亦可为图像档案内、文字档案内或是网页上的文字。举例来说，当文字转语音系统200使用于电视上，文字转语音系统200可将电视的节目表或是操作介面转换为语音。此外，文字转语音系统200可整合于一电脑内，当使用者以电脑读取一文字档案或一网页时，可透过文字转语音系统200产生文字档案上或网页上的文字的输出语音。文字转语音系统200不限制以硬件方式整合在各种电子装置上，其亦可以软件方式安装于各种电子装置。

于图2所示的实施例中，文字转语音系统200会接收生物特征资讯提供装置207提供的生物特征资讯BS，并根据生物特征资讯BS产生一设定值，其中，生物特征资讯BS可包含下列资讯至少其一：使用者人种或使用者年龄，此设定值决定该输出语音的语言种类或是语速。详细言之，于一实施例中，文字转语音系统200包含一文字转语音模块201、一设定模块203以及一数据库SD。设定模块203会将生物特征资讯BS与数据库SD中的数据进行比对，以设定语言种类或语速。而文字转语音模块201会根据所设定的语言种类或语速来将文字资讯TXT转换成输出语音SP。数据库SD可以储存在文字转语音系统200内部的储存装置，亦可储存在文字转语音系统200外部的储存装置，例如可移除的记忆卡、光碟或是云端硬碟。

以下将详细说明当生物特征资讯BS为不同资讯时的运作方式。然请留意以下实施例仅用以举例说明，并非用以限定本发明的范围，任何可达到相同功能的系统或方法均应涵盖于本发明的范围之内。

图3(a)、3(b)、4(a)、4(b)、5(a)、5(b)、6(a)和6(b)绘示了图2所示的文字转语音系统的不同实施例。图3(a)、4(a)、5(a)和6(a)绘示了不同实施例的流程图，而图3(b)、4(b)、5(b)和6(b)绘示了相对应的示意图。

图3(a)绘示了如何根据生物特征资讯BS决定语言种类的一实施例，其包含了步骤301和303。于此实施例中，生物特征资讯BS为使用者影像资讯。

步骤301

分析生物特征资讯BS的影像特征，来决定使用者的使用者人种。

步骤303

根据使用者人种，决定语言种类。

图3(b)为图3(a)相对应的示意图。如前所述，此实施例中生物特征资讯BS为使用者影像资讯，因此生物特征资讯提供装置207为一影像撷取装置(例如摄影机)。设定模块203在接收到使用者影像资讯后，可进行影像分析，并将影像特征，例如使用者的肤色、脸部骨格比例或是五官等判断使用者的人种与数据库SD中预先储存的人种的影像特征来进行比对，以判断使用者的人种。且于此实施例中，前述图2中数据库SD储存有人种/语言种类查找表300，设定模块203可根据此查找出适当的语言种类并据以控制语言种类。如图3(b)的人种/语言种类查找表300所示，不同的人种会对应不同的语言。举例来说，若依生物特征资讯BS判断使用者为俄罗斯人，则语言种类会被调整为俄语，而若依生物特征资讯BS判断使用者为中国人，则语言种类会被调整为中文。

除了前述图3(a)、图3(b)所示的，对使用者影像资讯直接进行影像分析来得知使用者人种并决定语言种类外，亦可以其他方法决定语言种类。

图4(a)绘示了本发明决定语言种类的另一实施例，其包含下列步骤：

步骤401

分析生物特征资讯BS，来决定使用者的使用者身份。

步骤403

根据使用者身份，得知使用者人种。

步骤405

根据使用者身份，决定语言种类。

于一实施例中，是将生物特征资讯BS与一预定使用者之生物特征资讯做比对，以产生一使用者身份。举例来说，于一实施例中，生物特征资讯BS为使用者影像资讯，因此可根据使用者的肤色、脸部骨格比例或是五官等影像特征是否符合预先储存的预定使用者之生物特征资讯来判断使用者身份。但生物特征资讯BS亦可为其他可用以判断使用者身份的生物特征资讯，例如指纹、声纹、虹膜资讯等。而生物特征资讯提供装置207为相对应的身份辨识装置(例如指纹侦测装置、声纹侦测装置或是虹膜侦测装置)或是先前所述的影像撷取装置。以上仅为举例，任何可以用来判断使用者身份的生物特征资讯均应包含在本发明的范围内。

图4(b)绘示了跟图4(a)相对应的示意图。如图4(b)所示，数据库SD储存了各使用者的使用者人种，例如储存了使用者/人种查找表400。因此，比对生物特征资讯BS便可得知是那一使用者(即确认使用者身份)，并得知是那一使用者人种。举例来说，若由生物特征资讯BS得知使用者为使用者A，因此亦可相对应的得知使用者是中国人，而若由生物特征资讯BS得知使用者为C，可相对应的得知使用者是欧洲人。在得知了使用者人种后，便可根据使用者人种来决定语言种类。

前述图3(a)、3(b)、4(a)以及4(b)描述了如何调整语言种类的实施例，而以下的图5(a)、5(b)、6(a)以及6(b)则描述了如何调整语速的实施例。

图5(a)绘示了如何决定语速的一实施例，其包含下列步骤：

步骤501

分析生物特征资讯BS的影像特征，以产生一使用者年龄。

步骤503

根据使用者年龄决定语速。

于此实施例中，生物特征资讯BS为使用者影像资讯，而图2中所述的生物特征资讯提供装置207为一影像撷取装置。设定模块203在接收到使用者影像资讯后，可进行影像分析，并根据使用者的发色灰白程度、脸上皱纹、五官比例或身形比例等影像特征判断使用者年龄。且于此实施例中，数据库SD储存有年龄/语速查找表，设定模块203可根据此查找出适当的语速并据以控制语速。如图5(b)的年龄/语速查找表500所示，当使用者年龄根据使用者影像资讯被判断为是属于幼童或儿童的年龄区间0-11岁时，因为使用者可能对语言的判断力较差，因此会将语速设定为最慢的速度1。而当使用者被判断为是属于青少年的年龄区间12-24岁时，因为对语言已有一定程度的了解，因此会将语速设定为次慢的速度2。而当使用者被判断为是属于成年的年龄区间25-45岁时，对语言的熟悉度已趋完善，因此会将语速设定为最快的速度3。而当使用者被判断为是属于中年的年龄区间46-60岁时，因为听力可能已开始减弱，因此会将语速设定为较慢的速度2。

除了前述图5(a)、图5(b)所示的，对使用者影像资讯直接进行影像分析来得到使用者年龄以决定语速外，亦可以其他方法得知使用者年龄来决定语速。

图6(a)绘示了本发明决定语速的另一实施例，其包含下列步骤：

步骤601

分析生物特征资讯BS，来决定使用者的使用者身份。

步骤603

根据使用者身份，决定使用者年龄。

步骤605

根据此使用者年龄，决定语速。

于一实施例中，生物特征资讯BS为使用者影像资讯，因此可根据使用者的肤色、脸部骨格比例或是五官等影像特征是否符合预先储存的预定使用者的生物特征资讯，来判断使用者身份。但生物特征资讯BS亦可为其他生物特征资讯，例如指纹、声纹、虹膜资讯等。而生物特征资讯提供装置207为为相对应的身份辨识装置(例如指纹侦测装置、声纹侦测装置或是虹膜侦测装置)或是先前所述的影像撷取装置。以上仅为举例，任何可以用来判断使用者身份的生物特征资讯均应包含在本发明的范围内。

图6(b)绘示了跟图6(a)相对应的示意图。如图6(b)所示，数据库SD储存了使用者/年龄查找表600。因此，比对生物特征资讯BS便可得知是那一使用者，并得知使用者的年龄。举例来说，若由生物特征资讯BS得知使用者是使用者A，因此亦可相对应的得知使用者年龄为50，而若根据生物特征资讯BS得知使用者是使用者C，因此亦可相对应的得知使用者年龄为26。在得知了使用者年龄后，可根据使用者年龄来设定语速。

图7绘示了根据本发明一实施例的文字转语音系统的方块图。图7与图2部份相同，其差别之处在于在图7的实施例中，图2中的生物特征资讯提供装置207被地理资讯提供装置701所取代。接收介面205用以接收地理资讯提供装置701所产生的地理资讯GI并传送给设定模块203。设定模块203根据地理资讯GI来产生设定值以设定语言种类。亦即，图7中的文字转语音系统700的动作可简述如下：接收一地理资讯GI；根据地理资讯GI决定一语言种类；以及根据此语言种类将一文字资讯TXT转换为一输出语音SP。

图8(a)、8(b)以及图9(a)绘示了根据地理资讯来决定语言种类的不同实施例。

于图8(a)的实施例中，地理资讯提供装置701为一定位装置。此定位装置可为各种类型的定位装置，例如全球卫星导航系统.(Global Navigation Satellite System)，亦可为手机基地台定位系统，或是无线网络定位系统(例如Wifi定位系统)。图8(a)的流程图包含下列步骤：

步骤801

根据地理资讯决定一使用地区。

步骤803

根据使用地区决定语言种类。

于此实施例中，地理资讯GI为一经纬度，设定模块203可根据经纬度决定一使用地区。此外，数据库SD储存有使用者地区/语言种类查找表，设定模块203可根据使用者地区与数据库SD找出适当的语言种类。以图8(b)所示的使用者地区/语言种类查找表800为例，当位置资讯表示文字转语音系统是位于属于英文区的加拿大A区时，设定模块203会将语言种类设定为英文。而当位置资讯表示文字转语音系统是位于属于法文区的加拿大A区时，设定模块203会将语言种类设定为法文。同样的，在另一个例子中，澳洲的主要语言是英文，因此无论位置资讯表示文字转语音系统是位于澳洲的C区或是D区，设定模块203均会将语言种类设定成英文。

而在另一实施例中，设定模块203直接利用经纬度查找出语言种类，而不先转换成使用地区。于此实施例中，数据库SD储存有经纬度/语言种类查找表，设定模块203可根据此查找出适当的语言种类。以图9(a)所示的经纬度/语言种类查找表900为例，不同的经纬度会对应到不同的语言种类。以较实际的例子来说明，当纬度为49°16′N，123°7′W时，此位置对应为加拿大的温哥华，因此数据库SD中会将此经纬度设定为英文。

根据前述实施例，可根据不同的资讯来决定输出语音的语言种类或是语速，可避免已知技术中须自行调整语言种类或语速的问题，可让使用者在使用文字转语音的系统或方法时更为便利。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄宏吉
技术所有人：晨星半导体股份有限公司
我是此专利的发明人

上一篇：一种利用太阳能提取卤水中矿物质的装置的制作方法
上一篇：一种锅炉烟气脱硫废水处理系统的制作方法