在移动终端中记录和播放用户语音的方法和装置制造方法

文档序号：8001794阅读：152来源：国知局

在移动终端中记录和播放用户语音的方法和装置制造方法
【专利摘要】本发明提供了一种用于在移动终端中记录和播放用户语音的方法和装置。所述用于在移动终端中记录和存储用户语音的方法包括：通过运行电子书进入页面；识别是否存在与所述页面相关的用户语音记录文件；如果不存在用户语音记录文件，则通过将包括在所述页面中的文本记录为用户语音来产生与所述页面相关的用户语音记录文件；以及如果存在用户语音记录文件，则通过将存储在用户语音记录文件中的用户语音与所述文本同步来进行播放。因此，当记录电子书的特定页面时，可以记录与页面的文本相对应的用户语音，并且通过将所述用户语音与文本相同步，可以加亮与正在播放的用户语音相对应的文本。
【专利说明】在移动终端中记录和播放用户语音的方法和装置
【技术领域】
[0001]本发明涉及一种用于在移动终端中记录和播放语音的方法和装置。更具体地，本发明涉及一种方法和装置，用于当记录电子书的特定页面时，记录与页面的文本相对应的语音，并通过将语音和文本相同步来加亮(highlight)与正在播放的语音相对应的文本。
【背景技术】
[0002]随着通信技术的进步，移动终端正发展为提供多种可选服务(例如，电子记事本、游戏、日程安排管理等)的多媒体设备。随着目前提供的多种可选服务，用户界面对于方便地使用并管理上述多种可选服务而言是至关重要的。
[0003]图1示出了根据现有技术采用语音记录包括在电子书的特定页面中的文本以及播放所记录的语音。
[0004]如图1所示，电子书(e-book)提供了将配置在电子书的特定页面中内容(即，文本)记录为语音并播放所述语音的功能。为此，用户通过选择电子书的特定页面中的记录命令来输入其语音，并通过选择播放命令来播放记录在相应页面中的语音。
[0005]然而，在现有技术中，必须保存整个电子书以便记录用户的语音，因此如果电子书的数据量很大，则需要大量的时间和劳力。
[0006]此外，由于所记录的语音与电子书的文本并不同步，现有技术难以直观地识别当前正在播放哪个词语方面。
[0007]因此，需要一种改进的装置和方法，用于当记录电子书的特定页面时记录与该页面的文本相对应的语音，并通过将语音和文本相同步来加亮与正在播放的语音相对应的文本。
[0008]以上信息作为背景信息提供，仅帮助本公开的理解。对于上述任何内容是否可作为关于本发明的现有技术没有任何判定也没有任何断言。

【发明内容】

[0009]本发明的方面在于解决至少上述问题和/或缺点并提供至少下述优点。因此，本发明的一个方面是提供一种方法和装置，当记录电子书的特定页面时，记录与该页面的文本相对应的用户语音，并通过将用户语音和所述文本相同步来加亮与正在播放的用户语音相对应的文本。
[0010]按照本发明的一个方面，提供了一种用于记录和播放用户语音的方法。所述方法包括:通过运行电子书进入页面；识别是否存在与所述页面相关的用户语音记录文件；如果不存在用户语音记录文件，则通过将包括在页面中的文本记录为用户语音来产生与所述页面相关的用户语音记录文件；并且如果用户语音记录文件存在，则通过将存储在用户语音记录文件中的用户语音与所述文本相同步来进行播放。
[0011]按照本发明的另一方面，提供一种用于记录和播放用户语音的装置。所述装置包括:用于接收用户输入的输入单元；用于显示包括在电子书中的文本的显示单元；以及控制单元，用于当进入电子书的页面时进行控制，以识别是否存在与所述页面相关的用户语音记录文件，如果不存在用户语音记录文件，则通过将包括在页面中的文本记录为用户语音来产生用户语音记录文件，并且如果存在用户语音记录文件，通过将存储在用户语音记录文件中的用户语音与所述文本相同步来进行播放。
[0012]根据本发明的示例性实施例，当记录电子书的特定页面时，可以记录与特定页面的文本相对应的语音，并且当播放语音时，可以通过将语音与文本相同步来加亮与正在播放的语音相对应的文本。因此，用户可以通过直观的界面来体验阅读真实书的感觉。
[0013]以下详细描述结合附图公开了本发明的示例性实施例，通过以下详细描述，本领域技术人员将更清楚本发明的其他方面、优点和突出特征。
【专利附图】

【附图说明】
[0014]结合附图，根据以下详细描述，本发明的特定示例性实施例的上述和其他方面、特征以及优点将更清楚，附图中:
[0015]图1示出了根据现有技术采用语音记录包括在电子书的特定页面中的文本以及播放所记录的语音；
[0016]图2是示出了描述根据本发明示例性实施例的移动终端的内部结构的框图；
[0017]图3是示出了根据本发明示例性实施例记录或播放包括在电子书的特定页面中内容的过程的流程图；
[0018]图4是示出了根据本发明示例性实施例包括在电子书的特定页面中到用户语音的文本到语音(TTS)记录过程的流程图；
[0019]图5是示出了根据本发明示例性实施例在用户语音的TTS记录中与电子书的每一页面相对应存储的文件的结构的视图；
[0020]图6是示出了根据本发明示例性实施例在用户语音的TTS记录中通过划分为音素(phoneme)语音文件而存储用户语音的TTS数据库的结构的视图；
[0021]图7是示出了根据本发明示例性实施例执行TTS记录的自动完成功能的过程的流程图；
[0022]图8是示出了根据本发明示例性实施例电子书的特定页面的TTS播放过程的流程图；以及
[0023]图9是示出了根据本发明示例性实施例在电子书的TTS播放中通过将用户语音与文本相同步而描述显示器的示例的视图。
[0024]贯穿附图，应注意相同的参考标号用于描述相同或相似的部件、特征以及结构。【具体实施方式】
[0025]提供了参照附图的以下描述来帮助全面理解权利要求及其等同物定义的本发明的示例性实施例。以下描述包括多种特定细节来帮助理解，但是这些特定细节应该视为仅是示例性的。因此，本领域技术人员会认识到可以在不脱离本发明的范围和精神的前提下，对本文所述实施例能够进行多种改变和修改。此外，为了清楚和简要目的，省略对公知功能和结构的描述。
[0026]以下描述和权利要求中使用的术语和词语不限于字面含义，而是发明人仅用于达到对本发明的清楚和一致理解。因此，本领域技术人员可以理解，本发明的示例性实施例的以下描述仅用于说明目的，而不是用于限制所附权利要求及其等同物定义的本发明的目的。
[0027]此外，应该理解，除非文中明确指出，否则单数形式的“一”、“一种”和“该”包括复数形式。因此，例如，对于“一组件表面”的引述包括对于一个或多个这种表面的引述。
[0028]图2示出了描述根据本发明的示例性实施例的移动终端的内部结构的框图。
[0029]参考图2，移动终端200可以包括无线通信单元210、音频处理器单元220、键输入单元230、触摸屏240、存储单元250以及控制单元260。
[0030]无线通信单元210执行数据发送和接收，以便支持移动终端200的无线通信功能。无线通信单元210包括RF发送器和RF接收器，所述RF发送器用于对要发送的信号上变频和放大；所述RF接收器用于低噪音放大和下变频所接收的信号。此外，无线通信单元210向控制单元260输出通过无线通信频道接收的数据，并通过无线通信频道发送由控制单元260输出的数据。
[0031]音频处理单元220配置为用于处理分组数据的数据编解码器以及用于处理音频信号(例如，语音)的音频编解码器。音频处理单元220通过音频编解码器将数字音频信号转换为模拟音频信号，并且通过扬声器输出所述模拟音频信号。从麦克风输入的模拟音频信号通过音频编解码器被转换为数字音频信号。
[0032]键输入单元230接收用于移动终端200的控制的用户的键输入，并产生输入信号以便发送给控制单元260。键输入单元230可以配置为包括数字键和方向键的键区，且可以在移动终端200的表面上形成功能键。根据本发明的示例性实施例，在具有触摸屏240的移动终端中，可以使用触摸屏240执行键输入单元230的操作，并因此可以省略键输入单元230。
[0033]触摸屏240包括触摸传感器241和显示单元242。触摸传感器241检测用户的触摸输入。触摸传感器241配置为触摸传感器(例如电容式覆盖传感器、压力敏感传感器、电阻式覆盖传感器以及红外束检测传感器)。根据本发明，除了以上传感器之外，还可以将任何类型的检测对象的接触或压力的传感器使用为触摸传感器241。触摸传感器241检测用户的触摸输入，并产生检测信号，以便发送给控制单元260。检测信号包括由用户触摸的位置的坐标数据。如果用户移动触摸位置，触摸传感器241产生包括触摸移动路径的坐标数据的检测信号，以便发送给控制单元260。
[0034]更具体地，根据本发明的示例性实施例，触摸传感器241检测用于记录或播放电子书的内容的用户输入。这样的用户输入可以是，例如，触摸(包括多点触摸)或者拖动。
[0035]显示单元242可以由液晶显示器(IXD)、有机光辐射二极管(OLED)或者有源矩阵有机光辐射二极管(AMOLED)形成，并且向用户提供多种视觉信息，例如，菜单、输入数据、移动终端200的功能设置信息等。显示单元242执行输出引导屏幕、待机屏幕、菜单屏幕、电信屏幕以及移动终端200的其它应用屏幕的功能。
[0036]如上所述，移动终端200可以配置为触摸屏。然而，移动终端200不限于触摸屏。在示例性实施例中，如果应用不具有触摸屏的移动终端，可以省略如图2所示的触摸屏240，以便只执行显示单元242的功能。
[0037]存储单元250可以分为程序区和数据区，并执行存储针对移动终端200的操作所需的程序和数据的作用。程序区存储用于控制移动终端200的总体操作的程序、用于引导移动终端200的操作系统(OS)、播放多媒体内容所需的应用程序以及移动终端200的可选功能所需的应用程序(例如，摄像机功能、音乐播放功能、静止或运动图像的播放功能等)。数据区存储根据移动终端200的使用而产生的数据，例如，静止图像、运动图像、电话簿、音频数据等。
[0038]根据本发明的示例性实施例，存储单元250存储记录在电子书的每一页面中的用户语音文件以及在每一页面中与用户语音文件同步的同步文件。此外，存储单元250在数据库中存储由音素记录的用户语音文件，以便执行对电子书内容的文本到语音(TTS)记录的自动完成功能。
[0039]控制单元260控制移动终端200的组件的总体操作。更具体地，当移动终端200记录特定页面时，控制单元260记录与电子书的特定页面的文本相对应的用户语音，并当移动终端200播放用户语音时，通过将所述文本与用户语音相同步来控制加亮与用户语音相对应的文本的处理。为此，控制单元260包括记录控制单元261和播放控制单元262。
[0040]记录控制单元261控制包括在电子书的特定页面中的文本到用户语音的TTS记录的总体过程。为此，当进入电子书的页面时，记录控制单元261识别是否存在与该页面相关的用户语音记录文件。如果不存在用户语音记录文件，则记录控制单元261将包括在该页面中的文本记录为用户语音，并产生与该页面相关的用户语音记录文件。
[0041]此处，记录控制单元261产生从包括在该页面中的文本转换的用户语音记录文件以及包括与用户语音记录文件的每一个时间段相对应的文本位置信息在内的同步文件。同步文件包括用于通过与用户语音记录文件同步来加亮正在播放的用户语音的文本的信息。后面将提供更详细的解释。
[0042]根据本发明的示例性实施例，如果接收到文本的TTS记录命令，记录控制单元261识别是否在文本位置处检测到触摸输入。如果在预设时间内没有检测到触摸输入，则记录控制单元261进行控制以便开始记录用户语音。如果在文本的位置处检测到触摸输入，则记录控制单元261将检测到触摸输入的文本位置设置为开始记录用户语音的初始位置。
[0043]此外，记录控制单元261通过音素将输入用户语音分类，并控制产生及保存音素语音文件。根据本发明的示例性实施例，音素语音文件用于执行TTS记录的自动完成功能。
[0044]为此，当完成记录页面的用户语音时，记录控制单元261将音素语音文件和包括在电子书中的所有文本文件进行比较。然后，记录控制单元261识别是否能够对于没有存储用户语音记录文件的其余页面中包括的文本来通过使用音素语音文件自动完成记录。如果能够自动完成记录，则记录控制单元261进行控制以便向用户通知能够自动完成记录。当执行自动记录命令时，记录控制单元261通过使用音素语音文件，将没有存储用户语音记录文件的其余页面中包括的文本转换为用户语音。
[0045]如果在电子书的页面中存在用户语音记录文件，则播放控制单元262进行控制，以便通过将文本与用户语音相同步来播放存储在用户语音记录文件中的用户语音。根据本发明的示例性实施例，播放控制单元262进行控制以加亮与存储在用户语音记录文件中的用户语音相对应的文本。
[0046]更详细地，如果接收到播放命令，播放控制单元262识别是否存在与用户语音记录文件相对应的同步文件。如果存在同步文件，则播放控制单元262识别包括在与用户语音记录文件的每一个时间段相对应的同步文件中的文本位置信息。根据识别的结果，播放控制单元262进行控制，以便通过将存储在用户语音记录文件中的用户语音与所述文本相同步来进行播放。
[0047]如果不存在同步文件，则播放控制单元262进行控制，以便将记录在与该页面相对应的用户语音记录文件中的用户语音转换为文本，并通过将转换的文本与包括在页面中的文本相同步来进行播放。
[0048]在以上的描述中，将控制单元260、记录控制单元261以及播放控制单元262示出为分离的块，并且各自执行不同的功能。然而，这是为了方便解释，应理解在备选实现方式中，可以不分开该功能。例如，由记录控制单元261执行的特定功能可以由控制单元260执行。
[0049]图3是示出了根据本发明示例性实施例记录或播放包括在电子书的特定页面中内容的过程的流程图。
[0050]参考图3，在步骤S310，控制单元260检测电子书应用的运行。电子书可以被称作e-book，是包含信息(例如，在电子介质中记录的字符和图像)的数字图书的通用名称。智能电话或便携式多媒体播放器(PMP)可以从服务器下载电子书应用用于执行并使用电子书，或者在生产的过程中，可以在智能电话或PMP内集成电子书应用。
[0051 ] 在步骤S320，控制单元260检测电子书应用是否位于特定内容处，例如，包括文本的电子书内容的页面。在步骤S330，控制单元260识别是否存在与特定页面相对应的用户语音记录文件。以下文中，术语用户语音记录TTS文件可以用作用户语音记录文件。
[0052]根据用户的选择,在步骤S340,如果不存在与特定页面相对应的用户语音记录文件，控制单元260执行用户语音的TTS记录的处理，其中将包括在该页面中的文本转换为用户语音。在用户语音的TTS记录中，控制单元260可以配置并保存与该文本相对应的用户语音记录文件和与用户语音文件的用户语音相对应的同步文件(例如，字幕)。
[0053]通过参考图4，将在下文描述用户语音的TTS记录的更详细过程。
[0054]如果存在与特定页面相对应的用户语音记录文件，在步骤S350，控制单元260执行与该页面相对应的用户语音记录文件的TTS播放。在TTS播放中，控制单元260可以通过将用户语音与该页面的文本相同步来加亮与正在播放的用户语音相对应的文本。
[0055]通过参考图7，将在下文描述TTS播放的更详细过程。
[0056]图4是示出了根据本发明示例性实施例，包括在电子书的特定页面中的文本到用户语音的TTS记录过程的流程图。图4对应于图3的步骤S340。
[0057]通过使用传统TTS引擎可以执行记录包括在电子书的特定页面中的文本的示例性方法。然而，在本发明中不包括关于该方法的描述。
[0058]如果不存在与电子书的特定页面相对应的用户语音记录文件，则控制单元260可以在显示单元中显示用于记录包括在所述页面中的文本的记录手段。例如，记录手段可以是如图1所示的记录按钮REC。
[0059]参考图4，在步骤S405，控制单元260识别是否输入了用于记录用户语音的记录命令。如果没有输入记录命令，在步骤S410，控制单元260等待记录命令的输入。
[0060]如果输入了记录命令，控制单元260必须决定实际记录的开始时间和与该记录相对应的文本位置。在本发明的示例性实施例中，如果在输入记录命令之后的预定时间内没有产生触摸输入的状态下检测到用户语音，则仅将用户语音存储为用户语音记录文件。
[0061] 如果输入记录命令后在文本上输入触摸，则将相应文本位置设为开始的初始值来记录，且通过同步检测到的用户语音和相应文本位置，保存用户语音记录文件和同步文件。
[0062]参考图4的流程图将详细描述该内容。
[0063]在步骤S415，在输入记录命令之后，控制单元260识别是否在文本上输入触摸。如果没有输入触摸，在步骤S420，控制单元260识别是否已经经过了预定时间。如果已经经过预定时间，在步骤S425，控制单元260识别是否输入用户语音。即，在输入记录命令之后，控制单元260识别是否在预定时间内没有产生触摸输入的状态下检测到用户语音。如果输入了用户语音，在步骤S427，控制单元260通过记录产生并保存与该页面相对应的用户语音记录文件。
[0064]如果在步骤415在文本上输入触摸，控制单元260在步骤S430将产生触摸的文本位置设置为开始记录的初始值，并且在步骤S435识别是否检测到用户语音。如果没有检测到用户语音，在步骤S440，控制单元260等待检测用户语音。
[0065]如果在步骤S435检测到用户语音，在步骤S445，控制单元260产生并保存记录有用户语音的用户语音记录文件以及与用户语音记录文件相对应的同步文件。
[0066]此处，同步文件包括用于通过与用户语音记录文件相同步来加亮正在播放的用户语音的文本的信息。根据本发明的示例性实施例，同步文件可以是同步多媒体集成语言(SMIL)文件。SMIL是用于通过使用XML处理并控制在时间和空间中的多媒体数据的W3C标准呈现语目。
[0067]根据本发明的示例性实施例的同步文件可以配置有与时间段相对应的文本集合。例如，在电子书的特定页面中的用户语音的TTS记录的情况下，同步文件可以包括在时间段O~a中记录的与该页面的段落a相对应的文本和在时间段a~b中记录的与该页面的段落b相对应的另一文本的信息。在下表中，示出了同步文件的示例性结构。
[0068]表1
【权利要求】
1.一种用于在移动终端中记录和播放用户语音的方法，所述方法包括: 通过运行电子书进入页面；识别是否存在与所述页面相关的用户语音记录文件；如果不存在用户语音记录文件，则通过将包括在所述页面中的文本记录为用户语音来产生与所述页面相关的用户语音记录文件；以及如果存在用户语音记录文件，则通过将存储在用户语音记录文件中的用户语音与所述文本同步来进行播放。
2.根据权利要求1所述的方法，其中产生用户语音记录文件包括:将包括在所述页面中的文本记录为用户语音和同步文件，所述同步文件包括与用户语音记录文件的每一个时间段相对应的文本位置信息。
3.根据权利要求1所述的方法，其中产生用户语音记录文件还包括: 如果接收到文本的记录命令，则识别是否检测到与文本位置相对应的触摸输入；以及如果在预定的时间段内没有检测到触摸输入，则开始记录用户语音。
4.根据权利要求3所述的方法，还包括:如果检测到与文本位置相对应的触摸输入，将由触摸输入检测到的文本位置设置为开始记录用户语音的初始位置。
5.根据权利要求1所述的方法，其中产生用户语音记录文件还包括: 通过音素将输入的用户语音分类；以及产生并存储由音素分类的音素语音文件。`
6.根据权利要求5所述的方法，还包括: 如果完成记录与页面相关的用户语音，则将音素语音文件和电子书中包括的所有文本进行比较；识别是否能够通过使用音素语音文件来自动完成对于没有存储用户语音记录文件的其余页面中包括的文本的记录；以及如果能够自动完成记录，则向用户通知能够自动完成记录。
7.根据权利要求6所述的方法，还包括:当执行自动记录命令时，通过使用音素语音文件，将没有存储用户语音记录文件的其余页面中的文本转换为用户语音。
8.根据权利要求1所述的方法，其中所述播放包括加亮与存储在用户语音记录文件中的用户语音相对应的文本。
9.根据权利要求1所述的方法，其中所述播放还包括: 如果接收到播放命令，则识别是否存在与用户语音记录文件有关的同步文件；如果存在同步文件，则识别包括在所述同步文件中的与用户语音记录文件的每一个时间段相对应的文本位置信息；以及根据识别的结果，通过将记录在用户语音记录文件中的用户语音与所述文本相同步来进行播放。
10.根据权利要求9所述的方法，还包括: 如果不存在同步文件，则将记录在与所述页面有关的用户语音记录文件中的用户语音转换为文本；以及通过将转换的文本与包括在所述页面中的文本相同步来进行播放。
11.一种用于在移动终端中记录和播放用户语音的装置，所述装置包括:输入单元，用于接收用户输入；显示单元，用于显示包括在电子书中的文本；以及控制单元，用于当进入电子书的页面时进行控制，以识别是否存在与所述页面有关的用户语音记录文件；如果不存在用户语音记录文件，则通过将包括在页面中的文本记录为用户语音来产生用户语音记录文件；并且如果存在用户语音记录文件，则通过将存储在用户语音记录文件中的用户语音与所述文本相同步来进行播放。
12.根据权利要求11所述的装置，其中控制单元进行控制，通过将包括在所述页面中的文本记录为用户语音和同步文件来产生用户语音记录文件，所述同步文件包括与用户语音记录文件的每一个时间段相对应的文本位置信息。
13.根据权利要求11所述的装置，其中如果接收到对文本的记录命令，则控制单元进行控制以识别是否检测到与文本位置相对应的触摸输入，如果在预定的时间段内没有检测到触摸输入，则开始记录用户语音。
14.根据权利要求13所述的装置，其中如果检测到与文本位置相对应的触摸输入，则控制单元进行控制，以便将由触摸输入检测到的文本位置设置为开始记录用户语音的初始位置。
15.根据权利要求11所述的装置，其中控制单元进行控制，以便通过音素将输入的用户语音分类，以及产生并存储由音素分类的音素语音文件。
16.根据权利要求15所述的装置，其中如果完成记录与页面相关的用户语音，则控制单元进行控制，以便将所述音素语音文件和电子书包括中的所有文本进行比较；识别是否能够通过使用音素语音文件来自动完成对于没有存储用户语音记录文件的其余页面中包括的文本的记录；以及如果能够自动完成记录，则向用户通知用户能够自动完成记录。
17.根据权利要求16所述的装置，其中当执行自动记录命令时，控制单元进行控制，以便通过使用音素语音文件，将没`有存储用户语音记录文件的其余页面中包括的文本转换为用户语音。
18.根据权利要求11所述的装置，其中控制单元进行控制以加亮与存储在用户语音记录文件中的用户语音相对应的文本。
19.根据权利要求11所述的装置，其中如果接收到播放命令，则控制单元进行控制以识别是否存在与用户语音记录文件有关的同步文件；如果存在同步文件，则识别包括在所述同步文件中的与用户语音记录文件的每一个时间段相对应的文本位置信息；以及根据识别的结果，通过将记录在用户语音记录文件中的用户语音与所述文本相同步来进行播放。
20.根据权利要求19所述的装置，其中如果不存在同步文件，则控制单元进行控制，以将记录在与所述页面有关的用户语音记录文件中的用户语音转换为文本；以及通过将转换的文本与包括在所述页面中的文本相同步来进行播放。
21.一种存储指令的非暂时性计算机可读存储介质，当执行所述指令时，使至少一个处理器执行权利要求1所述的方法。
【文档编号】H04M1/725GK103533155SQ201310278241
【公开日】2014年1月22日申请日期:2013年7月4日优先权日:2012年7月6日
【发明者】睦智恩, 郭炳熏申请人:三星电子株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：睦智恩;郭炳熏
技术所有人：三星电子株式会社
我是此专利的发明人

上一篇：使用湿度传感器控制便携式装置的方法以及便携式装置制造方法
上一篇：容迟容断网络的路由算法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。