数字视频再现设备的制作方法

文档序号：6758994阅读：317来源：国知局

专利名称：数字视频再现设备的制作方法
技术领域：
本发明涉及用于再现数字视频内容的数字视频再现设备。
背景技术：
通常，在诸如DVD(数字化视频光盘)播放机之类的数字视频再现设备中，当开始对内容进行再现时，显示一个章节列表作为索引图像，以便能够通过操作在该设备本体上或者遥控器上所提供的键而分别选择各个章节。因此，用户能够从所希望的章节开始再现所述内容。
最近，BS数字高清晰度电视中可以包括语音识别功能，因此，可以通过使用语音输入广播台名称、频道名称等等来切换频道。
另外，提出了一种设备(例如，见专利文献1)，用于对输入语音执行语音识别处理，并且基于该处理的结果，在显示器上显示与所述输入语音相对应的字符串。
专利文献1日本专利特许公报No.11-41538。

发明内容
本发明要解决的问题在诸如DVD播放机之类的视频再现设备中，通过说出章节的名称而选择章节将会是很方便的。然而，为了通过语音选择章节，需要预先提供参考表格，用于确定用户所说出的词语指示哪一个章节。
然而，通常上述参考表格并不包含在数字视频内容中。因此，即使是在视频再现设备中结合了能够对用户所说出的词语进行识别的语音识别功能，也不能基于用户所说出的词语指定章节。
因此，本发明的一个目的在于提供一种数字视频再现设备，用于通过语音指定数字视频内容的再现位置。
问题的解决方案本发明具有以下特征来实现上述目的。注意，圆括号中的参考数字和图号指示与附图的对应性，以便帮助理解本发明，并不用于限制本发明。
本发明的第一方面是针对一种用于再现数字视频内容的数字视频再现设备(1)，其包括字典创建装置(102)，用于根据所述数字视频内容的信号创建可用于语音识别处理的字典；语音识别装置(104)，用于通过使用已经由所述字典创建装置创建的字典执行所述语音识别处理；以及再现控制装置(105)，用于根据由所述语音识别装置所执行的语音识别的结果执行对所述数字视频内容的再现控制。
在本发明的第二方面中，基于所述第一方面，还包括字符信息识别装置(101)，用于从再现位置选择图像(图2、图4、图5)中识别字符信息，所述再现位置选择图像包含在所述数字视频内容的视频信号中，用于允许用户选择所述数字视频内容的再现位置；并且所述字典创建装置通过使用已经由所述字符信息识别装置识别的字符信息，创建索引字典，所述索引字典用于允许所述用户通过语音选择所述再现位置。
在本发明的第三方面中，基于所述第二方面，还包括索引显示装置(106)，用于当所述再现位置选择图像显示在显示设备上时，根据由所述字符信息识别装置所执行的识别的结果，着重显示与基于所述再现位置选择图像而注册在所述索引字典中的字符信息相对应的字符串部分。
在本发明的第四方面中，基于所述第二方面，还包括非易失性存储装置(107)，用于以非易失性的形式存储已经由所述字符信息识别装置识别的字符信息，作为在过去已经使用过的数字视频内容的字符信息。
在本发明的第五方面中，基于所述第四方面，所述非易失性存储装置将已经由所述字符信息识别装置识别的字符信息与历史信息一起进行存储，所述历史信息指示在所述数字视频内容中的与所述字符信息相对应的部分在过去是否已经再现过。
在本发明的第六方面中，基于所述第五方面，所述非易失性存储装置将已经由所述字符信息识别装置识别的字符信息与所述历史信息一起进行存储，并且还一起存储对所述数字视频内容中与所述字符信息相对应的部分再现时的日期和时间。
在本发明的第七方面中，基于所述第二方面，所述字典创建装置在已经由所述字符信息识别装置识别的字符信息中的字符数量超过预定阈值时，通过采用所述字符信息中的数量减少的字符来创建所述索引字典。
在本发明的第八方面中，基于所述第二方面，还包括语言确定装置(101)，用于确定由所述字符信息识别装置所识别的字符信息是否是采用日语；代码添加装置(103)，用于当所述字符信息没有被所述字符信息识别装置所识别出时或者当由所述字符信息识别装置所识别的字符信息不是采用英语时，根据预定规则将代码添加到所述再现位置选择图像；以及索引显示装置(106)，用于在显示设备(5)上显示已经由所述代码添加装置添加了代码的所述再现位置选择图像。所述字典创建装置通过使用已经由所述字符信息识别装置识别的采用英语的字符信息以及由所述代码添加装置添加到所述再现位置选择图像中的所述代码，创建用于允许所述用户通过语音选择所述再现位置的所述索引字典。
在本发明的第九方面中，基于所述第一方面，还包括代码添加装置(103)，用于根据预定规则将代码添加到再现位置选择图像(图2、图4、图5)，所述再现位置选择图像包含在所述数字视频内容的视频信号中并且进行显示以允许用户选择所述数字视频内容的再现位置；以及索引显示装置(106)，用于在显示设备(5)上显示已经由所述代码添加装置添加了代码的所述再现位置选择图像。所述字典创建装置通过使用已经由所述代码添加装置添加到所述再现位置选择图像中的所述代码，创建用于允许所述用户通过语音选择所述再现位置的索引字典。
在本发明的第十方面中，基于所述第一方面，所述字典创建装置，通过使用在所述数字视频内容的信号中包含的、用于允许用户选择所述数字视频内容的再现位置的文本信息，创建用于允许所述用户通过语音选择所述再现位置的索引字典。
本发明的效果根据所述第一方面，可以通过语音选择数字TV的内容的标题、DVD视频的内容的章节名称等等。
根据所述第二方面，例如，可以通过语音从DVD视频等等的章节选择图像等等中选择章节。
根据所述第三方面，例如，可以采用能够明确理解的方式，将要说出来以便选择所希望章节的词语提供给用户。
根据所述第四方面，例如，用户能够观看在过去已经使用过的、诸如DVD之类的介质中的章节信息，而不用装入所述介质。
根据所述第五方面，例如，用户能够确认在过去哪个章节已经再现过以及哪个章节没有再现过。
根据所述第六方面，例如，能够根据在过去提供的再现日期和时间，选择在过去已经观看过的章节。
根据所述第七方面，例如，当章节名称很长时，可以不说出整个章节名称，而是比之更加容易地选择章节。
根据所述第八方面，例如，即使是章节没有特别具有章节名称或者章节所具有的章节名称是采用英语以外的语言，也能够通过说出一个代码而容易地选择该章节。
根据所述第九方面，例如，即使是当在DVD视频等等的章节选择图像中提供的章节选择按钮中没有包含字符串，也可以通过说出一个代码而选择章节。
根据所述第十方面，例如，当与视频中提供的选择按钮相对应的文本信息如同数字TV的内容中一样预先包含在内容中时，可以通过使用该文本信息容易地创建要用于语音识别的字典。

图1是示出根据本发明的实施例的数字视频再现设备的结构的图；图2是索引图像的第一示例；图3是示出系统控制器4的功能的图；图4是索引图像的第二示例；图5是索引图像的第三示例；图6是索引字典的第一示例；图7是索引字典的第二示例；图8是已经被索引显示装置106处理过的索引图像的第一示例；图9是已经被索引显示装置106处理过的索引图像的第二示例；图10是已经被索引显示装置106处理过的索引图像的第三示例；图11是索引字典的第三示例；以及图12是与索引字典一起存储在存储装置107中的信息的示例。
参考符号描述1 数字视频再现设备2 DVD驱动器3 缓冲器4 系统控制器5 显示装置6 按钮7 ADC8 麦克风10 索引图像20 背景显示21-25 选择按钮51-55 下划线61-65 语音标志71，72 代码81-85 代码
101 字符信息识别装置102 索引字典创建装置103 代码添加装置104 语音识别装置105 再现控制装置106 索引显示装置107 存储装置具体实施方式
以下将参考附图，描述根据本发明的实施例的数字视频再现设备。
在图1中，数字视频再现设备1包括能够再现DVD视频的DVD驱动器2、用于暂时存储由DVD区动器2所再现的视频的缓冲器3，用于整体控制数字视频再现设备1的系统控制器4、用于显示该视频的显示设备5、在要开始语音输入时由用户按压的按钮6、用于输入语音的麦克风8、以及用于将从麦克风8提供的模拟语音信号转换为数字语音信号的ADC(模拟到数字转换器)7。注意，DVD驱动器2和麦克风8不是必须要结合到数字视频再现设备1中。
当用户将其中记录有数字视频内容(以下称为DVD视频)的DVD放入DVD驱动器2中时，将图2中所示的索引图像作为原始图像从DVD视频中读出，并显示在显示设备5上。DVD视频被划分为多个章节，在索引图像中显示选择按钮21到25，用于分别选择这些章节。注意，选择按钮并不是必须要局限于图2中所示的按钮，并且可以不显示选择按钮的下滑线(即，采用与背景相同的颜色)，或者可以将在这些章节开始位置处的视频的缩小图像用作选择按钮。注意，图2中所示的20不是选择按钮，而是一部分背景显示。图2中示出了一种DVD包括5个章节的情况的示例。用户可以使用输入设备(在此未示出)从章节列表中选择所希望的章节，以便从所希望的章节开始再现DVD视频。
在选择按钮21到25中的每一个上所显示的章节名称(“入学典礼”、“远足”等等)并非作为文本信息而包含在DVD视频中，包含选择按钮21到25的索引图像仅仅是作为图像信息而存储在DVD视频中。用于确定索引图像的哪个区域与哪个选择按钮相对应的信息存储在DVD视频中。
接下来，将参考图5，描述系统控制器4的功能。系统控制器4是用诸如微计算机、DSP和存储器之类的硬件与存储在ROM等中的软件的组合实现的，并执行对于在图像信息中包含的字符的识别处理、语音识别处理、章节再现处理等等。具体的，系统控制器4充当字符信息识别装置101、索引字典创建装置102、代码添加装置103、语音识别装置104、再现控制装置105、索引显示装置106和存储装置107。以下将详细描述每个装置。
字符信息识别装置101通过字符识别处理，从在DVD驱动器2所读出的索引图像中包含的图2所示的选择按钮21到25(即，用于选择每个章节的图像区域)中的每一个中提取出字符信息。注意，字符信息识别装置101具有确定通过字符识别处理所提取的字符信息是否是采用英语的功能，以下所提供的处理步骤根据在该过程中是否已经提取了采用英语的字符信息而不同。注意，在此提供的描述是基于以下前提的即，数字视频再现设备1是在讲英语的国家中使用的。然而，例如，在数字视频再现设备1是在讲日语的国家中使用时，以下所提供的处理步骤根据在该处理中是否已经提取了采用日语的字符信息而不同。即，更为普遍地，字符信息识别装置101具有确定通过字符识别处理所提取的字符信息是否是采用特定语言的功能。
在字符信息识别装置101已经提取了采用英语的字符信息的情况中，字符信息识别装置101将所提取的字符信息作为文本数据输出到索引字典创建装置102。相反地，在没有提取出采用英语的字符信息的情况中(即，在根本没有提取出字符信息的情况中，或者在所提取的字符信息采用了英语以外的语言的情况中)，字符信息识别装置101请求代码添加装置103执行代码添加处理。例如，在如图4所示的在每个选择按钮中用日语显示章节名称的情况中，或者在如图5所示的选择按钮为在各个章节开始位置处提供的视频的缩小图像(缩略图)的情况中，字符信息识别装置101请求代码添加装置103执行代码添加处理。
注意，可以采用已知的任意技术作为字符识别技术，用于字符信息识别装置101。
代码添加装置103根据预定规则，对不包含采用英语的字符信息的每个选择按钮分配一个代码(例如数字)，并将与已经分配给每个选择按钮的代码相对应的文本数据输出到索引字典创建装置102。
根据从字符信息识别装置101输出的文本数据(“入学仪式”、“远足”等等)或者从代码添加装置103输出的文本数据(“1”、“2”等等)，索引字典创建装置102创建可用于语音识别装置104所执行的语言识别处理的索引字典。以下将具体描述索引字典创建装置102的处理。
索引字典创建装置102首先检查从字符信息识别装置101输出的文本数据或者从代码添加装置103输出的文本数据中是否包含相同的文本数据，当包含相同的文本数据时，在所述相同的文本数据后面添加一个数字等等(更精确而言，是添加与该数字相对应的文本数据)，从而能够区分所述相同的文本数据中的每一个。例如，在输入到索引字典创建装置102中的文本数据中包含两个“远足”的情况下，将两个“远足”中的一个转换为“远足1”，将另一个转换为“远足2”。
当创建了与索引图像中包含的全部选择按钮相关的文本信息时，索引字典创建装置102通过使用已经创建的文本数据创建用于执行语音识别处理的索引字典，并将索引字典存储在存储装置107中。存储装置107可以是非易失性存储装置，其即使是在电源关闭时也会持续保留所存储的内容，或者存储装置107可以是易失性存储装置，其在电源关闭时丢失所存储的内容。在索引图像中提供的、与文本数据相对应的每个选择按钮的显示位置也记录到与该文本数据关联的索引字典中。图6示出了根据图2的索引图像创建的索引字典的内容。图7示出了根据图4的索引图像创建的索引字典的内容，或者根据图5的索引图像创建的索引字典的内容。
注意，索引字典创建装置102将由于如上所述的存在多个相同文本数据的情况而添加了数字等等的文本数据记录为文本数据，还将指示正在记录的文本数据是添加了数字等等的原始文本数据的信息(标记)记录到与正在记录的文本数据关联的索引字典中。
索引显示装置106执行显示控制，为用户提供要由用户说出的词语，以便选择在索引图像中包含的每个选择按钮。更具体的，索引显示装置106按照需要，从字符信息识别装置101中获得由字符信息识别装置101所识别的采用英语的字符串在索引图像中的显示位置，并且通过如图8所示的分别在字符串下面画下划线51到55、用边框包围字符串、在字符串附近添加用于分别指示字符串是要说出来的字符串的语音标志61到65等等方法来强调这些字符串。此外，如图9所示，在具有已经由索引字典创建装置102添加了数字等等的文本数据的字符串后面，分别额外显示数字(71、72)。此外，如图10所示，代码添加装置103将代码(81到85)分别分配给由字符信息识别装置101所识别的采用英语之外的其他语言的字符串，然后对其进行额外显示。作为如上所述的由索引显示装置106执行的处理结果，当要在索引图像中选择所希望的章节时，用户一眼就能够识别出要说出的字符串。
当用户按压按钮6以便开始语音输入时，从按钮6输出语音识别开始信号S1。当接收到该语音识别开始信号S1时，语音识别装置104通过使用经由ADC7得到的语音数据D1和在存储装置107中存储的索引字典来执行语音识别处理。当作为所述语音识别处理的结果而在索引字典中检测到与语音数据D1相对应的文本数据时，语音识别装置104从索引字典中获得与该文本数据相对应的每个选择按钮的显示位置信息，然后将该显示位置信息输出到再现控制装置105。
根据从语音识别装置104中接收的显示位置信息，再现控制装置105指定一个章节并开始再现该章节。
注意，对于在讲日语的国家中，字符信息识别装置101具有确定通过字符识别处理所提取的字符信息是否是采用日语的功能，并且在索引图像中包含的采用日语的章节名称的各个字符是用日本汉字表示的情况中，索引字典创建装置102为了创建与所讲出的字符串的字典相同的字典，首先将从字符信息识别装置101中输出的文本数据或者从代码添加装置103中输出的文本数据转换到片假名数据(『ニユウガクシキ』(“nyuugakushiki”)，『エンソク』(“ensoku”)，『イチ』(“ichi”)，『ニ』(“ni”)等等)。每个选择按钮的相应的从字符信息识别装置101中输出的文本数据、从代码添加装置103中输出的文本数据、以及在索引图像中的显示位置也记录在与所述片假名数据相关联的索引字典中。图11示出了根据图4的索引图像创建的索引字典的内容。
系统控制器4的上述功能允许用户通过语音从索引图像中包含的多个选择按钮中选择一个任意的选择按钮，并开始观看与该任意的选择按钮相对应的章节。因此，根据本实施例，可以通过语音选择章节，因此其对于车内DVD再现设备尤其有用。此外，可以将导航功能添加到本实施例中，从而可以提供包括再现数字视频内容的功能的导航设备。
注意，可以使用非易失性存储装置作为存储装置107，以便即使是在数字视频再现设备1关闭后也可以保留由索引字典创建装置102创建的索引字典，因此当数字视频再现设备1关闭过一次之后再次开启时，可以使用存储装置107过去所存储数据。因此，能够提高数字视频再现设备1的可用性。以下将描述一个所采用的示例，其中使用非易失性存储装置作为存储装置107。
在所采用的示例中，如图12所示，将由索引字典创建装置102创建的索引字典记录在存储装置107中，并且与DVD视频的标题、对于DVD而言唯一性的信息、或者其他附加信息相关联。所述对于DVD而言唯一性的信息可以包括，例如记录在DVD中的数据大小、视频长度、章节数量等等。此外，当章节已经再现过时，再现控制装置105就将该章节再现时的日期和时间作为再现历史信息，存储在存储装置107中，并且与和该章节相对应的每个选择按钮的显示位置信息相关联。此外，当用户在章节中间部分停止了再现该章节时，再现控制装置105就将在章节停止位置处提供的该视频的时间计数器的值作为再现历史信息，存储存储装置107中，并且与该章节再现时的日期和时间相关联。
当向数字视频再现设备1供电时，系统控制器4首先确认DVD驱动器2中是否插入了DVD。在DVD驱动器2中插入了DVD的情况中，系统控制器4参考如图12所示的存储在存储装置107中的信息，确认在DVD驱动器2中当前插入的DVD是否是在过去已经插入过的DVD。在DVD驱动器2中当前插入的DVD是在过去已经插入过的DVD的情况中，通过使用在过去已经创建的索引字典执行语音识别处理。在该DVD是第一次插入在其中的DVD情况中，根据索引图像创建索引字典，并将其存储在存储装置107中，并通过使用已经创建和存储的索引字典执行语音识别处理。因此，能够省去创建新的、用于在过去已经使用过的DVD的索引字典的麻烦，因此能够减少从将DVD插入DVD驱动器2开始到能够通过语音选择章节这一过程所需要的时间。
此外，当使用在存储装置107中存储的日期和时间信息时，索引显示装置106可以将指示每个章节在过去是否被再现过的信息添加到索引图像中，然后可以将其显示在显示设备5上。
此外，当使用在存储装置107中存储的计数器数值信息时，用户可以在重新选择了在过去在其中间停止再现的章节时，从该章节的停止点开始再现该章节。
注意，作为本发明的一个示例，描述了对DVD中记录的数字视频内容进行再现的情况。然而，本发明并不局限于此，本发明还可以类似地应用于对在另一种记录介质中记录的数字视频内容进行再现的情况、对通过通信线路提供的数字视频内容进行再现的情况、通过广播电波提供的数字视频内容进行再现的情况，等等。注意，在与视频中显示的选择按钮相对应的文本信息，与数字TV等等的内容一样预先包含在内容中的情况中，索引字典创建装置102可以通过使用该文本信息创建索引字典，即使是字符信息识别装置101不执行字符识别过程也是如此。
工业应用性目前存在大量的具有语音识别功能的车内导航系统，并且能够再现DVD的系统也是广泛应用的。将根据本发明的、用于从数字信号中创建可用于语音识别的字典的装置添加到上述系统中，从而使得驾驶者即使是在驾驶时也可以通过语音安全地选择一个章节，该装置在安装在车内时尤其有用。
权利要求
1.一种用于再现数字视频内容的数字视频再现设备，其包括字典创建装置，用于根据所述数字视频内容的信号，创建可用于语音识别处理的字典；语音识别装置，用于通过使用已经由所述字典创建装置创建的字典，执行所述语音识别处理；以及再现控制装置，用于根据由所述语音识别装置所执行的语音识别的结果，执行对所述数字视频内容的再现控制。
2.如权利要求1所述的数字视频再现设备，还包括字符信息识别装置，用于从再现位置选择图像中识别字符信息，所述再现位置选择图像包含在所述数字视频内容的视频信号中并且用于允许用户选择所述数字视频内容的再现位置，其中所述字典创建装置通过使用已经由所述字符信息识别装置识别的字符信息，创建索引字典，所述索引字典用于允许所述用户通过语音选择所述再现位置。
3.如权利要求2所述的数字视频再现设备，还包括索引显示装置，用于当所述再现位置选择图像显示在显示设备上时，根据由所述字符信息识别装置所执行的识别的结果，着重显示与根据所述再现位置选择图像而注册到所述索引字典中的字符信息相对应的字符串部分。
4.如权利要求2所述的数字视频再现设备，还包括非易失性存储装置，用于以非易失性的形式存储已经由所述字符信息识别装置识别的字符信息，作为在过去已经使用过的数字视频内容的字符信息。
5.如权利要求4所述的数字视频再现设备，其中所述非易失性存储装置将已经由所述字符信息识别装置识别的字符信息与历史信息一起进行存储，所述历史信息指示在所述数字视频内容中的与所述字符信息相对应的部分在过去是否已经再现过。
6.如权利要求5所述的数字视频再现设备，其中所述非易失性存储装置将已经由所述字符信息识别装置识别的字符信息与所述历史信息一起进行存储，并且还一起存储对所述数字视频内容中与所述字符信息相对应的部分进行再现时的日期和时间。
7.如权利要求2所述的数字视频再现设备，其中所述字典创建装置在已经由所述字符信息识别装置识别的字符信息中的字符数量超过预定阈值时，通过采用所述字符信息中的数量减少的字符来创建所述索引字典。
8.如权利要求2所述的数字视频再现设备，还包括语言确定装置，用于确定已经由所述字符信息识别装置识别的字符信息是否是采用日语；代码添加装置，用于当所述字符信息没有被所述字符信息识别装置所识别出时，或者当由所述字符信息识别装置所识别的字符信息不是采用英语时，根据预定规则将代码添加到所述再现位置选择图像；以及索引显示装置，用于在显示设备上显示已经由所述代码添加装置添加了所述代码的所述再现位置选择图像，其中，所述字典创建装置通过使用已经由所述字符信息识别装置所识别的所述采用英语的字符信息以及由所述代码添加装置添加到所述再现位置选择图像中的所述代码，创建用于允许所述用户通过语音来选择所述再现位置的所述索引字典。
9.如权利要求1所述的数字视频再现设备，还包括代码添加装置，用于根据预定规则将代码添加到再现位置选择图像，所述再现位置选择图像包含在所述数字视频内容的视频信号中并且进行显示以允许用户选择所述数字视频内容的再现位置；以及索引显示装置，用于在显示设备上显示已经由所述代码添加装置添加了代码的所述再现位置选择图像，其中，所述字典创建装置通过使用已经由所述代码添加装置添加到所述再现位置选择图像中的所述代码，创建用于允许所述用户通过语音来选择所述再现位置的索引字典。
10.如权利要求1所述的数字视频再现设备，所述字典创建装置，通过使用在所述数字视频内容的信号中包含的、用于允许用户选择所述数字视频内容的再现位置的文本信息，创建用于允许所述用户通过语音来选择所述再现位置的索引字典。
全文摘要
字符信息识别装置(101)通过字符识别处理从包含在索引图像中的选择按钮中提取出字符信息。根据从字符信息识别装置(101)中输出的文本数据，索引字典创建装置(102)创建可用于由语音识别装置(104)所执行的语音识别处理的索引字典。语音识别装置(104)通过使用通过ADC(7)得到的语音数据(D1)和存储在存储装置(7)中的索引字典执行语音识别处理。根据由语音识别装置(104)所执行的语音识别处理的结果，再现控制装置(105)执行章节的再现控制。因此，可以通过语音在DVD视频的章节选择图像上所显示的多个章节选择按钮中选择所希望的按钮。
文档编号G11B27/10GK101057497SQ20058003814
公开日2007年10月17日申请日期2005年11月4日优先权日2004年11月8日
发明者饭阪笃, 山下敦士, 平井卓哉申请人:松下电器产业株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：饭阪笃;山下敦士;平井卓哉
技术所有人：松下电器产业株式会社
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、毕老师：机构动力学与控制
2、袁老师：1.计算机视觉 2.无线网络及物联网
3、王老师：1.计算机网络安全 2.计算机仿真技术
4、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
5、张老师：1.机械设计的应力分析、强度校核的计算机仿真 2.生物反应器研制 3.生物力学
如您是高校老师，可以点此联系我们加入专家库。