发送装置、发送方法、接收装置以及接收方法与流程

文档序号：11637471阅读：194来源：国知局

导航： X技术> 最新专利>电子通信装置的制造及其应用技术

本技术涉及一种发送装置、发送方法、接收装置、以及接收方法，并且更具体地涉及将文本信息连同图像信息一起发送的发送装置等。

背景技术：

例如，在数字视频广播(dvb)中，已将关于字幕的信息作为位图数据发送。近来，已提出将关于字幕的信息作为文本字符代码发送，即基于文本发送。在这种情况下，根据接收侧的分辨率放大字体。

此外，已提出当关于字幕的信息基于文本发送时文本信息将具有定时信息。例如，万维网联盟(w3c)提出了定时文本标记语言(ttml)(参见专利文献1)，作为该文本信息。

引用列表

专利文献

专利文献1：日本专利申请公开第2012-169885号

技术实现要素：

本发明要解决的问题

本技术的目的是在接收侧上对字幕优异地执行显示定时控制。

问题的解决方案

本技术的一个概念是发送装置，包括：

视频编码器，生成具有编码的图像数据的视频流；

字幕编码器，生成具有关于字幕的文本信息和显示定时信息的字幕流；以及

发送单元，发送包含视频流和字幕流的传输流。

在本技术中，由视频编码器生成具有编码的图像数据的视频流。由字幕编码器生成具有关于字幕的文本信息和显示定时信息的字幕流。然后，通过发送单元发送包含视频流和字幕流的传输流。

例如，字幕编码器可以基于关于以预定格式的具有显示定时信息的字幕的文本信息，生成字幕流。在这种情况下，例如，关于以预定格式的字幕的文本信息可以是定时文本标记语言(ttml)或是ttml的衍生格式。

此外，例如，关于字幕的显示定时信息可具有至少与显示开始定时和显示持续时间有关的信息。在这种情况下，例如，字幕流可以由pes数据包构成，pes数据包由pes报头和pes有效载荷构成，关于字幕的文本信息和显示定时信息可以布置在pes有效载荷中，并且显示开始定时可以由与插入在pes报头中的呈现时间戳(pts)的显示偏移表示。

在本技术中，具有关于字幕的文本信息和显示定时信息的字幕流连同视频流一起发送。因此，可以在接收侧上对字幕优异地执行显示定时控制。

此外，本技术的另一概念是接收装置，包括：

接收单元，接收传输流，该传输流包含具有编码的图像数据的视频流和具有关于字幕的文本信息和显示定时信息的字幕流；

视频解码器，对视频流执行解码处理并获得图像数据；

字幕解码器，对字幕流执行解码处理并获得字幕的位图数据和关于字幕的显示定时信息；以及

显示控制单元，基于显示定时信息控制将字幕的位图数据叠加到图像数据上的定时。

在本技术中，由接收单元接收传输流。传输流包含具有编码的图像数据的视频流和具有关于字幕的文本信息和显示定时信息的字幕流。

对视频流执行解码处理并由视频解码器获得图像数据。此外，对字幕流执行解码处理，并且由字幕解码器获得字幕的位图数据和关于字幕的显示定时信息。然后，由显示控制单元基于显示定时控制信息控制将字幕的位图数据叠加到图像数据上的定时。

例如，关于字幕的显示定时信息可具有至少与显示开始定时和显示持续时间有关的信息。在这种情况下，例如，字幕流可以由pes数据包构成，pes数据包由pes报头和pes有效载荷构成，关于字幕的文本信息和显示定时信息可以布置在pes有效载荷中，并且显示开始定时可以由与插入在pes报头中的pts的显示偏移表示。

在本技术中，字幕流具有关于字幕的文本信息和显示定时信息，并且基于显示定时信息控制将字幕的位图数据叠加到图像数据上的定时。因此，可以优异地执行字幕的显示定时控制。

本发明的效果

根据本技术，可以优异地执行字幕的显示定时控制。应当注意，本说明书中所描述的效果仅是示例性的且不受限制，并且可以具有额外的效果。

附图说明

图1是示出了实施方式的收发器系统的配置实例的框图。

图2是示出了广播发送系统的流生成单元的配置实例的框图。

图3是说明ttml结构的示图。

图4(a)至图4(c)是示出了ttml结构的头部中的元数据、式样、以及布局中的每个元素的结构的实例。

图5是示出了ttml结构的主体的配置实例的示图。

图6是示出了pes数据包的配置实例的示图。

图7(a)和图7(b)是示出了文本报头元数据片段(thms)的结构的实例的示图。

图8(a)和图8(b)是示出了文本报头式样片段(thss)的结构的实例的示图。

图9(a)和图9(b)是示出了文本报头布局片段(thls)的结构的实例的示图。

图10(a)和图10(b)是示出了文本主体片段(tbs)的结构的实例的示图。

图11(a)和图11(b)是示出了文本整体片段(tws)的结构的实例的示图。

图12是示出了定时控制片段(tcs)的结构的实例的示图。

图13是说明当ttml转换为片段时“pts”、“显示偏移”、以及“显示持续时间”的设置的示图。

图14是示出了解码器缓冲器模型的配置实例的示图。

图15是示出了解码器缓冲器模型的基本操作的实例的示图。

图16是示出了解码器缓冲器模型的更实际的操作的实例的示图。

图17是示出了解码器缓冲器模型的更实际的操作的另一实例的示图。

图18是示出了解码器缓冲器模型的另一配置实例的示图。

图19是示出了解码器缓冲器模型的基本操作的实例的示图。

图20是示出了解码器缓冲器模型的更实际的操作的实例的示图。

图21是示出了解码器缓冲器模型的更实际的操作的另一实例的示图。

图22是示出了传输流ts的配置实例的示图。

图23是示出了电视接收器的配置实例的示图。

图24是示出了字幕解码器的配置实例的示图。

图25是示出了字幕解码器的另一配置实例的示图。

具体实施方式

在下文中，将描述用于执行本发明的模式(下文中称为“实施方式”)。应当注意，描述按以下顺序进行：

1.实施方式

2.变形例

<1.实施方式>

[收发器系统的配置实例]

图1示出了实施方式的收发器系统10的配置实例。收发器系统10包括广播发送系统100和电视接收器200。广播发送系统100在广播波上发送传输流ts。传输流ts包含具有编码的图像数据的视频流、具有编码的音频数据的音频流、以及具有关于字幕的文本信息和显示定时信息的字幕流。

广播发送系统100基于关于以预定格式的具有显示定时信息的字幕的文本信息，生成字幕流。在这个实施方式中，例如，文本信息是由万维网联盟(w3c)提出的定时文本标记语言(ttml)。

在这个实施方式中，字幕流中包含的关于字幕的显示定时信息具有至少与显示开始定时和显示持续时间有关的信息。在此，字幕流由pes数据包构成，pes数据包由pes报头和pes有效载荷构成，关于字幕的文本信息和显示定时信息布置在pes有效载荷中，并且例如，显示开始定时由与插入在pes报头中的pts的显示偏移表示。

电视接收器200接收从广播发送系统100在广播波上发送的传输流ts。如上所述，传输流ts包含具有编码的图像数据的视频流和具有关于字幕的文本信息和显示定时信息的字幕流。

电视接收器200从视频流接收图像数据，并从字幕流接收字幕的位图数据和关于字幕的显示定时信息。然后，电视接收器200控制定时以基于显示定时信息将字幕的位图数据叠加到图像数据上，并显示叠加了字幕的图像。

[广播发送系统的流生成单元的配置实例]

图2示出了广播发送系统100的流生成单元110的配置实例。流生成单元110包括控制单元111、视频编码器112、音频编码器113、文本格式转换单元114、以及字幕编码器115。

控制单元111控制流生成单元110中的部件的操作。视频编码器112接收图像数据dv，对图像数据dv执行编码，并生成具有编码的图像数据的视频流(pes流)。音频编码器113接收音频数据da，对音频数据da执行编码，并生成具有编码的音频数据的音频流(pes流)。

文本格式转换单元114接收文本数据(字符代码)dt作为关于字幕的信息，并获得有关以预定格式的具有显示定时信息的字幕的文本信息。在这个实施方式中，文本信息转换为ttml。

图3示出了ttml结构。基于xml描述ttml。在头部中，存在元数据、式样、以及布局的元素。图4(a)示出了元数据(ttm：ttml元数据)的结构。元数据包含元数据标题信息和版权信息。

图4(b)示出了式样(tts：ttml式样)的结构的实例。式样包含标识符(id)和关于颜色、字体(fontfamily)、大小(fontsize)、对准(textalign)等的信息。图4(c)示出布局(区域：ttml布局)的结构的实例。布局包含布置有字幕的区域的标识符(id)和关于区域(extent)、偏移(padding)、背景颜色(backgroundcolor)、对准(displayalign)等的信息。

图5示出了主体的结构的实例。在示出的实例中，包含关于字幕1(subtitle1)、字幕2(subtitle2)、以及字幕3(subtitle3)的三个字幕的信息。针对每个字幕描述显示开始定时、显示结束定时、以及文本数据。例如，关于字幕1，显示开始定时是“0.76s”，显示结束定时是“3.45s”，并且文本数据是“这看起来是悖论，不是吗，”。

返回到图2，字幕编码器115将由文本格式转换单元114获得的ttml转换成各种片段，并且生成由pes数据包构成的字幕流，在pes数据包中，片段布置在有效载荷中。

图6示出了pes数据包的配置实例。pes报头包含呈现时间戳(pts)。此外，pes有效载荷包含定时控制片段(tcs)、文本报头元数据片段(thms)、文本报头式样片段(thss)、文本报头布局片段(thls)、以及文本主体片段(tbs)的片段，或者包含定时控制片段(tcs)和文本整体片段(tws)的片段。

图7(a)示出了文本报头元数据片段(thms)的结构(句法)的实例。该句法包含关于“sync_byte”、“segment_type”、“page_id”、“segment_length”、以及“segment_payload()”的信息。“segment_type”是表示片段类型的8位数据，并且例如，在该实例中是表示thms的“0x21”。“segment_length”是表示片段的长度(大小)的8位数据。在图7(b)中示出的元数据布置在“segment_payload()”中，作为xml信息。元数据与存在于ttml的头部中的元数据的元素相同(参见图4(a))。

图8(a)示出了文本报头式样片段(thss)的结构(句法)的实例。该句法包含关于“sync_byte”、“segment_type”、“page_id”、“segment_length”、以及“segment_payload()”的信息。“segment_type”是表示片段类型的8位数据，并且例如，在该实例中是表示thss的“0x22”。“segment_length”是表示片段的长度(大小)的8位数据。在图8(b)中示出的元数据布置在“segment_payload()”中，作为xml信息。元数据与存在于ttml的头部中的式样的元素相同(参见图4(b))。

图9(a)示出文本报头布局片段(thls)的结构(句法)的实例。该句法包含关于“sync_byte”、“segment_type”、“page_id”、“segment_length”、以及“segment_payload()”的信息。“segment_type”是表示片段类型的8位数据，并且例如，在该实例中是表示thls的“0x23”。“segment_length”是表示片段的长度(大小)的8位数据。在图9(b)中示出的元数据布置在“segment_payload()”中，作为xml信息。元数据与存在于ttml的头部中的布局的元素相同(参见图4(c))。

图10(a)示出了文本主体片段(tbs)的结构(句法)的实例。该句法包含关于“sync_byte”、“segment_type”、“page_id”、“segment_length”、以及“segment_payload()”的信息。“segment_type”是表示片段类型的8位数据，并且例如，在该实例中是表示tbs的“0x24”。在图10(b)中示出的元数据布置在“segment_payload()”中，作为xml信息。元数据与ttml的主体相同(参见图5)。

图11(a)示出了文本整体片段(tws)的结构(句法)的实例。该句法包含关于“sync_byte”、“segment_type”、“page_id”、“segment_length”、以及“segment_payload()”的信息。“segment_type”是表示片段类型的8位数据，并且例如，在该实例中是表示tws的“0x25”。“segment_length”是表示片段的长度(大小)的8位数据。在图11(b)中示出的元数据布置在“segment_payload()”中，作为xml信息。元数据是整个ttml(参见图3)。句法是用来维护整个ttml中的兼容性，并将整个ttml放在一个片段中。

图12示出了定时控制片段(tcs)的结构(句法)的实例。该句法包含关于“sync_byte”、“segment_type”、“page_id”、“segment_length”、“format_type”、“number_of_regions”、“region_id”、“number_of_display_set”、“显示偏移”、以及“显示持续时间”的信息。“segment_type”是表示片段类型的8位数据，并且例如，在该实例中是表示tcs的“0x20”。“segment_length”是表示片段的长度(大小)的8位数据。

8位字段的“format_type”表示字幕的发送格式的类型。“1”表示“dvb字幕”，“2”表示“ebu-tt-d”，以及“3”表示“ttml”。在这个实施方式中，8位字段的“format_type”是“2”或“3”。

8位字段的“number_of_regions”表示区域的数目。16位字段的“region_id”表示区域的标识符。8位的“number_of_display_set”表示区域的显示数目。16位字段的“显示偏移”表示与作为区域中的显示开始定时的pts的偏移值。16位字段的“显示持续时间”表示区域的显示持续时间。

如在图13中示出的，当将ttml转换成片段时，字幕编码器115基于ttml的主体中所包含的每个字幕的显示开始定时(开始)和显示结束定时(结束)的描述，参考系统时间信息(视频和音频的pcr和同步时间)设置每个字幕的“pts”、“显示偏移”、以及“显示持续时间”。这时，字幕片段编码器115在使用解码器缓冲器模型验证正确执行接收侧的操作的同时，设置“pts”、“显示偏移”、以及“显示持续时间”。

图14示出了解码器缓冲器模型300a的配置实例。解码器缓冲器模型300a包括编码缓冲器301、字幕片段解码器302、字体扩展单元303、以及位图缓冲器304。编码缓冲器301暂时保持所接收的片段数据。

字幕片段解码器302在预定定时对由编码缓冲器301保持的每个区域的片段数据执行解码处理，并获得每个区域的文本数据和控制代码。字体扩展单元303基于字幕片段解码器302获得的每个区域的文本数据和控制代码来扩展字体，并获得每个区域的位图数据。

位图缓冲器304暂时保持由字体扩展单元303获得的每个区域的位图数据和用于显示位图数据的控制信息。从显示开始定时读取由位图缓冲器304保持的每个区域的位图数据，并将位图数据叠加在图像数据上，而且这持续显示持续时间。

图15示出解码器缓冲器模型300a的基本操作的实例。区域1的片段数据在编码缓冲器301中缓冲。然后，在区域1的所有片段数据存储在编码缓冲器301内并且经过一定窗口时段(解码窗口)之后，由字幕片段解码器302解码片段数据，由字体扩展单元303扩展字体，并且获得区域1的位图数据。

伴随解码处理，区域1的片段数据立即从编码缓冲器301消失。由位图缓冲器304保持字体扩展单元303获得的位图数据。区域1的显示开始并持续显示持续时间。在示出的实例中，在解码之后，具有字符“abc”的区域1立即显示在屏幕上持续显示持续时间。当经过了显示持续时间时，区域1的位图数据立即从位图缓冲器304中消失。

在区域1的所有片段数据存储在编码缓冲器301中之后，区域2的片段数据在编码缓冲器301中缓冲。对于区域2，依次执行与以上区域1类似的处理。

换言之，在区域2的所有片段数据存储在编码缓冲器301中并且经过了一定窗口时段(解码窗口)之后，由字幕片段解码器302解码片段数据，由字体扩展单元303扩展字体，并且区域2的显示开始并持续显示持续时间。在示出的实例中，在解码之后，具有字符“defg”的区域2立即显示在屏幕上持续显示持续时间。

此后，继续类似的处理。图16示出解码器缓冲器模型300a的更实际的操作的实例。该实例示出了区域1仅在某一定时显示，区域2从下一个定时同时显示，区域1在某一定时不显示，并且然后，区域3的显示被加到区域2的显示。

区域1的片段数据在编码缓冲器301中缓冲。然后，在区域1的所有片段数据存储在编码缓冲器301中并且经过了一定窗口时段(解码窗口)之后，由字幕片段解码器302解码片段数据，由字体扩展单元303扩展字体，并且在pts1的定时获得区域1的位图数据。最短的窗口时段是0。这意味着解码所需的所有片段数据需要通过解码定时在编码缓冲器301中缓冲。

伴随解码处理，区域1的片段数据立即从编码缓冲器301消失。由位图缓冲器304保持字体扩展单元303获得的区域1的位图数据。编码缓冲器301在pts1的定时的数据存储量是cbc_1，并且位图缓冲器304在pts1的定时的数据存储量是bbc_1。

在此，定义“显示偏移”。这表示从pts定时到显示开始定时的延迟。在示出的实例中，在pts1的定时开始区域1的显示，这意味着“显示偏移1＝0”。

此外，在此定义“显示持续时间”。这表示显示持续时间。示出的实例示出了“显示持续时间1＝t1”。在示出的实例中，具有字符“abc”的区域1显示在屏幕上持续持续时间t1。当经过了显示持续时间时，区域1的位图数据立即从位图缓冲器304中消失。换言之，在显示区域1的同时，区域1的位图数据保持在位图缓冲器304中。

在此，缓冲器模型受限制使得编码缓冲器301的数据存储量cbc_k始终小于其缓冲器大小，并且位图缓冲器304的数据存储量bbc_k始终小于其缓冲器大小。

在区域1的所有片段数据存储在编码缓冲器301中之后，区域2的片段数据在编码缓冲器301中缓冲。然后，在区域2的所有片段数据存储在编码缓冲器301中并且经过了一定窗口时段(解码窗口)之后，由字幕片段解码器302解码片段数据，由字体扩展单元303扩展字体，并且在pts2的定时获得区域2的位图数据。

伴随解码处理，区域2的片段数据立即从编码缓冲器301消失。由位图缓冲器304保持由字体扩展单元303获得的区域2的位图数据。编码缓冲器301在pts2的定时的数据存储量是cbc_2，并且位图缓冲器304在pts2的定时的数据存储量是bbc_2。

在此，区域2的显示在pts2的定时开始，这意味着“显示偏移2_1＝0”。然后，区域2显示持续持续时间t2_1，这意味着“显示持续时间2_1＝t2_1”。在示出的实例中，具有字符“def”的区域2显示在屏幕上持续持续时间t2_1。在这种情况下，从pts2的定时开始将区域2的显示添加至区域1的显示。应当注意，在pts2的定时，区域1的显示位置向上移。

此外，对于区域2，在持续时间t2_1的结束定时，区域2的位图数据不从位图缓冲器304消失，而是保持。在从pts2的定时开始的预定持续时间之后，在pts3的定时重新开始区域2的显示，这意味着“显示偏移2_1＝！0”。然后，区域2显示持续持续时间t2_2，这意味着“显示持续时间2_2＝t2_2”。

此外，在区域2的所有片段数据存储在编码缓冲器301中之后，区域3的片段数据在编码缓冲器301中缓冲。然后，在区域3的所有片段数据存储在编码缓冲器301中并且经过了一定窗口时段(解码窗口)之后，由字幕片段解码器302解码片段数据，由字体扩展单元303扩展字体，并且在pts3的定时获得区域3的位图数据。

伴随解码处理，区域3的片段数据立即从编码缓冲器301消失。由位图缓冲器304保持由字体扩展单元303获得的位图数据。编码缓冲器301在pts3的定时的数据存储量是cbc_3，并且位图缓冲器304在pts3的定时的数据存储量是bbc_3。

在此，在pts3的定时开始区域3的显示，这意味着“显示偏移3＝0”。然后，区域3显示持续持续时间t3，这意味着“显示持续时间3＝t3”。在示出的实例中，具有字符“ghjk”的区域3显示在屏幕上持续持续时间t3。在这种情况下，从pts3的定时开始显示区域2和3。应当注意，在pts3的定时，区域2的显示位置向上移。

应当注意，实例示出了持续时间t2_1的结束定时与pts3的定时之间存在时间差，但其可以是相同的定时。

图17示出解码器缓冲器模型300a的更实际的操作的另一实例。与在图16中示出的实例类似，该实例示出了区域1仅在某一定时显示，区域2从下一个定时同时显示，区域1在某一定时不显示，并且然后，将区域3的显示添加至区域2的显示。然而，与图16中示出的实例不同，对区域1和2同时进行解码。

区域1的片段数据和区域2的片段数据在编码缓冲器301中缓冲。然后，在区域1和2的所有片段数据存储在编码缓冲器301中并且经过了一定窗口时段(解码窗口)之后，由字幕片段解码器302解码片段数据，由字体扩展单元303扩展字体，并且在pts1的定时获得区域1和2的位图数据。

伴随解码处理，区域1和2的片段数据立即从编码缓冲器301消失。由位图缓冲器304保持由字体扩展单元303获得的区域1和2的位图数据。编码缓冲器301在pts1的定时的数据存储量是cbc_1，并且位图缓冲器304在pts1的定时的数据存储量是bbc_1。

在此，定义“显示偏移”。这表示从pts定时到显示开始定时的延迟。在示出的实例中，区域1的显示在pts1的定时开始，这意味着“显示偏移1＝0”。

此外，在此定义“显示持续时间”。这表示显示持续时间。所示出的实例示出了“显示持续时间1＝t1”。在示出的实例中，具有字符“abc”的区域1显示在屏幕上持续持续时间t1。当经过了显示持续时间时，区域1的位图数据立即从位图缓冲器304中消失。换言之，在显示区域1的同时，区域1的位图数据保持在位图缓冲器304中。

在此，缓冲器模型受限制使得编码缓冲器301的数据存储量cbc_k始终小于其缓冲器大小，并且位图缓冲器304的数据存储量bbc_k始终小于其缓冲器大小。

此外，区域2的显示在从pts1的定时开始持续时间t2_0之后的定时开始，这意味着“显示偏移2_1＝t2_0”。然后，区域2显示持续持续时间t2_1，这意味着“显示持续时间2_1＝t2_1”。在示出的实例中，具有字符“def”的区域2显示在屏幕上持续持续时间t2_1。在这种情况下，区域2的显示被添加至区域1的显示。应当注意，区域1的显示位置向上移。

此外，对于区域2，在持续时间t2_1的结束定时，区域2的位图数据不从位图缓冲器304消失，而是保持。在从pts1的定时开始预定持续时间之后，在pts3的定时重新开始区域2的显示，这意味着“显示偏移2_1＝！0”。然后，区域2显示持续持续时间t2_2，这意味着“显示持续时间2_2＝t2_2”。

此外，在区域1和2的所有片段数据存储在编码缓冲器301中之后，区域3的片段数据在编码缓冲器301中缓冲。然后，在区域3的所有片段数据存储在编码缓冲器301中并且经过了一定窗口时段(解码窗口)之后，由字幕片段解码器302解码片段数据，由字体扩展单元303扩展字体，并且在pts3的定时获得区域3的位图数据。

在此，区域3的显示在pts3的定时开始，这意味着“显示偏移3＝0”。然后，区域3显示持续持续时间t3，这意味着“显示持续时间3＝t3”。在示出的实例中，具有字符“ghjk”的区域3显示在屏幕上持续持续时间t3。在这种情况下，从pts3的定时开始显示区域2和2。应当注意，在pts3的定时，区域2的显示位置向上移。

应当注意，实例示出了持续时间t2_1的结束定时与pts3的定时之间存在时间差，但其可以是相同的定时。

图18示出了解码器缓冲器模型300b的配置实例。解码器缓冲器模型300b包括编码缓冲器311、字幕片段解码器312、以及字体扩展单元313。编码缓冲器311暂时保持所接收的片段数据。

字幕片段解码器312对由编码缓冲器311保持的每个区域的片段数据连续执行每个帧的解码处理，并在每个区域的显示持续时间期间获得每个区域的文本数据和控制代码。字体扩展单元313基于由字幕片段解码器312获得的文本数据和控制代码针对每个帧扩展字体，并在每个区域的显示持续时间期间获得每个区域的位图数据。由字体扩展单元313获得的每个区域的位图数据叠加在图像数据上。

图19示出解码器缓冲器模型300b的基本操作的实例。区域1的片段数据在编码缓冲器311中缓冲。然后，在区域1的所有片段数据存储在编码缓冲器311中并且经过了一定窗口时段(解码窗口)之后，由字幕片段解码器312解码片段数据，由字体扩展单元313扩展字体，并且获得区域1的位图数据。因此，区域1的显示开始并持续显示持续时间。在示出的实例中，具有字符“abc”的区域1显示在屏幕上持续持续时间。

在字幕片段解码器312和字体扩展单元313中，在显示持续时间期间针对每个帧重复该处理。当经过了区域1的显示持续时间时，字幕片段解码器312和字体扩展单元313的对应于区域1的片段数据的处理停止，并且在那时区域1的片段数据立即从编码缓冲器311消失。

在区域1的所有片段数据存储在编码缓冲器311中之后，区域2的片段数据在编码缓冲器311中缓冲。针对区域2，依次执行与以上区域1类似的处理。

换言之，在区域2的所有片段数据存储在编码缓冲器311中并且经过了一定窗口时段(解码窗口)之后，由字幕片段解码器312解码片段数据，由字体扩展单元313扩展字体，并且获得区域2的位图数据。区域2的显示开始并持续显示持续时间。在示出的实例中，具有字符“defg”的区域2显示在屏幕上持续持续时间。

此后，继续类似的处理。

图20示出解码器缓冲器模型300b的更实际的操作的实例。该实例示出了区域1仅在某一定时显示，区域2从下一定时同时显示，区域1在某一定时不显示，并且然后，区域3的显示添加至区域2的显示。

区域1的片段数据在编码缓冲器311中缓冲。然后，在区域1的所有片段数据存储在编码缓冲器311中并经过了一定窗口时段(解码窗口)之后，pts1的定时到来。

在此，定义“显示偏移”。这表示从pts定时到显示开始定时的延迟。在示出的实例中，区域1的显示在pts1的定时开始，这意味着“显示偏移1＝0”。在这种情况下，由字幕片段解码器312解码区域1的片段数据，由字体扩展单元313扩展字体，并且在pts1的定时获得区域1的位图数据。因此，开始区域1的显示。在示出的实例中，开始具有字符“abc”的区域1的显示。

此外，在此定义“显示持续时间”。这表示显示持续时间。实例示出“显示持续时间1＝t1”，并且区域1的显示持续持续时间t1。在字幕片段解码器312和字体扩展单元313中，在区域1的显示持续时间期间针对每个帧重复该处理。当经过了区域1的显示持续时间时，字幕片段解码器312和字体扩展单元313的对应于区域1的片段数据的处理停止，并且在那时区域1的片段数据立即从编码缓冲器311中消失。

编码缓冲器311在pts1的定时的数据存储量是cbc_1。在此，缓冲器模型受限制使得编码缓冲器311的数据存储量cbc_k始终小于其缓冲器大小。

在区域1的所有片段数据存储在编码缓冲器311中之后，区域2的片段数据在编码缓冲器311中缓冲。然后，在区域2的所有片段数据存储在编码缓冲器311中并经过了一定窗口时段(解码窗口)之后，pts2的定时到来。编码缓冲器311在pts2的定时的数据存储量是cbc_2。

区域2的显示在pts2的定时开始，这意味着“显示偏移2-1＝0”。在这种情况下，由字幕片段解码器312解码区域2的片段数据，由字体扩展单元313扩展字体，并且在pts2的定时获得区域2的位图数据。因此，开始区域2的显示。在示出的实例中，具有字符“def”的区域2的显示开始。在这种情况下，从pts2的定时开始将区域2的显示添加至区域1的显示。应当注意，在pts2的定时，区域1的显示位置向上移。

然后，区域2显示持续持续时间t2_1，这意味着“显示持续时间2_1＝t2_1”。在示出的实例中，具有字符“def”的区域2示在屏幕上持续持续时间t2_1。在字幕片段解码器312和字体扩展单元313中，在区域2的显示持续时间期间针对每个帧重复该处理。

此外，对于区域2，在持续时间t2_1的结束定时，区域2的片段数据不从编码缓冲器311消失，而是保持。在从pts2的定时开始预定持续时间之后，在pts3的定时重新开始区域2的显示，这意味着“显示偏移2_1＝！0”。然后，区域2显示持续持续时间t2_2，这意味着“显示持续时间2_2＝t2_2”。当经过了区域2的所有显示持续时间时，区域2的片段数据立即从编码缓冲器311消失。

此外，在区域2的所有片段数据存储在编码缓冲器311中之后，区域3的片段数据在编码缓冲器311中缓冲。然后，在区域3的所有片段数据存储在编码缓冲器311中并且经过了一定窗口时段(解码窗口)之后，pts3的定时到来。编码缓冲器311在pts3的定时的数据存储量是cbc_2。

区域3的显示在pts3的定时开始，这意味着“显示偏移3＝0”。在这种情况下，由字幕片段解码器312解码区域3的片段数据，由字体扩展单元313扩展字体，并且在pts3的定时获得区域3的位图数据。因此，开始区域3的显示。在示出的实例中，开具有字符“ghjk”的区域3的显示始。在这种情况下，从pts3的定时开始将区域3的显示添加至区域2的显示。应当注意，在pts3的定时，区域2的显示位置向上移。

然后，区域3显示持续持续时间t3，这意味着“显示持续时间3＝t3”。在示出的实例中，具有字符“ghjk”的区域3显示在屏幕上持续持续时间t3。在字幕片段解码器312和字体扩展单元313中，在区域3的显示持续时间期间针对每个帧重复该处理。

应当注意，实例示出了持续时间t2_1的结束定时与pts3的定时之间存在时间差，但其可以是相同的定时。

图21示出解码器缓冲器模型300b的更实际的操作的另一实例。与在图20中示出的实例类似，该实例示出了区域1仅在某一定时显示，区域2从下一定时同时显示，区域1在某一定时不显示，并且然后，区域3的显示添加至区域2的显示。然而，与在图20中示出的实例不同，在区域1和2的所有片段数据存储在编码缓冲器311中之后，区域1的显示开始。

区域1的片段数据和区域2的片段数据在编码缓冲器301中缓冲。然后，在区域1和2的所有片段数据存储在编码缓冲器301中并经过了一定窗口时段(解码窗口)之后，pts1的定时到来。

此外，在此定义“显示持续时间”。这表示显示持续时间。实例示出“显示持续时间1＝t1”，并且区域1的显示持续持续时间t1。在字幕片段解码器312和字体扩展单元313中，在区域1的显示持续时间期间针对每个帧重复该处理。当经过了区域1的显示持续时间时，停止字幕片段解码器312和字体扩展单元313的对应于区域1的片段数据的处理，并且在那时区域1的片段数据立即从编码缓冲器311消失。

编码缓冲器311在pts1的定时的数据存储量是cbc_1。在此，缓冲器模型受限制使得编码缓冲器311的数据存储量cbc_k始终小于其缓冲器大小。

此外，从pts1的定时开始持续时间t2_0之后，在那时开始区域2的显示，这意味着“显示偏移2_1＝t2_0”。由字幕片段解码器312解码区域2的片段数据，由字体扩展单元313扩展字体，并且在那时获得区域2的位图数据。因此，开始区域2的显示。在示出的实例中，具有字符“def”的区域2的显示开始。在这种情况下，区域2的显示添加至区域1的显示。应当注意，区域1的显示位置向上移。

然后，区域2显示持续持续时间t2_1，这意味着“显示持续时间2_1＝t2_1”。在示出的实例中，具有字符“def”的区域2显示在屏幕上持续持续时间t2_1。在字幕片段解码器312和字体扩展单元313中，在区域2的显示持续时间期间针对每个帧重复该处理。

此外，在区域2的所有片段数据存储在编码缓冲器311中之后，区域3的片段数据在编码缓冲器311中缓冲。然后，在区域3的所有片段数据存储在编码缓冲器311中并经过了一定窗口时段(解码窗口)之后，pts3的定时到来。编码缓冲器311在pts3的定时的数据存储量是cbc_3。

区域3的显示在pts3的定时开始，这意味着“显示偏移3＝0”。在这种情况下，由字幕片段解码器312解码区域3的片段数据，由字体扩展单元313扩展字体，并且在pts3的定时获得区域3的位图数据。因此，开始区域3的显示。在示出的实例中，具有字符“ghjk”的区域3的显示开始。在这种情况下，从pts3的定时开始将区域3的显示添加至区域2的显示。应当注意，在pts3的定时，区域2的显示位置向上移。

应当注意，实例示出了持续时间t2_1的结束定时与pts3的定时之间存在时间差，但其可以是相同的定时。

返回到图2，ts格式器116通过对其传输打包，而复用视频编码器112生成的视频流、音频编码器113生成的音频流、以及字幕编码器115生成的字幕流，并获得传输流ts作为复用流。

简要地描述在图3中示出的流生成单元110的操作。图像数据dv被提供至视频编码器112。在视频编码器112中，对图像数据dv执行编码，并且生成具有编码的图像数据的视频流(pes流)。视频流被提供至ts格式器116。此外，将音频数据da提供至音频编码器113。在音频编码器113中，对音频数据da执行编码，并且生成具有编码的音频数据的音频流(pes流)。音频流被提供至ts格式器116。

此外，作为字幕信息的文本数据(字符代码)dt被提供至文本格式转换单元114。在文本格式转换单元114中，获得关于以预定格式的具有显示定时信息的字幕的文本信息(这里是ttml)。ttml被提供至字幕编码器115。

在字幕编码器115中，ttml被转换为各种片段，并且生成由pes数据包构成的字幕流，在pes数据包中片段布置在有效载荷中。字幕流被提供至ts格式器116。

pes数据包的有效载荷部分包含tcs、thms、thss、thls、以及tbs的片段，或者包含tcs和tws的片段。关于字幕(区域)的显示定时信息(具有关于显示开始定时和显示持续时间的信息)由tcs片段发送，并且ttml信息由其他片段发送。

在字幕编码器115中，当将ttml转换为片段时，基于对包含在ttml的主体中的每个字幕的显示开始定时和显示结束定时的描述，参考系统时间信息(视频和音频的pcr和同步时间)设置要插入到pes报头中的“pts”以及插入到tcs中的“显示偏移”和“显示持续时间”。

在ts格式器116中，通过对其传输打包而复用视频编码器112生成的视频流、音频编码器113生成的音频流、以及字幕编码器115生成的字幕流，并获得传输流ts作为复用流。

图22示出了传输流ts的配置实例。在该配置实例中，存在由pid1识别的视频流的pes数据包“视频pes”。此外，在该配置实例中，存在由pid2识别的音频流的pes数据包“音频pes”。此外，在该配置实例中，存在由pid3识别的字幕流的pes数据包“字幕pes”。

pes数据包由pes报头和pes有效载荷构成。在视频流的pes数据包中，dts/pts时间戳插入pes报头中，并且编码视频流插入在pes有效载荷中。此外，在音频流的pes数据包中，pts时间戳插入在pes报头中，并且编码音频流插入在pes有效载荷中。

此外，在字幕流的pes数据包中，pts时间戳插入在pes报头中，并且多个字幕片段插入在pes有效载荷中。换言之，字幕片段是tcs、thms、thss、thls、以及tbs的片段，或者是tcs和tws的片段。

此外，传输流ts包含节目映射表(pmt)作为节目指定信息(psi)。psi是据描述包含在传输流中的每个基本流属于哪个节目的信息。此外，传输流ts包含事件信息表(eit)作为用于在事件单元中执行管理的服务信息(si)。在eit中描述了节目单元中的元数据。

在pmt中存在用于描述关于所有节目的信息的节目描述符。此外，在pmt中存在具有有关每个基本流的信息的基本流环。在该配置实例中，存在视频基本流环(视频es环)、音频基本流环(音频es环)、以及字幕基本流环(字幕es环)。在每个环中，布置有关于数据包标识符(pid)等的信息，并且尽管未示出，但还布置有用于描述关于基本流的描述符。

[电视接收器的配置实例]

图23示出了电视接收器200的配置实例。电视接收器200包括接收单元201、ts分析单元202、视频解码器203、视频叠加单元204、面板驱动电路205、以及显示面板206。此外，电视接收器200包括音频解码器207、音频输出电路208、扬声器209、以及字幕解码器210。此外，电视接收器200包括cpu221、闪存rom222、dram223、内部总线224、远程控制接收单元225、以及远程控制发送器226。

cpu221控制电视接收器200中的部件的操作。闪存rom222存储控制软件和数据。dram223形成cpu221的工作区域。cpu221扩展从dram223中的闪存rom222中读取的软件或数据、启动软件、并控制电视接收器200中的部件。

远程控制接收单元225接收从远程控制发送器226发送的远程控制信号(远程控制代码)并将信号提供至cpu221。cpu221基于远程控制代码控制电视接收器200中的部件。cpu221、闪存rom222、以及dram223与内部总线224连接。

接收单元201接收从广播发送系统100在广播波上发送的传输流ts。如上所述，传输流ts包含视频流、音频流、以及字幕流。ts分析单元202从传输流ts提取视频流、音频流、以及字幕流的数据包。

音频解码器207对由ts分析单元202提取的音频流执行解码处理，并获得音频数据。音频输出电路208对音频数据执行必要的处理，诸如，d/a转换和放大，并将其提供至扬声器209。视频解码器203对由ts分析单元202提取的视频流执行解码处理，并获得图像数据。

字幕解码器210处理由ts分析单元202提取的每个区域的片段数据，并且输出要叠加到图像数据上的每个区域的位图数据。图24和图25示出字幕解码器210的配置实例。

在图24中示出的字幕解码器210具有对应于图14中的解码器缓冲器模型300a的配置。换言之，字幕解码器210包括编码缓冲器231、字幕片段解码器232、字体扩展单元233、以及位图缓冲器234。

编码缓冲器231暂时保持所接收的片段数据。字幕片段解码器232在预定定时对由编码缓冲器231保持的每个区域的片段数据执行解码处理，并获得每个区域的文本数据和控制代码。字体扩展单元233基于由字幕片段解码器232获得的每个区域的文本数据和控制代码来扩展字体，并获得每个区域的位图数据。

位图缓冲器234暂时保持由字体扩展单元233获得的每个区域的位图数据。从显示开始定时开始读取由位图缓冲器234保持的每个区域的位图数据并将其叠加在图像数据上，并且持续显示持续时间。

在此，字幕片段解码器232从pes数据包的pes报头中提取pts。此外，字幕片段解码器232从tcs片段中提取关于每个区域的“显示偏移”和“显示持续时间”的信息(参见图12)。信息被发送至cpu221。cpu221基于该信息控制字幕片段解码器232和字体扩展单元233的处理定时、从位图缓冲器234读取每个区域的位图数据的定时等，使得执行与用图14说明的解码器缓冲器模型300a的操作类似的操作(参见图15至图17)。

此外，在图25中示出的字幕解码器210具有对应于图18中的解码器缓冲器模型300b的配置。换言之，字幕解码器210包括编码缓冲器241、字幕片段解码器242、以及字体扩展单元243。

编码缓冲器241暂时保持所接收的片段数据。字幕片段解码器242对由编码缓冲器241保持的每个区域的片段数据连续执行每个帧的解码处理，并在每个区域的显示持续时间期间获得每个区域的文本数据和控制代码。字体扩展单元243基于由字幕片段解码器242获得的文本数据和控制代码针对每个帧扩展字体，并在每个区域的显示持续时间期间获得每个区域的位图数据。由字体扩展单元243获得的每个区域的位图数据叠加在图像数据上。

在此，字幕片段解码器242从pes数据包的pes报头中提取pts。此外，字幕片段解码器242从tcs片段中提取关于每个区域的“显示偏移”和“显示持续时间”的信息(参见图12)。该信息被发送至cpu221。cpu221基于该信息控制字幕片段解码器232和字体扩展单元233等的处理定时，使得执行与用图18说明的解码器缓冲器模型300b的操作类似的操作(参见图19至图21)。

返回到图23，视频叠加单元204将由字幕解码器210获得的每个区域的位图数据叠加到由视频解码器203获得的图像数据上。面板驱动电路205基于由视频叠加单元204获得的用于显示的图像数据来驱动显示面板206。例如，显示面板206由液晶显示器(lcd)、有机电致发光显示器等构成。

简要地描述了在图23中示出的电视接收器200的操作。在接收单元201中，接收从广播发送系统100在广播波上发送的传输流ts。传输流ts包含视频流、音频流、以及字幕流。

传输流ts被提供至ts分析单元202。在ts分析单元202中，从传输流ts中提取视频流、音频流、以及字幕流的数据包。由ts分析单元202提取的视频流(pes流)被提供至视频解码器203。在视频解码器203中，对视频流执行解码处理并获得图像数据。图像数据被提供至视频叠加单元204。

此外，由ts分析单元202提取的字幕流(pes流)被提供至字幕解码器210。在字幕解码器210中，处理每个区域的片段数据，并且输出要叠加到图像数据上的每个区域的位图数据。在这种情况下，在字幕解码器210中，基于有关从pts中提取的“显示偏移”和“显示持续时间”以及从pes报头中提取的tcs片段的信息，来控制每个区域的位图数据的输出定时。

将从字幕解码器210输出的每个区域的位图数据提供至视频叠加单元204。在视频叠加单元204中，从字幕解码器210输出的每个区域的位图数据被叠加到由视频解码器203获得的图像数据上。由视频叠加单元204获得的用于显示的图像数据被提供至面板驱动电路205。在面板驱动电路205中，基于显示的视频数据驱动显示面板206。因此，在显示面板206上显示叠加了区域的图像。

此外，将由ts分析单元202提取的音频流(pes流)提供至音频解码器207。在音频解码器207中，对音频流执行解码处理，并获得音频数据。音频数据被提供至音频输出电路208。在音频输出电路208中，对音频数据执行必要的处理，诸如，d/a转换和放大。然后，将处理的音频数据提供至扬声器209。因此，从扬声器209输出对应于显示面板206上的显示图像的音频。

如上所述，在图1中示出的收发器系统10中，具有关于字幕的文本信息和显示定时信息的字幕流连同视频流一起发送。因此，可以在接收侧上对字幕优异地执行显示定时控制。

此外，在图1中示出的收发器系统10中，字幕流包含具有ttml信息的片段和tcs片段，ttml信息具有关于字幕的文本信息和显示定时信息，并且tcs片段具有与ttml的显示定时信息相对应的显示定时信息(与显示开始定时和显示持续时间有关的信息)。因此，可以容易地从tcs片段获得显示定时信息，并且减少接收侧上的处理负荷。

此外，在图1中示出的收发器系统10中，当将ttml转换成发送侧上的片段时，基于与包含在ttml的主体中的每个字幕的显示开始定时和显示结束定时有关的描述，参考系统时间信息(视频和音频的pcr和同步时间)设置每个字幕的“pts”、“显示偏移”、以及“显示持续时间”。此时，在验证了使用解码器缓冲器模型正确地执行接收侧的操作时，设置“pts”、“显示偏移”、以及“显示持续时间”(参见图14和图18)，并且在接收侧上优异地执行字幕的显示定时控制。

<2.变形例>

应当注意，在以上的实施方式中，已举例说明ttml用作关于以预定格式的具有显示定时信息的字幕的文本信息。然而，本技术不限于此，并且可以使用具有与ttml等同的信息的其他定时文本信息。例如，可以使用ttml的衍生格式。

此外，在以上的实施方式中已描述了由广播发送系统100和电视接收器200构成的收发器系统10，但本技术可应用的收发器系统不限于此。例如，电视接收器200的部件可以是机顶盒和由数字接口(诸如，高清晰度多媒体接口(hdmi))连接的监视器。应当注意，“hdmi”是注册商标。

此外，本技术可以是以下配置：

(1)一种发送装置，包括：

视频编码器，生成具有编码的图像数据的视频流；

字幕编码器，生成具有关于字幕的文本信息和显示定时信息的字幕流；以及

发送单元，发送包含视频流和字幕流的传输流。

(2)根据(1)所述的发送装置，其中字幕编码器基于关于以预定格式的具有显示定时信息的字幕的文本信息，生成字幕流。

(3)根据(2)所述的发送装置，其中关于以预定格式的字幕的文本信息是ttml或是ttml的衍生格式。

(4)根据(1)至(3)中任一项所述的发送装置，其中关于字幕的显示定时信息至少具有与显示开始定时和显示持续时间有关的信息。

(5)根据(4)所述的发送装置，其中，

字幕流由pes数据包构成，pes数据包由pes报头和pes有效载荷构成，

关于字幕的文本信息和显示定时信息布置在pes有效载荷中，并且

显示开始定时由与插入在pes报头中的pts的显示偏移表示。

(6)一种发送方法，包括：

视频编码步骤，生成具有编码的图像数据的视频流；

字幕编码步骤，生成具有关于字幕的文本信息和显示定时信息的字幕流；以及

发送步骤，由发送单元发送包含视频流和字幕流的传输流。

(7)一种接收装置，包括：

接收单元，接收传输流，该传输流包含具有编码的图像数据的视频流和具有关于字幕的文本信息和显示定时信息的字幕流；

视频解码器，对视频流执行解码处理并获得图像数据；

字幕解码器，对字幕流执行解码处理并获得字幕的位图数据和关于字幕的显示定时信息；以及

显示控制单元，基于显示定时信息控制将字幕的位图数据叠加到图像数据上的定时。

(8)根据(7)所述的接收装置，其中关于字幕的显示定时信息具有至少与显示开始定时和显示持续时间有关的信息。

(9)根据(8)所述的接收装置，其中

字幕流由pes数据包构成，pes数据包由pes报头和pes有效载荷构成，

关于字幕的文本信息和显示定时信息布置在pes有效载荷中，并且

显示开始定时由与插入在pes报头中的pts的显示偏移表示。

(10)一种接收方法，包括：

接收步骤，由接收单元接收传输流，该传输流包含具有编码的图像数据的视频流和具有关于字幕的文本信息和显示定时信息的字幕流；

视频解码步骤，对视频流执行解码处理并获得图像数据；

字幕解码步骤，对字幕流执行解码处理并获得字幕的位图数据和关于字幕的显示定时信息；以及

显示控制步骤，基于显示定时信息控制将字幕的位图数据叠加到图像数据上的定时。

本技术的主要特点是通过将具有关于字幕的文本信息和显示定时信息的字幕流连同视频流一起发送而对接收侧上的字幕优异地执行显示定时控制(参见图22)。

参考符号列表

10收发器系统

100广播发送系统

110流生成单元

111控制单元

112视频编码器

113音频编码器

114文本格式转换单元

115字幕编码器

116ts格式器

200电视接收器

201接收单元

202ts分析单元

203视频解码器

204视频叠加单元

205面板驱动电路

206显示面板

207音频解码器

208音频输出电路

209扬声器

210字幕解码器

221cpu

231、241编码缓冲器

232、242字幕片段解码器

233、243字体扩展单元

234位图缓冲器

300a、300b解码器缓冲器模型

301、311编码缓冲器

302、312字幕片段解码器

303、313字体扩展单元

304位图缓冲器。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：塚越郁夫
技术所有人：索尼公司
我是此专利的发明人

上一篇：发送装置和发送方法以及接收装置和接收方法与流程
上一篇：发送方法、接收方法、发送装置及接收装置与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。