发送装置、发送方法、接收装置和接收方法与流程

文档序号：16513784发布日期：2019-01-05 09:30阅读：189来源：国知局

导航： X技术> 最新专利>电子通信装置的制造及其应用技术

本技术涉及一种发送装置、一种发送方法、一种接收装置和一种接收方法，具体地，涉及一种并行发送多种类型的字幕信息的发送装置等。

背景技术：

最近，已经提出了在文本字符代码中(即，基于文本)发送字幕信息。在这种情况下，在接收侧执行根据分辨率的字体展开。例如，万维网联盟(w3c)已经提出了时间文本标记语言(ttml)(参见专利文献1)。

引文列表

专利文献

专利文献1：日本专利申请公开号2012-169885。

技术实现要素：

本发明要解决的问题

众所周知，并行发送分别包括具有不同语言或内容的多种类型的字幕信息的多个字幕流，并且接收侧选择执行期望的字幕显示的流。在这种情况下，字幕流的数量随着字幕信息类型的增加而增加，并且担心在发送侧的多路复用由于同步而变得复杂。

本技术的目的是简化发送多种类型的字幕信息。

问题的解决方案

本技术的构思在于

一种发送装置，包括：

字幕编码单元，被配置为生成分别具有一条或两条或多条字幕信息的预定数量的字幕流；以及

发送单元，被配置为发送包括所述预定数量的字幕流的预定格式的容器。

在本技术中，由字幕编码单元生成分别具有一条或两条或多条字幕信息的预定数量的字幕流。例如，预定数量的字幕流中的每一个字幕流可以具有分段的字幕信息。由发送单元发送包括预定数量的字幕流的预定格式的容器。

例如，字幕编码单元可以被配置为生成分别具有不同语言的字幕信息的多个字幕流，并且多个字幕流中的每个字幕流可以具有分别具有不同内容的多条字幕信息。此外，例如，字幕编码单元可以被配置为生成分别具有不同内容的字幕信息的多个字幕流，并且多个字幕流中的每个字幕流可以具有分别具有不同语言的多条字幕信息。

如上所述，在本技术中，可以生成并发送包括多条字幕信息的字幕流。因此，即使字幕信息的类型增加，也可以抑制字幕流数量的增加，从而可以简化发送多种类型的字幕信息。

注意，在本技术中，例如，还可以包括信息插入单元，被配置为将与预定数量的字幕流中的每一个字幕流相关的信息插入容器中。例如，与每个字幕流的相关信息可以包括指示相应字幕流是否具有多条字幕信息的标志信息、识别相应字幕流的标识信息、识别相应字幕流具有的每条字幕信息的标识信息等。接收侧能够控制用户界面信息的显示处理，以便用户基于与预定数量的字幕流中的每一个字幕流相关的信息来执行期望的字幕显示的选择操作。

此外，本技术的另一构思在于

一种接收装置，包括：

接收单元，被配置为接收预定格式的容器，所述容器包括分别具有一条或两条或多条字幕信息的预定数量的字幕流；以及

控制单元，被配置为控制第一提取处理和第二提取处理，所述第一提取处理从所述预定数量的字幕流中提取一个字幕流，所述第二提取处理从所提取的一个字幕流中提取一条字幕信息。

在本技术中，由接收单元接收预定格式的容器，所述容器包括分别具有一条或两条或多条字幕信息的预定数量的字幕流。由控制单元控制控制第一提取处理和第二提取处理，所述第一提取处理从所述预定数量的字幕流中提取一个字幕流，所述第二提取处理从所提取的一个字幕流中提取一条字幕信息。

例如，将于预定数量的字幕流中的每一个字幕流相关的信息插入容器中，并且控制单元可以被配置为基于与预定数量的字幕流中的每一个字幕流相关的信息，进一步控制用于第一提取处理和第二提取处理的用户界面信息的显示处理。在这种情况下，用户可以基于用户界面信息适当且有效地执行字幕信息的选择操作。

如上所述，在本技术中，从预定数量的字幕流中提取一个字幕流，并且从所提取的一个字幕流中进一步提取一条字幕信息。因此，即使在预定数量的字幕流包括包含多条字幕信息的字幕流的情况下，也可以进行期望的字幕显示。

本发明的效果

根据本技术，可以简化发送多种类型的字幕信息。注意，本说明书中描述的效果仅仅是示例，并非限制性的，还可以显示额外的效果。

附图说明

[图1]是示出作为实施方式的发送/接收系统的配置示例的方框图。

[图2]是示出多个字幕流具有的字幕信息的示例的示图。

[图3]是示出用于从字幕流1和2执行期望字幕显示的字幕信息提取处理的流程的示图以及示出用户界面信息的显示示例的示图。

[图4]是示出在流提取处理中提取的字幕流中的时间序列变化的示例的示图；

[图5]是示出广播发送系统100的流生成单元的配置示例的方框图。

[图6]是示出ttml结构的示例的示图。

[图7]是示出字幕pes分组的结构示例和“pes_data_byte_field()”的结构示例的示图。

[图8]是示出结构示例中的字幕片段的结构示例和主要信息的内容的示图。

[图9]是示出片段类型的定义的示例的示图。

[图10]是示出在片段类型为“0×84”的情况下的片段有效载荷的结构示例的示图。

[图11]示出了片段有效载荷的结构示例中的主要信息的内容。

[图12]是示出文本字幕描述符的结构示例的示图。

[图13]是示出文本字幕描述符的结构示例中的主要信息的内容的示图。

[图14]是示出分组类型的定义的示例的示图。

[图15]是示出字体文件描述符的结构示例的示图。

[图16]是示出包括字幕流1和2的传输流ts的配置示例的示图。

[图17]是示出电视接收机的配置示例的方框图。

[图18]是用于描述基于用户或系统的选择信息来选择流和选择ttml片段的示图。

[图19]是示出多个字幕流具有的字幕信息的示例的示图。

[图20]是示出用于从字幕流1、2和3执行期望字幕显示的字幕信息提取处理的流程的示图以及示出用户界面信息的显示示例的示图。

[图21]是示出包括字幕流1、2和3的传输流ts的配置示例的示图。

具体实施方式

在下文中，将描述用于实现本发明的模式(在下文中称为“实施方式”)。注意，将按以下顺序给出描述。

1、实施方式

2、修改

<1、实施方式>

[发送/接收系统的配置示例]

图1示出作为实施方式的发送/接收系统10的配置示例。发送/接收系统10由广播发送系统100和电视接收机200配置。广播发送系统100通过广播波发送作为容器(多路复用流)的mpeg-2ts的传输流(以下简称为“传输流ts”)。

传输流ts包括预定数量的字幕流以及具有视频数据的视频流和具有音频数据的音频流。预定数量的字幕流中的每一个具有一条或两条或多条字幕信息。可以考虑字幕(字幕)的文本信息(例如，ttml、ttml的衍生格式等)作为字幕信息。在该实施方式中，字幕信息是ttml，并且字幕流具有分段的字幕信息。

广播发送系统100将与预定数量的字幕流中的每一个字幕流相关的信息插入作为容器的传输流ts中。该信息包括例如指示相应字幕流是否具有多条字幕信息的标志信息、识别相应字幕流的标识信息、识别相应字幕流具有的每条字幕信息的标识信息等。通过信息插入，接收侧可以适当地为用户执行用户界面信息的显示处理，以执行期望字幕显示的选择操作。

电视接收机200接收从广播发送系统100发送的传输流ts。电视接收机200对具有视频数据的视频流应用解码处理，以获取视频数据，并且对具有音频数据的音频流应用解码处理，以获取音频数据。

电视接收机200根据用户的选择操作从预定数量的字幕流中提取一个字幕流，并从所提取的一个字幕流中提取一条字幕信息。然后，电视接收机200对提取的一条字幕信息应用解码处理，以获取字幕的位图数据，并且将位图数据叠加在视频数据上，以获取用于显示的视频数据。

在这种情况下，电视接收机200基于与插入传输流ts中的预定数量的字幕流中的每一个字幕流相关的信息来显示用户界面信息(参见图3(b))，以方便用户的选择操作。用户可以通过基于用户界面信息执行选择操作来容易地控制期望的字幕显示。

在该实施方式中，假设字幕流1(分组id1)和字幕流2(分组id2)包括在传输流ts中，并且字幕流1和字幕流2中的每一个都具有三条字幕信息。图2示出了字幕流1和2具有的字幕信息的示例。

在此处，字幕流1具有“英语”语言的三条字幕信息，三条字幕信息分别具有“正常”、“听觉障碍”和“非本地”的内容。此外，字幕流2具有“法语”语言的三条字幕信息，三条字幕信息分别具有“正常”、“听觉障碍”和“非本地”的内容。

图3(a)示出了用于从电视接收机200中的字幕流1和2执行期望的字幕显示的字幕信息提取处理的流程。首先，在流提取处理(第一提取处理)中，从字幕流1和2中提取包括用于执行期望字幕显示的字幕信息的字幕流。接下来，在字幕信息提取处理(第二提取处理)中，从提取的字幕流中提取用于执行期望字幕显示的字幕信息。

图3(b)示出了用于用户选择操作的用户界面信息的显示示例。在语言选择“语言选择”中，选择“英语”或“法语”是可能的。此外，在内容选择“字幕类型选择”中，选择“正常的字幕(normalsubtitle)”、“听觉障碍的字幕(hardofhearingsubtitle)”或“非本地字幕(non-nativesubtitle)”是可能的。图示的示例指示已经选择了“英语”中的“正常的字幕”的状态。

图4(a)示出了在流提取处理中提取的字幕流中的时间序列变化的示例。显示定时为t1的字幕流具有“正常1”、“听觉障碍1”和“非本地1”的字幕信息。

在此处，“正常1”由于正常的字幕信息而具有分片段类型1，并且例如是用于显示“xxxyy”的字幕信息。“听觉障碍1”由于听觉障碍的字幕信息而具有分片段类型2，并且例如是显示“ggggjjjj”的字幕信息。“非本地1”由于非本地字幕信息而具有分片段类型3，并且例如是显示“fffhi”的字幕信息。

图4(b)示出了在字幕信息提取处理中已经以t1的显示定时从字幕流中提取了“正常1”的字幕信息的情况下的字幕显示示例。

此外，显示定时为t2的字幕流具有“正常2”、“听觉障碍2”和“非本地2”的字幕信息。

在此处，“正常2”由于正常的字幕信息而具有分片段类型1，并且例如是用于显示“xxxyyzzzz”的字幕信息。“听觉障碍2”由于听觉障碍的字幕信息而具有分片段类型2，并且例如是显示“ghgjkjjk”的字幕信息。“非本地2”由于非本地字幕信息而具有分片段类型3，并且例如是显示“fffhijjj”的字幕信息。

图4(c)示出了在字幕信息提取处理中以t2的显示定时从字幕流中提取了“听觉障碍2”的字幕信息的情况下的字幕显示示例。

[广播发送系统的流生成单元的配置示例]

图5示出了广播发送系统100的流生成单元110的配置示例。流生成单元110包括控制单元111、视频编码器112、音频编码器113、文本格式转换单元114、字幕编码器115和ts格式化器(多路复用器)116。

控制单元111具有包括例如中央处理单元(cpu)的配置，并且控制流生成单元110的每个单元的操作。视频编码器112输入视频数据dv并对视频数据dv应用编码，以在有效载荷中生成由具有编码的视频数据的视频pes分组配置的视频流。音频编码器113输入音频数据da并对音频数据da应用编码，以生成由具有编码的音频数据的音频pes分组配置的音频流。

文本格式转换单元114输入文本数据(字符代码)dt并获取作为字幕信息的时间文本标记语言(ttml)。图6示出了ttml结构的示例。基于xml描述ttml。ttml包括头部和主体。在头部，存在诸如元数据、样式、样式扩展和布局等元素。

元数据包括元数据的标题信息、版权信息等。除了标识符(id)之外，样式还包括诸如区域位置、大小、颜色、字体(fontfamily)、字体大小(fontsize)和文本对齐(textalign)等信息。除了设置字幕的区域的标识符(id)之外，布局还包括诸如偏移(padding，填充)、背景颜色(backgroundcolor)和对齐(displayalign)等信息。主体包括字幕的信息。描述了显示开始定时和显示结束定时，并且针对每个字幕描述了文本数据。

文本格式转换单元114获取对应于相同显示定时的多种类型的ttml。在该实施方式中，获取六种类型的ttml，包括(1)具有“英语”语言和“正常”内容的ttml、(2)具有“英语”语言和“听觉障碍”内容的ttml、(3)具有“英语”语言和“非本地”内容的ttml、(4)具有“法语”语言和“正常”内容的ttml、(5)具有“法语”语言和“听觉障碍”内容的ttml、以及(6)具有“法语”语言和“非本地”内容的ttml。

字幕编码器115将在文本格式转换单元114中获取的六种类型的ttml转换成片段(ttml片段)。然后，字幕编码器115生成包括字幕pes分组的字幕流1，其中，具有“英语”语言的上述(1)至(3)的ttml片段设置在有效载荷中，并且生成包括字幕pes分组的字幕流2，其中，具有“法语”语言的上述(4)至(6)的ttml片段设置在有效载荷中。

注意，在该实施方式中，字幕流1和2中还至少包括字体下载片段(font_download_segment)，该字体下载片段具有用于下载在ttml的字体指定信息中指定的字体文件的下载信息。换言之，字幕编码器115将字体下载片段插入到配置字幕流1和2中的每一个的字幕pes分组的有效载荷中。

图7(a)示出了字幕pes分组(pes_packet)的结构示例(语法)。“0x000001”的固定模式设置在“pes_startcode_prefix”的24位字段中。8位字段“stream_id”指示流标识符。在字幕pes分组的情况下，流标识符是“10111101”，这是指示“专用流1”的值。16位字段“pes_packet_length”指示后续字节的数量作为pes分组的长度(大小)。

在“pes_packet_length”后面存在字段“optional_pes_header()”。在该字段中，设置了例如pts和dts的时间戳。在该字段之后，存在字段“pes_packet_data_byte”。该字段对应于pes有效载荷。在该字段中，设置了用于存储数据的“pes_data_byte_field()”。

图7(b)示出了“pes_data_byte_field()”的结构示例(语法)。8位字段“data_identifier”指示用于识别容器部分中的数据类型的标识符。因为传统字幕(在位图的情况下)应该由“0x20”表示，所以可以用新的值来识别字幕，例如，在文本的情况下，“0x21”。

8位字段“subtitle_stream_id”指示用于识别字幕流的类型的标识符。在字幕流发送文本信息的情况下，该类型设置为新值，例如，“0x01”，并且可以与发送传统位图的字幕流“0x00”区分开。

在该字段“subtitle_stream_id”之后，按照“00001111”模式存在“timedtextsuttsling_segments()”字段。在该字段中，设置字幕片段(subtitle_segment)。在该字段之后，存在8位字段“end_of_pes_data_field_marker”。该字段是指示pes分组结束的标记。

图8(a)示出了字幕片段的结构示例(语法)。图8(b)示出了结构示例等中的主要信息的内容(语义)。8位字段“sync_byte”是指示片段开始的唯一字。8位字段“segment_type”指示片段类型。

图9示出了片段类型(segment_type)的定义的示例。例如，“0x01”指示正常的字幕(normalsubtitle)，“0x02”指示听觉障碍的字幕(hard_of_hearingsubtitle)，“0x03”指示非本地字幕(non-nativesubtitle)。此外，例如，“0x11”指示语言1(英语)的字幕，“0x12”指示语言2(法语)的字幕。此外，例如，“0x84”指示字体下载(fontdownload)。

返回图8(a)，8位字段“segment_id”指示段标识。16位字段“segment_length”指示将后续字节的数量表示为字幕片段的长度(大小)。4位字段“version_number”指示信息更新。在进行更新的情况下，值一次增加1。

在片段类型为“0x01”、“0x02”、“0x03”、“0x11”或“0x12”的情况下，ttml文档(参见图6)设置在字段“segment_payload()”中。

图10示出了在片段类型是“0x84”的情况下片段有效载荷(segment_payload())的结构示例(语法)，图11示出了结构示例中的主要信息的内容(语义)。

16位字段“original_network_id”指示将下载数据发送到的网络的标识信息。16位字段“transport_stream_id”指示各个传输流的标识信息。16位字段“service_id”指示要下载的服务的标识信息。在下载目标被分发媒体共用的情况下，字体文件可以不通过其自己的传输流而是通过另一传输流来发送，并且在这种情况下，作为用于指定参考的专用部分的信息，可以指定信息“original_network_id”、“transport_stream_id”和“service_id”。

8位字段“font_file_id”指示分配给字体文件的标识号。24位字段“iso_639_language_code”指示用于识别语言的具有三个字符的代码。例如，“jpn”表示日语，“eng”表示英语。8位字段“font_group_id”指示字体组的标识信息，并对应于ttml的族类名称(genericfamily)。8位字段“font_name_id”指示各种字体名称。

8位字段“url_type”指示服务器的类型。例如，“0x01”指示字体服务器(未压缩的url)，“0x02”指示普通服务器(未压缩的url)，“0x11”指示字体服务器(压缩的url)，“0x12”指示普通服务器(压缩的url)。8位字段“url_string_length”指示字符代码部分的长度(大小)，字符代码部分指示字节数中的后续url的字符串。字符代码设置在字段“char”中。

返回参考图5，ts格式化器116发送并多路复用在视频编码器112中生成的视频流、在音频编码器113中生成的音频流以及在字幕编码器115中生成的字幕流1和2，从而获取作为容器的传输流ts(多路复用流)。

在这种情况下，ts格式化器116将与包括在传输流ts中的两个字幕流1和2中的每一个字幕流相关的信息插入节目映射表(pmt)中。具体地，ts格式化器116生成待新定义的并具有该信息的文本字幕描述符(text_subtitle_descriptor)，并将该文本字幕描述符插入到与字幕流1和2中的每一个对应的字幕基本流循环(字幕es循环)中。

图12示出了文本字幕描述符的结构示例(语法)。图13示出了结构示例中的主要信息的内容(语义)。8位字段“descriptor_tag”指示描述符类型，在此处指示文本字幕描述符。8位字段“descriptor_length”指示描述符的长度(大小)并且指示后续字节数作为描述符的长度。

8位字段“packet_type”指示分组类型，如图8(b)所示。

图14示出了分组类型(packet_type)的定义的示例。例如，“0x01”指示正常的字幕(normalsubtitle)，“0x02”指示听觉障碍的字幕(hard_of_hearingsubtitle)，“0x03”指示非本地字幕(non-nativesubtitle)。此外，例如，“0x11”指示语言1(英语)的字幕，“0x12”指示语言2(法语)的字幕。此外，例如，“0x84”指示字体下载(ontdownload)。

返回图12，1位字段“multiplexed_segment_packet_flag”指示字幕流是否包括多条字幕信息。7位字段“number_of_segments”指示字幕流中包括的字幕信息的条数。然后，8位字段“segment_id”、8位字段“segment_type”和24位字段“iso_639_language_code”重复出现的数量与字幕信息的数量一样多。字段“segment_id”指示片段标识。“segment_type”字段指示片段类型。“iso_639_language_code”指示用于识别语言的具有三个字符的代码。

注意，在该实施方式中，将字体文件描述符(font_file_descriptor)插入到与字幕流1和2中的每一个对应的字幕基本流循环(字幕es循环)中，字体文件描述符具有至少用于下载在ttml的字体指定信息中指定的字体的文件的下载信息。

图15示出了字体文件描述符的结构示例(语法)。8位字段“descriptor_tag”指示描述符类型，在此处指示字体文件描述符。8位字段“descriptor_length”指示描述符的长度(大小)，并且指示后续字节的数量作为描述符的长度。注意，在图10所示的片段类型是“0x84”的情况下，其他字段类似于片段有效载荷的结构示例，因此省略了对其的详细描述。

将简要描述图5所示的流生成单元110的操作。将视频数据dv提供给视频编码器112。在视频编码器112中，对视频数据dv应用编码，并且在有效载荷中生成视频流，视频流包括具有编码的图像数据的视频pes分组。将该视频流提供给ts格式化器116。

此外，将音频数据da提供给音频编码器113。在音频编码器113中，对音频数据da应用编码，并且生成音频流，该音频流包括具有编码的音频数据的音频pes分组。将该音频流提供给ts格式化器116。

此外，将文本数据(字符代码)dt提供给文本格式转换单元114。在文本格式转换单元114中，获取作为字幕信息的ttml(参见图6)。在这种情况下，获取对应于相同的显示定时的六种类型的ttml。换言之，获取包括以下六种类型的ttml：(1)具有“英语”语言和“正常”内容的ttml；(2)具有“英语”语言和“听觉障碍”内容的ttml；(3)具有“英语”语言和“非本地”内容的ttml；(4)具有“法语”语言和“正常”内容的ttml；(5)具有“法语”语言和“听觉障碍”内容的ttml；以及(6)具有“法语”语言和“非本地”内容的ttml。

将文本格式转换单元114中所获取的六种类型的ttml提供给字幕编码器115。在字幕编码器115中，将六种类型的ttml转换成片段(ttml片段)(参见图8(a)和图6)。然后，在字幕编码器115中，生成包括字幕pes分组的字幕流1，其中，上面(1)至(3)的具有“英语”语言的ttml片段设置在有效载荷中，并且生成包括字幕pes分组的字幕流2，其中，上面(4)至(6)的具有“法语”语言的ttml片段设置在有效载荷中。将这些字幕流1和2提供给ts格式化器116。

注意，在字幕编码器115中，在字幕流1和2中还至少包括字体下载片段(font_download_segment)，该字体下载片段具有用于下载在ttml的字体指定信息中指定的字体文件的下载信息(参见图8(a)和图10)。

在ts格式化器116中，在视频编码器112中生成的视频流、在音频编码器113中生成的音频流以及在字幕编码器115中生成的字幕流1和2进行传输分组和多路复用，并且生成作为容器的传输流ts(多路复用流)。

在这种情况下，在ts格式化器116中，插入具有与相应字幕流的信息相关的文本字幕描述符(text_subtitle_descriptor)(参见图12)，此外，将字体文件描述符(font_file_descriptor)插入(参见图15)到对应于pmt下的每个字幕流1和2的字幕基本流循环(字幕es循环)中，该字体文件描述符(font_file_descriptor)具有至少用于下载在ttml的字体指定信息中指定的字体文件的下载信息。

“传输流ts的配置示例”

图16示出了传输流ts的配置示例。在该配置示例中，省略了视频和音频部分的配置。在该配置示例中，存在作为用pid1识别的字幕流1的pes分组的字幕1pes分组“字幕1pes”，并且存在作为用pid2识别的字幕流2的pes分组的字幕2pes分组“字幕2pes”。

在字幕1pes分组中，在pes有效载荷中插入具有英语语言(＝第一语言)的字幕信息的三种类型的ttml片段。换言之，在该pes有效载荷中，插入了片段类型为“0x01”的正常的字幕(normalsubtitle)、片段类型为“0x02”的听觉障碍的字幕(hard_of_hearingsubtitle)和片段类型为“0x03”的非本地字幕(non-nativesubtitle)的ttml片段。此外，在该pes有效载荷中，还插入了片段类型为“0x84”的字体下载片段。

类似地，在字幕2pes分组中，在pes有效载荷中插入具有法语语言(＝第二语言)的字幕信息的三种类型的ttml片段。换言之，在该pes有效载荷中，插入了片段类型为“0x01”的正常的字幕(normalsubtitle)、片段类型为“0x02”的听觉障碍的字幕(hard_of_hearingsubtitle)和片段类型为“0x03”的非本地字幕(non-nativesubtitle)的ttml片段。此外，在该pes有效载荷中，还插入了片段类型为“0x84”的字体下载片段。

此外，传输流ts包括节目映射表(pmt)，作为节目特定信息(psi)。该psi是描述包括在传输流ts中的每个基本流属于哪个节目的信息。在pmt中，存在描述与整个节目相关的信息的节目描述符。

在该pmt中，存在具有与字幕流1相关的信息的字幕1基本流循环(字幕1es循环)。在该循环中，设置诸如分组标识符(pid)等信息，并且还对应于字幕流1来设置描述与字幕流相关的信息的描述符。

作为该描述符，插入文本字幕描述符(text_subtitle_descriptor)和字体文件描述符(font_file_descriptor)(参见图12和15)。文本字幕描述符具有与相应字幕流相关的信息。在这种情况下，分组类型为“0x11”。字体文件描述符至少具有下载信息，用于下载在ttml的字体指定信息中指定的字体的文件。

此外，在该pmt中，存在具有与字幕流2相关的信息的字幕2基本流循环(字幕2es循环)。在该循环中，设置诸如分组标识符(pid)等信息，并且还对应于字幕流2来设置描述与字幕流相关的信息的描述符。

作为该描述符，插入文本字幕描述符(text_subtitle_descriptor)和字体文件描述符(font_file_descriptor)(参见图12和15)。文本字幕描述符具有与相应字幕流相关的信息。在这种情况下，分组类型为“0x12”。字体文件描述符至少具有下载信息，用于下载在ttml的字体指定信息中指定的字体的文件。

[电视接收机的配置示例]

图17示出了电视接收机200的配置示例。电视接收机200包括接收单元201、ts分析单元(多路分用器)202、视频解码器203、视频叠加单元204、面板驱动电路205和作为监视器(显示器)的显示面板206。此外，电视接收机200包括音频解码器207、音频输出电路208、扬声器209和字幕解码器210。此外，电视接收机200包括cpu221、闪存rom222、dram223、内部总线224、遥控接收单元225、遥控发射机226和通信接口227。

cpu221控制电视接收机200的每个单元的操作。闪存rom222存储控制软件并存储数据。dram223配置cpu221的工作区。cpu221在dram223上展开从闪存rom222读取的软件和数据，激活软件，并控制电视接收机200的每个单元。

遥控接收单元225接收从遥控发射器226发送的遥控信号(遥控代码)，并将遥控代码提供给cpu221。cpu221基于遥控代码来控制电视接收机200的每个单元。cpu221、闪存rom222和dram223连接到内部总线224。

通信接口227在cpu221的控制下执行与存在于诸如因特网等网络上的服务器的通信。通信接口227连接到内部总线224。

接收单元201从广播发送系统100接收在广播波上发送的传输流ts。如上所述，传输流ts包括视频流、音频流以及字幕流1和2。ts分析单元202从传输流ts中提取视频、音频和字幕流。

在这种情况下，ts分析单元202分析插入每个ts分组的报头中的各种类型的信息，并且基于“pid”选择性地提取ts分组以获取视频、音频或字幕的每个流，该ts分组包括视频、音频或字幕的每个pes分组的数据。

此外，ts分析单元202分析插入每个ts分组的报头中的各种类型的信息，基于“pid”提取插入传输流ts中的各种类型的信息，并将该信息发送到cpu221。该信息还包括文本字幕描述符和字体文件描述符(参见图12和图15)。

cpu221从文本字幕描述符获取与相应字幕流相关的信息。该信息包括例如指示相应字幕流是否具有多条字幕信息的标志信息、识别相应字幕流的标识信息、识别相应字幕流具有的每条字幕信息的标识信息等。此外，cpu221从字体文件描述符获取至少用于下载在ttml的字体指定信息中指定的字体文件的信息。

音频解码器207对在ts分析单元202中提取的音频流应用解码处理，以获取音频数据。音频输出电路208对音频数据应用必要的处理，例如，d/a转换和放大，并将音频数据提供给扬声器209。视频解码器203对在ts分析单元202中提取的视频流应用解码处理，以获取视频数据。

字幕解码器210对在ts分析单元202中提取的字幕流应用解码处理，以从时间文本字幕片段(timedtext字幕片段)获取ttml。

在这种情况下，仅仅选择性地提取包括在传输流ts中的两个字幕流1和2中的一个字幕流，并将该字幕流从ts分析单元202提供给字幕解码器210。此外，在字幕解码器210中，仅仅选择性地提取并解码包括在从ts分析单元202提供的字幕流中的三个ttml片段中的一个，以获取ttml。

当cpu221向ts分析单元202提供分组类型(packet_type)(参见图14)的信息时，执行流的选择，即，如图18所示，基于用户或系统的语言选择信息来指定分组类型。如上所述，在图3(b)所示的用户选择操作的用户界面信息中，用户可以在语言选择“语言选择操作”中选择“英语”或“法语”。注意，在cpu221的控制下，基于与预定数量的字幕流中的每一个相关的信息，在显示面板206上显示用户界面信息。

例如，在选择“英语”的情况下，分组类型是“0x11”，并且ts分析单元202提取字幕流1。此外，例如，在选择“法语”的情况下，分组类型是“0x12”，并且ts分析单元202提取字幕流2。

此外，当cpu221向字幕解码器210提供片段类型(segment_type)(参见图9)的信息时，执行ttml片段的选择，即，如图18所示，基于用户或系统的内容选择信息来指定片段类型。如上所述，在图3(b)所示的用户选择操作的用户界面信息中，用户可以在内容选择“字幕类型选择”中选择“正常的字幕(normalsubtitle)”、“听觉障碍的字幕(hardofhearingsubtitle)”，或者“非本地字幕(non-nativesubtitle)”是可能的。

例如，在选择“正常的字幕(normalsubtitle)”的情况下，片段类型是“0x01”，并且字幕解码器210提取包括“正常”ttml的ttml片段。此外，例如，在选择“听觉障碍的字幕(hardofhearingsubtitle)”的情况下，片段类型是“0x02”，并且字幕解码器210提取包括“听觉障碍的字幕”ttml的ttml片段。此外，例如，在选择“非本地字幕(non-nativesubtitle)”的情况下，片段类型是“0x03”，并且字幕解码器210提取包括“非本地”ttml的ttml片段。

字幕解码器210将通过对提取的一个ttml片段应用解码处理而获取的ttml发送给cpu221。cpu221从ttml获取字幕显示位置信息等。

此外，字幕解码器210提取包括在字幕流(pes分组)中的字体下载片段(参见图8(a)和图10)，该字幕流(pes分组)是在ts分析单元202中提取的，并且字幕解码器210将字体下载片段发送到cpu221。cpu221至少从字体下载片段获取用于下载在ttml的字体指定信息中指定的字体文件的信息。

此外，字幕解码器210在cpu221的控制下，将包括在ttml中的每个字幕显示位置(区域)处的字幕(字幕)的文本数据(字体数据)转换成位图数据(二进制图像信息)。

在此处，字幕解码器210在cpu221的控制下获取字幕的位图数据时，使用在ttml的字体指定信息中指定的字体文件。当电视接收机200不具有字体指定信息中指定的字体文件时，如上所述，cpu221基于插入到pes分组、pmt等中的下载信息，从广播信号(传输流ts)或网络上的服务器中适当地下载字体文件，并使用下载的字体文件。注意，当不能下载文件时，cpu221使用替代字体文件(例如，默认字体文件)。

视频叠加单元204在cpu221的控制下，将在字幕解码器210中获取的每个字幕显示位置的字幕的位图数据叠加在视频解码器203中获取的视频数据上，以获取显示视频数据。在这种情况下，cpu221执行控制，使得字幕的位图数据的叠加位置位于由字幕显示位置信息确定的字幕显示位置。

面板驱动电路205基于在视频叠加单元204中获取的显示视频数据来驱动显示面板206。显示面板206由例如液晶显示器(lcd)、有机电致发光(el)显示器等配置。

将简要描述图17所示的电视接收机200的操作。在接收单元201中，接收在广播波上从广播发送系统100发送的传输流ts。传输流ts包括视频流、音频流以及字幕流1和2。将传输流ts提供给ts分析单元202。在ts分析单元202中，从传输流ts中提取视频、音频和字幕的流。

此外，在ts分析单元202中，提取插入在传输流ts中的各种类型的信息，并将该信息发送到cpu221。该信息还包括文本字幕描述符和字体文件描述符(参见图12和15)。

利用该信息，cpu221从文本字幕描述符获取与相应字幕流相关的信息。此外，在cpu221中，从字体文件描述符获取至少用于下载在ttml的字体指定信息中指定的字体文件的信息。

将在ts分析单元202中提取的视频流提供给视频解码器203。在视频解码器203中，对视频pes流应用解码处理，并且获取视频数据。

此外，将在ts分析单元202中提取的字幕流提供给字幕解码器210。在字幕解码器210中，对字幕流应用解码处理，并且从时间文本字幕片段获取ttml。

在这种情况下，仅仅选择性地提取包括在传输流ts中的两个字幕流1和2中的一个字幕流，并将该字幕流从ts分析单元202提供给字幕解码器210。此外，在字幕解码器210中，仅仅选择性地提取并解码从ts分析单元202提供的字幕流中包括的三个ttml片段中的一个，以获取ttml。

基于用户或系统的语言选择信息，在cpu221的控制下执行ts分析单元202中的流的选择。注意，在cpu221的控制下，基于用户或系统的语言选择信息，来执行字幕解码器210中的ttml片段的选择。用户可以通过选择语言和内容来使得显示期望的字幕。

在字幕解码器210中，从在ts分析单元202中获取的字幕流中提取字体下载片段，并将其发送到cpu221。在cpu221中，从字体下载片段获取至少用于下载在ttml的字体指定信息中指定的字体文件的信息。

将在字幕解码器210中获取的ttml发送到cpu221。在cpu221中，从ttml获取字幕显示位置信息等。

此外，在字幕解码器210中，提取包括在ts分析单元202中提取的字幕流(pes分组)中的字体下载片段(参见图8(a)和图10)，并将其发送到cpu221。在cpu221中，从字体下载片段获取至少用于下载在ttml的字体指定信息中指定的字体文件的信息。

此外，在字幕解码器210中，在cpu221的控制下，将ttml中包括的每个字幕显示位置(区域)处的字幕(字幕)的文本数据(字体数据)转换成位图数据(二进制图像信息)。

在此处，在字幕解码器210中，当在cpu221的控制下获取字幕的位图数据时，使用在ttml的字体指定信息中指定的字体文件。当电视接收机200不具有字体指定信息中指定的字体文件时，如上所述，cpu221基于插入pes分组、pmt等中的下载信息，从广播信号(传输流ts)或网络上的服务器适当地下载字体文件，并使用下载的字体文件。注意，当不能下载文件时，cpu221使用替代字体文件(例如，默认字体文件)。

将在从字幕解码器210输出的每个字幕显示位置的字幕位图数据提供给视频叠加单元204。在视频叠加单元204中，将在字幕解码器210中获取的每个字幕显示位置的字幕位图数据叠加在视频解码器203中获取的视频数据上，并且获取显示视频数据。在这种情况下，cpu221基于由字幕显示位置信息确定的字幕显示位置，来控制字幕位图数据的叠加位置位于字幕显示位置。

将在视频叠加单元204中获取的显示视频数据提供给面板驱动电路205。在面板驱动电路205中，基于显示视频数据驱动显示面板206。通过该操作，在显示面板206上显示其中字幕(字幕)叠加在每个字幕显示位置(区域)上的图像。

此外，将在ts分析单元202中提取的音频流提供给音频解码器207。在音频解码器207中，对音频流应用解码处理，并且获取音频数据。将该音频数据提供给音频输出电路208。在音频输出电路208中，对音频数据执行必要的处理，例如，d/a转换和放大。然后，将处理后的音频数据提供给扬声器209。结果，从扬声器209获取与显示面板206上的显示图像对应的声音输出。

如上所述，在图1所示的发送/接收系统10中，广播发送系统100生成并发送包括多条字幕信息(ttml片段)的字幕流。因此，即使字幕信息的类型增加，也可以抑制字幕流的数量的增加，从而可以简化发送多种类型的字幕信息。

此外，在图1所示的发送/接收系统10中，广播发送系统100将与预定数量的字幕流中的每一个相关的信息插入作为容器的字幕流ts中并发送该容器。因此，接收侧能够控制用户界面信息的显示处理，以便用户基于与预定数量的字幕流中的每一个相关的信息来执行期望字幕显示的选择操作。

此外，在图1所示的发送/接收系统10中，电视接收机200从预定数量的字幕流中提取一个字幕流，并且还从提取的一个字幕流中提取一条字幕信息(ttml片段)。因此，即使在预定数量的字幕流包括包含多条字幕信息的字幕流的情况下，也可以进行期望的字幕显示。

<2、修改>

注意，在上述实施方式中，已经描述了以下情况：在广播发送系统100中生成的传输流ts中包括字幕流1(分组id1)和字幕流2(分组id2)，该字幕流1具有三条字幕信息(ttml片段)，该三条字幕信息(ttml片段)具有“英语”语言以及“正常”、“听觉障碍”和“非本地”内容，该字幕流2具有三条字幕信息(ttml片段)，该三条字幕信息(ttml片段)具有“法语”语言以及“正常”、“听觉障碍”和“非本地”内容。

然而，也可以考虑以下示例：在广播发送系统100中生成的传输流ts中包括：具有内容为“正常”的字幕信息(ttml片段)的字幕流1(分组id1)、具有内容为“听觉障碍”的字幕信息(ttml片段)的字幕流2(分组id2)以及具有内容为“非本地”的字幕信息(ttml片段)的字幕流3(分组id3)。

图19示出了字幕流1、2和3具有的字幕信息的示例。在此处，字幕流1具有分别具备“正常”的内容以及“英语”和“法语”的语言的两条字幕信息。此外，字幕流2具有分别具备“听觉障碍”的内容以及“英语”和“法语”的语言两条字幕信息。此外，字幕流3具有分别具备“非本地”的内容以及“英语”和“法语”的语言的两条字幕信息。

图20(a)示出了如上所述在字幕流1、2和3包括在传输流ts中的情况下，从电视接收机200中的字幕流1、2和3中提取用于执行期望字幕显示的字幕信息的处理流程。

首先，在流提取处理(第一提取处理)中，从字幕流1、2和3中提取包括用于执行期望字幕显示的字幕信息的字幕流。接下来，在字幕信息提取处理(第二提取处理)中，从提取的字幕流中提取用于执行期望字幕显示的字幕信息。

图20(b)示出了用于用户选择操作的用户界面信息的显示示例。在语言选择“语言选择”中，选择“英语”或“法语”是可能的。此外，在内容选择“字幕类型选择”中，选择“正常的字幕(normalsubtitle)”、“听觉障碍的字幕(hardofhearingsubtitle)”或“非本地字幕(non-nativesubtitle)”是可能的。图示的示例指示选择了“法语”中的“听觉障碍的字幕”的状态。

图21示出了包括字幕流1、2和3的传输流ts的配置示例。在该配置示例中，省略了视频和音频部分的配置。在该配置示例中，存在作为用pid1识别的字幕流1的pes分组的字幕1pes分组“字幕1pes”、作为用pid2识别的字幕流2的pes分组的字幕2pes分组“字幕2pes”、以及作为用pid3识别的字幕流3的pes分组的字幕3pes分组“字幕3pes”。

在字幕1pes分组中，具有具备正常内容的字幕信息的两种类型的ttml片段插入pes有效载荷中。换言之，在该pes有效载荷中，插入了片段类型为“0x11”的英语字幕的ttml片段、片段类型为“0x12”的法语字幕的ttml片段。此外，在该pes有效载荷中，还插入了片段类型为“0x84”的字体下载片段。

类似地，在字幕2pes分组中，将具有具备听觉障碍内容的字幕信息的两种类型的ttml片段插入pes有效载荷中。换言之，在该pes有效载荷中，插入了片段类型为“0x11”的英语字幕的ttml片段、片段类型为“0x12”的法语字幕的ttml片段。此外，在该pes有效载荷中，还插入了片段类型为“0x84”的字体下载片段。

类似地，在字幕3pes分组中，具有具备非本地内容的字幕信息的两种类型的ttml片段插入pes有效载荷中。换言之，在该pes有效载荷中，插入了片段类型为“0x11”的英语字幕的ttml片段、片段类型为“0x12”的法语字幕的ttml片段。此外，在该pes有效载荷中，还插入了片段类型为“0x84”的字体下载片段。

在该pmt中，存在具有与字幕流1相关的信息的字幕1基本流循环(字幕1es循环)。在该循环中，设置诸如分组标识符(pid)等信息，并且还对应于字幕流1来描述与字幕流相关的信息的描述符。

作为该描述符，插入文本字幕描述符(text_subtitle_descriptor)和字体文件描述符(font_file_descriptor)(参见图12和15)。文本字幕描述符具有与相应字幕流相关的信息。在这种情况下，分组类型为“0x01”。字体文件描述符至少具有用于下载在ttml的字体指定信息中指定的字体的文件的下载信息。

作为该描述符，插入文本字幕描述符(text_subtitle_descriptor)和字体文件描述符(font_file_descriptor)(参见图12和15)。文本字幕描述符具有与相应字幕流相关的信息。在这种情况下，分组类型为“0x02”。字体文件描述符至少具有用于下载在ttml的字体指定信息中指定的字体的文件的下载信息。

此外，在该pmt中，存在具有与字幕流3相关的信息的字幕3基本流循环(字幕2es循环)。在该循环中，设置诸如分组标识符(pid)等信息，并且还对应于字幕流3来设置描述与字幕流相关的信息的描述符。

作为该描述符，插入文本字幕描述符(text_subtitle_descriptor)和字体文件描述符(font_file_descriptor)(参见图12和15)。文本字幕描述符具有与相应字幕流相关的信息。在这种情况下，分组类型为“0x03”。字体文件描述符至少具有用于下载在ttml的字体指定信息中指定的字体的文件的下载信息。

此外，在上述实施方式中，已经描述了容器是传输流(mpeg-2ts)的示例。然而，本技术不限于mpeg-2ts的容器，并且可以类似地用另一种格式的容器来实现，例如，mmt或isobmff。

此外，在上述实施方式中，已经描述了包括广播发送系统100和电视接收机200的发送/接收系统10。然而，可以应用本技术的发送/接收系统的配置不限于发送/接收系统10。例如，电视接收机200可以具有通过诸如高清晰度多媒体界面(hdmi)等数字界面连接的机顶盒、监视器等的配置。注意，“hdmi”是注册商标。

此外，本技术还可以具有以下配置。

(1)一种发送装置，包括：

字幕编码单元，被配置为生成分别具有一条或两条或多条字幕信息的预定数量的字幕流；以及

发送单元，被配置为发送包括预定数量的字幕流的预定格式的容器。

(2)根据(1)所述的发送装置，其中，

预定数量的字幕流中的每一个字幕流具有分段的字幕信息。

(3)根据(1)或(2)所述的发送装置，其中，

字幕编码单元生成分别具有不同语言的字幕信息的多个字幕流，并且

多个字幕流中的每一个字幕流具有分别具有不同内容的多条字幕信息。

(4)根据(1)或(2)所述的发送装置，其中，

字幕编码单元生成分别具有不同内容的字幕信息的多个字幕流，并且

多个字幕流中的每一个字幕流具有分别具有不同语言的多条字幕信息。

(5)根据(1)至(4)中任一项所述的发送装置，还包括：

信息插入单元，被配置为将与预定数量的字幕流中的每一个字幕流相关的信息插入容器中。

(6)根据(5)所述的发送装置，其中，

与每一个字幕流相关的信息包括指示相应字幕流是否具有多条字幕信息的标志信息。

(7)根据(5)或(6)所述的发送装置，其中，

与每一个字幕流相关的信息包括识别相应字幕流的标识信息。

(8)根据(5)至(7)中任一项所述的发送装置，其中，

与每一个字幕流相关的信息包括识别相应字幕流具有的每条字幕信息的标识信息。

(9)一种发送方法，包括：

字幕编码步骤，生成分别具有一条或两条或多条字幕信息的预定数量的字幕流；以及

发送步骤，由发送单元发送包括预定数量的字幕流的预定格式的容器。

(10)一种接收装置，包括：

接收单元，被配置为接收预定格式的容器，容器包括分别具有一条或两条或多条字幕信息的预定数量的字幕流；以及

控制单元，被配置为控制第一提取处理和第二提取处理，第一提取处理从预定数量的字幕流中提取一个字幕流，第二提取处理从所提取的一个字幕流中提取一条字幕信息。

(11)根据(10)所述的接收装置，其中，

将与预定数量的字幕流中的每一个字幕流相关的信息插入容器中，并且

所述控制单元

基于与预定数量的字幕流中的每一个字幕流相关的信息，进一步控制用于第一提取处理和第二提取处理的用户界面信息的显示处理。

(12)一种接收方法，包括：

接收步骤，由接收单元接收预定格式的容器，容器包括分别具有一条或两条或多条字幕信息的预定数量的字幕流；以及

控制步骤，控制第一提取处理和第二提取处理，第一提取处理从预定数量的字幕流中提取一个字幕流，第二提取处理从所提取的一个字幕流中提取一条字幕信息。

本技术的主要特征是，即使字幕信息的类型增加，也抑制字幕流的数量增加，因此，通过生成并发送包括多条字幕信息的字幕流来简化多种字幕信息的发送(参见图2和16)。

附图标记列表

10发送/接收系统

100广播发送系统

110流生成单元

111控制单元

112视频编码器

113音频编码器

114文本格式转换单元

115字幕编码器

116ts格式化器

200电视接收机

201接收单元

202ts分析单元

203视频解码器

204视频叠加单元

205面板驱动电路

206显示面板

207音频解码器

208音频输出电路

209扬声器

210字幕解码器

221cpu

227通信接口。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：塚越郁夫
技术所有人：索尼公司
我是此专利的发明人

上一篇：一种饮用矿泉水水质检测装置的制作方法
上一篇：一种工件的吊装工装的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。