语音信号处理方法及实现此的终端和服务器的制造方法_2

文档序号：9828247阅读：来源：国知局

器的具体操作过程的示例的顺序图。
[0063] 图12是表示根据本发明公开的又一实施例的终端的内部构造的模块图。
[0064] 图13是进一步详细地表示根据本发明公开的又一实施例的服务器的内部构造的丰吴块图。
[0065] 图14是进一步详细地表示图12所示出的终端的内部构造的模块图。
[0066] 图15是进一步详细地表示图13所示出的终端的内部构造的模块图。
[0067] 图16是表示根据本发明公开的又一实施例的终端的语音处理方法的顺序图。
[0068]图17是表示根据本发明公开的又一实施例的服务器的语音处理方法的顺序图。 [0069]图18是表示个人信息的图。
[0070]图19是按音标来表示个人信息的图。
[0071]图20是表示将个人信息映射于ID的映射表的图。
[0072]图21是表示将个人信息的音标映射于ID的映射表的图。
[0073]图22是将个人信息ID表示为音标ID的图。
[0074]图23是表示根据本发明公开的另一实施例的终端设备和服务器的具体操作过程的不例的顺序图。
[0075] 符号说明
[0076] 1〇〇:终端 110:接收单元
[0077] 130:通信单元 150:控制单元
[0078] 200:服务器 210:接收单元
[0079] 230:通信单元 250:控制单元
【具体实施方式】
[0080] 参照根据附图而详细说明的实施例，将会更加明确地了解本发明的优点及特征还有用于达到目的之方法。然而本发明并不局限于以下公开的实施例，其可以实现为互不相同的多种形态，只不过为了完整地公开本发明并将本发明的范围完整地告知本发明所属的
技术领域中具有基本的知识的技术人员而提供实施例，本发明只由权利要求书的范畴定义。贯穿整个说明书，相同的附图标记指相同的构成要素。
[0081] 贯穿整个说明书，在说明过程中当提到某个部分与另一部分"连接"时，其不仅包括"直接连接"的情况，还包括在其中间放置另一元件而"形成电连接"的情况。此外，贯穿整个说明书，当提到某一部分"包括"某一构成要素时，在没有其他特别的相反记载的情况下，并不排除其他构成要素的可存在性，其表示还可以包括其他构成要素的含义。此外，本说明书中使用的术语"单元"意味着软件、FPGA或者ASIC等硬件构成要素，而且"单元"执行某种特定的功能。但是，"单元"的含义并不局限于软件或者硬件。"单元"可以配备于可寻址的存储介质中，也可以配备为再生出一个或者一个以上的处理器。因此，作为一例，"单元"包括：软件构成要素、面向对象的(object-oriented)软件构成要素、类构成要素以及任务构成要素等构成要素，还可以包括流程、函数、属性、程序(procedure)、子程序(subroutine)、程序代码段(segment )、驱动器、固件、微码、电路、数据、数据库、数据结构、表格、数组以及变量。构成要素与"单元"中提供的功能可以结合为更少的构成要素以及"单元"，或者可以分离为追加的构成要素和"单元"。
[0082] 以下，参照附图而对本发明公开的实施例进行详细的说明，从而使本发明所属的
技术领域中具有基本知识的人员能够容易地实施本发明。然而本发明公开的实施例可通过多种不同的形式来实现，而并不局限于在此说明的实施例。而且，为了能够明确地对附图中公开的实施例进行说明，将会省去与说明无关的部分。
[0083] 在本发明公开的实施例中使用的术语是考虑到其在本发明公开的实施例中的功能而选用的，同时尽可能选择了目前普遍采用的一般术语，然而其可以根据本领域技术人员的意图或者先例、新技术的出现等而有所不同。此外，在特定的情况下还可以出现申请人所任意选定的术语，在此情况下，将在该发明的说明部分对其含义进行详细的记述。因此，在本发明公开的实施例中使用的术语不仅仅是单纯的术语的名称，而是需要基于那些术语具有的含义和贯穿本发明公开的整个实施例的内容来对其作出定义。
[0084] 在本说明书中，私密化信息区间（personalized information section)表不语音信号中的包含有能够直接地或者间接地识别出各个个人的个人信息的区间。例如，在语音信号中，把存储于用户终端的通讯录中的姓名、用户的检索记录、用户的位置信息等包括在内的区间可以对应于个人信息区间。
[0085] 本说明书中的一般信息区间（general information section)是语音信号中的包含有作为非个人信息的一般信息的区间，其表示除了私密化信息区间以外的其余的区间。例如，包括"打电话吧"、"吃饭了吗?"等具有一般的含义的语句的区间可以对应于一般信息区间。
[0086] 在本说明书中，私密化模型(personalized model)作为反映出按个人的特征的语音处理模型，是针对特定的个人的匹配型语音处理模型。
[0087]在本说明书中，一般模型(general model)作为一般性的语音处理模型，是用于非特定者（即，非特定的对象或要素）的语音处理的语音处理模型。
[0088] 图1是表示根据本发明公开的实施例的终端的内部构造的模块图。
[0089] 参照图1，根据本发明公开的实施例的终端100包括:接收单元110、通信单元130以及控制单元150。
[0090] 接收单元110执行接收语音信号的功能。接收单元110可以包括:麦克风单元、USB 接口单元、DVD接口单元等多样的构成要素。例如，在接收单元110包括麦克风单元的情况下，终端100可以通过麦克风单元而直接接收语音信号。另外，在接收单元110包括USB接口单元的情况下，终端100还可以从USB中接收语音信号文件。此外，在通过通信单元130而从外部装置中接收语音信号的情况下，通信单元130还可以执行接收单元110的作用。
[0091] 通信单元130执行与外部装置进行通信的功能。通信单元130可以通过有线或无线方式连接于网络，从而可以执行与外部装置之间的通信。根据本发明公开的实施例，通信单元130可以与服务器通信而收发数据。例如，通信单元130可以包括:近距离通信模块、移动通信模块、无线网络模块、有线网络模块等。此外，通信单元130还可以包括一个以上的构成要素。
[0092] 控制单元150控制终端100整体的操作，并可以控制接收单元110以及通信单元130 而处理语音信号。控制单元150可以包括:RAM，用于存储从终端100的外部输入的信号或者数据，或者可以使用为与电子设备中执行的多样的操作对应的存储区域;R0M，存储用于控制周围设备的控制程序；以及处理器(processor)。处理器可以由集成了芯(core;未图示）和GPU(未图示）的SoC(System On Chip)来实现。此外，处理器还可以包括多个处理器。
[0093] 根据本发明公开的实施例的控制单元150通过接收单元120接收语音信号，从而在接收到的语音信号中检测出包括个人信息的私密化信息区间，并且利用基于个人信息来生成的私密化模型而对与私密化信息区间对应的语音信号进行数据处理，而且通过控制而实现通过通信单元130而从服务器接收对与作为私密化信息区间以外的区间的一般信息区间对应的音频信号执行数据处理的结果。此时，从服务器中接收的对与一般信息区间对应的语音信号进行数据处理的结果可以是服务器利用一般模型而对与一般信息区间对应的语音信号进行处理的结果。服务器具有较高的运算能力，其可以对一般信息区间进行快速数据处理。
[0094] 另外，控制单元150可以通过控制而实现通过通信单元130生成针对私密化信息区间和一般信息区间的语音区间信息并传输到服务器，或者可以通过控制而实现从服务器接收对应于私密化信息区间和一般信息区间的语音区间信息。在此，语音区间信息可以包括区间标记信息，标出语音信号中的私密化信息区间以及一般信息区间中的至少一个区间。 [0095] 此外，控制单元150还可以通过控制而将语音处理结果输出给用户。
[0096] 根据本发明公开的实施例，终端100可以利用基于个人信息来生成的私密化模块而对与私密化信息区间对应的语言信号进行数据处理，而对作为私密化信息区间以外的区间的一般信息区间所对应的语言信号则接收由服务器进行数据处理的结果。服务器只对一般信息区间执行数据处理，而在数据处理过程中并不使用私密化模型。因此，服务器和终端 100之间不发生任何形式的包含个人信息的信息传输，据此，服务器中不会存储任何的个人信息。结果，根据本发明公开的实施例，可以实现如下的语言处理系统：既可以从根本上保护个人信息，又可以具有更高的性能以及处理速度。
[0097] 根据本发明公开的另一实施例的控制单元150以如下方式执行控制:通过接收单元100接收语音信号，通过通信单元130从服务器接收利用一般模型而对语音信号进行数据处理的结果，并利用数据处理结果以及基于个人信息来生成的私密化模型而进行数据处理。在此情况下，服务器200具有高运算能力，其可以对一般信息区间进行快速的数据处理。此外，私密化模型可以是私密化语音识别模型、语言理解模型以及私密化词汇模型中的至少一个模型。
[0098]此外，控制单元150在利用数据处理结果以及基于个人信息来生成的私密化模型而对语音信号执行数据处理时，可以通过控制而对与包含个人信息的私密化区间对应的语音信号执行数据处理。此时，控制单元150可以通过控制而实现检测出语音信号中的私密化信息区间，也可以通过控制而实现通过通信单元130从服务器接收对应于私密化信息区间和一般信息区间的语音区间信息。在此，语音区间信息可以包括区间标记信息，标出语音信号中的私密化信息区间以及一般信息区间中的至少一个区间。
[0099] 根据本发明公开的实施例，终端可以从服务器接收利用一般模型而对语音信号进行数据处理的结果，并利用数据处理结果以及基于个人信息来生成的私密化模型而对接收到的语音信号再次执行数据处理。即，利用私密化模型的语音处理工作只在终端100中执行，因此，服务器和终端100之间不会发生任何形式的包括个人信息的信息传输，据此服务器中不会存储任何个人信息。结果，根据本发明公开的实施例，可以实现一种语言处理系统，其既可以从根本上保护个人信息，也可以具有更高的性能以及处理速度。
[0100] 图2是表示根据本发明公开的实施例的服务器的内部结构的模块图。
[0101] 参照图2,根据本发明公开的实施例的服务器200包括接收单元210、通信单元230 以及控制单元250。
[0102] 接收单元210执行接收语音信号的功能。接收单元210可以包括USB接口单元、DVD 接口单元等能够由多样的形式来接收语音信号的构成要素。例如，在接收单元210包括USB 接口单元的情况下，服务器200可以从USB接收语音信号文件。此外，在通过通信单元230而从外部装置接收语音信号的情况下，通信单元230可以执行接收单元210的功能。
[0103] 通信单元230执行与外部装置进行通信的功能。通信单元230可以由有线或者无线的方式连接于网络，从而执行与外部装置之间的通信。根据本发明公开的实施例，通信单元 230可以与终端100执行数据的传输和接收。根据本发明公开的实施例，通信单元130与服务器进行通信，从而可以进行数据的传输和接收。例如，通信单元130可以包括近距离通信模块、移动通信模块、无线网络模块、有线网络模块等。此外，通信单元还可以包括一个以上的构成要素。
[0104] 控制单元250控制服务器200的整体操作，并可以通过控制接收单元210以及通信单元230而处理语音信号。控制单元250可以包括:RAM，存储从服务器200的外部输入的信号或者数据，或者被使用为在电子装置中执行的多样的操作所对应的存储区域;R0M，存储用于控制外部设备的程序；以及处理器(processor)。处理器可以由集成了芯（未图示)和GPU (未图示）的SoC(System On Chip)来实现。此外，处理器还可以包括多个处理器。
[0105]根据本发明公开的实施例的控制单元250通过接收单元210接收语音信号，并检测出其语音信号中包括个人信息的私密化信息区间，并且利用基于个人信息来生成的私密化模型而对与私密化信息区间对应的语音信号进行数据处理，而且通过控制而实现通过通信单元230而使对与一般信息区间对应的语音信号进行数据处理的结果传输到终端100。
[0106] 此时，控制单元250可以生成针对私密化信息区间和一般信息区间的语音区间信息并通过通信单元230传输到终端100,或者可以从终端100接收对应于私密化信息区间和一般信息区间的语音区间信息。在此，语音区间信息可以包括区间标记信息，标出语音信号中的私密化信息区间以及一般信息区间中的至少一个区间。
[0107] 根据本发明公开的实施例，服务器200只对一般信息区间所对应的语音信号执行数据处理，而在数据处理过程中并不使用私密化模型171。因此，服务器和终端100之间不发生任何形式的包含个人信息的信息传输，据此，服务器中不会存储任何的个人信息。结果，根据本发明公开的实施例，可以实现一种语言处理系统，其既可以从根本上保护个人信息，又可以具有更高的性能以及处理速度。
[0108] 根据本发明公开的另一实施例的控制单元250实现通过接收单元210接收语音信号，从而利用一般模型而对语音信号中的与作为私密化信息区间以外的区间的一般信息区间对应的语音信号进行数据处理，并通过通信单元230而将数据处理的结果传输到终端。控制单元250可以生成语音信号中对应于私密化语音区间的语音区间信息，并可以将生成的语音区间信息传输到终端100。在此，语音区间信息可以包括区间标记信息，标出语音信号中的私密化信息区间以及一般信息区间中的至少一个区间。
[0109] 根据本发明公开的实施例，服务器200只利用一般模型而对接收到的语音信号进行数据处理，因此在数据处理过程中并不使用私密化模型171。因此，服务器和终端100之间不发生任何形式的包含个人信息的信息传输，据此，服务器中不会存储任何的个人信息。结果，根据本发明公开的实施例，可以实现一种语言处理系统，其既可以从根本上保护个人信息，又可以具有更高的性能以及处理速度。
[0110] 图3是进一步详细地表示图1所示出的终端的内部结构的模块图。图3中省去对与图1重复的构成要素进行的说明。
[0111] 控制单元150可以包括语音处理引擎151。根据本发明公开的实施例，语音处理引擎可以包括语音识别引擎(ASR engine)和语言理解引擎(N

完整全部详细技术资料下载

当前第2页1 2 3 4 5 6