声音处理装置、声音处理方法以及存储介质与流程

文档序号：15618951发布日期：2018-10-09 21:53阅读：221来源：国知局

本发明的实施方式涉及声音处理装置、声音处理方法以及存储介质。

背景技术：

在日常环境中传达适当的消息是非常重要的。尤其是汽车导航中的注意提醒以及危险通知、进而是在紧急灾害广播中不应该被淹没于周围的环境声音而进行通知的消息等，即使考虑之后的行动也需要切实地送到。

作为在汽车导航中为了进行注意提醒以及危险通知而广泛使用的方法，可列举用光进行的刺激以及蜂鸣声的追加等。

然而，在现有技术中，由于通过从通常的声音引导增加刺激来进行注意提醒，因此会产生在注意提醒的瞬间使驾驶员等利用者受到惊吓这一现象。受到惊吓后的利用者的行动趋于迟缓，原本应该通过刺激促使顺畅的危机回避行动，有时反而会导致限制行动的结果。

技术实现要素：

实施方式的声音处理装置具备确定部和调制部。确定部将要输出的声音所包含的一个以上的声音中的任意的一个以上基于所述声音的属性确定为强调部分。调制部对第1输出部要输出的第1声音及第2输出部要输出的第2声音中的至少一方的强调部分进行调制，以使得在第1声音的强调部分与第2声音的强调部分之间音调(pitch)及相位中的至少一方不同。

根据上述声音处理装置，无需改变声音信号的强度，就能够使利用者的注意力增强。

附图说明

图1是第1实施方式涉及的声音处理装置的框图。

图2是表示实施方式的扬声器的配置的一例的图。

图3是表示测定结果的一例的图。

图4是表示实施方式的扬声器的配置的另一例的图。

图5是表示实施方式的扬声器的配置的另一例的图。

图6是用于说明音调调制以及相位调制的图。

图7是表示相位之差(度)与背景声音的声压(db)之间的关系的图。

图8是表示频率差(hz)与背景声音的声压(db)之间的关系的图。

图9是第1实施方式中的声音输出处理的流程图。

图10是第2实施方式涉及的声音处理装置的框图。

图11是第2实施方式中的声音输出处理的流程图。

图12是第3实施方式涉及的声音处理装置的框图。

图13是第3实施方式中的声音输出处理的流程图。

图14是第4实施方式涉及的声音处理装置的框图。

图15是表示存储部所存储的数据的结构的一例的图。

图16是第4实施方式中的声音输出处理的流程图。

图17是表示用于指定作为学习对象的部位的指定画面的一例的图。

图18是表示学习画面的一例的图。

图19是表示学习画面的另一例的图。

图20是表示学习画面的另一例的图。

图21是表示学习画面的另一例的图。

图22是实施方式涉及的声音处理装置的硬件构成图。

标号说明

100、100-2、100-3、100-4：声音处理装置

101、101-3、101-4：受理部

102、102-3、102-4：确定部

103、103-2、103-3、103-4：调制部

104、104-4：输出控制部

105：扬声器

106-2：生成部

121、121-4：存储部

122-4：显示部

具体实施方式

以下，参照附图，详细地对本发明所涉及的声音处理装置的优选的实施方式进行说明。

在发明人的实验中，确认了：在从多个声音输出装置(扬声器、耳机等)的每一个来听音调及相位中的至少一方不同的声音的情况下，无论声音的物理大小(响度)如何，基于知觉的清晰度都会增加，并且注意水平会上升。此时，几乎没有观测到惊吓的感觉。

根据以往的想法，认为在从多个声音输出装置的每一个来听音调及相位中的某一方不同的声音的情况下，清晰度减小，因此可听度(audibility)会恶化。然而，如上所述在发明人的实验中，确认到了：在用左右耳听音调及相位中的至少一方不同的声音的情况下清晰度上升，注意水平上升。

这表明了听觉使用两耳来更明确地感知声音的功能，是至今没有的新发现。以下的实施方式以该发现为基础，能够利用由对于左右耳而言音调以及相位的至少一方不同的声音实现的知觉上升来进行注意提醒以及危险通知。

(第1实施方式)

第1实施方式涉及的声音处理装置对与强调部分对应的声音的音调及相位中的至少一方进行调制，输出调制后的声音。由此，无需改变声音信号的强度，就能够使利用者的注意力增强，使其顺畅地执行接下来的动作。

图1是表示第1实施方式涉及的声音处理装置100的构成的一例的框图。如图1所示，声音处理装置100具备存储部121、受理部101、确定部102、调制部103、输出控制部104和扬声器105-1～105-n(n为2以上的整数)。

存储部121存储由声音处理装置100使用的各种数据。例如存储部121存储被输入的文本数据以及从文本数据中确定的表示强调部分的数据等。存储部121能够通过hdd(harddiskdrive)、ssd(solidstatedrive)、光盘、存储卡、ram(randomaccessmemory)等一般被利用的一切存储介质来构成。

扬声器105-1～105-n是依照来自输出控制部104的指示而输出声音的输出部。扬声器105-1～105-n具备同样的构成，因此在没有必要区分的情况下有时会简称为扬声器105。以下，以在要向扬声器105-1(第1输出部)以及扬声器105-2(第2输出部)这两个扬声器的组输出的声音之间调制音调及相位中的至少一方的情况为例进行说明。也可以对两个以上的组适用同样的处理。

受理部101受理作为处理对象的各种数据。例如受理部101受理要变换为声音并输出的文本数据的输入。

确定部102确定要输出的声音中的、表示要强调并输出的部分的强调部分。强调部分相当于为了进行注意提醒以及危险通知等而调制音调及相位中的至少一方并输出的部分。例如确定部102根据被输入的文本数据来确定强调部分。在对输入的文本数据事先附加有用于确定强调部分的信息的情况下，确定部102能够参照被附加的信息(附加信息)来确定强调部分。确定部102也可以通过对文本数据与预先确定的表示强调部分的数据进行对照，确定强调部分。确定部102也可以执行基于附加信息的确定及基于数据对照的确定这两方。表示强调部分的数据既可以存储于存储部121，也可以存储于声音处理装置100的外部的存储装置。

确定部102也可以执行将表示对所确定的强调部分进行强调这一情况的信息(附加信息)附加于文本数据的编码处理。后级的调制部103能够参照如此附加的附加信息，判定要进行调制的强调部分。附加信息可以是任何形式的，只要能够判定是强调部分这一情况即可。另外，确定部102也可以将执行了编码处理后的文本数据保存于存储部121等存储介质。由此，在之后的声音输出处理中，能够利用事先附加了附加信息的文本数据。

调制部103对要输出的声音的音调及相位中的至少一方即调制对象进行调制。例如调制部103以使得在使扬声器105-1输出的声音(第1声音)的强调部分与使扬声器105-2输出的声音(第2声音)的强调部分之间调制对象不同的方式，对至少一方的声音的强调部分的调制对象进行调制。

在本实施方式中，调制部103在生成对文本数据进行变换而得到的声音时，依次判定文本数据是否为强调部分，并对强调部分执行调制处理。即，调制部103在对文本数据进行变换来生成使扬声器105-1输出的声音(第1声音)以及使扬声器105-2输出的声音(第2声音)时，针对强调部分的文本数据，生成以使调制对象互不相同的方式对至少一方的调制对象进行了调制而得到的第1声音以及第2声音。

将文本数据变换为声音的处理(声音合成处理)能够使用共振峰声音合成以及基于声音语料库的声音合成等一直以来所使用的一切方法。

在调制相位的情况下，调制部103也可以反转对扬声器105-1以及扬声器105-2中的一方输入的信号的极性。由此，扬声器105的一方相对于另一方成为反相，能够实现与调制声音数据的相位的情况同样的功能。

调制部103也可以确认处理对象的数据的完整性，在确认了完整性的情况下进行调制处理。例如在附加于文本数据的附加信息是指定表示强调部分的开始的信息、和表示强调部分的结束的信息的形式的情况下，调制部103也可以在能够确认表示开始的信息与表示结束的信息对应的情况下进行调制处理。

输出控制部104控制从扬声器105的声音的输出。例如输出控制部104使扬声器105-1输出调制对象被进行了调制的第1声音，使第2声音从扬声器105-2输出。在具备扬声器105-1以及扬声器105-2以外的扬声器105的情况下，输出控制部104对各扬声器105分配最佳的声音并使其输出。各扬声器105基于来自输出控制部104的输出数据来输出声音。

输出控制部104使用扬声器105的位置以及特性等参数，计算向各扬声器105的输出(放大器输出)。这些参数例如存储于存储部121。

例如，在两个扬声器105中使所需的声压一致的情况下，如下这样计算向各扬声器的放大器输出w1、w2。将两个扬声器的距离设为l1、l2。l1(l2)例如是扬声器105-1(扬声器105-2)与头部中心之间的距离。也可以使用从各扬声器105到最近的耳朵的距离。将使用的声音的可听区域的扬声器105-1(扬声器105-2)的增益设为gs1(gs2)。距离加倍时声压会降低6db，针对3db的声压上升，放大器输出需要加倍。为了使两耳之间的声压一致，输出控制部104计算并决定放大器输出w1、w2，以使下式成立。

-6×(l1/l2)×(1/2)+(2/3)×gs1×w1＝

-6×(l2/l1)×(1/2)+(2/3)×gs2×w2

受理部101、确定部102、调制部103以及输出控制部104例如既可以通过使cpu(centralprocessingunit)等一个以上的处理器执行程序、即由软件来实现，也可以由ic(integratedcircuit)等一个以上的处理器、即硬件来实现，还可以并用软件以及硬件来实现。

图2是表示本实施方式的扬声器105的配置的一例的图。图2表示从利用者205的铅垂上方观察下方时的扬声器105的配置的例子。从扬声器105-1和扬声器105-2播放通过调制部103执行了调制处理后的声音。扬声器105-1被置于利用者205的右耳的延长线上。扬声器105-2可以以经过扬声器105-1与右耳的线作为基准呈角度地放置。

发明人沿着曲线203或者曲线204改变扬声器105-2的位置，测定在输出对音调以及相位进行了调制后的声音的情况下的注意力，在每种情况下都确认到了注意力的增强。对于注意力，使用eeg(electroencephalogram，脑电图)、nirs(near-infraredspectroscopy，近红外光谱)以及主观评价等评价基准来测定。

图3是表示测定结果的一例的图。图3的坐标图的横轴表示扬声器105的配置角度。配置角度例如是连结扬声器105-1和利用者205的线与连结扬声器105-2和利用者205的线所成的角度。如图3所示，在配置角度为90°至180°时注意力的增强明显。因此，优选扬声器105-1与扬声器105-2配置为使得配置角度呈90°至180°。此外，由于可检测出注意力，因此配置角度只要大于0°，则也可以小于90°。

虽然也可以对声音的整个区间的音调或者相位进行调制，但在该情况下，存在由于习惯等而注意力减弱的可能性。于是，调制部103仅对由附加信息等所确定的强调部分进行调制。由此，能够更有效地使对强调部分的注意力提高。

图4是表示本实施方式的扬声器105的配置的另一例的图。图4表示例如为了在屋外输出户外广播所设置的扬声器105的配置的例子。如图3所示，优选使用具有90°至180°的配置角度的扬声器105的组。因此，在图4的例子中，对以180°的配置角度配置的扬声器105-1、扬声器105-2的组执行声音的调制处理。

图5是表示本实施方式的扬声器105的配置的另一例的图。图5是作为耳机构成了扬声器105-1以及扬声器105-2的例子。

扬声器105的配置例不限于图2、图4以及图5。只要以如图3所示那样可获得注意力的配置角度配置，可以是任意组合的扬声器。例如，也可以对为了汽车导航而使用的多个扬声器适用本实施方式。

接着，对音调调制以及相位调制进行说明。图6是用于说明音调调制以及相位调制的图。相位调制输出：以声音的包络线604为基础，对于原始信号601不改变相对于同一包络线的单位时间内的波数，而变更了峰值的时间位置的信号603。音调调制输出对波数进行了变更的信号602。

接着，说明音调或者相位的调制与声音的听取容易度之间的关系。图7是表示相位之差(度)与背景声音的声压(db)之间的关系的图。相位之差表示要从两个扬声器105输出的声音间的相位之差(例如要从扬声器105-1输出的声音的相位、与要从扬声器105-2输出的声音的相位之差)。背景声音的声压表示利用者能够听到被输出的声音的、背景声音的声压的最大值(极限声压)。

背景声音是从扬声器105输出的声音以外的声音。例如周围的噪声以及输出的除声音以外的音乐等声音相当于背景声音。图7的用矩形所示的点表示所获得的值的平均值。用该点的上下的线示出的范围表示所获得的值的标准偏差。

如图7所示，即使在存在大于等于0.5db的背景声音的情况下，只要相位之差大于等于60°且小于等于180°，利用者也能够听到从扬声器105输出的声音。因此，调制部103也可以执行调制处理以使得相位之差变为大于等于60°且小于等于180°。调制部103也可以执行调制处理以获得极限声压更高的、大于等于90°且小于等于180°、或者大于等于120°且小于等于180°的相位差。

图8是表示频率差(hz)与背景声音的声压(db)之间的关系的图。频率差表示要从两个扬声器105输出的声音的频率之差(例如要从扬声器105-1输出的声音的频率、与要从扬声器105-2输出的声音的频率之差)。图8的用矩形所示的点表示所获得的值的平均值。该点旁边所附的数值“a，b”中的a表示频率差，b表示背景声音的声压。

如图8所示，即使在存在背景声音的情况下，只要频率差大于等于100hz(赫兹)，利用者也能够听到从扬声器105输出的声音。因此，调制部103也可以执行调制处理以使得在可听域的范围内频率差达到100hz以上。

接着，使用图9，说明由如此构成的第1实施方式涉及的声音处理装置100进行的声音输出处理。图9是表示第1实施方式中的声音输出处理的一例的流程图。

受理部101受理文本数据的输入(步骤s101)。确定部102判断文本数据是否附加有附加信息(步骤s102)。没有附加的情况下(步骤s102：否)，确定部102根据文本数据确定强调部分(步骤s103)。例如确定部102通过对被输入的文本数据、与预先确定的表示强调部分的数据进行对照，确定强调部分。确定部102将表示强调部分的附加信息附加于对应的文本数据的强调部分(步骤s104)。附加信息的附加方法可以是任何方法，只要调制部103能够确定强调部分即可。

在附加了附加信息后(步骤s104)、或者在文本数据附加有附加信息的情况下(步骤s102：是)，调制部103生成如下声音(第1声音、第2声音)，该声音与文本数据对应，是针对强调部分的文本数据调制了调制对象以使得调制对象互不相同而得到的声音(步骤s105)。

输出控制部104按各扬声器105决定要输出的声音，并使其输出所决定的声音(步骤s106)。各扬声器105依照输出控制部104的指示输出声音。

如此，在第1实施方式涉及的声音处理装置中，生成与文本数据对应的声音，并且相对于与强调部分对应的文本数据，调制声音的音调及相位中的至少一方，输出调制后的声音。由此，无需改变声音信号的强度，就能够使利用者的注意力增强。

(第2实施方式)

在第1实施方式中，将文本数据依次变换为声音时，相对于强调部分的文本数据进行调制处理。第2实施方式涉及的声音处理装置在生成对文本数据的声音后，对生成的声音中的与强调部分相当的声音进行调制处理。

图10是表示第2实施方式涉及的声音处理装置100-2的构成的一例的框图。如图10所示，声音处理装置100-2具备存储部121、受理部101、确定部102、调制部103-2、输出控制部104、扬声器105-1～105-n和生成部106-2。

在第2实施方式中，调制部103-2的功能以及追加了生成部106-2之处不同于第1实施方式。其他构成以及功能与第1实施方式涉及的声音处理装置100的框图即图1是同样的，因此，赋予相同标号并省略此处的说明。

生成部106-2生成与文本数据对应的声音。例如生成部106-2将被输入的文本数据变换为要输出到扬声器105-1的声音(第1声音)以及要输出到扬声器105-2的声音(第2声音)。

调制部103-2对通过生成部106-2生成的声音中的、强调部分的声音进行调制处理。例如调制部103-2以使得在所生成的第1声音的强调部分与所生成的第2声音的强调部分之间调制对象不同的方式，对第1声音及第2声音中的至少一方的强调部分的调制对象进行调制。

接着，使用图11，说明由如此构成的第2实施方式涉及的声音处理装置100-2进行的声音输出处理。图11是表示第2实施方式中的声音输出处理的一例的流程图。

步骤s201至步骤s204是与第1实施方式涉及的声音处理装置100中的步骤s101至步骤s104同样的处理，因此省略其说明。

在本实施方式中，被输入文本数据时，执行由生成部106-2进行的声音生成处理(声音合成处理)。即，生成部106-2生成与文本数据对应的声音(步骤s205)。

在生成声音后(步骤s205)、附加了附加信息后(步骤s204)、或者在文本数据附加有附加信息的情况下(步骤s202：是)，调制部103-2从生成的声音中提取强调部分(步骤s206)。例如调制部103-2参照附加信息来确定文本数据中的强调部分，并且根据文本数据与所生成的声音的对应，提取与所确定的文本数据的强调部分对应的声音的强调部分。调制部103-2对所提取出的声音的强调部分执行调制处理(步骤s207)。此外，调制部103-2不对强调部分以外的声音进行调制处理。

步骤s208是与第1实施方式涉及的声音处理装置100中的步骤s106同样的处理，因此省略其说明。

如此，在第2实施方式涉及的声音处理装置中，生成与文本数据对应的声音后，对声音的强调部分的音调及相位中的至少一方进行调制，输出调制后的声音。由此，无需改变声音信号的强度，就能够使利用者的注意力增强。

(第3实施方式)

在第1以及第2实施方式中，输入文本数据，将文本数据变换为声音并输出。这种实施方式例如能够适用于输出预先确定的紧急灾害广播用的文本数据等情况。另一方面，也可考虑输出利用者发出的声音来用于紧急灾害广播用的状况。第3实施方式涉及的声音处理装置为：从麦克风等声音输入装置输入声音，对被输入的声音的强调部分进行调制处理。

图12是表示第3实施方式涉及的声音处理装置100-3的构成的一例的框图。如图12所示，声音处理装置100-3具备存储部121、受理部101-3、确定部102-3、调制部103-3、输出控制部104、扬声器105-1～105-n和生成部106-2。

在第3实施方式中，受理部101-3、确定部102-3以及调制部103-3的功能不同于第2实施方式。其他构成以及功能与第2实施方式涉及的声音处理装置100-2的框图即图10是同样的，因此，赋予相同标号并省略此处的说明。

受理部101-3不仅受理文本数据，还受理从麦克风等声音输入装置输入的声音。另外，受理部101-3受理对所输入的声音中的进行强调的部分的指定。例如受理部101-3受理由利用者进行的预定按钮的按下，作为表示按下后所输入的声音是要进行强调的部分这一情况的指定。受理部101-3也可以受理对强调部分的开始以及结束的指定，作为表示从开始到结束所输入的声音是要进行强调的部分这一情况的指定。指定方法不限于此，只要能够决定声音中的要进行强调的部分，可以是任何方法。以下，有时将对声音中的要进行强调的部分的指定称为触发。

确定部102-3进一步具有基于受理到的指定(触发)来确定声音的强调部分的功能。

调制部103-3对通过生成部106-2生成的声音或者被输入的声音中的强调部分的声音进行调制处理。

接着，使用图13，说明由如此构成的第3实施方式涉及的声音处理装置100-3进行的声音输出处理。图13是表示第3实施方式中的声音输出处理的一例的流程图。

受理部101-3判定是否为声音输入优先(步骤s301)。所谓声音输入优先，是表示输入声音而非文本数据并输出的指定。例如，在用于指定声音输入优先的按钮被按下的情况下，受理部101-3判定为是声音输入优先。

判定是否为声音输入优先的方法不限于此。例如，也可以参照事先所保存的表示是否为声音输入优先的信息来进行判定。另外，在不输入文本数据而仅输入声音的情况下，也可以不执行声音输入优先的指定和判定(步骤s301)。在该情况下，也可以不执行后述的基于文本数据的附加处理(步骤s306)。

在声音输入优先的情况下(步骤s301：是)，受理部101-3受理声音的输入(步骤s302)。确定部102-3判定是否输入了对声音的要进行强调的部分的指定(触发)(步骤s303)。

在没有输入触发的情况下(步骤s303：否)，确定部102-3确定声音的强调部分(步骤s304)。例如确定部102-3对输入的声音与预先登记的声音数据进行对照，将与所登记的声音数据一致或者相似的声音确定为强调部分。确定部102-3也可以通过对照对被输入的声音进行声音识别所获得的文本数据与预先确定的表示强调部分的数据，确定强调部分。

当在步骤s303中判定为输入了触发的情况下(步骤s303：是)、或者在步骤s304中确定了强调部分后，确定部102-3对被输入的声音的数据附加表示强调部分的附加信息(步骤s305)。附加信息的附加方法可以是任何方法，只要能够判定声音为强调部分即可。

当在步骤s301中判定为并非声音输入优先的情况下(步骤s301：否)，执行基于文本的附加处理(步骤s306)。该处理例如能够通过与图11的步骤s201至步骤s205同样的处理实现。

调制部103-3从生成的声音中提取强调部分(步骤s307)。例如调制部103-3参照附加信息来提取声音的强调部分。在执行了步骤s306的情况下，调制部103-3通过与图11的步骤s206同样的处理来提取强调部分。

步骤s308至步骤s309是与第2实施方式涉及的声音处理装置100-2中的步骤s207至步骤s208同样的处理，因此省略其说明。

如此，在第3实施方式涉及的声音处理装置中，根据触发等来确定被输入的声音的强调部分，对声音的强调部分的音调及相位中的至少一方进行调制，输出调制后的声音。由此，无需改变声音信号的强度，就能够使利用者的注意力增强。

(第4实施方式)

在上述实施方式中，例如参照附加信息以及触发确定了强调部分。强调部分的确定方法不限于此。第4实施方式的声音处理装置将要输出的声音所包含的声音(局部声音)中的任意的一个以上的局部声音，基于局部声音的属性确定为强调部分。

以下，说明作为用于基于声音的学习的应用(应用程序)或者将文本数据作为声音来输出的应用而实现了声音处理装置的例子。基于声音的学习例如包括基于声音的外语学习以及利用声音输入课程内容的学习等使用声音的任意学习。将文本数据作为声音来输出的应用例如包括朗读书籍的内容来通过声音进行输出的朗读应用。能够适用的应用不限于此。

通过适用于用于基于声音的学习的应用，例如能够适当地强调成为学习对象的部分，使学习效果进一步增强。另外，通过适用于将文本数据作为声音来输出的应用，例如能够使注意力朝向声音的确定的部分。另外，通过适用于朗读应用，例如能够使故事的现场感进一步增强。

图14是表示第4实施方式涉及的声音处理装置100-4的构成的一例的框图。如图14所示，声音处理装置100-4具备存储部121-4、显示部122-4、受理部101-4、确定部102-4、调制部103-4、输出控制部104-4和扬声器105-1～105-n。扬声器105-1～105-n与第1实施方式涉及的声音处理装置100的框图即图1是同样的，因此，赋予相同标号并省略此处的说明。

存储部121-4在如下之处不同于第1实施方式的存储部121，即：进一步存储输出次数来作为要输出的声音所包含的局部声音的属性的一例。图15是表示存储部121-4所存储的数据的结构的一例的图。图15示出表示作为学习对象的局部声音的数据的数据结构的一例。如图15所示，该数据包括声音id、单词、时间和输出次数。

声音id是辨识成为输出对象的声音的辨识信息。例如，能够将数值以及存储声音的文件的文件名等设为声音id。

单词是学习对象的一例，也可以将其他信息作为学习对象。例如，也可以与单词一起、或者取代单词而使用包括多个单词的语句或者章节等单词以外的对象。存储部121-4存储的单词既可以是声音所包含的所有单词中的、由用户等选择的一部分单词，也可以是声音所包含的所有单词。将在后面对单词的选择方法的例子进行说明。

时间表示与单词对应的局部声音在声音内的位置。只要是能够确定局部声音的位置的信息，也可以存储时间以外的信息。

单词以及时间例如通过对学习所使用的声音进行声音识别来获得。声音处理装置100-4也可以取得在其他装置中预先生成的如图15那样的数据并存储于存储部121-4。声音处理装置100-4也可以将对被输入的声音进行声音识别而获得的数据存储于存储部121-4。

输出次数表示对与单词对应的局部声音进行了输出的次数。例如，学习开始后的对局部声音进行了输出的次数的累积值作为输出次数存储于存储部121-4。此外，输出次数是局部声音的属性的一例，也可以使用输出次数以外的信息作为局部声音的属性。将在后面对其他属性的例子进行说明。

回到图14，显示部122-4是显示各种处理中所使用的数据的显示装置。显示部122-4例如能够由液晶显示器等构成。

受理部101-4在进一步受理对成为学习对象的单词的指定等之处不同于第1实施方式的受理部101。

确定部102-4将声音所包含的一个以上的局部声音中的任意的一个以上的局部声音基于局部声音的属性确定为强调部分。例如在将输出次数设为属性的情况下，确定部102-4将输出次数小于等于阈值的局部声音确定为强调部分。由此，例如能够优先地强调被解释为由于输出次数少因此学习不充分的单词，进一步提高学习效果。在取代输出次数而使用声音的输出时间(例如从学习开始起的输出时间的累计)作为属性的情况下，也能够获得同样的效果。

调制部103-4在基于属性来变更对强调部分进行调制的程度(调制强度)之处不同于第1实施方式的调制部103。例如调制部103-4对第1声音及第2声音中的至少一方进行调制以使得输出次数少的局部声音的调制强度更大。调制强度既可以根据输出次数来线性变更，也可以变更以使得变为非线性。调制部103-4也可以使强调部分所包含的各部分的调制强度互不相同。例如，也可以控制调制强度以使得仅强调单词的重音部分。此外，也可以构成为不基于属性变更调制强度。在该情况下具备与第1实施方式同样的调制部103即可。

输出控制部104-4在进一步具备控制对显示部122-4的各种数据的输出(显示)的功能之处不同于第1实施方式的输出控制部104。

接着，使用图16，说明由如此构成的第4实施方式涉及的声音处理装置100-4进行的声音输出处理。图16是表示第4实施方式中的声音输出处理的一例的流程图。

受理部101-4受理文本数据的输入(步骤s401)。确定部102-4从文本数据参照属性来确定强调部分(步骤s402)。例如在将输出次数设为属性的情况下，确定部102-4将存储部121-4所存储的输出次数小于等于阈值的单词确定为强调部分。

调制部103-4生成对所确定的强调部分进行了调制的声音(步骤s403)。例如调制部103-4生成如下声音(第1声音、第2声音)，该声音与所确定的强调部分(单词等)对应，是针对强调部分调制了调制对象以使得调制对象互不相同而得到的声音。此时，调制部103-4也可以生成第1声音以及第2声音以使得变为与属性相应的调制强度。

输出控制部104-4按各扬声器105决定要输出的声音，并使其输出所决定的声音(步骤s404)。各扬声器105依照输出控制部104-4的指示输出声音。

接着，对作为外语学习用的应用而实现声音处理装置100-4的情况下的例子进行说明。学习应用例如具有如下功能。

(1)指定要输出的声音中的作为学习对象的部位、即强调部分的功能。

(2)再现声音的功能。也可以具备暂停、回放以及快进等功能。

(3)用于确认是否理解了强调部分的功能。

(4)根据学习的结果等变更属性的功能。

图17是表示用于指定作为学习对象的部位的指定画面的一例的图。如图17所示，指定画面1700是显示与要输出的声音对应的文本数据的画面。指定画面1700例如通过输出控制部104-4而被显示于显示部122-4。指定画面1700是实现上述功能(1)的画面的例子。

用户利用鼠标或者触摸面板等选择指定画面1700所显示的文本数据中的、作为学习对象的部位(单词、语句等)。单词1701示出了以此方式选择出的部位的例子。

登记按钮1711被按下时，选择出的单词作为学习对象被存储于存储部121-4。图15表示以此方式存储的数据的一例。图15的输出次数在登记时刻例如设定为“0”。在取消按钮1712被按下的情况下，例如解除选择，显示前一画面。

学习对象的指定方法不限于图17所示的方法。例如，也可以：当在输出声音的过程中被指示了登记(按钮的按下等)的情况下，将在被指示的定时输出的部位(单词等)登记为学习的对象。也可以与声音无关地选择作为学习对象的一个以上的单词，从声音(或者与声音对应的文本数据)中提取所选择出的单词，由此，生成如图15所示的数据。

到开始学习前为止，通过图17所示的方法等指定作为学习对象的部位来生成如图15所示的数据即可。以下说明进行学习时所使用的画面的例子。

图18是表示学习画面的一例的图。如图18所示，学习画面1800包括光标1801、输出控制按钮1802、确定按钮1811和取消按钮1812。

输出控制按钮1802用于声音的再现开始、暂停、再现的停止、回放以及快进等。光标1801是用于表示与当前所再现的声音对应的部位的信息。在图18中示出了矩形的光标1801的例子，但光标1801的显示方式不限于此。

确定按钮1811被按下时，学习处理结束。也可以在确定按钮1811被按下的情况下，对此前所再现的各单词的输出次数加1从而对存储部121-4的数据进行更新。例如通过回放功能反复进行某个单词的再现时，该单词的输出次数会增加。确定部102-4例如在反复被再现的单词的输出次数超过阈值的情况下，不将该单词确定为强调部分，仅将输出次数小于等于阈值的单词确定为强调部分。由此，能够适当地确定作为学习对象的单词来提高学习效果。

在取消按钮1812被按下的情况下，例如显示前一画面。也可以构成为在取消按钮1812被按下的情况下不更新输出次数。

图19是表示学习画面的另一例的图。图19的学习画面1900是使得能够按各单词来指定学习结果的画面的例子。对与正在再现的声音对应的单词显示光标1901，并且显示与光标1901对应的指定窗口1910。随着声音再现的进行，光标1901进行移动，对应的指定窗口1910也一起移动。

指定窗口1910包括确定按钮和取消按钮。例如在确定按钮被按下的情况下，将对应的单词的输出次数加1从而更新存储部121-4的数据。在取消按钮被按下的情况下，输出次数不被更新。也可以构成为：指定窗口1910仅包括确定按钮，在确定按钮没有被按下的情况下，输出次数不被更新。

图20是表示学习画面的另一例的图。在图20的学习画面2000中，隐藏显示(不显示)进行学习的对象(单词等)，显示出用于选择正确解答的选择窗口2010。在选择窗口2010中，可选地显示出对应的单词的正确写法和其他写法。例如在正确写法被选择的情况下，将对应的单词的输出次数加1从而更新存储部121-4的数据。在正确写法没有被选择的情况下，输出次数不被更新。在这种构成的情况下，也可以取代输出次数，存储正确解答次数作为属性。

图21是表示学习画面的另一例的图。图21的学习画面2100是将选项显示于下部的画面的例子。学习的对象(单词等)的写法被隐藏显示，取而代之如“q1”、“q2”以及“q3”等那样，显示为与下部的选项关联的信息。用户能够在声音再现时或者声音的再现完成时，从选项中选择写法。

接着，对属性的另一例进行说明。

在学校等，为了按照预先确定的计划进行学习，有时会根据计划的进行来变更学习对象。于是，也可以将从学习的开始、例如声音输出的开始起的经过时间作为属性。在该情况下，确定部102-4根据经过时间来确定不同的强调部分。例如存储部121-4取代存储图17的输出次数，而按各单词存储经过时间的范围。确定部102-4将实际的从声音输出的开始起的经过时间包含于所存储的经过时间的范围中的单词确定为强调部分。再者，也可以考虑声音等的反复利用次数、例如文件的再现次数作为属性。

也可以将学习期间以及学习的单元等学习的单位作为属性。例如存储部121-4取代存储图17的输出次数，而按各单词存储辨识多个学习期间的信息(学习期间1、学习期间2、学习期间3…等)。确定部102-4将与由用户等指定的学习期间或者基于预先确定的计划及日期和时间等所判定的学习期间对应的单词确定为强调部分。

也可以将学习的对象的种类作为属性。例如，在适用于历史学习的情况下，存储部121-4取代存储图17的输出次数，而将学习对象(单词、语句等)是否表示年代及关键字等任意的种类作为属性进行存储。确定部102-4将与由用户等指定的种类或者基于预先确定的计划及日期和时间等所判定的种类对应的单词确定为强调部分。在适用于外语学习等的情况下，存储部121-4也可以存储单词的词类作为种类(属性)。

也可以将输出声音的地点作为属性。例如在适用于朗读应用的情况下，也可以根据执行朗读应用的地点及声音的输出次数中的至少一方来确定不同的强调部分。由此，例如能够输出声音以使得即使是相同书籍的内容也不会让用户感到厌烦。

也可以将按各学习对象所确定的优先级作为属性。优先级表示使对象(与对象对应的局部声音)优先的程度。优先级的决定方法可以是任何方法。例如，用户也可以与选择单词一起地指定优先级。也可以利用单词的在辞典数据等中预先所确定的单词的重要度(或者难易度)作为优先级。优先级无需固定，也可以动态变更。

例如确定部102-4将与优先级大于等于阈值的单词对应的局部声音确定为强调部分。确定部102-4也可以将与优先级为被指定的值(指定值)或者在被指定的范围(指定范围)内的单词对应的局部声音确定为强调部分。阈值、指定值以及指定范围既可以是固定值，也可以为能够由用户等指定。

例如存储部121-4取代存储图17的输出次数，而按各单词存储优先级。例如对单词“mission”、“knowledge”设定优先级“1”，对单词“aspiration”设定优先级“2”。而且，例如在将阈值设为“1”的情况下，确定部102-4将与“mission”以及“knowledge”对应的局部声音确定为强调部分。只要可指定优先级的范围，例如则能够根据单词的重要度(难易度)来变更强调部分。

也可以构成为将优先级根据其他信息进行变更。例如优先级也可以根据从开始输出声音起的经过时间来变更。只要以根据经过时间来提高作为学习对象的单词的优先级并降低设为对象外的单词的优先级的方式进行控制，则能够进行如上所述的依照计划的学习。

另外，例如也可以构成为：使在图20以及图21那样的画面中选择正确解答，在是正确解答的情况下，降低优先级，在不是正确解答的情况下提高优先级。由此，能够适当地强调学习不充分的对象。通过将正确解答次数等设为属性也能够实现同样的功能。

在此前的说明中，说明了与第1实施方式同样地，一边生成与文本数据对应的声音一边对强调部分进行调制的例子。调制方法不限于此。例如，也可以与第2实施方式同样地，对所生成的声音中的相当于强调部分的声音进行调制处理。另外，调制方法不限于对音调及相位中的至少一方进行调制的方法，也可以应用其他调制方法。

如此，在第4实施方式涉及的声音处理装置中，对根据属性变更的强调部分调制并进行输出。由此，能够提高适用于学习应用的情况下的学习效果、以及提高适用于朗读应用的情况下的现场感等。

如上所述，根据第1至第4实施方式，对声音的音调及相位中的至少一方调制并进行输出，由此，无需改变声音信号的强度，就能够使利用者的注意力增强。

接着，使用图22，对第1至第4实施方式涉及的声音处理装置的硬件构成进行说明。图22是表示第1至第4实施方式涉及的声音处理装置的硬件构成例的说明图。

第1至第4实施方式涉及的声音处理装置具备：cpu(centralprocessingunit)51等控制装置；rom(readonlymemory)52和/或ram(randomaccessmemory)53等存储装置；连接于网络进行通信的通信i/f54；和连接各部分的总线61。

第1至第4实施方式中的声音处理装置是计算机或者嵌入系统，也可以是包括个人计算机以及微计算机等一个设备的装置、或者多个装置进行网络连接而成的系统等任意的构成。另外，本实施方式中的计算机不限于个人计算机，也包括信息处理设备所包含的运算处理装置以及微计算机等，是能够通过程序实现本实施方式中的功能的设备或者装置的总称。

由第1至第4实施方式涉及的声音处理装置执行的程序通过预先装载在rom52等中来提供。

由第1至第4实施方式涉及的声音处理装置执行的程序也可以构成为：用可安装形式或可执行形式的文件，记录在cd-rom(compactdiskreadonlymemory)、软盘(fd)、cd-r(compactdiskrecordable)、dvd(digitalversatiledisk)、usb闪存、sd卡、eeprom(electricallyerasableprogrammableread-onlymemory)等可由计算机读取的记录介质中，作为计算机程序产品来提供。

再者，也可以构成为：将由第1至第4实施方式涉及的声音处理装置执行的程序保存在与互联网等网络连接的计算机上，通过经由网络下载来提供。另外，也可以构成为：将由第1至第4实施方式涉及的声音处理装置执行的程序经由互联网等网络来提供或发布。

由第1至第4实施方式涉及的声音处理装置执行的程序能够使计算机作为上述的声音处理装置的各部分而发挥功能。该计算机为，cpu51能够从可由计算机读取的存储介质中将程序读取到主存储装置上并执行。

虽然对本发明的几个实施方式进行了说明，但是这些实施方式是作为例子提出的，并非旨在限定发明的范围。这些新实施方式能够以其他各种方式实施，在不偏离发明宗旨的范围内，可以进行各种省略、替换、变更。这些实施方式和/或其变形包含在发明的范围和/或宗旨中，并且，包含在技术方案所记载的发明和其等同的范围内。

此外，能够将上述的实施方式总结为以下的技术方案。

技术方案1

一种声音处理装置，具备：

确定部，其将要输出的声音所包含的一个以上的声音中的任意的一个以上基于所述声音的属性确定为强调部分；以及

调制部，其对第1输出部要输出的第1声音及第2输出部要输出的第2声音中的至少一方的所述强调部分进行调制，以使得在所述第1声音的所述强调部分与所述第2声音的所述强调部分之间，音调及相位中的至少一方不同。

技术方案2

根据技术方案1所述的声音处理装置，

所述调制部基于所述属性，变更对所述强调部分进行调制的程度。

技术方案3

根据技术方案1所述的声音处理装置，

所述属性是对要输出的声音所包含的一个以上的声音进行了输出的次数、及对要输出的声音所包含的一个以上的声音进行了输出的时间中的至少一方。

技术方案4

根据技术方案1所述的声音处理装置，

所述属性是从开始输出所述第1声音以及所述第2声音起的经过时间。

技术方案5

根据技术方案1所述的声音处理装置，

所述属性是对要输出的声音所包含的一个以上的声音所确定的优先级。

技术方案6

根据技术方案1所述的声音处理装置，

所述确定部根据被输入的文本数据确定所述强调部分，

所述调制部生成与所述文本数据对应的、对所述第1声音及所述第2声音中的至少一方的所述强调部分进行调制以使得所述强调部分的所述音调及相位中的至少一方不同而得到的所述第1声音及所述第2声音。

技术方案7

根据技术方案1所述的声音处理装置，

还具备生成部，该生成部生成与被输入的文本数据对应的所述第1声音以及所述第2声音，

所述确定部根据所述文本数据确定所述强调部分，

所述调制部，对所述第1声音及所述第2声音中的至少一方的所述强调部分进行调制，以使得在所生成的所述第1声音的所述强调部分与所生成的所述第2声音的所述强调部分之间，所述音调及相位中的至少一方不同。

技术方案8

根据技术方案1所述的声音处理装置，

所述调制部对所述第1声音及所述第2声音中的至少一方的所述强调部分的相位进行调制，以使得所述第1声音的所述强调部分的相位与所述第2声音的所述强调部分的相位之差大于等于60°且小于等于180°。

技术方案9

根据技术方案1所述的声音处理装置，

所述调制部对所述第1声音及所述第2声音中的至少一方的所述强调部分的音调进行调制，以使得所述第1声音的所述强调部分的频率与所述第2声音的所述强调部分的频率之差大于等于100赫兹。

技术方案10

根据技术方案1所述的声音处理装置，

所述调制部通过反转要对所述第1输出部或者所述第2输出部输入的信号的极性，对所述第1声音及所述第2声音中的至少一方的所述强调部分的相位进行调制。

技术方案11

一种声音处理方法，包括：

确定步骤，将要输出的声音所包含的一个以上的声音中的任意的一个以上基于所述声音的属性确定为强调部分；以及

调制步骤，对第1输出部要输出的第1声音及第2输出部要输出的第2声音中的至少一方的所述强调部分进行调制，以使得在所述第1声音的所述强调部分与所述第2声音的所述强调部分之间，音调及相位中的至少一方不同。

技术方案12

一种存储介质，其存储有程序，该程序用于使计算机作为确定部和调制部而发挥功能，

所述确定部，将要输出的声音所包含的一个以上的声音中的任意的一个以上基于所述声音的属性确定为强调部分，所述调制部，对第1输出部要输出的第1声音及第2输出部要输出的第2声音中的至少一方的所述强调部分进行调制，以使得在所述第1声音的所述强调部分与所述第2声音的所述强调部分之间，音调及相位中的至少一方不同。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：山本雅裕
技术所有人：株式会社东芝
我是此专利的发明人

上一篇：一种铝合金线材连续铸轧系统的制作方法
上一篇：一种方便移动的多功能车载收纳箱的制作方法