音频切分方法、装置、电子设备、存储介质及产品与流程

文档序号:29965621发布日期:2022-05-11 10:13阅读:187来源:国知局
音频切分方法、装置、电子设备、存储介质及产品与流程

1.本技术涉及音频处理技术领域,特别涉及一种音频切分方法、装置、电子设备、存储介质及产品。


背景技术:

2.目前,在智能客服外呼过程中或者在智能客服服务过程中,经常会出现智能客服与用户对话的情况。这种情况下,智能客服需要基于用户说话的内容,识别出用户所提出的问题,然后根据该问题检索答案,再根据该答案来回复用户所提出的问题。为了统计智能客服识别问题的准确率,从而确定智能客服解决用户所提出的问题的解决率,需要先从用户与智能客服对话的完整音频中切分出用户对应的音频,再从用户对应的音频中切分出用户与智能客服对话的每一个音频片段,根据切分后的音频片段来统计该准确率,进而确定解决率。
3.相关技术中,对于用户对应的音频,根据预先设置的静音采样点阈值,确定该音频包括的每个音频帧为静音帧或者非静音帧,然后按照静音帧和非静音帧的顺序,将相邻两个静音段之间的多个非静音帧组成音频片段,最终得到多个音频片段。其中,静音帧用于表示该音频帧处于静音状态,非静音帧用于表示该音频帧处于非静音状态,静音段为由多个静音帧组成的音频片段。
4.但按照相关技术中的方法对音频的切分是依据静音段的位置来做的,将相邻两个静音段之间的区域切分为一个音频片段,而无法按照用户与智能客服的对话内容准确切分音频,这样就会造成切分的音频片段的对话内容不连续,导致音频切分的准确性差。


技术实现要素:

5.本技术实施例提供了一种音频切分方法、装置、电子设备、存储介质及产品,可以提高音频切分的准确性。所述技术方案如下:
6.一方面,提供了一种音频切分方法,所述方法包括:
7.从第一对话对象与第二对话对象对话的音频中切分出第一音频和第二音频,所述第一音频与所述第一对话对象对应,所述第二音频与所述第二对话对象对应;
8.基于所述第一音频中每个第一音频帧的语音状态将所述第一音频切分为多个第一音频片段,基于所述第二音频中每个第二音频帧的语音状态将所述第二音频切分为多个第二音频片段,所述语音状态包括静音状态和非静音状态;
9.基于所述多个第二音频片段中每相邻两个第二音频片段的时间信息,将所述多个第一音频片段合并,得到多个第三音频片段;
10.基于所述多个第三音频片段的时间信息,重新切分所述第一音频。
11.在一种可能的实现方式中,所述基于所述第一音频中每个第一音频帧的语音状态将所述第一音频切分为多个第一音频片段,包括:
12.对于每个第一音频帧,若所述第一音频帧的语音状态与其相邻的第一音频帧的语
音状态不同,基于所述第一音频帧的语音状态及其相邻的第一音频帧的语音状态,确定一时间节点,所述时间节点用于表示一个音频片段的开始时间或结束时间;
13.基于所述第一音频包括的多个第一音频帧得到的多个时间节点,将所述第一音频切分为多个第一音频片段。
14.在另一种可能的实现方式中,所述基于所述第一音频帧的语音状态及其相邻的第一音频帧的语音状态,确定一时间节点,包括:
15.获取第一数组,所述第一数组是基于第一音频帧的数量生成的,所述第一数组中的元素值与第一音频帧一一对应,所述第一数组中所述第一音频帧的元素值为默认值;
16.基于所述第一音频帧的语音状态及其相邻的第一音频帧的语音状态,重新确定所述第一数组中所述第一音频帧的元素值;
17.基于重新确定的所述第一音频帧的元素值,确定一时间节点。
18.在另一种可能的实现方式中,
19.所述基于所述第一音频帧的语音状态及其相邻的第一音频帧的语音状态,重新确定所述第一数组中所述第一音频帧的元素值,包括:
20.若所述第一音频帧为所述第一音频中第一个第一音频帧,且所述第一音频帧的语音状态为非静音状态,确定所述第一数组中所述第一音频帧的元素值为第一数值;
21.若所述第一音频帧为所述第一音频中最后一个第一音频帧,且所述第一音频帧的语音状态为非静音状态,确定所述第一数组中所述第一音频帧的元素值为第二数值;
22.若所述第一音频帧为所述第一音频中第一个第一音频帧和最后一个第一音频帧之间的任一第一音频帧,且所述第一音频帧的语音状态为静音状态,所述第一音频帧的前一个第一音频帧的语音状态为静音状态,所述第一音频帧的后一个第一音频帧的语音状态为非静音状态,确定所述第一数组中所述第一音频帧的元素值为第一数值;
23.若所述第一音频帧为所述第一音频中第一个第一音频帧和最后一个第一音频帧之间的任一第一音频帧,且所述第一音频帧的语音状态为静音状态,所述第一音频帧的前一个第一音频帧的语音状态为非静音状态,所述第一音频帧的后一个第一音频帧的语音状态为静音状态,确定所述第一数组中所述第一音频帧的元素值为第二数值;
24.若所述第一音频帧为所述第一音频中第一个第一音频帧和最后一个第一音频帧之间的任一第一音频帧,且所述第一音频帧的语音状态为静音状态,所述第一音频帧的前一个第一音频帧的语音状态和后一个第一音频帧的语音状态均为非静音状态,保持所述第一数组中所述第一音频帧的元素值不变。
25.在另一种可能的实现方式中,所述基于重新确定的所述第一音频帧的元素值,确定一时间节点,包括:
26.若重新确定的所述第一音频帧的元素值为第一数值,将所述第一音频帧的时间确定为一个音频片段的开始时间;
27.若重新确定的所述第一音频帧的元素值为第二数值,将所述第一音频帧的时间确定为一个音频片段的结束时间。
28.在另一种可能的实现方式中,所述基于所述第一音频包括的多个第一音频帧得到的多个时间节点,将所述第一音频切分为多个第一音频片段,包括:
29.按照多个第一音频帧的顺序,依次将相邻的开始时间对应的第一音频帧和结束时
间对应的第一音频帧之间的第一音频帧组成一个音频片段,得到多个第四音频片段;
30.对于每个第四音频片段,若所述第四音频片段对应的第一帧数差值小于帧数截断阈值,将所述第四音频片段与其前一个第四音频片段合并,得到一个第一音频片段,所述第一帧数差值为所述第四音频片段的开始时间对应的第一音频帧与其前一个第四音频片段的结束时间对应的第一音频帧之间的帧数差值,所述帧数截断阈值用于表示相邻两个第四音频片段之间的帧数差值;
31.若所述第一帧数差值大于或等于所述帧数截断阈值,且所述前一个第四音频片段的开始时间对应的第一音频帧和结束时间对应的第一音频帧之间的第二帧数差值大于最短帧数阈值,将所述前一个第四音频片段作为一个第一音频片段,所述最短帧数阈值用于表示作为一个有效的音频片段包括的帧数;
32.若所述第一帧数差值大于或等于所述帧数截断阈值,且所述第二帧数差值小于或等于所述最短帧数阈值,丢弃所述前一个第四音频片段;
33.依次遍历所述多个第四音频片段,得到多个第一音频片段。
34.在另一种可能的实现方式中,确定所述第一音频中每个第一音频帧的语音状态的过程,包括:
35.对于每个第一音频帧,确定所述第一音频帧中采样点的振幅大于或等于静音采样点振幅阈值的采样点的数量;
36.确定所述采样点的数量与所述第一音频帧中采样点的总数量的比值;
37.若所述比值大于静音比例阈值,确定所述第一音频帧的语音状态为非静音状态;
38.若所述比值小于或等于所述静音比例阈值,确定所述第一音频帧的语音状态为静音状态。
39.在另一种可能的实现方式中,所述基于所述多个第二音频片段中每相邻两个第二音频片段之间的时间信息,将所述多个第一音频片段合并,得到多个第三音频片段,包括:
40.按照多个第二音频片段的顺序,将每相邻两个第二音频片段之间的音频片段确定为第五音频片段,得到多个第五音频片段;
41.基于所述多个第五音频片段的时间信息,依次从所述多个第一音频片段中确定目标音频片段,所述目标音频片段为时间信息被包含在同一个第五音频片段的时间信息中的第一音频片段;
42.将每个第五音频片段对应的目标音频片段合并为一个第三音频片段,得到多个第三音频片段。
43.在另一种可能的实现方式中,所述基于所述多个第三音频片段的时间信息,重新切分所述第一音频,包括:
44.对于每个第三音频片段,基于预先确定好的帧移,更改所述第三音频片段的开始时间和结束时间;
45.基于更改后的第三音频片段的开始时间和结束时间,重新切分所述第一音频。
46.在另一种可能的实现方式中,所述基于预先确定好的帧移,更改所述第三音频片段的开始时间和结束时间,包括:
47.在所述第三音频片段的开始时间的基础上减去所述帧移对应的时间,得到更改后的开始时间;
48.在所述第三音频片段的结束时间的基础上增加所述帧移对应的时间,得到更改后的结束时间。
49.另一方面,提供了一种音频切分装置,所述装置包括:
50.第一切分模块,用于从第一对话对象与第二对话对象对话的音频中切分出第一音频和第二音频,所述第一音频与所述第一对话对象对应,所述第二音频与所述第二对话对象对应;
51.第二切分模块,用于基于所述第一音频中每个第一音频帧的语音状态将所述第一音频切分为多个第一音频片段,基于所述第二音频中每个第二音频帧的语音状态将所述第二音频切分为多个第二音频片段,所述语音状态包括静音状态和非静音状态;
52.合并模块,用于基于所述多个第二音频片段中每相邻两个第二音频片段的时间信息,将所述多个第一音频片段合并,得到多个第三音频片段;
53.第三切分模块,用于基于所述多个第三音频片段的时间信息,重新切分所述第一音频。
54.在一种可能的实现方式中,所述第二切分模块,用于对于每个第一音频帧,若所述第一音频帧的语音状态与其相邻的第一音频帧的语音状态不同,基于所述第一音频帧的语音状态及其相邻的第一音频帧的语音状态,确定一时间节点,所述时间节点用于表示一个音频片段的开始时间或结束时间;基于所述第一音频包括的多个第一音频帧得到的多个时间节点,将所述第一音频切分为多个第一音频片段。
55.在另一种可能的实现方式中,所述第二切分模块,用于获取第一数组,所述第一数组是基于第一音频帧的数量生成的,所述第一数组中的元素值与第一音频帧一一对应,所述第一数组中所述第一音频帧的元素值为默认值;基于所述第一音频帧的语音状态及其相邻的第一音频帧的语音状态,重新确定所述第一数组中所述第一音频帧的元素值;基于重新确定的所述第一音频帧的元素值,确定一时间节点。
56.在另一种可能的实现方式中,所述第二切分模块,用于若所述第一音频帧为所述第一音频中第一个第一音频帧,且所述第一音频帧的语音状态为非静音状态,确定所述第一数组中所述第一音频帧的元素值为第一数值;若所述第一音频帧为所述第一音频中最后一个第一音频帧,且所述第一音频帧的语音状态为非静音状态,确定所述第一数组中所述第一音频帧的元素值为第二数值;若所述第一音频帧为所述第一音频中第一个第一音频帧和最后一个第一音频帧之间的任一第一音频帧,且所述第一音频帧的语音状态为静音状态,所述第一音频帧的前一个第一音频帧的语音状态为静音状态,所述第一音频帧的后一个第一音频帧的语音状态为非静音状态,确定所述第一数组中所述第一音频帧的元素值为第一数值;若所述第一音频帧为所述第一音频中第一个第一音频帧和最后一个第一音频帧之间的任一第一音频帧,且所述第一音频帧的语音状态为静音状态,所述第一音频帧的前一个第一音频帧的语音状态为非静音状态,所述第一音频帧的后一个第一音频帧的语音状态为静音状态,确定所述第一数组中所述第一音频帧的元素值为第二数值;若所述第一音频帧为所述第一音频中第一个第一音频帧和最后一个第一音频帧之间的任一第一音频帧,且所述第一音频帧的语音状态为静音状态,所述第一音频帧的前一个第一音频帧的语音状态和后一个第一音频帧的语音状态均为非静音状态,保持所述第一数组中所述第一音频帧的元素值不变。
57.在另一种可能的实现方式中,所述第二切分模块,用于若重新确定的所述第一音频帧的元素值为第一数值,将所述第一音频帧的时间确定为一个音频片段的开始时间;若重新确定的所述第一音频帧的元素值为第二数值,将所述第一音频帧的时间确定为一个音频片段的结束时间。
58.在另一种可能的实现方式中,所述第二切分模块,用于按照多个第一音频帧的顺序,依次将相邻的开始时间对应的第一音频帧和结束时间对应的第一音频帧之间的第一音频帧组成一个音频片段,得到多个第四音频片段;对于每个第四音频片段,若所述第四音频片段对应的第一帧数差值小于帧数截断阈值,将所述第四音频片段与其前一个第四音频片段合并,得到一个第一音频片段,所述第一帧数差值为所述第四音频片段的开始时间对应的第一音频帧与其前一个第四音频片段的结束时间对应的第一音频帧之间的帧数差值,所述帧数截断阈值用于表示相邻两个第四音频片段之间的帧数差值;若所述第一帧数差值大于或等于所述帧数截断阈值,且所述前一个第四音频片段的开始时间对应的第一音频帧和结束时间对应的第一音频帧之间的第二帧数差值大于最短帧数阈值,将所述前一个第四音频片段作为一个第一音频片段,所述最短帧数阈值用于表示作为一个有效的音频片段包括的帧数;若所述第一帧数差值大于或等于所述帧数截断阈值,且所述第二帧数差值小于或等于所述最短帧数阈值,丢弃所述前一个第四音频片段;依次遍历所述多个第四音频片段,得到多个第一音频片段。
59.在另一种可能的实现方式中,所述装置还包括:
60.第一确定模块,用于对于每个第一音频帧,确定所述第一音频帧中采样点的振幅大于或等于静音采样点振幅阈值的采样点的数量;
61.第二确定模块,用于确定所述第一数量与所述第一音频帧中采样点的总数量的比值;
62.第三确定模块,用于若所述比值大于静音比例阈值,确定所述第一音频帧的语音状态为非静音状态;
63.第四确定模块,用于若所述比值小于或等于所述静音比例阈值,确定所述第一音频帧的语音状态为静音状态。
64.在另一种可能的实现方式中,所述合并模块,用于按照多个第二音频片段的顺序,将每相邻两个第二音频片段之间的音频片段确定为第五音频片段,得到多个第五音频片段;依次从所述多个第一音频片段中确定目标音频片段,所述目标音频片段为时间信息被包含在同一个第五音频片段的时间信息中的第一音频片段;将每个第五音频片段对应的目标音频片段合并为一个第三音频片段,得到多个第三音频片段。
65.在另一种可能的实现方式中,所述第三切分模块,用于对于每个第三音频片段,基于预先确定好的帧移,更改所述第三音频片段的开始时间和结束时间;基于更改后的第三音频片段的开始时间和结束时间,重新切分所述第一音频。
66.在另一种可能的实现方式中,所述第三切分模块,用于在所述第三音频片段的开始时间的基础上减去所述帧移对应的时间,得到更改后的开始时间;在所述第三音频片段的结束时间的基础上增加所述帧移对应的时间,得到更改后的结束时间。
67.另一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行,以实现如
上述任一可能实现方式的音频切分方法。
68.另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以实现如上述任一可能实现方式的音频切分方法。
69.另一方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机程序代码,所述计算机程序代码存储在计算机可读存储介质中,电子设备的处理器从所述计算机可读存储介质读取所述计算机程序代码,所述处理器执行所述计算机程序代码,使得所述电子设备执行上述任一种可能实现方式的音频切分方法。
70.本技术实施例提供的技术方案带来的有益效果是:
71.本技术实施例提供了一种音频切分方法,该方法从第一对话对象与第二对话对象的音频中切分出第一对话对象对应的第一音频和第二对话对象对应的第二音频,然后将第一音频和第二音频分别切分为多个第一音频片段和多个第二音频片段,通过多个第二音频片段中每相邻两个第二音频片段的时间信息来确定两个对话对象对话过程中第一对话对象对应的音频片段,由于相邻两个第二音频片段之间的时间信息可以表示第一对话对象与第二对话对象进行有效对话的时间信息,因此,根据该时间信息可以从多个第一音频片段中准确确定出第一对话对象与第二对话对象有效对话的多个第三音频片段,这样就可以按照两个对话对象的对话内容准确切分第一音频,从而提高音频切分的准确率。
72.应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
73.图1是本技术实施例提供的一种音频切分方法的实施环境的示意图;
74.图2是本技术实施例提供的一种音频切分方法的流程图;
75.图3是本技术实施例提供的一种音频切分方法的流程图;
76.图4是本技术实施例提供的一种切分音频的示意图;
77.图5是本技术实施例提供的一种音频切分装置的结构示意图;
78.图6是本技术实施例提供的一种终端的结构框图;
79.图7是本技术实施例提供的一种服务器的结构框图。
具体实施方式
80.为使本技术的技术方案和优点更加清楚,下面对本技术实施方式作进一步地详细描述。
81.本技术的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们的任意变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
82.图1是本技术实施例提供的一种音频切分方法的实施环境的示意图,该实施环境包括:电子设备,该电子设备可以提供为终端101,也可以提供为服务器102,对此不作具体
限定。
83.在本技术实施例中,若电子设备提供为终端101,该终端101为第二对话对象对应的终端101,第一对话对象和第二对话对象通过该终端101进行对话,该终端101可以记录第一对话对象和第二对话对象对话的音频,然后从该音频中切分出第一对话对象与第二对话对象对话过程中第一对话对象对应的音频片段,后续就可以根据该音频片段统计第二对话对象识别问题的准确率,进而确定第二对话对象解决问题的解决率。
84.若电子设备提供为服务器102,该实施环境中还包括:终端101,终端101与服务器102可以通过无线或有线网络连接,参见图1。该服务器102获取终端101发送的第一对话对象和第二对话对象对话的音频,然后进行音频切分。
85.其中,第一对话对象可以为任一用户,第二对话对象为回答用户问题,为用户提供服务的对象,与第一对话对象对话的第二对话对象可以为服务人员,也可以为智能机器人,也可以先为智能机器人,后切换为服务人员,在此对第一对话对象和第二对话对象不作具体限定。
86.本技术实施例提供的方法可以应用在多个场景中,例如,应用在第二对话对象根据第一对话对象的要求提供服务的场景或者第二对话对象外呼场景中。其中,第二对话对象提供服务的场景可以为提供咨询业务、查询业务或者办理业务的场景,第二对话对象外呼的场景可以为催收业务或者回访业务的场景。其中,该咨询业务可以为咨询宽带业务,查询业务可以为查询终端的话费或者流量的业务,办理业务可以为办理银行业务或者交通业务等,在此对这些咨询业务、查询业务或者办理业务不作具体限定。
87.若第二对话对象为服务人员,用户与服务人员进行对话,服务人员可以针对用户在对话过程中提出的问题进行解答,或者,服务人员催促用户缴费、还款等。若第二对话对象为智能机器人,用户与智能机器人进行对话,智能机器人基于用户说话的内容识别出用户提出的问题,根据识别出的问题检索答案,根据该答案回复用户所提出的问题;或者智能机器人催促用户缴费、还款等。若第二对话对象先为智能机器人,后为服务人员,可以为由智能机器人先与用户进行对话,在智能机器人无法解决用户所提出的问题或者用户请求切换为人工服务的情况下,再由服务人员与该用户进行对话,从而解决用户所提出的问题;或者,先由智能机器人催促用户缴费、还款,在催促无果的情况下,由服务人员进行催促。
88.终端101为手机、平板电脑和pc(personal computer)设备等设备中的至少一种。服务器102可以为一台服务器、由多台服务器组成的服务器集群、云服务器、云计算平台和虚拟化中心中的至少一种。
89.图2是本技术实施例提供的一种音频切分方法的流程图,参见图2,该方法包括:
90.步骤201:从第一对话对象与第二对话对象对话的音频中切分出第一音频和第二音频,第一音频与第一对话对象对应,第二音频与第二对话对象对应。
91.步骤202:基于第一音频中每个第一音频帧的语音状态将第一音频切分为多个第一音频片段,基于第二音频中每个第二音频帧的语音状态将第二音频切分为多个第二音频片段,语音状态包括静音状态和非静音状态。
92.步骤203:基于多个第二音频片段中每相邻两个第二音频片段的时间信息,将多个第一音频片段合并,得到多个第三音频片段。
93.步骤204:基于多个第三音频片段的时间信息,重新切分第一音频。
94.在一种可能的实现方式中,基于第一音频中每个第一音频帧的语音状态将第一音频切分为多个第一音频片段,包括:
95.对于每个第一音频帧,若第一音频帧的语音状态与其相邻的第一音频帧的语音状态不同,基于第一音频帧的语音状态及其相邻的第一音频帧的语音状态,确定一时间节点,时间节点用于表示一个音频片段的开始时间或结束时间;
96.基于第一音频包括的多个第一音频帧得到的多个时间节点,将第一音频切分为多个第一音频片段。
97.在另一种可能的实现方式中,基于第一音频帧的语音状态及其相邻的第一音频帧的语音状态,确定一时间节点,包括:
98.获取第一数组,第一数组是基于第一音频帧的数量生成的,第一数组中的元素值与第一音频帧一一对应,第一数组中第一音频帧的元素值为默认值;
99.基于第一音频帧的语音状态及其相邻的第一音频帧的语音状态,重新确定第一数组中第一音频帧的元素值;
100.基于重新确定的第一音频帧的元素值,确定一时间节点。
101.在另一种可能的实现方式中,基于第一音频帧的语音状态及其相邻的第一音频帧的语音状态,重新确定第一数组中第一音频帧的元素值,包括:
102.若第一音频帧为第一音频中第一个第一音频帧,且第一音频帧的语音状态为非静音状态,确定第一数组中第一音频帧的元素值为第一数值;
103.若第一音频帧为第一音频中最后一个第一音频帧,且第一音频帧的语音状态为非静音状态,确定第一数组中第一音频帧的元素值为第二数值;
104.若第一音频帧为第一音频中第一个第一音频帧和最后一个第一音频帧之间的任一第一音频帧,且第一音频帧的语音状态为静音状态,第一音频帧的前一个第一音频帧的语音状态为静音状态,第一音频帧的后一个第一音频帧的语音状态为非静音状态,确定第一数组中第一音频帧的元素值为第一数值;
105.若第一音频帧为第一音频中第一个第一音频帧和最后一个第一音频帧之间的任一第一音频帧,且第一音频帧的语音状态为静音状态,第一音频帧的前一个第一音频帧的语音状态为非静音状态,第一音频帧的后一个第一音频帧的语音状态为静音状态,确定第一数组中第一音频帧的元素值为第二数值;
106.若第一音频帧为第一音频中第一个第一音频帧和最后一个第一音频帧之间的任一第一音频帧,且第一音频帧的语音状态为静音状态,第一音频帧的前一个第一音频帧的语音状态和后一个第一音频帧的语音状态均为非静音状态,保持第一数组中第一音频帧的元素值不变。
107.在另一种可能的实现方式中,基于重新确定的第一音频帧的元素值,确定一时间节点,包括:
108.若重新确定的第一音频帧的元素值为第一数值,将第一音频帧的时间确定为一个音频片段的开始时间;
109.若重新确定的第一音频帧的元素值为第二数值,将第一音频帧的时间确定为一个音频片段的结束时间。
110.在另一种可能的实现方式中,基于第一音频包括的多个第一音频帧得到的多个时
间节点,将第一音频切分为多个第一音频片段,包括:
111.按照多个第一音频帧的顺序,依次将相邻的开始时间对应的第一音频帧和结束时间对应的第一音频帧之间的第一音频帧组成一个音频片段,得到多个第四音频片段;
112.对于每个第四音频片段,若第四音频片段对应的第一帧数差值小于帧数截断阈值,将第四音频片段与其前一个第四音频片段合并,得到一个第一音频片段,第一帧数差值为第四音频片段的开始时间对应的第一音频帧与其前一个第四音频片段的结束时间对应的第一音频帧之间的帧数差值,帧数截断阈值用于表示相邻两个第四音频片段之间的帧数差值;
113.若第一帧数差值大于或等于帧数截断阈值,且前一个第四音频片段的开始时间对应的第一音频帧和结束时间对应的第一音频帧之间的第二帧数差值大于最短帧数阈值,将前一个第四音频片段作为一个第一音频片段,最短帧数阈值用于表示作为一个有效的音频片段包括的帧数;
114.若第一帧数差值大于或等于帧数截断阈值,且第二帧数差值小于或等于最短帧数阈值,丢弃前一个第四音频片段;
115.依次遍历多个第四音频片段,得到多个第一音频片段。
116.在另一种可能的实现方式中,确定第一音频中每个第一音频帧的语音状态的过程,包括:
117.对于每个第一音频帧,确定第一音频帧中采样点的振幅大于或等于静音采样点振幅阈值的采样点的数量;
118.确定采样点的数量与第一音频帧中采样点的总数量的比值;
119.若比值大于静音比例阈值,确定第一音频帧的语音状态为非静音状态;
120.若比值小于或等于静音比例阈值,确定第一音频帧的语音状态为静音状态。
121.在另一种可能的实现方式中,基于多个第二音频片段中每相邻两个第二音频片段之间的时间信息,将多个第一音频片段合并,得到多个第三音频片段,包括:
122.按照多个第二音频片段的顺序,将每相邻两个第二音频片段之间的音频片段确定为第五音频片段,得到多个第五音频片段;
123.基于多个第五音频片段的时间信息,依次从多个第一音频片段中确定目标音频片段,目标音频片段为时间信息被包含在同一个第五音频片段的时间信息中的第一音频片段;
124.将每个第五音频片段对应的目标音频片段合并为一个第三音频片段,得到多个第三音频片段。
125.在另一种可能的实现方式中,基于多个第三音频片段的时间信息,重新切分第一音频,包括:
126.对于每个第三音频片段,基于预先确定好的帧移,更改第三音频片段的开始时间和结束时间;
127.基于更改后的第三音频片段的开始时间和结束时间,重新切分第一音频。
128.在另一种可能的实现方式中,基于预先确定好的帧移,更改第三音频片段的开始时间和结束时间,包括:
129.在第三音频片段的开始时间的基础上减去帧移对应的时间,得到更改后的开始时
间;
130.在第三音频片段的结束时间的基础上增加帧移对应的时间,得到更改后的结束时间。
131.本技术实施例提供了一种音频切分方法,该方法从第一对话对象与第二对话对象的音频中切分出第一对话对象对应的第一音频和第二对话对象对应的第二音频,然后将第一音频和第二音频分别切分为多个第一音频片段和多个第二音频片段,通过多个第二音频片段中每相邻两个第二音频片段的时间信息来确定两个对话对象对话过程中第一对话对象对应的音频片段,由于相邻两个第二音频片段之间的时间信息可以表示第一对话对象与第二对话对象进行有效对话的时间信息,因此,根据该时间信息可以从多个第一音频片段中准确确定出第一对话对象与第二对话对象有效对话的多个第三音频片段,这样就可以按照两个对话对象的对话内容准确切分第一音频,从而提高音频切分的准确率。
132.图3是本技术实施例提供的一种音频切分方法的流程图,由电子设备执行,参见图3,该方法包括:
133.步骤301:电子设备从第一对话对象与第二对话对象对话的音频中切分出第一音频和第二音频。
134.第一音频与第一对话对象对应,第二音频与第二对话对象对应。第一对话对象可以为任一用户,与第一对话对象对话的第二对话对象可以为服务人员,可以为智能机器人,也可以先为智能机器人,后切换为服务人员,对此不作具体限定。
135.在本技术实施例中,电子设备可以提供为终端,也可以提供为服务器。若电子设备提供为终端,则电子设备可以记录第一对话对象与第二对话对象对话的音频,将该音频存储成双声道的音频,一个声道存储第一对话对象对应的音频,一个声道存储第二对话对象对应的音频。其中,终端可以左声道存储第一对话对象对应的音频,右声道存储第二对话对象对应的音频,也可以左声道存储第二对话对象对应的音频,右声道存储第一对话对象对应的音频,对此不作具体限定。电子设备将该音频中左声道的音频切分为第一音频,将右声道的音频切分为第二音频,参见图4。
136.若电子设备提供为服务器,则电子设备可以获取终端发送的音频,然后将该音频中左声道的音频切分为第一音频,将右声道的音频切分为第二音频。
137.步骤302:对于每个第一音频帧,若第一音频帧的语音状态与其相邻的第一音频帧的语音状态不同,电子设备基于该第一音频帧的语音状态及其相邻的第一音频帧的语音状态,确定一时间节点。
138.该语音状态包括静音状态和非静音状态。
139.步骤302可以通过以下步骤(1)至(4)实现,包括:
140.(1)电子设备确定第一音频中每个第一音频帧的语音状态。
141.步骤(1)可以通过以下步骤(1-1)至(1-5)实现,包括:
142.(1-1)电子设备基于预设采样时间将第一音频切分成多个第一音频帧。
143.电子设备可以按照第一音频的开始时间,每隔预设采样时间确定一个第一音频帧,得到多个第一音频帧。
144.预设采样时间可以根据需要进行设置并更改,例如,预设采样时间为10ms,也即每10ms对应一个第一音频帧。再如,预设采样时间为20ms,也即每20ms对应一个第一音频帧。
145.(1-2)对于每个第一音频帧,电子设备确定该第一音频帧中采样点的振幅大于或等于静音采样点振幅阈值的采样点的数量。
146.音频采样的过程是将声音从模拟音频转成数字音频的过程,也即通过波形采样的方法记录每秒长度的声音需要的采样点的数量,这些数量的采样点处于不同时间长度上不同的位置,这些位置的采样点对应的振幅组成该波形。
147.对于一个第一音频帧来说,电子设备可以确定该第一音频帧对应的时间长度上采样点的数量,该数量即为该第一音频帧中采样点的总数量,电子设备还可以确定该第一音频帧中每个采样点的振幅大小,对于每个采样点,将该采样点的振幅大小与静音采样点振幅阈值进行比较,统计该第一音频帧中振幅大小大于或等于静音采样点振幅阈值的采样点的数量。
148.(1-3)电子设备确定该采样点的数量与第一音频帧中采样点的总数量的比值。
149.该比值可以用来表示第一音频帧中振幅大小大于或等于静音采样点阈值的采样点所占的比例。
150.(1-4)若该比值大于静音比例阈值,电子设备确定该第一音频帧的语音状态为非静音状态。
151.若该比值大于静音比例阈值,说明第一音频帧中多数采样点的振幅较大,则电子设备确定该第一音频帧的语音状态为非静音状态,也即该第一音频帧为非静音帧。
152.(1-5)若该比值小于或等于静音比例阈值,电子设备确定该第一音频帧的语音状态为静音状态。
153.若该比值小于或等于静音比例阈值,说明第一音频帧中多数采样点的振幅较小,则电子设备确定该第一音频帧的语音状态为静音状态,也即该第一音频帧为静音帧。
154.电子设备通过上述步骤(1-1)至(1-5)可以依次确定第一音频中每个第一音频帧的语音状态。
155.在本技术实施例中,对于每个第一音频帧,电子设备基于第一音频帧中采样点的振幅大小占第一音频帧中所有采样点的振幅大小的比例来确定该第一音频帧的语音状态为静音状态还是非静音状态,这样可以综合该第一音频帧中采样点振幅的整体情况准确确定该第一音频帧的语音状态,从而提高确定第一音频帧的语音状态的准确性。
156.(2)电子设备获取第一数组。
157.第一数组是基于第一音频帧的数量生成的,第一数组中的元素值与第一音频帧一一对应,也即第一数组中的第一个元素值对应第一音频中的第一个第一音频帧,第一数组中的第二个元素值对应第一音频中的第二个第一音频帧,依次类推,第一数组中的最后一个元素值对应第一音频中的最后一个第一音频帧。并且,第一数组中该第一音频帧的元素值为默认值,该默认值可以根据需要进行设置并更改,例如,默认值为0或者1,在此仅以默认值为0为例进行说明。
158.需要说明的一点是,对于第一数组的生成时机,电子设备可以在确定每个第一音频帧的语音状态后生成第一数组,也即在执行步骤(1)之后生成第一数组,也可以在将第一音频切分成多个第一音频帧之后生成第一数组,也即在执行步骤(1-1)之后生成第一数组,在本技术实施例中,对生成第一数组的时机不作具体限定。
159.(3)对于每个第一音频帧,若该第一音频帧的语音状态与其相邻的第一音频帧的
语音状态不同,电子设备基于该第一音频帧的语音状态及其相邻的第一音频帧的语音状态,重新确定第一数组中该第一音频帧的元素值。
160.电子设备可以通过以下实现方式重新确定第一数组中该第一音频帧的元素值。
161.第一种实现方式,若该第一音频帧为第一音频中第一个第一音频帧,且该第一音频帧的语音状态为非静音状态,电子设备确定第一数组中该第一音频帧的元素值为第一数值。
162.第一数值可以整数,也可以为小数,对此不作具体限定,若第一数值为整数,可以为正整数,也可以为负整数。例如,第一数值为-1、-10等负整数,这里仅以第一数值为-1为例进行说明。
163.在默认值为0,第一数值为-1的情况下,若该第一音频帧为第一音频中第一个第一音频帧,且该第一音频帧的语音状态为非静音状态,则电子设备确定第一数组中该第一音频帧的元素值,也即第一个元素值为-1,然后将该元素值由0更改为-1。
164.第二种实现方式,若该第一音频帧为第一音频中最后一个第一音频帧,且该第一音频帧的语音状态为非静音状态,电子设备确定第一数组中该第一音频帧的元素值为第二数值。
165.第二数值为与第一数值不同的数值,第二数值也可以为整数,也可以为小数,对此不作具体限定,若第二数值为整数,可以为正整数,也可以为负整数。例如,第一数值为-1,第二数值为-2,这里仅以第一数值为-1,第二数值为-2为例进行说明。
166.若该第一音频帧为第一音频中最后一个第一音频帧,且该第一音频帧的语音状态为非静音状态,电子设备确定第一数组中该第一音频帧的元素值,也即最后一个元素值为-2,然后将该元素值由0更改为-2。
167.第三种实现方式,若该第一音频帧为第一音频中第一个第一音频帧和最后一个第一音频帧之间的任一第一音频帧,且该第一音频帧的语音状态为静音状态,该第一音频帧的前一个第一音频帧的语音状态为静音状态,该第一音频帧的后一个第一音频帧的语音状态为非静音状态,电子设备确定第一数组中该第一音频帧的元素值为第一数值。
168.若该第一音频帧为第一音频中除第一个第一音频帧和最后一个第一音频帧之外的任一第一音频帧,且该第一音频帧的语音状态为静音状态,该第一音频帧的前一个第一音频帧的语音状态为静音状态,该第一音频帧的后一个第一音频帧的语音状态为非静音状态,电子设备确定第一数组中该第一音频帧的元素值为-1,然后将该元素值由0更改为-1。
169.第四种实现方式,若该第一音频帧为第一音频中第一个第一音频帧和最后一个第一音频帧之间的任一第一音频帧,且该第一音频帧的语音状态为静音状态,该第一音频帧的前一个第一音频帧的语音状态为非静音状态,该第一音频帧的后一个第一音频帧的语音状态为静音状态,电子设备确定第一数组中该第一音频帧的元素值为第二数值。
170.若该第一音频帧的语音状态为静音状态,且该第一音频帧的前一个第一音频帧的语音状态为非静音状态,该第一音频帧的后一个第一音频帧的语音状态为静音状态,电子设备确定第一数组中该第一音频帧的元素值为-2,然后将该元素值由0更改为-2。
171.需要说明的一点是,若该第一音频帧为第一音频中第一个第一音频帧和最后一个第一音频帧之间的任一第一音频帧,且该第一音频帧的语音状态为静音状态,该第一音频帧的前一个第一音频帧的语音状态和后一个第一音频帧的语音状态均为非静音状态,则电
子设备保持第一数组中该第一音频帧的元素值不变,也即仍为0。
172.在本技术实施例中,电子设备获取第一数组后,可以根据第一音频中第一音频帧的语音状态重新确定第一数组中的元素值,也即上述步骤(2)至(3)中的内容。电子设备也可以先获取第二数组,再获取第一数组,然后根据第二数组中表示第一音频帧的语音状态的元素值来重新确定第一数组中的元素值。相应的,该过程可以为:
173.电子设备获取第二数组,第二数组是基于第一音频帧的数量生成的,第二数组中的元素值与第一音频帧一一对应,对于每个第一音频帧,若该第一音频帧的语音状态为静音状态,则电子设备确定第二数组中该第一音频帧的元素值为第三数值,若该第一音频帧的语音状态为非静音状态,则电子设备确定第二数组中该第一音频帧的元素值为第四数值。
174.其中,第三数值和第四数值主要用于区分第一音频帧不同的语音状态,第三数值和第四数值可以根据需要进行设置并更改,例如,第三数值为0,第四数值为1,该第一音频帧的语音状态为静音状态时,第二数组中该第一音频帧的元素值为0,该第一音频帧的语音状态为非静音状态时,第二数组中该第一音频帧的元素值为1。
175.另外,对于第二数组的生成时机,电子设备可以在确定每个第一音频帧的语音状态后生成第二数组,也可以在将第一音频切分成多个第一音频帧之后生成第二数组。并且,电子设备可以先生成第二数组,再生成第一数组,也可以先生成第一数组,再生成第二数组,也可以同时生成第二数组和第一数组,对此不作具体限定。
176.电子设备获取第一数组,该第一数组中的元素值与第二数组中的元素值一一对应,且第一数组中的元素值为默认值。电子设备根据第二数组中的元素值及其相邻的元素值,重新确定第一数组中的元素值。该过程可以为:
177.对于第二数组中的每个元素值,若该元素值为第二数组中第一个元素值,且该元素值为第四数值,则电子设备确定第一数组中该元素值对应的元素值为第一数值。例如,该元素值为第二数组中的第一个元素值,且该元素值为1,则电子设备确定第一数组中第一个元素值为-1,然后将第一元素值由0更改为-1。
178.若该元素值为第二数组中最后一个元素值,且该元素值为第四数值,则电子设备确定第一数组中该元素值对应的元素值为第二数值。例如,该元素值为第二数组中的最后一个元素值,且该元素值为1,则电子设备确定第一数组中最后一个元素值为-2,然后将最后一个元素值由0更改为-2。
179.若该元素值为第二数组中第一个元素值和最后一个元素值之间的任一元素值,且该元素值为第三数值,该元素值的前一个元素值为第三数值,该元素值的后一个元素值为第四数值,则电子设备确定第一数组中该元素值对应的元素值为第一数值。
180.例如,该元素值为0,且该元素值的前一个元素值为0,该元素值的后一个元素值为1,则电子设备确定第一数组中该元素值对应的元素值为-1,然后将该元素值由0更改为-1。
181.若该元素值为第二数组中第一个元素值和最后一个元素值之间的任一元素值,且该元素值为第三数值,该元素值的前一个元素值为第四数值,该元素值的后一个元素值为第三数值,则电子设备确定第一数组中该元素值对应的元素值为第二数值。
182.例如,该元素值为0,且该元素值的前一个元素值为1,该元素值的后一个元素值为0,则电子设备确定第一数组中该元素值对应的元素值为-2,然后将该元素值由0更改为-2。
183.若该元素值为第二数组中第一个元素值和最后一个元素值之间的任一元素值,且该元素值为第三数值,该元素值的前一个元素值和后一个元素值均为第四数值,则电子设备保持第一数组中该元素值对应的元素值不变。例如,该元素值为0,且该元素值的前一个元素值和后一个元素值均为1,则电子设备保持第一数组中该元素值对应的元素值为0。
184.(4)电子设备基于重新确定的该第一音频帧的元素值,确定一时间节点。
185.时间节点用于表示一个音频片段的开始时间或结束时间。
186.若重新确定的该第一音频帧的元素值为第一数值,则电子设备将该第一音频帧的时间确定为一个音频片段的开始时间;若重新确定的该第一音频帧的元素值为第二数值,则电子设备将该第一音频帧的时间确定为一个音频片段的结束时间。也即若重新确定的该第一音频帧的元素值为-1,则电子设备将该第一音频帧的时间确定为一个音频片段的开始时间,若重新确定的该第一音频帧的元素值为-2,则电子设备将该第一音频帧的时间确定为一个音频片段的结束时间。
187.电子设备按照重新确定的第一音频帧的元素值的顺序,遍历多个重新确定的第一音频帧的元素值,根据多个重新确定的第一音频帧的元素值可以确定出多个时间节点。
188.在本技术实施例中,电子设备也可以通过第一音频帧在第一音频中的位置来表示一个音频片段的开始时间或结束时间。相应的,该过程可以为:电子设备确定该第一音频帧在第一音频中的位置,若重新确定的该第一音频帧的元素值为第一数值,则电子设备将该第一音频帧所在的位置确定为一个音频片段的开始时间,若重新确定的该第一音频帧的元素值为第二数值,则电子设备将该第一音频帧所在的位置确定为一个音频片段的结束时间。
189.步骤303:电子设备基于第一音频片段包括的多个第一音频帧得到的多个时间节点,将第一音频切分为多个第一音频片段。
190.本步骤可以通过以下步骤(1)至(5)实现,包括:
191.(1)电子设备按照多个第一音频帧的顺序,依次将相邻的开始时间对应的第一音频帧和结束时间对应的第一音频帧之间的第一音频帧组成一个音频片段,得到多个第四音频片段。
192.根据步骤302中的方法,可以得到多个时间节点,这些时间节点按开始时间、结束时间、开始时间、结束时间依次排列,电子设备将相邻的开始时间对应的第一音频帧和结束时间对应的第一音频帧之间的第一音频帧组合成一个音频片段,最终得到多个第四音频片段。其中,每个第四音频片段包括的第一音频帧的数量可能相同或者不同。
193.(2)对于每个第四音频片段,若该第四音频片段对应的第一帧数差值小于帧数截断阈值,电子设备将该第四音频片段与其前一个第四音频片段合并,得到一个第一音频片段。
194.第一帧数差值为第四音频片段的开始时间对应的第一音频帧与其前一个第四音频片段的结束时间对应的第一音频帧之间的帧数差值,帧数截断阈值用于表示相邻两个第四音频片段之间的帧数差值。
195.若第一帧数差值小于帧数截断阈值,说明该第四音频片段与其前一个第四音频片段之间的帧数差较小,则电子设备将该第四音频片段与其前一个第四音频片段合并,得到一个第一音频片段,这样可以让存在短时间截断的音频保持时间上的连续性。
196.(3)若第一帧数差值大于或等于帧数截断阈值,且前一个第四音频片段的开始时间对应的第一音频帧和结束时间对应的第一音频帧之间的第二帧数差值大于最短帧数阈值,电子设备将前一个第四音频片段作为一个第一音频片段。
197.最短帧数阈值用于表示作为一个有效的音频片段包括的帧数。
198.若第一帧数差值大于或等于帧数截断阈值,说明该第四音频片段与其前一个第四音频片段之间的帧数差较大,这种情况下,电子设备确定该前一个第四音频片段的开始时间对应的第一音频帧和结束时间对应的第一音频帧之间的第二帧数差值是否大于最短帧数阈值,若第二帧数差值大于最短帧数阈值,说明该第四音频片段的前一个第四音频片段是有效的音频片段,则电子设备将该前一个第四音频片段作为一个第一音频片段。
199.(4)若第一帧数差值大于或等于该帧数截断阈值,且第二帧数差值小于或等于最短帧数阈值,电子设备丢弃该前一个第四音频片段。
200.若第一帧数差值大于或等于该帧数截断阈值,且第二帧数差值小于或等于最短帧数阈值,说明该前一个第四音频片段是无效的音频片段,则电子设备丢弃该前一个第四音频片段。
201.至于该第四音频片段,电子设备根据该第四音频片段的下一个第四音频片段来判断是否将该第四音频片段与该下一个第四音频片段合并,或者将该第四音频片段单独作为一个第一音频片段,或者丢弃该第四音频片段。该过程与步骤(2)至(4)相似,在此不再赘述。
202.(5)电子设备依次遍历多个第四音频片段,得到多个第一音频片段。
203.对于多个第四音频片段的每个第四音频片段,电子设备按照多个第四音频片段的顺序,均通过步骤(2)至(4)进行判断,最终得到多个第一音频片段,继续参见图4。在本技术实施例中,电子设备将第一音频切分为多个第一音频片段时,可以每确定一个第一音频片段,就将确定的第一音频片段加入到一个音频序列中,直至将确定的最后一个第一音频片段加入该音频序列中,得到第一音频序列,该第一音频序列中的第一音频片段按照时间进行排列。
204.例如,第一音频序列为u=[[us1,ue1],[us2,ue2],[us3,ue3],
……
,[usn,uen]],其中,[us1,ue1]表示第一个第一音频片段,[us2,ue2]表示第二个第一音频片段,[usn,uen]表示最后一个第一音频片段,[us1,ue1]中的us1表示第一个第一音频片段的开始时间,ue1表示第一个第一音频片段的结束时间,[us2,ue2]中的us2表示第二个第一音频片段的开始时间,ue2表示第二个第一音频片段的结束时间,依次类推,[usn,uen]中的usn表示最后一个第一音频片段的开始时间,uen表示最后一个第一音频片段的结束时间。
[0205]
在本技术实施例中,通过第一音频帧的语音状态及其相邻的第一音频帧的语音状态来确定时间节点,或者通过表示第一音频帧语音状态的元素值及其相邻的第一音频帧的元素值来确定时间节点,而不是仅仅根据一个音频帧的语音状态或者元素值来确定时间节点,从而提高确定的时间节点的准确性。
[0206]
步骤304:电子设备基于第二音频中每个第二音频帧的语音状态,将第二音频切分为多个第二音频片段。
[0207]
电子设备基于第二音频中每个第二音频帧的语音状态,将第二音频切分为多个第二音频片段的方式与按照上述步骤302至303将第一音频切分为多个第一音频片段的方式
相似,这里不再赘述。继续参见图4,从图4中可以看出:电子设备将第二音频也切分为多个第二音频片段。
[0208]
相应的,电子设备将第二音频切分为多个第二音频片段时,可以每确定一个第二音频片段,就将确定的第二音频片段加入到一个音频序列中,直至将确定的最后一个第二音频片段加入该音频序列中,得到第二音频序列,该第二音频序列中的第二音频片段按照时间进行排列。
[0209]
例如,第二音频序列为a=[[as1,ae1],[as2,ae2],[as3,ae3],
……
,[asm,aem]],其中,[as1,ae1]表示第一个第二音频片段,[as2,ae2]表示第二个第二音频片段,[asm,aem]表示最后一个第二音频片段,[as1,ae1]中的as1表示第一个第二音频片段的开始时间,ae1表示第一个第二音频片段的结束时间,[as2,ae2]中的as2表示第二个第二音频片段的开始时间,ae2表示第二个第二音频片段的结束时间,依次类推,[asm,aem]中的asm表示最后一个第二音频片段的开始时间,aem表示最后一个第二音频片段的结束时间。
[0210]
在本技术实施例中,电子设备可以先执行步骤302至303,再执行步骤304,也可以先执行步骤304,再执行步骤302至303,也可以同时执行步骤302至303以及步骤304,对此不作具体限定。
[0211]
步骤305:电子设备基于多个第二音频片段中每相邻两个第二音频片段的时间信息,将多个第一音频片段合并,得到多个第三音频片段。
[0212]
该第三音频片段为第一对话对象与第二对话对象对话过程中第一对话对象对应的音频片段。
[0213]
本步骤可以通过以下步骤(1)至(4)实现,包括:
[0214]
(1)电子设备按照多个第二音频片段的顺序,将每相邻两个第二音频片段之间的音频片段确定为第五音频片段,得到多个第五音频片段。
[0215]
第二音频片段为第二对话对象对话的音频片段,因此,相邻两个第二音频片段之间的音频片段为第一对话对象对话的音频片段,电子设备将每相邻两个第二音频片段之间的音频片段确定为第五音频片段,得到多个第五音频片段,每个第五音频片段的时间信息即为第一对话对象对话的时间信息。
[0216]
例如,第二音频序列为a=[[as1,ae1],[as2,ae2],[as3,ae3],
……
,[asm,aem]],则ae1和as2之间的多个第二音频帧组成一个第五音频片段,ae1即为该第五音频片段的开始时间,as2即为该第五音频片段的结束时间。ae2和as3之间的多个第二音频帧组成一个第五音频片段,ae2即为该第五音频片段的开始时间,as3即为该第五音频片段的结束时间。依次类推,as(m-1)和asm之间的多个第二音频帧组成一个第五音频片段,as(m-1)即为该第五音频片段的开始时间,asm即为该第五音频片段的结束时间,最终得到多个第五音频片段。
[0217]
(2)电子设备基于多个第五音频片段的时间信息,依次从多个第一音频片段中确定目标音频片段。
[0218]
该目标音频片段为时间信息被包含在同一个第五音频片段的时间信息中的第一音频片段。
[0219]
对于每个第一音频片段,电子设备可以根据该第一音频片段的开始时间和结束时间,得到该第一音频片段的时间信息。对于多个第五音频片段中的每个第五音频片段,电子设备也可以根据该第五音频片段的开始时间和结束时间,确定该第五音频片段的时间信
息。
[0220]
电子设备可以按照多个第五音频片段的顺序,从多个第一音频片段中确定第一目标音频片段,该第一目标音频片段为时间信息被包含在第一个第五音频片段的时间信息中的第一音频片段。例如,[us1,ue1]和[us2,ue2]的时间信息均被包含在[ae1,as2]的时间信息中,则确定[us1,ue1]和[us2,ue2]为第一目标音频片段。
[0221]
电子设备从多个第一音频片段中确定第二目标音频片段,第二目标音频片段为时间信息被包含在第二个第五音频片段的时间信息中的第一音频片段,直至从多个第一音频片段中确定第三目标音频片段,第三目标音频片段为时间信息被包含在最后一个第五音频片段的时间信息中的第一音频片段。
[0222]
需要说明的一点是,对于每个第五音频片段,多个第一音频片段中可能存在时间信息被包含在该第五音频片段的时间信息中的第一音频片段,也可能不存在时间信息被包含在该第五音频片段的时间信息中的第一音频片段。这里仅以第一个第五音频片段为例进行说明,多个第一音频片段中可能存在时间信息被包含在第一个第五音频片段的时间信息中的第一音频片段,也可能不存在时间信息被包含在第一个第五音频片段的时间信息中的第一音频片段,若存在该第一音频片段,则本步骤中服务器确定出至少一个第一目标音频片段,若不存在该第一音频片段,则本步骤中服务器未确定出第一目标音频片段。在本技术实施例中,仅以多个第一音频片段中存在满足上述条件的目标音频片段为例进行说明。
[0223]
(3)电子设备将每个第五音频片段对应的目标音频片段合并为一个第三音频片段,得到多个第三音频片段。
[0224]
例如,[us1,ue1]和[us2,ue2]的时间信息均被包含在[ae1,as2]的时间信息中,则电子设备将[us1,ue1]和[us2,ue2]合并为一个第三音频片段,也即[us1,ue2],电子设备将每个第五音频片段包含的目标音频频段合并为一个第三音频片段,最终得到多个第三音频片段。
[0225]
需要说明的一点是,第三音频片段的数量可能为一个,也可以为多个,也可能为零。若多个第五音频片段中只有一个第五音频片段对应的第一音频片段,则第三音频片段的数量为一。若多个第五音频片段中有多个第五音频片段对应的第一音频片段,则第三音频片段的数量为多个。若多个第五音频片段中不存在第五音频片段对应的第一音频片段,则第三音频片段的数量为零,也即不存在第三音频片段,这种情况下,电子设备无需执行步骤(4)。在本技术实施例中,仅以第三音频片段的数量为多个为例进行说明。
[0226]
在本技术实施例中,通过切分的第二音频片段定位出第一对话对象有效对话的音频片段,然后结合切分的第一音频片段从中找出第一对话对象对话过程中每一段有效对话的音频片段的开始时间和结束时间,这样切分出的音频片段首尾段没有长时间的空白,并且存在轻微截断的音频可以保持时间上的连续性。
[0227]
步骤306:电子设备基于多个第三音频片段的时间信息,重新切分第一音频。
[0228]
本步骤可以通过以下步骤(1)至(2)实现,包括:
[0229]
(1)对于每个第三音频片段,电子设备基于预先确定好的帧移,更改该第三音频片段的开始时间和结束时间。
[0230]
电子设备在该第三音频片段的开始时间的基础上减去该帧移对应的时间,得到更改后的开始时间;在该第三音频片段的结束时间的基础上增加该帧移对应的时间,得到更
改后的结束时间。
[0231]
其中,帧移可以根据需要进行设置并更改,例如,帧移为3、5或者6,这里仅以帧移为5为例进行说明。若帧移为5,电子设备先确定1个第一音频帧对应的时间,然后确定5个第一音频帧对应的时间,在第三音频片段的开始时间的基础上减去该帧移对应的时间,也即向前移动该帧移对应的时间,在第三音频片段的结束时间的基础上向后移动该帧移对应的时间,分别得到更改后的开始时间和更改后的结束时间。
[0232]
(2)电子设备基于更改后的第三音频片段的开始时间和结束时间,重新切分第一音频。
[0233]
电子设备按照每个第三音频片段更改后的开始时间和更改后的结束时间,重新切分第一音频,得到多个音频片段。
[0234]
在本技术实施例中,若电子设备通过第一音频帧在第一音频中的位置来表示一个音频片段的开始时间或结束时间。相应的,对于每个第三音频片段,电子设备可以基于该第三音频片段的第一个第一音频帧在第一音频中的位置和最后一个第一音频帧在第一音频中的位置,重新切分第一音频。该过程可以为:对于每个第三音频片段,电子设备确定该第三音频片段的第一个第一音频帧和最后一个第一音频帧在第一音频中的位置,分别得到该第三音频片段的第一个第一音频帧的位置和最后一个第一音频帧的位置,在该第三音频片段的第一个第一音频帧的位置的基础上减去该帧移对应的帧数,得到更改后的第三音频片段的第一个第一音频帧的位置,在该第三音频片段的最后一个第一音频帧的位置的基础上增加该帧移对应的帧数,得到更改后的第三音频片段的最后一个第一音频帧的位置。根据该第三音频片段更改后的第一个第一音频帧的位置和更改后的最后一个第一音频帧的位置,重新切分第一音频。
[0235]
例如,一个第三音频片段的第一个第一音频帧为第一音频中的第10个第一音频帧,该第三音频片段的最后一个第一音频帧为第一音频中的第40个第一音频帧,帧移为5,则在第10个第一音频帧的基础上向前推移5个第一音频帧,也即第5个第一音频帧,在第40个第一音频帧的基础上向后推移5个第一音频帧,也即第45个第一音频帧,然后从第一音频中将第5个第一音频帧和第45个第一音频帧之间的第一音频帧从第一音频中切分出来,组成一个音频片段。
[0236]
在本技术实施例中,在第三音频片段的基础上增加帧移对应的时间或帧移对应的帧数,有利于后续对第三音频片段的内容的识别,提高识别的准确率。
[0237]
继续参见图4,电子设备基于多个第二音频片段,将多个第一音频片段合并,得到的多个第三音频片段为第一对话对象有效对话的音频片段,根据这些第三音频片段来重新切分第一音频,最终得到多个音频片段,这些音频片段为第一对话对象在对话过程中每一段有效对话的音频片段。
[0238]
电子设备切分出有效对话的音频片段后,可以存储这些有效对话的音频片段,相较于直接存储第一音频,这样可以节省存储空间。并且,电子设备还可以将这些有效对话的音频片段与第二对话对象识别这些音频片段的识别结果进行对应,然后统计第二对话对象识别的准确率,电子设备还可以根据这些有效对话的音频片段进行音频的标注训练工作。另外,电子设备还可以结合第二对话对象回答的内容统计第二对话对象解决问题的解决率。
[0239]
本技术实施例提供了一种音频切分方法,该方法从第一对话对象与第二对话对象的音频中切分出第一对话对象对应的第一音频和第二对话对象对应的第二音频,然后将第一音频和第二音频分别切分为多个第一音频片段和多个第二音频片段,通过多个第二音频片段中每相邻两个第二音频片段的时间信息来确定两个对话对象对话过程中第一对话对象对应的音频片段,由于相邻两个第二音频片段之间的时间信息可以表示第一对话对象与第二对话对象进行有效对话的时间信息,因此,根据该时间信息可以从多个第一音频片段中准确确定出第一对话对象与第二对话对象有效对话的多个第三音频片段,这样就可以按照两个对话对象的对话内容准确切分第一音频,从而提高音频切分的准确率。
[0240]
图5是本技术实施例提供的一种音频切分装置的结构示意图,参见图5,该装置包括:
[0241]
第一切分模块501,用于从第一对话对象与第二对话对象对话的音频中切分出第一音频和第二音频,第一音频与第一对话对象对应,第二音频与第二对话对象对应;
[0242]
第二切分模块502,用于基于第一音频中每个第一音频帧的语音状态将第一音频切分为多个第一音频片段,基于第二音频中每个第二音频帧的语音状态将第二音频切分为多个第二音频片段,语音状态包括静音状态和非静音状态;
[0243]
合并模块503,用于基于多个第二音频片段中每相邻两个第二音频片段的时间信息,将多个第一音频片段合并,得到多个第三音频片段;
[0244]
第三切分模块504,用于基于多个第三音频片段的时间信息,重新切分第一音频。
[0245]
在一种可能的实现方式中,第二切分模块502,用于对于每个第一音频帧,若第一音频帧的语音状态与其相邻的第一音频帧的语音状态不同,基于第一音频帧的语音状态及其相邻的第一音频帧的语音状态,确定一时间节点,时间节点用于表示一个音频片段的开始时间或结束时间;基于第一音频包括的多个第一音频帧得到的多个时间节点,将第一音频切分为多个第一音频片段。
[0246]
在另一种可能的实现方式中,第二切分模块502,用于获取第一数组,第一数组是基于第一音频帧的数量生成的,第一数组中的元素值与第一音频帧一一对应,第一数组中第一音频帧的元素值为默认值;基于第一音频帧的语音状态及其相邻的第一音频帧的语音状态,重新确定第一数组中第一音频帧的元素值;基于重新确定的第一音频帧的元素值,确定一时间节点。
[0247]
在另一种可能的实现方式中,第二切分模块502,用于若第一音频帧为第一音频中第一个第一音频帧,且第一音频帧的语音状态为非静音状态,确定第一数组中第一音频帧的元素值为第一数值;若第一音频帧为第一音频中最后一个第一音频帧,且第一音频帧的语音状态为非静音状态,确定第一数组中第一音频帧的元素值为第二数值;若第一音频帧为第一音频中第一个第一音频帧和最后一个第一音频帧之间的任一第一音频帧,且第一音频帧的语音状态为静音状态,第一音频帧的前一个第一音频帧的语音状态为静音状态,第一音频帧的后一个第一音频帧的语音状态为非静音状态,确定第一数组中第一音频帧的元素值为第一数值;若第一音频帧为第一音频中第一个第一音频帧和最后一个第一音频帧之间的任一第一音频帧,且第一音频帧的语音状态为静音状态,第一音频帧的前一个第一音频帧的语音状态为非静音状态,第一音频帧的后一个第一音频帧的语音状态为静音状态,确定第一数组中第一音频帧的元素值为第二数值;若第一音频帧为第一音频中第一个第一
音频帧和最后一个第一音频帧之间的任一第一音频帧,且第一音频帧的语音状态为静音状态,第一音频帧的前一个第一音频帧的语音状态和后一个第一音频帧的语音状态均为非静音状态,保持第一数组中第一音频帧的元素值不变。
[0248]
在另一种可能的实现方式中,第二切分模块502,用于若重新确定的第一音频帧的元素值为第一数值,将第一音频帧的时间确定为一个音频片段的开始时间;若重新确定的第一音频帧的元素值为第二数值,将第一音频帧的时间确定为一个音频片段的结束时间。
[0249]
在另一种可能的实现方式中,第二切分模块502,用于按照多个第一音频帧的顺序,依次将相邻的开始时间对应的第一音频帧和结束时间对应的第一音频帧之间的第一音频帧组成一个音频片段,得到多个第四音频片段;对于每个第四音频片段,若第四音频片段对应的第一帧数差值小于帧数截断阈值,将第四音频片段与其前一个第四音频片段合并,得到一个第一音频片段,第一帧数差值为第四音频片段的开始时间对应的第一音频帧与其前一个第四音频片段的结束时间对应的第一音频帧之间的帧数差值,帧数截断阈值用于表示相邻两个第四音频片段之间的帧数差值;若第一帧数差值大于或等于帧数截断阈值,且前一个第四音频片段的开始时间对应的第一音频帧和结束时间对应的第一音频帧之间的第二帧数差值大于最短帧数阈值,将前一个第四音频片段作为一个第一音频片段,最短帧数阈值用于表示作为一个有效的音频片段包括的帧数;若第一帧数差值大于或等于帧数截断阈值,且第二帧数差值小于或等于最短帧数阈值,丢弃前一个第四音频片段;依次遍历多个第四音频片段,得到多个第一音频片段。
[0250]
在另一种可能的实现方式中,装置还包括:
[0251]
第一确定模块,用于对于每个第一音频帧,确定第一音频帧中采样点的振幅大于或等于静音采样点振幅阈值的采样点的数量;
[0252]
第二确定模块,用于确定第一数量与第一音频帧中采样点的总数量的比值;
[0253]
第三确定模块,用于若比值大于静音比例阈值,确定第一音频帧的语音状态为非静音状态;
[0254]
第四确定模块,用于若比值小于或等于静音比例阈值,确定第一音频帧的语音状态为静音状态。
[0255]
在另一种可能的实现方式中,合并模块503,用于按照多个第二音频片段的顺序,将每相邻两个第二音频片段之间的音频片段确定为第五音频片段,得到多个第五音频片段;依次从多个第一音频片段中确定目标音频片段,目标音频片段为时间信息被包含在同一个第五音频片段的时间信息中的第一音频片段;将每个第五音频片段对应的目标音频片段合并为一个第三音频片段,得到多个第三音频片段。
[0256]
在另一种可能的实现方式中,第三切分模块504,用于对于每个第三音频片段,基于预先确定好的帧移,更改第三音频片段的开始时间和结束时间;基于更改后的第三音频片段的开始时间和结束时间,重新切分第一音频。
[0257]
在另一种可能的实现方式中,第三切分模块504,用于在第三音频片段的开始时间的基础上减去帧移对应的时间,得到更改后的开始时间;在第三音频片段的结束时间的基础上增加帧移对应的时间,得到更改后的结束时间。
[0258]
本技术实施例提供了一种音频切分装置,该装置从第一对话对象与第二对话对象的音频中切分出第一对话对象对应的第一音频和第二对话对象对应的第二音频,然后将第
一音频和第二音频分别切分为多个第一音频片段和多个第二音频片段,通过多个第二音频片段中每相邻两个第二音频片段的时间信息来确定两个对话对象对话过程中第一对话对象对应的音频片段,由于相邻两个第二音频片段之间的时间信息可以表示第一对话对象与第二对话对象进行有效对话的时间信息,因此,根据该时间信息可以从多个第一音频片段中准确确定出第一对话对象与第二对话对象有效对话的多个第三音频片段,这样就可以按照两个对话对象的对话内容准确切分第一音频,从而提高音频切分的准确率。
[0259]
若电子设备提供为终端,参见图6,图6示出了本技术一个示例性实施例提供的终端600的结构框图。该终端600可以是:智能手机、平板电脑、mp3播放器(moving picture experts group audio layer iii,动态影像专家压缩标准音频层面3)、mp4(moving picture experts group audio layer iv,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端600还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
[0260]
通常,终端600包括有:处理器601和存储器602。
[0261]
处理器601可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器601可以采用dsp(digital signal processing,数字信号处理)、fpga(field-programmable gate array,现场可编程门阵列)、pla(programmable logic array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称cpu(central processing unit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器601可以在集成有gpu(graphics processing unit,图像处理器),gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器601还可以包括ai(artificial intelligence,人工智能)处理器,该ai处理器用于处理有关机器学习的计算操作。
[0262]
存储器602可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器602中的非暂态的计算机可读存储介质用于存储至少一条程序代码,该至少一条程序代码用于被处理器601所执行以实现本技术中方法实施例提供的音频切分方法。
[0263]
在一些实施例中,终端600还可选包括有:外围设备接口603和至少一个外围设备。处理器601、存储器602和外围设备接口603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口603相连。具体地,外围设备包括:射频电路604、显示屏605、摄像头组件606、音频电路607、定位组件608和电源609中的至少一种。
[0264]
外围设备接口603可被用于将i/o(input/output,输入/输出)相关的至少一个外围设备连接到处理器601和存储器602。在一些实施例中,处理器601、存储器602和外围设备接口603被集成在同一芯片或电路板上;在一些其他实施例中,处理器601、存储器602和外围设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
[0265]
射频电路604用于接收和发射rf(radio frequency,射频)信号,也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转
换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路604包括:天线系统、rf收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路604可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2g、3g、4g及5g)、无线局域网和/或wifi(wireless fidelity,无线保真)网络。在一些实施例中,射频电路604还可以包括nfc(near field communication,近距离无线通信)有关的电路,本技术对此不加以限定。
[0266]
显示屏605用于显示ui(user interface,用户界面)。该ui可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏605是触摸显示屏时,显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时,显示屏605还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏605可以为一个,设置在终端600的前面板;在另一些实施例中,显示屏605可以为至少两个,分别设置在终端600的不同表面或呈折叠设计;在另一些实施例中,显示屏605可以是柔性显示屏,设置在终端600的弯曲表面上或折叠面上。甚至,显示屏605还可以设置成非矩形的不规则图形,也即异形屏。显示屏605可以采用lcd(liquid crystal display,液晶显示屏)、oled(organic light-emitting diode,有机发光二极管)等材质制备。
[0267]
摄像头组件606用于采集图像或视频。可选地,摄像头组件606包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及vr(virtual reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件606还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
[0268]
音频电路607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器601进行处理,或者输入至射频电路604以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路607还可以包括耳机插孔。
[0269]
定位组件608用于定位终端600的当前地理位置,以实现导航或lbs(location based service,基于位置的服务)。定位组件608可以是基于美国的gps(global positioning system,全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。
[0270]
电源609用于为终端600中的各个组件进行供电。电源609可以是交流电、直流电、一次性电池或可充电电池。当电源609包括可充电电池时,该可充电电池可以支持有线充电
或无线充电。该可充电电池还可以用于支持快充技术。
[0271]
在一些实施例中,终端600还包括有一个或多个传感器610。该一个或多个传感器610包括但不限于:加速度传感器611、陀螺仪传感器612、压力传感器613、指纹传感器614、光学传感器615以及接近传感器616。
[0272]
加速度传感器611可以检测以终端600建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器611可以用于检测重力加速度在三个坐标轴上的分量。处理器601可以根据加速度传感器611采集的重力加速度信号,控制显示屏605以横向视图或纵向视图进行用户界面的显示。加速度传感器611还可以用于游戏或者用户的运动数据的采集。
[0273]
陀螺仪传感器612可以检测终端600的机体方向及转动角度,陀螺仪传感器612可以与加速度传感器611协同采集用户对终端600的3d动作。处理器601根据陀螺仪传感器612采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变ui)、拍摄时的图像稳定、游戏控制以及惯性导航。
[0274]
压力传感器613可以设置在终端600的侧边框和/或显示屏605的下层。当压力传感器613设置在终端600的侧边框时,可以检测用户对终端600的握持信号,由处理器601根据压力传感器613采集的握持信号进行左右手识别或快捷操作。当压力传感器613设置在显示屏605的下层时,由处理器601根据用户对显示屏605的压力操作,实现对ui界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
[0275]
指纹传感器614用于采集用户的指纹,由处理器601根据指纹传感器614采集到的指纹识别用户的身份,或者,由指纹传感器614根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器601授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器614可以被设置在终端600的正面、背面或侧面。当终端600上设置有物理按键或厂商logo时,指纹传感器614可以与物理按键或厂商logo集成在一起。
[0276]
光学传感器615用于采集环境光强度。在一个实施例中,处理器601可以根据光学传感器615采集的环境光强度,控制显示屏605的显示亮度。具体地,当环境光强度较高时,调高显示屏605的显示亮度;当环境光强度较低时,调低显示屏605的显示亮度。在另一个实施例中,处理器601还可以根据光学传感器615采集的环境光强度,动态调整摄像头组件606的拍摄参数。
[0277]
接近传感器616,也称距离传感器,通常设置在终端600的前面板。接近传感器616用于采集用户与终端600的正面之间的距离。在一个实施例中,当接近传感器616检测到用户与终端600的正面之间的距离逐渐变小时,由处理器601控制显示屏605从亮屏状态切换为息屏状态;当接近传感器616检测到用户与终端600的正面之间的距离逐渐变大时,由处理器601控制显示屏605从息屏状态切换为亮屏状态。
[0278]
本领域技术人员可以理解,图6中示出的结构并不构成对终端600的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
[0279]
若电子设备提供为服务器,参见图7,图7是本技术实施例提供的一种服务器700的结构框图,该服务器700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,cpu)701和一个或一个以上的存储器702,其中,该
存储器702中存储有至少一条程序代码,该至少一条程序代码由该处理器701加载并执行以实现上述各个方法实施例提供的方法。当然,该服务器700还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器700还可以包括其他用于实现设备功能的部件,在此不做赘述。
[0280]
在示例性实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条程序代码,该至少一条程序代码由处理器加载并执行,以实现本技术实施例中音频切分方法。
[0281]
在示例性实施例中,还提供了一种计算机程序产品,该计算机程序产品包括计算机程序代码,该计算机程序代码存储在计算机可读存储介质中,电子设备的处理器从计算机可读存储介质读取计算机程序代码,该处理器执行计算机程序代码,使得电子设备执行本技术实施例中音频切分方法。
[0282]
在一些实施例中,本技术实施例所涉及的计算机程序可被部署在一个计算机设备上执行,或者在位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行,分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链系统。
[0283]
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0284]
以上所述仅是为了便于本领域的技术人员理解本技术的技术方案,并不用以限制本技术。凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1