语音交互测试的方法、装置、系统、设备以及存储介质与流程

文档序号：31869608发布日期：2022-10-21 18:29阅读：170来源：国知局

技术简介：
本专利针对语音交互功能测试中难以精准获取终端CPU性能数据的问题，提出通过设定交互场景（含噪声、语料等参数），结合预设采样频率采集终端CPU信息，并基于该信息生成测试结果的解决方案，实现了多场景下语音交互性能的量化评估。
关键词：语音交互测试,CPU信息分析

1.本公开涉及计算机技术领域，尤其涉及语音技术、人工智能、自然语言处理、深度学习技术领域。

背景技术：

2.随着人工智能技术的快速发展和核心技术的突破性进步，越来越多的智能家居、手机等智能终端设备搭载语音交互技术，为用户提供更加方便高效的交互方式。语音交互软件的cpu(central processing unit，中央处理器)性能对智能终端设备运行稳定性和用户交互体验有着很大的影响，语音交互软件的cpu占用过高可能导致语音交互软件出现停止响应、识别出错等情况。

技术实现要素：

3.本公开提供了一种语音交互测试的方法、装置、系统、设备以及存储介质。
4.根据本公开的一方面，提供了一种语音交互测试的方法，包括：
5.根据确定的交互场景信息，与第一终端进行语音交互；其中，交互场景信息包括：语音交互模式信息、噪声信息和语料信息；
6.根据预设采样频率，获取第一终端在语音交互的过程中对应的第一cpu信息；以及
7.根据第一cpu信息，生成第一终端的语音交互功能的测试结果。
8.根据本公开的另一方面，提供了一种语音交互测试的装置，包括：
9.第一交互模块，用于根据确定的交互场景信息，与第一终端进行语音交互；其中，交互场景信息包括：语音交互模式信息、噪声信息和语料信息；
10.第一获取模块，用于根据预设采样频率，获取第一终端在语音交互的过程中对应的第一cpu信息；以及
11.第一生成模块，用于根据第一cpu信息，生成第一终端的语音交互功能的测试结果。
12.根据本公开的另一方面，提供了一种语音交互测试的系统，包括：
13.控制端，用于根据确定的交互场景信息，控制第一语音播放设备和第一终端进行语音交互；根据预设采样频率，获取第一终端在语音交互的过程中对应的第一cpu信息；根据第一cpu信息，生成第一终端的语音交互功能的测试结果；其中，交互场景信息包括：语音交互模式信息、噪声信息和语料信息；
14.第一语音播放设备，用于根据接收的交互场景信息，播放交互语音；
15.第一终端，用于根据接收的交互场景信息和交互语音，与第一语音播放设备进行语音交互。
16.根据本公开的另一方面，提供了一种电子设备，包括：
17.至少一个处理器；以及
18.与该至少一个处理器通信连接的存储器；其中，
19.该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本公开中任一实施例的方法。
20.根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，该计算机指令用于使该计算机执行根据本公开中任一实施例的方法。
21.根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现根据本公开中任一实施例的方法。
22.根据本公开的方案，可以得到特定的语音交互场景下语音交互功能对应的cpu信息，并实现基于cpu信息得到终端的语音交互功能的测试结果。
23.应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
24.附图用于更好地理解本方案，不构成对本公开的限定。其中：
25.图1是根据本公开实施例的语音交互测试的方法的流程示意图；
26.图2是根据本公开实施例的语音交互测试的方法的应用场景示意图；
27.图3是根据本公开另一实施例的语音交互测试的方法的流程示意图；
28.图4是根据本公开实施例的语音交互测试的装置的结构示意图；
29.图5是根据本公开实施例的语音交互测试的系统的结构示意图；
30.图6是用来实现本公开实施例的语音交互测试的方法的电子设备的框图。
具体实施方式
31.以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。
32.根据本公开实施例的方案，如图1所示，提供了一种语音交互测试的方法，可以包括：
33.s101：根据确定的交互场景信息，与第一终端进行语音交互。其中，交互场景信息包括：语音交互模式信息、噪声信息和语料信息。
34.s102：根据预设采样频率，获取第一终端在语音交互的过程中对应的第一cpu信息。
35.s103：根据第一cpu信息，生成第一终端的语音交互功能的测试结果。
36.根据本公开实施例，需要说明的是：
37.交互场景信息，可以理解为与第一终端进行语音交互时，所需要利用的语音交互信息。
38.第一终端可以理解为能够实现语音交互功能的任意智能终端设备。例如，智能手机、智能手表、智能眼镜、智能音箱、计算机、机器人、车机等等，在此不做具体限定。只要安装有语音交互软件或搭载语音交互模块即可。
39.根据确定的交互场景信息，与第一终端进行语音交互，可以理解为本语音交互测
试的方法的执行主体与第一终端直接的根据交互场景信息进行语音交互。也可以理解为本语音交互测试的方法的执行主体利用其他语音播放设备间接的根据交互场景信息实现与第一终端进行语音交互。执行主体可以是计算机、服务器、分布式服务器集群等，在此不做具体限定。
40.语音交互模式信息，可以包括但不限于：激活模式、响应模式、持续交互模式或组合模式。激活模式，可以理解为用于通过特定的唤醒词唤醒或激活第一终端的语音交互功能的模式。响应模式，可以理解为用于使第一终端能够进行至少一次语音交互的模式。持续交互模式，可以理解为用于使第一终端连续进行多次或多轮语音交互的模式。组合模式，可以理解为包括激活模式、响应模式和持续交互模式中的任意两种模式或全部模式。
41.语料信息，可以理解为在于第一终端进行语音交互时需要播放的语音(query询问语句或唤醒词语句)的内容，该语料信息用于供第一终端进行语音识别，以及可以使第一终端基于识别的结果，反馈与语料信息有关的答复内容。
42.噪声信息，可以理解为在第一终端进行语音交互的过程中，所处的噪声环境，当噪声环境内存在噪声时，则第一终端接收到的语音中会包含噪声语音。噪声信息可以包括无噪声环境、内噪环境和外噪环境。无噪声环境，可以理解为没有噪声的安静环境，即第一终端接收到的语音仅包含与语料信息对应的语音。内噪环境，可以理解为第一终端自身会产生噪声的环境，例如第一终端自身在播放音乐、视频或语音等。外噪环境，可以理解为第一终端所处的环境中包含有除第一终端以外的其他声源所产生的的噪声的环境。
43.第一终端在语音交互的过程中对应的第一cpu信息，可以理解为第一终端在语音交互的过程中，所占用的cpu产生的相关数据信息。cpu产生的相关数据信息会随着语音交互过程实时地产生变化。
44.第一cpu信息可以包括但不限于：cpu占用最大值、cpu占用最小值、cpu占用平均值、cpu占用增幅、cpu占用变化趋势中的一个或多个信息。
45.第一终端的语音交互功能的测试结果，可以理解为基于语音交互过程中语音交互功能所占用cpu的情况，得到的第一终端所安装的语音交互软件或第一终端搭载的语音交互模块内的运行程序的测试结果。
46.安装语音交互软件或语音交互模块的第一终端，实现了具备语音交互功能。当开启语音交互功能后，语音交互软件或语音交互模块开始运行并占用第一终端的部分cpu和/或内存。在不同噪声环境场景和语音交互模式下，语音交互软件或语音交互模块所占用的cpu和/或内存比例会有较大的差异，这使得如何全面客观地评估第一终端的语音交互软件或语音交互模块的cpu性能成为一个难题。根据本公开实施例的方案，可以得到特定的语音交互场景下语音交互功能对应的cpu信息，并实现基于cpu信息得到终端的语音交互功能的测试结果。根据该测试结果可以准确的获知第一终端所安装的语音交互软件或搭载的语音交互模块内的运行程序的性能是否需要优化。本公开实施例针对第一终端的交互功能测试，可以实现根据设计的多种语音交互模式自动化的与第一终端进行语音交互测试，实现语音交互场景覆盖全覆盖的测试。并且自动化的在语音交互过程中获取第一终端的cpu信息，以及自动化的根据获取的第一终端的cpu信息生成相应的测试结果，提高了第一终端的语音交互测试的测试效率、测试准确率、保证测试结果的客观性和高可信度。同时，由于本公开实施例的方法是自动化完成，因此减少了测试的人工成本，实现了自动进行语音交互
测试、自动获取cpu的性能数据以及自动分析和展示测试结果。
47.在一种实施方式中，本公开实施方式的语音交互测试的方法，包括步骤s101至s103，其中，步骤s101：根据确定的交互场景信息，与第一终端进行语音交互。其中，交互场景信息包括：语音交互模式信息、噪声信息和语料信息，可以包括：
48.确定交互场景信息中的语音交互模式信息、噪声信息和语料信息。
49.在确定噪声信息包括无噪声环境的情况下，向第一语音播放设备发送语音交互模式信息和语料信息。
50.向第一终端发送语音交互模式信息，以使第一语音播放设备与第一终端进行语音交互。
51.根据本公开的实施例，需要说明的是：
52.向第一语音播放设备发送的语音交互模式信息中可以仅包含某一种语音交互模式，例如，激活模式、响应模式或持续交互模式中的任一种。向第一语音播放设备发送的语音交互模式信息中也可以包含有多种语音交互模式，例如，激活模式、响应模式和持续交互模式中的任两种或全部模式。
53.向第一语音播放设备发送的语料信息的具体语料内容、语料时长等，可以根据测试的需要进行选择和调整，在此不做具体的限定。
54.第一语音播放设备可以是能够进行语音播放的任意设备，例如，音响、移动终端、扬声器等。
55.根据本公开实施例的方案，可以实现在无噪声环境下对第一终端进行语音交互测试，准确的获取到无噪声环境下第一终端在语音交互过程中产生的cpu信息。从而实现基于cpu信息，进一步确定无噪声环境下第一终端的语音交互软件或搭载语音交互模块的cpu性能。
56.在一种实施方式中，本公开实施方式的语音交互测试的方法，包括步骤s101至s103，其中，步骤s101：根据确定的交互场景信息，与第一终端进行语音交互。其中，交互场景信息包括：语音交互模式信息、噪声信息和语料信息，可以包括：
57.确定交互场景信息中的语音交互模式信息、噪声信息和语料信息。
58.在确定噪声信息包括内噪环境的情况下，向第一语音播放设备发送语音交互模式信息和语料信息。以及
59.向第一终端发送语音交互模式信息和噪声信息，以使第一语音播放设备与第一终端在内噪环境下进行语音交互。
60.根据本公开的实施例，需要说明的是：
61.向第一语音播放设备发送的语音交互模式信息中可以仅包含某一种语音交互模式，例如，激活模式、响应模式或持续交互模式中的任一种。向第一语音播放设备发送的语音交互模式信息中也可以包含有多种语音交互模式，例如，激活模式、响应模式和持续交互模式中的任两种或全部模式。
62.向第一语音播放设备发送的语料信息的具体语料内容、语料时长等，可以根据测试的需要进行选择和调整，在此不做具体的限定。
63.第一语音播放设备可以是能够进行语音播放的任意设备，例如，音响、移动终端、扬声器等。
64.根据本公开实施例的方案，可以实现在内噪环境下对第一终端进行语音交互测试，准确的获取到内噪环境下第一终端在语音交互过程中产生的cpu信息。从而实现基于cpu信息，进一步确定内噪环境下第一终端的语音交互软件或搭载语音交互模块的cpu性能。
65.在一种实施方式中，本公开实施方式的语音交互测试的方法，包括步骤s101至s103，其中，步骤s101：根据确定的交互场景信息，与第一终端进行语音交互。其中，交互场景信息包括：语音交互模式信息、噪声信息和语料信息，可以包括：
66.确定交互场景信息中的语音交互模式信息、噪声信息和语料信息。
67.在确定噪声信息包括外噪环境的情况下，向第一语音播放设备发送语音交互模式信息和语料信息。
68.向第一终端发送语音交互模式信息。以及
69.向第二语音播放设备发送噪声信息，以使语音播放设备与第一终端在外噪环境下进行语音交互。
70.根据本公开的实施例，需要说明的是：
71.向第一语音播放设备发送的语音交互模式信息中可以仅包含某一种语音交互模式，例如，激活模式、响应模式或持续交互模式中的任一种。向第一语音播放设备发送的语音交互模式信息中也可以包含有多种语音交互模式，例如，激活模式、响应模式和持续交互模式中的任两种或全部模式。
72.向第一语音播放设备发送的语料信息的具体语料内容、语料时长等，可以根据测试的需要进行选择和调整，在此不做具体的限定。
73.第一语音播放设备和第二语音播放设备可以是能够进行语音播放的任意设备，例如，音响、移动终端、扬声器等。第一语音播放设备和第二语音播放设备在本公开实施例中可以是同一个语音播放设备。
74.根据本公开实施例的方案，可以实现在外噪环境下对第一终端进行语音交互测试，准确的获取到外噪环境下第一终端在语音交互过程中产生的cpu信息。从而实现基于cpu信息，进一步确定外噪环境下第一终端的语音交互软件或搭载语音交互模块的cpu性能。
75.在一种实施方式中，本公开实施方式的语音交互测试的方法，包括步骤s101至s103，其中，步骤s101：根据确定的交互场景信息，与第一终端进行语音交互。其中，交互场景信息包括：语音交互模式信息、噪声信息和语料信息，可以包括：
76.确定交互场景信息中的语音交互模式信息、噪声信息和语料信息。
77.在确定噪声信息包括内噪环境和外噪环境的情况下，向第一语音播放设备发送语音交互模式信息和语料信息。
78.向第一终端发送语音交互模式信息和噪声信息(内噪环境)。
79.向第二语音播放设备发送噪声信息(外噪环境)。
80.以使第一语音播放设备与第一终端在内噪环境和外噪环境下进行语音交互。
81.根据本公开实施例的方案，可以实现在同时具备外噪和内噪的环境下对第一终端进行语音交互测试，准确的获取到同时具备外噪和内噪的环境下第一终端在语音交互过程中产生的cpu信息。从而实现基于cpu信息，进一步确定同时具备外噪和内噪的环境下，第一
终端的语音交互软件或搭载语音交互模块的cpu性能。
82.在一个示例中，如图2所示，本公开实施方式的语音交互测试的方法的各步骤可以由计算机作为执行主体执行。计算机可以同时对多个终端进行测试。计算机可以控制第一语音播放设备播放交互语音，以及控制第二语音设备播放模拟外噪环境的外噪噪音。计算机还可以控制终端播放模拟内噪环境的内噪噪音。
83.在一种实施方式中，本公开实施方式的语音交互测试的方法，包括步骤s101至s103，其中，步骤s102：根据预设采样频率，获取第一终端在语音交互的过程中对应的第一cpu信息，可以包括：
84.根据语料信息，确定语料的时长。
85.根据语料的时长，基于奈坤思特第一准则，确定预设采样频率。
86.根据预设采样频率，获取第一终端在语音交互的过程中对应的第一cpu信息。
87.根据本公开实施例的方案，通过奈坤思特第一准则确定的采样频率确保了采样点能够完整地反映第一终端安装的语音交互软件或搭载的语音交互模块内的运行程序在工作时的cpu性能状态，有效的验证第一终端的语音交互软件或搭载的语音交互模块内的运行程序的算力合理性和最大承载量。并且，通过本公开实施例进行的cpu信息采样，波动小，采样点冗余度低，有效覆盖第一终端的语音交互软件或搭载的语音交互模块内的运行程序的工作时段，能够很好地反映cpu工作时的性能。
88.在一个示例中，预设采样频率的定义规则为：假设语料时长为l，对cpu性能数据进行采样间隔为t，且t≤l/4。
89.在一种实施方式中，本公开实施方式的语音交互测试的方法，包括步骤s101至s103，还可以包括：
90.获取第一终端在语音交互的过程中对应的内存信息和/或文件句柄信息。以及
91.步骤s103：根据第一cpu信息，生成第一终端的语音交互功能的测试结果，可以进一步包括：
92.根据第一cpu信息、内存信息和/或文件句柄信息，生成第一终端的语音交互功能的测试结果。
93.根据本公开实施例，需要说明的是：
94.内存信息包括：dalvik内存占用、native内存占用和total内存占用。
95.文件句柄信息，可以理解为获取到的文件句柄的数量信息。
96.根据本公开实施例的方案，可以得到特定的语音交互场景下语音交互功能对应的内存信息，从而实现基于内存信息，确定第一终端的语音交互软件或搭载语音交互模块的内存性能。在语音交互的测试过程中，通过获取文件句柄信息，可以确定文件句柄数量是否在预期范围波动。如果超出波动的范围，则可以根据文件句柄信息确定第一终端的语音交互软件或搭载语音交互模块的文件句柄的性能指标则未达到准出标准，说明第一终端的语音交互软件或搭载语音交互模块的处理逻辑存在错误。
97.在一个示例中，当同时测试激活模式、响应模式、持续交互模式中的至少两个模式时，可以根据不同模式的线程，分别获取每个模式进行时的第一终端的第一cpu信息、内存信息、文件句柄信息。
98.在一种实施方式中，本公开实施方式的语音交互测试的方法，包括步骤s101至
s103，还可以包括：
99.根据确定的交互场景信息，与第二终端进行语音交互。
100.根据预设采样频率，获取第二终端在语音交互的过程中对应的第二cpu信息。
101.根据第一cpu信息和第二cpu信息，生成对比测试结果。
102.根据本公开的实施例，需要说明的是：
103.第二终端和第一终端的语音交互软件(或搭载语音交互模块)可以为不同版本，例如，第二终端的语音交互软件(或搭载语音交互模块)为基准版本，第一终端的语音交互软件(或搭载语音交互模块)为待测的升级版本。
104.根据本公开实施例的方案，可以得到特定的语音交互场景下不同终端的语音交互功能对应的cpu信息，通过不同终端的语音交互功能版本的比对，能够更加直观的确定第一终端的语音交互软件或搭载语音交互模块的cpu性能是否满足设计要求。
105.在一个示例中，本公开实施方式的语音交互测试的方法，包括步骤s101至s103，还可以包括：
106.获取第二终端在语音交互的过程中对应的内存信息和/或文件句柄信息。
107.根据第一终端的第一cpu信息、内存信息和/或文件句柄信息，以及第二终端的第二cpu信息、内存信息和/或文件句柄信息，生成对比测试结果。
108.根据本公开实施例的方案，可以得到特定的语音交互场景下不同终端的语音交互功能对应的cpu信息、内存信息、文件句柄信息，通过不同终端的语音交互功能版本的比对，能够更加直观的确定第一终端的语音交互软件或搭载语音交互模块的性能是否满足设计要求。
109.在一个示例中，当同时测试激活模式、响应模式、持续交互模式中的至少两个模式时，可以根据不同模式的线程，分别获取每个模式进行时的第二终端的第二cpu信息、内存信息、文件句柄信息。
110.在一个示例中，如图3所示，本公开实施例的语音交互测试的方法可以由多个功能模块组合实现该方法。具体的：
111.测试预设模块，该模块用于设置待测试版本，若有对比的基线版本，也可以同时设置两个版本同时测试。该模块还执行测试场景(噪声信息)的设置和交互模式(语音交互模式)的设置。基于语音交互软件的实现原理，在安静场景(无噪音环境)和内噪(内噪环境)加外噪(外噪环境)场景下，语音交互软件内部运行逻辑具有明显的区别，因此测试场景设置包括安静场景和内噪加外噪场景，设置内噪加外噪场景，执行测试方案的执行主体发送内噪播放命令到待测试智能终端设备(第一终端)，使其播放预设定内噪语料，此外，执行主体传输音频到扬声器(第二语音播放设备)播放预设定外噪语料；设置安静场景，则不执行播放内噪和外噪的命令。一般的语音交互软件的交互模式包括：激活、响应、持续交互。在激活模式下，语音交互软件只会对特定的词语进行响应；在响应模式下，语音交互软件能够识别一次语音请求，并对该次请求做出一次响应；在持续交互模式下，语音交互软件能够持续识别语音请求，并依次对请求做出响应。语音交互软件在不同的交互模式下，其占用的cpu、内存及其他性能指标有所不同，通过测试预设模块可以快速设置多种交互模式，并可设置不同交互模式的组合，对待测软件的交互模式进行覆盖。此外，还可通过该模块设置一轮测试时长。
112.测试执行模块，测试执行模块首先执行预设置的场景，包括向扬声器(第二语音播放设备)发送外噪音频信号，向终端设备发送内噪语料播放命令。接着执行交互模式，执行模块向待测试智能终端设备(第一终端)发送对应的交互模式广播命令，使语音交互软件进入对应交互模式的工作状态。接着执行模块向语音请求播放设备(第一语音播放设备)发送播放命令，循环不断播放请求语料，请求语料时间长度约为12s左右，根据该语料的时长，从主机发送命令到测试版本的智能设备和基线版本的智能设备对cpu性能数据进行间隔3s的均匀采样，确保采样结果能够完整地反映cpu等性能数据在语料播放时间内的变化。采样结果回传到执行主体进行存储。待一轮场景和交互模式测试时间结束后，则自动开启下一轮测试。
113.结果分析模块，该模块根据存储的性能数据，对语音交互软件的性能作出分析和评估。统计语音交互软件的cpu相关性能信息，分析cpu峰值、平均值以及变化趋势等，并且能够细化到各个线程：内存信息能够区分不同内存区域，如区分dalvik内存和native内存等，能够有效帮助开发人员定位问题。此外，还统计包括文件句柄信息和cpu温度信息等。同时，能够自动生成测试版本和对比版本的对比表格，计算差值，快速看出测试版本和对比版本的差异。并且提供多种图表自动绘制功能，直观看出数据差距和数据变化。
114.本公开实施例提供的语音交互测试的方法，对测试场景进行详细分类，在不同的噪声环境，不同语料信息，不同语音交互模式下，语音交互的性能也是不同的，从第一终端的语音交互软件或搭载语音交互模块的运行原理出发，从测试场景上覆盖了语音交互软件或搭载语音交互模块的运行路径，噪声环境设置包括安静场景和内噪加外噪场景，每个场景下可设置语音交互模式(激活模式、响应模式、持续交互模式)。不同的交互模式对应语音交互软件或搭载语音交互模块的不同语音算法运行模块。通过设置不同的交互模式，能够评估不同语音算法运行模块的性能对cpu性能和/或内存性能的评估具备针对性；通过组合测试不同的交互模式，该方案对于cpu性能和/或内存性能的评估具备全面性。
115.根据本公开实施例的方案，如图4所示，提供了一种语音交互测试的装置，可以包括：
116.第一交互模块410，用于根据确定的交互场景信息，与第一终端进行语音交互。其中，交互场景信息包括：语音交互模式信息、噪声信息和语料信息。
117.第一获取模块420，用于根据预设采样频率，获取第一终端在语音交互的过程中对应的第一cpu信息。以及
118.第一生成模块430，用于根据第一cpu信息，生成第一终端的语音交互功能的测试结果。
119.根据本公开实施例的方案，可以得到特定的语音交互场景下语音交互功能对应的cpu信息，并实现基于cpu信息得到终端的语音交互功能的测试结果。根据该测试结果可以准确的获知第一终端所安装的语音交互软件或搭载的语音交互模块内的运行程序的性能是否需要优化。本公开实施例针对第一终端的交互功能测试，可以实现根据设计的多种语音交互模式自动化的与第一终端进行语音交互测试，实现语音交互场景覆盖全覆盖的测试。并且自动化的在语音交互过程中获取第一终端的cpu信息，以及自动化的根据获取的第一终端的cpu信息生成相应的测试结果，提高了第一终端的语音交互测试的测试效率、测试准确率、保证测试结果的客观性和高可信度。同时，由于本公开实施例的方法是自动化完
成，因此减少了测试的人工成本，实现了自动进行语音交互测试、自动获取cpu的性能数据以及自动分析和展示测试结果。
120.在一种实施方式中，第一交互模块410包括：
121.第一确定子模块，用于确定交互场景信息中的语音交互模式信息、噪声信息和语料信息。
122.第一发送子模块，用于在确定噪声信息包括无噪声环境的情况下，向第一语音播放设备发送语音交互模式信息和语料信息，以及向第一终端发送语音交互模式信息，以使第一语音播放设备与第一终端进行语音交互。
123.在一种实施方式中，第一交互模块410包括：
124.第二确定子模块，用于确定交互场景信息中的语音交互模式信息、噪声信息和语料信息。
125.第二发送子模块，用于在确定噪声信息包括内噪环境的情况下，向第一语音播放设备发送语音交互模式信息和语料信息。以及向第一终端发送语音交互模式信息和噪声信息，以使第一语音播放设备与第一终端在内噪环境下进行语音交互。
126.在一种实施方式中，第一交互模块410包括：
127.第三确定子模块，用于确定交互场景信息中的语音交互模式信息、噪声信息和语料信息。
128.第三发送子模块，用于在确定噪声信息包括外噪环境的情况下，向第一语音播放设备发送语音交互模式信息和语料信息。向第一终端发送语音交互模式信息。以及向第二语音播放设备发送噪声信息，以使语音播放设备与第一终端在外噪环境下进行语音交互。
129.在一种实施方式中，语音交互模式信息包括：激活模式、响应模式、持续交互模式或组合模式。其中，激活模式用于唤醒第一终端。响应模式用于使第一终端进行一次语音交互。持续交互模式用于使第一终端连续进行多次语音交互。组合模式包括激活模式、响应模式和持续交互模式中的至少两种模式。
130.在一种实施方式中，第一获取模块420包括：
131.第四确定子模块，用于根据语料信息，确定语料的时长。
132.第五确定子模块，用于根据语料的时长，基于奈坤思特第一准则，确定预设采样频率。
133.获取子模块，用于根据预设采样频率，获取第一终端在语音交互的过程中对应的第一cpu信息。
134.在一种实施方式中，语音交互测试的装置还包括：
135.第二获取模块，用于获取第一终端在语音交互的过程中对应的内存信息和/或文件句柄信息。以及
136.第一生成模块还用于根据第一cpu信息、内存信息和/或文件句柄信息，生成第一终端的语音交互功能的测试结果。
137.在一种实施方式中，语音交互测试的装置还包括：
138.第二交互模块，用于根据确定的交互场景信息，与第二终端进行语音交互。
139.第三获取模块，用于根据预设采样频率，获取第二终端在语音交互的过程中对应的第二cpu信息。
140.第二生成模块，用于根据第一cpu信息和第二cpu信息，生成对比测试结果。
141.本公开实施例的装置的各模块、子模块的具体功能和示例的描述，可以参见上述方法实施例中对应步骤的相关描述，在此不再赘述。
142.根据本公开实施例的方案，如图5所示，提供了一种语音交互测试的系统，可以包括：
143.控制端，用于根据确定的交互场景信息，控制第一语音播放设备和第一终端进行语音交互。根据预设采样频率，获取第一终端在语音交互的过程中对应的第一cpu信息。根据第一cpu信息，生成第一终端的语音交互功能的测试结果。其中，交互场景信息包括：语音交互模式信息、噪声信息和语料信息。
144.第一语音播放设备，用于根据接收的交互场景信息，播放交互语音。
145.第一终端，用于根据接收的交互场景信息和交互语音，与第一语音播放设备进行语音交互。
146.需要说明的是，控制端可以理解为本公开任意实施例的语音交互测试的方法的执行主体。
147.根据本公开实施例的方案，可以得到特定的语音交互场景下语音交互功能对应的cpu信息，并实现基于cpu信息得到终端的语音交互功能的测试结果。根据该测试结果可以准确的获知第一终端所安装的语音交互软件或搭载的语音交互模块内的运行程序的性能是否需要优化。本公开实施例针对第一终端的交互功能测试，可以实现根据设计的多种语音交互模式自动化的与第一终端进行语音交互测试，实现语音交互场景覆盖全覆盖的测试。并且自动化的在语音交互过程中获取第一终端的cpu信息，以及自动化的根据获取的第一终端的cpu信息生成相应的测试结果，提高了第一终端的语音交互测试的测试效率、测试准确率、保证测试结果的客观性和高可信度。同时，由于本公开实施例的方法是自动化完成，因此减少了测试的人工成本，实现了自动进行语音交互测试、自动获取cpu的性能数据以及自动分析和展示测试结果。
148.在一种实施方式中，语音交互测试的系统还包括：
149.第二语音播放设备，用于在接收的噪声信息包括外噪环境的情况下，播放外噪环境的噪音。
150.在一种实施方式中，语音交互测试的系统还包括：
151.第二终端，用于根据接收的交互场景信息和交互语音，与第一语音播放设备进行语音交互。
152.本公开实施例的系统的控制端、第一语音播放设备、第一终端、第二语音播放设备、第二终端的具体功能和示例的描述，可以参见上述方法实施例中对应步骤的相关描述，在此不再赘述。
153.本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。
154.根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
155.图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字
助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。
156.如图6所示，设备600包括计算单元601，其可以根据存储在只读存储器(rom)602中的计算机程序或者从存储单元608加载到随机访问存储器(ram)603中的计算机程序，来执行各种适当的动作和处理。在ram 603中，还可存储设备600操作所需的各种程序和数据。计算单元601、rom 602以及ram 603通过总线604彼此相连。输入/输出(i/o)接口605也连接至总线604。
157.设备600中的多个部件连接至i/o接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
158.计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如语音交互测试的方法。例如，在一些实施例中，语音交互测试的方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由rom 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到ram 603并由计算单元601执行时，可以执行上文描述的语音交互测试的方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行语音交互测试的方法。
159.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
160.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
161.在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电
子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
162.为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。
163.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)和互联网。
164.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。
165.应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。
166.上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨诗鹏刘露平刘巍车婷婷
技术所有人：北京百度网讯科技有限公司
我是此专利的发明人