感冒检测系统、设备、车辆和存储介质的制作方法

文档序号:32692981发布日期:2022-12-27 19:45阅读:28来源:国知局
感冒检测系统、设备、车辆和存储介质的制作方法

1.本公开涉及人工智能领域,特别是涉及一种感冒检测系统、计算机设备、车辆、计算机可读存储介质和计算机程序产品。


背景技术:

2.近年来,随着社会经济和科技增长,人们的生活水平得到不断提升,私家车数量的不断提升,人们用车的频数和时长也有了显著提升。当人们健康意识提升,车内健康问题成为不可忽视的重要问题。生活节奏的加快和工作强度的增加,使得人们的抵抗力减弱、长期处于亚健康状态、生病的概率增加。因此让人们及时了解自己的身体状况是非常有必要的。


技术实现要素:

3.提供一种缓解、减轻或甚至消除上述问题中的一个或多个的机制将是有利的。
4.根据本公开的一方面,提供了一种感冒检测系统,包括:语音片段采样模块,用于获取在多个时间点处采样到的受检者的第一多个非静默语音片段;语音片段处理模块,用于利用第一深度神经网络模型处理所述第一多个非静默语音片段,得到第一多个沙哑置信度,其中,所述第一多个沙哑置信度与所述第一多个非静默语音片段一一对应,所述第一多个沙哑置信度中的每个沙哑置信度表征相应非静默语音片段包括所述受检者由感冒引起的声音沙哑的声学特征的概率;第一置信度模块,用于对在第一时间段内采样到的所述第一多个非静默语音片段中的第二多个非静默语音片段分别对应的第二多个沙哑置信度进行处理,以生成第一置信度特征,其中,所述第一置信度特征表征在所述第一时间段内所述受检者的声音包括由感冒引起的声音沙哑的声学特征的概率的统计特征;第二置信度模块,用于对在第二时间段内采样到的所述第一多个非静默语音片段中的第三多个非静默语音片段分别对应的第三多个沙哑置信度进行处理,以生成第二置信度特征,其中,所述第二时间段的时长小于所述第一时间段的时长,所述第二置信度特征表征所述第二时间段内所述受检者的声音包括由感冒引起的声音沙哑的声学特征的概率的统计特征;结果检测模块,用于利用第二深度神经网络模型对所述第一置信度特征和所述第二置信度特征进行分析处理,得到所述第二深度神经网络模型输出的感冒检测结果。
5.根据本公开的另一方面,提供了一种计算机设备,包括:至少一个处理器;以及至少一个存储器,其上存储有计算机程序,其中,所述计算机程序在被所述至少一个处理器执行时,使所述至少一个处理器实现包括以下各项的操作:获取在多个时间点处采样到的受检者的第一多个非静默语音片段;利用第一深度神经网络模型处理所述第一多个非静默语音片段,得到第一多个沙哑置信度,其中,所述第一多个沙哑置信度与所述第一多个非静默语音片段一一对应,所述第一多个沙哑置信度中的每个沙哑置信度表征相应非静默语音片段包括所述受检者由感冒引起的声音沙哑的声学特征的概率;对在第一时间段内采样到的所述第一多个非静默语音片段中的第二多个非静默语音片段分别对应的第二多个沙哑置信度进行处理,以生成第一置信度特征,其中,所述第一置信度特征表征在所述第一时间段
内所述受检者的声音包括由感冒引起的声音沙哑的声学特征的概率的统计信息;对在第二时间段内采样到的所述第一多个非静默语音片段中的第三多个非静默语音片段分别对应的第三多个沙哑置信度进行处理,以生成第二置信度特征,其中,所述第二时间段的时长小于所述第一时间段的时长,所述第二置信度特征表征所述第二时间段内所述受检者的声音包括由感冒引起的声音沙哑的声学特征的概率的统计信息;利用第二深度神经网络模型对所述第一置信度特征和所述第二置信度特征进行分析处理,得到所述第二深度神经网络模型输出的感冒检测结果。
6.根据本公开的又另一方面,提供了一种车辆,包括上述感冒检测系统或上述计算机设备。
7.根据本公开的再另一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,使所述处理器实现包括以下各项的操作:获取在多个时间点处采样到的受检者的第一多个非静默语音片段;利用第一深度神经网络模型处理所述第一多个非静默语音片段,得到第一多个沙哑置信度,其中,所述第一多个沙哑置信度与所述第一多个非静默语音片段一一对应,所述第一多个沙哑置信度中的每个沙哑置信度表征相应非静默语音片段包括所述受检者由感冒引起的声音沙哑的声学特征的概率;对在第一时间段内采样到的所述第一多个非静默语音片段中的第二多个非静默语音片段分别对应的第二多个沙哑置信度进行处理,以生成第一置信度特征,其中,所述第一置信度特征表征在所述第一时间段内所述受检者的声音包括由感冒引起的声音沙哑的声学特征的概率的统计特征;对在第二时间段内采样到的所述第一多个非静默语音片段中的第三多个非静默语音片段分别对应的第三多个沙哑置信度进行处理,以生成第二置信度特征,其中,所述第二时间段的时长小于所述第一时间段的时长,所述第二置信度特征表征所述第二时间段内所述受检者的声音包括由感冒引起的声音沙哑的声学特征的概率的统计特征;利用第二深度神经网络模型对所述第一置信度特征和所述第二置信度特征进行分析处理,得到所述第二深度神经网络模型输出的感冒检测结果。
8.根据本公开的再另一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时,使所述处理器实现包括以下各项的操作:获取在多个时间点处采样到的受检者的第一多个非静默语音片段;利用第一深度神经网络模型处理所述第一多个非静默语音片段,得到第一多个沙哑置信度,其中,所述第一多个沙哑置信度与所述第一多个非静默语音片段一一对应,所述第一多个沙哑置信度中的每个沙哑置信度表征相应非静默语音片段包括所述受检者由感冒引起的声音沙哑的声学特征的概率;对在第一时间段内采样到的所述第一多个非静默语音片段中的第二多个非静默语音片段分别对应的第二多个沙哑置信度进行处理,以生成第一置信度特征,其中,所述第一置信度特征表征在所述第一时间段内所述受检者的声音包括由感冒引起的声音沙哑的声学特征的概率的统计特征;对在第二时间段内采样到的所述第一多个非静默语音片段中的第三多个非静默语音片段分别对应的第三多个沙哑置信度进行处理,以生成第二置信度特征,其中,所述第二时间段的时长小于所述第一时间段的时长,所述第二置信度特征表征所述第二时间段内所述受检者的声音包括由感冒引起的声音沙哑的声学特征的概率的统计特征;利用第二深度神经网络模型对所述第一置信度特征和所述第二置信度特征进行分析处理,得到所述第二深度神经网络模型输出的感冒检测结果。
9.根据在下文中所描述的实施例,本公开的这些和其它方面将是清楚明白的,并且将参考在下文中所描述的实施例而被阐明。
附图说明
10.在下面结合附图对于示例性实施例的描述中,本公开的更多细节、特征和优点被公开,在附图中:
11.图1是图示出根据示例性实施例的可以在其中实施本文描述的各种方法的示例系统的示意图;
12.图2是图示出根据示例性实施例的感冒检测系统的示意性框图;
13.图3是图示出图2的感冒检测系统的语音片段处理模块的示意性框图;
14.图4是图示出图2的感冒检测系统的示例工作流程的流程图;
15.图5是图示出能够应用于示例性实施例的示例性计算机设备的框图。
具体实施方式
16.在本公开中,除非另有说明,否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系,这种术语只是用于将一个元件与另一元件区分开。在一些示例中,第一要素和第二要素可以指向该要素的同一实例,而在某些情况下,基于上下文的描述,它们也可以指代不同实例。
17.在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的,而并非旨在进行限制。除非上下文另外明确地表明,如果不特意限定要素的数量,则该要素可以是一个也可以是多个。如本文使用的,术语“多个”意指两个或更多,并且术语“基于”应解释为“至少部分地基于”。此外,术语“和/或”以及
“……
中的至少一个”涵盖所列出的项目中的任何一个以及全部可能的组合方式。
18.相关技术中,对于车内健康检测系统,通常是使用传感器获取包括温度、心率、脉搏、压力、呼吸频率中的一种或多种生理指标,然后通过云端健康诊断平台或车载电脑来进行数据处理,以实现对发烧或心律失常等急性疾病的检测,然而,由于感冒时体温、心率变化可能不明显,因此,现有的车内健康检测系统难以实现感冒检测。
19.相关技术中,也有通过生物检测标记物进行感冒病毒检测的,但是这种方法需要购买专用装置,并需要获取体液样本,因此不适用于车内;此外,另一种方案是通过用户终端收集用户对自身症状的描述,并发送给医务人员,医务人员返回诊断信息到用户,但此方案过度依赖用户描述,因此检测结果的准确率较低。
20.根据本公开的实施例,提供了一种感冒检测系统,通过在多个时间点处对受检者的语音进行采样,计算出每个时间点的沙哑置信度以表征受检者在不同时期的声音沙哑状态,从而能够基于对分别从较长时间段和较短时间段中提取到的两个沙哑置信度特征进行分析处理,以判断用户的声音沙哑是否与感冒相关联,得到感冒检测结果,克服了现有的车内健康检测系统难以实现感冒检测的缺陷。
21.下面结合附图详细描述本公开的示例性实施例。
22.图1是图示出根据示例性实施例的可以在其中实施本文描述的各种方法的示例系统100的示意图。
23.参考图1,该系统100包括车载系统110、服务器120、以及将车载系统110与服务器120通信地耦合的网络130。
24.车载系统110包括显示器114和可经由显示器114显示的应用程序(app)112。应用程序112可以为车载系统110默认安装的或由用户102下载和安装的应用程序,或者作为轻量化应用程序的小程序。在应用程序112为小程序的情况下,用户102可以通过在宿主应用中搜索应用程序112(例如,通过应用程序112的名称等)或扫描应用程序112的图形码(例如,条形码、二维码等)等方式,在车载系统110上直接运行应用程序112,而无需安装应用程序112。在一些实施例中,车载系统110可以包括一个或多个处理器和一个或多个存储器(未示出),并且车载系统110被实现为车载计算机。在一些实施例中,车载系统110可以包括更多或更少的显示屏114(例如,不包括显示屏114),和/或一个或多个扬声器或其他人机交互设备。在一些实施例中,车载系统110可以不与服务器120通信。
25.服务器120可以代表单台服务器、多台服务器的集群、分布式系统、或者提供基础云服务(诸如云数据库、云计算、云存储、云通信)的云服务器。将理解的是,虽然图1中示出服务器120与仅一个车载系统110通信,但是服务器120可以同时为多个车载系统提供后台服务。
26.网络130允许按照约定的通信协议和数据交互标准,在车-x(“x”意指车、路、行人或互联网等)之间,进行无线通讯和信息交换。网络130的示例包括局域网(lan)、广域网(wan)、个域网(pan)、和/或诸如互联网之类的通信网络的组合。网络130可以是有线或无线网络。在一个示例中,网络130可以是车内网、车际网和/或车载移动互联网。
27.图2是图示出根据示例性实施例的感冒检测系统200的示意性框图。
28.根据一些实施例,如图2所示,本公开的感冒检测系统200包括语音片段采样模块210、语音片段处理模块220、第一置信度模块230、第二置信度模块240和结果检测模块250。
29.语音片段采样模块210用于获取在多个时间点处采样到的受检者的第一多个非静默语音片段。
30.在一些实施例中,上述多个时间点以预设时间间隔彼此隔开,并且,第一多个非静默语音片段中的各非静默语音片段按照采样时间顺序进行排列,以使采样到的多个非静默语音片段能够规律地表征出受检者的声音的沙哑程度随时间而发生的变化,简化后续特征提取过程的难度,并使后续提取到的置信度特征包括更多时间维度上的信息。
31.应当理解,上述对多个时间点和第一多个非静默语音片段的描述仅作举例说明之用,在具体实施过程中,多个时间点中两两时间点之间的间隔可以各不相同,第一多个非静默语音片段中的各非静默语音片段也可以任意排序,对此不作具体限制。
32.语音片段处理模块220用于利用第一深度神经网络模型处理第一多个非静默语音片段,得到第一多个沙哑置信度,其中,第一多个沙哑置信度与第一多个非静默语音片段一一对应,第一多个沙哑置信度中的每个沙哑置信度表征相应非静默语音片段包括受检者由感冒引起的声音沙哑的声学特征的概率。
33.根据一些实施例,上述第一深度神经网络模型可以基于dnn(deep neural network,深度神经网络)、cnn(convolutional neural network,卷积神经网络)、lstm(long short-termmemory,长短时记忆神经网络)、conformer(一种混合网络结构)、tdnn(time-delay neural network,时延神经网络)等神经网络进行构建。可理解的,第一深度
神经网络模型可以采用其他类型的网络结构,在此不做限制。
34.在一些实施例中,上述利用第一深度神经网络模型处理第一多个非静默语音片段包括在每次采样到一个非静默语音片段时即对该非静默语音片段进行处理,得到该非静默语音片段相应的沙哑置信度,从而能够在目标时间点处得到目标时间点之前的多个时间点对应的第一多个沙哑置信度。
35.在另一些实施例中,上述利用第一深度神经网络模型处理第一多个非静默语音片段包括在目标时间点处一次性获取第一多个非静默语音片段,并利用第一深度和神经网络模型处理第一多个非静默语音片段中的每个非静默语音片段,从而能够在目标时间点处得到目标时间点之前的多个时间点对应的第一多个沙哑置信度。
36.需要说明的是,上述两种处理方式可以单独或结合使用,在此不作具体限制。
37.第一置信度模块230用于对在第一时间段内采样到的第一多个非静默语音片段中的第二多个非静默语音片段分别对应的第二多个沙哑置信度进行处理,以生成第一置信度特征,其中,第一置信度特征表征在第一时间段内受检者的声音包括由感冒引起的声音沙哑的声学特征的概率的统计特征。
38.在一个示例中,第一时间段的长度为一年。以一年为时间窗口,对第一多个非静默语音片段中在同一年内采样到的第二多个非静默语音片段对应的第二多个沙哑置信度进行处理,以使生成的第一置信度特征能够更好地表征用户在一段较长时间段内的声音沙哑特征与感冒之间的关联关系。
39.根据一些实施例,上述对在第一时间段内采样到的第一多个非静默语音片段中的第二多个非静默语音片段分别对应的第二多个沙哑置信度进行处理,包括:以第一采样率对第二多个沙哑置信度进行采样,得到第一采样置信度集合,并对第一采样置信度集合中的沙哑置信度进行统计处理。
40.以第一采样率对第二多个沙哑置信度进行采样,能够实现在保证采样得到的第一采样置信度集合中包括足够的特征信息的同时降低数据处理的计算量,提高处理效率。在一个示例中,以月为单位进行采样,对同一年内的每个月,从第二多个沙哑置信度中选择该月内采样到的任意一个沙哑置信度,从而得到上述第一采样置信度集合。第一采样置信度集合中包括的沙哑置信度的数量小于或等于12。
41.根据一些实施例,上述对第一采样置信度集合中的沙哑置信度进行统计处理,包括:计算第一采样置信度集合中的沙哑置信度的最大值、最小值、平均值和均方差中的至少一个,并根据计算结果提取出第一置信度特征。
42.在一些实施例中,可以将计算得到的最大值、最小值、平均值和均方差中的多个直接拼接成一个二维向量,以作为上述第一置信度特征。
43.通过对第一采样置信度集合中的沙哑置信度进行统计处理,能够有效去除单个沙哑置信度中的噪音所带来的不利影响;并且,通过计算不同的统计指标,能够对沙哑置信度中的特定特征或沙哑置信度之间的特征关联进行放大,从而在降低特征提取难度的同时使提取到的第一置信度特征包括更多信息,进一步提升了本公开的感冒检测系统的检测效果。
44.第二置信度模块240用于对在第二时间段内采样到的第一多个非静默语音片段中的第三多个非静默语音片段分别对应的第三多个沙哑置信度进行处理,以生成第二置信度
特征,其中,第二时间段的时长小于所述第一时间段的时长,第二置信度特征表征第二时间段内受检者的声音包括由感冒引起的声音沙哑的声学特征的概率的统计特征。
45.在一个示例中,第一时间段的长度为一年,第二时间段的长度为一天。以一天为时间窗口,对第一多个非静默语音片段中在同一天内采样到的第三多个非静默语音片段对应的第三多个沙哑置信度进行处理,以使生成的第二置信度特征能够更好地表征用户在一段较短时间段内的声音沙哑特征与感冒之间的关联关系。
46.应当理解,上述对第二时间段的描述仅作举例说明之用,在具体实施过程中,可以根据实际需要对第二时间段的长度进行任意设置,对此不作具体限制。
47.根据一些实施例,上述对在第二时间段内采样到的第一多个非静默语音片段中的第三多个非静默语音片段分别对应的第三多个沙哑置信度进行处理,包括:以第二采样率对第三多个沙哑置信度采样,得到第二采样置信度集合,并对第二采样置信度集合中的沙哑置信度进行统计处理。
48.以第二采样率对第三多个沙哑置信度进行采样,能够实现在保证采样得到的第二采样置信度集合中包括足够的特征信息的同时降低数据处理的计算量,提高处理效率。在一个示例中,以小时为单位进行采样,对同一天内的每个小时,从第三多个沙哑置信度中选择该小时内采样到的任意一个沙哑置信度,从而得到上述第三采样置信度集合。第三采样置信度集合中包括的沙哑置信度的数量小于或等于24。
49.应当理解,上述对第二采样率的描述仅作举例说明之用,在具体实施过程中,可以根据实际需要对第二采样率进行设置,对此不作具体限制。
50.根据一些实施例,上述对第二采样置信度集合中的沙哑置信度进行统计处理,包括:计算第二采样置信度集合中的沙哑置信度的最大值、最小值、平均值和均方差中的至少一个,以根据计算结果提取出第二置信度特征。
51.在一些实施例中,可以将计算得到的最大值、最小值、平均值和均方差中的多个直接拼接成一个二维向量,以作为上述第二置信度特征。
52.通过对第二采样置信度集合中的沙哑置信度进行统计处理,能够有效消除单个沙哑置信度中的噪音所带来的不利影响;并且,通过计算不同的统计指标,能够对沙哑置信度中的特定特征或沙哑置信度之间的特征关联进行放大,从而在降低特征提取难度的同时使提取到的第二置信度特征包括更多信息,进一步提升了本公开的感冒检测系统的检测效果。
53.结果检测模块250用于利用第二深度神经网络模型对第一置信度特征和第二置信度特征进行分析处理,得到第二深度神经网络模型输出的感冒检测结果。
54.根据一些实施例,上述第二深度神经网络模型可以基于dnn、cnn、lstm、conformer、tdnn等神经网络进行构建。可理解的,第二深度神经网络模型可以采用其他类型的网络结构,在此不做限制。
55.根据本公开的实施例,提供一种感冒检测系统,通过在多个时间点处对受检者的语音进行采样,计算出每个时间点的沙哑置信度以表征受检者在不同时期的声音沙哑状态,从而能够基于对沙哑置信度特征进行分析处理,判断用户的声音沙哑是否与感冒相关联,实现了感冒检测。
56.进一步地,受检者本身的正常语音也可能具备沙哑声学特征,本公开的感冒检测
系统对较长时间段和较短时间段分别对应的沙哑置信度特征进行比较分析,能够有效降低受检者语音本身的沙哑特征对感冒检测结果的影响,提升了感冒检测的准确率。
57.在一些实施例中,本公开的实施例提供的感冒检测系统可以应用于车辆中的智能座舱,以使该智能座舱具备对智能座舱中的用户进行感冒检测的功能。
58.可理解的,本公开的实施例提供的感冒检测系统也可以应用于类似的其他场景中,在此不做限制。在下文中,将以用于智能座舱中的感冒检测系统为例,详细描述系统200的各个模块所执行的操作。
59.在一些实施例中,系统200的模块可以分立地部署于车载系统(例如,车载系统110)和服务器(例如,服务器120),也即,系统200的功能可由车载系统和服务器相组合地执行。
60.在一些实施例中,系统200中的语音片段采样模块210可以部署在车载系统(例如,图1中所示的车载系统110)处,语音片段处理模块220、第一置信度模块230、第二置信度模块240和结果检测模块250可以部署在服务器(例如,服务器120)处。由此,能够利用云端服务器强大的计算能力,高效地完成对多个非静默语音片段的沙哑置信度检测和对不同时间段内提取到的多个沙哑置信度的置信度特征提取及处理,并向用户反馈得到的感冒检测结果,从而提升用户的体验。
61.在一些实施例中,系统200中的语音片段采样模块210、语音片段处理模块220、第一置信度模块230和第二置信度模块240可以部署在车载系统(例如,图1中所示的车载系统110)处,结果检测模块250可以部署在服务器(例如,服务器120)处。由此,通过车端即可完成非静默语音片段的沙哑置信度检测,并将从基于不同时间段内采集到的非静默语音片段对应的两组沙哑置信度中提取出的置信度特征通过网络(例如,网络130)上传至云端服务器。由此,能够减少该系统对网络的占用,在保证感冒检测系统正常运行的同时,保证车辆的其他通讯正常进行。
62.在一些实施例中,系统200可以部署在车载系统(例如,图1中所示的车载系统110)处执行,也即,系统200中的各个模块均可部署于图1中所示的车载系统110。由此,使得该系统所有功能都在车端实现,在无网络或网络情况较差时也能够正常工作。
63.在一些实施例中,语音片段获取模块210可以通过控制智能座舱中受检者所处座舱区域的麦克风阵列或其他声音拾取设备,对该受检者的语音进行采集,以获取受检者的语音音频。
64.在一些实施例中,可以对受检者的语音音频进行实时采集以及实时预处理。预处理操作例如可以包括去除语音音频中的静音片段、提取语音音频中的声学特征等。在一些示例中,响应于麦克风或其他声音拾取设备采集到第一预设时长(例如为5s)的语音音频,语音片段获取模块210即对该段语音音频进行上述获取在多个时间点处采样到的受检者的第一多个非静默语音片段的操作。由此,通过对语音音频进行实时处理,从而避免对一段较长的语音音频进行集中处理时对计算资源的占用,提升了计算效率。
65.根据一些实施例,上述获取在多个时间点处采样到的受检者的第一多个非静默语音片段,包括:获取受检者的语音音频流;在多个时间点处对语音音频流进行采样,以得到多个采样语音片段;利用语音识别模型处理多个采样语音片段中的每个采样语音片段,以输出每个采样语音片段相应的非静默语音片段,从而得到第一多个非静默语音片段。
66.在一些实施例中,采样的多个时间点可以根据实际需要进行任意设置,在此不作具体限制。
67.在一些实施例中,上述语音识别模型可以基于ubm-gmm、svm等机器学习模型或基于dnn、cnn、lstm、conformer、tdnn等神经网络进行构建。可理解的,语音识别模型可以采用其他类型的网络结构,在此不做限制。
68.根据一些实施例,如图3所示,语音片段处理模220包括声学特征提取模块321、声学特征处理模块322和置信度评测模块323。
69.声学特征提取模块321用于提取第一多个非静默语音片段中的每个非静默语音片段的声学特征向量。
70.在一些实施例中,提取的声学特征可以包括但不限于梅尔频率倒谱参数(mel frequency cepstral coefficient,mfcc)特征、常数q变换倒谱参数(constant q cepstral coefficients,cqcc)特征等。
71.在一些实施例中,在提取到上述声学特征的基础上,可以进一步采用一个滑窗(窗口长度例如为5帧),从而对连续的多个帧的声学特征进行均值规整,从而消除各个帧两端可能会造存在的信号不连续性。
72.在一些实施例中,可以进一步对上述声学特征进行差分处理。差分处理例如可以为一阶差分处理、二阶差分处理等,并将进行差分处理后的频域特征进行拼接。由此,通过差分处理,能够获得更加丰富的声学特征,从而为后续的感冒检测提供更多的特征信息,进一步提升感冒检测的准确率。
73.声学特征处理模块322用于将每个非静默语音片段的声学特征向量输入第一深度神经网络模型,得到第一深度神经网络模型输出的该非静默语音片段的沙哑概率,沙哑概率表征该非静默语音片段的声学特征向量表征由感冒引起的声音沙哑的声学特征的概率。
74.置信度评测模块323用于根据沙哑概率和预设置信区间生成该非静默语音片段的沙哑置信度,以得到第一多个沙哑置信度。
75.应当理解,上述预设置信区间可以根据实际需要进行任意设置,以更好地表征非静默语音片段包括由感冒引起的声音沙哑的声学特征的概率。例如,预设置信区间可以为70-80、80-90或85-90,在此不作具体限制。
76.图4图示出了图2的感冒检测系统200的示例工作流程的流程图。
77.如图4所示,本公开的感冒检测系统200在工作时执行如下各个步骤。
78.步骤401,接收来自受检者的音频流。
79.步骤402,使用语音识别模型截取音频流中的非静默语音片段。
80.在一些示例中,上述语音识别模型可以基于ubm-gmm、svm等机器学习模型或基于dnn、cnn、lstm、conformer、tdnn等神经网络进行构建。可理解的,语音识别模型可以采用其他类型的网络结构,在此不做限制。
81.步骤403,将截取到的非静默语音片段输入沙哑检测通用dnn模型中,输出该非静默语音片段对应的沙哑置信度。
82.对于步骤403,使用同一个沙哑检测通用dnn模型来实现声学特征提取、声学特征处理和置信度评测功能。具体地,将非静默语音片段输入沙哑检测通用dnn模型后,先提取出该非静默语音片段的声学特征,通过提取到的声学功能确定该非静默语音片段的沙哑概
率,然后根据沙哑概率和预设置信区间生成该非静默语音片段对应的沙哑置信度。
83.在一些示例中,提取的声学特征可以包括但不限于梅尔频率倒谱参数(mel frequency cepstral coefficient,mfcc)特征、常数q变换倒谱参数(constant q cepstral coefficients,cqcc)特征等。
84.在一些示例中,在提取到上述声学特征的基础上,可以进一步采用一个滑窗(窗口长度例如为5帧),从而对连续的多个帧的声学特征进行均值规整,从而消除各个帧两端可能会造存在的信号不连续性。
85.在一些示例中,可以进一步对上述声学特征进行差分处理。差分处理例如可以为一阶差分处理、二阶差分处理等,并将进行差分处理后的频域特征进行拼接。由此,通过差分处理,能够获得更加丰富的声学特征,从而为后续的感冒检测提供更多的特征信息,进一步提升感冒检测的准确率。
86.在一些示例中,上述预设置信区间可以根据实际需要进行任意设置,以更好地表征非静默语音片段包括由感冒引起的声音沙哑的声学特征的概率。例如,预设置信区间可以为70-80、80-90或85-90,在此不作具体限制。
87.步骤404,获取沙哑置信度历史数据集,并将上述沙哑置信度加入沙哑置信度历史数据集中,以更新沙哑置信度历史数据集。
88.对于步骤404,沙哑置信度历史数据集包括在获取上述非静默语音片段之前的多个历史时间点处,通过获取并处理每个历史时间点处相应的历史非静默语音片段得到的第一多个沙哑置信度。
89.步骤405,从长期和短期两个时间维度来计算沙哑置信度历史数据集中的沙哑置信度的统计特征,得到长期维度统计特征和短期维度统计特征。
90.在一些示例中,从长期时间维度计算沙哑置信度的统计特征,包括:以一年为时间窗口,从沙哑置信度历史数据集中获取同一年内采样到的第二多个沙哑置信度进行统计处理,以使第二多个沙哑置信度能够更好地表征用户在一段较长时间段内的声音沙哑特征。
91.在一些示例中,步骤405进一步包括以第一采样率对第二多个沙哑置信度进行采样,得到第一采样置信度集合,并对第一采样置信度集合中的沙哑置信度进行统计处理。在一个示例中,以月为单位进行采样,对同一年内的每个月,从第二多个沙哑置信度中选择该月内采样到的任意一个沙哑置信度,从而得到第一采样置信度集合。第一采样置信度集合中包括的沙哑置信度的数量小于或等于12。
92.以第一采样率对第二多个沙哑置信度进行采样,能够实现在保证采样得到的第一采样置信度集合中包括足够的特征信息的同时降低数据处理的计算量,提高处理效率。
93.应当理解,上述对第一采样率的描述仅作举例说明之用,在具体实施过程中,可以根据实际需要对第二采样率进行设置,对此不作具体限制。
94.在一些示例中,对第一采样置信度集合中的沙哑置信度进行统计处理,包括:计算第一采样置信度集合中的沙哑置信度的最大值、最小值、平均值和均方差中的至少一个,并根据计算结果提取出长期统计特征。
95.通过对第一采样置信度集合中的沙哑置信度进行统计处理,能够有效消除单个沙哑置信度中的噪音所带来的不利影响;并且,通过计算不同的统计指标,能够对沙哑置信度中的特定特征或沙哑置信度之间的特征关联进行放大,从而在降低特征提取难度的同时使
提取到的长期统计特征包括更多信息,进一步提升了本公开的感冒检测系统的检测效果。
96.在一些示例中,从短期时间维度计算沙哑置信度的统计特征,包括:以一天为时间窗口,从沙哑置信度历史数据集中获取同一天内采样到的第三多个沙哑置信度进行统计处理,以使第三多个沙哑置信度能够更好地表征用户在一段较短时间段内的声音沙哑特征。
97.在一些示例中,步骤405进一步包括以第二采样率对第三多个沙哑置信度采样,得到第二采样置信度集合,并对第二采样置信度集合中的沙哑置信度进行统计处理。在一个示例中,以小时为单位进行采样,对同一天内的每个小时,从第三多个沙哑置信度中选择该小时内采样到的任意一个沙哑置信度,从而得到第三采样置信度集合。第三采样置信度集合中包括的沙哑置信度的数量小于或等于24。
98.以第二采样率对第三多个沙哑置信度进行采样,能够实现在保证采样得到的第二采样置信度集合中包括足够的特征信息的同时降低数据处理的计算量,提高处理效率。
99.应当理解,上述对第二采样率的描述仅作举例说明之用,在具体实施过程中,可以根据实际需要对第二采样率进行设置,对此不作具体限制。
100.在一些示例中,对第二采样置信度集合中的沙哑置信度进行统计处理,包括:计算第二采样置信度集合中的沙哑置信度的最大值、最小值、平均值和均方差中的至少一个,以根据计算结果提取出短期统计特征。
101.通过对第二采样置信度集合中的沙哑置信度进行统计处理,能够有效消除单个沙哑置信度中的噪音所带来的不利影响;并且,通过计算不同的统计指标,能够对沙哑置信度中的特定特征或沙哑置信度之间的特征关联进行放大,从而在降低特征提取难度的同时使提取到的短期统计特征包括更多信息,进一步提升了本公开的感冒检测系统的检测效果。
102.步骤406,将长期维度统计特征和短期维度统计特征输入沙哑检测个性化dnn模型,输出感冒沙哑置信度。
103.需要说明的是,上述示例虽然仅描述了在每次采样到一个非静默语音片段时即对该非静默语音片段进行处理得到该非静默语音片段相应的沙哑置信度的情况,但是,在另一些示例中,还可以在目标时间点处一次性获取第一多个非静默语音片段,并利用第一深度和神经网络模型处理第一多个非静默语音片段中的每个非静默语音片段,从而得到上述第一多个沙哑置信度。
104.应当理解,上述示例工作流程仅作举例说明之用,并不因此将本公开的感冒检测系统200的工作流程限制于此。
105.虽然上面参考特定模块讨论了特定功能,但是应当注意,本文讨论的各个模块的功能可以分为多个模块,和/或多个模块的至少一些功能可以组合成单个模块。本文讨论的特定模块执行动作包括该特定模块本身执行该动作,或者替换地该特定模块调用或以其他方式访问执行该动作(或结合该特定模块一起执行该动作)的另一个组件或模块。因此,执行动作的特定模块可以包括执行动作的该特定模块本身和/或该特定模块调用或以其他方式访问的、执行动作的另一模块。
106.还应当理解,本文可以在软件硬件元件或程序模块的一般上下文中描述各种技术。上面关于图2和图3描述的各个模块可以在硬件中或在结合软件和/或固件的硬件中实现。例如,这些模块可以被实现为计算机程序代码/指令,该计算机程序代码/指令被配置为在一个或多个处理器中执行并存储在计算机可读存储介质中。可替换地,这些模块可以被
实现为硬件逻辑/电路。soc可以包括集成电路芯片(其包括处理器(例如,中央处理单元(central processing unit,cpu)、微控制器、微处理器、数字信号处理器(digital signal processor,dsp)等)、存储器、一个或多个通信接口、和/或其他电路中的一个或多个部件),并且可以可选地执行所接收的程序代码和/或包括嵌入式固件以执行功能。
107.根据本公开的一方面,提供了一种计算机设备,其包括至少一个存储器、至少一个处理器以及存储在至少一个存储器上的计算机程序。该至少一个处理器被配置为执行计算机程序以实现实现包括以下各项的操作:获取在多个时间点处采样到的受检者的第一多个非静默语音片段;利用第一深度神经网络模型处理第一多个非静默语音片段,得到第一多个沙哑置信度,其中,第一多个沙哑置信度与第一多个非静默语音片段一一对应,第一多个沙哑置信度中的每个沙哑置信度表征相应非静默语音片段包括受检者由感冒引起的声音沙哑的声学特征的概率;对在第一时间段内采样到的第一多个非静默语音片段中的第二多个非静默语音片段分别对应的第二多个沙哑置信度进行处理,以生成第一置信度特征,其中,第一置信度特征表征在第一时间段内受检者的声音包括由感冒引起的声音沙哑的声学特征的概率的统计特征;对在第二时间段内采样到的第一多个非静默语音片段中的第三多个非静默语音片段分别对应的第三多个沙哑置信度进行处理,以生成第二置信度特征,其中,第二时间段的时长小于第一时间段的时长,第二置信度特征表征第二时间段内受检者的声音包括由感冒引起的声音沙哑的声学特征的概率的统计特征;利用第二深度神经网络模型对第一置信度特征和第二置信度特征进行分析处理,得到第二深度神经网络模型输出的感冒检测结果。
108.根据本公开的一方面,提供了一种车辆,其包括如上所述的感冒检测系统或计算机设备。
109.根据本公开的一方面,提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现实现包括以下各项的操作:获取在多个时间点处采样到的受检者的第一多个非静默语音片段;利用第一深度神经网络模型处理第一多个非静默语音片段,得到第一多个沙哑置信度,其中,第一多个沙哑置信度与第一多个非静默语音片段一一对应,第一多个沙哑置信度中的每个沙哑置信度表征相应非静默语音片段包括受检者由感冒引起的声音沙哑的声学特征的概率;对在第一时间段内采样到的第一多个非静默语音片段中的第二多个非静默语音片段分别对应的第二多个沙哑置信度进行处理,以生成第一置信度特征,其中,第一置信度特征表征在第一时间段内受检者的声音包括由感冒引起的声音沙哑的声学特征的概率的统计特征;对在第二时间段内采样到的第一多个非静默语音片段中的第三多个非静默语音片段分别对应的第三多个沙哑置信度进行处理,以生成第二置信度特征,其中,第二时间段的时长小于第一时间段的时长,第二置信度特征表征第二时间段内受检者的声音包括由感冒引起的声音沙哑的声学特征的概率的统计特征;利用第二深度神经网络模型对第一置信度特征和第二置信度特征进行分析处理,得到第二深度神经网络模型输出的感冒检测结果。
110.根据本公开的一方面,提供了一种计算机程序产品,其包括计算机程序,该计算机程序被处理器执行时实现包括以下各项的操作:获取在多个时间点处采样到的受检者的第一多个非静默语音片段;利用第一深度神经网络模型处理第一多个非静默语音片段,得到第一多个沙哑置信度,其中,第一多个沙哑置信度与第一多个非静默语音片段一一对应,第
一多个沙哑置信度中的每个沙哑置信度表征相应非静默语音片段包括受检者由感冒引起的声音沙哑的声学特征的概率;对在第一时间段内采样到的第一多个非静默语音片段中的第二多个非静默语音片段分别对应的第二多个沙哑置信度进行处理,以生成第一置信度特征,其中,第一置信度特征表征在第一时间段内受检者的声音包括由感冒引起的声音沙哑的声学特征的概率的统计特征;对在第二时间段内采样到的第一多个非静默语音片段中的第三多个非静默语音片段分别对应的第三多个沙哑置信度进行处理,以生成第二置信度特征,其中,第二时间段的时长小于第一时间段的时长,第二置信度特征表征第二时间段内受检者的声音包括由感冒引起的声音沙哑的声学特征的概率的统计特征;利用第二深度神经网络模型对第一置信度特征和第二置信度特征进行分析处理,得到第二深度神经网络模型输出的感冒检测结果。
111.在下文中,结合图5描述这样的计算机设备、非暂态计算机可读存储介质和计算机程序产品的说明性示例。
112.图5示出了可以被用来实施本文所描述的方法的计算机设备500的示例配置。举例来说,图1中所示的服务器120和/或车载系统110可以包括类似于计算机设备500的架构。上述系统200可以全部或至少部分地由计算机设备500或类似设备或系统实现。
113.计算机设备500可以包括能够诸如通过系统总线514或其他适当的连接彼此通信的至少一个处理器502、存储器504、(多个)通信接口506、显示设备508、其他输入/输出(i/o)设备510以及一个或更多大容量存储设备512。
114.处理器502可以是单个处理单元或多个处理单元,所有处理单元可以包括单个或多个计算单元或者多个核心。处理器502可以被实施成一个或更多微处理器、微型计算机、微控制器、数字信号处理器、中央处理单元、状态机、逻辑电路和/或基于操作指令来操纵信号的任何设备。除了其他能力之外,处理器502可以被配置成获取并且执行存储在存储器504、大容量存储设备512或者其他计算机可读介质中的计算机可读指令,诸如操作系统516的程序代码、应用程序518的程序代码、其他程序520的程序代码等。
115.存储器504和大容量存储设备512是用于存储指令的计算机可读存储介质的示例,所述指令由处理器502执行来实施前面所描述的各种功能。举例来说,存储器504一般可以包括易失性存储器和非易失性存储器二者(例如ram、rom等等)。此外,大容量存储设备512一般可以包括硬盘驱动器、固态驱动器、可移除介质、包括外部和可移除驱动器、存储器卡、闪存、软盘、光盘(例如cd、dvd)、存储阵列、网络附属存储、存储区域网等等。存储器504和大容量存储设备512在本文中都可以被统称为存储器或计算机可读存储介质,并且可以是能够把计算机可读、处理器可执行程序指令存储为计算机程序代码的非暂态介质,所述计算机程序代码可以由处理器502作为被配置成实施在本文的示例中所描述的操作和功能的特定机器来执行。
116.多个程序可以存储在大容量存储设备512上。这些程序包括操作系统516、一个或多个应用程序518、其他程序520和程序数据522,并且它们可以被加载到存储器504以供执行。这样的应用程序或程序模块的示例可以包括例如用于实现以下系统/功能的计算机程序逻辑(例如,计算机程序代码或指令):系统200和/或本文描述的另外的实施例。
117.虽然在图5中被图示成存储在计算机设备500的存储器504中,但是模块516、518、520和522或者其部分可以使用可由计算机设备500访问的任何形式的计算机可读介质来实
施。如本文所使用的,“计算机可读介质”至少包括两种类型的计算机可读介质,也就是计算机可读存储介质和通信介质。
118.计算机可读存储介质包括通过用于存储信息的任何方法或技术实施的易失性和非易失性、可移除和不可移除介质,所述信息诸如是计算机可读指令、数据结构、程序模块或者其他数据。计算机可读存储介质包括而不限于ram、rom、eeprom、闪存或其他存储器技术,cd-rom、数字通用盘(dvd)、或其他光学存储装置,磁盒、磁带、磁盘存储装置或其他磁性存储设备,或者可以被用来存储信息以供计算机设备访问的任何其他非传送介质。与此相对,通信介质可以在诸如载波或其他传送机制之类的已调制数据信号中具体实现计算机可读指令、数据结构、程序模块或其他数据。本文所定义的计算机可读存储介质不包括通信介质。
119.一个或更多通信接口506用于诸如通过网络、直接连接等等与其他设备交换数据。这样的通信接口可以是以下各项中的一个或多个:任何类型的网络接口(例如,网络接口卡(nic))、有线或无线(诸如ieee 802.11无线lan(wlan))无线接口、全球微波接入互操作(wi-max)接口、以太网接口、通用串行总线(usb)接口、蜂窝网络接口、bluetoothtm接口、近场通信(nfc)接口等。通信接口506可以促进在多种网络和协议类型内的通信,其中包括有线网络(例如lan、电缆等等)和无线网络(例如wlan、蜂窝、卫星等等)、因特网等等。通信接口506还可以提供与诸如存储阵列、网络附属存储、存储区域网等等中的外部存储装置(未示出)的通信。
120.在一些示例中,可以包括诸如监视器之类的显示设备508,以用于向用户显示信息和图像。其他i/o设备510可以是接收来自用户的各种输入并且向用户提供各种输出的设备,并且可以包括触摸输入设备、手势输入设备、摄影机、键盘、遥控器、鼠标、打印机、音频输入/输出设备等等。
121.本文描述的技术可以由计算机设备500的这些各种配置来支持,并且不限于本文所描述的技术的具体示例。例如,该功能还可以通过使用分布式系统在“云”上全部或部分地实现。云包括和/或代表用于资源的平台。平台抽象云的硬件(例如,服务器)和软件资源的底层功能。资源可以包括在远离计算机设备500的服务器上执行计算处理时可以使用的应用和/或数据。资源还可以包括通过因特网和/或通过诸如蜂窝或wi-fi网络的订户网络提供的服务。平台可以抽象资源和功能以将计算机设备500与其他计算机设备连接。因此,本文描述的功能的实现可以分布在整个云内。例如,功能可以部分地在计算机设备500上以及部分地通过抽象云的功能的平台来实现。
122.虽然在附图和前面的描述中已经详细地说明和描述了本公开,但是这样的说明和描述应当被认为是说明性的和示意性的,而非限制性的;本公开不限于所公开的实施例。通过研究附图、公开内容和所附的权利要求书,本领域技术人员在实践所要求保护的主题时,能够理解和实现对于所公开的实施例的变型。在权利要求书中,词语“包括”不排除未列出的其他元件或步骤,不定冠词“一”或“一个”不排除多个,术语“多个”是指两个或两个以上,并且术语“基于”应解释为“至少部分地基于”。在相互不同的从属权利要求中记载了某些措施的仅有事实并不表明这些措施的组合不能用来获益。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1