基于增强学习的声控胰岛素注射笔语音控制方法

文档序号:40935722发布日期:2025-02-14 21:49阅读:169来源:国知局

本发明涉及应用于医疗设备的人工智能,具体涉及一种基于增强学习的声控胰岛素注射笔语音控制方法。


背景技术:

1、随着生活方式的改变和人口老龄化,糖尿病患者数量不断增加。这使得对于更方便、可控的胰岛素注射方法的需求不断上升,糖尿病患者通常需要每天多次进行胰岛素注射,因此注射设备的易用性和患者友好性对于患者的治疗依从性和生活质量至关重要,为了提高患者的注射体验和治疗便捷性,随着语音识别技术和智能设备的不断发展,将语音控制引入胰岛素注射设备,声控胰岛素注射笔的研究和开发将使糖尿病患者更容易管理他们的疾病,提高他们的生活质量。声控胰岛素注射笔配备了智能控制单元,能够处理语音指令并将其转化为对胰岛素注射笔的控制信号。但是因为在获取语音信号时,受到周围环境以及设备本身的影响,采集获得的语音信号存在噪声,因此需要对采集的语音信号进行去噪处理。

2、在现有技术中,lms(最小均方)滤波器是一种常用的去噪算法,它通过不断调整滤波器的权重,使得滤波器的输出与期望信号的均方误差最小。lms算法的更新规则是基于梯度下降的原理,根据误差信号和输入信号的乘积来更新权重。但是因为语音信号中存在的噪声是随机的,并且在采集语音信号时,因为语音音调的变化,导致获得的语音信号是不平稳的。而lms滤波器容易受到信号中的瞬态噪声的影响,可能导致过度适应,这意味着滤波器可能在尝试适应噪声的短期变化时,过度调整自身的权重,导致对信号的过度处理,甚至将信号错误地视为噪声。


技术实现思路

1、为了解决上述问题,本发明提供一种基于增强学习的声控胰岛素注射笔语音控制方法。

2、本发明的一种基于增强学习的声控胰岛素注射笔语音控制方法采用如下技术方案:

3、本发明一个实施例提供了一种基于增强学习的声控胰岛素注射笔语音控制方法,该方法包括以下步骤:

4、获取原始语音信号,所述原始语音信号中包含若干个数据点,每个数据点对应一个时间和一个幅值;

5、对原始语音信号进行分解,获得原始语音信号的多条分量信号,获取每一条分量信号的极值点;根据每一条分量信号的极值点的幅值大小获得原始语音信号中每一个数据点为参考点的可能程度;根据原始语音信号中每一个数据点为参考点的可能程度的大小,从所有数据点中筛选出若干个参考点;

6、根据每个参考点为参考点的可能程度以及参考点的幅值与原始语音信号中幅值最大值的差异获得每个参考点的显著值;根据原始语音信号中每一个数据点的幅值与参考点的显著值获得每一个数据点的滤波权重;

7、根据每一个数据点的滤波权重,使用lms算法对原始语音信号进行去噪,获得去噪语音信号;根据去噪语音信号对胰岛素注射笔进行语音控制。

8、进一步的,所述根据每一条分量信号的极值点的幅值大小获得原始语音信号中每一个数据点为参考点的可能程度,包括的具体步骤如下:

9、将所有分量信号的极值点对应的时间记为标准时间;根据标准时间对应在原始语音信号与不同分量信号中的数据点的幅值以及数据点之间距离,得到每个标准时间在原始语音信号中对应的数据点为参考点的可能程度。

10、进一步的,所述根据标准时间对应在原始语音信号与不同分量信号中的数据点的幅值以及数据点之间距离,得到每个标准时间在原始语音信号中对应的数据点为参考点的可能程度,包括的具体步骤如下:

11、根据不同分量信号中在标准时间上的数据点的幅值差值得到第一特征;根据同一分量信号中不同数据点的幅值差值以及同一分量信号中不同数据点之间的欧式距离得到第二特征;根据第一特征和第二特征,得到每个标准时间在原始语音信号中对应的数据点为参考点的可能程度。

12、进一步的,所述根据第一特征和第二特征,得到每个标准时间在原始语音信号中对应的数据点为参考点的可能程度,计算公式如下:

13、

14、式中,pi表示第i个标准时间在原始语音信号中对应的数据点为参考点的可能程度,fli表示第i个标准时间在第l个分量信号中对应的数据点的幅值,ffi表示第i个标准时间在第f个分量信号中对应的数据点的幅值,fl(i+1)表示第i-1个标准时间在第l个分量信号中对应的数据点的幅值,fl(i-1)表示第i-1个标准时间在第l个分量信号中对应的数据点的幅值,dl(i,i+1)表示第i个标准时间在第l个分量信号中对应的数据点与第i+1个标准时间在第l个分量信号中对应的数据点之间的欧氏距离,dl(i,i-1)表示第i个标准时间在第l个分量信号中对应的数据点与第i-1个标准时间在第l个分量信号中对应的数据点之间的欧氏距离,n表示分量信号的数量,norm{}表示线性归一化函数;为第i个标准时间在原始语音信号中对应的数据点的第一特征;为第i个标准时间在原始语音信号中对应的数据点的第二特征,||为绝对值函数。

15、进一步的,所述根据原始语音信号中每一个数据点为参考点的可能程度的大小,从所有数据点中筛选出若干个参考点,包括的具体步骤如下:

16、预设阈值t1,当时序上第i个数据点为参考点的可能程度大于等于t1时,将第i个数据点记为参考点。

17、进一步的,所述根据每个参考点为参考点的可能程度以及参考点的幅值与原始语音信号中幅值最大值的差异获得每个参考点的显著值,包括的具体步骤如下:

18、获取参考点的幅值与原始语音信号中幅值最大值的差值以及参考点与周围的参考点为参考点的可能程度的方差;

19、根据原始语音信号中参考点为参考点的可能程度、参考点的幅值与原始语音信号中幅值最大值的差值以及参考点与周围的参考点为参考点的可能程度的方差获得每个参考点的显著值。

20、进一步的,所述根据原始语音信号中参考点为参考点的可能程度、参考点的幅值与原始语音信号中幅值最大值的差值以及参考点与周围的参考点为参考点的可能程度的方差获得每个参考点的显著值,包括的具体步骤如下:

21、

22、式中,qj表示第j个参考点的显著值,pj表示第j个参考点为参考点的可能程度,maxf表示原始语音信号中数据点的最大幅值,fj表示第j个参考点的幅值,pj-r表示第j-r个参考点为参考点的可能程度,fj-r表示第j-r个参考点的幅值,m为预设邻域参考点的数量,s[p(j-r,j)]表示第j-r个参考点到第j个参考点之间包含的所有参考点为参考点的可能程度的方差,t(j-r,j)表示第j-r个参考点到第j个参考点之间的时序长度。

23、进一步的,所述根据原始语音信号中每一个数据点的幅值与参考点的显著值获得每一个数据点的滤波权重,包括的具体步骤如下:

24、预设的参考点的数量为a,在原始语音信号中,将第i个数据点之前的个参考点和第i个数据点之后的个参考点,记为第i个数据点的目标参考点;

25、根据第i个数据点的目标参考点的显著值、第i个数据点的幅值以及第i个数据点到第x个数据点的目标参考点的距离得到每个数据点的权重。

26、进一步的,所述根据第i个数据点的目标参考点的显著值、第i个数据点的幅值以及第i个数据点到第x个数据点的目标参考点的距离得到每个数据点的权重,计算公式如下:

27、

28、式中,wx表示原始语音信号中第x个数据点的滤波权重,qx,y表示原始语音信号中第x个数据点的第y个目标参考点的显著值,fx表示原始语音信号中第x个据点的数幅值,d(x,y)表示原始语音信号中第x个数据点到第x个数据点的所有目标参考点的距离中的最大值,zx表示原始语音信号中第x个数据点的目标参考点的数量,norm[]表示线性归一化函数。

29、进一步的,所述根据去噪语音信号对胰岛素注射笔进行语音控制,包括的具体步骤如下:

30、获取声控胰岛素注射笔对应的指令操作库;

31、通过asr语音识别技术识别去噪语音信号中的语音内容,获得关键词,通过aho–corasick算法将关键词在指令操作库中进行匹配,获得语音指令,将语音指令发送给声控胰岛素注射笔,声控胰岛素注射笔执行语音指令。

32、本发明的技术方案的有益效果是:在通过lms算法对语音信号进行去噪时,因为在本发明中语音信号中存在的噪声是随机的,并且在采集语音信号时,因为语音音调的变化,导致获得的语音信号是不平稳的。而lms滤波器容易受到信号中的瞬态噪声的影响,可能导致过度适应。因此通过对原始语音信号进行分析,根据数据点的变化对原始语音信号的滤波权重进行自适应,能够更好的使用原始语音信号的变化特征,从而去噪更彻底并且不会破坏原始语音信号包含的有用信息。

33、在获得语音信号中数据点的权重时,通过对原始语音信号进行分解,获得多条分量信号,根据分量信号中极值点的变化来获得对应的原始语音信号中数据点为参考点的可能程度,进而根据参考点的可能程度获得每个参考点的显著值,然后根据参考点的显著值与数据点幅值获得每个数据点的滤波权重,进而根据每个数据点的权重对原始语音信号进行自适应去噪,使得去噪后的语音信号能够进行准确的识别,进而能够对胰岛素注射笔进行准确的控制。

34、当采集获得语音信号为方言时,通过增强学习技术对方言语音信号进行预处理筛选出方言语音特征,能更准确的识别用户的语音命令,从而提高语音识别的准确率;将注射剂量的语音指令发送给声控胰岛素注射笔时,通过增强学习技术,声控胰岛素注射笔在执行注射剂量的语音指令时可以更好的理解用户的语言需求,从而更准确将注射剂量的控制在相应的安全阈值内;此外还可以通过增强学习技术管理对话流程,提到人机对话的流畅性。

当前第1页1 2 
当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!
1