基于音频的拖地声检测方法与流程

文档序号:11252384阅读:258来源:国知局
基于音频的拖地声检测方法与流程
本发明涉及计算机应用
技术领域
,尤其涉及基于音频信息的拖地声的检测方法。
背景技术
:步态分析(gaitanalysis)是一种通过观察或采集行走时人体的姿态,得出并分析步态参数的技术。通常,步态参数包括空间参数(例如步幅、步长、步宽等)、时间参数(例如步频、步速等)以及这些参数的左右脚的对称性、长期数据的稳定性等。步态分析在体育运动、医疗康复等方面得到了广泛的应用和研究。在步态分析中,脚是否拖地在医学上称为足廓清,正常人的脚步着地和离地过程相对稳定,摆动过程中离地有充分的高度,而病人抬脚和着地的过程中伴随着启动和停止上的困难,会产生摩擦地面的情况,并且在摆动过程中,由于脚抬起高度不够,也会产生明显拖地的声音。足廓清的检测对于康复医学、步态检测、跌倒预警等有着重要的意义。然而,在现有技术中,步态分析通常基于视频图像、压力传感器、肌电技术等,但这些设备对病人有较大的侵入性,尤其对于拖地事件,很难从运动传感器上直接判断出来。此外,尽管现有技术中已存在基于音频的脚步检测方法(例如,王成等的申请号为201610971951.2、发明名称“基于双声道的脚步检测方法”的中国专利申请),但其不包括判断脚是否拖地的方案,在现有技术中,也缺乏通用有效的脚拖地检测机制。技术实现要素:因此,本发明的目的在于克服上述现有技术的缺陷,提供一种能够基于音频准确检测脚步拖地声的方法。该方法包括以下步骤:步骤1:对采集到的左右脚双声道音频数据进行分帧处理,以获得相应的音频帧;步骤2:以从所述音频帧提取的特征向量作为输入,利用分类器获得音频帧属于拖地声的概率和属于正常脚步声的概率,其中,所述分类器通过训练获得的,训练样本包括用于识别正常脚步声的正样本、用于识别拖地声的拖地样本和用于识别非脚步的其它声音的负样本;步骤3:根据获得的各个音频帧属于拖地声的概率和属于正常脚步声的概率,得出拖地声对应的时间区间。优选地,所述正样本包括在正常步态下,标注了脚跟着地声的音频帧和标注了前脚掌着地声的音频帧。优选地,所述正样本包括已知的正常步态下,左脚声道音频数据中的以每个标注脚跟着地声的位置为中心的三个音频帧和以每个标注前脚掌着地声的位置为中心的三个音频帧,以及已知的右脚声道音频数据中的以每个标注脚根着地声的位置为中心的三个音频和以每个标注前脚掌着地声的位置为中心的三个音频帧。优选地,所述拖地样本包括在拖地步态下,标注了脚跟着地声的音频帧和标注了前脚掌着地声的音频帧。优选地,所述拖地声样本包括已知的拖地步态下,左脚声道音频数据中的以每个标注脚跟着地声的位置为中心的三个音频帧和以每个标注前脚掌着地声的位置为中心的三个音频帧,以及已知的右脚声道音频数据中的以每个标注脚根着地声的位置为中心的三个音频和以每个标注前脚掌着地声的位置为中心的三个音频帧。优选地,所述负样本包括左脚声道音频数据中的前一步的前脚掌着地声与后一步的脚跟着地声之间的九个音频帧,以及右脚声道音频数据中的前一步的前脚掌着地声与后一步的脚跟着地声之间的九个音频帧。优选地,在所述步骤2中,左脚声道的音频帧及其属于拖地的概率构成左脚声道的拖地声概率曲线,右脚声道的音频帧及其属于拖地声的概率构成右脚声道的拖地声的概率曲线,左脚声道的音频帧及其属于正常脚步声的概率构成左脚声道的正常脚步声的概率曲线,右脚声道的音频帧及其属于正常脚步声的概率构成右脚声道的正常脚步声的概率曲线;在所述步骤3中,还包括将左右脚声道的拖地声的概率曲线融合成综合的拖地声的概率曲线,将左右脚声道的正常脚步声的概率曲线融合成综合的正常脚步声的概率曲线,基于预设的概率阈值得出正常脚步声对应的时间区间和拖地声对应的时间区间。优选地,正常脚步声对应的时间区间是所述综合的正常脚步声的概率曲线小于0.5的时间区间;拖地声对应的时间区间是所述综合的拖地声的概率曲线大于0.35的时间区间。与现有技术相比,本发明的优点在于:能够根据双声道音频数据准确检测音频帧否是拖地声和/或正常脚步声,此外,本发明基于机器学习的方法能够适用于多种不同的场景,通用性强。附图说明以下附图仅对本发明作示意性的说明和解释,并不用于限定本发明的范围,其中:图1示出了根据本发明一个实施例的训练用于检测拖地声的分类器的方法的流程图;图2示出了根据本发明的一个实施例的检测拖地声和正常脚步声的方法的流程图;图3示出了根据本发明一个实施例的分帧处理方式;图4示出了根据本发明一个实施例的双声道数据标注示例;图5示出了根据本发明一个实施例的拖地声和正常脚步声的检测结果的示例。具体实施方式为了对本发明的技术特征、目的和效果有更加清楚的理解,现参照附图对本发明提出的基于音频的脚步拖地检测方法作详细说明。为了清楚理解本发明,将以下专利(或专利申请)通过全文引用的方式并入本文:1.王成等的申请号为201610971951.2、发明名称“基于双声道的脚步检测方法”的中国专利申请。2.王成等的申请号为201610517381.x、发明名称“一种建立步态数据集的方法及步态分析方法”的中国专利申请。图1示出了根据本发明一个实施例的基于音频的拖地检测方法的示意流程图。具体包括以下步骤:步骤s110,采集音频数据通过将可穿戴步态数据采集装置分别布置左右脚处,采集人行走时产生的声音信号,能够获得双声道音频数据。在一个实施例中,可穿戴步态数据采集装置包括能够采集声波信号的麦克风单元。步态数据采集装置包括左脚步态数据采集节点和右脚步态数据采集节点,每个步态采集节点包括存储单元、微处理器、电源单元、无线收发单元、信号采集器、信号发射器。在采集数据时,由信号采集器(例如麦克风)采集声音信号、所采集的信号发送到微处理器进行处理。在一个实施例中,双声道数据的采集方法包括:将左脚步态采集节点和右脚步态采集节点分别固定在被测人的左脚和右脚。在双脚上同时使用两个步态采集设备节点,即左脚步态采集节点采集左脚的音频数据,右脚步态采集节点采集右脚的音频数据,从而构成双声道,将左右脚的数据进行分析融合,可以获得比单脚测量方式更准确的信息。具体地,可以将步态数据采集节点穿戴在鞋的不同位置,例如鞋帮的前侧、外侧或后侧,也可以是鞋底靠近前脚掌处、中部或者靠近脚跟处。优选地,左脚步态采集节点和右脚步态采集节点佩戴在左右脚的对称位置上。对于采集行走时音频数据的具体方法可参见中国专利申请“一种建立步态数据集的方法及步态分析方法”(中国发明专利申请号cn201610517381.x)。步骤s120:数据切割对采集到的双声道音频数据进行分帧加窗,获得一系列的音频帧。如图3所示的分帧加窗,在8000hz的音频采样率下,每个音频帧包含200个样本,在分帧时,设置相邻帧之间有120个样本的重叠区间。在分帧之后,为了减少帧起始和结束处信号的不连续性,对音频帧加汉明(hamming)窗,即在音频数据加滑动窗口,用滑动窗口取对应的音频帧作为本实施例的基本考察单元,由于在10~30ms的范围内,音频的频谱特征和一些物理特征参数基本保持不变,因此汉明窗的窗口长度一般为10ms至30ms。步骤s130:提取并选择音频特征对音频帧进行特征提取,以获得该音频帧的特征向量。根据本发明的一个实施例,特征向量包括:自相关系数、自带能量(0至4khz)特征、过零率、线性预测系数(lpcc特征)和梅尔倒谱系数(mfcc)特征。表1示出了在一个实施例中特征向量的构成,包括:10维子带能量特征、12维梅尔倒谱系数特征、12维线性预测系数、过零率和自相关系数,共36维。表1特征维数自相关系数1子带能量(0~4khz)10过零率1lpcc12mfcc12应理解的是,上述特征向量的维度和特征向量的具体组合并不是唯一的。在其它实施例中,特征向量也可以是上述特征中的一部分或全部的自由组合或者是能够较好地表征音频帧所蕴含的信息的其他特征组合。步骤s140:选择训练样本典型脚步声的特点包含脚后跟和脚前掌着地的两声,且左右脚的音频数据采集设备中均可采集到包含对应的着地信号,但本侧脚的音频信号相对较强。因此,在人工标注时,在左右脚两道音频上按照左右脚依次在对应侧的音频上标注出每个脚步两声(即脚后跟和脚前掌着地的两声)的位置,如图4所示。在本实施例中,为了实现正常脚步声、拖地声和其他声音三种分类的检测,训练样本包括用于识别正常脚步声的正样本、用于识别拖地声的拖地样本和用于识别非脚步的其它声音的负样本。优选地,在正常步态下,在左右脚的两道音频上以每个标注的位置为中心,各取3帧作为正样本,从而在单声道中(即对应左脚的声道或对应右脚的声道),每个脚步对应6个正样本,然后在相邻两个脚步的中间位置(前一脚的第二声和后一脚的第一声中间)取连续的9帧作为负样本,这样每两个脚步之间有18个负样本。本领域的技术人员应当理解,也可以选择其它的音频帧,只要其可以与正常脚步声区别开即可。对于拖地样本的采集,可以通过正常人进行模拟拖地来获得拖地样本,标注的方法与正常脚步的标注方法相同,例如,在拖地步态下,在左右脚的两道音频上以每个标注的位置为中心,各取3帧作为正样本,从而在单声道中,每个脚步对应6个拖地样本。在一个实施例中,采集的训练样本包括3264音频帧的正样本、4026音频帧的负样本以及463音频帧的拖地样本。应理解的是,每个脚步对应的正样本数量、负样本数量和拖地样本数量以及每个样本对应的音频帧的数量可综合考虑训练时间和获得的模型精度来确定,并不限于本文中所列出的具体数值。步骤s150:训练分类器模型利用上述正、负样本和拖地样本组成样本库,可以利用计算机机器学习的方法训练分类器,例如,支持向量机(svm)、加权支持向量机、极限学习机或加权极限学习机等。分类器的输入是从各个音频帧提取的特征向量,输出是某个音频帧是否是拖地声、正常脚步声和其他声音的概率,对于每个音频帧,这三者的概率和为1。利用训练好的分类器即可检测拖地声,参见图2所示,在此实施例中,检测方法包括以下步骤:步骤s210,采集音频数据。在此步骤中,待检测的双声道音频数据的音频帧的根据图1所示的步骤s110的方法获得。步骤s220:利用训练好的分类器获得音频帧属于正常脚步声和拖地声的概率。利用训练好的分类器对待检测的双声道音频数据的各个音频帧进行检测,得到各个音频帧属于拖地声的概率,建立对应的概率曲线。该概率曲线是指横坐标为音频帧序号(或者音频帧所代表的时刻),纵坐标为对应音频帧属于拖地声的概率的曲线。左右脚的两道音频数据对应两条概率曲线。类似地,还可得到各个音频帧属于正常脚步声的概率和其它声音的概率曲线,并同样建立左右脚对应的概率曲线,参见图5示意的正常脚步声的概率曲线和拖地声的概率曲线。步骤s230:平滑处理概率曲线并识别拖地声和正常脚步声在此步骤中,对左右脚的拖地声概率曲线和正常脚步声概率曲线进行融合和平滑处理,例如,在一个实施例中,基于求和法将左右脚的概率曲线合并之后,为了克服概率曲线存在的较大的不稳定性和噪声点,用低通滤波器(相对截止频率0.1)进行平滑处理,平滑后的概率曲线存在较为明显的“大概率”区间,例如,在图5示意的拖地声的概率曲线中,存在明显的大于0.35的时间区间,因此,可以根据预设的阈值找出连续超出阈值的区间,将这些区间判定为属于拖地声的区间。在另一个实施例中,基于双声道概率最大值法确定脚步区间。通常来说,本侧声道的音频数据被判定为拖地声的概率更大,所以可以更多依赖本侧声道的音频数据,而另一侧的音频数据概率起补充作用。对于每对候选的音频帧(指代表时刻相同的左右声道的音频帧),先选出概率较大的一个,然后用它代表综合概率曲线中该音频帧位置的概率值,这样就得出了综合左右脚音频数据的概率曲线。对上述综合概率曲线,用预设的概率阈值寻找连续超出阈值的区间,将这些区间判定为属于拖地声的区间。上述对于概率曲线进行融合和平滑处理的具体过程也可参见专利申请号cn201610971951.2(基于双声道的脚步检测方法)。而发明人在测试中发现,对于有拖地的病人,脚步拖地声会有很高的概率,而且正常脚步声本身也能获得较高的概率,而且,在统计为正常脚步声的位置处,可能还包含拖地声。因此,为了准确的区分出拖地声和正常脚步声,在本发明中,在判断拖地声的时间区间,不统计判断为正常脚步声的时间区间上的拖地声。例如,判断过程是,首先将正常脚步声的概率曲线上小于预设阈值0.5的区间认为是正常脚步声;将正常脚步声的概率曲线上大于0.5并且拖地声的概率曲线上大于0.35的区间认为是拖地声的时间区间。通过这种方式能够在一定程度上避免拖地声被正常脚步声掩盖。当然,视具体的应用需求,也可以一起统计正常脚步声和拖地声。例如,将正常脚步声的概率曲线上小于预设阈值0.5的区间认为是正常脚步声;将拖地声的概率曲线上大于0.35的区间认为是拖地声的时间区间。图5示出了正常脚步声和拖地声检测结果的示意图,其中横坐标表示各个音频帧的序号,纵坐标分别示意了正常脚步声的概率曲线和拖地声的概率曲线。原始的正常脚步声概率曲线,是指左右脚音频数据融合后、平滑前的脚步声概率曲线。正常脚步声的概率曲线和拖地声的概率曲线是经过左右脚音频数据融合和平滑后的概率曲线。图5示意的拖地声的概率判断阈值为大于0.35,正常脚步声的概率判断阈值为小于0.5。上述基于音频的拖地声检测方法,不会错过正常脚步声和拖地声,具有较高的召回率和准确率。为了进一步验证本发明的技术效果,发明人基于本发明的分类器模型进行了测试。测试数据包括:3位健康人,2位步态异常病人,在5米长的距离上,往返行走4次。测试结果如表2所示,健康人均未发现拖地现象,而病人伴随着步态有较多的拖地现象。表2健康人1健康人2健康人3病人1病人20006次8次本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以包括但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式压缩盘只读存储器(cd-rom)、数字多功能盘(dvd)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本
技术领域
的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本
技术领域
的其它普通技术人员能理解本文披露的各实施例。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1