一种基于声纹识别的图书馆借书方法及装置与流程

文档序号:13138882阅读:330来源:国知局
一种基于声纹识别的图书馆借书方法及装置与流程

本发明涉及图书馆信息管理技术领域,特别涉及一种基于声纹识别的图书馆借书方法及装置。



背景技术:

目前,学校图书馆使用的借书还书终端机普遍是基于非接触式ic刷卡形式,其由ic卡、条形码扫描仪、读卡器、数据库管理软件组成,用户在借书还书时出示ic卡,但ic卡需随身携带,且易受温度、碰撞的影响。正是如此,其存在ic卡易丢失、易损坏的缺点。

随着信息技术与模式识别技术的发展,模式识别技术也应用到身份认证之中。

目前已提出有三种图书馆借书装置的方案,一种是基于指纹识别的学校图书馆借书装置,其由服务器、条形码扫描仪、带有指纹识别功能的终端机组成。图书馆管理员预先将学生指纹采集,通过指纹提取软件提取特征点并储存在服务器或终端机。在学生借书时,学生将所借书上标记的条形码经由条形码扫描仪扫描确认,终端机采集学生指纹,通过服务器或pc机内置指纹识别程序,与事先储存的指纹库里的指纹进行对比,确认为学生本人后,数据管理软件将图书信息添加到学生已借书目录中,消磁器将书中磁条消磁,学生安全地通过门禁。此装置以生物特征代替ic卡,不需要携带任何证件,解决了ic卡借书装置中ic必须随身携带所引发的问题。

但其缺点也很突出,首先,由于手是最常使用的部位,所以手指较容易被割伤、沾有杂质(水、污渍)或磨损,以至于导致识别不出或错误识别指纹。其次,指纹识别采用接触式采集方式,在学生多次使用指纹采集装置后,采集装置会有磨损的情况发生,这也会导致识别精度的下降。

另一种是基于人脸识别的学校图书馆借书装置,其由服务器、条形码扫描仪、消磁和磁化器、带有人脸识别功能的终端机、数据库管理软件组成,图书馆管理方事先将学生人脸采集,提取特征点并储存在服务器或终端机。其借书具体流程与指纹式图书馆借书装置相似,此装置以非接触式的人脸特征代替指纹,人脸相比于指纹,不易出现损伤情况,解决了指纹易损伤和覆盖杂质的情况。但其仍有不足,主要为识别精度不准,受光线、学生是否佩戴眼镜、发型、脸部表情、头部姿势等因素影响较大,无法准确识别学生身份,这就失去的身份认证的意义。

还有一种是基于虹膜识别的学校图书馆借书装置,其由服务器、条形码扫描仪、消磁和磁化器、带有虹膜识别功能的终端机、数据库管理软件组成,与基于人脸识别的图书馆借书装置类似,图书管理员采集学生虹膜照片,虹膜识别软件提取虹膜特征点并储存到虹膜库里,学生借书时,终端机采集学生虹膜并与虹膜库里数据对比识别,确认学生身份后,数据库管理软件将学生信息与图书信息绑定,完成借书。虹膜识别相比人脸识别受环境因素影响小,识别更为精准。但是红膜识别设备昂贵的价格却是使其不能商用化。

现有技术方案存在的问题和缺点:ic卡易丢失和损坏、指纹识别与身份识别精度低、虹膜识别设备昂贵。



技术实现要素:

有鉴于此,本发明提出一种基于声纹识别的图书馆借书方法及装置。

一种基于声纹识别的图书馆借书方法,其包括如下步骤:

s1、预先采集用户声纹,作为对比声纹信息存储在服务器的声纹库中;

s2、在用户取得图书后,再次采集用户声纹,并将本次采集的用户声纹发送到服务器;

s3、云端服务器对再次采集的用户声纹与声纹库中对比声纹信息进行对比;在对比成功后跳转到步骤s4;

s4、通过对比声纹信息确定用户身份信息,采集图书信息,将用户身份信息与图书信息进行绑定完成图书借阅。

在本发明所述的基于声纹识别的图书馆借书方法中,

所述步骤s1包括如下步骤:

s11、预先采集用户声纹以及身份信息;

s12、提取采集的用户声纹的特征信息;

s13、将提取的用户声纹的特征信息与身份信息存储在同一链表下,并上传至服务器;在服务器中将所有用户的链表连接在一起获得包含对比声纹信息的声纹库。

在本发明所述的基于声纹识别的图书馆借书方法中,

所述步骤s12中提取采集的用户声纹的特征信息包括:

将采集的用户声纹进行快速傅里叶变换,实现从时域到频域的变换得到频谱图;

对变换后得到的频谱图进行分帧处理;

对分帧处理后每一帧进行二维dct变换;

将进行二维dct变换后的每一帧信号串联;

对串联的信号进行pca降维处理得到语音特征向量形式的用户声纹的特征信息。

在本发明所述的基于声纹识别的图书馆借书方法中,

所述步骤s2还包括:

在用户取得图书后,再次采集用户声纹时,通过预设的播放特殊背景噪声对用户声纹信息进行加密,所述特殊背景噪声通过用户声纹信号与时间噪声信号卷积形成,时间噪声与时间呈非线性关系。

在本发明所述的基于声纹识别的图书馆借书方法中,

所述步骤s3中云端服务器对再次采集的用户声纹与声纹库中对比声纹信息进行对比之前还包括:

利用分频方法将用户声纹信号分离或通过获取预设的特殊背景噪声信号特性将人声信号分离。

本发明还提供一种基于声纹识别的图书馆借书装置,其包括:声音采集器、图书标签扫描器、触屏显示器、语音提示器、自助借书控制台、互联网接口、自助借书主机、透明隔音仓;

声纹采集器、图书标签扫描器、触屏显示器、语音提示器、互联网接口分别与自助借书主机电连接;

自助借书主机设置在自助借书控制台内;触屏显示器位于自助借书控制台上方;声纹采集器、图书标签扫描器设置在自助借书控制台内;所述透明隔音仓设置在自助借书主机外;

所述声纹采集器用于用于采集用户声纹,并将其发送到自助借书主机;

所述图书标签扫描器用于扫描图书信息,并将其发送到自助借书主机;

所述触屏显示屏用于获取用户的操作信息,将其发送到自助借书机;

所述语音提示器用于播放特殊背景噪声,并发送到自助借书主机;还用于在图书借阅完成后播放提示信息;

所述自助借书主机用于接收声纹采集器采集的用户声纹以及语音提示器播放的特殊背景噪声,并将用户声纹及特殊背景噪声进行处理后通过互联网接口发送到服务器进行对比,并获取声纹对比结果;用于接收图书标签扫描器扫描的图书信息,将声纹对比结果与图书信息进行绑定后发送到服务器,并将语音提示器发送播放提示信息的指令;

所述互联网接口用于将将经过处理后用户声纹及特殊背景噪声信号发送到服务器;用于接收服务器发送的声纹对比结果;还用于将绑定后的声纹对比结果与图书信息发送到服务器。

在本发明所述的基于声纹识别的图书馆借书装置中,

所述自助借书主机包括产生控制信号电路、卷积电路、滤波电路以及cpu;所述卷积电路分别与滤波电路、产生控制信号电路、cpu电连接;滤波电路与声纹采集器电连接;

所述产生控制信号电路用于产生控制信号并发送到卷积电路;卷积电路用于将用户声纹信号和控制信号进行卷积得到特殊背景噪声信号,并发送到滤波电路;滤波电路用于对采集得到的用户声纹及特殊背景噪声信号的混合信号进行过滤,得到用户声纹。

实施本发明提供的基于声纹识别的图书馆借书方法及装置统与现有技术相比具有以下有益效果:所述声纹识别技术属于生物识别,相比于非接触式ic数卡技术具有安全性高、方便快捷的优点,无需担心ic卡遗失和损坏。所述声纹识别技术可以进行通过电话进行远程认证,对于学生来说更加方便,而且用户接受度高,去掉繁杂的认证过程。所述声纹识别技术是一项根据语音波形反映说话人生理和行为特征的语音参数,相比于指纹识别技术和人脸识别技术,无需担心环境因素、指纹变化和人脸变化的因素,具有更准确识别精度。虹膜识别虽为一种稳定、可靠的身份识别技术,但其所需的识别设备昂贵,普通图书馆根本无法承担这样的费用,识别时要将眼睛凑到识别孔上,而声纹识别设备仅需麦克风采集数据,造价低廉、采集也极为方便,是一种更为经济、简便的身份识别方式。加密方法中将人声信号与时间噪声信号卷积后再作为特殊背景噪声,而非直接将时间噪声信号作为特殊背景噪声,这样产生的有益效果是进一步加强该装置的安全可靠性。

附图说明

图1为本发明较佳实例提供的自助借书控制台的结构图;

图2为本发明较佳实例提供的透明隔音仓的结构图;

图3为本发明较佳实例提供的自助借书终端与服务器通信的交互示意图;

图4为本发明较佳实例提供的图书馆自助借书装置内部电路连接示意图;

图5为本发明较佳实例提供的声音信号处理的结构示意图;

图6为本发明较佳实例提供的声音信号处理流程示意图;

图7为本发明较佳实例提供的产生以及滤掉背景噪声的方法流程示意图;

图8为本发明较佳实例提供的实现frtt的流程图。

具体实施方式

如图1-8所示,本发明提供一种基于声纹识别的图书馆借书装置,其包括:声纹采集器1、图书标签扫描器2、触屏显示器3、语音提示器4、自助借书控制台5、互联网接口6、自助借书主机7、透明隔音仓8;

声纹采集器1、图书标签扫描器2、触屏显示器3、语音提示器4、互联网接口6分别与自助借书主机7电连接;可选地,声纹采集器1、语音提示器4和自助借书主机7通过电路进行串行连接,实现反窃听功能。

自助借书主机7设置在自助借书控制台5内;触屏显示器3位于自助借书控制台5上方;声纹采集器1、图书标签扫描器2设置在自助借书控制台5内;所述透明隔音仓8设置在自助借书主机7外。

可选地,声纹采集器1嵌入在自助借书控制台5内部,外部由网状物(附图中未示出)贴合,确保声纹采集器1既可清楚地采集声纹,又能保护声纹采集器1不受外力损伤。

可选地,所述图书标签扫描器2固定在自助借书控制台5内部,与自助借书控制台5外壳留有5cm距离,再由透明材质(附图中未示出)将口封装。

所述声纹采集器1用于用于采集用户声纹,并将其发送到自助借书主机7;

所述图书标签扫描器2用于扫描图书信息,并将其发送到自助借书主机7;

所述触屏显示屏用于获取用户的操作信息,将其发送到自助借书机;

所述语音提示器4用于播放特殊背景噪声,并发送到自助借书主机7;还用于在图书借阅完成后播放提示信息;

所述自助借书主机7用于接收声纹采集器1采集的用户声纹以及语音提示器4播放的特殊背景噪声,并将用户声纹及特殊背景噪声进行处理后通过互联网接口6发送到服务器进行对比,并获取声纹对比结果;用于接收图书标签扫描器2扫描的图书信息,将声纹对比结果与图书信息进行绑定后发送到服务器,并将语音提示器4发送播放提示信息的指令;

所述互联网接口6用于将将经过处理后用户声纹及特殊背景噪声信号发送到服务器;用于接收服务器发送的声纹对比结果;还用于将绑定后的声纹对比结果与图书信息发送到服务器。

在本发明所述的基于声纹识别的图书馆借书装置中,

所述自助借书主机7包括产生控制信号电路、卷积电路、滤波电路以及cpu;所述卷积电路分别与滤波电路、产生控制信号电路、cpu电连接;滤波电路与声纹采集器1电连接;

所述产生控制信号电路用于产生控制信号并发送到卷积电路;卷积电路用于将用户声纹信号和控制信号进行卷积得到特殊背景噪声信号,并发送到滤波电路;滤波电路用于对采集得到的用户声纹及特殊背景噪声信号的混合信号进行过滤,得到用户声纹。将人声与背景噪声卷积成混合信号,传输至主机再解密为人声,而背景噪声信号与时间成非线性关系,混合信号无法被外人分离,从而达到加密功能。

本发明实施例装置能够将声纹信息与学生信息相关联,再与书籍信息绑定,从而构成一个学生所借图书的数据库。

所述声纹识别式图书馆自助借书装置具体实施方案如下:

(1)学生选择所想借的书籍,打开透明隔音仓8,拿着书到自助借书控制台5面前。

(2)学生说出自己的名字,语音提示器4播放特殊背景噪声,声纹采集器1将声音采集,并传送到自助借书主机7。

(3)自助借书主机7将接受的声音数据进行声音加密处理,去掉杂音,提取声纹特征点,再经由互联网接口6将处理后的声纹的特征点数据传输至服务器端。

(4)服务器端的声纹识别程序将接受的声纹的特征点数据与已储存的声纹数据库里的数据进行对比,确认学生身份。

(5)服务器端将识别的身份发送回自助借书主机7,语音提示器4语音提示“欢迎学生,请将所借书籍的标签置于图书标签扫描器2上”

(6)图书标签扫描器2识别书籍信息并传输至自助借书主机7,自助借书主机7将书籍信息与学生信息绑定发送至服务器端。

(7)语音提示器4提示“借书完成,请携带好书籍与您的个人物品”,学生拿着书籍安全通过图书馆门禁。

本发明实施例的基于声纹识别的图书馆借书装置要求周围环境足够安静,学生在隔音仓中可以满足这种声纹识别需求,由于学生声纹数据库大、pc主机运算能力有限,自助借书主机7无法快速进行声纹识别,所以自助借书装置只是将声纹进行采集和预处理,声纹识别则由服务器端上的声纹识别程序处理,这样提高了反应速度,进一步节约主机成本。

一种基于声纹识别的图书馆借书方法,其包括如下步骤:

s1、预先采集用户声纹,作为对比声纹信息存储在服务器的声纹库中;

s2、在用户取得图书后,再次采集用户声纹,并将本次采集的用户声纹发送到服务器;

s3、云端服务器对再次采集的用户声纹与声纹库中对比声纹信息进行对比;在对比成功后跳转到步骤s4;

s4、通过对比声纹信息确定用户身份信息,采集图书信息,将用户身份信息与图书信息进行绑定完成图书借阅。

在本发明所述的基于声纹识别的图书馆借书方法中,

所述步骤s1包括如下步骤:

s11、预先采集用户声纹以及身份信息;

s12、提取采集的用户声纹的特征信息;

s13、将提取的用户声纹的特征信息与身份信息存储在同一链表下,并上传至服务器;在服务器中将所有用户的链表连接在一起获得包含对比声纹信息的声纹库。

在本发明所述的基于声纹识别的图书馆借书方法中,

所述步骤s12中提取采集的用户声纹的特征信息包括:

将采集的用户声纹进行快速傅里叶变换,实现从时域到频域的变换得到频谱图;

对变换后得到的频谱图进行分帧处理;

对分帧处理后每一帧进行二维dct变换;

将进行二维dct变换后的每一帧信号串联;

对串联的信号进行pca降维处理得到语音特征向量形式的用户声纹的特征信息。

在本发明所述的基于声纹识别的图书馆借书方法中,

所述步骤s2还包括:

在用户取得图书后,再次采集用户声纹时,通过预设的播放特殊背景噪声对用户声纹信息进行加密,所述特殊背景噪声通过用户声纹信号与时间噪声信号卷积形成,时间噪声与时间呈非线性关系。

在本发明所述的基于声纹识别的图书馆借书方法中,

所述步骤s3中云端服务器对再次采集的用户声纹与声纹库中对比声纹信息进行对比之前还包括:

利用分频方法将用户声纹信号分离或通过获取预设的特殊背景噪声信号特性将人声信号分离。

其中,声纹匹配的技术分为两步,第一步从语音中提取声纹,第二步将声纹进行匹配操作。本发明提供一种新颖的多分辨率时频特征(frtt)提取方法,通过在时间频谱图矩阵上进行多尺度的二维离散余弦变换,然后选择并结合最终的多尺度变换元素,该方法可以更好地利用多分辨率时频信息。而声纹匹配则是将这些平均值与声纹库里的数据进行对比。

梅尔频率倒谱系数(mfcc)是传统特征提取方法,它通过对语音信号进行预加重、分帧、加窗、fft变换、取绝对值、mel滤波、取对数、dct离散余弦变换等一系列操作提取特征向量,它具有一些缺点,即使在通常情况下,它简单有效。mfcc的主要缺点之一是将增量和加速度特征附加到基本特征,这不是提取帧之间的时间信息的好方法,因为它将相关性引入到特征向量中。这对后端分类是不利的。后来,为了提高mfcc方法的准确度,基于mfcc的时频倒谱(tfc)特征也被提出来,其通过在倒谱矩阵上执行特征向量的去相关的时间离散余弦变换(dct)而获得。为了提高识别的精确性,通常会以不同的尺度挖掘语音频谱图,整合来自多分辨率观察的信息。然而,tfc方法是一种固定的单分辨率分析,并没有在多分辨率分析中有效地使用信息。基于以上考虑,本实施例中提出的多分辨率时频特征(mrtt)提取方法。首先,语音的谱图被不同的尺度划分为多分辨率块。然后是二维dct,我们在每个分辨率下选择主要成分。最后,通过堆叠多分辨率分析的所有选择的成分,并进行pca来获得mrtt特征,以减小尺寸和冗余度。目前,已有提出来的多分辨率特征提取方法,但它们使用多帧长度和帧率来提取特征或在特征提取中使用小波变。mrtt明显不同于这些方法。多分辨率时频(mrtf)特征提取如下:

mftt方法直接在频谱图矩阵中完成操作,类似于图像处理中的压缩任务,其中二维dct用于去相关并降低维数,使用多分辨率时频窗口功能后。

假设i是x

m是上下文宽度,为了简单起见,省略了i的下标。将矩阵分解成不同尺度的多分辨率子矩阵,如a′1,a′2,...,a′r,其中r是刻度数。作为一个例子,通过2*2窗口函数的2*2块操作,b′可以是

tfbw表示频谱图矩阵上的时间频率块窗口功能操作。

通过类似的块操作,我们可以获得不同的缩放多分辨率矩阵。接下来对于每个aj′,做二维dct得到

yj′=zigzag(cjvaj′cjh)(3)

其中cjv和cjk分别是a′j的垂直和水平dct变换矩阵。之后,通过连接每个yj′向量获得一个向量

然后,利用主成分分析(pca)来减小尺寸和尺寸之间的元素的解相关。

具体步骤是:

将语音信号进行快速傅里叶(fft)变换,实现从时域到频域的变换

2.对变换后的频谱图进行分帧处理

3.每一帧进行二维dct变换

其中,f(i,j)为频谱信号,

4.然后将进行二维dct变换后的每一帧信号串联

5.再进行pca降维处理得到语音特征向量

该装置特殊于反窃听功能,声纹采集器1具有人声检测功能,声纹采集器1一旦检测到人的声音,便通过自助借书主机7发送特殊背景噪声信号到语音提示器4,语音提示器4播放特殊背景噪声,而且特殊背景噪声信号是由人声信号与时间噪声信号卷积而成,其中时间噪声与时间成非线性关系。此时,声纹采集器1开始采集声音,由于已知特殊背景噪声的频段和特性,自助借书主机7将采集的声音进行滤波处理,滤掉特殊背景噪声,恢复人的声音信号。而他人的窃听装置收集的声音是包含特殊背景噪声和人声的声音,若他人将此录音在借书装置前播放,由于每次播放的背景噪声不同,声纹采集器1采集到的声音则有上次的背景噪声、这次的背景噪声和人声,经过滤波处理后,声音仍然包含背景噪声和人声,并不能通过声纹识别匹配,以达到反窃听功能。

声音加密(处理声音信号)原理如下:设人声的波形信号为f(t),控制信号的波形信号为h(t),且h(t)的频率略大于f(t),混合信号为y(t),其中控制信号的波形幅值是与时间t成非线性关系。人声的信号与噪声的信号输入到主机,f(t)与h(t)信号经过主机的二维卷积电路,进行卷积处理,得到混合信号y(t):

f(t)*h(t)=y(t)(5)

解密方法:

f(t)、h(t)y(t)与通过拉普拉斯变换

可得:y(s)=f(s)h(s)(7)

即f(s)=y(s)/h(s)(8)

f(s)再通过拉普拉斯反变换,求得

在人说话时,自助借书主机7将信号y(t)放大,通过语音提示器4播放出来,这样外界录得的声音便是人声和背景噪声的混合声音。

要想将人声与背景噪声分离开来有两种方法,第一种是利用分频方法将人声信号分离出来,第二种是获取背景噪声信号特性将人声信号分离出来。

对于第一种方法,人能发出的声音频率大概为85hz-1100hz,由于信号h(t)的频率略大于信号f(t),且两个信号卷积后的频率为两信号中较小频率,所以y(t)在频率上与f(t)交叉,无法使用分频方法将人声信号f(t)分离出来。

对于第二种方法,实时f(t)与h(t)卷积即将f(t)与h(t)频段重叠在一起,无法使用分频方法将两个信号分离,除非已知h(t)和录得的混合声音,才有可能利用公式将f(t)从混合声音的信号y(t)中分离出来。而由于噪声信号h(t)是与时间t呈非线性关系、时间t具有唯一性且一直变化,所以h(t)具有时间唯一性,即y(t)不可能被他人在不同时间利用,去破解声纹识别,从而达到声音加密的功能。

可以理解的是,对于本领域的普通技术人员来说,可以根据本发明的技术构思做出其它各种相应的改变与变形,而所有这些改变与变形都应属于本发明权利要求的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1