包括低延时声源分离单元的听力装置的制造方法_6

文档序号:9728473阅读:来源:国知局
置实施,例如利用辅 助装置AD (如智能电话)的显示器实施图形界面(如与文本输入选项结合)。
[0189] 在实施例中,双耳听力系统配置成使用户能选择已由声源分离单元确定聚焦的当 前声源(经听力装置或辅助装置的输出单元OU播放给用户)。如图7的辅助装置的示例性 屏幕中所示,"声源的定位和分离"APP活动,由第一和第二听力装置的声源分离和波束形成 单元确定的当前识别的声源S 1, S2, S3通过辅助装置的用户接口 UI显示(当辅助装置拿在 用户U的手中时,其便于观看和经触敏显示器交互)。在图7所示的例子中,3个识别的其 中心在相应的第一和第二听力装置HD 1, HD2之间的声源S i,&和S 3的位置(由所示正交坐 标系统(X,y, Z)中的相应向量山,d2, d3表示)相对于用户U进行显示。
[0190] 当由对应的过程适当代替时,上面描述的、"【具体实施方式】"中详细描述的及权利 要求中限定的装置的结构特征可与本发明方法的步骤结合。
[0191] 除非明确指出,在此所用的单数形式"一"、"该"的含义均包括复数形式(即具有 "至少一"的意思)。应当进一步理解,说明书中使用的术语"具有"、"包括"和/或"包含" 表明存在所述的特征、整数、步骤、操作、元件和/或部件,但不排除存在或增加一个或多个 其他特征、整数、步骤、操作、元件、部件和/或其组合。应当理解,除非明确指出,当元件被 称为"连接"或"耦合"到另一元件时,可以是直接连接或耦合到其他元件,也可以存在中间 插入元件。如在此所用的术语"和/或"包括一个或多个列举的相关项目的任何及所有组 合。除非明确指出,在此公开的任何方法的步骤不必须精确按所公开的顺序执行。
[0192] 应意识到,本说明书中提及"一实施例"或"实施例"或"方面"或者"可"包括的特 征意为结合该实施例描述的特定特征、结构或特性包括在本发明的至少一实施方式中。此 外,特定特征、结构或特性可在本发明的一个或多个实施方式中适当组合。提供前面的描述 是为了使本领域技术人员能够实施在此描述的各个方面。各种修改对本领域技术人员将显 而易见,及在此定义的一般原理可应用于其他方面。
[0193] 权利要求不限于在此所示的各个方面,而是包含与权利要求语言一致的全部范 围,其中除非明确指出,以单数形式提及的元件不意指"一个及只有一个",而是指"一个或 多个"。除非明确指出,术语"一些"指一个或多个。
[0194] 因而,本发明的范围应依据权利要求进行判断。
[0195] 参考文献
[0196] [1]C. Joderj F. ffeninger, F. Eybenj D. Virette and B. Schuller, ^Real-Time Speech Separation by Semi-supervised Nonnegative Matrix Factorization," in Latent Variable Analysis and Signal Separation, Lecture Notes in Computer Science Volume 7191,Springer,2012,pp. 322-329.
[0197] [2] Z. Duanj G. Mysore and P. Smaragdisj ^Online PCLA for Real-Time Semi-supervised Source Separation, ^ in Latent Variable Analysis and Signal Separation,Lecture Notes in Computer Science Volume 7191,Springer,2012, pp. 34-41.
[0198] [3] J. H. Gomez, "Low Latency Audio Source Separation for Speech Enhancement in Cochlear Implants(Master's Thesis),"Universitat Pompeu Fabraj Barcelona, 2012.
[0199] [4] R. Marxer,J. Janer and J. Bonada,Low-Latency Instrument Separation in Polyphonic Music Using Timbre Models, "in Latent Variable Analysis and Signal Separation, Tel Aviv, 2012.
[0200] [5] T. Barker,G. Campos,P. Dias,J. Viera,C. Mendonca and J. Santos,"Real-time Auralisation System for Virtual Microphone Positioning," in Int.Conference on Digital Audio Effects (DAFx-12), York, 2012.
[0201] [6] T. Virtanen,J. F. Gemmeke,and B. Raj,"Active-Set Newton Algorithm for Overcomplete Non-Negative Representations of Audio," IEEE Transactions on Audio,Speech and Language Processing,2013.
[0202] [7] T. Virtanen,B. Raj,J. F. Gemmeke,and H. Van Hamme,"Active-set newton algorithm for non-negative sparse coding of audio," in In Proc. International Conference on Acoustics, Speech, and Signal Processing,2014.
【主权项】
1. 一种听力装置,包括: -输入单元,用于递送表示包括至少两个声源的音频信号的时变电输入信号; -适合保存最后Α个音频样本的长度为Α的循环分析缓冲器单元;及 -适合保存最后L个音频样本的长度为L的循环合成缓冲器单元,其中L小于A,L个 音频样本计划分离在各个声源中; -已保存来自至少两个声源的记录的声音例子的数据库,数据库中的每一记录的声音 例子称为原子,所述原子源自来自大小分别对应于合成和分析缓冲器单元的第一和第二缓 冲器的音频样本,对于每一原子,来自第一缓冲器的音频样本与来自第二缓冲器的音频样 本重叠,及其中源自第一缓冲器的原子构成重构字典,及其中源自第二缓冲器的原子构成 分析字典;所述听力装置还包括: -声源分离单元,用于分离电输入信号以提供表示至少两个声源的至少两个分离信号, 所述声源分离单元配置成,考虑数据库的分析字典中的原子确定最后A个音频样本的最佳 表示(W),及通过使用最佳表示(W)组合数据库的重构字典中的原子而产生L个音频样本的 至少两个分离信号。2. 根据权利要求1所述的听力装置,包括用于按时频表示(k,m)提供分析缓冲器的内 容的时频转换单元,其中所述电输入信号的对应时间段在多个时刻按多个频带提供,k为频 带指数,m为时间指数,其中(k,m)定义包括电输入信号对应于频率指数k和时刻m的复值 或实值形式的信号分量的特定时频窗口或单元。3. 根据权利要求2所述的听力装置,包括用于提供分离声源的时域表示的时频域到时 域转换单元。4. 根据权利要求1所述的听力装置,包括用于提取分析缓冲器和合成缓冲器的内容的 特性特征的特征提取单元。5. 根据权利要求1所述的听力装置,其中所述声源分离单元配置成使声源分离基于非 负矩阵因数分解(NMF)、隐马尔科夫模型(HMM)或深层神经网络(DNN)。6. 根据权利要求1所述的听力装置,其中所述数据库的每一对应的原子对包括其源自 的声源的标识符。7. 根据权利要求6所述的听力装置,其中所述声源分离单元配置成使用声源标识符产 生至少两个声源。8. 根据权利要求1所述的听力装置,包括用于控制以预定更新频率更新分析和合成缓 冲器的控制单元,及配置成在每次更新时将从输入单元接收的最后Η个音频样本保存在分 析和合成缓冲器中并抛弃分析和合成缓冲器中保存的最旧的Η个音频样本。9. 根据权利要求1所述的听力装置,对于至少两个声源中的每一个,其包括分别用于 分析和重构目的的分开的字典。10. 根据权利要求1所述的听力装置,包括助听器、头戴式耳机、耳麦、有源耳朵保护系 统或其组合。11. 一种听力系统,包括根据权利要求1所述的听力装置及包括辅助装置,所述系统适 于使能在其间交换数据。12. 根据权利要求11所述的听力系统,其中所述辅助装置包括根据权利要求1所述的 听力装置。13. 根据权利要求1所述的听力装置的用途。14. 分离多声源环境中的声源的方法,所述方法包括: -提供表示包括至少两个声源的音频信号的时变电输入信号; -提供适合保存最后A个音频样本的长度为A的循环分析缓冲器单元;及 -提供适合保存最后L个音频样本的长度为L的循环合成缓冲器单元,其中L小于A,L个音频样本计划分离在各个声源中; -提供已保存来自至少两个声源的记录的声音例子的数据库,数据库中的每一记录的 声音例子称为原子,所述原子源自来自大小对应于合成和分析缓冲器单元的第一和第二缓 冲器的音频样本,对于每一原子,来自第一缓冲器的音频样本与来自第二缓冲器的音频样 本重叠,及其中源自第一缓冲器的原子构成重构字典,及其中源自第二缓冲器的原子构成 分析字典;及 -分离电输入信号以通过考虑数据库的分析字典中的原子确定最后A个音频样本的最 佳表示(W)提供表示至少两个声源的分离信号及通过使用所述最佳表示(W)组合数据库的 重构字典中的原子产生所述分离信号。
【专利摘要】本发明公开了包括低延时声源分离单元的听力装置,其包括:输入单元;适合保存最后A个音频样本的循环分析缓冲器单元;及适合保存最后L个音频样本的循环合成缓冲器单元;已保存记录的声音例子的数据库,每一记录的声音例子称为原子,对于每一原子,来自第一缓冲器的音频样本与来自第二缓冲器的音频样本重叠,源自第一缓冲器的原子构成重构字典,源自第二缓冲器的原子构成分析字典;声源分离单元,用于分离电输入信号以提供表示至少两个声源的至少两个分离信号,所述声源分离单元配置成,考虑数据库的分析字典中的原子确定最后A个音频样本的最佳表示,及通过使用最佳表示组合数据库的重构字典中的原子而产生L个音频样本的至少两个分离信号。
【IPC分类】G10L21/0272, G10L21/028
【公开号】CN105489227
【申请号】CN201510646998
【发明人】T·巴克尔, T·维塔雷恩, N·H·彭托皮丹
【申请人】奥迪康有限公司
【公开日】2016年4月13日
【申请日】2015年10月8日
【公告号】EP3007467A1, US20160099008
当前第6页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1