包括低延时声源分离单元的听力装置的制造方法_6

文档序号：9728473阅读：来源：国知局

置实施，例如利用辅助装置AD (如智能电话）的显示器实施图形界面（如与文本输入选项结合）。
[0189] 在实施例中，双耳听力系统配置成使用户能选择已由声源分离单元确定聚焦的当前声源（经听力装置或辅助装置的输出单元OU播放给用户）。如图7的辅助装置的示例性屏幕中所示，"声源的定位和分离"APP活动，由第一和第二听力装置的声源分离和波束形成单元确定的当前识别的声源S 1, S2, S3通过辅助装置的用户接口 UI显示（当辅助装置拿在用户U的手中时，其便于观看和经触敏显示器交互）。在图7所示的例子中，3个识别的其中心在相应的第一和第二听力装置HD 1, HD2之间的声源S i，&和S 3的位置（由所示正交坐标系统（X，y, Z)中的相应向量山，d2, d3表示）相对于用户U进行显示。
[0190] 当由对应的过程适当代替时，上面描述的、"【具体实施方式】"中详细描述的及权利要求中限定的装置的结构特征可与本发明方法的步骤结合。
[0191] 除非明确指出，在此所用的单数形式"一"、"该"的含义均包括复数形式（即具有 "至少一"的意思）。应当进一步理解，说明书中使用的术语"具有"、"包括"和/或"包含" 表明存在所述的特征、整数、步骤、操作、元件和/或部件，但不排除存在或增加一个或多个其他特征、整数、步骤、操作、元件、部件和/或其组合。应当理解，除非明确指出，当元件被称为"连接"或"耦合"到另一元件时，可以是直接连接或耦合到其他元件，也可以存在中间插入元件。如在此所用的术语"和/或"包括一个或多个列举的相关项目的任何及所有组合。除非明确指出，在此公开的任何方法的步骤不必须精确按所公开的顺序执行。
[0192] 应意识到，本说明书中提及"一实施例"或"实施例"或"方面"或者"可"包括的特征意为结合该实施例描述的特定特征、结构或特性包括在本发明的至少一实施方式中。此外，特定特征、结构或特性可在本发明的一个或多个实施方式中适当组合。提供前面的描述是为了使本领域技术人员能够实施在此描述的各个方面。各种修改对本领域技术人员将显而易见，及在此定义的一般原理可应用于其他方面。
[0193] 权利要求不限于在此所示的各个方面，而是包含与权利要求语言一致的全部范围，其中除非明确指出，以单数形式提及的元件不意指"一个及只有一个"，而是指"一个或多个"。除非明确指出，术语"一些"指一个或多个。
[0194] 因而，本发明的范围应依据权利要求进行判断。
[0195] 参考文献
[0196] [1]C. Joderj F. ffeninger, F. Eybenj D. Virette and B. Schuller, ^Real-Time Speech Separation by Semi-supervised Nonnegative Matrix Factorization，" in Latent Variable Analysis and Signal Separation, Lecture Notes in Computer Science Volume 7191，Springer，2012,pp. 322-329.
[0197] [2] Z. Duanj G. Mysore and P. Smaragdisj ^Online PCLA for Real-Time Semi-supervised Source Separation, ^ in Latent Variable Analysis and Signal Separation,Lecture Notes in Computer Science Volume 7191，Springer，2012, pp. 34-41.
[0198] [3] J. H. Gomez, "Low Latency Audio Source Separation for Speech Enhancement in Cochlear Implants(Master's Thesis)，"Universitat Pompeu Fabraj Barcelona, 2012.
[0199] [4] R. Marxer，J. Janer and J. Bonada,Low-Latency Instrument Separation in Polyphonic Music Using Timbre Models， "in Latent Variable Analysis and Signal Separation, Tel Aviv, 2012.
[0200] [5] T. Barker，G. Campos，P. Dias，J. Viera，C. Mendonca and J. Santos，"Real-time Auralisation System for Virtual Microphone Positioning，" in Int.Conference on Digital Audio Effects (DAFx-12), York, 2012.
[0201] [6] T. Virtanen，J. F. Gemmeke，and B. Raj，"Active-Set Newton Algorithm for Overcomplete Non-Negative Representations of Audio，" IEEE Transactions on Audio,Speech and Language Processing,2013.
[0202] [7] T. Virtanen，B. Raj，J. F. Gemmeke，and H. Van Hamme，"Active-set newton algorithm for non-negative sparse coding of audio，" in In Proc. International Conference on Acoustics, Speech, and Signal Processing,2014.
【主权项】
1. 一种听力装置，包括： -输入单元，用于递送表示包括至少两个声源的音频信号的时变电输入信号； -适合保存最后Α个音频样本的长度为Α的循环分析缓冲器单元；及 -适合保存最后L个音频样本的长度为L的循环合成缓冲器单元，其中L小于A，L个音频样本计划分离在各个声源中； -已保存来自至少两个声源的记录的声音例子的数据库，数据库中的每一记录的声音例子称为原子，所述原子源自来自大小分别对应于合成和分析缓冲器单元的第一和第二缓冲器的音频样本，对于每一原子，来自第一缓冲器的音频样本与来自第二缓冲器的音频样本重叠，及其中源自第一缓冲器的原子构成重构字典，及其中源自第二缓冲器的原子构成分析字典；所述听力装置还包括： -声源分离单元，用于分离电输入信号以提供表示至少两个声源的至少两个分离信号，所述声源分离单元配置成，考虑数据库的分析字典中的原子确定最后A个音频样本的最佳表示（W)，及通过使用最佳表示（W)组合数据库的重构字典中的原子而产生L个音频样本的至少两个分离信号。2. 根据权利要求1所述的听力装置，包括用于按时频表示（k，m)提供分析缓冲器的内容的时频转换单元，其中所述电输入信号的对应时间段在多个时刻按多个频带提供，k为频带指数，m为时间指数，其中（k，m)定义包括电输入信号对应于频率指数k和时刻m的复值或实值形式的信号分量的特定时频窗口或单元。3. 根据权利要求2所述的听力装置，包括用于提供分离声源的时域表示的时频域到时域转换单元。4. 根据权利要求1所述的听力装置，包括用于提取分析缓冲器和合成缓冲器的内容的特性特征的特征提取单元。5. 根据权利要求1所述的听力装置，其中所述声源分离单元配置成使声源分离基于非负矩阵因数分解（NMF)、隐马尔科夫模型（HMM)或深层神经网络（DNN)。6. 根据权利要求1所述的听力装置，其中所述数据库的每一对应的原子对包括其源自的声源的标识符。7. 根据权利要求6所述的听力装置，其中所述声源分离单元配置成使用声源标识符产生至少两个声源。8. 根据权利要求1所述的听力装置，包括用于控制以预定更新频率更新分析和合成缓冲器的控制单元，及配置成在每次更新时将从输入单元接收的最后Η个音频样本保存在分析和合成缓冲器中并抛弃分析和合成缓冲器中保存的最旧的Η个音频样本。9. 根据权利要求1所述的听力装置，对于至少两个声源中的每一个，其包括分别用于分析和重构目的的分开的字典。10. 根据权利要求1所述的听力装置，包括助听器、头戴式耳机、耳麦、有源耳朵保护系统或其组合。11. 一种听力系统，包括根据权利要求1所述的听力装置及包括辅助装置，所述系统适于使能在其间交换数据。12. 根据权利要求11所述的听力系统，其中所述辅助装置包括根据权利要求1所述的听力装置。13. 根据权利要求1所述的听力装置的用途。14. 分离多声源环境中的声源的方法，所述方法包括： -提供表示包括至少两个声源的音频信号的时变电输入信号； -提供适合保存最后A个音频样本的长度为A的循环分析缓冲器单元；及 -提供适合保存最后L个音频样本的长度为L的循环合成缓冲器单元，其中L小于A，L个音频样本计划分离在各个声源中； -提供已保存来自至少两个声源的记录的声音例子的数据库，数据库中的每一记录的声音例子称为原子，所述原子源自来自大小对应于合成和分析缓冲器单元的第一和第二缓冲器的音频样本，对于每一原子，来自第一缓冲器的音频样本与来自第二缓冲器的音频样本重叠，及其中源自第一缓冲器的原子构成重构字典，及其中源自第二缓冲器的原子构成分析字典；及 -分离电输入信号以通过考虑数据库的分析字典中的原子确定最后A个音频样本的最佳表示（W)提供表示至少两个声源的分离信号及通过使用所述最佳表示（W)组合数据库的重构字典中的原子产生所述分离信号。
【专利摘要】本发明公开了包括低延时声源分离单元的听力装置，其包括：输入单元；适合保存最后A个音频样本的循环分析缓冲器单元；及适合保存最后L个音频样本的循环合成缓冲器单元；已保存记录的声音例子的数据库，每一记录的声音例子称为原子，对于每一原子，来自第一缓冲器的音频样本与来自第二缓冲器的音频样本重叠，源自第一缓冲器的原子构成重构字典，源自第二缓冲器的原子构成分析字典；声源分离单元，用于分离电输入信号以提供表示至少两个声源的至少两个分离信号，所述声源分离单元配置成，考虑数据库的分析字典中的原子确定最后A个音频样本的最佳表示，及通过使用最佳表示组合数据库的重构字典中的原子而产生L个音频样本的至少两个分离信号。
【IPC分类】G10L21/0272, G10L21/028
【公开号】CN105489227
【申请号】CN201510646998
【发明人】T·巴克尔, T·维塔雷恩, N·H·彭托皮丹
【申请人】奥迪康有限公司
【公开日】2016年4月13日
【申请日】2015年10月8日
【公告号】EP3007467A1, US20160099008

完整全部详细技术资料下载

当前第6页1 2 3 4 5 6