乐器;声学设备的制造及制作,分析技术
  • 音频信号的后置滤波方法与流程
    本申请涉及音频信号处理,尤其涉及音频信号的后置滤波方法。、在语音增强,多通道麦克风阵列结合波束形成技术已成为提升语音质量的重要手段。现有技术中,后置滤波作为波束形成后的关键处理环节,广泛应用于语音增强系统中。目前主流的后置滤波方法主要包括zelinski后置滤波和mccowan后置...
  • 利用声学模型补偿的用于音素建模和发音建模的HMM解码的制作方法
    本主题内容涉及语音控制人机接口领域。更具体地,但不限于此,本主题内容公开了用于识别用于触发语音控制的设备的唤醒词或短语(统称为唤醒词或ww)以及由用户说出的用于控制设备的语音命令而不需要特定于目标ww或命令的语音数据进行训练的技术。、诸如智能电话、台式计算机、膝上型计算机、家居辅助设备等的...
  • 一种风电机组声音故障检测方法、系统及存储介质与流程
    本发明涉及风电技术中风电机组的异常检测,具体涉及一种风电机组声音故障检测方法、系统及存储介质。、随着全球能源结构的转型,可再生能源逐渐成为能源供应的重要组成部分。其中,风力发电因其清洁、储量大以及可再生的特点而备受青睐,成为当前最具发展潜力的可再生能源之一。然而,在实际应用中,风电机组面临...
  • 智能音箱的唤醒方法和智能音箱与流程
    本申请涉及智能家居,尤其是涉及一种智能音箱的唤醒方法和智能音箱。、智能音箱作为智能家居的控制中枢,正越来越多地应用于厨房等复杂声学环境中,以实现对家电设备的便捷语音控制。例如,在厨房场景下,当油烟机运行在爆炒档等高功率模式时,会产生巨大的环境噪声。、目前,智能音箱主要依赖用户说出特定的语音...
  • 基于车身控制器的新能源车辆辅助控制方法及系统与流程
    本申请涉及车辆控制,尤其涉及一种基于车身控制器的新能源车辆辅助控制方法及系统。、随着新能源汽车的智能化、网联化程度不断加深,用户对车辆的功能体验与交互场景提出了更高要求。传统的车身控制器虽然能够实现对门锁、车窗、雨刮、车灯及座椅等基础部件的辅助控制,但其功能边界仍局限于相对独立的机械执行与...
  • 一种用于随身AI伴侣的拟人化语音生成方法及系统与流程
    本发明涉及语音生成,尤其涉及一种用于随身ai伴侣的拟人化语音生成方法及系统。、现有技术在外部环境复杂变化条件下通常依赖固定基音或静态规则直接驱动合成过程,实际运作中容易出现待合成帧基准频率数值与环境主导频率重叠的情况,导致同频掩蔽、共振尖峰、瞬时啸叫等问题被放大,表现为人声可懂度下降和听感...
  • 多任务学习框架下的语音降噪与语音识别联合优化方法与流程
    本发明属于人工智能的,涉及了多任务学习框架下的语音降噪与语音识别联合优化方法。、当前,在复杂声学环境下提升自动语音识别的准确率是该领域面临的核心挑战,其关键问题在于如何有效抑制环境噪声的同时最大限度地保留对识别至关重要的语音信息。语音信号中混杂的非平稳、多变的噪声会严重污染关键的声学特征,...
  • 对多通道音频信号和表示多通道音频信号的音频数据信号的生成的制作方法
    本发明涉及对多通道音频信号和/或表示多通道音频信号的音频数据信号的生成,并且具体地但非排他地,涉及对立体声信号的编码和/或解码。、空间音频应用已变得众多且广泛且逐渐形成许多视听体验的至少部分。实际上,不断发展新的和改进的空间体验和应用,这导致对音频处理和渲染的增加的需求。、例如,近年来,虚...
  • 一种基于大模型的语音生成方法、装置、存储介质、电子设备及产品与流程
    本申请涉及语音生成,具体而言,涉及一种基于大模型的语音生成方法、装置、存储介质、电子设备及产品。、随着人工智能和大语言模型的不断发展,不同行业产生了各种类型的语音交互系统。当前主流的语音交互系统(如智能助手、车载语音等)都是基于“语音识别(asr)->大语音模型(llm)->语...
  • 一种基于多维语义映射的音乐驱动流体生成方法及系统
    本发明属于计算机图形学及音频信号处理,具体涉及一种基于多维语义映射的音乐驱动流体生成方法及系统。、现有音乐可视化技术已经能够将频谱、节拍或音量等音频特征映射为简单的几何变化、粒子效果或流动背景,主流播放器中也提供了根据音乐自动生成动态画面的功能。但这些可视化方案大多采用经验式规则,将少量频...
  • 基于云端大模型与声纹识别的跑步机语音控制系统及方法与流程
    本发明涉及语音控制,尤其涉及基于云端大模型与声纹识别的跑步机语音控制系统及方法。、跑步机作为家庭与健身房中最普及的有氧器械,其运行环境具有显著的高噪声特性。当用户以中高速(km/h以上)跑步时,电机运转的高频啸叫声、跑带摩擦声以及用户脚步落地的低频撞击声交织,形成高达-分贝的复合背景噪声。...
  • 语音识别方法、装置、电子设备与存储介质与流程
    本发明涉及语音识别,尤其涉及语音识别方法、装置、电子设备与存储介质。、语音交互技术在智能终端、智能家居等领域的应用日益广泛,在语音交互技术的实际应用场景中,嘈杂环境带来的干扰始终是制约交互成功率的核心瓶颈,给用户体验带来了诸多不便。为改善这一现状,行业内已发展出多种针对性的技术方案以提升噪...
  • 一种基于能量引导流匹配模型的目标音频提取方法
    本发明涉及基于扩散模型的目标音频提取方法领域,聚焦于利用扩散模型独特的概率生成特性来实现从复杂音频环境中精准分离出目标音频。特别涉及一种基于能量引导流匹配网络模型训练方法。能量引导流匹配网络模型是对传统扩散模型的进一步拓展和优化,可广泛应用于安防监控、工业异常检测及智慧城市等复杂声学场景中的智能感...
  • 智能播客生成方法、装置、电子设备及存储介质与流程
    本申请涉及计算机,尤其涉及自然语言处理、语音技术、大模型、智能体等人工智能领域,具体涉及一种智能播客生成方法、装置、电子设备及存储介质。、播客(podcast)是一种基于互联网的数字音频内容分发形式,用户可以通过智能设备按需订阅、下载或在线收听系列化的音频节目。、随着语音合成、自然语言处理...
  • 一种基于知识图谱的数字人语音交互控制方法与流程
    本发明涉及人工智能与人机交互,具体为一种基于知识图谱的数字人语音交互控制方法。、随着人工智能与计算机图形学技术的发展,以三维模型或二维形象呈现的数字人,作为一种新型的人机交互媒介,在客户服务、信息咨询、教育培训及娱乐等领域中得到了日益广泛的应用。如何提升数字人交互的智能化、自然化程度,使其...
  • 一种内容辅助的合成音频检测方法
    本发明涉及音频检测,具体涉及一种内容辅助的合成音频检测方法。、现有合成音频检测方法多基于声学特征(如mfcc、梅尔频谱)与深度模型(如cnn、tdnn等)实现。现有检测模型仅面向单说话人语音设计,并且训练与测试也均假设单一说话人,缺乏对真实场景中普遍存在的多说话人混叠语音的建模与处理机制,...
  • 音频深度伪造检测方法、装置、设备、存储介质及产品与流程
    本发明涉及人工智能,尤其涉及一种音频深度伪造检测方法、装置、设备、存储介质及产品。、现有的语音伪造检测技术主要采用多模态特征提取与深度学习模型实现,即通过提取合成语音的多模态特征,构建深度学习模型对提取的多模态特征进行识别,以识别是否为伪造语音。、但是现有的语音伪造检测技术往往忽视了呼吸音...
  • 基于特征提取与实时反馈的个性化语言学习方法及系统与流程
    本发明涉及基于特征提取与实时反馈的个性化语言学习方法及系统,属于人工智能。、随着跨境交流与文化融合的不断加深,语言学习的需求呈现爆发式增长,用户对学习的个性化、精准化要求日益提升,当前线上语言学习平台虽已实现基础的课程交付,但用户在发音矫正、口语提升等核心环节的痛点仍未得到有效解决,用户在...
  • 一种对话录音的处理方法、装置、设备及介质与流程
    本申请涉及人工智能,应用于金融科技、保险、医疗等线上化处理业务场景,尤其涉及一种对话录音的处理方法、装置、设备及介质。、在金融科技、保险、医疗等监管合规敏感型行业,客户服务中心的对话录音数据是服务质量评估与合规监管的核心载体,不仅需满足“双录”、反误导销售等监管要求,更是防范业务风险的关键...
  • 语音数据标注系统以及语音标注方法与流程
    本发明涉及语音处理,具体地,涉及一种语音数据标注系统以及语音标注方法。、语音标注是为原始的语音数据添加标签或注释的过程,目的是让机器能够“理解”语音中包含的信息。高质量的标注后语音数据可以应用于多类场景。例如当前主流的ai模型(如深度学习)依赖于大量的、高质量的标注后语音数据进行训练。语音...
技术分类