降噪装置及方法

文档序号:10698029阅读:535来源:国知局
降噪装置及方法
【专利摘要】本发明公开了一种降噪装置,包括:转换模块,用于对音视频文件进行语音识别,将音视频文件转换成文本文件;计算模块,用于分别计算该文本文件中的相邻两个语句之间的相似度;判断模块,用于根据该相邻两个语句之间的相似度判断该相邻两个语句是否存在噪声语句;确定模块,用于在该相邻两个语句存在噪声语句时,根据预设策略确定该相邻两个语句中的一语句为噪声语句;降噪模块,用于将噪声语句从该音视频文件中滤除。本发明还公开了一种降噪方法。采用本发明,可更加客观的识别出音视频文件中的噪声语句,而不受周围环境的影响,可大大提高去除噪声的准确率。
【专利说明】
降噪装置及方法
技术领域
[0001] 本发明设及音频处理技术领域,尤其设及一种降噪装置及方法。
【背景技术】
[0002] 随着移动通信技术的发展和人们生活水平的不断提高,人们往往需要通过录音装 置在不同的场合进行录音,如在采访场合、开会场合、培训场合等,将现场声音录制下来,生 成音视频文件。但是,由于录音的场景复杂多变,录音的质量和内容由于周围环境的变化而 受影响;比如,在开会期间录音,使用者打开录音装置进行录音,一直到会议结束后停止录 音,但是,运段录音包含了会议休息期间的录音,因此,需要对录音装置录制的音视频文件 进行去噪,W去除掉无关紧要的声音。
[0003] 现有技术中,通常根据录音环境对音视频文件进行去噪,比如会议休息期间,声音 比较噪杂,开会期间,声音比较单纯,但是运种方式具有如下缺陷:由于太过依赖于周围的 环境,导致去噪准确率低,如:即使在开会期间,也会出现很噪杂的声音。

【发明内容】

[0004] 本发明的主要目的在于提出一种降噪装置及方法,旨在解决现有技术中,根据录 音环境对录制的音视频文件进行去噪,去噪准确率低的技术问题。
[0005] 为实现上述目的,本发明提供一种降噪装置,所述降噪装置包括:
[0006] 转换模块,用于对音视频文件进行语音识别,将所述音视频文件转换成文本文件;
[0007] 计算模块,用于分别计算所述文本文件中的相邻两个语句之间的相似度;
[000引判断模块,用于根据所述相邻两个语句之间的相似度判断所述相邻两个语句是否 存在噪声语句;
[0009] 确定模块,用于在所述相邻两个语句存在噪声语句时,根据预设策略确定所述相 邻两个语句中的一语句为噪声语句;
[0010] 降噪模块,用于将噪声语句从所述音视频文件中滤除。
[0011] 可选的,所述降噪装置还包括:分词模块,用于对所述文本文件中的各个语句进行 分词,分别得到各个语句的词语;
[0012] 所述计算模块包括:
[0013] 获取单元,用于根据编号词典分别获取相邻两个语句的词语对应的编号;
[0014] 建立单元,用于根据相邻两个语句的词语对应的编号,分别为相邻两个语句建立 向量模型;
[0015] 第一计算单元,用于根据相邻两个语句的向量模型,计算相邻两个语句之间的欧 几里德距离;
[0016] 第二计算单元,用于根据相邻两个语句之间的欧几里德距离,得到相邻两个语句 之间的相似度。
[0017] 可选的,相邻两个语句之间的相似度通过W下公式计算:
[0018] Sim=l/(1+D),其中,Sim表示相邻两个语句的相似度,D表示相邻两个语句的欧几 里德距离。
[0019] 可选的,判断模块包括:
[0020] 判断单元,用于判断所述相邻两个语句之间的相似度是否小于预设的相似度阔 值;
[0021] 第一确定单元,用于在所述相邻两个语句之间的相似度小于预设的相似度阔值 时,确定所述相邻两个语句存在噪声语句。
[0022] 可选的,所述确定模块包括:
[0023] 第Ξ计算单元,在所述相邻两个语句存在噪声语句时,计算所述相邻两个语句中 的第一语句与所述文本文件中的从第一个语句开始的预设个数的语句的相似度,及计算所 述相邻两个语句中的第二语句与所述文本文件中的从第一个语句开始的预设个数的语句 的相似度;
[0024] 第二确定单元,用于根据所述相邻两个语句中的第一语句与所述文本文件中的从 第一个语句开始的预设个数的语句的相似度及所述相邻两个语句中的第二语句与所述文 本文件中的从第一个语句开始的预设个数的语句的相似度,确定所述相邻两个语句中的第 一语句或第二语句为噪声语句。
[0025] 此外,为实现上述目的,本发明还提出一种降噪方法,所述降噪方法包括:
[0026] 对音视频文件进行语音识别,将音视频文件转换成文本文件;
[0027] 分别计算所述文本文件中的相邻两个语句之间的相似度,并根据所述相邻两个语 句之间的相似度判断所述相邻两个语句是否存在噪声语句;
[0028] 在所述相邻两个语句存在噪声语句时,根据预设策略确定所述相邻两个语句中的 一语句为噪声语句,并将所述噪声语句从所述音视频文件中滤除。
[0029] 可选的,分别计算所述文本文件中的相邻两个语句之间的相似度,并根据所述相 邻两个语句之间的相似度判断所述相邻两个语句是否存在噪声语句的步骤之前,所述降噪 方法包括:对所述文本文件中的各个语句进行分词,分别得到各个语句的词语;
[0030] 所述分别计算所述文本文件中的相邻两个语句之间的相似度的步骤包括:
[0031] 根据编号词典分别获取相邻两个语句的词语对应的编号;
[0032] 根据相邻两个语句的词语对应的编号,分别为相邻两个语句建立向量模型;
[0033] 根据相邻两个语句的向量模型,计算相邻两个语句之间的欧几里德距离;
[0034] 根据相邻两个语句之间的欧几里德距离,得到相邻两个语句之间的相似度。
[0035] 可选的,相邻两个语句之间的相似度通过W下公式计算:
[0036] Sim=l/(1+D),其中,Sim表示相邻两个语句的相似度,D表示相邻两个语句的欧几 里德距离。
[0037] 可选的,根据所述相邻两个语句之间的相似度判断所述相邻两个语句是否存在噪 声语句的步骤包括:
[0038] 判断所述相邻两个语句之间的相似度是否小于预设的相似度阔值;
[0039] 在所述相邻两个语句之间的相似度小于预设的相似度阔值时,确定所述相邻两个 语句存在噪声语句。
[0040] 可选的,在所述相邻两个语句存在噪声语句时,根据预设策略确定所述相邻两个 语句中的一语句为噪声语句的步骤包括:
[0041] 在所述相邻两个语句存在噪声语句时,计算所述相邻两个语句中的第一语句与所 述文本文件中的从第一个语句开始的预设个数的语句的相似度,及计算所述相邻两个语句 中的第二语句与所述文本文件中的从第一个语句开始的预设个数的语句的相似度;
[0042] 根据所述相邻两个语句中的第一语句与所述文本文件中的从第一个语句开始的 预设个数的语句的相似度及所述相邻两个语句中的第二语句与所述文本文件中的从第一 个语句开始的预设个数的语句的相似度,确定所述相邻两个语句中的第一语句或第二语句 为噪声语句。
[0043] 本发明的降噪装置及方法,对音视频文件进行语音识别,将音视频文件转换成文 本文件;分别计算所述文本文件中的相邻两个语句之间的相似度,并根据所述相邻两个语 句之间的相似度确定所述相邻两个语句是否存在噪声语句;在所述相邻两个语句存在噪声 语句时,根据预设策略确定所述相邻两个语句中的一语句为噪声语句,并将噪声语句从所 述音视频文件中滤除;即先将该音视频文件转换成文本文件,根据该文本文件中各语句的 相似度确定噪声语句,再将噪声语句从音视频文件中滤除,可更加客观的识别出音视频文 件中的噪声语句,而不受周围环境的影响,可大大提高去除噪声的准确率。
【附图说明】
[0044] 图1为实现本发明各个实施例一个可选的移动终端的硬件结构示意图;
[0045] 图2为本发明降噪装置的第一实施例的模块示意图;
[0046] 图3为本发明降噪装置的第二实施例的模块示意图;
[0047] 图4为本发明降噪装置的第Ξ实施例的模块示意图;
[0048] 图5为本发明降噪装置的第四实施例的模块示意图;
[0049] 图6为本发明降噪装置的第五实施例的模块示意图;
[0050] 图7为本发明降噪装置中的提示信息的示意图;
[0051 ]图8为本发明降噪方法的第一实施例的流程示意图;
[0052] 图9为本发明降噪方法的第二实施例的流程示意图;
[0053] 图10为本发明降噪方法的第Ξ实施例的流程示意图;
[0054] 图11为本发明降噪方法的第四实施例的流程示意图;
[0055] 图12为本发明降噪方法的第五实施例的流程示意图。
[0056] 本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
【具体实施方式】
[0057] 应当理解,此处所描述的具体实施例仅仅用W解释本发明,并不用于限定本发明。
[0058] 现在将参考附图描述实现本发明各个实施例的移动终端。在后续的描述中,使用 用于表示元件的诸如"模块"、"部件"或"单元"的后缀仅为了有利于本发明的说明,其本身 并没有特定的意义。因此,"模块"与"部件"可W混合地使用。
[0059] 移动终端可各种形式来实施。例如,本发明中描述的终端可W包括诸如移动 电话、智能电话、笔记本电脑、数字广播接收器、PM(个人数字助理)、PAD(平板电脑)、PMP (便携式多媒体播放器)、导航装置等等的移动终端W及诸如数字TV、台式计算机等等的固 定终端。下面,假设终端是移动终端。然而,本领域技术人员将理解的是,除了特别用于移动 目的的元件之外,根据本发明的实施方式的构造也能够应用于固定类型的终端。
[0060] 图1为实现本发明各个实施例一个可选的移动终端的硬件结构示意。
[0061] 移动终端100可W包括无线通信单元110、A/V(音频/视频)输入单元120、用户输入 单元130、感测单元140、输出单元150、存储器160、接口单元170、控制器180和电源单元190 等等。图1示出了具有各种组件的移动终端,但是应理解的是,并不要求实施所有示出的组 件。可W替代地实施更多或更少的组件。将在下面详细描述移动终端的元件。该控制器180 可控制该A/V(音频/视频)输入单元120进行录音,生成音视频文件,并将音视频文件保存在 存储器160中。该控制器180对音视频文件进行语音识别,将音视频文件转换成文本文件,并 将文本文件保存在存储器160中;该控制器180计算文本文件中的相邻两个语句之间的相似 度,并根据该相邻两个语句之间的相似度判断该相邻两个语句是否存在噪声语句,在该相 邻两个语句存在噪声语句时,根据预设策略确定该相邻两个语句中的一语句为噪声语句, 然后将噪声语句从该音视频文件中滤除。
[0062] 无线通信单元110通常包括一个或多个组件,其允许移动终端100与无线通信装置 或网络之间的无线电通信。
[0063] A/V输入单元120用于接收音频或视频信号。用户输入单元130可W根据用户输入 的命令生成键输入数据W控制移动终端的各种操作。用户输入单元130允许用户输入各种 类型的信息,并且可W包括键盘、锅仔片、触摸板(例如,检测由于被接触而导致的电阻、压 力、电容等等的变化的触敏组件)、滚轮、摇杆等等。特别地,当触摸板W层的形式叠加在显 示单元151上时,可W形成触摸屏。
[0064] 感测单元140检测移动终端100的当前状态,(例如,移动终端100的打开或关闭状 态)、移动终端100的位置、用户对于移动终端100的接触(即,触摸输入)的有无、移动终端 100的取向、移动终端100的加速或将速移动和方向等等,并且生成用于控制移动终端100的 操作的命令或信号。例如,当移动终端100实施为滑动型移动电话时,感测单元140可W感测 该滑动型电话是打开还是关闭。另外,感测单元140能够检测电源单元190是否提供电力或 者接口单元170是否与外部装置禪接。
[0065] 接口单元170用作至少一个外部装置与移动终端100连接可W通过的接口。例如, 外部装置可W包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无 线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端 口、视频I/O端口、耳机端口等等。识别模块可W是存储用于验证用户使用移动终端100的各 种信息并且可W包括用户识别模块(UIM)、客户识别模块(SIM)、通用客户识别模块(USIM) 等等。另外,具有识别模块的装置(下面称为"识别装置")可W采取智能卡的形式,因此,识 别装置可W经由端口或其它连接装置与移动终端100连接。接口单元170可W用于接收来自 外部装置的输入(例如,数据信息、电力等等)并且将接收到的输入传输到移动终端100内的 一个或多个元件或者可W用于在移动终端和外部装置之间传输数据。
[0066] 另外,当移动终端100与外部底座连接时,接口单元170可W用作允许通过其将电 力从底座提供到移动终端100的路径或者可W用作允许从底座输入的各种命令信号通过其 传输到移动终端的路径。从底座输入的各种命令信号或电力可W用作用于识别移动终端是 否准确地安装在底座上的信号。输出单元150被构造为W视觉、音频和/或触觉方式提供输 出信号(例如,音频信号、视频信号、警报信号、振动信号等等)。
[0067] 输出单元150可W包括显示单元151等等。
[0068] 显示单元151可W显示在移动终端100中处理的信息。例如,当移动终端100处于电 话通话模式时,显示单元151可W显示与通话或其它通信(例如,文本消息收发、多媒体文件 下载等等)相关的用户界面(UI)或图形用户界面(GUI)。当移动终端100处于视频通话模式 或者图像捕获模式时,显示单元151可W显示捕获的图像和/或接收的图像、示出视频或图 像W及相关功能的UI或GUI等等。
[0069] 同时,当显示单元151和触摸板W层的形式彼此叠加 W形成触摸屏时,显示单元 151可W用作输入装置和输出装置。显示单元151可W包括液晶显示器化CD)、薄膜晶体管 LCD(TFT-LCD)、有机发光二极管(0LED)显示器、柔性显示器、Ξ维(3D)显示器等等中的至少 一种。运些显示器中的一些可W被构造为透明状W允许用户从外部观看,运可W称为透明 显示器,典型的透明显示器可W例如为T0LED(透明有机发光二极管)显示器等等。根据特定 想要的实施方式,移动终端100可W包括两个或更多显示单元(或其它显示装置),例如,移 动终端可W包括外部显示单元(未示出)和内部显示单元(未示出)。触摸屏可用于检测触摸 输入压力W及触摸输入位置和触摸输入面积。
[0070] 存储器160可W存储由控制器180执行的处理和控制操作的软件程序等等,或者可 W暂时地存储己经输出或将要输出的数据(例如,电话簿、消息、静态图像、视频等等)。而 且,存储器160可W存储关于当触摸施加到触摸屏时输出的各种方式的振动和音频信号的 数据。
[0071] 存储器160可W包括至少一种类型的存储介质,所述存储介质包括闪存、硬盘、多 媒体卡、卡型存储器(例如,SD或DX存储器等等)、随机访问存储器(RAM)、静态随机访问存储 器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器化EPROM)、可编程只读存储器 (PROM)、磁性存储器、磁盘、光盘等等。而且,移动终端100可W与通过网络连接执行存储器 160的存储功能的网络存储装置协作。
[0072] 控制器180通常控制移动终端的总体操作。例如,控制器180执行与语音通话、数据 通信、视频通话等等相关的控制和处理。另外,控制器180可W包括用于再现(或回放)多媒 体数据的多媒体模块181,多媒体模块181可W构造在控制器180内,或者可W构造为与控制 器180分离。控制器180可W执行模式识别处理,W将在触摸屏上执行的手写输入或者图片 绘制输入识别为字符或图像。
[0073] 电源单元190在控制器180的控制下接收外部电力或内部电力并且提供操作各元 件和组件所需的适当的电力。
[0074] 运里描述的各种实施方式可使用例如计算机软件、硬件或其任何组合的计算 机可读介质来实施。对于硬件实施,运里描述的实施方式可W通过使用特定用途集成电路 (ASIC)、数字信号处理器(DSP)、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可 编程口阵列(FPGA)、处理器、控制器、微控制器、微处理器、被设计为执行运里描述的功能的 电子单元中的至少一种来实施,在一些情况下,运样的实施方式可W在控制器180中实施。 对于软件实施,诸如过程或功能的实施方式可W与允许执行至少一种功能或操作的单独的 软件模块来实施。软件代码可W由W任何适当的编程语言编写的软件应用程序(或程序)来 实施,软件代码可W存储在存储器160中并且由控制器180执行。
[0075] 至此,己经按照其功能描述了移动终端。下面,为了简要起见,将描述诸如折叠型、 直板型、摆动型、滑动型移动终端等等的各种类型的移动终端中的滑动型移动终端作为示 例。因此,本发明能够应用于任何类型的移动终端,并且不限于滑动型移动终端。
[0076] 如图1中所示的移动终端100可W被构造为利用经由帖或分组发送数据的诸如有 线和无线通信装置W及基于卫星的通信装置来操作。
[0077] 基于上述移动终端硬件结构,提出本发明降噪装置各个实施例。
[0078] 参照图2,图2为本发明降噪装置的第一实施例的模块示意图,该降噪装置包括:
[0079] 转换模块10,用于对音视频文件进行语音识别,将音视频文件转换成文本文件;
[0080] 计算模块20,用于分别计算该文本文件中的相邻两个语句之间的相似度;
[0081] 判断模块30,用于根据该相邻两个语句之间的相似度判断该相邻两个语句是否存 在噪声语句;
[0082] 确定模块40,用于在该相邻两个语句存在噪声语句时,根据预设策略确定该相邻 两个语句中的一语句为噪声语句;
[0083] 降噪模块50,用于将噪声语句从该音视频文件中滤除。
[0084] 所述音视频文件可W是录音装置录制得到的音频文件,该录音装置可W为录音 笔,或具有录音功能的移动终端,如智能手机、平板电脑等。
[0085] 在开会期间、培训期间或其他需要录音的场合,启动该录音装置进行录制,在录制 完成后,生成音视频文件。
[0086] 该转换模块10可通过有线或无线方式获取该录音装置录制的音视频文件,如在一 实施例中,通过WiFi方式获取该录音装置录制的音视频文件。可选的,该转换模块10可在录 音装置的录制过程中,对该录音装置录制的音视频文件进行语音识别;该转换模块10也可 在录音装置录制完成后,对该录音装置录制的音视频文件进行语音识别。
[0087] 该转换模块10对该音视频文件进行语音识别,得到文本文件;该文本文件包括多 个语句及各个语句在音视频文件中的位置。具体的,该转换模块10采用语音识别技术对该 音视频文件进行语音识别,如:将该音视频文件根据预定的帖间隔时间划分多帖,调用语音 识别技术将分帖处理后的音视频文件一帖一帖的转化为文字,得到语句,再将每一语句在 音视频文件中的位置及对应的文字保存为文本文件中的一段,该文本文件包括该音视频文 件中的所有语句及各个语句在音视频文件中的位置。如在一实施例中,对该音视频文件进 行语音识别后,得到1000个语句,则在该文本文件中有1000段,按照识别顺序,每段对应一 个识别出的语句;在该文本文件中,各个语句在音视频文件中的位置可记录在该语句的最 前面或最后面,如在一实施例中,将各个语句在音视频文件中的位置记录在该语句的最前 面,即在该文本文件的任一段里,最开始写的是该段语句在音视频文件中的位置,接着写的 是该段对应的语句。
[0088] 各个语句在音视频文件中的位置即为各个语句在音视频文件中的时间轴位置,如 一个语句在音视频文件中的位置为:第5秒至第8秒。
[0089] 该转换模块10将该音视频文件转换成文本文件,可选的,该文本文件的文件名与 该音视频文件的文件名相同,可方便用户了解该文本文件对应哪个音视频文件。
[0090] 该计算模块20计算该文本文件中的相邻两个语句之间的相似度,具体的,将文本 文件中的每个语句转化成向量模型,根据相邻两个语句的向量模型计算运两个语句的相似 度。相邻两个语句的向量模型具有相同的维度,如其中一个语句的向量模型表示为:a = (X11,X21,X31,......,:Xnl),另一个语句的向量模型表示为:b = (X12,X22,X32,......,:Xn2 ),其中, Xni表示向量a的第η个分量,Xn2表示向量b的第η个分量,该向量a和向量b的维度数量都为η。 当该相邻两个语句的向量模型的维度不同时,则对维度较少的语句的向量模型进行维度补 充,W使得相邻两个语句的向量模型的维度相同;具体的,在对该维度较少的语句的向量模 型进行维度补充时,在该维度较少的语句的向量模型中补充的维度对应的值用0表示,如在 一实施例中,其中一个语句的向量模型表示为:曰二(XII、Χ21、Χ31、 ,Xnl ),另一个语句的向 量模型表示为:b = (xl2、x22、X32、......,),其中,j<n,则对该向量模型b进行修正,修改后 的向量模型为:b' = (X12、X22、X32、......,Xj2,0,0,......,〇),修改后的向量模型b '与向量模型a 具有相同数量的维度。
[0091] 判断模块30,用于根据该相邻两个语句之间的相似度判断该相邻两个语句是否存 在噪声语句。相邻两个语句之间的相似度越大,该相邻两个语句就越可能是非噪声语句,即 相邻两个语句不存在噪声语句,反之,相邻两个语句之间的相似度越低,运相邻两个语句就 越可能存在噪声语句。通常的,在一个开会场景中,在开会期间,各个语句之间的相似度较 高,在中场休息时间,人们闲聊各种事情,各个语句之间的相似度较低。
[0092] 相邻两个语句可W分别定义为第一语句和第二语句,其中第一语句为在前的语 句。
[0093] 该确定模块40在相邻两个语句存在噪声语句时,根据预设策略确定该相邻两个语 句中的一语句为噪声语句。
[0094] 可选的,该预设策略为:确定该相邻两个语句中的第一个语句为噪声语句。
[0095] 可选的,该预设策略为:确定该相邻两个语句中的第二个语句为噪声语句。
[0096] 可选的,该预存策略为:计算该相邻两个语句中的第一语句与该第一语句的前一 语句的相似度,及计算该相邻两个语句中的第二语句与该第二语句的后一语句的相似度, 根据第一语句与该第一语句的前一语句的相似度及第二语句与该第二语句的后一语句的 相似度确定相邻两个语句中的一语句为噪声语句;具体的,在该第一语句与该第一语句的 前一语句的相似度大于第二语句与该第二语句的后一语句的相似度时,确定该相邻两个语 句中的第二语句为噪声语句,反之,在该第一语句与该第一语句的前一语句的相似度小于 或等于第二语句与该第二语句的后一语句的相似度时,确定该相邻两个语句中的第一语句 为噪声语句。在计算该第一语句与该第一语句的前一语句的相似度,及计算该第二语句与 该第二语句的后一语句的相似度时,计算方式与计算模块20计算相邻两个语句的相似度的 计算方式相同,在此不寶述。
[0097] 该降噪模块50将噪声语句从音视频文件中滤除,W降低音视频文件中的噪声,可 选的,该降噪模块50从文本文件中查找到该噪声语句在音视频文件中的位置,根据该噪声 语句在音视频文件中的位置,将噪声语句从音视频文件中滤除,对该音视频文件进行降噪。 可选的,该降噪模块50在将噪声语句从音视频文件中滤除时,还可W对该噪声语句在音视 频文件中的对应位置填充预设的音乐,如,该预设的音乐可W为轻音乐。
[0098] 可选的,该降噪模块50可在录音装置的录制过程中,将噪声语句从该音视频文件 中滤除;该降噪模块50也可在录音装置录制完成后,将噪声语句从该音视频文件中滤除。
[0099] 采用上述实施例,通过对音视频文件进行语音识别,将音视频文件转换成文本文 件;分别计算该文本文件中的相邻两个语句之间的相似度,并根据该相邻两个语句之间的 相似度判断该相邻两个语句是否存在噪声语句;在该相邻两个语句存在噪声语句时,根据 预设策略确定该相邻两个语句中的一语句为噪声语句,并将噪声语句从该音视频文件中滤 除;即先将该音视频文件转换成文本文件,根据该文本文件中各语句的相似度确定噪声语 句,再将噪声语句从音视频文件中滤除,W降低音视频文件中的噪声,可更加客观的识别出 音视频文件中的噪声语句,而不受周围环境的影响,可大大提高去除噪声的准确率。
[0100] 参照图3,图3为本发明降噪装置的第二实施例的模块示意图。
[0101] 基于上述降噪装置的第一实施例,该第二实施例与第一实施例的区别在于,该降 噪装置还包括:分词模块60,用于对该文本文件中的各个语句进行分词,分别得到各个语句 的词语;该计算模块20包括:
[0102] 获取单元21,用于根据编号词典分别获取相邻两个语句的词语对应的编号;
[0103] 建立单元22,用于根据相邻两个语句的词语对应的编号,分别为相邻两个语句建 立向量模型;
[0104] 第一计算单元23,用于根据相邻两个语句的向量模型,计算相邻两个语句之间的 欧几里德距离;
[0105] 第二计算单元24,用于根据相邻两个语句之间的欧几里德距离,得到相邻两个语 句之间的相似度。
[0106] 该分词模块60可根据预设的分词词典对该文本文件中的各个语句进行分词,得到 各个语句的词语,如对语句"今天讨论的主题是关于项目进度的问题",进行分词后,得到的 词语依次为:今天、讨论、的、主题、是、关于、项目、进度、的、问题,共10个词语;对一语句分 词得到的词语可W相同,如在上述语句的分词结果中出现两次"的"。
[0107] 可选的,该分词模块60切分该文本文件中的各个语句并获得各个语句的所有分词 方式(如一语句有巧巾分词方式,另一语句有5种分词方式),计算每一个语句的所有分词方 式的语句权值,比较每种分词方式的语句权值,根据预设的选择策略从每一个语句的所有 分词方式中选择一种分词方式,并根据选择的分词方式对对应的语句进行分词,得到分词 结果。如在一实施例中,一语句有5中分词方式,则分别计算采用运5中分词方式对该语句进 行分词时的语句权值,选择语句权值最大时对应的分词方式,再根据该选择的分词方式对 该语句进行分词。各个语句的分词方式可不同。
[0108] 在编号词典中记录词语与编号的对应关系,每个词语对应一个编号,同一编号只 能对应一个词语,即同一个编号表示一个词语。
[0109] 该获取单元21根据编号词典,获取相邻两个语句的词语对应的编号;该建立单元 22根据该相邻两个语句的词语对应的编号,分别为相邻两个语句建立向量模型。通常的,一 语句分词后包括N个词语,则该语句对应的向量模型就为N维,如一语句包括5个词语(该5个 词语中可有部分词语相同),则该语句对应的向量模型就为五维。如一语句为"你吃饭了 吗",该语句对应的词语为"你、吃饭、了、吗",则该语句对应的向量模型为四维,其中,根据 编号词典,查找到词语"你 "对应的编号为110、词语"吃饭"对应的编号为98、词语"了'对应 的编号为150、编号"吗"对应的编号为90,则该语句的向量模型为:c = (110,98,150,90)。
[0110] 可选的,该编号词典可预先设置,所有音视频文件都共用该编号词典,在该编号词 典中,记录了各个词语对应的编号。
[0111] 可选的,该编号词典根据该音视频文件生成,具体的,对该音视频文件中的所有语 句的词语进行汇总,然后根据用户输入的编号对各个词语进行编号,生成编号词典。如在一 实施例中,该音视频文件中的所有语句的词语有1万个,运1万个词语不重复,用户按照需要 对运1万个词语进行编号,每个词语的编号不一样。
[0112] 语句的向量模型中的各个分量的值对应该分量的词语的编号。如一语句的向量模 型为:C = ( 110,98,150,90 ),即语句的第一个分量值为110,该第一分量的词语为"你"。
[0113] 该第一计算单元23计算相邻两个语句之间的欧几里德距离,具体的,通过W下公 式计算:
[0114]
其中η为两个语句的维度,xii表示相邻两个语句中的其 中一个语句的向量模型的第i个分量,表示相邻两个语句中的另一个语句的向量模型的 第i个分量。
[0115] 该第二计算单元24计算相邻两个语句之间的相似度,具体的,相邻两个语句之间 的相似度通过W下公式计算:
[0116] Sim=l/(1+D),其中,Sim表示相邻两个语句的相似度,D表示相邻两个语句的欧几 里德距离。
[0117] 从上述相似度计算公式可W看出,当相邻两个语句之间的欧几里德距离越小,相 邻两个语句之间的相似度就越大;反之,当相邻两个语句之间的欧几里德距离越大,相邻两 个语句之间的相似度就越小。
[0118] 通过分词模块60对文本文件中的各个语句进行分词,并通过获取单元21根据编号 词典分别获取相邻两个语句的词语对应的编号,建立单元22为相邻两个语句建立向量模 型,再通过第一计算单元根据相邻两个语句的向量模型,计算相邻两个语句之间的欧几里 德距离;然后通过第二计算单元根据相邻两个语句之间的欧几里德距离,得到相邻两个语 句之间的相似度;可更加准确的计算出文本文件中相邻两个语句之间的相似度,进而准确 的确定相邻两个语句是否存在噪声语句,W提高去除噪声的准确率。
[0119] 参照图4,图4为本发明降噪装置的第Ξ实施例的模块示意图。
[0120] 基于上述降噪装置的第一实施例,该第Ξ实施例与第一实施例的区别在于,该判 断模块30包括:
[0121] 判断单元31,用于判断该相邻两个语句之间的相似度是否小于预设的相似度阔 值;
[0122] 第一确定单元32,用于在该相邻两个语句之间的相似度小于预设的相似度阔值 时,确定该相邻两个语句存在噪声语句。
[0123] 该相似度阔值可根据需要预先设置,该判断单元31判断相邻两个语句之间的相似 度是否小于预设的相似度阔值,W确定该相邻两个语句是否存在噪声语句。
[0124] 在本实施例中该判断模块30在根据该相邻两个语句之间的相似度判断该相邻两 个语句是否存在噪声语句时,该判断模块30中的判断单元31将该相邻两个语句之间的相似 度与预设的相似度阔值进行比较,该第一确定单元32根据判断单元31的判断结果确定相邻 两个语句是否存在噪声语句,可更加客观的识别出音视频文件中的是否存在噪声语句,W 提局去除噪声的准确率。
[0125] 参照图5,图5为本发明降噪装置的第四实施例的模块示意图。
[0126] 基于上述降噪装置的第一实施例,该第四实施例与第一实施例的区别在于,该确 定模块40包括:
[0127] 第Ξ计算单元41,在该相邻两个语句存在噪声语句时,计算该相邻两个语句中的 第一语句与该文本文件中的从第一个语句开始的预设个数的语句的相似度,及计算该相邻 两个语句中的第二语句与该文本文件中的从第一个语句开始的预设个数的语句的相似度;
[0128] 第二确定单元42,用于根据该相邻两个语句中的第一语句与该文本文件中的从第 一个语句开始的预设个数的语句的相似度及该相邻两个语句中的第二语句与该文本文件 中的从第一个语句开始的预设个数的语句的相似度,确定该相邻两个语句中的第一语句或 第二语句为噪声语句。
[0129] 该预设个数可根据需要设置,通常的,该预设个数为20。
[0130] 该第Ξ计算单元41计算该相邻两个语句中的第一语句与该文本文件中的从第一 个语句开始的预设个数的语句的相似度,得到多个相似度,如,当预设个数为20时,则依次 计算该相邻两个语句中的第一语句与文本文件中的从第一个语句开始的20个语句的相似 度,得到20个相似度。
[0131] 该第Ξ计算单元41计算该相邻两个语句中的第二语句与该文本文件中的从第一 个语句开始的预设个数的语句的相似度,得到多个相似度,如,当预设个数为20时,则依次 计算该相邻两个语句中的第二语句与文本文件中的从第一个语句开始的20个语句的相似 度,得到20个相似度。
[0132] 在计算该相邻两个语句中的第一语句与该文本文件中的从第一个语句开始的预 设个数的语句的相似度,及计算该相邻两个语句中的第二语句与该文本文件中的从第一个 语句开始的预设个数的语句的相似度时,计算方式与计算模块20计算相邻两个语句的相似 度的计算方式相同,在此不寶述。
[0133] 该第二确定单元将该相邻两个语句中的第一语句与该文本文件中的从第一个语 句开始的预设个数的语句的相似度求和,得到第一相似度总值;及将该相邻两个语句中的 第二语句与该文本文件中的从第一个语句开始的预设个数的语句的相似度求和,得到第二 相似度总值;根据该第一相似度总值及第二相似度总值确定该相邻两个语句中的第一语句 或第二语句为噪声语句,具体的,当该第一相似度总值大于第二相似度总值时,则确定该相 邻两个语句中的第二语句为噪声语句,当该第一相似度总值小于或等于第二相似度总值 时,则确定该相邻两个语句中的第一语句为噪声语句。
[0134] 在本实施例中该确定模块在相邻两个语句存在噪声语句时,根据该相邻两个语句 中的第一语句与该文本文件中的从第一个语句开始的预设个数的语句的相似度及该相邻 两个语句中的第二语句与该文本文件中的从第一个语句开始的预设个数的语句的相似度, 确定该相邻两个语句中的第一语句或第二语句为噪声语句;可更加客观的识别出相邻两个 语句中的噪声语句,W提高去除噪声的准确率。
[0135] 参照图6,图6为本发明降噪装置的第五实施例的模块示意图。
[0136] 基于上述降噪装置的第一实施例,该第五实施例与第一实施例的区别在于,该确 定模块40包括:
[0137] 提示单元43,用于在该相邻两个语句存在噪声语句时,向用户发出提示信息,供用 户根据该提示信息选择该相邻两个语句中的一个语句为噪声语句;
[0138] 第Ξ确定单元44,用于接收用户根据该提示信息输入的选择指令,并根据该选择 指令确定该相邻两个语句中的一语句为噪声语句。
[0139] 该提示单元43向用户发出提示信息,在该提示信息中包括两个选项,一个选项为 选择该相邻两个语句中的第一语句,另一个选项为选择该相邻两个语句中的第二语句,在 该提示信息中显示该相邻两个语句的具体内容,如图7所示,如第一语句为"你吃饭了吗", 第二语句为"今天讨论的主题是关于项目进度的问题"。
[0140] 用户根据该提示信息选择该相邻两个语句中的一个语句为噪声语句,如用户觉得 该相邻两个语句中的第一语句可能是噪声语句,则选择该第一语句。
[0141] 该第Ξ确定单元44接收用户根据该提示信息输入的选择指令,如选择指令为选择 相邻两个语句中的第一语句,则将该相邻两个语句中的第一语句确定为噪声语句;如选择 指令为选择相邻两个语句中的第二语句,则将该相邻两个语句中的第二语句确定为噪声语 句。
[0142] 在本实施例中,该提示单元43在相邻两个语句存在噪声语句时,向用户发出提示 信息,该第Ξ确定单元44根据用户基于该提示信息输入的选择指令确定相邻两个语句中的 一语句为噪声语句,更加灵活的确定出相邻两个语句中的噪声语句,W提高去除噪声的准 确率,用户体验较好。
[0143] 本发明进一步提供一种降噪方法。
[0144] 参照图8,图8为本发明降噪方法的第一实施例的流程示意图,该降噪方法包括:
[0145] S10、对音视频文件进行语音识别,将音视频文件转换成文本文件。
[0146] 所述音视频文件可W是录音装置录制得到的音频文件,该录音装置可W为录音 笔,或具有录音功能的移动终端,如智能手机、平板电脑等。
[0147] 在开会期间、培训期间或其他需要录音的场合,启动该录音装置进行录制,在录制 完成后,生成音视频文件。
[0148] 可通过有线或无线方式获取该录音装置录制的音视频文件,如在一实施例中,通 过WiFi方式获取该录音装置录制的音视频文件。可选的,可在录音装置的录制过程中,对该 录音装置录制的音视频文件进行语音识别;也可在录音装置录制完成后,对该录音装置录 制的音视频文件进行语音识别。
[0149] 在该步骤中,对该音视频文件进行语音识别,得到文本文件;该文本文件包括多个 语句及各个语句在音视频文件中的位置。具体的,采用语音识别技术对该音视频文件进行 语音识别,如:将该音视频文件根据预定的帖间隔时间划分多帖,调用语音识别技术将分帖 处理后的音视频文件一帖一帖的转化为文字,得到语句,再将每一语句在音视频文件中的 位置及对应的文字保存为文本文件中的一段,该文本文件包括该音视频文件中的所有语句 及各个语句在音视频文件中的位置。如在一实施例中,对该音视频文件进行语音识别后,得 到1000个语句,则在该文本文件中有1000段,按照识别顺序,每段对应一个识别出的语句; 在该文本文件中,各个语句在音视频文件中的位置可记录在该语句的最前面或最后面,如 在一实施例中,将各个语句在音视频文件中的位置记录在该语句的最前面,即在该文本文 件的任一段里,最开始写的是该段语句在音视频文件中的位置,接着写的是该段对应的语 句。
[0150] 各个语句在音视频文件中的位置即为各个语句在音视频文件中的时间轴位置,如 一个语句在音视频文件中的位置为:第5秒至第8秒。
[0151] 在该步骤中,将该音视频文件转换成文本文件,可选的,该文本文件的文件名与该 音视频文件的文件名相同,可方便用户了解该文本文件对应哪个音视频文件。
[0152] S20、分别计算该文本文件中的相邻两个语句之间的相似度。
[0153] 计算该文本文件中的相邻两个语句之间的相似度,具体的,将文本文件中的每个 语句转化成向量模型,根据相邻两个语句的向量模型计算运两个语句的相似度。相邻两个 语句的向量模型具有相同的维度,如其中一个语句的向量模型表示为:a = (XII,X2i, X31,......,:Xnl),另一个语句的向量模型表示为:b = (X12,X22,X32,......,:Xn2 ),其中,Xnl表示向 量a的第η个分量,Xn2表示向量b的第η个分量,该向量a和向量b的维度数量都为η。当该相邻 两个语句的向量模型的维度不同时,则对维度较少的语句的向量模型进行维度补充,W使 得相邻两个语句的向量模型的维度相同;具体的,在对该维度较少的语句的向量模型进行 维度补充时,在该维度较少的语句的向量模型中补充的维度对应的值用0表示,如在一实施 例中,其中一个语句的向量模型表示为:a=(Xll、X21、X31、......,Xnl),另一个语句的向量模型 表示为:b = ( X12、X22、X32、......,),其中,j<n,则对该向量模型b进行修正,修改后的向量 模型为:b ' = (X12、X22、X32、......,Xj2,0,0,......,〇 ),修改后的向量模型b '与向量模型曰具有相 同数量的维度。
[0154] S30、根据该相邻两个语句之间的相似度判断该相邻两个语句是否存在噪声语句。
[0155] 相邻两个语句之间的相似度越大,该相邻两个语句就越可能是非噪声语句,即相 邻两个语句不存在噪声语句,反之,相邻两个语句之间的相似度越低,运相邻两个语句就越 可能存在噪声语句。通常的,在一个开会场景中,在开会期间,各个语句之间的相似度较高, 在中场休息时间,人们闲聊各种事情,各个语句之间的相似度较低。
[0156] 相邻两个语句可W分别定义为第一语句和第二语句,其中第一语句为在前的语 句。
[0157] S40、在该相邻两个语句存在噪声语句时,根据预设策略确定该相邻两个语句中的 一语句为噪声语句。
[0158] 在该步骤中,在相邻两个语句存在噪声语句时,根据预设策略确定该相邻两个语 句中的一语句为噪声语句。
[0159] 可选的,该预设策略为:确定该相邻两个语句中的第一个语句为噪声语句。
[0160] 可选的,该预设策略为:确定该相邻两个语句中的第二个语句为噪声语句。
[0161] 可选的,该预存策略为:计算该相邻两个语句中的第一语句与该第一语句的前一 语句的相似度,及计算该相邻两个语句中的第二语句与该第二语句的后一语句的相似度, 根据第一语句与该第一语句的前一语句的相似度及第二语句与该第二语句的后一语句的 相似度确定相邻两个语句中的一语句为噪声语句;具体的,在该第一语句与该第一语句的 前一语句的相似度大于第二语句与该第二语句的后一语句的相似度时,确定该相邻两个语 句中的第二语句为噪声语句,反之,在该第一语句与该第一语句的前一语句的相似度小于 或等于第二语句与该第二语句的后一语句的相似度时,确定该相邻两个语句中的第一语句 为噪声语句。在计算该第一语句与该第一语句的前一语句的相似度,及计算该第二语句与 该第二语句的后一语句的相似度时,计算方式与步骤S30中计算相邻两个语句的相似度的 计算方式相同,在此不寶述。
[0162] S50、将噪声语句从该音视频文件中滤除。
[0163] 在该步骤中,将噪声语句从音视频文件中滤除,W降低音视频文件中的噪声,可选 的,从文本文件中查找到该噪声语句在音视频文件中的位置,根据该噪声语句在音视频文 件中的位置,将噪声语句从音视频文件中滤除,对该音视频文件进行降噪。可选的,在将噪 声语句从音视频文件中滤除时,还可W对该噪声语句在音视频文件中的对应位置填充预设 的音乐,如,该预设的音乐为轻音乐。
[0164] 可选的,可在录音装置的录制过程中,将噪声语句从该音视频文件中滤除;也可在 录音装置录制完成后,将噪声语句从该音视频文件中滤除。
[0165] 采用上述实施例,通过对录音装置录制的音视频文件进行语音识别,将音视频文 件转换成文本文件;分别计算该文本文件中的相邻两个语句之间的相似度,并根据该相邻 两个语句之间的相似度判断该相邻两个语句是否存在噪声语句;在该相邻两个语句存在噪 声语句时,根据预设策略确定该相邻两个语句中的一语句为噪声语句,并将噪声语句从该 音视频文件中滤除;即先将该音视频文件转换成文本文件,根据该文本文件中各语句的相 似度确定噪声语句,再将噪声语句从音视频文件中滤除,W降低音视频文件中的噪声,可更 加客观的识别出音视频文件中的噪声语句,而不受周围环境的影响,可大大提高去除噪声 的准确率。
[0166] 参照图9,图9为本发明降噪方法的第二实施例的流程示意图。
[0167] 基于上述降噪方法的第一实施例,该第二实施例与第一实施例的区别在于,在步 骤S20之前,该降噪方法还包括S60、对该文本文件中的各个语句进行分词,分别得到各个语 句的词语;
[0168] 该步骤S20包括:S21根据编号词典分别获取相邻两个语句的词语对应的编号; S22、根据相邻两个语句的词语对应的编号,分别为相邻两个语句建立向量模型;S23、根据 相邻两个语句的向量模型,计算相邻两个语句之间的欧几里德距离;S24、根据相邻两个语 句之间的欧几里德距离,得到相邻两个语句之间的相似度。
[0169] 在该步骤S60中,可根据预设的分词词典对该文本文件中的各个语句进行分词,得 到每个语句的词语,如对语句"今天讨论的主题是关于项目进度的问题",进行分词后,得到 的词语依次为:今天、讨论、的、主题、是、关于、项目、进度、的、问题,共10个词语;对一语句 分词得到的词语可W相同,如在上述语句的分词结果中出现两次"的"。
[0170] 可选的,在该步骤S60中,切分该文本文件中的各个语句并获得各个语句的所有分 词方式(如一语句有巧巾分词方式,另一语句有5种分词方式),计算每一个语句的所有分词 方式的语句权值,比较每种分词方式的语句权值,根据预设的选择策略从每一个语句的所 有分词方式中选择一种分词方式,并根据选择的分词方式对对应的语句进行分词,得到分 词结果。如在一实施例中,一语句有5中分词方式,则分别计算采用运5中分词方式对该语句 进行分词时的语句权值,选择语句权值最大时对应的分词方式,再根据该选择的分词方式 对该语句进行分词。各个语句的分词方式可不同。
[0171] 在编号词典中记录词语与编号的对应关系,每个词语对应一个编号,同一编号只 能对应一个词语,即同一个编号表示一个词语。
[0172] 在该步骤S21中,根据编号词典,获取相邻两个语句的词语对应的编号;在该步骤 S22中,根据该相邻两个语句的词语对应的编号,为相邻两个语句建立向量模型。通常的,一 语句分词后包括N个词语,则该语句对应的向量模型就为N维,如一语句包括5个词语(该5个 词语中可有部分词语相同),则该语句对应的向量模型就为五维。如一语句为"你吃饭了 吗",该语句对应的词语为"你、吃饭、了、吗",则该语句对应的向量模型为四维,其中,根据 编号词典,查找到词语"你 "对应的编号为110、词语"吃饭"对应的编号为98、词语"了'对应 的编号为150、编号"吗"对应的编号为90,则该语句的向量模型为:c = (110,98,150,90)。
[0173] 可选的,该编号词典可预先设置,所有音视频文件都共用该编号词典,在该编号词 典中,记录了各个词语对应的编号。
[0174] 可选的,该编号词典根据该音视频文件生成,具体的,对该音视频文件中的所有语 句的词语进行汇总,然后根据用户输入的编号对各个词语进行编号,生成编号词典。如在一 实施例中,该音视频文件中的所有语句的词语有1万个,运1万个词语不重复,用户按照需要 对运1万个词语进行编号,每个词语的编号不一样。
[0175] 语句的向量模型中的各个分量的值对应该分量的词语的编号。如一语句的向量模 型为:C = ( 110,98,150,90 ),即语句的第一个分量值为110,该第一分量的词语为"你"。
[0176] 在该步骤S23中,计算相邻两个语句之间的欧几里德距离,具体的,通过W下公式 计算:
[0177] ,其中η为两个语句的维度,xii表示相邻两个语句中的其 中一个语句的向量模型的第i个分量,表示相邻两个语句中的另一个语句的向量模型的 第i个分量。
[0178] 在该步骤S24中,计算相邻两个语句之间的相似度,具体的,相邻两个语句之间的 相似度通过W下公式计算:
[0179] Sim=l/(1+D),其中,Sim表示相邻两个语句的相似度,D表示相邻两个语句的欧几 里德距离。
[0180] 从上述相似度计算公式可W看出,当相邻两个语句之间的欧几里德距离越小,相 邻两个语句之间的相似度就越大;反之,当相邻两个语句之间的欧几里德距离越大,相邻两 个语句之间的相似度就越小。
[0181] 采用上述实施例,对文本文件中的各个语句进行分词,根据编号词典分别获取相 邻两个语句的词语对应的编号,根据相邻两个语句的词语对应的编号为相邻两个语句建立 向量模型,再根据相邻两个语句的向量模型,计算相邻两个语句之间的欧几里德距离;然后 根据相邻两个语句之间的欧几里德距离,得到相邻两个语句之间的相似度;可更加准确的 计算出文本文件中相邻两个语句之间的相似度,进而准确的确定相邻两个语句是否存在噪 声语句,W提高去除噪声的准确率。
[0182] 参照图10,图10为本发明降噪方法的第Ξ实施例的流程示意图。
[0183] 基于上述降噪方法的第一实施例,该第Ξ实施例与第一实施例的区别在于,该步 骤S30包括:
[0184] S31、判断该相邻两个语句之间的相似度是否小于预设的相似度阔值。
[0185] 该相似度阔值可根据需要预先设置,在该步骤中,判断相邻两个语句之间的相似 度是否小于预设的相似度阔值,W确定该相邻两个语句是否存在噪声语句。
[0186] S32、在该相邻两个语句之间的相似度小于预设的相似度阔值时,确定该相邻两个 语句存在噪声语句。
[0187] 采用上述实施例,在根据该相邻两个语句之间的相似度判断该相邻两个语句是否 存在噪声语句时,将该相邻两个语句之间的相似度与预设的相似度阔值进行比较,根据比 较结果确定相邻两个语句是否存在噪声语句,可更加客观的识别出音视频文件中的是否存 在噪声语句,W提高去除噪声的准确率。
[0188] 参照图11,图11为本发明降噪方法的第四实施例的流程示意图。
[0189] 基于上述降噪方法的第一实施例,该第四实施例与第一实施例的区别在于,该步 骤S40包括:
[0190] S41、在该相邻两个语句存在噪声语句时,计算该相邻两个语句中的第一语句与该 文本文件中的从第一个语句开始的预设个数的语句的相似度,及计算该相邻两个语句中的 第二语句与该文本文件中的从第一个语句开始的预设个数的语句的相似度。
[0191 ]该预设个数可根据需要设置,通常的,该预设个数为20。
[0192] 在该步骤中,计算该相邻两个语句中的第一语句与该文本文件中的从第一个语句 开始的预设个数的语句的相似度,得到多个相似度,如,当预设个数为20时,则依次计算该 相邻两个语句中的第一语句与文本文件中的从第一个语句开始的20个语句的相似度,得到 20个相似度。
[0193] 在该步骤中,计算该相邻两个语句中的第二语句与该文本文件中的从第一个语句 开始的预设个数的语句的相似度,得到多个相似度,如,当预设个数为20时,则依次计算该 相邻两个语句中的第二语句与文本文件中的从第一个语句开始的20个语句的相似度,得到 20个相似度。
[0194] 在计算该相邻两个语句中的第一语句与该文本文件中的从第一个语句开始的预 设个数的语句的相似度,及计算该相邻两个语句中的第二语句与该文本文件中的从第一个 语句开始的预设个数的语句的相似度时,计算方式与步骤S30中计算相邻两个语句的相似 度的计算方式相同,在此不寶述。
[01M] S42、根据该相邻两个语句中的第一语句与该文本文件中的从第一个语句开始的 预设个数的语句的相似度及该相邻两个语句中的第二语句与该文本文件中的从第一个语 句开始的预设个数的语句的相似度,确定该相邻两个语句中的第一语句或第二语句为噪声 语句。
[0196] 将该相邻两个语句中的第一语句与该文本文件中的从第一个语句开始的预设个 数的语句的相似度求和,得到第一相似度总值;及将该相邻两个语句中的第二语句与该文 本文件中的从第一个语句开始的预设个数的语句的相似度求和,得到第二相似度总值;根 据该第一相似度总值及第二相似度总值确定该相邻两个语句中的第一语句或第二语句为 噪声语句,具体的,当该第一相似度总值大于第二相似度总值时,则确定该相邻两个语句中 的第二语句为噪声语句,当该第一相似度总值小于或等于第二相似度总值时,则确定该相 邻两个语句中的第一语句为噪声语句。
[0197] 采用上述实施例,在相邻两个语句存在噪声语句时,根据该相邻两个语句中的第 一语句与该文本文件中的从第一个语句开始的预设个数的语句的相似度及该相邻两个语 句中的第二语句与该文本文件中的从第一个语句开始的预设个数的语句的相似度,确定该 相邻两个语句中的第一语句或第二语句为噪声语句;可更加客观的识别出相邻两个语句中 的噪声语句,W提高去除噪声的准确率。
[0198] 参照图12,图12为本发明降噪方法的第五实施例的流程示意图。
[0199] 基于上述降噪方法的第一实施例,该第五实施例与第一实施例的区别在于,该步 骤S40包括:
[0200] S43、在该相邻两个语句存在噪声语句时,向用户发出提示信息,供用户根据该提 示信息选择该相邻两个语句中的一个语句为噪声语句。
[0201] 在该步骤中,向用户发出提示信息,在该提示信息中包括两个选项,一个选项为选 择该相邻两个语句中的第一语句,另一个选项为选择该相邻两个语句中的第二语句,在该 提示信息中显示该相邻两个语句的具体内容,如图7所示,如第一语句为"你吃饭了吗",第 二语句为"今天讨论的主题是关于项目进度的问题"。
[0202] 用户根据该提示信息选择该相邻两个语句中的一个语句为噪声语句,如用户觉得 该相邻两个语句中的第一语句可能是噪声语句,则选择该第一语句。
[0203] S44、接收用户根据该提示信息输入的选择指令,并根据该选择指令确定该相邻两 个语句中的一语句为噪声语句。
[0204] 在该步骤中,接收用户根据该提示信息输入的选择指令,如选择指令为选择相邻 两个语句中的第一语句,则将该相邻两个语句中的第一语句确定为噪声语句;如选择指令 为选择相邻两个语句中的第二语句,则将该相邻两个语句中的第二语句确定为噪声语句。
[0205] 采用上述实施例,在相邻两个语句存在噪声语句时,向用户发出提示信息,并根据 用户基于该提示信息输入的选择指令确定相邻两个语句中的一语句为噪声语句,更加灵活 的确定出相邻两个语句中的噪声语句,W提高去除噪声的准确率,用户体验较好。
[0206] 通过W上的实施方式的描述,本领域的技术人员可W清楚地了解到上述实施例方 法可借助软件加必需的通用硬件平台的方式来实现,当然也可W通过硬件,但很多情况下 前者是更佳的实施方式。基于运样的理解,本发明的技术方案本质上或者说对现有技术做 出贡献的部分可软件产品的形式体现出来,该计算机软件产品存储在一个存储介质 (如R0M/RAM、磁碟、光盘)中,包括若干指令用W使得一台终端设备(可W是手机,计算机,月良 务器,空调器,或者网络设备等)执行本发明各个实施例该的方法。
[0207] W上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发 明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技 术领域,均同理包括在本发明的专利保护范围内。
【主权项】
1. 一种降噪装置,其特征在于,所述降噪装置包括: 转换模块,用于对音视频文件进行语音识别,将所述音视频文件转换成文本文件; 计算模块,用于分别计算所述文本文件中的相邻两个语句之间的相似度; 判断模块,用于根据所述相邻两个语句之间的相似度判断所述相邻两个语句是否存在 噪声语句; 确定模块,用于在所述相邻两个语句存在噪声语句时,根据预设策略确定所述相邻两 个语句中的一语句为噪声语句; 降噪模块,用于将所述噪声语句从所述音视频文件中滤除。2. 如权利要求1所述的降噪装置,其特征在于,所述降噪装置还包括:分词模块,用于对 所述文本文件中的各个语句进行分词,分别得到各个语句的词语; 所述计算模块包括: 获取单元,用于根据编号词典分别获取相邻两个语句的词语对应的编号; 建立单元,用于根据相邻两个语句的词语对应的编号,分别为相邻两个语句建立向量 丰旲型; 第一计算单元,用于根据相邻两个语句的向量模型,计算相邻两个语句之间的欧几里 德距离; 第二计算单元,用于根据相邻两个语句之间的欧几里德距离,得到相邻两个语句之间 的相似度。3. 如权利要求2所述的降噪装置,其特征在于,相邻两个语句之间的相似度通过以下公 式计算: Sim=丨/( 1+D),其中,Sim表示相邻两个语句的相似度,〇表示相邻两个语句的欧几里德 距离。4. 如权利要求1所述的降噪装置,其特征在于,判断模块包括: 判断单元,用于判断所述相邻两个语句之间的相似度是否小于预设的相似度阈值; 第一确定单元,用于在所述相邻两个语句之间的相似度小于预设的相似度阈值时,确 定所述相邻两个语句存在噪声语句。5. 如权利要求1至4任一项所述的降噪装置,其特征在于,所述确定模块包括: 第三计算单元,在所述相邻两个语句存在噪声语句时,计算所述相邻两个语句中的第 一语句与所述文本文件中的从第一个语句开始的预设个数的语句的相似度,及计算所述相 邻两个语句中的第二语句与所述文本文件中的从第一个语句开始的预设个数的语句的相 似度; 第二确定单元,用于根据所述相邻两个语句中的第一语句与所述文本文件中的从第一 个语句开始的预设个数的语句的相似度及所述相邻两个语句中的第二语句与所述文本文 件中的从第一个语句开始的预设个数的语句的相似度,确定所述相邻两个语句中的第一语 句或第二语句为噪声语句。6. -种降噪方法,其特征在于,所述降噪方法包括: 对音视频文件进行语音识别,将所述音视频文件转换成文本文件; 分别计算所述文本文件中的相邻两个语句之间的相似度,并根据所述相邻两个语句之 间的相似度判断所述相邻两个语句是否存在噪声语句; 在所述相邻两个语句存在噪声语句时,根据预设策略确定所述相邻两个语句中的一语 句为噪声语句,并将所述噪声语句从所述音视频文件中滤除。7. 如权利要求6所述的降噪方法,其特征在于,分别计算所述文本文件中的相邻两个语 句之间的相似度,并根据所述相邻两个语句之间的相似度判断所述相邻两个语句是否存在 噪声语句的步骤之前,所述降噪方法包括:对所述文本文件中的各个语句进行分词,分别得 到各个语句的词语; 所述分别计算所述文本文件中的相邻两个语句之间的相似度的步骤包括: 根据编号词典分别获取相邻两个语句的词语对应的编号; 根据相邻两个语句的词语对应的编号,分别为相邻两个语句建立向量模型; 根据相邻两个语句的向量模型,计算相邻两个语句之间的欧几里德距离; 根据相邻两个语句之间的欧几里德距离,得到相邻两个语句之间的相似度。8. 如权利要求7所述的降噪方法,其特征在于,相邻两个语句之间的相似度通过以下公 式计算: Sim=丨/( 1+D),其中,Sim表示相邻两个语句的相似度,〇表示相邻两个语句的欧几里德 距离。9. 如权利要求6所述的降噪方法,其特征在于,根据所述相邻两个语句之间的相似度判 断所述相邻两个语句是否存在噪声语句的步骤包括: 判断所述相邻两个语句之间的相似度是否小于预设的相似度阈值; 在所述相邻两个语句之间的相似度小于预设的相似度阈值时,确定所述相邻两个语句 存在噪声语句。10. 如权利要求6至9任一项所述的降噪方法,其特征在于,在所述相邻两个语句存在噪 声语句时,根据预设策略确定所述相邻两个语句中的一语句为噪声语句的步骤包括: 在所述相邻两个语句存在噪声语句时,计算所述相邻两个语句中的第一语句与所述文 本文件中的从第一个语句开始的预设个数的语句的相似度,及计算所述相邻两个语句中的 第二语句与所述文本文件中的从第一个语句开始的预设个数的语句的相似度; 根据所述相邻两个语句中的第一语句与所述文本文件中的从第一个语句开始的预设 个数的语句的相似度及所述相邻两个语句中的第二语句与所述文本文件中的从第一个语 句开始的预设个数的语句的相似度,确定所述相邻两个语句中的第一语句或第二语句为噪 声语句。
【文档编号】G10L21/0272GK106067302SQ201610370200
【公开日】2016年11月2日
【申请日】2016年5月27日 公开号201610370200.5, CN 106067302 A, CN 106067302A, CN 201610370200, CN-A-106067302, CN106067302 A, CN106067302A, CN201610370200, CN201610370200.5
【发明人】王荣洋
【申请人】努比亚技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1