一种录音搜索方法、装置及电子设备与流程

文档序号：14950844发布日期：2018-07-17 22:31阅读：145来源：国知局

本发明涉及录音播放技术领域，特别是涉及一种录音搜索方法、装置及电子设备。

背景技术：

录音功能是智能终端最基本的应用功能，通过录音功能，用户可以随时随地地将当时声音记录下，以便后续重现当时会谈场景。

传统技术提供一种智能终端，该智能终端接收用户输入的语音数据，并根据语音数据搜索出对应的录音文件。

发明人在实现本发明的过程中，发现传统技术至少存在以下问题：传统技术将用户输入的语音数据全部作为搜索字段，以搜索录音文件，因此，智能终端需要耗费相对多的时间进行搜索，例如：用户需要查找包含关键字段“这里的花海，真的很漂亮”的录音文件，于是，智能终端接收用户输入的语音数据“这里的花海，真的很漂亮”，智能终端仔细遍历所有录音文件，查找出包含关键字段“这里的花海，真的很漂亮”的目标录音文件。由于智能终端需要形成两个关键字段“这里的花海”与“真的很漂亮”，并将该两个关键字段一一遍历每个录音文件，相对于只需要根据一个关键字段遍历每个录音文件的方式，显然，根据两个关键字段遍历每个录音文件的方式是耗费相对多的时间的。

并且，在实际应用过程中，智能终端也许只有一个录音文件包含“花海”这一录音词组，用户只需要输入关键字段“这里的花海”也便可以精确找到对应的录音文件，无需输入两个关键字段“这里的花海”与“真的很漂亮”进行查找，从而节省额外的搜索时间。

技术实现要素：

本发明实施例一个目的旨在提供一种录音搜索方法、装置及电子设备，其能够分段式地快速搜索出目标录音文件。

为解决上述技术问题，本发明实施例提供以下技术方案：

在第一方面，本发明实施例提供一种录音搜索方法，包括：

获取搜索数据，所述搜索数据包括按照时间次序排列的若干段文本搜索内容ti，i≥1,且i为正整数，时间点位于i的第ti文本搜索内容早于时间点位于i+1的第ti+1文本搜索内容，且所述第ti+1文本搜索内容包括所述第ti文本搜索内容；

按照时间次序，选择所述第ti文本搜索内容在录音库内搜索相似度满足预设条件的录音文本内容，所述录音库包括由录音翻译成文本数据的多个录音文本内容；

根据搜索结果，控制录音的输出。

可选地，所述根据搜索结果，控制录音的输出，包括：

判断所述第ti文本搜索内容与所述录音库的录音文本内容之间的相似度是否满足预设条件；

若满足，统计满足预设条件的录音文本内容的数量；

判断满足预设条件的录音文本内容的数量是否大于预设数量阈值；

若大于，判断第ti+1文本搜索内容与录音库的录音文本内容之间的相似度是否满足预设条件，直至满足预设条件的录音文本内容的数量小于预设数量阈值，并输出满足预设条件的录音文本内容对应的录音；

若小于，输出满足预设条件的录音文本内容对应的录音；

若未满足，输出判断结果。

可选地，所述录音文本内容包括若干帧录音数据；

所述输出满足预设条件的录音文本内容对应的录音，包括：

从满足预设条件的录音文本内容中确定与文本搜索内容匹配的对应帧录音数据；

以所述与文本搜索内容匹配的对应帧录音数据为播放起始点，播放录音。

可选地，所述获取搜索数据，包括：

接收输入的语音数据，所述语音数据包括按照时间次序排列的若干段语音；

根据模糊神经网络算法，将所述语音数据翻译成语音文本数据，并将所述语音文本数据作为搜索数据。

可选地，所述方法还包括：

在检测到所述搜索数据的总时长小于1时，确定所述搜索数据的总时长等于1。

在第二方面，本发明实施例提供一种录音搜索装置，包括：

获取模块，用于获取搜索数据，所述搜索数据包括按照时间次序排列的若干段文本搜索内容ti，i≥1,且i为正整数，时间点位于i的第ti文本搜索内容早于时间点位于i+1的第ti+1文本搜索内容，且所述第ti+1文本搜索内容包括所述第ti文本搜索内容；

选择模块，用于按照时间次序，选择所述第ti文本搜索内容在录音库内搜索相似度满足预设条件的录音文本内容，所述录音库包括由录音翻译成文本数据的多个录音文本内容；

控制模块，用于根据搜索结果，控制录音的输出。

可选地，所述控制模块包括：

第一判断单元，用于判断所述第ti文本搜索内容与所述录音库的录音文本内容之间的相似度是否满足预设条件；

统计单元，用于若满足，统计满足预设条件的录音文本内容的数量；

第二判断单元，用于判断满足预设条件的录音文本内容的数量是否大于预设数量阈值；

第一输出单元，用于若大于，判断第ti+1文本搜索内容与录音库的录音文本内容之间的相似度是否满足预设条件，直至满足预设条件的录音文本内容的数量小于预设数量阈值，并输出满足预设条件的录音文本内容对应的录音，若小于，输出满足预设条件的录音文本内容对应的录音；

第二输出单元，用于若未满足，输出判断结果。

可选地，所述录音文本内容包括若干帧录音数据；

所述第一输出单元具体用于：从满足预设条件的录音文本内容中确定与文本搜索内容匹配的对应帧录音数据；以所述与文本搜索内容匹配的对应帧录音数据为播放起始点，播放录音。

可选地，所述获取模块包括：

接收单元，用于接收输入的语音数据，所述语音数据包括按照时间次序排列的若干段语音；

翻译单元，用于根据模糊神经网络算法，将所述语音数据翻译成语音文本数据，并将所述语音文本数据作为搜索数据。

可选地，所述装置还包括：

确定模块，用于在检测到所述搜索数据的总时长小于1时，确定所述搜索数据的总时长等于1。

在第三方面，本发明实施例提供一种电子设备，包括：

至少一个处理器；

以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够用于执行任一项所述的录音搜索方法。

在本发明各个实施例提供的录音搜索方法、装置及电子设备中，首先，通过获取搜索数据，搜索数据包括按照时间次序排列的若干段文本搜索内容ti，i≥1,且i为正整数，时间点位于i的第ti文本搜索内容早于时间点位于i+1的第ti+1文本搜索内容，且第ti+1文本搜索内容包括第ti文本搜索内容。其次，按照时间次序，选择第ti文本搜索内容在录音库内搜索相似度满足预设条件的录音文本内容，录音库包括由录音翻译成文本数据的多个录音文本内容。最后，根据搜索结果，控制录音的输出。因此，其能够按照时间次序，分段式地选择文本搜索内容进行搜索，以便能够快速地搜索出目标录音文件。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是本发明实施例提供一种电子设备的结构示意图；

图2是本发明实施例提供一种录音搜索方法的流程示意图；

图3是本发明实施例提供一种文本搜索内容的格式示意图；

图4是图2中步骤021的流程示意图；

图5是语音数据的波形图；

图6是本发明实施例提供一种录音搜索装置的结构示意图；

图7是图6中控制模块的结构示意图；

图8是图6中获取模块的结构示意图；

图9是本发明另一实施例提供一种录音搜索装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明实施例提供的录音搜索方法，可以在任何合适类型，具有用户交互装置和运算能力的处理器的电子设备中执行，例如台式计算机、智能手机、平板电脑以及其他用户终端中。

本发明实施例的录音搜索装置可以作为其中一个软件或者硬件功能单元，独立设置在上述电子设备中，也可以作为整合在处理器中的其中一个功能模块，执行本发明实施例的录音搜索方法。

电子设备可以为智能手机、计算机、掌上电脑(personaldigitalassistant，pda)、平板电脑、智能手表、电子书等等。

电子设备支持各种桌面应用程序的安装，诸如以下桌面应用程序中的一个或者多个桌面应用程序：录音应用程序、绘图应用程序、演示应用程序、文字处理应用程序、电子表格应用程序、游戏应用程序、电话应用程序、视频会议应用程序、电子邮件应用程序、即时消息应用程序、训练支持应用程序、照片管理应用程序、数码相机应用程序、数码录像机应用程序、网页浏览应用程序、数字音乐播放器应用程序、数字视频播放器应用程序以及等等。

请参阅图1，电子设备100包括存储器11、至少一个处理器12以及总线系统。其中，至少一个处理器12和存储器11通过总线系统连接。

存储器11可以是非易失性计算机可读存储介质，以用于存储计算机可执行指令。计算机可执行指令也可以在任何非易失性计算机可读存储介质内存储和/或传输，以便由指令执行系统、装置或设备使用，或者结合指令执行系统、装置或设备使用，其中该指令执行系统、装置或设备诸如基于计算机的系统、包含处理器的系统或可以从指令执行系统、装置或设备获取指令并执行该指令的其他系统。出于本文档的目的，“非易失性计算机可读存储介质”可以是有形地包含或存储计算机可执行指令的任何介质，该计算机可执行指令可以用于由指令执行系统、设备或系统使用或者结合指令执行系统、装置或设备使用。非易失性计算机可读存着介质可以包括但不限于磁的、光的和/或半导体存储装置。这些存储装置的示例包括磁盘、基于cd、dvd或蓝光技术的光盘以及持久性固态存储器(诸如，闪存、固态驱动器等)。

处理器12可以是中央处理单元(centralprocessingunit，简称为“cpu”)。该处理器还可以是其他通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

该总线系统除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都标为总线系统。

电子设备100还包括电源组件，该电源组件为电子设备100的各种组件提供电力。电源组件可以包括电源管理系统，一个或多个电源，及其他与为电子设备100生成、管理和分配电力相关联的组件。

电子设备100还包括通信组件，该通信组件用于为便于电子设备100和其他设备之间进行有线或无线方式的通信。该电子设备100可以接入基于通信标准的无线网络，如wifi，2g或3g或4g或5g，或它们的组合。在一些实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件还包括nfc模块(nearfieldcommunication，近场通信)，以促进短程通信。例如，在nfc模块可基于rfid(radiofrequencyidentification，射频识别)技术，irda(infra-reddataassociation，红外数据协会)技术，uwb(ultrawideband，超宽带)技术，bt(bluetooth,蓝牙)技术和其他技术来实现。

电子设备100还包括输入组件，例如电源键，音量减按键，音量加按键，摄像组件以及等等。用户可以通过电源键激活电子设备100，或者锁定电子设备100的操作界面，可以通过音量减/加按键调节音量。

电子设备100还包括用户输入界面，例如该用户输入界面可以是触敏表面，该触敏表面可以是触摸屏显示器，可以是触摸板。触敏表面作为用户操作的输入接口，可以检测用户在触敏表面上的操作，该操作可以对触敏表面的单击、双击、滑动、长按、拖曳以及等等。用户每次的操作在触敏表面产生一定的压力强度，该压力强度可以使用各种方法和各种传感器或者各种传感器的组合来检测。比如，通过在触敏表面检测触敏表面的电容的变化大小，或者，检测触敏表面的电阻的变化大小，或者，检测触敏表面的电容变化大小和电阻变化大小，以及等等。在上述过程中，通过传感器将触敏表面产生的压力强度转化成电信号。

可选地，在电子设备100触敏表面上还可以设置各类按键，用于响应用户的输入操作。例如，可以设置菜单触摸按键、返回触摸按键以及等等。

图2是本发明实施例提供一种录音搜索方法的流程示意图。如图2所示，录音搜索方法200包括：

步骤021、获取搜索数据；

搜索数据用于搜索录音，搜索数据包括文本数据或语音数据。在一些实施例中，电子设备的录音应用程序包括文本输入窗口，用户通过文本输入窗口输入文字并以此形成搜索数据。或者，录音应用程序还包括语音输入按钮，用户长按语音输入按钮时，电子设备的语音采集单元便采集用户发出的语音信号并以此形成搜索数据。

搜索数据包括按照时间次序排列的若干段文本搜索内容ti，i≥1,且i为正整数，时间点位于i的第ti文本搜索内容早于时间点位于i+1的第ti+1文本搜索内容，且第ti+1文本搜索内容包括第ti文本搜索内容。例如，请参阅图3，用户在3秒内输入语音“花海，漂亮，白云”搜索录音，1秒的第t1文本搜索内容为“花海”，2秒的第t2文本搜索内容为“花海，漂亮”，3秒的第t3文本搜索内容为“花海，漂亮，白云”。

步骤023、按照时间次序，选择第ti文本搜索内容在录音库内搜索相似度满足预设条件的录音文本内容，录音库包括由录音翻译成文本数据的多个录音文本内容；

步骤025、根据搜索结果，控制录音的输出。

因此，其能够按照时间次序，分段式地选择文本搜索内容进行搜索，以便能够快速地搜索出目标录音文件。

在本实施例中，当电子设备按照时间次序，依序选择对应时间点i的文本搜索内容在录音库内搜索时，搜索结果分为两类：一方面，电子设备根据第ti文本搜索内容在录音库内未能够搜索到相似度满足预设条件的录音文本内容，另一方面，电子设备根据第ti文本搜索内容在录音库内能够搜索到相似度满足预设条件的录音文本内容。因此，电子设备可以根据搜索结果，控制录音的输出。

举例而言：电子设备在根据搜索结果，控制录音的输出的过程中，根据二分法，判断第ti文本搜索内容与录音库的录音文本内容之间的相似度是否满足预设条件，若满足，统计满足预设条件的录音文本内容的数量；若未满足，输出判断结果。

在本实施例中，预设条件可以由用户自定义，例如，满足预设条件为“相似度大于或等于70％”，或者，“相似度大于或等于80％”等等。

相似度用于描述第ti文本搜索内容与录音库的录音文本内容之间的相同概率。一般的，对于一整段录音，该录音包括各类表达词组或者字眼，用户输入的搜索数据所出现的字眼虽然包含在录音内，但是该录音未必是用户期望搜索的录音，不过，用户期望搜索的录音与该整段录音存在相似，例如：用户期望搜索的录音明确包括“花海”这一词组，该整段录音的实际录音内容为“喇叭花生长在……远离大海……”，显然，该整段录音的实际录音内容包括“花”和“海”这两个字眼。

再例如：对于另一整段录音，另一整段录音的实际录音内容为“……花儿朵朵开……辽阔的大海，是雄鹰的舞台……”，该另一整段录音的实际录音内容包括“花”和“海”这两个字眼，因此，另一整段录音与上述的整段录音存在相似度。

当第ti文本搜索内容与录音库的录音文本内容之间的相似度未满足预设条件，电子设备输出判断结果，其中，该判断结果可以由用户自定义，例如，该判断结果可以为文字显示“暂无查询到符合录音”。

当第ti文本搜索内容与录音库的录音文本内容之间的相似度满足预设条件，电子设备统计满足预设条件的录音文本内容的数量。例如，如前所述，当用户期望搜索的录音、一整段录音及另一整段录音任意两者之间的相似度大于70％时，那么，满足预设条件的录音文本内容的数量为3个，在实际过程中，对于一些用户预先存储多个录音时，满足预设条件的录音文本内容的数量可能超过3个。

紧接着，电子设备判断满足预设条件的录音文本内容的数量是否大于预设数量阈值。若大于，判断第ti+1文本搜索内容与录音库的录音文本内容之间的相似度是否满足预设条件，直至满足预设条件的录音文本内容的数量小于预设数量阈值，并输出满足预设条件的录音文本内容对应的录音。在本实施例中，虽然根据第ti文本搜索内容搜索出的录音文本内容满足预设条件，进而缩小搜索范围，但是还是由于数量相对多，用户还是无法能够快速找到期望录音，如前所述，经过第一轮搜索，相似度满足预设条件的录音有3个，例如，第t1文本搜索内容为“花海”。

于是，用户再次缩小搜索范围，电子设备再判断第ti+1文本搜索内容与录音库的录音文本内容之间的相似度是否满足预设条件，若满足，电子设备判断满足预设条件的录音文本内容的数量是否大于预设数量阈值。例如，第t2文本搜索内容为“花海，漂亮”。若大于，电子设备再判断第ti+2文本搜索内容与录音库的录音文本内容之间的相似度是否满足预设条件，以此类推，直至满足预设条件的录音文本内容的数量小于预设数量阈值，并输出满足预设条件的录音文本内容对应的录音。例如，第t3文本搜索内容为“花海，漂亮，白云”。

再紧接着，若小于，电子设备输出满足预设条件的录音文本内容对应的录音。其中，预设数量阈值由用户自定义，例如，预设数量阈值可以为1或2或3等等。

因此，通过上述方式，通过分段式地搜索，电子设备能够高效率快速地搜索到目标录音。

如前所述，录音库包括由录音翻译成文本数据的多个录音文本内容，在本实施例中，电子设备可以将预存的所有录音转换成录音文本内容，并存储在电子设备内，以便用户搜索录音时，能够快速地响应用户的输入。电子设备每次有新录音增加时，电子设备自动更新录音库。

一般的，用户首先输出“花海”这一印象深刻的词语，用户更期望找到的录音能够从“花海”首次出现的位置播放录音，避免用户从冗长地录音中浪费大量时间来确定此处的“花海”是否为自己真正想要的。因此，在一些实施例中，录音文本内容包括若干帧录音数据。电子设备在输出满足预设条件的录音文本内容对应的录音的过程中，电子设备从满足预设条件的录音文本内容中确定与文本搜索内容匹配的对应帧录音数据，以与文本搜索内容匹配的对应帧录音数据为播放起始点，播放录音。

因此，电子设备不仅能够快速找到录音，而且还可以在录音中快速定位到特定播放位置进行播放。

如前所述，搜索数据还可以由语音数据转换而来。在一些实施例中，如图4所示，步骤021包括：

步骤0211、接收输入的语音数据，语音数据包括按照时间次序排列的若干段语音；

步骤0212、根据模糊神经网络算法，将语音数据翻译成语音文本数据，并将语音文本数据作为搜索数据。

在本实施例中，首先，电子设备根据模糊神经网络算法，把语音数据转化为纯波形文件，如图5所示。其次，电子设备对纯波形文件中声音信号进行分帧，把声音信号切成一小段一小段，每一小段为一帧，可以通过移动窗函数来实现。再次，电子设备通过提取mfcc特征处理，把每一帧波形变成一个多维向量。最后，电子设备把每一个多维向量变成语音文本数据，并将语音文本数据作为搜索数据。

在本实施例中，单词的发音由音素构成，汉语一般直接全部声母和韵母作为音素集，电子设备把帧识别变成状态，把状态组合为音素，把音素组成单词或汉子，以文本数据的形式保存于系统中。

在一些实施例中，用户输入的语音数据的总时长往往小于1秒，此时，电子设备在检测到搜索数据的总时长小于1时，确定搜索数据的总时长等于1。

在上述各个实施例中，存储器11存储有可被至少一个处理器12执行的指令，指令被所述至少一个处理器12执行，以使至少一个处理器12能够用于执行任一项所述的录音搜索方法。

作为本发明实施例的另一方面，本发明实施例提供一种录音搜索装置。请参阅图6，录音搜索装置600包括：获取模块61、选择模块62及控制模块63。

获取模块61用于获取搜索数据，搜索数据包括按照时间次序排列的若干段文本搜索内容ti，i≥1,且i为正整数，时间点位于i的第ti文本搜索内容早于时间点位于i+1的第ti+1文本搜索内容，且第ti+1文本搜索内容包括第ti文本搜索内容。

选择模块62用于按照时间次序，选择第ti文本搜索内容在录音库内搜索相似度满足预设条件的录音文本内容，录音库包括由录音翻译成文本数据的多个录音文本内容。

控制模块63用于根据搜索结果，控制录音的输出。

因此，其能够按照时间次序，分段式地选择文本搜索内容进行搜索，以便能够快速地搜索出目标录音文件。

请参阅图7，控制模块63包括：第一判断单元631、统计单元632、第二判断单元633、第一输出单元634及第二输出单元635。

第一判断单元631用于判断第ti文本搜索内容与录音库的录音文本内容之间的相似度是否满足预设条件；

统计单元632用于若满足，统计满足预设条件的录音文本内容的数量；

第二判断单元633用于判断满足预设条件的录音文本内容的数量是否大于预设数量阈值；

第一输出单元634用于若大于，判断第ti+1文本搜索内容与录音库的录音文本内容之间的相似度是否满足预设条件，直至满足预设条件的录音文本内容的数量小于预设数量阈值，并输出满足预设条件的录音文本内容对应的录音，若小于，输出满足预设条件的录音文本内容对应的录音；

第二输出单元635用于若未满足，输出判断结果。

在一些实施例中，录音文本内容包括若干帧录音数据；第一输出单元634具体用于：从满足预设条件的录音文本内容中确定与文本搜索内容匹配的对应帧录音数据；以所述与文本搜索内容匹配的对应帧录音数据为播放起始点，播放录音。

在一些实施例中，请参阅图8，获取模块61包括：接收单元611与翻译单元612。

接收单元611用于接收输入的语音数据，所述语音数据包括按照时间次序排列的若干段语音；

翻译单元612用于根据模糊神经网络算法，将所述语音数据翻译成语音文本数据，并将所述语音文本数据作为搜索数据。

在一些实施例中，请参阅图9，录音搜索装置600还包括确定模块64。确定模块64用于在检测到搜索数据的总时长小于1时，确定搜索数据的总时长等于1。

由于装置实施例和方法实施例是基于同一构思，在内容不互相冲突的前提下，装置实施例的内容可以引用方法实施例的，在此不赘述。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明，它们没有在细节中提供；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：许烁鑫
技术所有人：珠海格力电器股份有限公司
我是此专利的发明人

上一篇：一种组合扁布袋脉冲除尘器的制作方法
上一篇：一种面粉加工厂自动除尘设备的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。