搜索方法、装置、终端设备及存储介质与流程

文档序号:20268242发布日期:2020-04-03 18:40阅读:122来源:国知局
搜索方法、装置、终端设备及存储介质与流程

本申请涉及图像搜索技术领域,更具体地,涉及一种搜索方法、装置、终端设备及存储介质。



背景技术:

随着搜索引擎技术的不断发展,语音搜索已逐步应用于各种终端设备中。作为一种方式,可以通过对用户输入的搜索语音进行语音识别,以将搜索语音转换成文字,并分析出其中的关键字,然后根据关键字搜索相匹配的搜索结果或者根据关键字在问答系统的数据库中查询对应的问答结果,并将搜索结果以语音、网页、文字等形式展现给用户。然而,在利用语音进行搜索时,通常会出现因语音内容不标准而导致搜索结果错误,难以实现准确搜索。



技术实现要素:

鉴于上述问题,本申请提出了一种搜索方法、装置、终端设备及存储介质,以解决上述问题。

第一方面,本申请实施例提供了一种搜索方法,该方法包括:获取交互过程中用户的语音数据;若所述语音数据用于信息搜索,则通过预设的算法模型判断所述语音数据是否满足目标条件;若所述语音数据不满足目标条件,在检测到网络状态满足预设状态时,对所述语音数据进行校正处理,以得到校正语音数据;搜索与所述校正语音数据匹配的搜索结果并输出所述搜索结果。

进一步的,所述对所述语音数据进行校正处理,包括:获取预先设定的目标语音模型,所述目标语音模型为通过用户的语音特征数据或者用户的历史语音特征数据训练得到的模型;基于所述目标语音模型对所述语音数据进行校正处理。

进一步的,所述搜索与所述校正语音数据匹配的搜索结果并输出所述搜索结果,包括:将所述校正语音数据转换为文本数据;搜索与所述文本数据匹配的搜索结果并输出所述搜索结果。

进一步的,所述对所述语音数据进行校正处理,还包括:将所述校正语音数据转换为文本数据;采用目标文本模型对所述文本数据进行纠正处理,以得到语义完整的文本数据。

进一步的,所述搜索与所述校正语音数据匹配的搜索结果并输出所述搜索结果,包括:搜索与纠正后的文本数据匹配的搜索结果并输出所述搜索结果。

进一步的,所述对所述语音数据进行校正处理之前,包括:获取所述语音数据的声纹特征;判断所述声纹特征是否为预设的声纹特征;若是,将所述语音数据转换为目标语音数据。

进一步的,所述对所述语音数据进行校正处理,包括:对所述目标语音数据进行校正处理。

进一步的,所述目标条件用于表征可根据语音数据完整的识别出用户的搜索意图。

第二方面,本申请实施例提供了一种搜索装置,该装置包括:获取模块,用于获取交互过程中用户的语音数据;判断模块,用于若所述语音数据用于信息搜索,则通过预设的算法模型判断所述语音数据是否满足目标条件;处理模块,用于若所述语音数据不满足目标条件,在检测到网络状态满足预设状态时,对所述语音数据进行校正处理,以得到校正语音数据;搜索模块,用于搜索与所述校正语音数据匹配的搜索结果并输出所述搜索结果。

进一步的,所述处理模块具体可以用于获取预先设定的目标语音模型,所述目标语音模型为通过用户的语音特征数据或者用户的历史语音特征数据训练得到的模型;基于所述目标语音模型对所述语音数据进行校正处理。

进一步的,所述搜索模块具体可以用于将所述校正语音数据转换为文本数据;搜索与所述文本数据匹配的搜索结果并输出所述搜索结果。

进一步的,所述装置还包括:转换模块,用于将所述校正语音数据转换为文本数据;纠正处理模块,用于采用目标文本模型对所述文本数据进行纠正处理,以得到语义完整的文本数据。

进一步的,所述搜索模块具体还可以用于搜索与纠正后的文本数据匹配的搜索结果并输出所述搜索结果。

进一步的,所述装置还包括:声纹特征获取模块,用于获取所述语音数据的声纹特征;判断单元,用于判断所述声纹特征是否为预设的声纹特征;处理单元,用于若是,将所述语音数据转换为目标语音数据。

进一步的,所述处理模块可以用于对所述目标语音数据进行校正处理。

进一步的,所述目标条件用于表征可根据语音数据完整的识别出用户的搜索意图。

第三方面,本申请实施例提供了一种终端设备,其包括:存储器;一个或多个处理器,与存储器耦接;一个或多个程序,其中,一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序配置用于执行如上述第一方面所述的方法。

第四方面,本申请实施例提供了一种计算机可读取存储介质,该计算机可读取存储介质中存储有程序代码,该程序代码可被处理器调用执行如上述第一方面所述的方法。

本申请实施例提供了一种搜索方法、装置、终端设备及存储介质。本方法通过获取交互过程中用户的语音数据,继而若语音数据用于信息搜索,则通过预设的算法模型判断语音数据是否满足目标条件,若语音数据不满足目标条件,在检测到网络状态满足预设状态时,对语音数据进行校正处理,以得到校正语音数据,然后搜索与所述校正语音数据匹配的搜索结果并输出所述搜索结果。通过上述方式实现了在用户的语音数据不满足目标条件的情况下,通过对语音数据进行校正处理,得到校正语音数据,从而搜索与校正语音数据匹配的搜索结果并输出搜索结果,使得搜索更加准确,提升用户体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1示出了一种适用于本申请实施例的应用环境示意图。

图2示出了本申请一实施例提供的搜索方法的方法流程图。

图3示出了本申请另一实施例提供的搜索方法的方法流程图。

图4示出了本申请又一实施例提供的搜索方法的方法流程图。

图5示出了本申请再一实施例提供的搜索方法的方法流程图。

图6示出了本申请实施例提供的搜索装置的结构框图。

图7示出了本申请实施例的用于执行根据本申请实施例的搜索方法的终端设备的结构框图。

图8示出了本申请实施例的用于保存或者携带实现根据本申请实施例的搜索方法的程序代码的存储单元。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

近年来,随着移动互联网、大数据、云计算、传感器等技术的加速突破和广泛应用,人工智能的发展也进入了一个崭新的阶段。而智能语音搜索技术作为人工智能产业链上的关键一环,ai(artificialintelligence,人工智能)应用最成熟的技术之一,在营销客服、智能家居、智能车载、智能穿戴、智能搜索等领域都有着迅猛发展。例如,手机智能助手。

作为一种方式,可以通过手机智能助手对用户输入的语音进行识别,进而搜索与识别出的语音数据匹配的内容,通过手机界面显示给用户。然而,若用户语速过快或者发音不清晰,那么手机可能无法准确的识别出用户的搜索意图,降低了用户使用体验。

发明人在研究中发现,可结合用户的说话习惯,通过用户的历史语音数据,为用户提供定制化的语音校正策略,使得到完整的语音数据,再基于完整的语音数据进行搜索,提高语音搜索的准确度,提升用户体验。因此提出了本申请实施例中的搜索方法、装置、终端设备及存储介质。

为了便于更好的理解本申请实施例提供的搜索方法、装置、终端设备及存储介质,下面先对适用于本申请实施例的应用环境进行描述。

请参阅图1,图1示出了一种适用于本申请实施例的应用环境示意图。本申请实施例提供的搜索方法可以应用于如图1所示的多态交互系统100。多态交互系统100包括终端设备101以及服务器102,服务器102与终端设备101通信连接。其中,服务器102可以是传统服务器,也可以是云端服务器,在此不作具体限定。

其中,终端设备101可以是具有显示屏且支持数据输入的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机和可穿戴式电子设备等。具体的,数据输入可以是基于终端设备101上具有的语音模块输入语音、字符输入模块输入字符等。终端设备101设置有摄像头,摄像头可设置于终端设备101配有显示屏的一面,可选的,终端设备101的摄像头也可设置于终端设备101背离显示屏的一面。需要说明的是,通过摄像头可采集用户的图像数据,图像数据中包括用户的姿态信息,以辅助用于准确识别用户的搜索意图。

其中,终端设备101上可以安装有客户端应用程序,用户可以基于客户端应用程序(例如app、微信小程序等)与服务器102进行通信。具体的,服务器102上安装有对应的服务端应用程序,用户可以基于客户端应用程序在服务器102注册一个用户帐号,并基于该用户帐号与服务器102进行通信,例如用户在客户端应用程序登录用户帐号,并基于该用户帐号通过客户端应用程序进行输入,可以输入文字信息、语音数据或图像数据等等,客户端应用程序接收到用户输入的信息后,可以将该信息发送至服务器102,使得服务器102可以接收该信息并进行处理及存储,服务器102还可以接收该信息并根据该信息返回一个对应的输出信息至终端设备101。

在一些实施方式中,对用户输入的信息进行处理的装置也可以设置于终端设备101上,使得终端设备101无需依赖与服务器102建立通信即可实现与用户的交互,此时多态交互系统100可以只包括终端设备101。

上述的应用环境仅为方便理解所作的示例,可以理解的是,本申请实施例不仅局限于上述应用环境。

下面将通过具体实施例对本申请实施例提供的搜索方法、装置、终端设备及存储介质进行详细说明。

如图2所示,示出了本申请一实施例提供的搜索方法的方法流程图。本实施例提供的搜索方法可以应用于具有显示屏或其他图像输出装置的终端设备,终端设备可以是智能手机、平板电脑、穿戴式智能终端等电子设备。

在具体的实施例中,搜索方法可应用于如图6所示的搜索装置500以及图7所示的终端设备101。下面将针对图2所示的流程进行详细的阐述。上述的搜索方法具体地可以包括以下步骤:

步骤s110:获取交互过程中用户的语音数据。

需要说明的是,本申请实施例中用户的语音数据包括用户的语音特征。例如,可以包括用户的语音的音色(男性的音色和女性的音色不同,可选的,可以根据音色辨别用户的性别)、音量、音调、基频,以及语音所属的语言(例如,可以是普通话、四川话、河南话、山东话、上海话、粤语等)、语种(例如,可以是英语、德语、法语、俄语、韩国话、日本话等)等。不同的用户的语音数据不同。

作为一种方式,本申请实施例中的语音数据可以是用户在人机交互界面通过终端设备的语音输入功能输入的语音数据,例如,可以通过终端设备中安装的语音助手、语音sdk(softwaredevelopmentkit,软件开发工具包)或是语音识别引擎应用程序等采集的用户输入的语音数据。例如,交互过程中的用户的语音数据可以是当前通过终端设备的人机交互界面与终端设备进行交互的用户的语音数据。可选的,还可以是在用户通过终端设备进行通话的过程中获取到的用户的语音数据。

作为另一种方式,语音数据也可以是预先存储的用户的语音录音信息。可选的,可以是同一用户的语音数据,包括该用户在同一时刻或者不同时刻的语音数据,也可以是不同用户的语音数据等,在此不作限定。

作为一种方式,可以通过对语音数据进行特征提取,再用预先训练得到的声学模型以及语言模型对提取得到的语音特征进行解码,得到交互过程中用户的语音数据。

可选的,对于终端设备所获取的用户的语音数据,可以存储至本地,也可以由终端设备发送至服务器进行存储。其中,通过服务器进行存储的方式,可以避免终端设备的存储数据冗余带来的运算速度减慢。

步骤s120:判断所述语音数据是否用于信息搜索。

可以理解的是,对于获取到的用户的语音数据,并不都是用于搜索的,例如,用户通过终端设备进行通话过程中采集到的语音数据,那么如果在这种情况下,也去进行搜索的话将会造成资源的耗损,例如耗电以及减少运行内存等。那么为了避免这些问题,可以对获取的语音数据进行判断,作为一种方式,可以判断语音数据是否用于信息检索,如果是,那么再进行后续处理;而若不是,那么将直接丢弃对应的语音数据,或者不将这些语音数据加入待搜索列表。

作为一种方式,可以检测在获取语音数据的同时是否开启了其他智能搜索类应用程序或窗口。可选的,若开启了,那么可以将对应获取的语音数据作为用于搜索的语音数据,而如果没有开启,那么将忽略(即舍弃或丢弃)这些获取到的语音数据。

例如,在一个具体的应用场景中,当用户拿起手机说出一段语音时,作为一种实施方式,终端设备可以去读取应用程序的监听事件,检测是否存在搜索类的应用程序处于开启状态,若有,那么可以判定处于搜索状态,进而识别用户的语音实现语音搜索。如果没有获取到搜索类应用程序的监听事件,那么可以判定不处于搜索状态,那么将丢弃所述语音。

作为另一种实施方式,对于一些搜索类的应用程序,在用户说出一段语音试图进行搜索时,通常都会收到应用程序的提醒或指示,那么可选的,终端设备可以通过判断用户在说出语音的一段时间内(包括说出语音前、说语音时、说出语音后的短时间内,例如,可以是5秒、10秒、20秒等)是否存在提示指令,若存在,可以判定处于搜索状态,例如,用户通过语音搜索某地的地图时,会弹出语音提示提醒用户输入需要搜索的地名名称(目的地名称);若不存在,那么可以判定不处于搜索状态,例如,用户在通过终端设备进行通话的过程中不会收到类似的提示指令。

通过判断获取到的语音数据是否用于搜索,可以避免对不是用于搜索的语音数据进行搜索,减小了功耗,延长终端设备的待机时长。

步骤s130:若是,判断所述语音数据是否满足目标条件。

作为一种方式,若判定语音数据是用于语音搜索,那么可以进一步判断该语音数据是否满足目标条件。其中,目标条件可以用于表征可根据语音数据完整的识别出用户的搜索意图。

可以理解的是,用户在通过语音数据进行搜索时,由于个体差异,一些用户说话的语速较快、或是发音不标准,使得说出的语音数据不清晰,即通过这些语音数据无法完整的识别出用户的搜索意图。那么若在这种情况下,若仍然通过这些语音数据去搜索,搜索得到的结果可能无法达到用户的预期,且一定程度上带来功耗的增加。那么,作为一种改善上述问题的方式,为了增加搜索结果的可靠性与减少功耗,可以判断用于搜索的语音数据是否满足目标条件。可选的,若满足目标条件,那么该语音数据将可以用于后续的语音搜索,而若不满足目标条件,那么该语音数据将不被用于后续的语音搜索。

作为一种方式,可以通过预设的算法模型判断语音数据是否满足目标条件。其中,预设的算法模型可以是采用大量用户的样本语音数据训练得到的神经网络模型,例如可以是rnn(recurrentneuralnetwork,循环神经网络)或者lstm(longshort-termmemory,长短期记忆网络)等神经网络模型,在此不再一一例举。可选的,若语音数据满足目标条件,那么可以根据该语音数据完整的识别出用户的搜索意图,而若语音数据不满足目标条件,那么将无法根据该语音数据完整的识别出用户的搜索意图。

作为另一种方式,若判定语音数据不是用于语音搜索,那么将结束搜索过程。可以避免多余的搜索带来的功耗。

步骤s140:若满足目标条件,搜索与所述语音数据匹配的搜索结果并输出所述搜索结果。

可以理解的是,若语音数据满足目标条件,那么可以直接搜索与语音数据匹配的搜索结果并输出所述搜索结果。

其中,本申请实施例中,与语音数据匹配的搜索结果包括但不限于图片、文字、视频、音频、动画等以及它们之间的任意组合形式。可选的,搜索结果的输出方式可以是以图片输出、以文字输出、以语音输出、以铃声输出、以动画弹出或者其他多媒体形式展示等,且可以是不同输出方式的组合,例如,图片和文字组合的方式输出;动画和铃声组合的方式输出等,在此不再一一列举,并且不作为限定。

可选的,对于搜索结果,可以是当前用于搜索的终端设备进行显示输出,也可以采用其他终端设备进行显示输出,例如,远程显示搜索结果等,在此不作限定。

步骤s150:若不满足目标条件,检测网络状态是否满足预设状态。

可以理解的是,在用户用语音数据进行搜索的过程中,若因为网络信号不佳导致搜索中断会使用户体验大打折扣,并且可能会需要用户反复尝试搜索过程。为了确保搜索过程的可靠性与增强用户友好体验,在判定语音数据不满足目标条件的情况下,可以进一步检测终端设备当前的网络状态是否满足预设状态,可以防止因网络突然异常带来的搜索中断或终止,节省终端设备的功耗。

其中,预设状态可以是网络信号的强弱。作为一种方式,可以设定一个网络信号阈值,通过将终端设备的网络信号与该信号阈值进行比较的方式,检测网络状态是否满足预设状态。可选的,在当前网络信号大于该阈值时,判定网络状态满足预设状态;而若当前信号不大于该阈值时,判定网络状态不满足预设状态。

作为一种实施方式,在网络信号大于该信号阈值的基础之上,可以判断终端设备的电量是否充足,例如,是否达到设定阈值,若是,那么可以在这种情况下,判定网络状态满足预设状态;若不是,那么可以判定网络状态不满足预设状态。

可选的,预设状态可以是网络信号的变化趋势。作为一种实现方式,可以通过终端设备统计其网络信号强弱的变化趋势。若其网络信号越来越弱,那么终端设备可能很快会处于断网状态,进而可能会导致语音搜索过程异常中断,那么这种情况下,可以判定网络状态不满足预设状态。可选的,若其网络信号越来越强,那么可以判定网络状态满足预设状态。

需要说明的是,如果用户需要用语音搜索的内容存储在本地,例如,用语音搜索下载好的某首歌,那么可以不检测网络状态是否满足预设状态,而直接采用满足目标条件的语音数据进行搜索。

步骤s160:若满足预设状态,对所述语音数据进行校正处理,以得到校正语音数据。

其中,校正处理指的是对无法完整的识别出用户的搜索意图的语音数据进行校正,包括语义校正、语义填充等,具体将在后续实施例中进行说明,以得到校正语音数据。可选的,校正语音数据可以理解为可以较为完整的识别出用户的搜索意图的语音数据。

例如,在一个具体的应用场景中,假设用户说了句“车胎咋拆呀”欲进行搜索车胎的拆卸过程时,由于该句话包含了方言“咋”,无法准确的辨别用户的识别需求,那么通过校正处理,可以将该句“车胎咋拆呀”校正处理为“车胎怎么拆呀”,这样,可以根据“车胎怎么拆呀”这句语音数据进行搜索,实现了较为完整的识别出用户的搜索意图。

通过在满足预设状态时,对语音数据进行校正处理,可以增加搜索的可靠性与准确性。

步骤s170:搜索与所述校正语音数据匹配的搜索结果并输出所述搜索结果。

作为一种方式,对语音数据进行校正后,可以直接搜索与得到的校正语音数据匹配的搜索结果并输出搜索结果。其中,搜索结果的形式以及输出形式可以参照前述步骤s140中的对应描述,在此不再赘述。

步骤s180:若不满足预设状态,丢弃所述语音数据。

可以理解的是,若网络状态不满足预设状态,那么可以直接丢弃获取到的语音数据,从而可以避免因网络异常中断带来的搜索异常的问题,提升用户体验。可选的,终端设备可以发出提示信息提醒用户等待网络状态正常后再进行搜索,避免耗电等。

本实施例提供的搜索方法,通过获取交互过程中用户的语音数据,继而若语音数据用于信息搜索,则通过预设的算法模型判断语音数据是否满足目标条件,若语音数据不满足目标条件,在检测到网络状态满足预设状态时,对语音数据进行校正处理,以得到校正语音数据,然后搜索与所述校正语音数据匹配的搜索结果并输出所述搜索结果。通过上述方式实现了在用户的语音数据不满足目标条件的情况下,通过对语音数据进行校正处理,得到校正语音数据,从而搜索与校正语音数据匹配的搜索结果并输出搜索结果,使得搜索更加准确,提升用户体验。

如图3所示,示出了本申请另一实施例提供的搜索方法的方法流程图,所述方法包括:

步骤s210:获取交互过程中用户的语音数据。

步骤s220:判断所述语音数据是否用于信息搜索。

步骤s230:若是,判断所述语音数据是否满足目标条件。

可选的,若不是用于语音搜索,则可以结束搜索过程。

步骤s240:若满足目标条件,搜索与所述语音数据匹配的搜索结果并输出所述搜索结果。

步骤s250:若不满足目标条件,检测网络状态是否满足预设状态。

步骤s261:若满足预设状态,获取预先设定的目标语音模型。

其中,本申请实施例中的目标语音模型为通过用户的语音特征数据或者用户的历史语音特征数据预先训练得到的模型。作为一种方式,可以获取用户的历史语音数据,将用户的历史语音数据输入机器学习模型,得到目标语音模型。可选的,机器可以根据用户的语言、语种、说话习惯等语音特征学习出适合用户语音数据特征的(即个性定制的)目标语音模型。可选的,不同的用户对应的目标语音模型不同。

作为一种方式,在判定用户的语音数据满足预设状态的情况下,可以获取预先设定的目标语音模型,以便于基于目标语音模型对用户的语音数据进行对应的校正处理。

步骤s262:基于所述目标语音模型对所述语音数据进行校正处理,以得到校正语音数据。

作为一种方式,在获得了目标语音模型之后,可以基于目标语音模型对语音数据进行校正处理,以得到校正语音数据。可选的,目标语音模型中存储了用户的大量的语音数据,即与用户的说话习惯相匹配的语音数据。例如,用户说话语速过快,经常把“电路图”说成“电图”,那么与该用户对应的目标语音模型可以把该用户说的所有“电图”都自动校正为“电路图”。通过预先定制的与用户的语音数据特征匹配的目标语音模型对语音数据进行校正处理,可以加快搜索速度,同时提升搜索的准确性。

步骤s263:将所述校正语音数据转换为文本数据。

可选的,可以利用现有的语音识别技术将校正语音数据转换为文本数据,以便于基于转换后的文本数据进行搜索。

步骤s264:搜索与所述文本数据匹配的搜索结果并输出所述搜索结果。

可选的,通过搜索与校正后的语音数据转换的文本数据匹配的搜索结果,可以满足用户的搜索需求,得到符合用户预期的搜索结果。其中,对于搜索结果的样式以及输出搜索结果的形式可以参考前述实施例中步骤s140中对应的描述,在此不再赘述。

步骤s270:若不满足预设状态,丢弃所述语音数据。

本实施例提供的搜索方法,通过获取交互过程中用户的语音数据,继而若语音数据用于信息搜索,则通过预设的算法模型判断语音数据是否满足目标条件,若语音数据不满足目标条件,在检测到网络状态满足预设状态时,获取预先设定的目标语音模型,基于目标语音模型对语音数据进行校正处理,以得到校正语音数据,然后将校正语音数据转换为文本数据,搜索与所述文本数据匹配的搜索结果并输出所述搜索结果。通过上述方式实现了在用户的语音数据不满足目标条件的情况下,通过目标语音模型对语音数据进行校正处理,得到校正语音数据,然后将校正语音数据转换为文本数据,从而搜索与文本语音数据匹配的搜索结果并输出搜索结果,提升了搜索的准确率。

如图4所示,示出了本申请又一实施例提供的搜索方法的方法流程图,所述方法包括:

步骤s310:获取交互过程中用户的语音数据。

步骤s320:判断所述语音数据是否用于信息搜索。

步骤s330:若是,判断所述语音数据是否满足目标条件。

可选的,若不是用于语音搜索,则可以结束搜索过程。

步骤s340:若满足目标条件,搜索与所述语音数据匹配的搜索结果并输出所述搜索结果。

步骤s350:若不满足目标条件,检测网络状态是否满足预设状态。

步骤s361:若满足预设状态,获取预先设定的目标语音模型。

步骤s362:基于所述目标语音模型对所述语音数据进行校正处理,以得到校正语音数据。

步骤s363:将所述校正语音数据转换为文本数据。

步骤s364:采用目标文本模型对所述文本数据进行纠正处理,以得到语义完整的文本数据。

可以理解的是,对用户的语音数据进行校正可以对用户的语音数据进行补充,例如,补充因用户语速过快或发音不清晰未能体现出来的语音数据,使得得到的语音数据是完整的。然而,对于一些用户语音数据,若是目标语音模型中未录入的语音数据,例如,用户平常不会说的语音数据,那么在用户说出这类语音数据之后,可能存在语法错误等,那么进一步的,为了提升搜索结果的准确性,可以采用目标文本模型对文本数据进行纠正处理,以得到语义完整的文本数据。其中,目标文本模型可以参考现有的语音识别技术,在此不再赘述。

例如,在一个具体的应用场景中,假设用户的语音数据为“电图,好吗?搜索一下”,按照用户的说话习惯,可以对该语音数据进行校正处理为“电路图,好吗?搜索一下”。可以理解的是,校正后的语音数据在语义上还是可能会存在误差,可能会导致搜索不准确。那么,可以继续对该校正后的语音数据转换为的文本数据进行纠正处理,可选的,可以得到“帮我搜索一下电路图好吗?”等语义完整的文本数据,使得可以根据该文本数据进行搜索,提升搜索的准确性。

步骤s365:搜索与纠正后的文本数据匹配的搜索结果并输出所述搜索结果。

参考上述描述,搜索与纠正后的文本数据匹配的搜索结果可以使得搜索结果更加准确,符合用户的搜索意图。可选的,与纠正后的文本数据匹配的搜索结果的具体形式可以不受限制,例如,图片、文字、语音、视频、铃声、广告等或者它们之间的任意组合,在此不作限定,具体可参考前述实施例中的描述。可选的,搜索结果的输出形式亦可以参照前述实施例中的描述,在此不再赘述。

步骤s370:若不满足预设状态,丢弃所述语音数据。

本实施例提供的搜索方法,实现了在用户的语音数据不满足目标条件的情况下,通过对语音数据进行校正处理,得到校正语音数据,将校正语音数据转换为文本数据,再对文本数据进行纠正处理,从而搜索与纠正处理后的文本数据匹配的搜索结果并输出搜索结果,进一步提升了搜索的准确性与可靠性,提升用户体验。

如图5所示,示出了本申请再一实施例提供的搜索方法的方法流程图,所述方法包括:

步骤s410:获取交互过程中用户的语音数据。

步骤s420:判断所述语音数据是否用于信息搜索。

步骤s430:若是,判断所述语音数据是否满足目标条件。

步骤s440:若满足目标条件,搜索与所述语音数据匹配的搜索结果并输出所述搜索结果。

步骤s450:若不满足目标条件,检测网络状态是否满足预设状态。

步骤s460:若满足预设状态,获取所述语音数据的声纹特征。

作为一种方式,假设用户会说好几种语言或者方言,如果用户换一种语言说话就可能会导致语音搜索时的识别误差。例如,一个四川人说普通话或者学着用东北话进行语音搜索,那么可能会因为语音发音不准导致语音识别不准确。需要说明的是,这里的发音不准确不是用户吐字不清晰,而是没有学出用户所要说话的语言惯用的表达方式,例如,一个四川人说东北话远没有东北人自己说东北话听起来地道,那么就会容易造成语音搜索误差。

为了减小这种误差,那么在检测到用户的语音数据是用于信息搜索且网络状态满足预设状态的情况下,可以获取用户的语音数据的声纹特征。可选的,声纹特征可以包括用户的语音数据对应的语音的频率、强度、声压岁时间推移的变化特征或某一时段内声波强度和频率的特征。作为一种实现方式,可以采用滤波器等方式对用户的语音数据进行分析得到声纹特征,或者也可以通过其他获取声纹特征的方法来获取,在此不作限定。

通过获取用户的语音数据的声纹特征,可以在哪怕用户用不同的语言或语种进行语音表达的情况下,可以根据用户的声纹特征识别出与用户的语音数据特征匹配的搜索结果,提升用户体验。

步骤s470:判断所述声纹特征是否为预设的声纹特征。

可选的,可以获取用户采用原始语音数据(即用户经常使用的数据或者用户最开始只应该的语音数据)进行语音搜索时的语音的声纹特征,并将其作为预设的声纹特征。那么在获取了用户采用不同的语言或语种进行语音搜索时的语音数据的声纹特征时,可以将该声纹特征与预设的声纹特征进行比较,如果相同,那么可以判定该声纹特征为预设的声纹特征;如果不相同,那么可以判定该声纹特征不为预设的声纹特征。

通过判断所述声纹特征是否为预设的声纹特征,可以避免对不是预设的声纹特征的语音数据进行语音搜索,从而可以节省资源。

步骤s471:若为预设的声纹特征,将所述语音数据转换为目标语音数据。

其中,目标语音数据可以理解为与用户的原始语音数据,即无论用户采用什么语言或语种进行语音搜索,对于每个用户而言,都可以适配一种适合该用户的目标语音数据。可选的,若某一用户采用了不同的语音数据进行搜索,只需要把用户所说的不同于用户对应的目标语音数据的数据转换为目标语音数据,即可实现准确的语音搜索。

例如,在一个具体的应用场景中,假设用户对于“这周末去哪里玩?”,这句语音数据有很多种不同的表达方式,例如,用户用四川话可以表达为“嘞个周末去哪哈耍也”,用户也可以用兰州话表达为“介个周末组啥去捏”,用户也可以用新疆话表达为“这周末干哈去尼”。可选的,不管用户采用什么语言或语种进行语音搜索,若语音数据的声纹特征为预设的声纹特征,那么可以将语音数据转换为目标语音数据,可选的,此处用户的目标语音数据可以为“这个周末去哪里耍呢”。

步骤s472:对所述目标语音数据进行校正处理,以得到校正语音数据。

其中,对目标语音数据进行校正处理的具体实施方式可以参照前述实施例中的描述,在此不再赘述。

步骤s473:搜索与所述校正语音数据匹配的搜索结果并输出所述搜索结果。

步骤s474:若不为预设的声纹特征,丢弃所述语音数据。

可以理解的是,若不为预设的声纹特征,那么可能是别的用户的语音数据或者可能是不法分子仿冒的语音数据,为了避免错误识别,可以将该类语音数据进行丢弃,提升语音搜索的安全性。

步骤s480:若不满足预设状态,丢弃所述语音数据。

本实施例提供的搜索方法,实现了在用户的语音数据不满足目标条件的情况下,若检测到网络状态满足预设状态,获取语音数据的声纹特征,然后在所述声纹特征为预设的声纹特征的情况下,将语音数据转换为目标语音数据,继而对目标语音数据进行校正处理,得到校正语音数据,从而搜索与校正语音数据匹配的搜索结果并输出搜索结果,使得搜索更加准确,提升用户体验。

如图6所示,示出了本申请实施例提供的搜索装置500的结构框图,所述装置500运行于具有显示屏或其他音频或图像输出装置的终端设备,终端设备可以是智能手机、平板电脑、穿戴式智能终端等电子设备,所述装置500包括:

获取模块510,用于获取交互过程中用户的语音数据。

判断模块520,用于若所述语音数据用于信息搜索,则通过预设的算法模型判断所述语音数据是否满足目标条件。

其中,所述目标条件用于表征可根据语音数据完整的识别出用户的搜索意图。

处理模块530,用于若所述语音数据不满足目标条件,在检测到网络状态满足预设状态时,对所述语音数据进行校正处理,以得到校正语音数据。

可选的,所述装置500还可以包括:声纹特征获取模块,用于获取所述语音数据的声纹特征;判断单元,用于判断所述声纹特征是否为预设的声纹特征;处理单元,用于若是,将所述语音数据转换为目标语音数据。

作为一种方式,处理模块530具体可以用于对所述目标语音数据进行校正处理。

作为一种方式,处理模块530,具体可以用于获取预先设定的目标语音模型,所述目标语音模型为通过用户的语音特征数据或者用户的历史语音特征数据训练得到的模型;基于所述目标语音模型对所述语音数据进行校正处理。

可选的,所述装置500还可以包括:转换模块,用于将所述校正语音数据转换为文本数据;纠正处理模块,用于采用目标文本模型对所述文本数据进行纠正处理,以得到语义完整的文本数据。

搜索模块540,用于搜索与所述校正语音数据匹配的搜索结果并输出所述搜索结果。

作为一种方式,搜索模块540,具体可以用于将所述校正语音数据转换为文本数据;搜索与所述文本数据匹配的搜索结果并输出所述搜索结果。

可选的,搜索模块540,具体还可以用于搜索与纠正后的文本数据匹配的搜索结果并输出所述搜索结果。

本实施例提供的搜索装置,通过获取交互过程中用户的语音数据,继而若语音数据用于信息搜索,则通过预设的算法模型判断语音数据是否满足目标条件,若语音数据不满足目标条件,在检测到网络状态满足预设状态时,对语音数据进行校正处理,以得到校正语音数据,然后搜索与所述校正语音数据匹配的搜索结果并输出所述搜索结果。通过上述方式实现了在用户的语音数据不满足目标条件的情况下,通过对语音数据进行校正处理,得到校正语音数据,从而搜索与校正语音数据匹配的搜索结果并输出搜索结果,使得搜索更加准确,提升用户体验。

本申请实施例提供的搜索装置用于实现前述方法实施例中相应的搜索方法,并具有相应的方法实施例的有益效果,在此不再赘述。

所属领域的技术人员可以清楚地了解到,本申请实施例提供的搜索装置能够实现前述方法实施例中的各个过程,为描述的方便和简洁,上述描述装置和模块的具体工作过程,可以参阅前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的实施例中,所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。

另外,在本申请实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。

请参阅图7,其示出了本申请实施例提供的一种终端设备101的结构框图。该终端设备101可以是智能手机、平板电脑、电子书等能够运行应用程序的终端设备。本申请中的终端设备101可以包括一个或多个如下部件:处理器1012、存储器1014以及一个或多个应用程序,其中一个或多个应用程序可以被存储在存储器1014中并被配置为由一个或多个处理器1012执行,一个或多个程序配置用于执行如前述方法实施例所描述的方法。

处理器1012可以包括一个或者多个处理核。处理器1012利用各种接口和线路连接整个终端设备101内的各个部分,通过运行或执行存储在存储器1014内的指令、程序、代码集或指令集,以及调用存储在存储器1014内的数据,执行终端设备101的各种功能和处理数据。可选地,处理器1012可以采用数字信号处理(digitalsignalprocessing,dsp)、现场可编程门阵列(field-programmablegatearray,fpga)、可编程逻辑阵列(programmablelogicarray,pla)中的至少一种硬件形式来实现。处理器1012可集成中央处理器(centralprocessingunit,cpu)、图像处理器(graphicsprocessingunit,gpu)和调制解调器等中的一种或几种的组合。其中,cpu主要处理操作系统、用户界面和应用程序等;gpu用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器1012中,单独通过一块通信芯片进行实现。

存储器1014可以包括随机存储器(randomaccessmemory,ram),也可以包括只读存储器(read-onlymemory)。存储器1014可用于存储指令、程序、代码、代码集或指令集。存储器1014可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端设备101在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

请参阅图8,其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读存储介质700中存储有程序代码,所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质700可以是诸如闪存、eeprom(电可擦除可编程只读存储器)、eprom、硬盘或者rom之类的电子存储器。可选地,计算机可读存储介质700包括非易失性计算机可读介质(non-transitorycomputer-readablestoragemedium)。计算机可读存储介质700具有执行上述方法中的任何方法步骤的程序代码710的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码710可以例如以适当形式进行压缩。

综上所述,本申请实施例提供的搜索方法、装置、终端设备及存储介质,通过获取交互过程中用户的语音数据,继而若语音数据用于信息搜索,则通过预设的算法模型判断语音数据是否满足目标条件,若语音数据不满足目标条件,在检测到网络状态满足预设状态时,对语音数据进行校正处理,以得到校正语音数据,然后搜索与所述校正语音数据匹配的搜索结果并输出所述搜索结果。通过上述方式实现了在用户的语音数据不满足目标条件的情况下,通过对语音数据进行校正处理,得到校正语音数据,从而搜索与校正语音数据匹配的搜索结果并输出搜索结果,使得搜索更加准确,提升用户体验。

最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1