通话语音显示方法、终端和计算机可读存储介质与流程

文档序号:20286359发布日期:2020-04-07 16:08阅读:106来源:国知局
通话语音显示方法、终端和计算机可读存储介质与流程

本发明涉及通信技术领域,尤其涉及一种通话语音显示方法、终端和计算机可读存储介质。



背景技术:

随着移动通信技术的发展,手机已经成为人们日常生活中必不可少的一种工具,在手机使用上,用户的要求也越来越高,希望手机能够为用户提供更便捷、更全面的体验,在交互方面能够更加智能化。用户在使用手机时,可以通过手机进行语音通话、视频通话等,目前的通话模式中,主要包括听筒模式、免提模式和耳机模式,用户在使用过程中,可以根据自己的需求和使用场景,选择不同的通话模式,并且可以实现各个模式之间的转化。

用户在使用手机通话转化模式过程中,可以从听筒模式转化为免提模式,或者从听筒模式转化成耳机模式,以满足自己的特殊需求。通话模式转化时,由于用户手机听筒离开耳朵,而免提模式或者耳机模式还没有打开,就会发生在这个时间段里,用户无法听到对方发送过来的语音信息,有一个时间差造成接收的信息不完整,则需要要求对方重复刚才的内容,造成通话效率降低,给用户带来困扰。

目前通话模式的现有技术中,如果用户想要获得这部分丢失的信息,只能通过对方复述转化时间段的内容,并没有解决这个问题的具体技术。



技术实现要素:

本发明的主要目的在于提出一种通话语音显示方法、终端和计算机可读存储介质,旨在将用户更换通话模式过程中未听到的语音再现给用户。

为实现上述目的,本发明提供了一种通话语音显示方法,包括:检测终端转换通话模式的起始时间和结束时间;按所述起始时间和所述结束时间,对已存储的第一通话语音进行截取得到第二通话语音;识别所述第二通话语音的内容并进行显示。

为实现上述目的,本发明还提供了一种终端,所述终端具有处理器、存储器和通信总线;所述通信总线用于实现处理器和存储器之间的连接通信;所述处理器用于执行存储器中存储的通话语音显示程序,以实现以下步骤:检测终端转换通话模式的起始时间和结束时间;按所述起始时间和所述结束时间,对已存储的第一通话语音进行截取得到第二通话语音;识别所述第二通话语音的内容并进行显示。

为实现上述目的,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述步骤。

根据以上技术方案,可知本发明的通话语音显示方法、终端和计算机可读存储介质至少具有以下优点:

根据本发明的技术方案,首先对通话语音进行存储,并检测用户更换通话模式的起始时间和结束时间,起始时间和结束时间之间的时间段正是用户容易通话过程中容易漏掉语音的时间,按照起始时间和结束时间截取存储语音后,对其进行识别,识别后的内容显示给用户,从而使得用户即使切换通话模式,也不会漏掉通话内容。

附图说明

图1是根据本发明的一个实施例的通话语音显示的流程图;

图2是根据本发明的一个实施例的通话语音显示的流程图;

图3是根据本发明的一个实施例的通话语音显示的示意图;

图4是根据本发明的一个实施例的通话语音显示的流程图;

图5是根据本发明的一个实施例的终端的框图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身没有特有的意义。因此,“模块”、“部件”或“单元”可以混合地使用。

如图1所示,本发明的一个实施例中提供了一种通话语音显示方法,包括:

步骤s110,检测终端转换通话模式的起始时间和结束时间。

在本实施例中,对检测终端转换通话模式的方式不进行限制,例如,可以通过检测用户的姿态、动作判断用户是否切换免提、耳机、听筒的模式。

步骤s120,按起始时间和结束时间,对已存储的第一通话语音进行截取得到第二通话语音。

在本实施例中,需要注意的是,起始时间和结束时间仅作为截取依据,截取的时间可能大于或小于起始时间和结束时间的时间长度。

在本实施例中,正常通话下,语音信号是实时信号,为了保证转换时间段里,语音信息的完整性,必须要记录到“开始”点之前和“停止”点之后的信息。在终端的语音输出端口处设置一个输出缓存器,动态的保存一定长度的语音信息。

具体地,语音输出端口设置的输出缓存器可以采用类似队列结构,动态保存一定长度的语音信息,对缓存器中的语音信息进行实时筛选。这段信息可以是触发时间段的语音,也可能不包含这个时间段的语音,取决于触发的开始和停止时间点。语音输出缓存器就类似于一个过滤器,并且会有一个容量的最大值,当缓存器达到最大值,并且没有符合触发条件的语音信息,就对其进行覆盖;如果缓存器中保存的信息满足符合触发条件的信息,就对其保留,并输出进行语音信息的转化,显示在手机通话界面的屏幕上。

步骤s130,识别第二通话语音的内容并进行显示。

根据本实施例的技术方案,首先对通话语音进行存储,并检测用户更换通话模式的起始时间和结束时间,起始时间和结束时间之间的时间段正是用户容易通话过程中容易漏掉语音的时间,按照起始时间和结束时间截取存储语音后,对其进行识别,识别后的内容显示给用户,从而使得用户即使切换通话模式,也不会漏掉通话内容。

如图2所示,本发明的一个实施例中提供了一种通话语音显示方法,包括:

步骤s210,检测终端上的接近传感器、光照传感器和/或角度传感器的状态,根据状态符合预设条件时,确定通话状态开始转换并确定起始时间。

在本实施例中,可以通过检测听筒接近传感器、光照传感器和角度传感器的状态,来预判手机可能发生的状态,判断是否开始切换通话模式。具体地:

1)当接近传感器检测到手机离开用户耳朵,距离达到一定的距离的阈值,则满足了开始的触发条件。接近传感器可以通过检测标识,当t=0,手机处于用户耳朵位置;t=1,手机离开用户耳朵,并达到一定的距离,即可确认为非听筒模式,此时可触发检测开始满足;

2)通过光照传感器检测到环境光照满足预定的变化阈值。当用户在使用听筒模式打电话的时候,用户会挡住光线,当手机离开耳朵移动到用户身前的时候,手机感知到周围的光线逐渐变强,可以通过手机的光感传感器,检测手机的光线变化值,当达到一定变化阈值时,即可触发检测开始;

3)通过角度传感器检测手机和水平面的夹角变化阈值。当手机位于耳朵位置时,手机与水平面的夹角几乎为90°,语音模式切换时,手机发生移动,与水平面的夹角会发生变化,可以通过角度传感器,检测手机与水平面的角度,当达到一定变化阈值,即可触发。

步骤s220,检测终端显示的免提按钮是否被触发,在免提按钮被触发时确定通话状态转换完毕并确定结束时间。

在本实施例中,停止触发则根据不同的模式有不同的停止条件。对于免提模式,可以监听屏幕“免提”按钮;对于耳机模式,当插耳机的时候,驱动上报当前状态,当收到上报的状态后,转化语音通道为耳机模式,确认通话模式转换结束。具体地,对于免提模式,可以通过监听用户是否点击“免提”按钮的来触发响应。当用户启动免提模式的时候,会通过点击通话界面的免提按钮,所以可以通过检测按钮是否点击,来触发停止。

步骤s230,从起始时间向前搜索第一通话语音的波形中振幅小于预设值的第一位置,从结束时间向后搜索第一通话语音的波形中振幅小于预设值的第二位置,对第一通话语音中第一位置和第二位置之间的部分进行截取。

在本实施例中,利用平均检测法,检测“开始”触发点前的语音波形低点作为完整句段的起点,检测“停止”触发点后的语音波形低点作为完整句段的终点。最后将截取的完整语音句段以进行文本转换。在语音通话过程中,通话的语音包是实时输出的,为了保证从听筒模式到免提模式或者耳机模式转化过程中语音信息的完整性,需要对对方传送过来的语音进行一个完整性的提取,保证输出的是一个完整的语音,便于显示到通话界面,用户能够理解输出文本的含义,这里就有一个关于如何断句,并且提取完整语句的技术,即语音完整输出的检测技术。在本实施例中可以采取以下形式:

如图3所示,通话过程中的语音信息是以语音波形的方式输出,语音波形会根据用户的语音变化对应不同的波形变化。当用户在通话过程中,会产生不同振幅的波形,鉴于此,可以通过对语音波形的平均检测分析,得到完整的语音。在满足条件的缓存器语音片段中,从“开始”触发点波形向前搜索,检测到波形振幅接近0时,可以判断此时用户没有发出语音信号,这个点作为截取片段的起点;再次从“停止”触发点向后搜索,检测到波形振幅接近0时,可以判断测试用户已完成一段语音,此时没有发出语音信号,这个点作为句段的终点。这样就可以将用户的语音片段进行完整输出。

步骤s240,将第二通话语音传输至云端进行识别。

在本实施例中,现有语音转换的技术比较成熟,但仍存在一定缺陷。本实施例中将语音句段送至云端进行识别和文本转换,利用强大的云计算,不仅可以提高识别转换速度,同时还可以识别不同的方言和口音,增强了语音识别的鲁棒性。

如图4所示,本发明的一个实施例中提供了一种通话语音显示方法,包括:

步骤410,检测终端上的接近传感器、光照传感器和/或角度传感器的状态,根据状态符合预设条件时,确定通话状态开始转换并确定起始时间。

步骤s420,检测终端的驱动上报的信息,在驱动上报终端的语音通道发生变化时,确定通话状态转换完毕并确定结束时间。

在本实施例中,当插耳机的时候,驱动将当前状态上报,当收到上报的状态后,转化语音通道为耳机模式。具体地,对于耳机模式,可以通过驱动侧上报状态来进行语音通道的自动切换。当用户启用耳机模式时,驱动模块会将当前语音通道状态上报,当收到上报的状态后,自动转化语音通道为耳机模式,所以可以根据收到的转化语音通道的通知来触发停止。

步骤s430,取在起始时间之前预设时间的第一时间、在结束时间之后预设时间的第二时间,对第一通话语音中第一时间和第二时间之间的部分进行截取。

在本实施例中,为了获取完整的语音片段,除了对输出波形通过缓存器的方式进行检测,获取对应语音信号外,也可以将缓存器中保存的触发时间短的整段语音以及“开始”“停止”触发点之间输出的语音信号,将这两段语音信号上传到云端,进行匹配识别,转化为文本文字,通过对文字进行对比,以语句之间的标点符号作为对比标准,对文本信息进行完整输出。具体地,在满足需求的缓存器中存储的语音片段,可以通过时间轴来截取完整的语音输出。在“开始”触发点之前截取之前10ms~20ms的语音,在“停止”触发点之后截取10ms~20ms的语音,这一片段的语音也可以做完一段完整语音输出。因为在用户从听筒模式切换到免提模式或者耳机模式过程中,丢失的语音差不多是2s~3s左右,所以前后递延10ms~20ms,完全可以截取到完整的语音。

步骤s440,将第二通话语音传输至云端进行识别。

在本实施例中,将截取的完整语音信号传送至云端,匹配云端海量资源,同时对非普通话的方言和无法识别的语音信号进行自学纠错,提高转化语音的速率,提供更人性化的识别结果。最后将文本结果显示在屏幕。

如图5所示,本发明的一个实施例中提供了一种终端,终端具有处理器510、存储器520和通信总线530;通信总线530用于实现处理器510和存储器520之间的连接通信;处理器510用于执行存储器520中存储的通话语音显示程序,以实现以下步骤:

检测终端转换通话模式的起始时间和结束时间。

在本实施例中,对检测终端转换通话模式的方式不进行限制,例如,可以通过检测用户的姿态、动作判断用户是否切换免提、耳机、听筒的模式。

按起始时间和结束时间,对已存储的第一通话语音进行截取得到第二通话语音。

在本实施例中,需要注意的是,起始时间和结束时间仅作为截取依据,截取的时间可能大于或小于起始时间和结束时间的时间长度。

在本实施例中,正常通话下,语音信号是实时信号,为了保证转换时间段里,语音信息的完整性,必须要记录到“开始”点之前和“停止”点之后的信息。在终端的语音输出端口处设置一个输出缓存器,动态的保存一定长度的语音信息。

具体地,语音输出端口设置的输出缓存器可以采用类似队列结构,动态保存一定长度的语音信息,对缓存器中的语音信息进行实时筛选。这段信息可以是触发时间段的语音,也可能不包含这个时间段的语音,取决于触发的开始和停止时间点。语音输出缓存器就类似于一个过滤器,并且会有一个容量的最大值,当缓存器达到最大值,并且没有符合触发条件的语音信息,就对其进行覆盖;如果缓存器中保存的信息满足符合触发条件的信息,就对其保留,并输出进行语音信息的转化,显示在手机通话界面的屏幕上。

识别第二通话语音的内容并进行显示。

根据本实施例的技术方案,首先对通话语音进行存储,并检测用户更换通话模式的起始时间和结束时间,起始时间和结束时间之间的时间段正是用户容易通话过程中容易漏掉语音的时间,按照起始时间和结束时间截取存储语音后,对其进行识别,识别后的内容显示给用户,从而使得用户即使切换通话模式,也不会漏掉通话内容。

如图5所示,本发明的一个实施例中提供了一种终端,终端具有处理器510、存储器520和通信总线530;通信总线530用于实现处理器510和存储器520之间的连接通信;处理器510用于执行存储器520中存储的通话语音显示程序,以实现以下步骤:

检测终端上的接近传感器、光照传感器和/或角度传感器的状态,根据状态符合预设条件时,确定通话状态开始转换并确定起始时间。

在本实施例中,可以通过检测听筒接近传感器、光照传感器和角度传感器的状态,来预判手机可能发生的状态,判断是否开始切换通话模式。具体地:

1)当接近传感器检测到手机离开用户耳朵,距离达到一定的距离的阈值,则满足了开始的触发条件。接近传感器可以通过检测标识,当t=0,手机处于用户耳朵位置;t=1,手机离开用户耳朵,并达到一定的距离,即可确认为非听筒模式,此时可触发检测开始满足;

2)通过光照传感器检测到环境光照满足预定的变化阈值。当用户在使用听筒模式打电话的时候,用户会挡住光线,当手机离开耳朵移动到用户身前的时候,手机感知到周围的光线逐渐变强,可以通过手机的光感传感器,检测手机的光线变化值,当达到一定变化阈值时,即可触发检测开始;

3)通过角度传感器检测手机和水平面的夹角变化阈值。当手机位于耳朵位置时,手机与水平面的夹角几乎为90°,语音模式切换时,手机发生移动,与水平面的夹角会发生变化,可以通过角度传感器,检测手机与水平面的角度,当达到一定变化阈值,即可触发。

检测终端显示的免提按钮是否被触发,在免提按钮被触发时确定通话状态转换完毕并确定结束时间。

在本实施例中,停止触发则根据不同的模式有不同的停止条件。对于免提模式,可以监听屏幕“免提”按钮;对于耳机模式,当插耳机的时候,驱动上报当前状态,当收到上报的状态后,转化语音通道为耳机模式,确认通话模式转换结束。具体地,对于免提模式,可以通过监听用户是否点击“免提”按钮的来触发响应。当用户启动免提模式的时候,会通过点击通话界面的免提按钮,所以可以通过检测按钮是否点击,来触发停止。

从起始时间向前搜索第一通话语音的波形中振幅小于预设值的第一位置,从结束时间向后搜索第一通话语音的波形中振幅小于预设值的第二位置,对第一通话语音中第一位置和第二位置之间的部分进行截取。

在本实施例中,利用平均检测法,检测“开始”触发点前的语音波形低点作为完整句段的起点,检测“停止”触发点后的语音波形低点作为完整句段的终点。最后将截取的完整语音句段以进行文本转换。在语音通话过程中,通话的语音包是实时输出的,为了保证从听筒模式到免提模式或者耳机模式转化过程中语音信息的完整性,需要对对方传送过来的语音进行一个完整性的提取,保证输出的是一个完整的语音,便于显示到通话界面,用户能够理解输出文本的含义,这里就有一个关于如何断句,并且提取完整语句的技术,即语音完整输出的检测技术。在本实施例中可以采取以下形式:

如图3所示,通话过程中的语音信息是以语音波形的方式输出,语音波形会根据用户的语音变化对应不同的波形变化。当用户在通话过程中,会产生不同振幅的波形,鉴于此,可以通过对语音波形的平均检测分析,得到完整的语音。在满足条件的缓存器语音片段中,从“开始”触发点波形向前搜索,检测到波形振幅接近0时,可以判断此时用户没有发出语音信号,这个点作为截取片段的起点;再次从“停止”触发点向后搜索,检测到波形振幅接近0时,可以判断测试用户已完成一段语音,此时没有发出语音信号,这个点作为句段的终点。这样就可以将用户的语音片段进行完整输出。

将第二通话语音传输至云端进行识别。

在本实施例中,现有语音转换的技术比较成熟,但仍存在一定缺陷。本实施例中将语音句段送至云端进行识别和文本转换,利用强大的云计算,不仅可以提高识别转换速度,同时还可以识别不同的方言和口音,增强了语音识别的鲁棒性。

如图5所示,本发明的一个实施例中提供了一种终端,终端具有处理器510、存储器520和通信总线530;通信总线530用于实现处理器510和存储器520之间的连接通信;处理器510用于执行存储器520中存储的通话语音显示程序,以实现以下步骤:

检测终端上的接近传感器、光照传感器和/或角度传感器的状态,根据状态符合预设条件时,确定通话状态开始转换并确定起始时间。

检测终端的驱动上报的信息,在驱动上报终端的语音通道发生变化时,确定通话状态转换完毕并确定结束时间。

在本实施例中,当插耳机的时候,驱动将当前状态上报,当收到上报的状态后,转化语音通道为耳机模式。具体地,对于耳机模式,可以通过驱动侧上报状态来进行语音通道的自动切换。当用户启用耳机模式时,驱动模块会将当前语音通道状态上报,当收到上报的状态后,自动转化语音通道为耳机模式,所以可以根据收到的转化语音通道的通知来触发停止。

取在起始时间之前预设时间的第一时间、在结束时间之后预设时间的第二时间,对第一通话语音中第一时间和第二时间之间的部分进行截取。

在本实施例中,为了获取完整的语音片段,除了对输出波形通过缓存器的方式进行检测,获取对应语音信号外,也可以将缓存器中保存的触发时间短的整段语音以及“开始”“停止”触发点之间输出的语音信号,将这两段语音信号上传到云端,进行匹配识别,转化为文本文字,通过对文字进行对比,以语句之间的标点符号作为对比标准,对文本信息进行完整输出。具体地,在满足需求的缓存器中存储的语音片段,可以通过时间轴来截取完整的语音输出。在“开始”触发点之前截取之前10ms~20ms的语音,在“停止”触发点之后截取10ms~20ms的语音,这一片段的语音也可以做完一段完整语音输出。因为在用户从听筒模式切换到免提模式或者耳机模式过程中,丢失的语音差不多是2s~3s左右,所以前后递延10ms~20ms,完全可以截取到完整的语音。

将第二通话语音传输至云端进行识别。

在本实施例中,将截取的完整语音信号传送至云端,匹配云端海量资源,同时对非普通话的方言和无法识别的语音信号进行自学纠错,提高转化语音的速率,提供更人性化的识别结果。最后将文本结果显示在屏幕。

本发明的一个实施例中提供了一种计算机可读存储介质,计算机可读存储介质存储有一个或者多个程序,一个或者多个程序可被一个或者多个处理器执行,以实现以下步骤:

检测终端转换通话模式的起始时间和结束时间。

在本实施例中,对检测终端转换通话模式的方式不进行限制,例如,可以通过检测用户的姿态、动作判断用户是否切换免提、耳机、听筒的模式。

按起始时间和结束时间,对已存储的第一通话语音进行截取得到第二通话语音。

在本实施例中,需要注意的是,起始时间和结束时间仅作为截取依据,截取的时间可能大于或小于起始时间和结束时间的时间长度。

在本实施例中,正常通话下,语音信号是实时信号,为了保证转换时间段里,语音信息的完整性,必须要记录到“开始”点之前和“停止”点之后的信息。在终端的语音输出端口处设置一个输出缓存器,动态的保存一定长度的语音信息。

具体地,语音输出端口设置的输出缓存器可以采用类似队列结构,动态保存一定长度的语音信息,对缓存器中的语音信息进行实时筛选。这段信息可以是触发时间段的语音,也可能不包含这个时间段的语音,取决于触发的开始和停止时间点。语音输出缓存器就类似于一个过滤器,并且会有一个容量的最大值,当缓存器达到最大值,并且没有符合触发条件的语音信息,就对其进行覆盖;如果缓存器中保存的信息满足符合触发条件的信息,就对其保留,并输出进行语音信息的转化,显示在手机通话界面的屏幕上。

识别第二通话语音的内容并进行显示。

根据本实施例的技术方案,首先对通话语音进行存储,并检测用户更换通话模式的起始时间和结束时间,起始时间和结束时间之间的时间段正是用户容易通话过程中容易漏掉语音的时间,按照起始时间和结束时间截取存储语音后,对其进行识别,识别后的内容显示给用户,从而使得用户即使切换通话模式,也不会漏掉通话内容。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1