1.本技术涉及电子设备技术领域,更具体地,涉及一种文本展示方法、装置、电子设备及存储介质。
背景技术:2.随着科技水平和生活水平的快速进步,电子设备(例如智能手机、平板电脑等)已经成为人们生活中常用的电子产品之一。由于电子设备具备通信功能,因此人们常利用电子设备进行语音会话(例如语音会议、语音聊天、视频通话等)。
技术实现要素:3.本技术提出了一种文本展示方法、装置、电子设备及存储介质,可以便捷地实现语音会话中语音识别的文本内容与发言者信息的关联展示。
4.第一方面,本技术实施例提供了一种文本展示方法,所述方法包括:显示语音会话的会话界面;基于所述会话界面的界面内容,识别所述语音会话的发言者信息;对所述语音会话的发言语音进行识别,获得所述发言语音对应的识别文本;将所述识别文本与所述发言者信息关联后进行展示。
5.第二方面,本技术实施例提供了一种文本展示装置,所述装置包括:界面显示模块、用户识别模块、语音识别模块以及识别输出模块,其中,所述界面显示模块用于显示语音会话的会话界面;所述用户识别模块用于基于所述会话界面的界面内容,识别所述语音会话的发言者信息;所述语音识别模块用于对所述语音会话的发言语音进行识别,获得所述发言语音对应的识别文本;所述识别输出模块用于将所述识别文本与所述发言者信息关联后进行展示。
6.第三方面,本技术实施例提供了一种电子设备,包括:一个或多个处理器;存储器;一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个应用程序配置用于执行上述第一方面提供的文本展示方法。
7.第四方面,本技术实施例提供了一种计算机可读取存储介质,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行上述第一方面提供的文本展示方法。
8.本技术提供的方案,通过显示语音会话的会话界面,基于会话界面的界面内容,识别语音会话的发言者信息,对语音会话的发言语音进行识别,获得发言语音对应的识别文本,然后将识别文本与发言者信息关联后进行展示。由此,可以实现利用电子设备进行语音会话时,利用会话界面的界面内容,即可将发言语音对应的文本与发言语音对应的发言者关联后进行展示,避免了用户预先录入会话对象的声纹信息的繁琐问题,提升了用户体验。
附图说明
9.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
10.图1示出了本技术实施例提供的应用环境的示意图。
11.图2示出了根据本技术一个实施例的文本展示方法流程图。
12.图3示出了本技术实施例提供的一种界面示意图。
13.图4示出了根据本技术另一个实施例的文本展示方法流程图。
14.图5示出了本技术实施例提供的文本展示方法中步骤s220的一种流程图。
15.图6示出了本技术实施例提供的文本展示方法中步骤s220的另一种流程图。
16.图7示出了根据本技术又一个实施例的文本展示方法流程图。
17.图8示出了根据本技术再一个实施例的文本展示方法流程图。
18.图9示出了本技术实施例提供的另一种界面示意图。
19.图10示出了本技术实施例提供的又一种界面示意图。
20.图11示出了本技术实施例提供的再一种界面示意图。
21.图12示出了本技术实施例提供的又另一种界面示意图。
22.图13示出了本技术实施例提供的又再一种界面示意图。
23.图14示出了根据本技术又另一个实施例的文本展示方法流程图。
24.图15示出了根据本技术一个实施例的文本展示装置的一种框图。
25.图16是本技术实施例的用于执行根据本技术实施例的文本展示方法的电子设备的框图。
26.图17是本技术实施例的用于保存或者携带实现根据本技术实施例的文本展示方法的程序代码的存储单元。
具体实施方式
27.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述。
28.在一些场景中,用户利用电子设备进行语音会话时,存在需要对语音会话中的语音输出为文本的情况。并且,用户在需求查看语音对应的文本时,由于语音会话中通常包括多个会话对象,因此用户还需求查看转换的文本对应的语音所属的会话对象。
29.相关技术中,通常预先录入语音会话中不同会话对象的声纹信息,以在语音会话中,识别出不同会话对象对应的发言语音,并将不同会话对象对应的发言语音,转换为文本并与会话对象关联输出,以满足用户查看不同会话对象对应的语音转换后的文本的需求。但是,这样的方式中,需要提前将会话对象的声纹信息与会话对象进行绑定,而绑定过程需要用户进行繁琐的操作;而且,每次语音会话时的会话对象可能并不相同,在进行下一次语音会话时,则前一次语音会话时绑定的声纹信息可能并不适用。因此该方式存在操作繁琐,且不够灵活的问题。
30.针对上述问题,发明人提出了本技术实施例提供的文本展示方法、装置、电子设备
以及存储介质,可以实现利用电子设备进行语音会话时,利用会话界面的界面内容,即可将发言语音对应的文本与发言语音对应的发言者关联后进行展示,避免了用户预先录入会话对象的声纹信息的繁琐问题,提升了用户体验。其中,具体的文本展示方法在后续的实施例中进行详细的说明。
31.下面先对本技术实施例涉及的场景进行介绍。
32.如图1所示,在图1所示的场景中包括有多个电子设备100(图中仅示出2个)。其中,多个电子设备100之间可以通过网络进行通信,以实现多人的语音会话,例如语音会议、语音聊天、视频会议、视频聊天等。电子设备100在进行语音会话时,可以显示会话界面,基于会话界面的界面内容,对发言者进行识别,且对语音会话的发言语音进行识别,获得发言语音对应的识别文本,然后将识别文本与发言者信息关联后进行展示,由此实现无需录入会话对象的声纹的情况下,对语音识别的文本与发言者关联展示,避免了相关技术中用户操作繁琐的问题,提升了用户体验。
33.下面再结合附图对本技术实施例提供的文本展示方法进行详细介绍。
34.请参阅图2,图2示出了本技术一个实施例提供的文本展示方法的流程示意图。在具体的实施例中,所述文本展示方法应用于如图15所示的文本展示装置400以及配置有所述文本展示装置400的电子设备100(图16)。下面将以电子设备为例,说明本实施例的具体流程,当然,可以理解的,本实施例所应用的电子设备可以为智能手机、平板电脑、智能手表、电子书等,在此不做限定。下面将针对图2所示的流程进行详细的阐述,所述文本展示方法具体可以包括以下步骤:
35.步骤s110:显示语音会话的会话界面。
36.在本技术实施例中,电子设备可以在进行语音会话的情况下,对语音会话的会话界面进行显示。其中,语音会话可以为语音通话、语音会议、视频会议、语音聊天、视频聊天等通过语音进行的会话;会话界面为语音会话对应的应用程序执行语音会话时所显示的会话界面。
37.在一些实施方式中,会话界面中可以包括用于控制语音会话的控件、会话对象的用户标识等。控制语音会话的控件可以包括用于关闭语音会话、控制语音会话的语音输入音量、控制语音会话的语音输出音量的控件等,在此不做限定;用户标识可以为用户的头像、用户名等用于表征用户身份的标识,具体的用户标识可以不做限定。当然,会话界面中包括的内容并不局限于此,例如,还可以包括用于管理参与语音会话的会话对象的控件等,再例如,语音会话为远程视频会话时,还可以包括用于展示远程视频会话的视频图像的区域。
38.步骤s120:基于所述会话界面的界面内容,识别所述语音会话的发言者信息。
39.在本技术实施例中,电子设备在执行语音会话的过程中,可以基于会话界面的界面内容,对语音会话的发言者信息进行识别,进而便于后续将语音转换后的文本与发言者信息关联进行展示。可以理解地,会话界面中通常包括与会话对象的用户标识(例如用户头像、用户名等)关联且用于展示发言状态的状态控件、会话的视频图像等,通过对这些内容进行识别,则可以得到不同时刻的发言者,即处于发言状态的会话对象,得到发言者信息。其中,发言者信息可以包括处于发言状态的会话对象的对象信息,例如基于会话界面的界面内容能够识别到的用户标识、视频图像中的人物图像等。
40.在一些实施方式中,电子设备执行步骤s120至步骤s140之前,可以确定当前是否开启语音字幕的功能,该语音字幕的功能用于实现对音频进行文字识别,以对音频对应的文本进行展示。在开启语音字幕的功能的情况下,则电子设备可以执行步骤s120至步骤s140,以实现本技术实施例提供的文本展示方法,从而将语音会话中发言语音对应的文本与发言者信息关联展示。
41.在一种可能的实施方式中,电子设备在开启语音字幕的功能的情况下,还可以识别当前需进行文字识别的场景是否为语音会话的场景,若为语音会话的场景,则可以执行步骤s120至步骤s140,以便将语音会话中发言语音对应的文本与发言者信息关联展示。
42.步骤s130:对所述语音会话的发言语音进行识别,获得所述发言语音对应的识别文本。
43.在本技术实施例中,电子设备在执行语音会话时,还可以对语音会话中的发言语音进行识别,从而得到发言语音对应的识别文本,即对发言语音进行文本转换,得到的文本内容,以便后续将识别文本与发言者信息关联后进行显示,从而方便用户查看。
44.在一些实施方式中,电子设备可以实时获取语音会话的发言语音,即语音会话的音频流,并基于语音转换的目标语言类型,将发言语音识别和转换为目标语言类型的文本内容,作为发言语音对应的识别文本。其中,目标语言类型可以为中文、英文、韩文等,在此不做限定。可选地,电子设备可以将发言语音发送至云端服务器,云端服务器对发言语音进行语音转文本(speech to text,stt)后,将识别得到的文本内容返回至电子设备,从而电子设备可以获取到对发言语音进行识别后得到的识别文本;可选地,电子设备也可以通过内置的stt算法,将语音会话中的发言语音转换为文本内容。当然,电子设备对语音会话的发言语音进行识别的具体识别方式可以不做限定。
45.在一种可能的实施方式中,上述目标语言类型可以为预先设置的语言,例如,电子设备可以响应于用户输入的语言设置操作,将语言设置操作所选择的语言类型,作为目标语言类型;上述目标语言类型也可以为默认的语言类型,例如,若未预先设置目标语言类型,则可以默认电子设备当前的系统语言作为目标语言类型。
46.需要说明的是,本技术实施例中,电子设备执行基于会话界面的界面内容,识别语音会话的发言者信息的步骤,与执行对语音会话的发言语音进行识别,获得发言语音对应的识别文本的步骤之间的执行顺序可以不做限定,即步骤s120与步骤s130之间的执行顺序可以不做限定。例如,电子设备可以先执行步骤s120,再执行步骤s130,也可以先执行步骤s130,再执行步骤s120,也可以并行执行步骤s120与步骤s130。
47.步骤s140:将所述识别文本与所述发言者信息关联后进行展示。
48.在本技术实施例中,电子设备在执行语音会话时,识别得到上述发言者信息,以及发言语音对应的识别文本后,则可以将识别文本与发言者信息关联后进行展示,以便用户查看识别文本时,能够知晓识别文本对应的发言语音所属的会话对象,从而可以实现一些场景下,用户快速对语音会话中的不同会话对象的发言内容进行文本记录。其中,电子设备将识别文本与发言者信息关联后进行展示时,可以是将识别文本与处于发言状态的会话对象的对象信息关联后进行展示,例如将识别文本与会话界面中识别到的用户标识关联后的进行展示。
49.在一些实施方式中,识别文本可以包括多条文本内容,电子设备可以将每条文本
内容与对应的会话对象的对象信息关联进行展示。示例性地,请参阅图3,电子设备100可以在会话界面a1的指定区域103中展示每条文本内容以及每条文本内容对应的会话对象的用户名。
50.本技术实施例提供的文本展示方法,可以实现利用电子设备进行语音会话时,利用会话界面的界面内容,即可将发言语音对应的文本与发言语音对应的发言者关联后进行展示,避免了用户预先录入会话对象的声纹信息的繁琐问题,提升了用户体验。
51.请参阅图4,图4示出了本技术另一个实施例提供的文本展示方法的流程示意图。该文本展示方法应用于上述电子设备,下面将针对图4所示的流程进行详细的阐述,所述文本展示方法具体可以包括以下步骤:
52.步骤s210:显示语音会话的会话界面。
53.在本技术实施例中,步骤s210可以参阅其他实施例的内容,在此不再赘述。
54.步骤s220:基于所述会话界面的界面图像,识别所述语音会话的会话对象的发言状态。
55.在本技术实施例中,电子设备基于会话界面的界面内容,对语音会话的发言者进行识别时,可以基于会话界面的界面图像,识别语音会话的会话对象的发言状态,以识别出处于发言状态的会话对象,从而得到发言者信息。可以理解地,会话界面中通常包括用于展示会话对象的发言状态的状态控件、包含会话对象的拍摄图像的视频图像区域等相关内容,因此可以通过截取会话界面的界面图像,通过对界面图像中的相关内容进行识别,则可以识别出语音会话中会话对象的发言状态。
56.在一些实施方式中,会话界面的界面图像包括用于表征语音会话中会话对象的发言状态的状态标识,用户在查看会话界面时,可以基于状态标识,判断出当前处于发言状态的会话对象。可选地,会话界面中包括各个会话对象对应的用户标识(例如用户头像、用户名等),以及用户标识的邻近位置处的状态标识,状态标识处于第一显示状态时,则表示用户标识对应的会话对象处于发言状态;状态标识处于第二显示状态时,则表示用户标识对应的会话对象未处于发言状态。例如,请再次参阅图3,用户标识可以为用户头像,在各个用户头像的邻近位置可以显示有“喇叭”形状的状态标识,在用户头像对应的会话对象处于发言状态时,该状态标识可以以“喇叭播放”的显示状态进行显示(如图3中用户2对应的状态标识的显示状态),在用户头像对应的会话对象未处于发言状态时,该状态标识可以以“喇叭未播放”的显示状态进行显示(如图3中用户1和用户2对应的状态标识的显示状态)。
57.在该实施方式中,请参阅图5,基于会话界面的界面图像,识别语音会话的会话对象的发言状态,可以包括:
58.步骤s221a:基于所述会话界面的界面图像,识别各个会话对象对应的状态标识的显示状态;
59.步骤s222a:若第一会话对象的状态标识的显示状态满足第一状态条件,则确定所述第一会话对象处于发言状态,所述第一会话对象为所述语音会话中的任一会话对象。
60.其中,电子设备可以基于会话界面的界面图像,识别各个会话对象对应的状态标识所在的区域图像;并根据状态标识所在的区域图像,识别状态标识的显示状态。在识别出状态标识的显示状态后,则可以判断状态标识的显示状态是否满足第一状态条件,若满足第一状态条件,则确定该状态标识对应的会话对象处于发言状态;若不满足第一状态条件,
则确定该状态标识对应的会话对象不处于发言状态。第一状态条件可以是基于会话对象处于发言状态时,状态标识的显示状态所设置的条件。通过该方式,可以快捷方便地识别出会话对象是否处于发言状态。
61.可选地,电子设备在获取状态标识所在区域图像后,可以将该区域图像输入至预先训练的第一识别模型,该第一识别模型被预先训练,以根据输入的区域图像,输出是否满足第一状态条件的结果。该第一识别模型可以为神经网络等,在此不做限定。
62.在另一些实施方式中,在语音会话为远程视频会话(例如视频会议、视频聊天等)的情况下,界面图像中可以包括远程视频会话的视频图像区域,由于视频图像区域中通常包括参与远程视频会话的会话对象的用户图像,因此可以基于用户图像的嘴部区域,确定每个会话对象的嘴部状态,以确定每个会话对象是否处于发言状态。
63.在该实施方式中,请参阅图6,基于会话界面的界面图像,识别语音会话的会话对象的发言状态,可以包括:
64.步骤s221b:基于所述会话界面的界面图像,识别所述视频图像区域中每个会话对象的嘴部状态;
65.步骤s222b:若第二会话对象的嘴部状态满足第二状态条件,则确定所述第二会话对象处于发言状态,所述第二会话对象为所述语音会话中的任一会话对象。
66.其中,电子设备可以基于会话界面的界面图像,以及预先设置的各个会话对象的脸部图像,识别各个会话对象在视频图像区域中对应的用户脸部图像,即得到视频图像区域中各个用户脸部图像与各个会话对象之间的对应关系;然后,可以基于各个用户脸部图像,识别各个会话对象对应的用户脸部图像中嘴部区域,得到各个会话对象对应的嘴部区域;再基于各个会话对象对应的嘴部区域,即可确定出各个会话对象的嘴部状态。
67.在确定出远程视频会话中每个会话对象的嘴部状态后,可以判断会话对象的嘴部状态是否满足第二状态条件,该第二状态条件可以是基于会话对象处于发言状态时会话对象的嘴部状态所设置的条件,例如,第二状态条件可以是嘴部的张开度大于预设张开度等。若满足第二状态条件,则确定该嘴部状态对应的会话对象处于发言状态;若不满足第二状态条件,则确定该嘴部状态对应的会话对象不处于发言状态。
68.可选地,电子设备在获取到会话对象的嘴部区域后,也可以将嘴部区域输入至预先训练的第二识别模型,该第二识别模型被预先训练,以根据输入的嘴部区域,输出是否满足第二状态条件的结果。该第二识别模型可以为神经网络等,在此不做限定。
69.在一种可能的实施方式中,若语音会话为远程视频会话,电子设备也可以结合上述两种实施方式,以确定会话对象是否处于发言状态。可选地,考虑到用户进行语音会话时,可能录入环境音,而导致语音会话界面中用户对应的状态标识的显示状态满足第一状态条件,因此电子设备可以基于会话界面的界面图像,确定会话对象的状态标识的显示状态满足第一状态条件的情况下,可以再确定视频图像中会话对象的嘴部状态,若会话对象的嘴部状态也满足第二状态条件,则可以确定该会话对象处于发言状态;若会话对象的嘴部状态不满足第二状态条件,则可以确定该会话对象不处于发言状态。
70.可选地,考虑到用户的嘴部状态满足第二状态条件时,也可能是用户吃东西、打哈欠等情况,因此电子设备在基于界面图像中的视频图像区域,确定会话对象的嘴部状态满足第二状态条件的情况下,还可以基于会话界面的界面图像,确定会话对象的状态标识的
显示状态后;若会话对象的状态标识的显示状态满足第一状态条件,则可以确定该会话对象处于发言状态;若会话对象的状态标识的显示状态不满足第一状态条件,则可以确定该会话对象不处于发言状态。
71.在一种可能的实施方式中,电子设备执行语音会话时,可能会话界面中会展示当前进行语音输入的用户,即处于发言状态的用户,因此,电子设备也可以识别展示当前进行语音输入的用户的区域,并通过光学方式识别文字(optical character recognition,ocr)的方式,识别出用户名,以得到处于发言状态的会话对象。
72.在一些实施方式中,由于不同时刻的处于发言状态的会话对象可能不同,若需要准确将会话对象与发言语音对应的识别文本对应,则需要准确识别不同时刻处于发言状态的会话对象。因此,电子设备可以获取不同时刻的会话界面的界面图像,以通过上述方式确定各个时刻时会话对象的发言状态。可选地,电子设备可以通过截取会话界面的界面图像,并记录时间戳,以便得到与时间戳关联的会话对象的发言状态。
73.步骤s230:获取处于发言状态的会话对象的对象信息,得到发言者信息。
74.在本技术实施例中,电子设备基于会话界面的界面图像,识别语音会话的会话对象的发言状态之后,则可以确定处于发言者状态的会话对象的对象信息,从而得到发言者信息,以便将发言者信息与发言语音对应的识别文本关联后进行展示。
75.其中,对象信息可以为会话对象的用户标识(例如用户头像、用户名等)、会话对象于视频图像区域中对应的用户图像等。例如,界面图像中包括用于表征语音会话中会话对象的发言状态的状态标识,此时状态标识通常在会话界面中与用户标识关联,此时,则可以将满足上述第一状态条件的状态标识(即处于发言状态的会话对象对应的状态标识)所关联的用户标识,作为处于发言者状态的会话对象的对象信息;又例如,界面图像包括远程视频会话的视频图像区域,此时通过识别视频图像区域中各个会话对象的嘴部状态,从而确定处于发言状态的会话对象,则可以将嘴部状态满足上述第二状态条件的用户图像(例如头部区域),作为处于发言者状态的会话对象的对象信息。
76.在一些实施方式中,由于不同时刻的发言者信息可能不同,因此,在确定处于发言者状态的会话对象作为发言者时,可以将确定出的发言者与时间戳对应记录,以便后续能够准确将发言者与发言语音对应的识别文本对应。
77.步骤s240:对所述语音会话的发言语音进行识别,获得所述发言语音对应的识别文本。
78.在本技术实施例中,步骤s240可以参阅其他实施例的内容,在此不再赘述。
79.步骤s250:将所述识别文本与所述发言者信息关联后进行展示。
80.在一种可能的实施方式中,若通过识别界面图像中上述状态标识,确定处于发言状态的会话对象,该方式中,所获取到的处于发言状态的会话对象的对象信息为会话对象对应的用户标识,则可以将该用户图像与识别文本关联后进行展示。
81.在一种可能的实施方式中,若通过上述基于会话界面的界面图像,识别视频图像区域中每个会话对象的嘴部状态的方式,识别处于发言状态的会话对象,该方式中,所获取到的处于发言状态的会话对象的对象信息为会话对象对应的用户图像,则可以将该用户标识与识别文本关联后进行展示。
82.本技术实施例提供的文本展示方法,通过基于语音会话的会话界面的界面图像,
识别处于发言状态的会话对象作为发言者,然后将发言语音对应的识别文本与识别出的发言者关联后进行展示,由此,无需用户在语音会话之前预先录入会话对象的声纹信息,避免用户预先录入会话对象的声纹信息的繁琐问题,提升了会话语音转文本的灵活性,并提升了用户体验。
83.请参阅图7,图7示出了本技术又一个实施例提供的文本展示方法的流程示意图。该文本展示方法应用于上述电子设备,下面将针对图7所示的流程进行详细的阐述,所述文本展示方法具体可以包括以下步骤:
84.步骤s310:显示语音会话的会话界面。
85.步骤s320:基于所述会话界面的界面内容,识别所述语音会话的发言者信息,所述发言者信息包括不同时刻时处于发言状态的会话对象的对象信息。
86.步骤s330:对所述语音会话的发言语音进行识别,获得所述发言语音对应的识别文本。
87.在本技术实施例中,步骤s310至步骤s330可以参阅其他实施例的内容,在此不再赘述。
88.步骤s340:基于所述发言语音对应的时间戳,获取所述发言者信息中与所述时间戳对应的目标会话对象的对象信息,所述目标会话对象于所述时间戳对应的时刻处于发言状态。
89.在本技术实施例中,电子设备在获取发言语音对应的识别文本,并获取到发言者信息之后,则可以基于发言者语音对应的时间戳,获取发言者信息中与时间戳对应的目标会话对象的对象信息,该目标会话对象于该时间戳对应的时刻处于发言状态,也就是说,该时间戳对应的发言者为该目标会话对象,以实现将同一时刻的发言语音对应的识别文本与同一时刻识别出的发言者进行关联,进而实现识别文本与会话对象的准确关联。
90.在一些实施方式中,上述发言者信息中可以包括不同时间戳对应的时刻时处于发言状态的会话对象的对象信息,电子设备可以根据发言语音对应的时间戳,以及不同时间戳对应的时刻时处于发言状态的会话对象的对象信息,确定出发言者信息中与发言语音对应的时间戳所对应的目标会话对象的对象信息。
91.在一些实施方式中,可能存在确定出同一时间戳对应有多个处于发言状态的会话对象的对象信息(即多个发言者)的情况,而若后续直接将识别文本与多个会话对象同时进行关联后展示,则用户无法基于展示的结果,区分出识别文本所属的会话对象,即用户无法获知是谁讲的内容。因此,在确定出同一时间戳对应有多个处于发言状态的会话对象的情况下,可以进一步针对多个会话对象,利用预设的筛选规则,确定出后续待与识别文本关联的目标会话对象,并得到该目标发言者的对象信息。
92.在一种可能的实施方式中,不同会话对象预先设置有不同的发言优先级,其中,会话对象发言的概率与发言优先级呈正相关,也就是说,发言优先级越高的会话对象,其发言的概率越高,而发言优先级越低的会话对象,其发言的概率越低。例如,在视频会议场景中,不同职级的会话对象可以具有不同的发言优先级,职级越高的会话对象,则发言优先级越高。在确定出同一时间戳对应有多个会话对象的对象信息的情况下,可以获取多个会话对象中每个会话对象对应的发言优先级,然后基于每个会话对象对应的发言优先级,从多个会话对象中确定出发言优先级最高的会话对象,并得到该会话对象的对象信息,作为后续
待与识别文本关联的目标会话对象的对象信息。
93.在另一种可能的实施方式中,由于用户在发言时语音输入是连续的,因此,可以基于该规律从多个处于发言状态的会话对象中确定出后续待与识别文本关联的目标会话对象,并得到该目标会话对象的对象信息。其中,在确定出同一时间戳对应有多个会话对象的对象信息的情况下,电子设备可以获取识别文本的文本长度,以及多个会话对象中在该时间戳对应的时间段内处于发言状态的连续时长;然后,根据预设的文本长度与发言时长之间的对应关系,确定出识别文本的文本长度所对应的发言时长;再将发言时长,与每个会话对象对应的上述连续时长匹配,从而得到与该发言时长匹配的连续时长,并将匹配的连续时长对应的会话对象,并并得到该会话对象的对象信息,作为后续待与识别文本关联的目标会话对象的对象信息。
94.需要说明的是,针对确定出的多个会话对象的对象信息,确定后续待与识别文本关联的目标会话对象的对象信息的方式可以不做限定。例如,也可以结合上述两种实施方式,从确定的多个会话对象的对象信息中确定出后续待与识别文本关联的目标会话对象的对象信息。
95.步骤s350:将所述识别文本与所述目标会话对象的对象信息关联后进行展示。
96.在本技术实施例中,电子设备在获取到识别文本,以及上述与发言语音对应的时间戳所对应的目标会话对象的对象信息之后,则可以将该识别文本与目标会话对象的对象信息关联后进行展示。由此,可以实现准确将发言者与发言者对应的发言语音所转换的文本内容进行关联后展示,方便用户知晓对发言语音识别后的文本所对应的发言者。
97.在一些实施方式中,电子设备将识别文本与目标会话对象关联后进行展示时,可以将识别文本与目标会话对象对应的用户标识关联后进行展示。可选地,用户标识可以为用户头像,电子设备可以将识别文本与用户头像作为语音会话中的一条输入内容进行展示,例如,可以在该识别文本前展示该用户头像;可选地,用户标识也可以为用户名,电子设备可以将识别文本与该用户名作为语音会话中的一条输入内容进行展示,例如,用户名为“a”,识别文本为:“务必完成任务b”的情况下,可以展示为“用户名a:务必完成任务b”。当然,电子设备具体将识别文本与目标会话对象对应的用户标识关联后进行展示的方式可以不做限定。
98.本技术实施例提供的文本展示方法,利用电子设备进行语音会话时,通过会话界面的界面内容,识别发言者信息,然后从发言者信息中确定出与发言语音对应的时间戳所匹配的目标会话对象的对象信息,再将发言语音对应的识别文本与确定出的目标会话对象关联后进行展示,由此可以准确将发言语音对应的文本与发言语音对应的发言者信息关联后进行展示,方便用户知晓对发言语音识别后的文本所对应的发言,并且避免了用户预先录入会话对象的声纹信息的繁琐问题,提升了用户体验。
99.请参阅图8,图8示出了本技术再一个实施例提供的文本展示方法的流程示意图。该文本展示方法应用于上述电子设备,下面将针对图8所示的流程进行详细的阐述,所述文本展示方法具体可以包括以下步骤:
100.步骤s410:显示语音会话的会话界面,所述会话界面包括文本展示控件。
101.在本技术实施例中,会话界面中包括文本展示控件。该文本展示控件用于对语音会话过程中实时识别的会话语音对应的识别文本,以及发言者进行展示。
102.步骤s420:基于所述会话界面的界面内容,识别所述语音会话的发言者信息。
103.步骤s430:对所述语音会话的发言语音进行识别,获得所述发言语音对应的识别文本。
104.步骤s440:将当前时刻的发言语音对应的识别文本,与当前时刻处于发言状态的会话对象的对象信息关联后,显示于所述文本展示控件中。
105.在本技术实施例中,电子设备在通过会话界面的界面内容,识别得到发言者信息,以及对语音会话的发言语音进行识别,得到发言语音对应的识别文本时,可以实时的基于会话界面的界面内容,识别发言者信息,以及实时的对语音会话的发言语音进行识别,以得到当前时刻的发言语音对应的识别文本,以及当前时刻处于发言状态的会话对象的对象信息。在获取到当前时刻的发言语音对应的识别文本,以及当前时刻处于发言状态的会话对象的对象信息之后,则可以将当前时刻的发言语音对应的识别文本,与当前时刻处于发言状态的会话对象的对象信息关联后,显示于文本展示控件中。
106.示例性地,请参阅图9,会话界面a1中可以包括文本展示控件q1,该文本展示控件q1用于对实时识别的会话语音对应的识别文本以及当前时刻处于发言状态的会话对象的用户名进行展示,由此,用户在查看会话界面a1时,可以通过文本展示控件q1获知识别的文本内容以及发言者。
107.步骤s450:响应于针对所述文本展示控件的第一预设操作,于所述会话界面中展示所述语音会话的过程中的语音识别记录,所述语音识别记录包括所述语音会话中不同时刻的发言语音对应的识别文本,以及不同时刻对应的处于发言状态的会话对象的对象信息。
108.在本技术实施例中,上述文本展示控件还可以用于触发对语音会话的过程中的语音识别记录进行展示。其中,电子设备可以检测会话界面中的操作,在检测到针对文本展示控件的操作时,可以确定该操作是否为第一预设操作;若该操作为第一预设操作,则可以响应该第一预设操作,于会话界面中展示语音会话的过程中的语音识别记录。该语音识别记录中可以包括语音会话中不同时刻的发言语音对应的识别文本,以及不同时刻对应的处于发言状态的会话对象的对象信息,即历史识别的文本内容以及各个文本内容对应的发言者的对象信息。
109.在一些实施方式中,电子设备检测会话界面中的操作,可以检测会话界面中的按压操作、点击操作、滑动操作、拖动操作等操作。上述第一预设操作可以为针对文本展示控件的点击操作;第一预设操作还可以为针对文本展示控件的滑动操作,其中,第一预设操作为滑动操作时,第一预设操作的滑动轨迹满足预设滑动轨迹。当然,具体的第一预设操作在本技术实施例中可以不做限定。
110.在一些实施方式中,电子设备响应于针对文本展示控件的第一预设操作,于会话界面中展示语音会话的过程中的语音识别记录时,可以将文本展示控件显示为识别详情面板,例如,可以在会话界面的中间区域显示识别详情面板,并取消文本展示控件的显示;然后在识别详情面板中显示语音会话的过程中的语音识别记录。由此,文本展示控件可以作为悬浮球对实时识别的文本内容及其对应的发言者的对象信息进行展示,并且可以用于触发对会话过程中的所有识别内容的展示。
111.在一些实施方式中,电子设备在响应于针对文本展示控件的第一预设操作,于会
话界面中展示语音会话的过程中的语音识别记录之后,还可以继续检测会话界面中的操作,以在检测到针对语音识别记录的第二预设操作的情况下,响应于针对语音识别记录的第二预设操作,控制语音识别记录处于可编辑状态;响应于针对语音识别记录的编辑操作,对语音识别记录进行修改。
112.作为一种可能的实施方式,语音识别记录中可以包括多条识别内容,多条识别内容为针对不同时刻的发言语音,识别得到的文本内容以及发言语音对应的发言者的对象信息。电子设备展示多条识别内容时,可以将每条识别内容中发言者的对象信息、文本内容和时间进行展示,在检测到针对其中一条识别内容的第二预设操作时,则可以响应于第二预设操作,控制该条识别内容处于可编辑状态,然后根据用户针对该条识别内容的编辑操作,对该条识别内容进行修改,并将修改后的内容进行存储。
113.可选地,第二预设操作可以为满足预设按压条件的按压操作。预设按压条件可以为:按压时长大于预设时长、或者按压力度大于预设力度等,具体的预设按压条件可以不做限定。由此,可以实现用户针对语音识别记录中的识别结果进行上述按压操作,即可实现对识别结果的修改,满足用户记录准确的识别文本的需求。
114.在一种可能的实施方式中,电子设备在响应于针对语音识别记录的第二预设操作,控制语音识别记录处于可编辑状态,并响应于针对语音识别记录的编辑操作,对语音识别记录进行修改之后,若电子设备满足修改上传条件,还可以将修改结果以及修改的内容上传至服务器,以便服务器对电子设备进行语音会话中的语音进行识别和展示的功能进行优化,然后将优化后的系统版本下发至电子设备。其中,修改上传条件可以是电子设备同意用户体验计划等条件,在此不做限定。
115.在一些实施方式中,电子设备在响应于针对文本展示控件的第一预设操作,于会话界面中展示语音会话的过程中的语音识别记录之后,还可以继续检测会话界面中的操作,以在检测到针对语音识别记录的文件导出操作的情况下,响应于针对语音识别记录的文件导出操作,生成语音识别记录的记录文件。可选地,电子设备在会话界面中展示语音识别记录的情况下,会话界面中可以显示有文件导出控件,文件导出操作可以为针对会话界面中文件导出控件的操作,例如点击操作、按压操作等,在此不做限定。
116.在一些实施方式中,电子设备在将识别文本与发言者信息关联后进行展示时,还可以将识别文本翻译为预设语言的翻译文本,然后将识别文本以及翻译文本与发言者信息关联后进行展示。预设语言可以为中文、英文、韩文等,在此不做限定。
117.可选地,预设语言可以为预先设置的语言,例如,电子设备可以响应于用户输入的语言设置操作,将语言设置操作所选择的语言类型,作为预设语言;上述预设语言也可以为默认的语言类型,例如,若未预先设置预设语言,则可以默认电子设备当前的系统语言作为预设语言。
118.在一些实施方式中,电子设备还可以响应于针对识别文本或翻译文本的播报操作,利用文本转语音(text to speech,tts)技术进行语音播报,以帮助语言有障碍的用户进行语音会话。
119.当然,上述实施方式也可以结合实施。电子设备在展示语音识别记录时,可以将文本展示控件显示为识别详情面板,例如,可以在会话界面的中间区域显示识别详情面板,并取消文本展示控件的显示;然后在识别详情面板中显示语音会话的过程中的语音识别记
录。其中,该识别详情面板可以以深色背景的悬浮窗的形式显示于会话界面,该识别详情面板可以用户展示语音识别记录的同时,用于实现上述对识别结果的修改、文件导出等功能。
120.示例性地,请参阅图10,该识别详情面板中可以包括历史记录按钮h、功能设置按钮s、场景设置按钮b1、输入面板tv、记录展示区域b2、以及显示于记录展示区域b2中的功能控制按钮p。其中,记录展示区域b2用于展示语音识别记录;历史记录按钮h用于触发对上述语音识别记录的详情内容进行展示,请参阅图11,在检测到针对历史记录按钮h的操作后,可以触发展示历史记录页面a2,以对上述语音识别记录进行详细展示,展示的语音识别记录可以包括用户标识、时间、文本内容等,通过响应于用户针对历史记录页面a2的上、下滑动操作,可以对不同时刻的发言语音的识别内容进行展示。另外,历史记录页面a2中还可以包括文件导出按钮,文件导出按钮用于实现将上述语音识别记录导出为记录文件。
121.功能设置按钮b1可以用于触发功能设置页面的显示,请参阅图12,在检测到针对功能设置按钮b1的操作后,可以触发展示功能设置页面a3,功能设置页面a3可以用于用户对转写语言(即语音识别为文本的语言)、翻译语言、语音播报的人声类型等进行设置。上述场景设置按钮b1可以用于设置识别场景,例如会议场景、聊天场景等;输入面板tv可以用于对语音会话过程中的识别结果进行备注,并且输入面板tv中包括有确定按钮e,确定按钮e用于对输入的备注内容进行确定;功能控制按钮p用于控制语音识别的暂停和开始。
122.另外,电子设备还可以响应于针对识别详情面板的操作,对识别详情面板的显示状态进行控制,例如可以响应于针对识别详情面板的拖拽操作,控制识别详情面板进行移动;又例如,还可以响应于针对识别详情面板的长按操作,对识别详情面板的显示尺寸进行控制。
123.在一些实施方式中,电子设备在会话界面中显示文本展示控件的情况下,还可以响应于针对文本展示控件的滑动操作,以根据滑动操作,控制文本展示控件于会话界面中的位置。示例性地,文本展示控件可以显示于会话界面中的左侧,电子设备可以响应于对文本展示控件的上或下的滑动操作,控制文本展示控件跟随滑动操作上下移动。
124.在一些实施方式中,电子设备在会话界面中显示文本展示控件的情况下,还可以响应于针对文本展示控件的滑动操作,控制文本展示控件跟随滑动操作移动,并且在文本展示控件位于指定位置时,触发文本展示控件的隐藏,即取消该文本展示控件的显示。示例性地,请参阅图13,文本展示控件可以显示于会话界面中的左侧,在检测到针对文本展示控件的滑动操作时,可以于会话界面的底部区域显示提示信息,以提示用户拖动到底部区域的目标位置处进行隐藏;当检测到文本展示控件被拖动至该底部区域的目标位置处时,则可以取消该文本展示控件的显示。
125.本技术实施例提供的文本展示方法,可以实现利用电子设备进行语音会话时,利用会话界面的界面内容,即可将发言语音对应的文本与发言语音对应的会话对象的对象信息关联后进行展示,避免了用户预先录入会话对象的声纹信息的繁琐问题,提升了用户体验。并且,在将发言语音对应的文本与发言者信息关联后进行展示时,通过会话界面的中文本展示控件显示识别内容,并且可以实现用户针对文本展示控件的操作,对语音会话过程中的识别记录进行展示,提升了展示效果,以及用户的操作体验。
126.下面再通过图14对前述实施例涉及的文本展示方法进行介绍。
127.如图14所示,电子设备在开启语音字幕的功能的情况下,若判断当前场景为语音
会话场景,则可以获取语音识别的识别语言和识别文本的翻译语言,并且实时获取系统音频,并转换为音频流;截取屏幕画面,以得到会话界面,并记录时间戳;根据系统音频和语音识别的语言,进行stt,并获取到识别文本;根据截取的屏幕画面,识别出发言者信息;然后,根据识别文本,配合发言者信息以及时间戳进行渲染,进行结果展示;用户根据展示的结果,可以针对展示的结果进行用户修正,并且在同意用户体验计划的情况下可以上传修正后的文本至服务器,用于sst功能优化;最后,还可以基于准确的结果,对识别文本进行翻译,并进行带翻译结果的页面展示,以便用户查看识别文本和翻译结果,另外,翻译结果支持tts播报。
128.请参阅图15,其示出了本技术实施例提供的一种文本展示装置400的结构框图。该文本展示装置400应用上述的电子设备,该文本展示装置400包括:界面显示模块410、用户识别模块420、语音识别模块430以及识别输出模块440。其中,所述界面显示模块410用于显示语音会话的会话界面;所述用户识别模块420用于基于所述会话界面的界面内容,识别所述语音会话的发言者信息;所述语音识别模块430用于对所述语音会话的发言语音进行识别,获得所述发言语音对应的识别文本;所述识别输出模块440用于将所述识别文本与所述发言者信息关联后进行展示。
129.在一些实施方式中,用户识别模块420可以具体用于:基于所述会话界面的界面图像,识别所述语音会话的会话对象的发言状态;获取处于发言状态的会话对象的对象信息,得到发言者信息。
130.作为一种可能的实施方式,所述界面图像包括用于表征所述语音会话中会话对象的发言状态的状态标识。用户识别模块420基于所述会话界面的界面图像,识别所述语音会话的会话对象的发言状态,可以包括:基于所述会话界面的界面图像,识别各个会话对象对应的状态标识的显示状态;若第一会话对象的状态标识的显示状态满足第一状态条件,则确定所述第一会话对象处于发言状态,所述第一会话对象为所述语音会话中的任一会话对象。
131.作为一种可能的实施方式,所述语音会话为远程视频会话,所述界面图像包括所述远程视频会话的视频图像区域。用户识别模块420基于所述会话界面的界面图像,识别所述语音会话的会话对象的发言状态,可以包括:基于所述会话界面的界面图像,识别所述视频图像区域中每个会话对象的嘴部状态;若第二会话对象的嘴部状态满足第二状态条件,则确定所述第二会话对象处于发言状态,所述第二会话对象为所述语音会话中的任一会话对象。
132.在一些实施方式中,所述发言者信息包括不同时刻时处于发言状态的会话对象的对象信息。识别输出模块440可以具体用于:基于所述发言语音对应的时间戳,获取所述发言者信息中与所述时间戳对应的目标会话对象的对象信息,所述目标会话对象于所述时间戳对应的时刻处于发言状态;将所述识别文本与所述目标会话对象的对象信息关联后进行展示。
133.作为一种可能的实施方式,识别输出模块440将所述识别文本与所述目标发言者关联后进行展示,可以包括:将所述识别文本与所述目标会话对象对应的用户标识关联后进行展示。
134.在一些实施方式中,所述会话界面包括文本展示控件。识别输出模块440可以具体
用于:将当前时刻的发言语音对应的识别文本,与当前时刻处于发言状态的会话对象的对象信息关联后,显示于所述文本展示控件中。
135.作为一种可能的实施方式,该文本展示装置400还可以包括第一响应模块。第一响应模块用于在所述将当前时刻的发言语音对应的识别文本,与当前时刻的发言者关联后,显示于所述文本展示控件中之后,响应于针对所述文本展示控件的第一预设操作,于所述会话界面中展示所述语音会话的过程中的语音识别记录,所述语音识别记录包括所述语音会话中不同时刻的发言语音对应的识别文本,以及与不同时刻对应的处于发言状态的会话对象的对象信息。
136.可选地,该文本展示装置400还可以包括第二响应模块。第二响应模块用于在所述响应于针对所述文本展示控件的第一预设操作,于所述会话界面中展示所述语音会话的过程中的语音识别记录之后,响应于针对所述语音识别记录的第二预设操作,控制所述语音识别记录处于可编辑状态;响应于针对所述语音识别记录的编辑操作,对所述语音识别记录进行修改。
137.可选地,该文本展示装置400还可以包括第三响应模块。第三响应模块用于在所述响应于针对所述文本展示控件的第一预设操作,于所述会话界面中展示所述语音会话的过程中的语音识别记录之后,响应于针对所述语音识别记录的文件导出操作,生成所述语音识别记录的记录文件。
138.在一些实施方式中,该文本展示装置400还可以包括文本翻译模块。文本翻译模块用于在所述将所述识别文本与所述发言者信息关联后进行展示之前,将所述识别文本翻译为预设语言的翻译文本。该方式中,识别输出模块440可以用于将所述识别文本以及所述翻译文本与所述发言者信息关联后进行展示。
139.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
140.在本技术所提供的几个实施例中,模块相互之间的耦合可以是电性,机械或其它形式的耦合。
141.另外,在本技术各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
142.综上所述,本技术提供的方案,通过显示语音会话的会话界面,基于会话界面的界面内容,识别语音会话的发言者信息,对语音会话的发言语音进行识别,获得发言语音对应的识别文本,然后将识别文本与发言者信息关联后进行展示。由此,可以实现利用电子设备进行语音会话时,利用会话界面的界面内容,即可将发言语音对应的文本与发言语音对应的发言者关联后进行展示,避免了用户预先录入会话对象的声纹信息的繁琐问题,提升了用户体验。
143.请参考图16,其示出了本技术实施例提供的一种电子设备的结构框图。该电子设备100可以是智能手机、平板电脑、智能手表、电子书等能够运行应用程序的电子设备。本技术中的电子设备100可以包括一个或多个如下部件:处理器110、存储器120、以及一个或多个应用程序,其中一个或多个应用程序可以被存储在存储器120中并被配置为由一个或多个处理器110执行,一个或多个应用程序配置用于执行如前述方法实施例所描述的方法。
144.处理器110可以包括一个或者多个处理核。处理器110利用各种接口和线路连接整个电子设备100内的各个部分,通过运行或执行存储在存储器120内的指令、程序、代码集或指令集,以及调用存储在存储器120内的数据,执行电子设备100的各种功能和处理数据。可选地,处理器110可以采用数字信号处理(digital signal processing,dsp)、现场可编程门阵列(field-programmable gate array,fpga)、可编程逻辑阵列(programmable logic array,pla)中的至少一种硬件形式来实现。处理器110可集成中央处理器(central processing unit,cpu)、图形处理器(graphics processing unit,gpu)和调制解调器等中的一种或几种的组合。其中,cpu主要处理操作系统、用户界面和应用程序等;gpu用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器110中,单独通过一块通信芯片进行实现。
145.存储器120可以包括随机存储器(random access memory,ram),也可以包括只读存储器(read-only memory)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。
146.请参考图17,其示出了本技术实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质800中存储有程序代码,所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。
147.计算机可读存储介质800可以是诸如闪存、eeprom(电可擦除可编程只读存储器)、eprom、硬盘或者rom之类的电子存储器。可选地,计算机可读存储介质800包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质800具有执行上述方法中的任何方法步骤的程序代码810的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码810可以例如以适当形式进行压缩。
148.最后应说明的是:以上实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。