通话语音信息处理方法及终端与流程

文档序号:12377751阅读:415来源:国知局
通话语音信息处理方法及终端与流程

本发明涉及通信技术领域,尤其涉及一种通话语音信息处理方法及终端。



背景技术:

目前的移动终端在进行通话时,一般都会有来电显示功能,即在拨打或者接听电话时,移动终端屏幕上会显示通话的号码和联系人姓名,这一功能适用于已经将信息存储在通讯录中的联系人。而在某些情况下,当接听陌生号码来电时,可能并不知晓对方是谁,这时候在通话过程中会进行询问,对方会答复“我是小明”等信息;以及在与熟人通话时,会遇到需要记录的信息,比如“开会地点是三楼会议室”、“开会时间八点半”等等,而一旦用户当时不方便进行记录时,等电话挂断后再回想这些信息时可能会有遗漏,这样就会耽误一些重要的事项,且操作过程繁琐,操作的便利性不足。



技术实现要素:

本发明的目的是提供一种通话语音信息处理方法,以实现在通话过程中智能识别记录重要信息并进行存储,提高用户体验。

为实现上述目的,本发明一方面公开了一种通话语音信息处理方法,包括以下步骤:

检测移动终端是否处于通话状态;

在处于通话状态时,采集通话呼出语音及与所述通话呼出语音相对应的通话呼入语音,所述通话呼出语音为通过麦克风输入的通话语音信息,所述通话呼入语音为所述移动终端接收到的远端通信设备通过通信链路传输来的,用于应答所述通话呼出语音的通话语音信息;

通过语音识别检测所述通话呼出语音是否与预设的语音特征和/或第一关键字匹配;

若是,则根据所述通话呼入语音提取出目标文本内容并进行存储。

可选地,所述通过语音识别检测所述通话呼出语音是否与预设的语音特征和/或第一关键字匹配包括:

通过语音识别检测所述通话呼出语音是否与所述预设语音特征匹配,和/或,通过语音识别将所述通话呼出语音转化为文本内容之后,检测所述转化的文本内容是否与所述预设第一关键字匹配。

可选地,所述根据所述通话呼入语音提取出目标文本内容包括:

根据用户设定的有效信息长度,通过语音识别将所述有效信息长度范围内的所述通话呼入语音转化为所述目标文本内容,所述有效信息长度包括时间长度或语句数目。

可选地,所述根据所述通话呼入语音提取出目标文本内容包括:

通过语音识别将所述通话呼入语音转化为原始文本内容,提取所述原始文本内容中与预设第二关键字匹配的部分作为所述目标文本内容。

可选地,根据所述目标文本内容生成相应的联系人信息,并将所述联系人信息添加至通讯录中。

本发明的另一目的是提供一种通话语音信息处理终端,以实现在通话过程中智能识别记录重要信息并进行存储,提高用户体验。

为实现上述目的,本发明另一方面还提供了一种移动终端,包括:

通话状态检测模块,用于检测移动终端是否处于通话状态;

语音采集模块,用于采集所述移动终端的通话呼出语音和与所述通话呼出语音对应的通话呼入语音,所述通话呼出语音为通过麦克风输入的通话语音信息,所述通话呼入语音为所述移动终端接收到的远端通信设备通过通信链路传输来的,用于应答所述通话呼出语音的通话语音信息;

信息检测模块,用于检测所述通话呼出语音是否与预设的语音特征和/或第一关键字匹配;

信息存储模块,用于根据所述通话呼入语音提取出目标文本内容并进行存储。

可选地,所述信息检测模块用于通过语音识别检测所述通话呼出语音是否与所述预设语音特征匹配,和/或,通过语音识别将所述通话呼出语音转化为文本内容之后,检测所述转化的文本内容是否与所述预设第一关键字匹配。

可选地,所述信息存储模块还用于根据用户设定的有效信息长度,通过语音识别将所述有效信息长度范围内的所述通话呼入语音转化为所述目标文本内容,所述有效信息长度包括时间长度或语句数目。

可选地,所述信息存储模块还用于通过语音识别将所述通话呼入语音转化为原始文本内容,提取所述原始文本内容中与预设第二关键字匹配的部分作为所述目标文本内容。

可选地,所述信息存储模块还用于根据所述目标文本内容生成相应的联系人信息,并将所述联系人信息添加至通讯录中。

实施本发明实施例,将具有如下有益效果:

移动终端在通话过程中,通过采集通话呼出语音及与之相对应的通话呼入语音,采用语音识别技术对通话呼出语音与预设的关键字进行匹配,在通话呼入语音中提取所需要的信息并进行保存。由于终端可以自动记录下用户通话过程中的关键信息,并将这些信息保存下来,降低信息编辑对用户的依赖度,因此,上述方法和装置可以提高用户操作的便利性;同时,通话过程中智能记录重要信息也可以避免因用户不方便记录、挂机后难以回想起等原因造成的事项遗漏,从而减小用户的工作量,提高用户体验。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种通话语音信息处理方法的流程图;

图2是本发明实施例提供的一种通话语音信息处理终端的结构图;

图3是本发明实施例提供的一种运行上述通话语音信息处理方法的计算机系统的硬件架构图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

为了能实现通话语音自动识别并智能记录重要信息以降低信息编辑对用户的依赖性,并提高用户体验,本发明提出了一种通话语音信息处理的方法及终端,其中所提及的方法的执行依赖于计算机程序,可运行于冯诺依曼体系的计算机系统之上。该计算机程序可集成在通讯录中,也可作为独立的工具类应用运行。该计算机系统可以是手机、平板电脑等终端设备。

为了使本领域的技术人员更好的理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。

参考图1,本发明通话语音信息处理的方法实施例的工作流程包括以下步骤:

步骤S102,检测移动终端是否处于通话状态。

当用户接听电话或者拨打电话给其他用户时,用户的手机进入通话状态。在本实施例中,移动终端可以通过检测用户接听电话的操作或者用户拨打电话的操作来判断该移动终端进入通话状态,当移动终端检测到用户挂断电话或者对方挂断电话时,则判断该移动终端退出通话状态。

步骤S104,采集通话呼出语音及与通话呼出语音相对应的通话呼入语音。

通话呼出语音即为该移动终端持有者通过麦克风输入的通话语音信息。

通话呼入语音即为通话过程中移动终端接收到的远端通信设备通过通信链路传输来的,用于应答所述通话呼出语音的通话语音信息。

在通话过程中,通常情况下,用户之间均采用对话的方式进行通话,因此,在用户甲与用户乙进行通话时,与用户甲的通话呼出语音相对应的通话呼入语音即为移动终端在检测到用户甲通过麦克风输入的一次通话呼出语音之后接收到的用户乙通过远端通信设备传输来的通话呼入语音。

例如,在一个场景中,通话呼出语音和通话呼入语音以“一问一答”的形式存在,用户甲和用户乙进行通话,其中的一段对话如下:

甲问:“你是谁”?

乙回答:“我是小芳”。

甲问:“请问你的地址是在哪里”?

乙回答:“我在花园路15号”。

那么在这样的一段通话中,甲问一句和乙答一句就可以作为一个语音信息组,其中,假设甲为移动终端持有者,那么对于甲所持有的移动终端而言,甲说出的话就是通话呼出语音,即“你是谁?”,与通话呼出语音“你是谁?”相对应的通话呼入语音为“我是小芳”。同样的,与通话呼出语音“请问你的地址是在哪里”相对应的通话呼入语音为“我在花园路15号”。

步骤S106,通过语音识别检测所述通话呼出语音是否与预设的语音特征和/或第一关键字匹配;若匹配,则执行步骤S108,根据通话呼入语音提取目标文本内容并进行存储;若不匹配,则执行步骤S104,继续采集下一条通话呼出语音。

语音识别是以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言,语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门涉及面很广的交叉学科,它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系,正逐步成为计算机信息处理技术中的关键技术。

未知语音经过话筒变换成电信号后加在识别系统的输入端,首先经过预处理.再根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需的特征,在此基础上建立语音识别所需的模板。而计算机在识别过程中要根据语音识别的模型,将计算机中存放的语音模板与输入的语音信号的特征进行比较,根据一定的搜索和匹配策略,找出一系列最优的与输入语音匹配的模板,然后根据此模板的定义,通过查表就可以给出计算机的识别结果。

在本实施例中,对通话呼出语音进行语音识别时,不仅可对普通话进行语音识别,对于多种方言、多国语言均可以进行识别。在此方案中,可以通过在移动终端的语音模板中添加不同的语言类型,如普通话、粤语、闽南语等,以及英语、德语等不同国别的语言,通过词汇库的匹配来实现语音识别。

在得到识别结果之后,移动终端可以将识别出的语音信息直接与预设的语音特征进行匹配。在本实施例中,判定识别出的语音信息与预设语音特征匹配的方式有多种,例如,可在语音信息与预设语音特征完全相同时,判定二者匹配,例如上述对话中甲的通话呼出语音“你是谁”,假设在预设语音特征中已经存在“你是谁”这一语音特征,那么当移动终端从模板库中检索到这一语音特征时,即认为所识别出的语音信息与预设的语音特征匹配;另外,还可以通过匹配部分关键的语音片段来进行判定,例如,对于上述对话中甲的通话呼出语音“请问你的地址是在哪里”,假设在预设的语音特征中设置有“你的地址”或“在哪里”等语音片段作为匹配模板,那么移动终端在识别到上述通话呼出语音中的这两个片段时,也可以判定所识别的通话呼出语音与预设的语音特征相匹配。

在另一个实施例中,得到识别结果之后,移动终端也可以将识别结果转化为文本内容,之后再与预设的第一关键字进行匹配。仍以上述对话为例,用户甲所持有的移动终端在采集到甲的通话输出语音“请问你的地址是在哪里”之后将其转化为文字信息并保存下来。

在本实施例中,可以采用多种方式判断转化的文本内容是否与预设的第一关键字匹配。例如,可在转化的文本内容与预设的第一关键字完全相同时,判定二者匹配,如用“地址”两个字去匹配上述通话呼出语音,可以匹配成功;另外,可在转化的文本内容与预设的第一关键字互为同义词或近义词时,判定二者匹配,如“住在哪里”、“地点”、“位置”等语义相似的词,也可以认为匹配成功,在此方式中,可预先设置同义词库或近义词库,然后根据同义词库或近义词库扩展预设的第一关键字。

在另一个实施例中,还可通过计算转化的文本内容与预设的第一关键字的相似度,并比较相似度与阈值的大小来判断是否匹配。例如,可通过转化的文本内容与预设的第一关键字包含相同字符的比例来计算相似度:当第一文本内容的10个字符中有7个与预设的第一关键字相同时,则相似度为70%,若阈值设为50%,则判定二者匹配成功。

在检测到通话呼出语音与预设的第一关键字匹配时,终端就开始识别通话呼入语音中的内容。同样的,可通过前述的语音识别算法对通话呼入语音进行识别,得到目标文本内容。

进一步的,当通话呼入语音过长时,可能其中只有一部分包含有效信息,而大部分的信息都属于冗余信息,例如按照一般的通话习惯,大多数人在打电话的前几句会提及自己的姓名、公司名称等信息,如果对全部通话呼入语音进行转换和处理,就会增加终端的工作量,占用更多的存储空间。在本实施例中,为了避免因语音信息过长而占用存储资源,可以设置一个有效信息阈值对通话呼入语音进行删减处理。

这一有效信息阈值可以是时间长度。这一时间长度可以是一段固定时间T,即在采集到通话呼入语音之后,截取固定时间T内的通话呼入语音进行语音识别,如截取通话呼入语音的前15秒进行处理,如这样一段话:“您好,我是大创科技公司的工程师,我叫李雷,您之前提交过来的方案可能还有些需要讨论的地方,您看什么时候方便?”,假设其中包含的有效信息为“大创科技公司”、“李雷”在10秒内已经包含进来了,那么可以设定截取通话呼入语音的前10秒进行语音识别处理;或者,设定截取总通话呼入语音时长的一定百分比的时间长度进行语音识别,如假设这段话“您好,我是大创科技公司的工程师,我叫李雷,您之前提交过来的方案可能还有些需要讨论的地方,您看什么时候方便?”总的时间长度为100秒,设定的百分比为15%,则截取其中的15秒内的通话呼入语音进行处理。

相应的,这一有效信息阈值还可以是语句数目。在采集通话呼入语音时,通过设定一个没有语音输入时的停顿时间阈值t,当两句话之间的停顿时间大于t时,则认为这段时间间隔前后的通话输入语音属于不同的句子,从而计算所采集的通话呼入语音的语句数目。同样以上一段话为例,假设停顿时间阈值为0.5秒,由此区分出不同句子:第一句为“您好”,第二句为“我是大创科技公司的工程师”,第三句为“我叫李雷”,第四句为“您之前提交过来的方案可能还有些需要讨论的地方”,第五句为“您看什么时候方便”,那么所得到的通话输入语音的语句数目为五句。

在获得通话输入语音的语句数目之后,可以设定一个固定句数N来对通话呼入语音进行删减,即截取总的通话呼入语音中的前N句进行处理。如设置N=3,同样的对于“您好,我是大创科技公司的工程师,我叫李雷,您之前提交过来的方案可能还有些需要讨论的地方,您看什么时候方便?”,所截取出来的三句话为“您好,我是大创科技公司的工程师,我叫李雷”,之后这三句话进行语音识别。或者,也可以设定所需要截取的语句数目占总的通话呼入语音的百分比来对通话呼入语音进行截取,同样以前一段话为例,总的句数为五句,设定截取其中的60%,即对前三句进行语音识别,这样能大大减少工作量。

进一步的,在另一个实施例中,还可以通过与预设的第二关键字匹配来删减对通话呼入语音进行语音识别得到的目标文本内容中的冗余数据。例如,在一段语音信息的中间也有可能会出现部分的重要信息,在这样一段话“今天的天气比较好,下午一起吃顿饭吧,另外,明天公司会有客户过来参观,上午九点在三楼会议室我们先开个会讨论一下怎么安排。”中,一共有五句话,其中重要信息“明天”、“上午九点”、“三楼会议室”、“开个会”处于后两句话中,对于这种情况,可以将整段的语音信息全部进行识别并保存下来之后,再进行关键字匹配,识别出“明天”、“上午九点”、“三楼会议室”、“开个会”保存下来,从而避免信息的遗漏。

语音识别得到的目标文本内容可以通过移动终端自动处理并保存。例如,将“我的地址是花园路15号”整句全部保存下来。也可以通过统计用户常用的编辑习惯,智能地删除一些没有用的文字后再进行保存。同样以“我的地址是花园路15号”为例,其中的有用信息是“花园路15号”,可以在通过识别第二关键字“我的地址”之后,将无用信息“我的地址是”这五个字删除,即只保存“花园路15号”这一信息。

另外,移动终端也可以设置一个可供用户编辑目标文本内容的接口,由用户对目标文本内容进行编辑整理后再保存。例如,对于这一段话:“您好,我是大创科技公司的工程师,我叫李雷,您之前提交过来的方案可能还有些需要讨论的地方,您看什么时候方便?”,可能终端自动识别后提取出的目标文本内容为“大创科技公司的工程师”、“我叫李雷”,那么用户可以将其中的一些无关信息如“公司的工程师”、“我叫”删除,保存“大创科技”、“李雷”等信息作为目标文本内容。

在本实施例中,目标文本内容可以存储在备忘录中。例如,可以将前述通过语音识别得到的重要信息“上午九点”、“三楼会议室”等保存在备忘录中,设置闹钟提醒,以防止错过重要事项。

在另一个实施例中,还可以根据目标文本内容生成联系人信息,然后添加到通讯录中。例如,对于“我是小芳”、“我在花园路15号”,可以将其中的人名“小芳”和地址信息“花园路15号”存储在通讯录中,作为联系人的备注信息以供日后查阅。

除此之外,如果通话对象是本地通讯录中已经存在的联系人,可以将联系人信息添加在相应联系人的名片中。

如果通话对象是陌生号码,那么在添加到通讯录中时,可以将获取的姓名信息与来电号码一起保存,建立一个新的联系人名片。

在一个实施例中,以下结合一个具体的应用场景来陈述本发明的执行过程,在该应用场景中,爱伦女士持有的移动终端向卡麦克尔先生所持有的移动终端发起通话请求,在建立通话连接后,爱伦女士持有的移动终端即检测到进入通话状态,并检测到如下通话呼出语音和通话呼入语音:

爱伦女士:“卡麦克尔先生,您好,我是爱伦,我想和您定一个面试时间,您什么时候有空”?

卡麦克尔先生:“是这样,爱伦女士,你好,我可能这个星期都没有时间见你,我们就定在下周二上午11:30怎么样”?

在这一场景中,爱伦女士持有的移动终端检测到的通话呼出语音中的“时间”、“时候”、“有空”等词与第一关键字匹配(从包含时间描述类的关键字库中查找),那么爱伦女士持有的移动终端即会对相应的通话呼入语音进行处理,也就是对卡麦克尔先生回答的这一段话进行语音识别,爱伦女士持有的移动终端将检测到的“爱伦女士”、“星期”、“时间”、“下周二上午11:30”等都保存到备忘录中,在通话结束后,爱伦女士的备忘录中会保存有这些词语,经过整理需要删除“爱伦女士”、“星期”、“时间”等无用信息,最终只保存“下周二上午11:30”,也可以由爱伦女士手动添加“面试时间”作为备注信息。

本发明的另一目的是提供一种通话语音信息处理终端,以实现在通话过程中智能识别记录重要信息并进行存储,提高用户体验。

为实现上述目的,本发明另一方面还提供了一种移动终端,如图2所示,所述通话语音信息处理终端包括:

通话状态检测模块102,用于检测移动终端是否进入通话状态。

语音采集模块104,用于采集所述移动终端的通话呼出语音和与所述通话呼出语音对应的通话呼入语音,所述通话呼出语音为通过麦克风输入的通话语音信息,所述通话呼入语音为所述移动终端接收到的远端通信设备通过通信链路传输来的,用于应答所述通话呼出语音的通话语音信息。

信息检测模块106,用于检测所述通话呼出语音是否与预设的语音特征和/或第一关键字匹配。

信息存储模块108,用于根据所述通话呼入语音提取出目标文本内容并进行存储。

可选地,所述信息检测模块106用于通过语音识别检测所述通话呼出语音是否与所述预设语音特征匹配,和/或,通过语音识别将所述通话呼出语音转化为文本内容之后,检测所述转化的文本内容是否与所述预设第一关键字匹配。

可选地,所述信息存储模块108还用于根据用户设定的有效信息长度,通过语音识别将所述有效信息长度范围内的所述通话呼入语音转化为所述目标文本内容,所述有效信息长度包括时间长度或语句数目。

可选地,所述信息存储模块108还用于通过语音识别将所述通话呼入语音转化为原始文本内容,提取所述原始文本内容中与预设第二关键字匹配的部分作为所述目标文本内容。

可选地,所述信息存储模块108还用于根据所述目标文本内容生成相应的联系人信息,并将所述联系人信息添加至通讯录中。

实施本发明,移动终端在通话过程中,通过采集通话呼出语音及与之相对应的通话呼入语音,采用语音识别技术对通话呼出语音与预设的关键字进行匹配,在通话呼入语音中提取所需要的信息并进行保存。由于终端可以自动记录下用户通话过程中的关键信息,并将这些信息保存下来,降低信息编辑对用户的依赖度,简化用户的操作过程,提高用户操作的便利性;同时,通话过程中智能记录重要信息也可以避免因用户不方便记录、挂机后难以回想起等原因造成的事项遗漏,从而减小用户的工作量,提高用户体验。

在一个实施例中,如图3所示,图3展示了一种运行上述通话语音信息处理方法的基于冯诺依曼体系的计算机系统的终端10。该计算机系统可以是智能手机、平板电脑等终端设备。具体的,可包括通过系统总线连接的外部输入接口1001、处理器1002、存储器1003和输出接口1004。其中,外部输入接口1001可选的可至少包括网络接口10012。存储器1003可包括外存储器10032(例如硬盘、光盘或软盘等)和内存储器10034。输出接口1004可至少包括显示屏10042等设备,且所述处理器1002还用于执行上述通话语音信息处理方法,包括:

检测移动终端是否处于通话状态;

在处于通话状态时,采集通话呼出语音及与所述通话呼出语音对应的通话呼入语音,所述通话呼出语音为通过麦克风输入的通话语音信息,所述通话呼入语音为所述移动终端接收到的远端通信设备通过通信链路传输来的,用于应答所述通话呼出语音的通话语音信息;

通过语音识别检测所述通话呼出语音是否与预设的语音特征和/或第一关键字匹配;

若是,则根据所述通话呼入语音提取出目标文本内容并进行存储。

可选地,所述通过语音识别检测所述通话呼出语音是否与预设的语音特征和/或第一关键字匹配包括:

通过语音识别检测所述通话呼出语音是否与所述预设语音特征匹配,和/或,通过语音识别将所述通话呼出语音转化为文本内容之后,检测所述转化的文本内容是否与所述预设第一关键字匹配。

可选地,所述根据所述通话呼入语音提取出目标文本内容包括:

根据用户设定的有效信息长度,通过语音识别将所述有效信息长度范围内的所述通话呼入语音转化为所述目标文本内容,所述有效信息长度包括时间长度或语句数目。

可选地,所述根据所述通话呼入语音提取出目标文本内容包括:

通过语音识别将所述通话呼入语音转化为原始文本内容,提取所述原始文本内容中与预设第二关键字匹配的部分作为所述目标文本内容。

可选地,根据所述目标文本内容生成相应的联系人信息,并将所述联系人信息添加至通讯录中。

在本实施例中,本方法的运行基于计算机程序,该计算机程序的程序文件存储于前述基于冯诺依曼体系的计算机系统10的外存储器10032中,在运行时被加载到内存储器10034中,然后被编译为机器码之后传递至处理器1002中执行,从而使得基于冯诺依曼体系的计算机系统10中形成逻辑上的通话状态检测模块102,语音采集模块104,文本识别模块106,关键字检测模块108,信息存储模块110。且在上述通话语音信息处理方法执行过程中,输入的参数均通过外部输入接口1001接收,并传递至存储器1003中缓存,然后输入到处理器1002中进行处理,处理的结果数据或缓存于存储器1003中进行后续地处理,或被传递至输出接口1004进行输出。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1