一种声音控制语音交流的方法

文档序号:8489884阅读:299来源:国知局
一种声音控制语音交流的方法
【专利说明】-种声音控制语音交流的方法 所属技术领域
[0001] 本发明设及通信领域,更具体地设及到多人语音通信时利用各自的声音特征来控 制和协调相互交流的实现方法。
【背景技术】
[0002] 目前实现远距离两两用户之间语音通信交流的方式是普通的电话业务,实现多人 语音交流通信的平台主要有电话系统中的会议电话服务和对讲机方式。
[0003] 电话业务需要发起人拨号连接,对方摘机通话。会议电话需要组织者先向电话公 司申请该功能,再通知每个参会者拨通某个电话号码加入。会议电话实现的架构如图1所 示,是一种集中式系统结构。与会者的语音都送到一个中屯、处理单元,进行叠加(也可按权 重叠加)后再发送给每一个与会者。与会者之间不能再进行两两交流。对讲机方式是一种 一对多的广播方式,同一时间只能一个用户讲话,每次讲话都需要按键切换通信模式。
[0004] 上述S种语音交流方式都有明确的应用场合,在各自的应用环境中都有不可替代 的优势。在有些应用场景中,有时群组成员之间需要两两单独交流,有时又需要大家一起交 流。譬如野外旅游,时不时需要各自报告一下自己的情况,其他时间又各自交流,而且各自 交流对象也不固定。如果大家走在一起,距离很近,谈话交流不存在问题。如果互相看不到, 用到无线通信设备,采用目前现有的方案,还是很不方便。目前的移动终端,虽然智能化程 度非常高,但几乎所有应用都依赖于屏幕操作或按键操作。在行动中操作屏幕或按键还很 不安全。也有些终端采用了语音识别技术来控制操作,但还没能达到自由交流的效果。
[0005] 还有一些应用场景如家庭成员之间,大家可能都不住在同一个地方,偶尔互相关 屯、一下近况,一般先彼此打个招呼,向大家汇报一下近况,然后各自交流。该样的方式比逐 一打电话询问效果好得多。目前的QQ群组或微信群组功能只相当于文本对讲机方式,文本 交流还是赶不上语音方便、亲切。
[0006] 人们在近距离谈话交流时,一般情况下,说话者的声音大小是想来控制交流范围 的。音量大是想让多一点人听到,音量小是只想让周围几个人或一个人听到。听者及时应 答表示对交流内容感兴趣,希望继续。如果听者不应答或应答响应的频率很低,有一搭没一 搭的,表示对交流内容不感兴趣,慢慢地就应该退出该交流者范围。
[0007] 目前移动通信已进入4G,无线带宽越来越大,加上目前移动终端极好的性能,实现 远距离个性化的自由交流已经不存在技术问题。本发明根据人们近距离交流的特点,用电 路采集讲话者及应答者的声音特征,主要包括说话者音量大小、应答的响应时间W及响应 的频率。利用该些特征来控制和协调远距离的语音通信交流,增强用户的体验感。

【发明内容】

[000引本发明中把人们交流的语音信号分为应答语和新话题两类。应答语指当前讲话人 语音信号结束之后确定的一段时间内开始的其他人的语音信号。新话题指除了应答语之外 的其他的交流语音信号。应答语的判断需要用到语音信号端点检测技术来确定语音信号的 起始点。在一个终端上判断应答语分为下列两种情况:
[0009] 1)第一种情况如图2所示,当前终端的用户讲话结束后,经过t时间开始听到其他 用户发送来的声音信号。如果t<T(系统定义的一个阔值),则该用户向当前终端用户发 送来的语音信号定义为应答语。
[0010] 2)第二种情况如图3所示,当前终端的用户听到其他用户发送来的声音信号结束 后,经过t'时间当前终端的用户开始讲话,向其他用户发送语音信号。如果t' <T'(系 统定义的一个阔值),则当前终端用户向其他用户发送的语音信号定义为应答语。
[0011] 由于上述的第一种情况需要考虑语音信号传播延时的影响,系统设定阔值时一般 会让T比T'稍大一点。
[0012] 本发明实现采用的架构如图4所示,是一种分布式系统结构,每个用户之间都可 W直接双向通信。多人语音通信时,多路语音信号的叠加操作在各个用户本地实现。如图 5所示,多路语音信号送到一个用户时,可W采用直接叠加。如果当前共有L路语音信号送 过来,设町=1(2... =K^=1/L。和传统的会议电话系统比较,每个用户上叠加语音信号的 路数及该些语音信号对应的成员都不一定相同的,叠加后的结果输出给该用户。
[0013] 系统中的每个用户都有一个一模一样的群组表,该群组表限定了语音交流成员的 最大范围。群组表中除了当前用户之外的每个成员都对应一个参数化,表示他们当前的活 跃程度。化值用一个计数器来表示,最大值为M,实时计数该成员向当前终端用户发送应答 语的次数,即如图2所示的上述第一种情况的应答语的次数。当用户的群组表中一旦有一 个成员的参数化值大于M/2时,群组表中所有成员的化值除W2,即所有成员的计数器右 移一位,高位补0。再继续计数。把当前用户群组表中化值不为0的成员称为活跃成员。 把活跃成员按Hi值大小排序。
[0014] 语音信号的幅度值并不是稳定的,变化很大,所W语音信号的音量大小A(n)定义 为语音信号开始后一段时间内,语音信号振幅的平均值,即;
[0015]
【主权项】
1. 一种声音控制语音交流的方法,其特征在于:用电路采集讲话者及应答者的声音特 征,包括说话者音量大小、应答的响应时间以及响应的频率;利用这些特征来控制和协调远 距离多人语音通信交流的顺利进行。
2. 如权利要求1所述的利用交流者声音特征来控制和协调语音通信交流的方法,其特 征在于:把人们交流的语音信号分为应答语和新话题两类;应答语指当前讲话人语音信号 结束之后确定的一段时间内开始的其他人的语音信号;新话题指除了应答语之外的其他的 交流语音信号。
3. 如权利要求1所述的利用交流者声音特征来控制和协调语音通信交流的方法,其特 征在于:当多人语音通信交流时,多路语音信号的叠加操作在各个用户本地实现。
4. 如权利要求1所述的利用交流者声音特征来控制和协调语音通信交流的方法,其特 征在于:系统中的每个用户都有一个一模一样的群组表,群组表中除了当前用户之外的每 个成员都对应一个参数Hi,表示他们当前的活跃程度;Hi值用一个计数器来表示,最大值 为M,实时计数该成员向当前用户发送应答语的次数;当用户的群组表中一旦有一个成员 的参数Hi值大于M/2时,群组表中所有成员的Hi值除以2,即所有成员的计数器右移一位, 高位补〇,再继续计数。
5. 如权利要求4所述的把当前用户群组表中的活跃成员按Hi值大小排序的方法,其特 征在于:把当前用户群组表中Hi值不为O的成员称为活跃成员,把活跃成员按Hi值大小排 序;考虑一个特殊的活跃成员,如果当前用户讲话的语音信号是应答语,则要把当前应答对 象的成员放到活跃成员的前面,暂时列为活跃程度最高的成员。
6. 如权利要求5所述的判断当前用户讲话的应答对象的方法,其特征在于:如果在时 间T'的阈值范围内不止一个成员向当前用户送来声音信号,当前用户应当选择其中t' 值最小的成员作为应答对象。
7. 如权利要求1所述的利用讲话者声音的音量大小参与控制的方法,其特征在于:当 用户用最大档音量讲话时,则语音信号会发送给群组中所有成员(除了当前用户之外),用 最小档音量则选择与当前Hi值最大的成员通话,讲话者用音量大小来控制语音信号在群 组表成员中的发送范围。
8. 如权利要求7所述的讲话者声音的音量大小的判断方法,其特征在于:连续一段时 间计算A(n)值,并把A(n)按值从大到小排序,选取其中的第二大值或第三大值来判断讲话 者的音量大小。
9. 如权利要求1所述的利用交流者声音特征来控制和协调语音通信交流的方法,其特 征在于:在具体实施中还可以采用按键,用按键时间的长短或连续按压次数来表示讲话者 的音量大小,这样讲话者一方可以通过按键来控制语音信号的发送范围;同样听讲话的一 方也可以用按键来产生简单的回复信号发给讲话者,用作应答语的统计,达到同样的效果。
【专利摘要】本发明涉及通信领域,更具体地涉及到多人语音通信时利用各自的声音特征来控制和协调相互交流的实现方法。本发明避开了对交流语音内容的关注,也避开了对交流对象的识别和判断。讲话者利用音量大小控制交流成员的范围,听者及时应答保持活跃状态。根据人们近距离交流的特点,用电路采集讲话者及应答者的声音特征,主要包括说话者音量大小、应答的响应时间以及响应的频率。利用这些特征来控制和协调远距离语音通信交流的顺利进行,增强用户的体验感。
【IPC分类】H04L12-16
【公开号】CN104811318
【申请号】CN201510184232
【发明人】姚昊萍, 丁兰英, 张静, 史丽萍
【申请人】南京农业大学
【公开日】2015年7月29日
【申请日】2015年4月15日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1