重放输出方法、重放输出程序及摄像机的制作方法

文档序号:7620355阅读:161来源:国知局
专利名称:重放输出方法、重放输出程序及摄像机的制作方法
技术领域
本发明涉及将经由业务量负载大的网络输入的图像信息和语音信息自然地进行重放的方法、程序及摄像机。
背景技术
近来,用网络摄像机摄影图像,经由因特网等的网络发送到计算机装置的网络系统正在普及。但是,在这种网络系统中,对计算机装置进行操作而可以获得图像信息,但不能获得周围的语音信息。因此,开发了装载扬声器和话筒而除了图像以外还可进行语音通信的网络摄像机(以下,称为语音对应的网络摄像机)。
图8是以往的进行语音通信的网络系统的说明图。在该网络系统中,关于图像的发送,由语音对应型网络摄像机1的摄像机10摄影的图像被图像处理部12进行压缩处理,该压缩处理后的图像数据通过通信控制部13进行协议处理并被传送到网络3,向计算机装置2传送。在计算机装置2中对接收的图像数据进行解压处理而将其显示在画面上。
此外,被摄影的图像通过由摄像机控制部(未图示)控制摄像机10的底座和倾斜、变焦距而成为期望的角度、变焦距的图像。计算机装置2的浏览器(画面显示用信息的阅览程序)经由网络3接收网口(portal)画面显示用信息时,在监视器上显示用于显示图像及控制条的网口画面,使用该控制条,用户对底座、倾斜、变焦距进行操作时,JAVA(注册商标)小应用程序(applet)等将收集了控制量的数据的IP分组从通信控制部13发送到语音对应型网络摄像机1。在语音对应型网络摄像机1中,控制部19从该IP分组中取出数据,对摄像机控制部传送控制量,驱动底座电机(未图示)、倾斜电机(未图示)、线性致动器(未图示),并变更摄像机10的摄影方向和变焦距。
接着,关于语音通信,从话筒17输入的语音由语音发送处理部15进行AD变换和压缩处理,语音发送数据还经由通信控制部13及网络3而被传送到计算机装置2。计算机装置2中对接收的语音发送数据进行处理,从扬声器28输出语音。同样,从计算机装置2的话筒27输入的语音,在计算机装置2中被处理并作为语音接收数据而被发送,经由网络3被发送到语音对应型网络摄像机1。语音对应型网络摄像机1中,接收的语音接收数据通过通信控制部13交送给语音接收处理部14,在那里进行解压处理和DA变换并被输出到扬声器18。
可是,在这样的语音对应型网络摄像机1向计算机装置2发送图像和语音的情况下,一般地在图像和语音各自的数据中附加时戳、即基于时间信息的同步信息后发送(例如,参照专利文献1)。在语音、图像两数据中具有基于时间控制的同步信息,在接收端对具有同步信息的数据进行重放,将语音、图像两数据同步输出。此时,语音决定数据的长度,图像数据不决定输出时间。因此,在网络的业务量负载大的情况下,在该终端装置中难以将图像数据和语音数据全部发送,对数据进行抽取处理。因此,图像的一部分、语音的一部分被删节,语音会断断续续。语音的断断续续很难听,极大地损害了信息的传递。
同样,存在将帧序号附加在图像数据和语音数据上而取得同步的时戳方式等,但需要将时戳和帧序号分别附加在图像数据和语音数据上,在结构复杂并且网络的业务量负载大的情况下,在该终端装置中难以发送所有的图像数据和语音数据。其结果,语音变得断断续续,而且复杂并成本高。
而且,提出了多媒体复用传输装置,不是这样截断语音,而是在语音信号为无声的情况下高效率地生成复用信号(专利文献2)。该装置包括语音信号缓冲部和语音无声检测部,语音信号缓冲部将语音编码信号临时存储。在检测出外部话筒拾取的语音信号为无语音的情况下,以及来自语音无声检测部的输入信号为低电平的情况下,数据的写入有效,而在高电平时无效,将分配给复用信号的语音信号的时间性区域转让给视频编码信号而不浪费地使用。在处理时,从有声改变为无声的情况下从低电平到高电平需要超过必要的时间进行动作,在从无声改变为有声的情况下直接从高电平变化为低电平。由此,不废弃语尾和语头的语音。
特开平9-27871号公报[专利文献2]特开2001-16263号公报在专利文献1那样的语音对应型网络摄像机发送图像和语音的情况下,在各图像和语音数据中附加基于时间信息的同步信息,同时将帧序号附加在各图像和语音的数据中而取得同步。但是,在网络的业务量负载大的情况下,在取得它们的同步的方式中有时难以发送全部的图像数据和语音数据。因引起延迟和需要进行数据的抽取,重放的图像的一部分、语音的一部分被截断,变得断断续续。而且,这些技术是数据的发送端的数据的抽取处理,没有解决受到业务量变动的影响的接收端的课题。业务量负载大和语音数据的分组延迟,即使在计算机装置的语音缓冲器中增加语音延迟也没有减少。
而专利文献2的多媒体复用传输装置包括语音信号缓冲部和语音无声检测部,如果检测出外部话筒拾取的语音信号为无语音的情况下,不是截断语音而是禁止数据的写入,所以可以高效率地生成复用信号。但是,在外部话筒的语音信号为无语音信号的情况下,将分配给从多媒体复用传输装置传送的复用信号的无声的语音信号的区域分配给视频编码信号,因此,这种技术也没有解决接收端的计算机装置的课题。在业务量负载大时仍然有上述课题。

发明内容
因此,鉴于上述以往的课题,本发明的目的在于,提供一种无论无声数据多、还是分组延迟都能够有效地利用缓冲的终端、网络摄像机、程序、以及网络系统。
为了解决上述以往的课题,本发明的终端在经由网络接收语音数据时,将该语音数据临时存储在语音接收缓冲部中,将从该语音接收缓冲部输出的语音数据用语音处理部件进行编码,并在DA变换后进行语音输出,其主要特征在于,该终端包括进行对语音接收缓冲部的语音数据的输入输出控制的缓冲控制部件;以及在语音接收缓冲部内的语音数据持续一定时间并小于等于规定的波峰值的情况下判定为无数据或无声,而在超过该波峰值的情况下判定为有声的接收缓冲电平判定部件,缓冲控制部件废弃被判定为无数据或无声的语音数据,将剩余的语音数据的间隔缩短并输出到语音处理部件。
根据本发明的通信终端、摄像机和程序,即使语音延迟增大,也可通过废弃无声部分而改善延迟量。
用于解决上述课题的本发明,是从摄像机经由网络而接收图像信息和语音信息,并进行所述图像信息和所述语音信息的重放输出的方法,该方法存储所述语音信息,并在所述语音信息比规定的阈值小的情况下判定为无数据或无声,而在比规定的阈值大的情况下判定为有声,
废弃被判定为无数据或无声的语音信息,并缩短剩余的语音数据的间隔,废弃语音接收缓冲部内的被判定为无数据或无声的语音数据,缩短剩余的语音数据的间隔并输出语音,所以可以有效地利用语音接收缓冲部,没有语音比图像的延迟,或被截断,不易受到业务量变动的影响。


图1(a)是本发明实施例1的网络摄像机的结构图,图1(b)是本发明实施例1的网络摄像机的控制部内的内部方框图。
图2是本发明实施例1的计算机装置的方框图。
图3(a)是本发明实施例1的计算机装置的网口画面显示的说明图,图3(b)是用于图3(a)的无声删除的设定画面的说明图。
图4(a)~图4(e)是本发明实施例1的计算机装置的语音接收缓冲部的数据处理的说明图。
图5是本发明实施例1的语音接收缓冲部的数据废弃的说明图。
图6是本发明实施例1的语音接收缓冲部的用于进行无数据及无声的判定的阈值设定的说明图。
图7是本发明实施例1的网络摄像机和计算机装置中进行无数据及无声数据的废弃时的流程图。
图8是以往的用于语音通信的图像的一览显示的说明图。
图9是本发明实施例2的摄像机的硬件结构图。
图10是本发明实施例2的摄像机的外观图。
具体实施例方式
(实施例1)以下,说明有关本发明的实施例1的网络摄像机和程序、以及网络系统。图1(a)是本发明实施例1的网络摄像机的结构图,图1(b)是本发明实施例1的网络摄像机的控制部内的内部方框图,图2是本发明实施例1的计算机装置的方框图,图3(a)是本发明实施例1的计算机装置的网口画面显示的说明图,图3(b)是用于图3(a)的无声删除的设定画面的说明图,图4(a)~图4(d)是本发明实施例1的计算机装置的语音接收缓冲部的数据处理的说明图,图5是本发明实施例1的语音接收缓冲部的数据废弃的说明图,图6是本发明实施例1的语音接收缓冲部的用于进行无数据及无声的判定的阈值设定的说明图。与以往的语音对应型网络摄像机1和计算机装置2中标号相同的标号,在实施例1中也基本相同。
在图1(a)、图1(b)中,1是对图像进行摄像并发送同时装载了能够进行语音通信的语音对应型网络摄像机(本发明的网络摄像机),2是可进行语音通信的个人计算机等的计算机装置(本发明的终端),3是因特网、以太网(注册商标)等的网络。10是语音对应型网络摄像机1的摄像机,10a是用于控制摄像机10的底盘、倾斜、变焦距的摄像机控制部。10b是控制摄像机10的底盘动作的底盘电机,10c是控制摄像机10的倾斜动作的倾斜电机,10d是用于控制摄像机10的变焦距的进行传送动作的线性致动器。
计算机装置2使用从语音对应型网络摄像机1取得并显示的网口画面的控制条,用户对底盘、倾斜、变焦距进行操作时,从计算机装置2发送通过JAVA(注册商标)小应用程序等对底盘、倾斜、变焦距的控制量的数据进行收集的IP分组,语音对应型网络摄像机1从该IP分组中取出控制数据,向摄像机控制部10a传送控制量,分别驱动底盘电机10b、倾斜电机10c、线性致动器10d,并变更摄像方向和变焦距。
11是对接收发送的数据进行压缩或解压的压缩/解压部,12是对摄像机11摄像的图像信号进行压缩处理的图像处理部,13是对图像处理部12压缩的图像数据进行协议处理并发送的通信控制部。再有,这种协议处理指TCP/IP协议和以太网(注册商标)等的IEEE802.03协议等的处理。
14是对语音对应型网络摄像机1接收的语音接收数据(PCM数据)进行解码的语音接收处理部,14a是由于从语音接收处理部14的输出为数字信号而对其进行DA变换并变换为模拟信号的DA变换部,15是将输入到语音对应型网络摄像机1的语音进行编码的语音发送处理部,15a是由于从语音输入调整电路17a(后述)的输出为模拟信号而对其进行AD变换的AD变换部。16是语音对应型网络摄像机1的缓冲部,16a构成缓冲部16并是被图像处理部12压缩的JPEG、MPEG等的图像数据的图像缓冲部,16b构成缓冲部16并是由语音发送处理部15编码的PCM数据的语音发送缓冲部。16c构成缓冲部16并是对经由网络3从计算机装置2发送的PCM数据进行缓冲的FIFO(First In First Out)的语音接收缓冲部。
该语音接收缓冲部16c是在大量的语音接收数据被发送来时以处理能力和处理量的关系进行临时性缓冲的缓冲部。因此,在业务量负载增大时,以分组的延迟减少送来的数据量,关于处理可看作没有问题,但产生不取入数据的时间段延长,无数据区域混入语音接收缓冲部16c的数据中的问题。即,先进入的数据继续输出,而分组延迟的数据未写入在构成语音接收缓冲部16c的多个存储元件中,成为不带电的状态,这种无数据的状态被传送并传送到语音接收处理部14时,语音接收处理部14必然进行无意义的处理。因此,在本实施例1中,对这种无数据区域和音的大小很小的原来的无声的状态进行检测并废弃。以下,将无数据和无声合并并称为无数据/无声。
下面在图1(a)中,17是用于输入语音对应型网络摄像机1的周围的语音的话筒,17a是语音输入调整电路,18是用于输出语音的扬声器,18a是语音输出调整电路。在话筒17和语音发送处理部15之间,以及在扬声器18和语音接收处理部14之间设置回声消除器(未图示),可以防止将从扬声器18输出的语音再次输入到话筒17,并从计算机装置2侧的扬声器28输出,再次从话筒27输入的所谓的环的方式形成回声。
在图1(a)、图1(b)中,19是语音对应型网络摄像机1的控制部,19a是在由计算机装置2选择了语音通信模式时进行语音通信和图像发送的通信执行部件(本发明的通信部件),19b是生成从语音对应型网络摄像机1发送到计算机装置2的画面显示用信息的画面显示用信息生成部件,19c是表示对语音对应型网络摄像机1进行访问的多个计算机装置2的通信状态、例如语音发送中、语音接收中、或底盘、倾斜、变焦距的控制权行使中等的标记,19d是用于下载被存储在发送文件存储部20b中的现役x,JAVA(注册商标)小应用程序等的程序,特别是控制后述的终端侧通信处理部件26等的计算机装置2的程序的文件传送部件。
其次,19e是控制对语音接收缓冲部16c的PCM数据的写入动作和输出动作的缓冲控制部件,19f是进行相当于无数据/无声的电平判断的接收缓冲电平判定部件,19g是对无数据/无声的状态是否持续了规定的时间进行计数的计时部件。在实施例1中,在缓冲控制部件19e判定为无数据/无声持续了规定的时间的情况下,将该期间的数据全部废弃(消除电荷),进行在废弃的区域进入后续的数据并消除无数据/无声的区域的控制。在接收缓冲电平判定部件19f中设定用于评价有声和无数据/无声的阈值,在大于等于规定时间且小于等于阈值时判定为无数据/无声并通知缓冲控制部件19e。在实施例1中将持续365ms小于等于阈值时判定为无数据/无声,但持续时间也可以采用合适的设定值。如果接受这种通知,则缓冲控制部件19e为了判断无数据/无声是否继续而使计时部件19g计数规定的时间。在计时部件19g计数超出时,判定为产生了无数据/无声。而且,19h是进行上述阈值设定的设定部件。
其次在图1(a)中,20是存储用于对系统进行控制等的程序等的存储部,20a是存储了网口画面显示用信息的模板和其他的画面显示用信息(网页)的画面显示用信息存储部,20b是存储了发送到计算机装置2而由计算机装置2的CPU执行的现役x,JAVA(注册商标)小应用程序等的程序(以下,称为终端侧通信部件)的发送文件存储部。20c是存储了由图像处理部12压缩的图像数据的存储部。再有,用上述HTML等记述的画面显示用信息被存储在画面显示用信息存储部20a中,但在用网口画面显示用信息进行各语音对应型网络摄像机1的图像的一览显示时,此时显示的图像数据被存储在各个语音对应型网络摄像机1的图像存储部20c中。
下面根据图2来说明计算机装置2的结构。在图2中,21在作为与网络3之间的接口的通信控制部,22作为硬件包括CPU,是从存储部23读取程序而作为功能实现部件实现的控制运算部,23是存储程序和数据的存储部,23a是存储语音数据的语音接收缓冲部。此外,24是用于从网络3上的网站取得并浏览画面显示用信息的浏览部件,25是通过JAVA(注册商标)小应用程序、插入式等的语音处理程序作为功能实现部件而实现的语音处理部件。
而且,25a是对语音接收缓冲部23a的PCM数据的写入动作和输出动作进行控制的缓冲控制部件,25b是进行是否相当于无数据/无声的电平判断的接收缓冲电平判定部件,25c是对无数据/无声的状态是否持续了规定的时间进行计数的计时部件。而且,25d是用于生成由语音接收缓冲部23a将用于判定为无数据/无声的阈值通过缓冲数据长度来改变的无声删除设定画面56(参照图3(b))的画面显示用信息生成部。而且,25e是在从无语音删除设定画面56输入了缓冲数据长度时进行上述阈值的设定的设定部件。
此外,26是通过语音对应型网络摄像机1的文件传送部件19下载的现役x,JAVA(注册商标)小应用程序等的程序作为功能实现部件实现的终端侧通信处理部件。27是话筒,27a是语音输入调整电路,28是扬声器,28a是语音输出调整电路,29是显示部,30是监视器。
接着,根据图3(a)、图3(b),说明实施例1的语音对应型网络摄像机1发送到计算机装置2的网口画面显示用信息和无声删除设定画面。在图3(a)中,51是活动图像和静止图像等的图像区域,52是对语音对应型网络摄像机1的摄像机10的底座、倾斜、变焦距进行控制的控制条。52a是方向控制按钮,52b是变焦距调节棒。再有,在控制条52中,准备调用用于废弃后述的无数据/无声数据的设定画面的按钮。53是按压时将语音发送到语音对应型网络摄像机1的语音发送按钮,54是接收由语音对应型网络摄像机1产生的语音的语音接收按钮。55是调节从语音对应型网络摄像机1的扬声器18输出的音量的音量调节棒。语音对应型网络摄像机1的用户接收该网口画面显示用信息并显示在监视器30上,一边观察网口画面的图像一边对方向控制按钮52a、变焦距棒52b进行操作来切换摄像机10的角度等,获得新的图像。此外,在语音通信模式中,按压语音发送按钮53来发送语音,通过按压语音接收按钮54来接收语音对应型网络摄像机1侧的语音。
接着,在图3(b)中,56是用于根据数据长度来改变由上述语音接收缓冲部23a用于判定为无数据/无声的阈值的无声删除设定画面,57是用于设定缓冲数据长度的设定栏。再有,为了简单而称为无声删除设定画面。按压被显示在网口画面的控制条52上的无声删除设定按钮时,显示用信息生成部25d生成的无声删除设定画面56被调用,显示在监视器30上。在设定栏57中可进行缓冲数据长度的输入,如图6所示,可从400ms、500ms、600ms、700ms、800ms、900ms、1000ms中选择。细节后面论述,但用于判断为无数据/无声的阈值也可以是一个值,而在图6中,以在从无数据/无声的状态改变有声的状态时,以及从有声的状态改变为无数据/无声的状态时来区分,分别设定不同的一对阈值。即,以一对从无数据/无声的状态改变为有声的状态时的阈值H(dB)、以及从有声的状态改变为无数据/无声的状态时的阈值L(dB)来判定无数据/无声。例如,在用设定栏57将缓冲数据长度输入为400ms时,通过设定部件25e将阈值H设定为-9dB,阈值L设定为-12dB。
接着,根据图4、图5、图6而详细地说明由计算机装置2的语音接收缓冲部23a进行的无数据/无声的废弃动作。图4(a)是收集从语音对应型网络摄像机1发送的语音数据的IP分组。在首标后存储了一帧的语音数据。该语音数据被通信控制部21取出,缓冲控制部件25a将8比特的PCM数据以8比特为单位传送到语音接收缓冲部23a的规定的列。如图4(b)所示,PCM数据的8比特,其开头的1比特被分配给极性(+,-)的识别,用剩余7比特来表示波峰值。根据所谓的μ标准、A标准的其中一个,压缩系数有所不同,所以PCM数据因压缩方式而为不同的值。
图4(c)中记载的缓冲控制部件25a为FIFO并具有(8×n)比特的缓冲容量,以8比特为单位来设置n列的存储元件阵列,在始端侧传送并写入PCM数据,同时在终端侧以同样的速度将用于语音输出的PCM数据按规定的速度、按8比特为单位输出。输出后,剩余的列的电荷(表示PCM数据)依次每次一列传送到终端侧。
可是,图4(d)的曲线表示PCM信号的波峰值,与Tms(实施例1中为365ms)宽度相当的k列的数据在终端侧小于等于阈值L,在始端侧大于等于阈值H。再有,该波峰值是除去极性(1比特)后的绝对值。该Tms的(8×k)比特的PCM数据的波峰值低,被判定为无声的状态,并被废弃。再有,无数据的情况下成为波峰值0排列k个的状态。输出如图4(e)所示以8比特为单位进行,被输入到语音处理部件25。在语音处理部件25中变换为语音数字信号(PAM信号),通过未图示的DA变换部而成为模拟信号并从扬声器28输出。
可是,缓冲控制部件25a存储了被设定在语音接收缓冲部23a内的规定量的数据时,将无数据/无声的数据废弃,并将有声的语音数据的间隔压缩并输出。下面根据图5来说明此时的语音接收缓冲部23a的动作。在图5中,接收缓冲电平判定部件25b判定的有声的区域为A、B、C,无数据/无声的区域为M、N。A区域中PCM信号的大小逐渐下降,在p点小于等于阈值L,经由M区域在q点与阈值H交叉,成为B区域的PCM信号。在B区域取得最大值后再次在p点与阈值L交叉,经由N区域在q点与阈值H交叉。再有,设该A区域为正值,除去例外的B区域为负值。这样,p点的一方阈值低,q点的一方阈值高的原因在于,不过于截断有声的最后的数据,此外,评价无数据/无声的点p期望可靠性而取低的值,但返回到有声时当然经过已经被评价为无数据/无声的区域,即使稍高判断也不出错。
这样判定的无数据/无声的区域M、N被缓冲控制部件25a废弃(删除电荷),区域A、B、C被依次压缩。此时的状态是图6下方的两个图。可知在缓冲容量上可以达到大余量的容量。区域A、B、C连续,并以没有无数据/无声的状态来输出。
但是,以始终一定的阈值L、阈值H进行无数据/无声的判定并不好。即,在语音接收缓冲部23a的缓冲数据长度短时,阈值L、阈值H下降,判定为有声的语音数据增加,而缓冲数据长度增大时,阈值L、阈值H增加,使判定为有声的语音数据减少,但在不使处理延迟方面是合适的。然而,即使进行这样的判定,由于无数据的区域始终小于等于阈值L,所以在使阈值L、阈值H改变的情况下,可消除网络3的业务量负载的变动造成的影响。
在图6中,作为缓冲数据长度,可设定400ms、500ms、600ms、700ms、800ms、900ms、1000ms,在阈值L、阈值H中设置3dB的滞后。通过设置该3dB的差,不过于截断有声的最后的数据即可,使有声和无数据/无声的判断不出错。
阈值L、阈值H在缓冲数据长度增加时,与该数据长度成正比增加。这是因为在缓冲容量大的情况下,大多是与接收的PCM数据的数据量的大小成正比,通过提高阈值L、阈值H(阈值电平),增加被判定为无数据/无声的范围,可以减少语音处理部件25的处理量。在缓冲数据长度为400ms时,如果设阈值H为-9dB,阈值L为-12dB,则从400ms至1000ms在每100ms的各个等级上每个等级增加3dB,在1000ms时阈值H为+9dB、阈值L为+6dB较好。阈值L、阈值H的变更在缓冲数据长度每增加100ms时进行,所以有3dB的差异。
再有,以上的说明,主要说明了计算机装置2的语音接收缓冲部23a中的无声数据废弃的设定处理、删除动作。特别是说明了从语音对应型网络摄像机1发送JAVA(注册商标)小应用程序等的程序而形成语音接收缓冲部23a,构成终端侧通信处理部件26来进行通信的计算机装置2,但不限于此。此外,这些说明都与语音对应型网络摄像机1的语音接收缓冲部16c中的无声数据废弃的设定处理、删除动作的说明相同,详细的说明因重复而省略。再有,计算机装置2的语音处理部件25在语音接收时具有语音接收处理部14的功能,在语音发送时具有语音发送处理部15的功能。此外,在计算机装置2中用户接收网口画面,显示无声删除设定画面56来进行设定输入,但在语音对应型网络摄像机1的情况下,管理者从维护终端进行设定。
下面,说明本发明实施例1的网络摄像机和计算机装置中进行无数据/无声数据的废弃时的流程。图7是本发明实施例1的网络摄像机和计算机装置中进行无数据及无声数据的废弃时的流程图。在图7中,直至在语音接收缓冲部23a中存储了规定量的语音数据(PCM数据)为止进行待机(步骤1),在存储了该语音数据时接收缓冲电平判定部件25b进行无数据/无声和有声的判定(步骤2)。
接收缓冲电平判定部件25b废弃无数据/无声的区域的语音数据(步骤3),将有声区域的空间依次压缩(步骤4),输入到语音处理部件25,在语音处理部件25中被变换为语音数字信号(PAM信号)(步骤5),通过DA变换部作为模拟信号从扬声器28输出(步骤6)。
这样,实施例1的语音接收缓冲部23a使缓冲数据长度改变,对应于语音数据的存储量的大小来改变阈值电平,所以可根据通信时的业务量的状态而减少语音处理部件25的处理量。无论无数据和无音数据多,还是分组被延迟,都没有语音延迟,可以有效地利用缓冲,不受业务量负载的影响。
而且,通过所述语音信息的振幅信息的绝对值持续规定时间并小于等于规定的值的情况下判定为无数据或无声,在超过了所述规定的值的情况下判定为有声,可以用少的处理量来实施。
而且,通过所述语音信息的规定的时间的平方功率的积分值小于等于规定的值的情况下判定为无数据或无声,在所述规定的时间的平方功率的积分值超过了规定的值的情况下判定为有声,可进行正确的判定。
而且,通过所述语音信息的振幅信息的绝对值持续规定时间并小于等于第一规定的值的情况下判定为无数据或无声,在超过了第二规定的值的情况下判定为有声,可以进行基于平均处理的正确的大小的判定,可以用不同的阈值进行从有声到无声的判定和从无声到有声的判定,可进行处理量少的正确的判定。
而且,通过所述语音信息的规定的时间的平方功率的积分值小于等于第一规定的值的情况下判定为无数据或无声,在超过第二规定的值的情况下判定为有声,可以进行基于平均处理的正确的大小的判定,可以用不同的阈值进行从有声到无声的判定和从无声到有声的判定,可进行更正确的判定。
而且,通过将第二规定的值设定得比第一规定的值大,从而不过于截断有声的最后的数据,在返回到有声时经由已经被评价为无数据/无声的区域,所以即使稍稍高一些也不会判断错误。
而且,在所述语音接收缓冲器内存储了规定的数据量时,所述判定步骤进行有声或无声或无数据的判定,所述控制步骤存储了根据该判定进行废弃对被判定为无数据或无声的语音数据的控制的步骤所包括的规定的数据量后,在语音接收缓冲器部内进行整理,所以通常可以输出原来的语音。
(实施例2)
图9表示本发明的摄像机的硬件结构图。
图10表示本发明的摄像机的外观图。
301是包含CPU和其周边电路的摄像机芯片。302是保持使摄像机芯片301动作的程序和数据的闪存ROM。303是摄像机芯片301动作时的作业用的S-DRAM。304是用于将摄像图像变换为电信号的CCD和CMOS芯片。305是进行语音信号的输入输出的Audio PCM芯片。306是进行与LAN接口物理性连接时的电接口的LANPHY芯片。307是用于使摄像机的摄像范围移动的电机用的驱动器芯片,使倾斜用电机308和底座用电机309动作。此外,这里虽未记载,但具有用于语音输入的话筒和用于语音输出的扬声器。
摄像机芯片301包括CPU301-1;将已变换为电信号的摄像图像变换为JEPG形式的图像的JPEG变换部301-2;变换为网络通信用的语音数据形式的G.726变换部;MMU(存储器管理部)301-4;GPIO(通用输入输出部)301-5;以及LAN(局域网部)301-6。
该硬件结构图9和摄像机的结构图1的对应关系如下。摄像机10对应于CCD304,语音输入调整电路17a和语音输出调整电路18a对应于AudioPCM305,通信控制部13与LAN连接的部分对应于LANPHY306,通信控制部13进行控制动作的部分对应于LAN部301-6,底座电机10b对应于底座电机309,倾斜电机308对应于倾斜电机308,图像处理部12对应于JPEG变换部301-2,语音接收处理部14和语音发送处理部15对应于G.726变换部301-3,进行它们的控制的摄像机控制部10a和控制部19对应于CPU301-1,存储部20对应于S-DRAM303。
此外,作为闪存ROM302,可以用MX29LV320来实现,作为S-DRAM303,可以用MT48CM16来实现,作为AudioPCM305,可以用AK2308来实现,作为LANPHY芯片306,可用ICS1893来实现,作为CCD芯片304,可用ICX098、MN5400和HV7131的组合来实现,作为电机用驱动器芯片307,可用LB1937来实现。
根据该结构,可以实现向网络输出图像信息,从通信终端输入语音信息,根据对接收的语音数据的大小进行判断,即使通信业务量大时也可以输出没有断断续续的语音的摄像机。
本发明的产业可利用性在于,可以应用于使用语音对应型网络摄像机进行图像发送和语音通信的网络系统。
权利要求
1.一种重放输出方法,从摄像机经由网络而接收图像信息和语音信息,并进行所述图像信息和所述语音信息的输出重放,其中存储所述语音信息,并在所述语音信息比规定的阈值小的情况下判定为无数据或无声,而在比规定的阈值大的情况下判定为有声,废弃被判定为无数据或无声的语音信息,将剩余的语音信息的间隔缩短。
2.如权利要求1所述的重放输出方法,其中,在所述语音信息的振幅信息的绝对值持续规定时间并小于等于规定的值的情况下判定为无数据或无声,而在超过所述规定的值的情况下判定为有声。
3.如权利要求1所述的重放输出方法,其中,在所述语音信息的规定时间的平方功率的积分值小于等于规定的值的情况下判定为无数据或无声,而在所述规定的时间的平方功率的积分值超过规定的值的情况下判定为有声。
4.如权利要求1所述的重放输出方法,其中,在所述语音信息的振幅信息的绝对值持续规定时间小于等于第一规定的值的情况下判定为无数据或无声,而在超过第二规定的值的情况下判定为有声。
5.如权利要求1所述的重放输出方法,其中,在所述语音信息的规定的时间的平方功率的积分值小于等于第一规定的值的情况下判定为无数据或无声,而在超过第二规定的值的情况下判定为有声。
6.如权利要求4或5所述的重放输出方法,其中,将第二规定的值设定得比第一规定的值大。
7.如权利要求1至5任何一项所述的重放输出方法,其中,如果存储的所述语音信息超过规定的数据量,则进行所述语音信息是有声或无声或无数据的判定,废弃被判定为无数据或无声的语音信息,并将剩余的语音信息的间隔缩短。
8.一种通信终端程序,从摄像机经由网络而接收图像信息和语音信息,并将所述图像信息和所述语音信息重放输出,其中,该通信终端程序包括将语音信息存储在语音接收缓冲器中的存储步骤;在所述语音接收缓冲器内的语音信息比规定的阈值小的情况下判定为无数据或无声,而在比规定的阈值大的情况下判定为有声的判定步骤;以及废弃在所述判定步骤中判定为无数据或无声的语音信息,并进行将剩余的语音信息的间隔缩短的控制的控制步骤。
9.如权利要求8所述的通信终端程序,其中,所述判定步骤在所述语音接收缓冲器内的语音信息的振幅信息的绝对值持续规定时间并小于等于规定的值的情况下判定为无数据或无声,而在超过所述规定的值的情况下判定为有声。
10.如权利要求8所述的通信终端程序,其中,所述判定步骤在所述语音缓冲器内的语音信息的规定的时间的平方功率的积分值小于等于规定的值的情况下判定为无数据或无声,而在所述规定的时间的平方功率的积分值超过规定的值的情况下判定为有声。
11.如权利要求8所述的通信终端的程序,其中,所述判定步骤在所述语音接收缓冲器内的语音信息的振幅信息的绝对值持续规定时间并小于等于第一规定的值的情况下判定为无数据或无声,而在超过第二规定的值的情况下判定为有声。
12.如权利要求8所述的通信终端程序,其中,所述判定步骤在所述语音接收缓冲器内的语音信息的规定的时间的平方功率的积分值小于等于第一规定的值的情况下判定为无数据或无声,而在超过第二规定的值的情况下判定为有声。
13.如权利要求11或12所述的通信终端程序,其中,所述判定步骤进行将第二规定的值设定得比第一规定的值大的判定。
14.如权利要求8至12任何一项所述的通信终端程序,其中,还包括在所述语音接收缓冲器内存储了规定的数据量时,所述判定步骤进行有声或无声或无数据的判定,所述控制步骤根据该判定而进行废弃被判定为无数据或无声的语音信息的控制的步骤。
15.一种摄像机,其从通信终端经由网络而接收语音信息并可将所述语音信息重放输出、将图像信息输出到网络,其中,所述摄像机包括语音接收缓冲器,存储语音信息;接收缓冲电平判定部,在所述语音接收缓冲器内的语音信息比规定的阈值小的情况下判定为无数据或无声,而在比规定的阈值大的情况下判定为有声;以及缓冲器控制部,废弃被所述接收缓冲电平判定部判定为无数据或无声的语音信息,并进行将剩余的语音信息的间隔缩短的控制。
16.如权利要求15所述的摄像机,其中,所述接收缓冲电平判定部在所述语音接收缓冲器内的语音信息的振幅信息的绝对值持续规定时间并小于等于规定的值的情况下判定为无数据或无声,而在超过所述规定的值的情况下判定为有声。
17.如权利要求15所述的摄像机,其中,所述接收缓冲电平判定部在所述语音接收缓冲器内的语音信息的规定的时间的平方功率的积分值小于等于规定的值的情况下判定为无数据或无声,而在所述规定的时间的平方功率的积分值超过规定的值的情况下判定为有声。
18.如权利要求15所述的摄像机,其中,所述接收缓冲电平判定部在所述语音接收缓冲器内的语音信息的振幅信息的绝对值持续规定时间小于等于第一规定的值的情况下判定为无数据或无声,而在超过第二规定的值的情况下判定为有声。
19.如权利要求15所述的摄像机,其中,所述接收缓冲电平判定部在所述语音接收缓冲器内的语音信息的规定的时间的平方功率的积分值小于等于第一规定的值的情况下判定为无数据或无声,而在超过第二规定的值的情况下判定为有声。
20.如权利要求18至19任何一项所述的摄像机,其中,在所述语音接收缓冲器内存储了规定的数据量时,所述接收缓冲电平判定部进行有声或无声或无数据的判定,所述缓冲器控制部件包括根据该判定而废弃被判定为无数据或无声的语音信息的所述缓冲器控制部。
全文摘要
本发明的目的在于,提供一种终端、网络摄像机、程序、网络系统,无论无声数据多,还是分组延迟,都可有效地利用缓冲。主要特征在于,该终端(计算机装置2)将接收的语音数据临时存储在语音接收缓冲部(23a)中并进行语音输出,包括在语音接收缓冲部(23a)内的接收语音数据持续一定时间并小于等于规定的波峰值的情况下判定为无数据或无声,而在超过该波峰值的情况下判定为有声的接收缓冲电平判定部件(25b),缓冲控制部件(25a)废弃被判定为无数据或无声的语音数据,缩短剩余的语音数据的间隔并将其输出到语音处理部件(25)。
文档编号H04L12/00GK1717044SQ20051008212
公开日2006年1月4日 申请日期2005年6月29日 优先权日2004年6月29日
发明者有马佑二 申请人:松下电器产业株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1