一种声控网络话机装置及其控制方法与流程

文档序号:12135596阅读:261来源:国知局
一种声控网络话机装置及其控制方法与流程

本发明涉及一种网络话机,尤其涉及一种声控网络话机,本发明属于通信、计算机、信息技术领域。



背景技术:

公用交换电话网络PSTN(Public Switched Telephone Network)是一种以模拟技术为基础的电路交换网络,一种常用旧式电话系统;在众多的广域网互连技术中,通过PSTN进行互连所要求的通信费用最低,但其数据传输质量及传输速度也最差,同时PSTN的网络资源利用率也比较低;PSTN提供的是一个模拟的专有通道,通道之间经由若干个电话交换机连接而成;当两个主机或路由器设备需要通过PSTN连接时,在两端的网络接入侧(即用户回路侧)必须使用调制解调器(Modem)实现信号的模/数、数/模转换; 从OSI七层模型的角度来看,PSTN可以看成是物理层的一个简单的延伸,没有向用户提供流量控制、差错控制等服务;而且,由于PSTN是一种电路交换的方式,所以一条通路自建立直至释放,其全部带宽仅能被通路两端的设备使用,即使他们之间并没有任何数据需要传送,因此,这种电路交换的方式不能实现对网络带宽的充分利用。

近年来,随着科学技术以及社会经济的飞速发展, 网络话机作为一种替代传统的PSTN话机的新型通讯产品在企业办公或者个人家庭生活中扮演着越来越重要的作用;而网络话机具有多账号、多线路的特点,相对于传统话机,功能以及设置都比较复杂;对于一些使用不便的人群如:老人、残疾人等,以及特殊环境下如:灯光晦暗的情况下,话机的复杂操作可能会阻碍这些人的正常使用。而对于经常使用网络话机的人如:话务员、前台接待、公司管理人员等也需要一种方式来通过少量的手动操作就能够使用话机的方式。

因此,为了更好的解决上述网络话机的问题,就需要有一种能够仅仅进行少量的操作就能够人能够正常的使用网络话机的方法,有效的来服务老人、残疾人,以及话务员、前台接待、公司管理人员等客户,降低时间成本的同时,提高了办公效率。



技术实现要素:

本技术方案目的在于克服现有技术的缺点和不足,对在网络话机中引入连续语音识别模块和特殊的语音搜索算法,建模、识别、解码、输出结果等方式,根据不同场景需要来识别的语音命令,大大提高了识别率,可对某类人群、某些场合下实现话机的控制。

本发明的目的通过以下技术方案来实现:

本发明的目的是提供一种声控网络话机装置,其特征在于:包括主控处理器、显示屏、键盘、通讯外设、电源模块、网络交换模块、语音芯片、网络接口、语音外设、动态随机存储器、快闪型存储器;所述的主控处理器包括脉冲编码调制存储器、网络数据接入模块、通用输入输出接口、键盘控制器、显示控制器、快闪型存储器控制器、动态随机存储器控制器;网络接口为局域网和广域网接口,语音外设包括扬声器和麦克风;电源模块为网络话机装置提供电源。

进一步地,所述的主控处理器通过网络交换模块连接网络接口,语音外设通过语音芯片连接主控处理器,所述的显示屏、键盘、通讯外设通过相对应的线缆连接主控处理器,所述的动态随机存储器、快闪型存储器连接主控处理器的引脚。

所述的脉冲编码调制存储器,是脉冲编码调制线性数据的缓冲区,用于缓冲从网络侧获取到的媒体数据并给扬声器放音以及从麦克风采集到的语音数据。

麦克风用于采集语音数据,扬声器用于播放从网络侧获取到的媒体数据以及作为声音控制的开关;用于控制当前网络话机是否开启了语音控制功能,通过扬声器按键长按3秒。

本发明具有独特的优点和有益效果如下:

本发明提出的一种声控网络话机装置,可实现通过语音指令来控制操作网络话机话机,无需通过繁复的操作;对于老人、残疾人以及特殊环境下,灯光晦暗的情况下,通过语音控制网络话机能够使这些人简单方便的使用网络话机;另外,也可适用于经常使用网络话机的人,包括话务员、前台接待、公司管理人员等通过语音控制网络话机,也能够提高人员的办事效率。

附图说明

图1为本发明一种声控网络话机装置的硬件原理图;

图2为本发明一种声控网络话机系统工作流程的示意图;

图3为本发明一种声控网络话机系统的声控系统的工作流程图;

图中附图标记的含义为:

1-主控处理器、2-显示屏、3-键盘、4-通讯外设、5-电源模块、6-网络交换模块、7-语音芯片、8-网络接口、9-语音外设、10-动态随机存储器、11-快闪型存储器、12-脉冲编码调制内存器、13-网络数据接入模块、14-通用输入输出接口、15-键盘控制器、16-显示控制器、17-快闪型存储器控制器、18-动态随机存储器控制器。

具体实施方式

下面结合说明书附图详述本发明技术方案:

参照图1所示,一种声控网络话机装置,其特征在于:包括主控处理器(1)、显示屏(2)、键盘(3)、通讯外设(4)、电源模块(5)、网络交换模块(6)、语音芯片(7)、网络接口(8)、语音外设(9)、动态随机存储器(10)、快闪型存储器(11);所述的主控处理器(1)包括脉冲编码调制存储器(12)、网络数据接入模块(13)、通用输入输出接口(14)、键盘控制器(15)、显示控制器(16)、快闪型存储器控制器(17)、动态随机存储器控制器(18);网络接口(8)为局域网和广域网接口,语音外设(9)包括扬声器和麦克风;电源模块(5)为网络话机装置提供电源。

进一步地,所述的主控处理器(1)通过网络交换模块(6)连接网络接口(8),语音外设(9)通过语音芯片(7)连接主控处理器(1),所述的显示屏(2)、键盘(3)、通讯外设(4)通过相对应的线缆连接主控处理器(1),所述的动态随机存储器(10)、快闪型存储器(11)连接主控处理器(1)的引脚。

所述的脉冲编码调制存储器(12),是脉冲编码调制线性数据的缓冲区,用于缓冲从网络侧获取到的媒体数据并给扬声器放音以及从麦克风采集到的语音数据。

进一步地,如图2所示,首先,长按扬声器键3秒,将开启语音识别控制开关,用户对着网络话机的麦克风说出相应的音源输入命令,脉冲编码调制存储器(12)开启数据采集监听模式,语音芯片(7)采集并处理该语音信号,是否匹配当前所预设的语音语言命令,如果没有匹配到则关闭语音识别控制开关,如果匹配到则将匹配到的语音命令发送到主控处理器(1),主控处理器(1)根据命令所属类型是显示相关命令还是呼叫相关命令分别发送给显示控制器(16)和发出呼叫控制处理命令。

进一步地,参阅图3,该实例提供了一种声控网络话机系统的控制方法的具体实现,语音芯片(7)用于对采集到的线性语音数据进行语音识别处理,其中由于只匹配特定的词语,其语音识别度可以达到99%以上。

控制方法的具体步骤为:包括预处理数据输入、语言特征提取、建立声学模型训练、建立语言模型训练、语音解码处理、输出语音识别结果;

第一、预处理数据输入,对脉冲编码调制存储器(12)输入的语音数据进行处理,过滤掉不相关信息以及背景噪声,并进行语音数据的端点检测,找到语音数据的起始点、语音数据分帧以及预加重,提升高频部分处理。

第二、语言特征提取,提取出反映语音信号特征的关键特征参数形成特征矢量序列,以便用于后续处理。

第三、建立声学模型训练,根据训练语音库的特征参数训练出声学模型参数,在识别时将待识别的语音的特征参数同声学模型进行匹配,得到识别结果。

第四、建立语言模型训练,语言模型用于计算一个句子出现概率的概率模型,它主要用于决定哪个词序列的可能性更大,或者在出现几个词的情况下,预测下一个即将出现的词语的内容,而本发明所采用的是指定特定的语音命令,包括不限于:历史记录、电话簿、免打扰、菜单、摘机、发送、删除、取消、呼叫保持、呼叫恢复、静音、呼叫转移、会议、新建呼叫、呼叫切换、拆分、呼叫拒绝、数字0~9;然后再由这些指令生成语音模型文件,语音识别只识别这些特定的语音命令,在这种情况下语音命令的识别准确度得到提高。

第五、语音解码处理,语音解码指语音技术中的识别过程,针对输入的语音信号,根据己经训练好的声学模型、语言模型及字典建立一个识别网络,根据搜索算法在该网络中寻找最佳的一条路径,这个路径就是能够以最大概率输出该语音信号的词串,确定这个语音样本所包含的文字,因此解码操作过程即指在解码端通过搜索技术寻找最优词串的方法。

第六、输出语音识别结果,所述的主控处理器(1)负责对语音识别结果的处理及分发,根据识别的指令类型分配给显示控制器(16)和发出呼叫控制处理命令。

进一步地,所述的显示控制器(16),处理主控处理器(1)送递过来的显示相关的指令,包括不限于:历史记录、电话簿、免打扰、菜单、删除、取消。

所述的呼叫控制处理命令,处理主控处理器(1)送递过来的呼叫相关的指令,包括不限于:呼叫保持、呼叫拒绝、呼叫转移、会议、新建呼叫。

上述技术方案仅是本发明的具体应用范例,实际应用过程中均可根据具体情况酌情选择替代设备器件,但对发明的保护范围不构成任何限制。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1