一种网络语音输入转换控制方法_2

文档序号：9709477阅读：来源：国知局

2]如图1所示，本发明的优选实施方式是:所述第二语音转换单元31包括还包括语义识别模块33，所述语义识别模块33配合所述语音识别模块32识别的语音判断出所述语音输入单元1输入语音的语义。比如，所述语音输入单元1输入语音为“今天天气好吗?”，首先，进行语音识别，输出识别结果为“今天天气好吗?”然后根据语音识别结果，进行语义判断，所述语义识别模块33根据语义判断为:播出今天该地的天气情况。具体工作过程如下:所述语义识别模块33具体工作过程如下:构建语义知识库，即:根据识别场景构建语义知识库，所述语义知识库包括字词的语义属性。比如:根据实际过程，设定各种场景，例如，娱乐、天气、体育、人物等，根据识别场景构建相应的语义知识库，构建语义知识库为语义识别的基本条件，对一些字词构建其知识库，定义其语义属性。比如:“刘德华”，其知识库包括:男、香港人、歌手、演员，其语义属性为“娱乐人物”。“下雨”，则为一种天气情况，天气预报，其语义属性为“天气”。分词及语义消歧，即:根据知识库字词的语义属性对语音识别结果进行分词并进行语义消歧。具体过程如下:根据字词在知识库中的语义属性，对语音识别结果进行分词或消除歧义，比如:语音识别结果为“明天北京会下雨吗? ”根据知识库字词的语义属性分词为“明天”、“北京”、“会”、“下雨”、“吗”，“明天”为时间属性，“北京”为地点属性，“会”为动词，“下雨”为天气属性，“吗”为提问。在某些情况下，需要消除歧义，比如“刘德华的歌”，可能识别为“浏得滑”，但经过知识库对“刘德华”的定义，分析判断为“刘德华”。这属于根据知识库字词的语义属性消除歧义。意图分类及参数提取，即:对分词及语义消歧的结果进行意图分类，并进行参数提取。比如:语音识别结果为“明天北京会下雨吗? ”根据分词及语义消歧的结果进行意图分类，其意图类为“查询天气”，提取参数为:地点是北京，时间是明天。这样对“明天北京会下雨吗? ”进行了语义转换。
[0023]再比如:比如，所述语音输入单元1输入语音为“今天天气好吗?”，首先，进行语音识别，输出识别结果为“今天天气好吗?”然后所述语义识别模块33根据语音识别结果，进行语义判断，根据语义判断为:播出今天该地的天气情况。再比如:语音输入为我想听王菲的音乐”，所述语义识别模块33语义识别分析得到用户的意图为“播放歌曲”，参数是“王菲”，然后根据分析结果，调用歌曲播放功能并直接播放王菲的歌曲。因为采用有语义识别，用户并不需要记住固定的语音控制命令，而是可以采用用户自己最习惯的语言表达来与玩具互动。所以对上一条意图，用户也可以说“请帮我找王菲的歌”、“有没有王菲最新的专辑?”、“王菲的执迷不悟”，也就是说，用户可自由表达自己的命令和意图，移动终端上强大的语音识别和语义理解引擎，都可以非常好的识别出用户的真正意图:播放王菲的歌曲，或播放王菲的某一首歌曲。如此，让智能终端和用户的交互更佳自由、有趣，而且也节省直接硬件成本，却实现了高性能的人机交互效果。具体实施例中，所述与语音指令相配合的内容包括音频内容、文字内容中的一种或多种。
[0024]如图1所示，具体实施例中，所述网络服务器3和所述终端2均设置或其中任意一个设置存储语音指令及与语音指令相配合的内容的存储单元。所述与语音指令相配合的内容包括音频内容、文字内容中的一种或多种。
[0025]如图1、图2所示，本发明的【具体实施方式】是:提供一种基于外部开启控制语音输入的网络语音转换控制方法，包括输入语音的语音输入单元1、传送语音信息并进行语音识别转换的终端2、进行语音识别转换的网络服务器3，所述终端包括网络连接模块21，所述语音输入单元1包括开启所述网络连接模块21建立网络连接的开启模块11，所述网络语音转换控制方法包括如下步骤:
[0026]步骤100:开启终端并输入语音，8卩:由所述开启模块11开启所述终端2，使所述终端2与所述网络服务器3建立网络连接，由所述语音输入单元1输入语音。
[0027]具体实施过程如下:所述语音输入单元1连接所述终端2，所述语音输入单元1输入语音信息，所述开启模块11开启所述终端的网络连接模块21，所述终端2通过所述网络连接模块21与所述网络服务器3建立连接。
[0028]步骤200:接收并上传语音，S卩:所述终端2接收所述语音输入单元1输入的语音并上传到网络服务器3。
[0029]步骤300:语音识别转换，S卩:所述终端2与所述网络服务器3并行对所述语音信息进行识别转换；
[0030]步骤400:执行识别转换结果，S卩:所述网络服务器3和所述终端2共同执行或由所述终端2传送或单独执行语音识别转换结果。
[0031]如图1、图2所示，本发明的具体实施过程是:所述语音输入单元1连接所述终端2，所述语音输入单元1输入语音信息，所述开启模块11开启所述终端2的网络连接模块21，所述终端2通过所述网络连接模块21与所述网络服务器3建立连接，所述终端2接收所述语音输入单元1输入的语音信息并传送到所述网络服务器3，所述网络服务器3接收所述终端2传送的语音信息，所述第二语音转换单元31与第一语音转换单元24将语音信息的并行进行识别转换，该识别转换结果包括指令或指令和参数，所述网络服务器3执行所述语音转换结果并将执行结果传送到所述终端2，同所述终端2执行或者将该执行结果再进行传送以完成所述网络服务器3和所述终端2共同执行该语音识别转换结果;所述网络服务器3将所述语音转换结果传送到所述终端2由所述终端2单独执行或者传送出去，具体来说，所述终端2对获取的语音转换结果进行执行实现控制，或者传送到其它设备进行执行实现控制。本发明具体实施例中，所述第二语音转换单元31包括进行语音识别的语音识别模块32，所述语音转换过程包括对接收的语音信息进行语音识别转换。所述语音输入单元1与所述终端2通过USB接口进行连接，所述语音输入单元1具备声卡的功能，将输入的语音信号转换后通过USB接收口传送到所述终端2。所述终端2为电脑、移动通讯终端、电子玩具终端、家用电器中的一种或多种
[0032]如图1所示，本发明的优选实施方式是:所述终端2和所述网络服务器3的语音识别转换结果均包括语音识别转换的置信度。所谓置信度，也叫置信水平。它是指特定个体对待特定命题真实性相信的程度，也就是概率是对个人信念合理性的量度.概率的置信度解释表明，事件本身并没有什么概率，事件之所以指派有概率只是指派概率的人头脑中所具有的信念证据。置信水平是指总体参数值落在样本统计值某一区内的概率;而置信区间是指在某一置信水平下，样本统计值与总体参数值间误差范围。置信区间越大，置信水平越高。语音识别转换的置信度即对语音识别转换结果真实性的相信程度。所述网络服务器3与所述终端2并行对语音信息进行识别转换时，所述终端2设置语音识别转换结果的置信度阈值，当所述终端2语音识别转换结果的置信度大于等于该置信度阈值时，取该语音识别转换结果，若所述网络服务器语音识别转换结果的置信度小于该置信度阈值时，取所述终端2语音识别转换结果的置信度和所述网络服务器3语音识别转换结果的置信度中较大值的语音识别转换结果。
[0033]如图2所示，本发明的优选实施方式是:如图1、图2所示，本发明的优选实施方式是:还包括根据识别场景构建语义知识库，所述语义知识库包括字词的语义属性。比如:根据实际过程，设定各种场景，例如，娱乐、天气、体育、人物等，根据识别场景构建相应的语义知识库，构建语义知识库为语义识别的基本条件，对一些字词构建其知识库，定义其语义属性。比如:“刘德华”，其知识库包括:男、香港人、歌手、演员，其语义属性为“娱乐人物”。“下雨”，则为一种天气情况，天气预报，其语义属性为“天气”。在语音转换步骤中，还包括根据语音转换结果进行语义转换。具体包括:
[0034]步骤10:分词及语义消歧，S卩:根据知识库字词的语义属性对语音识别结果进行分词并进行语义消歧。具体

完整全部详细技术资料下载

当前第2页1 2 3