中文语音识别系统及其语音识别方法

文档序号：2830750阅读：969来源：国知局

专利名称：中文语音识别系统及其语音识别方法
技术领域：
本发明属于计算机智能应用技术领域，涉及一种语音识别系统，尤其涉及一种中文语音识别系统；同时还涉及一种上述中文语音识别系统的语音识别方法。
背景技术：
语音识别技术在国外研究得比较早，技术相对比较成熟，在90年代就已经开始应用于电信、金融等行业。比较知名语音识别产品，如Nuance语音识别系统，该系统采用的是客户/ 服务机的结构，可在Windows及很多UNIX系统上运行，它可灵活伸縮，支持很小到很大的应用程序。Nuance系统能够支持大容量的语音检索、自然语言识别等，已支持包括中文在内的二十几种语言的语音识别。国外的语音识别技术虽然已经很成熟，但是也存在很多不足的地方，如中文语音识别，针对中文语言特点，如自然语言、关键字、多音字等方面的处理，以及特殊的交互式语音要求等方面，还存在很多缺欠和不足。发明内容本发明所要解决的技术问题是提供一种可以有效减化语音交互流程、提高用户效率的中文语音识别系统。另外，本发明还提供一种上述中文语音识别系统的语音识别方法。为解决上述技术问题，本发明采用如下技术方案一种中文语音识别系统，包括依次连接的语音数据接收单元、数模转换单元、语音数据识别单元；所述语音数据识别单元包括关键字识别模块，用以识别语音中设定特定类型的关键字；自然语音识别模块，用以根据所述识别后的关键字辨别自然语言的内容；语音数据库，用以保存采样语音的数据信息；相似音识别模块，把接收语音的数据信息与所述数据库中的数，信息做比对，返回结果的可信度，若可信度超过设定值，则本次识别成功；模糊识别模块，当识别未获成功时，选择若干识别率高的语音併用户选择，或者提示用户重新发音。作为本发明的一种优选方案，所述语音数据识别单元还包括同义近义词识别模块，用以根据所述数据库中的数据信息识别语音的同义词及近义词。作为本发明的一种优选方案，所述识别系统还包括与语音数据识别单元连接的业务流程控制单元，用以根据接收到的、来自所述语音数据识别单元的语音信息控制业务流程。作为本发明的一种优选方案，所述业务流程控制单元包括插话模块，用以在业务进行的过程中识别用户的语音；进而针对该语音的内容配合用户进入相应业务。作为本发明的一种优选方案，所述系统的接口符合NGN标准，通过该接口直接与NGN网络连接；所述系统包括相互分离的业务逻辑部分与呼叫控制部分。作为本发明的一种优选方案，所述语音数据接收单元设置于识别客户端，语音数据识别单元设置于识别服务端；所述识别服务端把识别后的数据发送至所述识别客户端。作为本发明的一种优选方案，所述语音识别系统包括接入层，包括平台对接模块与终端用户接入模块，平台接入模块支持H.323协议和SIP 协议；终端用户接入模块支持H.323、 SIP和MGCP类型的终端注册到TSV平台上；呼叫控制层，实现呼入呼出、呼叫状态分析、电话转接、录放音、接收DTMF、转接坐席与呼叫相关的功能，以及和计费服务器的通信和计费服务；会话层，主要实现用户与系统的对话过程，包括媒体处理、语音识别声音采样、文本合成媒体输出功能，以及与语音识别服务、文本合成服务的接口和交互处理；流程解析层，主要实现Voice XML的流程脚本解析功能，根据禾自业务流程控制层的业务请求，控制着用户的业务流程；业务流程控制层，用以接收来自应用服务器的业务请求，经过判断分析，将该业务请求交付给流程解析层处理。上述中文语音识别系统的语音识别方法，包括如下步骤步骤A、识别客户端中的语音数据接收单元采集语音信息；步骤B、所述语音数据接收单元把采集的语音信息通过所述数模转换单元转换成数据包，发送至识别服务端中的语音数据识别单元；步骤C、识别服务端识别经过识别处理，得到识别结果，返回给识别客户端；步骤D、业务流程控制单元根据接收到的、来自所述语育数据识别单元的语音信息控制业务流程；步骤D中包括模糊识别步骤，当识别未获成功时，选择若干识别率高的语音供用户选择，或者提示用户重新发音。作为本发明的一种优选方案，所述步骤D包括识别用户插话的步骤，在业务进行的过程中识别用户的语音，针对该语音的内容配合用户进入相应业务。本发明的有益效果在于本发明提供的中文语音识别系统，提高了语音识别系统的可扩展性和多种业务集成能力，同时比传统的方式节省硬件投资50%以上。在使用上，本发明极大的简便了业务控制流程，使建立各种既有利于新业务的快速推出，又节省了系统维护成本。而且采用语音同歩技术大大减化了语音交互流程，提高用户效率。同时，通过开发中文"关键字识别系统"、"昵称、同义近义词识别"、"模糊识别"等语音识别技术，大大提高了中文语音识别率。另外，通过智能流程控制技术，实现了 "自动容错"功能，提高了系统语音识别中的自动容错能力。

图1为本发明中文语音识别系统的组成示意图。图2为本发明中文语音识别方法的流程图。图3为自然语言识别结果示意图。图4为相似音识别示意图。图5为语音电话簿流程图。图6为本发明与NGN接口连接示意图。图7为本发明语音识别系统的架构图。
具体实施方式
下面结合附图详细说明本发明的优选实施例。实施例一请参阅图l，本发明揭示了一种中文语音识别系统，包括依次连接的语音数据接收单元、数模转换单元、语音数据识别单元、业务流程控制单元。所述语音数据识别单元包括语音数据库、相似音识别模块、携糊识别模块、关键字识别模块、自然语音识别模块、同义近义词识别模块。语音数据库用以保存采样语音的数据信息；相似音识别模块把接收语音的数据信息与所述数据库中的数据信息俾比对，返回结果的可信度，若可信度超过设定值，则本次识别成功；当识别未获成功时，选择若干识别率高的语音供用户选择，或者提示用户重新发音；关键字识别模块，用以识别语音中设定特定类型的关键字；其中，设定的关键字包括时间、地点、特定事项；自然语音识别模块，用以根据所述识别后的关键字辨别自然语言的内容；同义近义词识别模块用以根据所述数据库中的数据信息识别语音的同义词及近义词，同义词及近义词在数据库中设定。其中，自然语言识别就是让以往的多组简单用户对话识别，变成让用户说成一句话来实现，例如，航班查询，用户打电话查询航班信息，一般做法，系统会问，"星期几"，"上午、下午还是晚上的航班"，"出发城市"，"到达城市"等。用户最终得到了查询结果，但这个过程太繁琐，耽误时间。如果用户能够说出一句话，如"查询星期五上午北京到上海的航班"，系统能够立刻把査询结果播报给用户。其中实现的原理，是"TSNS自然语言识别"和"TSKS 关键字匹配"协同作业的结果，再针对用户输入的时候，TSSE识别引擎加载该査询的动态语法包，包括时间、地点、动作、目标信息等多项关键词组，每个关键词，如时间，包含星期一到星期天、上午、中午、晚上等。从而，根据用户输入的这句话中，先提取出相应的关键字，然后进行匹配、收集可信度，确定识别结果，最终实现信息的准确获得和判断。"相似音识别"也是本发明中文语音识别系统一个重要特色，其实现原理通过检索所述语音数据库中的中文语料库，针对返，结果的可信度，而进行进一步的判断来让用户选择而实现对话流程的可行性。中文语音识别别系统中另外两个关键模块就是中文语料库和语音识别模块，这两个模块与识别引擎协同工作，实现用户语音识别。中文语料库是汇集了对中文普通有160万次的数据采集，包括部分带有口音的普通话，数据采集量越高，对识别的结果可靠性就越高，通常 40万次的数据采集就能够确保识别正确的需要。中文语料库、语音识别模型和识别引擎一起工作时，经过我们大量的数据采集和计算分析，对于中文系统，识别引擎对于识别返回的结果值(可信度)达到85时，确定识别结果的肯定和唯一性为98%;如果可信度值达到95，确定识别结果的肯定和唯一性为99.8%;如果可信度值达到65,确定识别结果的肯定和唯一性为88%;通过以上的数据，结合实际应用的可行性，本实施例中，可信度值达到85时，识别的结果实际值为正确的。业务流程控制单元用以根据接收到的、来自所述语音数据识别苹元的语音信息控制业务流程。业务流程控制单元包括插话模块，在业务进行的过程中识别用户的语音，进而针对该语音的内容配合用户进入相应业务。这样，用户无需等待繁琐冗#的业务介绍，直接说明自己需要的业务或其他信息，进而方便进入该流程。如在银行业务服务中，用户需要挂失，现有的电话业务中，用户需要等待银行端把业务介绍一个个说明，直到出现挂失选择的步骤，过程较繁琐。而通过该插话模块，用户接通电话银行后，寫接说明"挂失"，语音数据识别单元识别该信息后，交由业务流程控制单元控制相应的业务流程。所述语音数据接收单元设置于识别客户端，语音数据识别单元设置于识别服务端；所述识别服务端把识别后的数据发送至所述识别客户端。本实施例中，识别服务端设置2个，如果针对大量的语音识别应用，识别服务端可以启用更多个，并通过资源管理，合理分配识别服务处理。请参阅图2，上述中文语音识别系统的语音识别方法，包括如下步骤步骤A、识别客户端中的语音数据接收单元采集语音信息步骤B、所述语音数据接收单元把采集的语音信息通过所述数模转换单元转换成数据包，发送至识别服务端中的语音数据识别单元；步骤C、识别服务端识别经过识别处理，得到识别结果，返回给识别客户端；步骤D、业务流程控制单元根据接收到的、来自所述语音数据识别单元的语音信息控制业务流程；步骤D中包括模糊识别步骤，当识别未获成功时，选择若干识别率高的语音供用户选择，或者提示用户重新发音。所述步骤D包括识别用户插话的步骤，在业务进行的过程中识别用户的语音，针对该语音的内容配合用户进入相应业务。此外，本发明还做了以下改进所述系统的接口符合NGN标准，通过该接口直接与NGN 网络连接。所述系统包括相互分离的业务逻辑部分与呼叫控制部分。综上所述，本发明提供的中文语音识别系统，提高了语音识别舉统的可扩展性和多种业务集成能力，同时比传统的方式节省硬件投资50%以上。在使用上，本发明极大的简便了业务控制流程，使建立各种既有利于新业务的快速推出，又节省了系统维护成本。而且采用语音同步技术大大减化了语音交互流程，提高用户效率。同时，通过开发中文"关键字识别系统"、"昵称、同义近义词识别"、"模糊识别"等语音识别技术，大大提高了中文语音识别率。另外，通过智能流程控制技术，实现了"自动容错"功能，提高了系统语音识别中的自动容错能力。实施例二——自然语言理解一般的语音识别应用，都是基于对话式的，例如，航班査询。用户打电话査询航班信息，一般做法，系统会问，星期几，上午、下午还是晚上的航班，出发城市，到大城市等。用户最终得到了査询结果，但这个过程太繁琐，耽误时间。如果用户能够说出一句话，如"査询星期五上午北京到上海的航班"，系统能够立刻把查询结果播报给用户，这种方便、简单的过程实现，无疑大大提高了用户效率。本发通过关键字检索、模糊匹配等技术，实现了自然语言理解，其过程和结果如图3所示。实施例三——相似音识别中文有很多相似音，举个自动语音总机的例子，一个公司有多个员工名字发音相近或接近的情况，如有位男员工叫"李响"，女员工叫"李湘"，还有其他如李强、李祥等。如果用户找李响，系统发现李湘、李响的识别结果非常接近，都超过了经验值(如85)，基于这种情况，应用流程收到结果后，不能确定用户的选择，但会进一步提示用户，男的李响还是女的李湘，如果用户说男的李响，系统将很容易判定识别结果，完成用户的操作，如图4所示。或者问用户是"李响"还是"李湘"，供用户选择。实施例四——容错处理在识别应用过程中，很少的时候，如用户的语音输入略不清楚或者轻重不同，难免造成识别结果有误，会给用户带来不便。如图5所示的语音电话簿应用。用户电话簿里面存放李响和李湘两个联系人，用户为了快速便捷，没有进行相似音处理，如果电话转接时听到不是用户说的名字，此时，用户无需挂断电话，只需说出"回来"或者 "错了"，系统会自动返回上一级，让用户重新选择。既避免了误转接，也让用户方便的重新输入。以上只是简单的例子，在语音搜索等应用中，这种容错处理将体现出非常重要的价值。实施例五——系统架构中文语音识别系统采用分层结构，从下至上分别为接入层、呼叫控制层、会话层、流程解析层和业务流程控制层，另外通过TCP/IP方式与各种外部服务或第三方产品保持通信。系统结构图如图7所示。1) 接入接入层包括平台对接模块与终端用户接入模块，平台接入模块支持H.323协议和SIP协议；终端用户接入模块支持H.323、 SIP和MGCP类型的终端注册到TSV平台上。2) 呼叫控制层呼叫控制层实现呼入呼出、呼叫状态分析、电话转接、录放音、接收DTMF、转接坐席等各种与呼叫相关的功能，以及和计费服务器的通信和计费服务。3) 会话层会话层主要实现用户与系统的对话过程，包括媒体处理、语音识别声音采样、文本合成媒体输出等功能，以及与语音识别服务、文本合成服务的接口和交互处理。4) 流程解析层流程解析层主要实现Voice XML的流程脚本解析功能，根据来自业务流程控制层的业务请求，控制着用户的业务流程。5) 业务流程控制层业务流程控制层接收来自应用服务器的业务请求，经过判断分析，将该业务请求交付给流程解析层处理。6) 外部接口模块外部接口模块主要包括应用服务器(包括数据库服务器和Web服务器)、计费服务器、语音识别服务器、文本合成服务器、内容服务器、人工坐席、IP终端、管理和维护终端等。7) 与NGN平台接口中文语音识别系统与NGN平台接口，主要支持H.323和SIP协议，联接方式如图6所示，只需网络连接即可，无需硬件语音板卡，大大节省成本。以上实施例仅用以说明而非限制本发明的技术方案。不脱离本发明精神和范围的任何修改或局部替换，均应涵盖在本发明的权利要求范围当中。
权利要求
1、一种中文语音识别系统，包括依次连接的语音数据接收单元、数模转换单元、语音数据识别单元；其特征在于，所述语音数据识别单元包括关键字识别模块，用以识别语音中设定特定类型的关键字；自然语音识别模块，用以根据所述识别后的关键字辨别自然语言的内容。
2、根据权利要求l所述的中文语音识别系统，其特征在于所述语音数据识别单元还包括语音数据库，用以保存采样语音的数据信息；相似音识别模块，把接收语音的数据信息与所述数据库中的数据信息做比对，返回结果的可信度，若可信度超过设定值，则本次识别成功；模糊识别模块，当识别未获成功时，选择若干识别率高的语音供用户选择，或者提示用户重新发音。
3、根据权利要求2所述的中文语音识别系统，其特征在于所述语音数据识别单元还包括同义近义词识别模块，用以根据所述数据库中的数据信息识别语音的同义词及近义词。
4、根据权利要求l所述的中文语音识别系统，其特征在于所述识别系统还包括与语音数据识别单元连接的业务流程控制单元，用以根据接收到的、来自所述语音数据识别单元的语音信息控制业务流程。
5、根据权利要求l所述的中文语音识别系统，其特征在于所述业务流程控制单元包括插话模块，用以在业务进行的过程中识别用户的语音；进而针对该语音的内容配合用户进入相应业务。
6、根据权利要求l所述的中文语音识别系统，其特征在于所述语音识别系统通过一NGN通信协议接口与NGN网络连接；所述系统包括相互分离的业务逻辑邰分与呼叫控制部分。
7、根据权利要求1所述的中文语音识别系统，其特征在于所述语音数据接收单元设置于识别客户端，语音数据识别单元设置于识别服务端；所述识别服务端把识别后的数据发送至所述识别客户端。
8、根据权利要求l所述的中文语音识别系统，其特征在于所述请音识别系统包括接入层，包括平台对接模块与终端用户接入模块，平台接入模块支持H.323协议和 SIP协议；终端用户接入模块支持H.323、 SIP和MGCP类型的终端注册到TSV平台上；呼叫控制层，实现呼入呼出、呼叫状态分析、电话转接、录放音、接收DTMF、转接坐席与呼叫相关的功能，以及和计费服务器的通信和计费服务；会话层，主要实现用户与系统的对话过程，包括媒体处理、语音识别声音采样、文本合成媒体输出功能，以及与语音识别服务、文本合成服务的接q和交互处理；流程解析层，主要实现Voice XML的流程脚本解析功能，根据来自业务流程控制层的业务请求，控制着用户的业务流程；业务流程控制层，用以接收来自应用服务器的业务请求，经过判断分析，将该业务请求交付给流程解析层处理。
9. 权利要求1至8任意一项所述中文语音识别系统的语音识别方法，其特征在于，该识别方法包括如下步骤步骤A、识别客户端中的语音数据接收单元采集语音信息；步骤B、所述语音数据接收单元把采集的语音信息通过所述数模转换单元转换成数据包，发送至识别服务端中的语音数据识别单元；步骤C、识别服务端识别经过识别处理，得到识别结果，返回给识别客户端；步骤D、业务流程控制单元根据接收到的、来自所述语音数据识别单元的语音信息控制业务流程；步骤D中包括模糊识别步骤，当识别未获成功时，选择若干识别率高的语音供用户选择，或者提示用户重新发音。
10. 根据权利要求9所述的语音识别方法，其特征在于所述步骤D包括识别用户插话的步骤，在业务进行的过程中识别用户的语音，针对该语音的内容配合用户进入相应业务。
全文摘要
本发明揭示了一种中文语音识别系统，包括依次连接的语音数据接收单元、数模转换单元、语音数据识别单元、业务流程控制单元。所述语音数据识别单元包括语音数据库、相似音识别模块、模糊识别模块；业务流程控制单元用以根据接收到的、来自所述语音数据识别单元的语音信息控制业务流程。本发明通过开发中文“关键字识别系统”、“昵称、同义近义词识别”、“模糊识别”等语音识别技术，有效提高了中文语音识别率。
文档编号G10L15/00GK101334999SQ20081004362
公开日2008年12月31日申请日期2008年7月10日优先权日2008年7月10日
发明者陈洪林申请人:上海言海网络信息技术有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈洪林
技术所有人：上海言海网络信息技术有限公司
我是此专利的发明人

上一篇：真实乐器在网络上进行娱乐、竞技演奏的防作弊方法
上一篇：谱增益计算方法、装置以及噪声抑制系统的制作方法