一种中文语句识别方法和装置制造方法

文档序号:6493539阅读:155来源:国知局
一种中文语句识别方法和装置制造方法
【专利摘要】本发明实施例公开了一种中文语句的识别方法和装置,方法为:接收用户输入的待识别中文语句;获取待识别中文语句的歧义链;根据不同的切分方式对所述歧义链进行切分,并根据切分得到的分词的词频、词性标注以及分词之间的移转概率,确定所述歧义链的最终切分结果,根据所述歧义链的最终切分结果对所述待识别中文语句进行切分。本发明考虑不同切分方式下得到的分词结果中分词的词频、分词间词性标注的移转概率来计算得到歧义链的最终结果,使得对待识别中文语句中的歧义链部分进行切分的结果更准确,更符合用户真实的语义表达,提高中文语句的识别准确率,从而提高了根据该中文语句进行查询的成功率。
【专利说明】一种中文语句识别方法和装置
【技术领域】
[0001]本发明涉及数据处理领域,具体涉及一种中文语句识别方法和装置。
【背景技术】
[0002]“中文语句识别”,顾名思义,就是对存在多个语义的中文语句进行识别,从而识别出最符合人类语言表述特点、用户意图的语义。而语义即是对于一个中文语句进行不同的切分时,由于切分方式不同而产生的含义。在对中文语句处理较多的地理信息领域,是通过地址处理系统处理各种地址的描述信息,为上层应用提供数据支撑。例如地名索引、地名相似度计算、地图导航等,经常需要对用户输入的地址进行切分处理,然后再根据切分结果进行相应的地址查询操作。
[0003]目前,在对用户输入的中文地址信息进行切分时,完全基于字典或自然语言来处理,如对于中文地址信息“平顶山西服务区”,根据前述方式既可以切分成“平顶/山西/服务区”也可以切分成“平顶山/西/服务区”,采用这种切分方式对包含有多种理解的中文地址信息将可能会切分成多种结果,如何克服中文地址信息中的歧义,找到最符合用户意图的切分方式,将直接影响地址查询的准确性。若切分不准确,根据切分结果进行地址查询将可能会导致查询不成功或查询不准确的问题。
[0004]在地理信息领域中,如何有效的对用户输入的中文地址信息进行切分处理,以得到准确的、符合用户意图的结果,目前还没有提出较为有效的解决方案。

【发明内容】

[0005]为了解决中文语句的识别问题,本发明提供了一种中文语句识别方法和装置。
[0006]本发明提供一种中文语句的识别方法,其特征在于,所述方法包括:
[0007]接收用户输入的待识别中文语句;
[0008]获取所述待识别中文语句的歧义链,所述歧义链为所述待识别中文语句中含有歧义的部分语句;
[0009]根据不同的切分方式对所述歧义链进行切分,并根据切分得到的分词的词频、词性标注以及分词之间的移转概率,确定所述歧义链的最终切分结果,所述移转概率是指从当前分词的前一个或前多个分词的词性标注转移到当前分词的词性标注的概率;
[0010]根据所述歧义链的最终切分结果对所述待识别中文语句进行切分。
[0011]优选地,根据不同的切分方式对所述歧义链进行切分,并根据切分得到的分词的词频、词性标注以及分词之间的移转概率,确定所述歧义链的最终切分结果,包括:
[0012]根据不同的切分方式对所述歧义链进行切分,得到每种切分方式对应的切分结果;
[0013]针对每种切分结果,根据该切分结果中各分词的词频、词性标注和分词之间的移转概率,得到该种切分结果的组合概率;
[0014]将组合概率最大的切分结果确定为所述歧义链的最终切分结果。[0015]优选地,根据切分结果中各分词的词频、词性标注和分词之间的移转概率,得到该种切分结果的组合概率,根据下式得到:
[0016]
【权利要求】
1.一种中文语句的识别方法,其特征在于,所述方法包括: 接收用户输入的待识别中文语句; 获取所述待识别中文语句的歧义链,所述歧义链为所述待识别中文语句中含有歧义的部分语句; 根据不同的切分方式对所述歧义链进行切分,并根据切分得到的分词的词频、词性标注以及分词之间的移转概率,确定所述歧义链的最终切分结果,所述移转概率是指从当前分词的前一个或前多个分词的词性标注转移到当前分词的词性标注的概率; 根据所述歧义链的最终切分结果对所述待识别中文语句进行切分。
2.根据权利要求1所述的方法,其特征在于,根据不同的切分方式对所述歧义链进行切分,并根据切分得到的分词的词频、词性标注以及分词之间的移转概率,确定所述歧义链的最终切分结果,包括: 根据不同的切分方式对所述歧义链进行切分,得到每种切分方式对应的切分结果; 针对每种切分结果,根据该切分结果中各分词的词频、词性标注和分词之间的移转概率,得到该种切分结果的组合概率; 将组合概率最大的切分结果确定为所述歧义链的最终切分结果。
3.根据权利要求2所述的方法,其特征在于,根据切分结果中各分词的词频、词性标注和分词之间的移转概率,得到该种切分结果的组合概率,根据下式得到:
4.根据权利要求2所述的方法,其特征在于,根据切分结果中各分词的词频、词性标注和分词之间的移转概率,得到该种切分结果的组合概率,根据下式得到:
5.根据权利要求4所述的方法,其特征在于,所述RpiiI P丨根据下式得到:
6.根据权利要求1所述的方法,其特征在于,根据不同的切分方式对所述歧义链进行切分,并根据切分得到的分词的词频、词性标注以及分词之间的移转概率,确定所述歧义链的最终切分结果,包括: 步骤1、采用多种切分方式1对歧义链进行切分,得到多种切分方式对应的第一首分词,将多种切分方式对应的第一首分词中词频最高的首分词,确定为当前歧义链的最终首分词; 步骤2、将所述最终首分词从歧义链中删除,得到第二歧义链,采用多种切分方式对第二歧义链进行切分,得到多种切分方式对应的第二首分词,计算从所述最终首分词的词性标注分别移转到多种切分方式对应的第二首分词的词性标注的移转概率,将移转概率最大的第二首分词确定为所述歧义链的最终第二分词; 步骤3、将所述最终第二分词从所述第二歧义链中删除,得到第三歧义链,针对第三歧义链重复执行步骤2,得到所述歧义链的最终第三分词; 依此类推,得到所述歧义链的所有最终分词,将得到的所有最终分词确定为对所述歧义链进行切分的最终切分结果。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述待识别中文语句为C1C2…Cn,获取所述待识别中文语句的歧义链,包括: 步骤1、以Cl为首字,查找待识别中文语句中以Cl为词头的第一最长组合为Cb-Ck,其中k小于η,将所述第一最长组合Cb^Ck确定为歧义链; 步骤2、依次选择C2、…、Ck为首字,分别查找待识别中文语句中以C2、…、Ck为词头的所有组合,并选择组合中最长的组合作为第二最长组合,第二最长组合为Ci为词头、Cm为词尾的组合,其中i大于I且小于k,m大于i ; 步骤3、对第一最长组合和第二最长组合进行合并处理,若m小于或等于k,则合并得到的第三最长组合与第一最长组合相同,结束流程,并将歧义链确定为所述待识别中文语句的歧义链;若111大于k,则合并得到的第三最长组合为C1C2…Cm,并将所述歧义链调整为第三最长组合,并执行步骤4; 步骤4、对Ck、…、Cm重复执行步骤2-步骤3,直到以Cj为首字查找待识别中文语句中以Cj为词头的组合为单字时为止,以得到所述待识别中文语句的歧义链Cl-Cs,其中j大于或等于k,且j小于或等于m,s大于或等于m,且s小于或等于η ; 步骤5、判断所述Cs是否为Cn,若不是则以Cs为首字重复执行步骤1-步骤4,以得到所述待识别中文语句的其他歧义链,否则结束流程。
8.一种中文语句的识别装置,其特征在于,所述装置包括: 接收模块,用于接收用户输入的待识别中文语句; 获取模块,用于获取所述待识别中文语句的歧义链,所述歧义链为所述待识别中文语句中含有歧义的部分语句; 确定模块,用于根据不同的切分方式对所述歧义链进行切分,并根据切分得到的分词的词频、词性标注以及分词之间的移转概率,确定所述歧义链的最终切分结果,所述移转概率是指从当前分词的前一个或前多个分词的词性标注转移到当前分词的词性标注的概率; 识别模块,用于根据所述歧义链的最终切分结果对所述待识别中文语句进行切分。
9.根据权利要求8所述的装置,其特征在于,所述确定模块,包括: 切分子模块,用于根据不同的切分方式对所述歧义链进行切分,得到每种切分方式对应的切分结果; 第一获取子模块,用于针对所述切分子模块得到的每种切分结果,根据该切分结果中各分词的词频、词性标注和分词之间的移转概率,得到该种切分结果的组合概率; 第一确定子模块,用于将组合概率最大的切分结果确定为所述歧义链的最终切分结果O
10.根据权利要求9所述的装置,其特征在于,所述第一获取子模块,具体用于: 根据下式得到所述切分结果的组合概率:

11.根据权利要求9所述的装置,其特征在于,所述第一获取子模块,具体用于: 根据下式得到所述切分结果的组合概率:

12.根据权利要求11所述的装置,其特征在于,所述第一获取子模块,包括: 第一计算子模块,用于根据下式得到
13.根据权利要求8所述的装置,其特征在于,所述确定模块,包括: 第二确定子模块,用于采用多种切分方式对歧义链进行切分,得到多种切分方式对应的第一首分词,将多种切分方式对应的第一首分词中词频最高的第一首分词,确定为当前歧义链的最终首分词; 第三确定子模块,用于将所述最终首分词从歧义链中删除,得到第二歧义链,采用多种切分方式对第二歧义链进行切分,得到多种切分方式对应的第二首分词,计算从所述最终首分词的词性标注分别移转到多种切分方式对应的第二首分词的词性标注的移转概率,将移转概率最大的第二首分词确定为所述歧义链的最终第二分词; 第一触发子模块,用于将所述最终第二分词从所述第二歧义链中删除,得到第三歧义链,针对第三歧义链重复触发所述第三确定子模块,得到所述歧义链的最终第三分词; 第四确定子模块,用于在根据所述第二确定子模块和第三确定子模块得到所述歧义链的所有最终分词后,将得到的所有最终分词确定为对所述歧义链进行切分的最终切分结果O
14.根据权利要求8-13任一项所述的装置,其特征在于,所述获取模块,包括: 第五确定子模块,用于在所述待识别中文语句为C1C2…Cn时,以Cl为首字,查找待识别中文语句中以Cl为词头的第一最长组合为Cl...Ck,其中k小于n,将所述第一最长组合CL...Ck确定为歧义链; 第六确定子模块,用于依次选择C2、…、Ck为首字,分别查找待识别中文语句中以C2、…、Ck为词头的所有组合,并选择组合中最长的组合作为第二最长组合,第二最长组合为Ci为词头、Cm为词尾的组合,其中i大于I且小于k,m大于i ; 第一判断子模块,用于判断m是否小于或等于k ;若是则启动第七确定子模块,否则启动第八确定子模块; 第七确定子模块,用于对第一最长组合与第二最长组合进行合并处理,得到的第三最长组合与第一最长组合相同; 第八确定子模块,用于对第一最长组合与第二最长组合进行合并处理,合并得到的第三最长组合为C1C2…Cm,并将所述歧义链调整为第三最长组合; 第二触发子模块,用于对Ck、…、Cm重复触发所述第六确定子模块和所述第一判断子模块,直到以Cj为首字查找待识别中文语句中以Cj为词头的组合为单字时为止,以得到所述待识别中文语句的歧义链CL...Cs,其中j大于或等于k,且j小于或等于m,s大于或等于m,且s小于或等于n ; 第二判断子模块,用于判断所述Cs是否为Cn ; 第三触发子模块,用于在所述第二判断子模块结果为否时,触发第五确定子模块,以得到所述待识别中文语句的其他歧义链。
【文档编号】G06F17/30GK103902521SQ201210568325
【公开日】2014年7月2日 申请日期:2012年12月24日 优先权日:2012年12月24日
【发明者】郭涛 申请人:高德软件有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1