人名候选词的生成方法及装置的制作方法

文档序号:6599568阅读:166来源:国知局
专利名称:人名候选词的生成方法及装置的制作方法
技术领域
本发明涉及中文输入法技术领域,尤其涉及一种人名候选词的生成方法及装置。
背景技术
目前,大多中文输入法都提供上下文联想功能,可以根据已经上屏的词语和后续用户输入的拼音串之间的词频进行筛选和计算,进而得出拼音串对应的词语。例如,用户输入“学习”并且上屏,然后用户在输入法中输入拼音串“zhishi”,通过上下文联想功能,得到 “知识”而非“只是”。但是,现有技术中的上下文联想功能,通常是简单的词频筛选和计算,没有考虑到人名具有不同于普通词语的特殊性,因此,无法联想出准确的人名,存在人名提示不准确的缺陷。

发明内容
本发明的实施例提供了一种人名候选词的生成方法及装置,提高生成人名候选词的准确率。本发明的实施例提供一种人名候选词的生成方法,包括确定拼音串中包含符合人名特征的人名拼音串;确定所述人名拼音串之前的已上屏词符合预定条件时,生成所述人名拼音串对应的人名候选词。对应的,本发明的实施例提供一种人名候选词的生成装置,包括确定单元,用于确定拼音串中包含符合人名特征的人名拼音串;生成单元,用于确定所述人名拼音串之前的已上屏词符合预定条件时,生成所述人名拼音串对应的人名候选词。由上述本发明的实施例提供的技术方案可以看出,不仅确定拼音串中包含符合人名特征的人名拼音串,并确定人名拼音串之前的已上屏词符合预定条件,才生成人名拼音串对应的人名候选词,实现提高生成人名候选词的准确率,增强用户的体验。


为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本发明一实施例人名候选词的生成方法流程示意图;图2为本发明一实施例人名候选词的方法具体应用流程示意图;图3为本发明一实施例人名候选词的生成装置构成示意图;图4为本发明另一实施例人名候选词的生成装置构成示意图。
具体实施例方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。如图1所示,本发明实施例提供一种人名候选词的生成方法,包括11、确定拼音串中包含符合人名特征的人名拼音串。12、确定人名拼音串之前的已上屏词符合预定条件时,生成人名拼音串对应的人名候选词。由上述本发明的实施例提供的技术方案可以看出,不仅确定拼音串中包含符合人名特征的人名拼音串,并确定人名拼音串之前的已上屏词符合预定条件,才生成人名拼音串对应的人名候选词,实现提高生成人名候选词的准确率,增强用户的体验。人名特征可以包括中文人名特征或外文人名的中文译名特征,本发明对此不做限制。中文人名特征可以包括姓氏和名字,对应的人名拼音串包括在前的姓氏拼音串和在后的名字拼音串;如中文人名“王萍”,人名拼音串“wangping”。外文人名的中文译名特征可以包括音译的名字,对应的人名拼音串包括名字拼音串。如英文人名“Τ0Μ”,中文译名“汤姆”,人名拼音串“tangmu”。以下具体分析本发明实施例中的中文人名(一)中文人名形式对于大部分中文人名,一般由姓氏和名字组成,其中常见的中文人名一般包括如下形式单姓+ —个字,如“项羽”;单姓+第一个字+第二个字,如“李世民”;复姓+ —个字,如“诸葛亮”;复姓+第一个字+第二个字,如“司马相如”。(二)中文姓氏数量对于中文人名,虽然由许多生僻怪异的姓氏,但绝大部分姓氏还是常见的百家姓中的一个,根据历次人口普查可以很清晰知道姓氏的数量是有限的,而且相对比较集中的。(三)中文名字数量对于中文人名,一般会选择比较美好事物对应名称或描述性文字、或有纪念意义事情对应的文字,例如“亮”、“梅”、“明”、“景”;“建国”、“建军”、“卫国”、“国庆”等,这些人为
因素决定了名字所使用的汉字数量时有限且趋向于集中的。由上述分析可见,中文人名特征可以包括姓氏和名字,姓氏包括单姓或复姓,名字包括单字或多字,等等。对应的,人名拼音串可以包括在前的姓氏拼音串和在后的名字拼音
虫坐坐中?寸寸ο基于上述说明,本发明实施例人名候选词的生成方法,在步骤11之前,还可以包括构建符合中文人名特征的姓氏和名字的词库。
此时,上述步骤11,可以理解为,根据输入的拼音串,从预先构建的词库中判断拼音串中是否包含符合中文人名特征的人名拼音串。而且,中文人名除了通常由姓氏和名字构成之外,中文人名通常在句子结构也具有一定的特殊性,如人名常常出现在句首或者动词之后,则上述步骤12中,确定人名拼音串之前的已上屏词符合预定条件,可以包括确定人名拼音串中的姓氏拼音串之前的已上屏词为标点符号。标点符号包括代表句子结束的标点符号,那么,人名拼音串中的姓氏拼音串之前的已上屏词为已经是句尾了, 则人名拼音串中的姓氏拼音串代表另一句的句首。例如,代表句子结束的标点符号可以包括句号、逗号、问号、惊叹号、省略号,等等。代表句子未结束的标点符号可以包括冒号, 引号,等等。在此不作详细说明。或者,确定人名拼音串中的姓氏拼音串之前的已上屏词为动词。例如,可以通过标识词语的词性来判断已上屏词的词性是否为动词,如“她叫王萍”中,输入“wangping”人名拼音串,“wangping”之前的已上屏词“PL]”是动词,则生成人名拼音串对应的人名候选词,如 “王萍”,在此不作详细说明。或者,确定人名拼音串中的名字拼音串之前的已上屏词为姓氏。例如,通过标识词语的属性来判断已上屏词的属性是否为姓氏,如将“赵、钱、孙、李……”等的属性标识为姓氏,在此不作详细说明。上述3种确定人名拼音串之前的已上屏词符合预定条件的方式,可以并存也可以独立适用,当3者并存时,没有先后顺序的限制。较佳的,可以先确定人名拼音串中的姓氏拼音串之前的已上屏词为代表句子结束的标点符号,当确定人名拼音串中的姓氏拼音串之前的已上屏词不是句尾后,再确定人名拼音串中的姓氏拼音串之前的已上屏词为动词,最后,确定人名拼音串中的名字拼音串之前的已上屏词为姓氏。另外,上述步骤12中,仍然可以结合人名拼音串对应的词语的词频优化上下文联想,如将词频较高的人名拼音串对应的词语作为第一个候选词,以此类推。例如,对于人名拼音串“wangping”对应的词语的词频,候选词依次可以为“王萍”,“王平”,“王苹”,在此不作详细说明。以下具体分析本发明实施例中的外文人名的中文译名外文人名的中文译名通常是音译过来的名字,如英文人名“Τ0Μ”,中文译名“汤姆”,人名拼音串“tangmu”。而且,一些常用外文人名的中文译名,已经较普遍的被人们接受,基于上述因素决定了常用外文人名的中文译名所使用的汉字数量时有限且趋向于集中的。基于上述说明,本发明实施例人名候选词的生成方法,还可以包括构建符合外文人名的中文译名特征的名字的词库。此时,上述步骤11,可以理解为,根据输入的拼音串,从预先构建的词库中判断拼音串中是否包含符合外文人名的中文译名特征的人名拼音串。同理,外文人名的中文译名通常在句子结构中也具有一定的特殊性,如人名常常出现在句首或者动词之后,则上述步骤12中,确定人名拼音串之前的已上屏词符合预定条件,可以包括确定人名拼音串中的名字拼音串之前的已上屏词为标点符号。
确定人名拼音串中的名字拼音串之前的已上屏词为动词。同理,上述2种确定人名拼音串之前的已上屏词符合预定条件的方式,可以并存也可以独立适用,当2者并存时,没有先后顺序的限制。同理,上述步骤12中,仍然可以结合人名拼音串对应的词语的词频优来化上下文联想,如将词频较高的人名拼音串对应的词语作为第一个候选词,以此类推。通过对上述步骤11、12的描述可以看出,不仅要确定拼音串中包含符合人名特征的人名拼音串,而且要确定人名拼音串之前的已上屏词符合预定条件,才生成人名拼音串对应的人名候选词,可以提高生成人名候选词的准确率,增强用户的体验。而且,当虽然确定拼音串中包含符合人名特征的人名拼音串,但是确定人名拼音串之前的已上屏词不符合预定条件,那么不会生成人名拼音串对应的人名候选词,避免生成用户不需要的人名候选词,影像用户的输入。如图2所示,具体以一实例说明本发明实施例人名候选词的生成方法。21、用户输入拼音串,如“nining”。22、确定拼音串中是否包含符合中文人名特征的人名拼音串。如果是,进入步骤 23,如果否,进入步骤25。如,“nining”符合中文人名特征,进入步骤23。23、确定人名拼音串之前的已上屏词符合预定条件。如果是,进入步骤M,如果否, 进入步骤25。如,用户输入“nining”之前,用户已经输入并上屏“她叫”,确定“nining”之前 “叫”为动词,且“nining”符合中文人名特征,即符合预定条件,进入步骤M。或者,如,用户输入“nining”之前,用户输入并上屏“这条路很”,确定“nining” 之前上屏的词语不符合预定条件,所以虽然“nining”符合中文人名特征,但是要进入步骤 25。24、生成人名拼音串对应的人名候选词。如,将“nining”对应生成“倪宁”等之类的人名候选词。25、通过上下文联想生成非人名候选词。如,虽然“nining”符合人名特征,也不会生成人名候选词,而是通过上下文联想生生成普通词语“泥泞”。如图3所示,对应于上述实施例的一种人名候选词的生成方法,本发明实施例提供一种人名候选词的生成装置,包括确定单元31,用于确定拼音串中包含符合人名特征的人名拼音串。生成单元32,用于确定人名拼音串之前的已上屏词符合预定条件时,生成人名拼音串对应的人名候选词。由上述本发明的实施例提供的技术方案可以看出,不仅确定拼音串中包含符合人名特征的人名拼音串,并确定人名拼音串之前的已上屏词符合预定条件,才生成人名拼音串对应的人名候选词,实现提高生成人名候选词的准确率,增强用户的体验。可以理解,人名特征可以包括中文人名特征或外文人名的中文译名特征。中文人名特征可以包括姓氏和名字,人名拼音串包括在前的姓氏拼音串和在后的名字拼音串
外文人名的中文译名特征可以包括音译的名字,人名拼音串包括名字拼音串。可见,本发明实施例人名候选词的生成装置,还可以包括构建单元,用于构建符合人名特征的姓氏和名字的词库。如图4所示,具体而言,人名拼音串包括在前的姓氏拼音串和在后的名字拼音串时,生成单元,可以包括第一生成子单元41,用于确定人名拼音串中的姓氏拼音串之前的已上屏词为标点符号,生成人名拼音串对应的人名候选词。第二生成子单元42,用于确定人名拼音串中的姓氏拼音串之前的已上屏词为动词,生成人名拼音串对应的人名候选词。第三生成子单元43,用于确定人名拼音串中的名字拼音串之前的已上屏词为姓氏,生成人名拼音串对应的人名候选词。或者,人名拼音串包括名字拼音串时,生成单元,可以包括第一生成子单元41,用于确定人名拼音串中的名字拼音串之前的已上屏词为代表句子结束的标点符号。第二生成子单元42,用于确定人名拼音串中的名字拼音串之前的已上屏词为动词。第一生成子单元41中,标点符号包括代表句子结束的标点符号。那么,人名拼音串中的姓氏拼音串之前的已上屏词已经是句尾了,则人名拼音串中的姓氏拼音串代表另一句的句首。通过上述描述可以看出,不仅要确定拼音串中包含符合人名特征的人名拼音串, 而且要确定人名拼音串之前的已上屏词符合预定条件,才生成人名拼音串对应的人名候选词,可以提高生成人名候选词的准确率,增强用户的体验。而且,当虽然确定拼音串中包含符合人名特征的人名拼音串,但是确定人名拼音串之前的已上屏词不符合预定条件,那么不会生成人名拼音串对应的人名候选词,避免生成用户不需要的人名候选词,影像用户的输入。上述本发明实施例人名候选词的生成装置及其构成部分的作用,可以通过上述实施例人名候选词的生成方法得以理解,在此不在展开叙述。需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory, ROM)或随机存储记忆体(Random Access Memory, RAM)等。
以上所述,仅为本发明较佳的具体实施方式
,但本发明的保护范围并不局限于此, 任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换, 都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
权利要求
1.一种人名候选词的生成方法,其特征在于,包括 确定拼音串中包含符合人名特征的人名拼音串;确定所述人名拼音串之前的已上屏词符合预定条件时,生成所述人名拼音串对应的人名候选词。
2.根据权要求1所述的方法,其特征在于,所述人名特征包括中文人名特征或外文人名的中文译名特征;所述中文人名特征包括姓氏和名字,所述人名拼音串包括在前的姓氏拼音串和在后的名字拼音串;所述外文人名的中文译名特征包括音译的名字,所述人名拼音串包括名字拼音串。
3.根据权要求2所述的方法,其特征在于,所述人名拼音串包括在前的姓氏拼音串和在后的名字拼音串时,确定所述人名拼音串之前的已上屏词符合预定条件包括确定所述人名拼音串中的姓氏拼音串之前的已上屏词为代表句子结束的标点符号; 或者确定所述人名拼音串中的姓氏拼音串之前的已上屏词为动词; 或者确定所述人名拼音串中的名字拼音串之前的已上屏词为姓氏。
4.根据权要求2所述的方法,其特征在于,所述人名拼音串包括名字拼音串时,确定所述人名拼音串之前的已上屏词符合预定条件包括确定所述人名拼音串中的名字拼音串之前的已上屏词为代表句子结束的标点符号; 或者确定所述人名拼音串中的名字拼音串之前的已上屏词为动词。
5.根据权要求3或4所述的方法,其特征在于,所述标点符号包括代表句子结束的标点符号。
6.一种人名候选词的生成装置,其特征在于,包括确定单元,用于确定拼音串中包含符合人名特征的人名拼音串; 生成单元,用于确定所述人名拼音串之前的已上屏词符合预定条件时,生成所述人名拼音串对应的人名候选词。
7.根据权要求6所述的装置,其特征在于,所述人名特征包括中文人名特征或外文人名的中文译名特征;所述中文人名特征包括姓氏和名字,所述人名拼音串包括在前的姓氏拼音串和在后的名字拼音串;所述外文人名的中文译名特征包括音译的名字,所述人名拼音串包括名字拼音串。
8.根据权要求7所述的装置,其特征在于,所述人名拼音串包括在前的姓氏拼音串和在后的名字拼音串时,所述生成单元包括第一生成子单元,用于确定所述人名拼音串中的姓氏拼音串之前的已上屏词为标点符号,生成所述人名拼音串对应的人名候选词;第二生成子单元,用于确定所述人名拼音串中的姓氏拼音串之前的已上屏词为动词, 生成所述人名拼音串对应的人名候选词;第三生成子单元,用于确定所述人名拼音串中的名字拼音串之前的已上屏词为姓氏, 生成所述人名拼音串对应的人名候选词。
9.根据权要求7所述的装置,其特征在于,所述人名拼音串包括名字拼音串时,确定所述人名拼音串之前的已上屏词符合预定条件包括第一生成子单元,用于确定所述人名拼音串中的名字拼音串之前的已上屏词为代表句子结束的标点符号;第二生成子单元,用于确定所述人名拼音串中的名字拼音串之前的已上屏词为动词。
10.根据权要求8或9所述的装置,其特征在于,所述标点符号包括代表句子结束的标点符号。
全文摘要
本发明实施例涉及一种人名候选词的生成方法及装置。其中,一种人名候选词的生成方法,包括确定拼音串中包含符合人名特征的人名拼音串;确定人名拼音串之前的已上屏词符合预定条件时,生成人名拼音串对应的人名候选词。不仅确定拼音串中包含符合人名特征的人名拼音串,并确定人名拼音串之前的已上屏词符合预定条件,才生成人名拼音串对应的人名候选词,实现提高生成人名候选词的准确率,增强用户的体验。
文档编号G06F3/023GK102193646SQ20101012914
公开日2011年9月21日 申请日期2010年3月18日 优先权日2010年3月18日
发明者王松旭 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1