裁减词表和为汉字串注音的方法及装置的制作方法

文档序号:6574676阅读:172来源:国知局
专利名称:裁减词表和为汉字串注音的方法及装置的制作方法
技术领域
本发明涉及信息处理技术,具体地,涉及词表裁减技术以及中文分词 和多音字拼音标注技术。
背景技术
通常,在中文文本中,词和词之间没有分隔符号,从而汉语自动分词 的任务,就是由机器在中文文本中词与词之间自动加上空格。分词面临两 个挑战, 一个是歧义切分,另一个《J辨词识别。而且,中文多音字在不同 的词语中有不阀的读音。通常的中文分词和多音字拼音标注系统在词表中 存储了大量的词语和多音字的拼音,以保证能够输出正确的分词和注音结 果。关于W挾术,参考以下文献1. 孙茂松(北京清华大学计算机系)和邹嘉彦(香港城市大学语言资 讯科学研究中心)的文献"汉语自动分词研究评述",《当代语言学》,2001 年笫l期,pp. 22-32 (在下文中称为文献l),在此通过参考引入其整个内容;2. Jianfe鷉g Gao, Mu Li和Chang-Ning Huang的文献"Improved Source-channel Models for Chinese Word Segmentation", 2003, In Proc, of the 41st Annual Meeting of Association for Computational Linguis-tics, (ACL-2003), pages 272-279 (在下文中称为文献2),在此通过参考引入其 整个内容;以及3. Jianfe職g Gao, Mu Li, Andi Wu和Chang-Ning Huang的文献 "Chinese Word Segmentation and Named Entity Recognition: A PragmaticApproach", 2(M)5, Computational Linguistics, 31(4): 531-574 (在下文中 称为文献3),在此通过参考引入其整个内容。命名实体识别(Named Entities Recognition)属于分词中新词识别的 范畴.命名实体不断出现而且数量巨大,所以不可能全部收录到词典中。 命名实体的构成都有一定的规律,从而可以根据其规律,对其进行识别。关于命名实体识别,参考以下文献1. Sun Jian, Ming Zhou和Jianfeng Gao的文献"Chinese named entity identification鹏ing class-based language model", 2003, International Journal of Co啤utational Linguistics and Chinese Language (在下文中称 为文献4),在此通过参考引入其整个内容;2. Borthwick, A.的博士论文"A maximum entropy approach to named entity recognition", New York University, 1999 (在下文中称为文 献5),在此通过参考引入其整个内容;3. Wu Y., Zhao J.和Xu B.的文献"Chinese named entity recognition combining a statistical model with human knowledge". In Proceedings of the ACL 2003 Workshop on Multilingual and Mixed-language Named Entity Recognition, Sapporo, Japan, 2003, 65-72 (在下文中称为文献6 ), 在此通过参考引入其整个内容;以及4. 上述文献3。然而,大^JI词表需要很大的存储空间,在实际应用中,存储空间都 有限.发明内容为了解决上迷现有技术中存在的问题,本发明提供了裁减词表的方法, 为汉字串注音的方法,裁减词表的装置,以及为汉字串注音的装置.根据本发明的一个方面,提供了一种裁减词表的方法,其中,上述词 表包括多个命名实体及其读音;上述方法包括利用进行了分词、词性标 注和拼音标注的语料库,统计获得命名实体的属性与命名实体中多音字的读音之间的关系;以及根据上述获得的命名实体的属性与命名实体中多音 字的读音之间的关系,对上述词表进行裁减^iL据本发明的另一个方面,提供了一种为汉字串注音的方法,其中, 上述汉字串包括在进行了裁减的词表中没有的至少一个命名实体,上述进 行了裁减的词表以及命名实体的属性与命名实体中多音字的读音之间的关 系是根据上述裁减词表的方法获得的;上述方法包括对上述汉字串进行 分词并识别上迷至少一个命名实体及其属性;以及利用上述进行了裁减的 词表以及命名实体的属性与命名实体中多音字的读音之间的关系,为上述 进行了分词和识別的汉字串注音.根据本发明的另一个方面,提供了一种裁减词表的装置,其中,上述 词表包括多个命名实体及其读音;上述装置包括关系获得单元,利用进 行了分词、词性标注和拼音标注的语料库,统计获得命名实体的属性与命 名实体中多音字的读音之间的关系;以及词表裁减单元,根据上述关系获得单元获得的命名实体的属性与命名实体中多音字的读音之间的关系,对 上述词表进行裁减.# 据本发明的另一个方面,提供了一种为汉字串注音的装置,其中, 上述汉字串包括在进行了裁减的词表中没有的至少一个命名实体,上述进 行了裁减的词表以及命名实体的属性与命名实体中多音字的读音之间的关 系是根据上述裁减词表的装置获得的;上述装置包括分词单元,对上述 汉字串进行分词并识别上述至少 一个命名实体及其属性;以及注音单元, 利用上述进行了裁减的词表以及命名实体的属性与命名实体中多音字的读 音之间的关系,为上述进行了分词和识别的汉字串注音。


相信通过以下结合附困对本发明具体实施方式
的说明,能够使人们更 好地了解本发明上述的特点、优点和目的。图l是^Mt本发明的一个实施例的裁减词表的方法的流程图;困2是^l&本发明的实施例的裁减词表的详细过程的一个实例的示意图;困3是根据本发明的实施例的分割包含多音字的命名实体词表的详细 过程的一个实例的示意图;困4是*#本发明的另一个实施例的为汉字串注音的方法的流程图; 图5是4Nt本发明的另一个实施例的裁减词表的装置的方框图;以及 困6是根据本发明的另 一个实施例的为汉字串注音的装置的方框图。
具体实施方式
下面就结舍附困对本发明的各个优选实施例进行详细的说明。 裁减词表的方法围1是根耱本发明的一个实施例的裁减词表的方法的流程图。如困1 所示,首先,在步骤Sll,利用进行了分词、词性标注和拼音标注的语料 库,统计获得命名实体的属性与命名实体中多音字的读音之间的关系。具 体地,首先,从进行了分词、词性标注和拼音标注的语料库中,利用命名 实体识别技术获得所有的命名实体,其中,命名实体识别技术参考上述文 献3至文献6,在此省略其说明.然而,应该理解,本发明并不限于上述 文献,可以使用本领域的技术人员公知的任何命名实体识别技术,只要能 够识别上述语料库中包括的多个命名实体即可.然后,从那些包含多音字 的命名实体中得到命名实体的属性与命名实体中多音字的读音之间的关 系。具体地,命名实体的属性包括人名、地名、组织机构名称、商品名称、 时间、金钱、数字和其它专有名词。这个定义来自于MET-2会议,可参考 h加:〃acUdc,e肌edu/muc7/'在本实施例中,命名实体的属性与命名实体中多音字的读音之间的关 系为例如"单盈(stonyiiig)"中的"单,,作为姓氏读音为"shan",也就是在属性 为"人名,,的命名实体中,"单,,的读音为"shan",其它情况读音为"dan"; "海龙大度(hai long da sha),,中的"度"作为地名读音为"sha",而"厦门(xiamen)"中的"度"作为地名读音为"xia",也就是在属性为"地名"的 命名实体中,多音字"夏"具有多个读音"sha"和"xia"。应该理解,这里示出的实例只是用于说明目的,本发明并不限于此。 在步骤S12,根据上^得的命名实体的属性与命名实体中多 音字的读音之间的关系,对词表进行裁减。具体地,上述词表包括多个命 名实体和命名实体的读音以及大量的词和字及其读音。下面参考豳2详细描述上述步骤S12中对词表进行裁减的详细过程.图2是^Mi本发明的实施例的裁减词表的详细过程的一个实例的示意 图。在图2中,首先,在步骤S21,对初始词表201进行分割,例如,分 割成非命名实体词表202,其中不包^名实体;不包含多音字的命名 实体词表203,其中包W名实体但是命名实体中不包含多音字;以及包 含多音字的命名实体词表204,其中包^^名实体而且命名实体中包含多 音字。接着,在步稞S22,利用在上述步骤Sll中获得的命名实体的属性与 命名实体中多奮字的读音之间的关系(此处标为205),对包含多音字的命 名实体词表204进行分割,具体的分割过程在下文中参考图3进行详细描 述,在此不再脊述,在本实施例中,将包含多音字的命名实体词表204分割为能够正确注 音的命名实体词表206和不能正确注音的命名实体词表207。同样,在下 文中参考图3对能够正确注音的命名实体词表206和不能正确注音的命名 实体词表207进行详细描述,在此不再赘述。接着,在步寡S23,对由不包含多音字的命名实体词表203和能够正 确注音的命名实体词表206构成的可删除的命名实体词表208进行删除。 在一个可选实施例中,可以将可删除的命名实体词表208全部删除.在另 一个可选实施例中,可以利用大^>*语料库209,对可删除的命名实体词 表208中词的出现次数进行统计,并将可删除的命名实体词表208中出现 次数少的词优先删除.注意,这里使用的大M^I语料库209可以是上述进 行了分词、词性标注和拼音标注的语料库,也可以是本领域的技术人员公知的其它语料库.应该理解,本发明并不限于上述两个可选实施例,可以词表208中的部分或4^P命名实体进行删除。最后,将彝命名实体词表202和可删除的命名实体词表208中的剩余 部分合并作为栽减后的词表210。下面参考,3详细描述上述步骤S22中对包含多音字的命名实体词表 204进行分割的详细it^'困3是WH本发明的实施例的分割包含多音字的命名实体词表的详细 过程的一个实例的示意困。在图3中,首先,在步骤S31,利用在上述步 猓Sll中获得的命名实体的属性与命名实体中多音字的读音之间的关系 205以及上述进行了分词、词性标注和拼音标注的语料库,获取在同一属 性的命名实体中有多种读音的多音字集合P,例如在上述实例中,在属性 为"地名,,的命名实体中的多音字"厦"具有多种读音,从而"夏"为多音字集 合P中的一个多音字。然而,在属性为"A^"的命名实体中的多音字"单,, 的读音只可能是"shan",从而"单,,不属于多音字集合P。接着,在步稞S32,判断命名实体中是否具有多音字集合P中的多音字。如果在步拿S32中判断命名实体中不具有多音字集合P中的多音字, 例如,上狄性为"A^"并姓氏为"单"的命名实体中,没有多音字集合P中的多音字,到该命名实体是根据命名实体的属性和多音字读音之间的关 系能够正确读音的命名实体,其属于能够正确注音的命名实体词表206,否则,如果在步骤S32中判断命名实体中具有多音字集合P中的多音 字,例如,在上述属性为"地名"并包括"夏"的命名实体中具有多音字集合 P中的多音字"夏(xia或sha)",则该命名实体是根据命名实体的属性和 多音字读音之间的关系不能正确读音的命名实体,其属于不能正确注音的 命名实体词表207。通过本实施例的裁减词表的方法,删除了词表中的非必须词条,即删 除了非必须的不断扩展的命名实体词条,从而在保证中文分词和多音字拼音标注系统性錄的基础上,减少了词表的存储空间。 为汉字串注音的方法在同一发蜩构思下,困4是根据本发明的另一个实施例的为汉字串注 音的方法的流程困。下面就结合该图,对本实施例进行描述。对于那些与 前面实施例相罔的部分,适当省略其说明。在图4中,首先,在步骤S41,利用进行了裁减的词表,对汉字串进 行分词,在该汉字串中包括在上述进行了裁减的词表中没有的一个或多个 命名实体,并利用命名实体识别技术识别上述一个或多个命名实体及其属 性。其中,上迷进行了裁减的词表以及命名实体的属性与命名实体中多音 字的读音之间的关系是^L据上述参考图1的实施例描述的裁减词表的方法 获得的,在此省略其说明.下面以一个实例描述分词和命名实体识别的过程。首先,输入一个的汉字串李晓军研宛生命科学接着,利用上述进行了裁减的词^t输入的汉字串进行分词,得到候 选的分词方式为李晓军研究生命科学 研究生命科学接着,利用命名实体识别技术对输入的汉字串中的命名实体进行识别, 得到候选的命名实体李晓军/跑R(人名) 李晓/PE聚(人名)具体地,首先判断"李"是否具有命名实体属性,显然"李"是姓氏, 具有命名实体属性.接着,判断"晓"能够作为人名用字,具有命名实体 属性。接着,判断"军"能够作为W用字,具有命名实体属性.最后, 根据汉语人名不超过三个字,结束识别。从而,得到"李晓军"和"李晓" 两个命名实体的候选.接着,将上述两个候选集合并得到候选集合李晓军研究生命科学 李晓军研究生命科学 李晓军最后,使用维特比搜索在候选集合中搜索到最佳结果 李晓军研究生M学关于分词技术的具体细节,参考上述文献1至文献3,然而,应该理 解,本发明并不限于上述实例和上述文献,可以使用本领域的技术人员公 知的任何分词拔术,只要能够对包括一个或多个命名实体的汉字串进行分 词即可,此外,关于命名实体识别技术的具体细节,参考上述文献3至文 献6,然而,应该理解,本发明并不限于上述实例和上述文献,可以使用 本领域的技术人员公知的任何命名实体识别技术,只要能够识别汉字串中 包括的一个或多个命名实体即可。最后,在步稞S42,利用进行了裁减的词表以及命名实体的属性与命 名实体中多音字的读音之间的关系,为上述进行了分词和识别的汉字串注音。具体地,首先判断上述汉字串中包括的一个或多个命名实体是否包含 多音字,如果该命名实体包含多音字,则根据上迷命名实体的属性与命名 实体中多音字的读音之间的关系和上述进行了裁减的词表为该命名实体注 音,否则,如果该命名实体不包含多音字,根据上述进行了裁减的词表, 逐字为该命名实体注音。此外,根据上述进行了裁减的词表为上述汉字串 中的其它词注奮.通过本实旄例的为汉字串注音的方法,利用命名实体的属性与命名实 体中多音字的读音之间的关系和进行了裁减的词表为命名实体中的多音字 注音,从而在保证中文分词和多音字拼音标注系统性能的基础上,减少了 系统的存储空阀.此外,本实施例的为汉字串注音的方法将命名实体识别技术应用于分 词和多音字注音,命名实体识别技术不仅能识別出命名实体,而且能提供 属性信息,该属性信息对^名实体中的多音字的注音非常有用。裁减词表的装置在同一发明构思下,困5是根据本发明的另一个实施例的裁减词表的 装置的方框困。下面就结合该图,对本实施例进行描述。对于那些与前面 实施例相同的部分,适当省略其说明。如图5所示,本实施例的裁减词表的装置500包括:关系获得单元501, 利用进行了分词、词性标注和拼音标注的语料库,统计获得命名实体的属 性与命名实体中多音字的读音之间的关系;以及词表裁减单元505,根据 上述关系获得单元获得的命名实体的属性与命名实体中多音字的读音之间 的关系,对包括多个命名实体及其读音的词表进行裁减。具体地,关系获得单元501首先从进行了分词、词性标注和拼音标注 的语料库中,利用命名实体识别技术获得所有的命名实体,其中,命名实 体识别技术参考上述文献3至文献6,在此省略其说明。然而,应该理解, 本发明并不限于上述文献,可以使用本领域的技术人员公知的任何命名实 体识别技术,只要能够识别上述语料库中包括的多个命名实体即可。然后, 从那些包含多音字的命名实体中得到命名实体的属性与命名实体中多音字 的读音之间的关系.具体地,命名实体的属性包括人名、地名、組织机构名称、商品名称、 时间、^r钱、数字和其它专有名词.这个定义来自于MET-2会议,可参考 http:〃acUdc.u^enn.edu/muc7/ 在本实施例中,命名实体的属性与命名实体中多音字的读音之间的关 系为例如"单盈(shanying),,中的"单,,作为姓氏读音为"shan,,,也就是在属性 为"人名,,的命名实体中,"单,,的读音为"shan",其它情况读音为"dan,,;"海龙大度(hai long da sha),,中的"厦,,作为地名读音为"sha",而"厦 门(xiamen),,中的"度"作为地名读音为"xia",也就是在属性为"地名,,的 命名实体中,多音字"夏"具有多个读音"sha"和"xia"。应该理解,这里示出的实例只是用于说明目的,本发明并不限于此。在本实施例中,词表裁减单元505根据上述获得的命名实体的属性与命名实体中多音字的读音之间的关系,对词表进行裁减。具体地,上述词 表包括多个命名实体和命名实体的读音以及大量的词和字及其读音,下面参考圉2详细描述词表裁减单元505对词表进行裁减的详细过程。 图2是根据本发明的实施例的裁减词表的详细过程的一个实例的示意 图.在图2中,首先,在步猓S21,对初始词表201进行分割,例如,分 割成非命名实体词表202,其中不包^名实体;不包含多音字的命名 实体词表203,其中包^名实体但是命名实体中不包含多音字;以及包 含多音字的命名实体词表204,其中包^名实体而且命名实体中包含多 音字。接着,在步稞S22,利用在上述步骤Sll中获得的命名实体的属性与 命名实体中多音字的读音之间的关系(此处标为205),对包含多音字的命 名实体词表204进行分割,具体的分割过程在下文中参考图3进行详细描 述,在此不再赞述。在本实施倒中,将包含多音字的命名实体词表204分割为能够正确注 音的命名实体词表206和不能正确注音的命名实体词表207。同样,在下 文中参考图3对能够正确注音的命名实体词表206和不能正确注音的命名 实体词表207进行详细描述,在此不再赘述。接着,在步槺S23,对由不包含多音字的命名实体词表203和能够正 确注音的命名实体词表206构成的可删除的命名实体词表208进行删除. 在一个可选实施例中,可以将可删除的命名实体词表208全部删除.在另 一个可选实施例中,可以利用大^JI语料库209,对可删除的命名实体词 表208中词的出现次数进行统计,并将可删除的命名实体词表208中出现 次数少的词优先删除。注意,这里使用的大MJI语料库209可以是上述进 行了分词、词性标注和拼音标注的语料库,也可以是本领域的技术人员公 知的其它语料库。应该理解,本发明并不限于上述两个可选实施例,可以词表208中的部分或4^P命名实体进行删除。最后,将非命名实体词表202和可删除的命名实体词表208中的剩余部分合并作为我减后的词表210。下面参考圉3详细描述上述步骤S22中对包含多音字的命名实体词表 204进行分割的详细过程。困3是^H本发明的实施例的分割包含多音字的命名实体词表的详细 过程的一个实例的示意图.在图3中,首先,在步骤S31,利用在上述步 骤Sll中获得的命名实体的属性与命名实体中多音字的读音之间的关系 205以及上述进行了分词、词性标注和拼音标注的语料库,获取在同一属 性的命名实体中有多种读音的多音字集合P,例如在上述实例中,在属性 为"地名"的命名实体中的多音字"厦"具有多种读音,从而"夏,,为多音字集 合P中的一个多音字,然而,在属性为"人名,,的命^名实体中的多音字"单,, 的读音只可能是"shan",从而"单"不属于多音字集合P。接着,在步骤S32,判断命名实体中是否具有多音字集合P中的多音字。如果在步骤S32中判断命名实体中不具有多音字集合P中的多音字, 例如,上述属性为"人名,,并姓氏为"单"的命名实体中,没有多音字集合P 中的多音字,刪该命名实体是根据命名实体的属性和多音字读音之间的关 系能够正确读奮的命名实体,其属于能够正确注音的命名实体词表206,否则,如果在步骤S32中判断命名实体中具有多音字集合P中的多音 字,例如,在上迷属性为"地名"并包括"夏"的命名实体中具有多音字集合 P中的多音字"夏(xia或sha)",则该命名实体是根据命名实体的属性和 多音字读音之间的关系不能正确读音的命名实体,其属于不能正确注音的命名实体词表207.本实施例的裁减词表的装置500及其各个组成部分,可以用专用的电 路或芯片构成,也可以通过计算机(处理器)执行相应的程序来实现通过本实施例的裁减词表的装置500,删除了词表中的非必须词条,即删除了非必须的不断扩展的命名实体词条,从而在保证中文分词和多音 字拼音标注系统性能的基础上,减少了词表的存储空间. 为'汉字串注音的装置在同一发明构思下,困6是^^据本发明的另一个实施例的为汉字串注 音的装置的方框闺。下面就结合该图,对本实施例进行描述。对于那些与 前面实施例相两的部分,适当省略其说明。如图6所示,本实施例的为汉字串注音的装置600包括:分词单元601, 对包括一个或多个命名实体的汉字串进行分词并识别一个或多个命名实体 及其属性;以及注音单元605,利用进行了裁减的词表以及命名实体的属 性与命名实体中多音字的读音之间的关系,为上述进行了分词的汉字串注音。其中,上迷进行了裁减的词表以及命名实体的属性与命名实体中多音 字的读音之间的关系是根据上述裁减词表的装置500获得的,在此省略其 说明。具体地,分词单元601利用进行了裁减的词表,对汉字串进行分词, 在该汉字串中包括在上述进行了裁减的词表中没有的一个或多个命名实 体,并利用命名实体识别技术识别上述一个或多个命名实体及其属性。下面以一个实例描述分词单元601进行分词和命名实体识别的过程。首先,输入一个的汉字串李晓军研究生^H"学接着,利用上述进行了裁减的词4^输入的汉字串进行分词,得到候 选的分词方式为李晓军研究生命科学 研究生命科学接着,利用命名实体识别技术对输入的汉字串中的命名实体进行识别, 得到候选的命名实体李晓军/3TER(人名) 李晓/PER (人名)具体地,首先判断"李"是否具有命名实体属性,显然"李"是姓氏, 具有命名实体属性。接着,判断"晓"能够作为人名用字,具有命名实体属性。接着,判断"军"能够作为人名用字,具有命名实体属性。最后, 根据汉语人名不超过三个字,结束识别.从而,得到"李晓军"和"李晓"两个命名实体的候选,接着,将上述两个候选集合并得到候选集合 李晓军研究生命科学李晓军研究生命科学 李晓军最后,使用维特比搜索在候选集合中搜索到最佳结果 李晓军研究生M学关于M技术的具体细节,参考上述文献1至文献3,然而,应该理 解,本发明并不限于上述实例和上述文献,可以使用本领域的技术人员公 知的^f^H^技术,只要能够对包括一个或多个命名实体的汉字串进行分 词即可。此外,关于命名实体识别技术的具体细节,参考上述文献3至文 献6,然而,应该理解,本发明并不限于上述实例和上述文献,可以使用 本领域的技术人员公知的任何命名实体识别技术,只要能够识别汉字串中 包括的一个或多个命名实体即可。在本实施例中,注音单元605利用进行了裁减的词表以及命名实体的 属性与命名实体中多音字的读音之间的关系,为上述进行了分词和识别的 汉字串注音。具体地,注音单元605首先判断上述汉字串中包括的一个或多个命名 实体是否包含多音字,如果该命名实体包含多音字,则根据上述命名实体 的属性与命名实体中多音字的读音之间的关系和上述进行了裁减的词表为 该命名实体注音,否则,如果该命名实体不包含多音字,根据上迷进行了 裁减的词表,逐字为该命名实体注音。此外,根据上述进行了裁减的词表 为上述汉字串中的其它词注音。本实施例的为汉字串注音的装置600及其各个组成部分,可以用专用 的电路或芯片构成,也可以通过计算机(处理器)执行相应的程序来实现通过本实施例的为汉字串注音的装置600,利用命名实体的属性与命 名实体中多音字的读音之间的关系和进行了裁减的词表为命名实体中的多 音字注音,从而在保证中文分词和多音字拼音标注系统性能的基础上,减少了系统的存铺空间。此外,本实施例的为汉字串注音的装置600将命名实体识别技术应用 于分词和多音字注音,命名实体识别技术不仅能识别出命名实体,而且能 提供属性信息,该属性信息对命名实体中的多音字的注音非常有用。以上虽然通过一些示例性的实施例详细地描述了本发明的裁减词表的 方法,为汉字串注音的方法,裁减词表的装置,以及为汉字串注音的装置, 但是以上这些实施例并不是穷举的,本领域技术人员可以在本发明的精神 和范围内实现各种变化和修改。因此,本发明并不限于这些实施例,本发 明的范围仅由所附权利要求为准,
权利要求
1. 一种裁减词表的方法,其中,上述词表包括多个命名实体及其读音;上述方法包括利用进行了分词、词性标注和拼音标注的语料库,统计获得命名实体的属性与命名实体中多音字的读音之间的关系;以及根据上述获得的命名实体的属性与命名实体中多音字的读音之间的关系,对上述词表进行裁减。
2. 根椐权利要求1所述的裁减词表的方法,其中,上述对上述词表 进行裁减的步尊包括删除不包含多音字的命名实体的至少一部分。
3. 根据杈利要求1或2所述的裁减词表的方法,其中,上述对上述词表进行裁减的步稞还包括删除根据上述获得的命名实体的属性与命名实体中多音字的读音之间的关系能够正确注音的包含多音字的命名实体的 至少一部分.
4. ^杈利要求3所述的裁减词表的方法,其中,上述删除;^据命 名实体的属性与命名实体中多音字的读音之间的关系能够正确注音的包含 多音字的命名实体的至少一部分的步骤包括根据上illt得的命名实体的属性与命名实体中多音字的读音之间的关 系,利用上述谦料库,统计获得在同一属性的命名实体中有多种读音的多 音字集合;以及如果在命名实体中不具有上述多音字集合中的多音字,则确定该命名 实体为根据命名实体的属性与命名实体中多音字的读音之间的关系能够正 确注音的包含多音字的命名实体。
5. 根据杈利要求2所述的裁减词表的方法,其中,删除不包含多音 字的命名实体的至少一部分的步稞包括利用语料库统计上述不包含多音 字的命名实体豳现的次数;以及将出现次数少的上述不包含多音字的命名 实体从上述词表中删除.
6. 根据杈利要求3或4所述的裁减词表的方法,其中,删除根据命名实体的属性与命名实体中多音字的读音之间的关系能够正确注音的包含多音字的命名实体的至少一部分的步骤包括利用语料库统计上述能够正 确注音的包含多音字的命名实体出现的次数;以及将出现次数少的根据命 名实体的属性与命名实体中多音字的读音之间的关系能够正确注音的包含 多音字的命名实体从上述词表中删除。
7. 根据杈利要求1所述的裁减词表的方法,其中,上述命名实体的 属性包括人名、地名、组织机构名称、商品名称、时间、金钱和数字。
8. —种为汉字串注音的方法,其中,上述汉字串包括在进行了裁减 的词表中没有的至少一个命名实体,上述进行了裁减的词表以及命名实体 的属性与命名实体中多音字的读音之间的关系是根据权利要求l-7中任何 一项所述的裁减词表的方法获得的;上述方法包括对上述汉字串进行分词并识别上述至少一个命名实体及其属性;以及 利用上述进行了裁减的词表以及命名实体的属性与命名实体中多音字 的读音之间的关系,为上述进行了分词和识别的汉字串注音。
9. 根椐杈利要求8所述的为汉字串注音的方法,其中,为上述进行 了分词和识别的汉字串注音的步骤包括为上述至少一个命名实体的每一个注音;以及 为上述汉字串中的其它词注音;其中,为上迷至少一个命名实体的每一个注音的步骤包括 判断该命名实体是否包含多音字;如果该命名实体包含多音字,则根据命名实体的属性与命名实体中多 音字的读音之阃的关系和上述进行了裁减的词表为该命名实体注音,否则, 根据上述进行了裁减的词表,逐字为该命名实体注音。
10. —种裁减词表的装置,其中,上述词表包括多个命名实体及其读 音;上述装置fe括关系获得单元,利用进行了分词、词性标注和拼音标注的语料库,统 计获得命名实体的属性与命名实体中多音字的读音之间的关系;以及 词表裁减单元,根据上述关系获得单元获得的命名实体的属性与命名实体中多音字的读音之间的关系,对上述词表进行裁减。
11. 根据权利要求10所述的裁减词表的装置,其中,上述词表裁减单元用于删除不包含多音字的命名实体的至少一部分。
12. 根据权利要求10或11所述的裁减词表的装置,其中,上述词表 裁减单元用于彌除根据上述关系获得单元获得的命名实体的属性与命名实 体中多音字的读音之间的关系能够正确注音的包含多音字的命名实体的至 少一部分。
13. ^权利要求12所述的裁减词表的装置,其中,上述词表裁减 单元用于根据上迷关系获得单元获得的命名实体的属性与命名实体中多音字的读音之间的关系,利用上述语料库,统计获得在同一属性的命名实体中有多种读音的多音字集合;以及如果在命名实体中不具有上述多音字集合中的多音字,则确定该命名实体为^NI命名实体的属性与命名实体中多音字的读音之间的关系能够正 确注音的包舍多音字的命名实体.
14. 根振权利要求11所述的裁减词表的装置,其中,上述词表裁减 单元用于利用语料库统计上述不包含多音字的命名实体出现的次数;以 及将出现次数少的上述不包含多音字的命名实体从上述词表中删除。
15. 根振权利要求12或13所述的裁减词表的装置,其中,上述词表 裁减羊元用于利用语料库统计上述能够正确注音的包含多音字的命名实 体出现的次数;以及将出现次数少的根据命名实体的属性与命名实体中多 音字的读音之阀的关系能够正确注音的包含多音字的命名实体从上述词表 中删除.
16. 根振权利要求10所述的裁减词表的装置,其中,上述命名实体 的属性包括人名、地名、组织机构名称、商品名称、时间、金钱和数字。
17. —种为汉字串注音的装置,其中,上述汉字串包括在进行了裁减 的词表中没有的至少一个命名实体,上述进行了裁减的词表以及命名实体 的属性与命名实体中多音字的读音之间的关系是根据权利要求10-16中任何一项所述的我减词表的装置获^得的;上述装置包括分词单元,对上述汉字串进行分词并识别上述至少一个命名实体及其 属性;以及注音单元,利用上述进行了裁减的词表以及命名实体的属性与命名实 体中多音字的读音之间的关系,为上述进行了分词和识别的汉字串注音,
18. ^4t权利要求17所述的为汉字串注音的装置,其中,上述注音 单元用于为上述至少一个命名实体的每一个注音;以及 为上述汉字串中的其它词注音;其中,为上述至少一个命名实体的每一个注音的步骤包括 判断该命名实体是否包含多音字;如果该命名实体包含多音字,则根据命名实体的属性与命名实体中多音字的读音之间的关系和上述进行了裁减的词表为该命名实体注音,否则, 根据上述进行了裁减的词表,逐字为该命名实体注音。
全文摘要
本发明提供了裁减词表和为汉字串注音的方法及装置。根据本发明的一个方面,提供了一种裁减词表的方法,其中,上述词表包括多个命名实体及其读音;上述方法包括利用进行了分词、词性标注和拼音标注的语料库,统计获得命名实体的属性与命名实体中多音字的读音之间的关系;以及根据上述获得的命名实体的属性与命名实体中多音字的读音之间的关系,对上述词表进行裁减。
文档编号G06F17/27GK101271449SQ200710089119
公开日2008年9月24日 申请日期2007年3月19日 优先权日2007年3月19日
发明者任登君, 李国华, 王海峰 申请人:株式会社东芝
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1