拼音标注方法及其系统的制作方法

文档序号:6604653阅读:213来源:国知局
专利名称:拼音标注方法及其系统的制作方法
技术领域
本发明涉及一种拼音标注方法及其系统,尤其是一种以分词标注方式,提高拼音 标注正确性的方法及其系统。
背景技术
随着社会的发展,商业的交流,中文已经成为新的语言学习重点。而中文学习的 过程中,拼音为最重要的学习手段之一,几乎所有的中文学习数据,都会标注中文对应的拼
曰°然而,由于中文的复杂性与多样性,例如多音字、多音字、变音字和一些不同地域 的惯用法,使得标注正确的拼音成为一个困难问题。有些时候,即使字面上看来完全相同的名词,也会因为不同地域的不同惯用法,而 造成读音上有所差异。请参考表1,表1中列举出两个相同名词不同读音的范例。例如“企 业”,台湾地区惯用的读音为“qi4ye4”,而中国大陆惯用的读音则为“qi3ye4”。又例如“夕 阳”,台湾地区惯用的读音为“xi4yang2”,而中国大陆惯用的读音则为“xilyang2”。类似上 述相同名词不同读音的情形可以说是多不胜数,而且,并无法从中归纳通用的规则或规律。 此种相同名词却有不同读音的情形,使得拼音标注问题更加地困难。表1相同名词不同读音的范例 为解决上述问题,先前方法中常以单字为单元进行标注,并添加一些辅助校对机 制进行二次处理,以达到汉语拼音的校对。而目前对于多音字、多音字和变音字的处理,大 多采用单字添加拼音序列的方法,通过提供多组拼音,以解决一字多音的问题。但是由于此 方法所需数据量十分庞大,以及语言本身具有很高的灵活性,并没有通用的规则或规律,使 得这种方法仍有很大的局限性。而且,由于先前方法只以单字为处理单位,并未将相同名词 不同读音的状况纳入考虑,无法有效的解决拼音标注正确性的问题。

发明内容
本发明为解决背景技术中存在的上述技术问题,而提出一种拼音标注方法及其系 统。本发明的技术解决方案是本发明为一种拼音标注方法,其特殊之处在于该方法 包含下列步骤1)建立分词数据对应的拼音序列表;2)根据分词数据,将字符串进行分词处理,并产生分词序列;3)由该分词序列中取出分词;
3
4)根据拼音序列表,查询分词的拼音;5)标注分词的拼音。上述步骤1)中,根据使用情况,分别建立分词数据对应的多个拼音序列表。上述拼音序列表为繁体汉语拼音序列表和简体汉语拼音序列表。上述步骤4)中,包含根据当前使用情况,选取对应的拼音序列表,并据以查找分 词的拼音。上述步骤5)之后还包括步骤6)判断分词序列中的所有分词的拼音是否已全部标 注,若是,则完成拼音标注,若否,则返回步骤3)。本发明还提供一种拼音标注系统,其特殊之处在于该系统包含数据库,用于储 存分词数据;分词拼音建立单元,根据分词数据,建立对应的拼音序列表,并存入数据库中; 字符串接收单元,用来接收字符串;字符串处理单元,根据分词数据,将字符串进行分词处 理,并据以产生分词序列;分词拼音查询单元,根据拼音序列表,查询分词序列中的每个分 词的拼音,并产生查询结果;拼音标注单元,根据查询结果,标注分词序列中的每个分词的 拼音,并产生标注结果;输出单元,用来输出标注结果,所述字符串接收单元接入字符串处 理单元,所述字符串处理单元接入分词拼音查询单元,所述分词拼音查询单元通过拼音标 注单元接入输出单元,所述分词拼音建立单元和数据库连接,所述数据库分别与字符串接 收单元和分词拼音查询单元连接。上述分词拼音建立单元中,根据使用情况,分别建立分词对应的多个拼音序列表。上述分词拼音查询系统中,根据当前使用情况,选取对应的拼音序列表,并据以查 询分词序列中的每个分词的拼音。上述拼音序列表为繁体汉语拼音序列表和简体汉语拼音序列表。本发明提供的拼音标注方法及其系统,通过分词标注方式,提高了拼音标注的正 确性。


图1为本发明拼音标注方法的流程图;图2为本发明拼音标注系统的示意图;图3为本发明拼音标注方法及其系统的实施例示意图。其中,2-拼音标注系统,21-数据库,211-分词数据,212-拼音序列表,22-分词拼 音建立单元,23-字符串接收单元,24-字符串处理单元,25-分词拼音查询单元,26-拼音标 注单元,27-输出单元;
具体实施例方式参见图1,在步骤SlOl中,建立分词数据对应的拼音序列表,并可根据不同使用情 况,分别建立多个拼音序列表。在步骤S102中,根据分词数据,将字符串进行分词处理,并 产生分词序列。在步骤S103中,由分词序列中取出分词。此时,可进行步骤S104,根据当前 使用情况,选择对应的拼音序列表。接着在步骤S105中,根据拼音序列表查询分词的拼音。 在步骤S106中,标注分词的拼音。在步骤S107中,若所有分词的拼音已全部标注,则进行 步骤S108完成拼音标注;若尚未全部标注,则进行步骤S103继续取出分词进行拼音标注。
4
参见图3此实施例的当前使用环境为简体中文,且欲进行标注的字符串为“我要 买冰咖啡。还想买一瓶牛奶和两个面包。你呢?”,图中表示出字符串拼音标注完成的一种 可能表示方式。以下将以图3为例,说明本发明的拼音标注方法。首先,在步骤SlOl中,依照使用情况,可建立分词数据对应的繁体中文的拼音序 列表和简体中文的拼音序列表。在步骤S102中,根据分词数据,将字符串“我要买冰咖啡。还想买一瓶牛奶和两个 面包。你呢?”进行分词处理,并产生分词序列,且其中包含有下列分词“我”、“要”、“买”、 “冰咖啡”、“还”、“想”、“买”、“一瓶”、“牛奶”、“和”、“两个”、“面包”、“你”和“呢”。在步骤S103中,由分词序列中取出分词,首先被取出的分词为“我”。在步骤S104中,由于当前使用环境为简体中文,因此选择以简体中文的拼音序列 表,用来进行后续的步骤。在步骤S105中,根据简体中文的拼音序列表,查询分词“我”的拼音。在步骤S106中,标注“我”的拼音。在步骤S107中,由于分词序列中仍有分词尚未被标注,继续进行步骤S103,将下 一分词“要”取出依照上述步骤进行拼音标注。接着,依序将分词序列中的分词,分别进行步骤S104-S107的步骤,直到所有分词 均已完成拼音标注,即进行步骤S108,完成字符串的拼音标注。图3即呈现出字符串完成拼 音标注的画面。参见图2,其拼音标注系统2可包含有数据库21、分词拼音建立单元22、字符串 接收单元23、字符串处理单元24、分词拼音查询单元25、拼音标注单元26以及输出单元 27。数据库21可用于储存分词数据211。分词拼音建立单元22可根据分词数据211,建立 对应的拼音序列表212,并存入数据库21中;分词拼音建立单元22可更进一步根据多种使 用情况,分别建立对应的多个拼音序列表212以供使用。字符串接收单元23用来接收字符 串。字符串处理单元24可根据分词数据211,将字符串进行分词处理,并产生分词序列。分 词拼音查询单元25可根据拼音序列表212,查询分词序列中的每一分词的拼音,并产生查 询结果;分词拼音查询单元25可更进一步根据当前使用情况,选取对应的拼音序列表212 以进行查询。拼音标注单元26可根据查询结果,标注分词序列中的每一分词的拼音,并产 生标注结果。输出单元27可用来输出标注结果。参见图3,以下说明本发明的拼音标注系统。首先,分词拼音建立单元22,根据数据库21中所储存的分词数据21,依照后续可 能的使用状况,预先建立所有分词对应的拼音序列表212,其中可能包含有繁体中文的拼音 序列表212和简体中文的拼音序列表212,并将其存入数据库21中。字符串接收单元23接收字符串“我要买冰咖啡。还想买一瓶牛奶和两个面包。你 呢?”。此时,字符串处理单元24则将接收到的字符串进行分词处理,并产生分词序列,且分 词序列中包含有下列分词“我,,、“要,,、“买,,、“冰咖啡”、“还,,、“想,,、“买,,、“一瓶,,、“牛奶”、 “和”、“两个”、“面包”、“你”和“呢”。接着,分词拼音查询单元25根据当前使用状况,选择简体中文的拼音序列表212, 并据以查询分词序列中的每一分词的拼音,并产生查询结果。拼音标注单元26则根据查询结果,标注分词序列中的每一分词的拼音,并产生标
5注结果。最后,输出单元27将标注结果输出。图3即呈现出字符串完成拼音标注的画面.
权利要求
一种拼音标注方法,其特征在于该方法包含下列步骤1)建立分词数据对应的拼音序列表;2)根据分词数据,将字符串进行分词处理,并产生分词序列;3)由该分词序列中取出分词;4)根据拼音序列表,查询分词的拼音;5)标注分词的拼音。
2.根据权利要求1所述的拼音标注方法,其特征在于所述步骤1)中,根据使用情况, 分别建立分词数据对应的多个拼音序列表。
3.根据权利要求2中任一项所述的拼音标注方法,其特征在于所述拼音序列表为繁 体汉语拼音序列表和简体汉语拼音序列表。
4.根据权利要求3所述的拼音标注方法,其特征在于所述步骤4)中,包含根据当前 使用情况,选取对应的拼音序列表,并据以查找分词的拼音。
5.根据权利要求1至4任一权利要求所述的拼音标注方法,其特征在于所述步骤5) 之后还包括步骤6)判断分词序列中的所有分词的拼音是否已全部标注,若是,则完成拼音 标注,若否,则返回步骤3)。
6.一种拼音标注系统,其特征在于该系统包含数据库,用于储存分词数据;分词拼 音建立单元,根据分词数据,建立对应的拼音序列表,并存入数据库中;字符串接收单元, 用来接收字符串;字符串处理单元,根据分词数据,将字符串进行分词处理,并据以产生分 词序列;分词拼音查询单元,根据拼音序列表,查询分词序列中的每个分词的拼音,并产生 查询结果;拼音标注单元,根据查询结果,标注分词序列中的每个分词的拼音,并产生标注 结果;输出单元,用来输出标注结果,所述字符串接收单元接入字符串处理单元,所述字符 串处理单元接入分词拼音查询单元,所述分词拼音查询单元通过拼音标注单元接入输出单 元,所述分词拼音建立单元和数据库连接,所述数据库分别与字符串接收单元和分词拼音 查询单元连接。
7.根据权利要求6所述的拼音标注系统,其特征在于所述分词拼音建立单元中,根据 使用情况,分别建立分词对应的多个拼音序列表。
8.根据权利要求6所述的拼音标注系统,其特征在于所述分词拼音查询系统中,根据 当前使用情况,选取对应的拼音序列表,并据以查询分词序列中的每个分词的拼音。
9.根据权利要求6或7或8所述的拼音标注系统,其特征在于所述拼音序列表为繁 体汉语拼音序列表和简体汉语拼音序列表。
全文摘要
本发明涉及一种拼音标注方法及其系统,该方法包含下列步骤1)建立分词数据对应的拼音序列表;2)根据分词数据,将字符串进行分词处理,并产生分词序列;3)由该分词序列中取出分词;4)根据拼音序列表,查询分词的拼音;5)标注分词的拼音。本发明通过分词标注方式,提高了拼音标注的正确性。
文档编号G06F17/27GK101894101SQ201010208608
公开日2010年11月24日 申请日期2010年6月24日 优先权日2010年6月24日
发明者巨雷, 郑建锋, 陈淮琰 申请人:无敌科技(西安)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1