利用自动分词提供繁简体拼音标记正确性的系统及其方法

文档序号:6490408阅读:194来源:国知局
利用自动分词提供繁简体拼音标记正确性的系统及其方法
【专利摘要】本发明涉及一种利用自动分词提供繁简体拼音标记正确性系统及其方法,该系统包含:存储单元,储存分词;拼音数据库,存放分词对应的拼音序列表;拼音接收单元,接收拼音;拼音处理单元,将拼音进行分词处理;产生单元,产生分词序列;分词拼音查询单元,查询分词序列中的每个分词的拼音;标记单元,标记分词序列中的每个分词的拼音,并储存结果;判断单元,判断标记结果是否正确;输出单元,输出标记结果。
【专利说明】利用自动分词提供繁简体拼音标记正确性的系统及其方法
【技术领域】
[0001]本发明涉及一种利用自动分词提供繁简体拼音标记正确性系统及其方法,尤其是一种以分词标记方式,提高利用自动分词提供繁简体拼音标记正确性正确性的系统及其方法。
【背景技术】
[0002]由于中文的复杂性与多样性,例如多音字、变音字和一些不同地域的惯用法,使得标记正确的拼音成为一个困难问题。
[0003]有些时候,即使字面上看来完全相同的名词,也会因为不同地域的不同惯用法,而造成读音上有所差异。类似上述相同名词不同读音的情形可以说是多不胜数,而且,并无法从中归纳通用的规则或规律。此种相同名词却有不同读音的情形,使得利用自动分词提供繁简体拼音标记正确性问题更加地困难。
[0004]为解决上述问题,先前方法中常以单字为单元进行标记,并添加一些辅助校对机制进行二次处理,以达到汉语拼音的校对。而目前对于多音字、多音字和变音字的处理,大多采用单字添加拼音序列的方法,通过提供多组拼音,以解决一字多音的问题。但是由于此方法所需数据量十分庞大,以及语言本身具有很高的灵活性,并没有通用的规则或规律,使得这种方法仍有很大的局限性。而且,由于先前方法只以单字为处理单位,并未将相同名词不同读音的状况纳入考虑,无法有效的解决利用自动分词提供繁简体拼音标记正确性的问题。

【发明内容】

[0005]本发明为解决【背景技术】中存在的上述技术问题,而提出一种利用自动分词提供繁简体拼音标记正确性系统及其方法。
[0006]本发明的技术解决方案是:
[0007]—种利用自动分词提供繁简体拼音标记正确性系统,其特殊之处在于:该系统包含:存储单元,储存分词;拼音数据库,存放分词对应的拼音序列表,并根据多个使用情况,分别建立分词对应的多个拼音序列表;拼音接收单元,接收拼音;拼音处理单元,将拼音进行分词处理;产生单元,产生分词序列;分词拼音查询单元,查询分词序列中的每个分词的拼音,并根据当前使用情况,选取对应的拼音序列表,并据以查询分词序列中的每个分词的拼音;标记单元,标记分词序列中的每个分词的拼音,并储存结果;判断单元,判断标记结果是否正确;输出单兀,输出标记结果。
[0008]一种利用自动分词提供繁简体拼音标记正确性方法,其特殊之处在于:该方法包含下列步骤:
[0009]I)储存分词,根据多个使用情况,分别建立分词数据对应的多个拼音序列表;
[0010]2)存放分词对应的拼音序列表;
[0011]3)接收拼音;[0012]4)将拼音进行分词处理,根据当前使用情况,选取对应的拼音序列表,并据以查找分词的拼音;
[0013]5)产生分词序列;
[0014]6)查询分词序列中的每个分词的拼音;
[0015]7)标记分词序列中的每个分词的拼音,并储存结果;
[0016]8)判断标记结果是否正确,若否,则由分词序列中取出分词;
[0017]9)输出标记结果。
[0018]
【专利附图】

【附图说明】
[0019]图1为本发明利用自动分词提供繁简体拼音标记正确性系统的示意图;
【具体实施方式】
[0020]参见图1,其利用自动分词提供繁简体拼音标记正确性系统可包含有:存储单元21、判断单元22、拼音接收单元23、拼音处理单元24、分词拼音查询单元25、产生单元26、标记单元27以及输出单元28。存储单元21,储存分词;拼音数据库212,存放分词对应的拼音序列表;拼音接收单元23,接收拼音;拼音处理单元24,将拼音进行分词处理;产生单元26,产生分词序列;分词拼音查询单元25,查询分词序列中的每个分词的拼音;标记单元27,标记分词序列中的每个分词的拼音,并储存结果;判断单元22,判断标记结果是否正确;输出单兀28,输出标记结果。
[0021]分词拼音数据库22,根据存储单元21中所储存的分词数据21,依照后续可能的使用状况,预先建立所有分词对应的拼音数据库212,其中可能包含有繁体中文的拼音数据库212和简体中文的拼音数据库212,并将其存入存储单元21中。
[0022]接着,分词拼音查询单元25根据当前使用状况,选择简体中文的拼音数据库212,并据以查询分词序列中的每一分词的拼音,并产生查询结果。
[0023]产生单元26则根据查询结果,标记分词序列中的每一分词的拼音,并产生标记结果。最后,输出单兀28将标记结果输出。
[0024]一种利用自动分词提供繁简体拼音标记正确性方法,其特征在于:该方法包含下列步骤:
[0025]I)储存分词;
[0026]2)存放分词对应的拼音序列表;
[0027]3)接收拼音;
[0028]4)将拼音进行分词处理;
[0029]5)产生分词序列;
[0030]6)查询分词序列中的每个分词的拼音;
[0031]7)标记分词序列中的每个分词的拼音,并储存结果;
[0032]8)判断标记结果是否正确;
[0033]9)输出标记结果。
【权利要求】
1.一种利用自动分词提供繁简体拼音标记正确性系统,其特征在于:该系统包含:该系统包含:存储单元,储存分词;拼音数据库,存放分词对应的拼音序列表,并根据多个使用情况,分别建立分词对应的多个拼音序列表;拼音接收单元,接收拼音;拼音处理单元,将拼音进行分词处理;产生单元,产生分词序列;分词拼音查询单元,查询分词序列中的每个分词的拼音,并根据当前使用情况,选取对应的拼音序列表,并据以查询分词序列中的每个分词的拼音;标记单元,标记分词序列中的每个分词的拼音,并储存结果;判断单元,判断标记结果是否正确;输出单兀,输出标记结果。
2.一种利用自动分词提供繁简体拼音标记正确性方法,其特征在于:该方法包含下列步骤: 1)储存分词,根据多个使用情况,分别建立分词数据对应的多个拼音序列表; 2)存放分词对应的拼音序列表; 3)接收拼音; 4)将拼音进行分词处理,根据当前使用情况,选取对应的拼音序列表,并据以查找分词的拼音; 5)产生分词序列; 6)查询分词序列中的每个分词的拼音; 7)标记分词序列中的每个分词的拼音,并储存结果; 8)判断标记结果是否正确,若否,则由分词序列中取出分词; 9)输出标记结果。
【文档编号】G06F17/30GK103793413SQ201210425861
【公开日】2014年5月14日 申请日期:2012年10月29日 优先权日:2012年10月29日
【发明者】王秦秦 申请人:无敌科技(西安)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1