互联网中文简繁字转换系统及方法

文档序号:6503643阅读:472来源:国知局
互联网中文简繁字转换系统及方法
【专利摘要】本发明公开了一种互联网中文简繁字转换系统,属于中文简繁转换技术,包括:分词模块,用于针对输入的语句进行分词,不同的语义分出不同的字和词组;符号处理模块,用于把简体与繁体中的不相同符号进行转换;词组处理模块,用于针对简体与繁体中词组翻译的差别进行转换;字处理模块,用于针对简体字和繁体字进行转换;综合处理模块,用于针对简体和繁体字词在不同语境中的不同用法进行转换。本发明还公开了一种互联网中文简繁字转换方法。本发明实现了互联网及计算机领域内繁简词汇的准确转换,提供了准确的简繁转换工具;本发明用技术手段实现了海峡两岸民众在互联网上的交流,若大陆网站使用本系统,可以方便台湾民众阅览。
【专利说明】互联网中文简繁字转换系统及方法
【技术领域】
[0001]本发明涉及中文简繁转换【技术领域】,特别涉及ー种互联网中文简繁字转换系统及方法。
【背景技术】
[0002]中国大陆地区从上世纪60年代开始全面使用简化字,而台港澳地区以及海外华人华语社区依然使用繁体字。此外,中国大陆在古籍出版、古汉语教学研究以及某些对外交往中,仍然使用繁体字。汉字繁简体并存这ー客观情况,对汉字的简繁文本转换提出了要求;同时由于海峡两岸文化、经贸活动广阔度、频繁度的増加和交流程度的深入,两岸民众均对繁简字的准确转换提出了越来越迫切和更高级的要求。
[0003]近十多年来,学术界和互联网界都有不少专家、学者对繁简字的转换进行了研究和探索,研制了不少繁简字转换工具或转换系统,但至今尚无ー种能够在中国“大陆简化字”与“台湾繁体字(有人称正体字)”之间准确转换的工具或系统。
[0004]目前在互联网上使用较为广泛和较多的繁简字转换工具或转换系统有:金山词霸的“繁体字简体字转换”、google (谷歌)翻译软件中的“繁简字转换”以及百度捜索中的“繁简字转换”。以上三种繁简字转换工具或转换系统,在实现“简化字”与“繁体字”的转换吋,都只能部分地实现“简化字”与“繁体字”的转换,不能达到准确转换的目的。

【发明内容】

[0005]有鉴于此,本发明的目的在于提供ー种互联网中文简繁字转换系统及方法,用于实现“简化字”与“繁体字”的准确转换。
[0006]本发明提供了ー种互联网中文简繁字转换系统,包括:
[0007]分词模块,用于对输入的语句进行分词,不同的语义分出不同的字和词组;
[0008]符号处理模块,用于对简体语句与繁体语句中的不相同符号进行转换;
[0009]词组处理模块,用于对分词后简体的词组进行繁体转换;
[0010]字处理模块,用于将简体字转换为繁体字;
[0011]综合处理模块,用于对简体和繁体字词在不同语境中的不同用法进行转换。
[0012]本发明还提供了ー种互联网中文简繁字转换方法,包括:
[0013]将输入的语句进行分词,不同的语义分出不同的字和词组;
[0014]将简体语句与繁体语句中的不相同符号进行转换;
[0015]对分词后简体的词组进行繁体转换;
[0016]将简体字转换为繁体字;
[0017]对简体和繁体字词在不同语境中的不同用法进行转换。
[0018]本发明实现了互联网及计算机领域内繁简词汇的准确转换,提供了准确的简繁转换工具。例如:
[0019]应用程序接ロ(大陆简体)ー转换一"^應用程式介面(台湾繁体)[0020]服务器(大陆简体)ー转换一"^伺服器(台湾繁体)
[0021]带宽(大陆简体)ー转换一"^頻寬(台湾繁体)
[0022]云计算(大陆简体)ー转换一"^雲端運算(台湾繁体)
[0023]其次,本发明用技术手段实现了海峡两岸民众在互联网上的交流,若大陆网站使用本系统,可以方便台湾民众阅览,提高网站对台湾民众的亲和力、亲切感。
[0024]最后,大陆地区的运营性网站运营本系统制作繁体版,方便台湾地区民众(在繁体版上)认读、识别产品名称,有利于交易的达成,因而也将有利于提升网站的市场竞争力。例如,在农产品名称方面:
[0025]菠萝(大陆简体)ー转换一"^鳳梨(台湾繁体)
[0026]猕猴桃(大陆简体)ー转换一"^奇異果(台湾繁体)
[0027]番石榴(大陆简体)ー转换一~^芭樂(台湾繁体)
[0028]西兰花(大陆简体)ー转换一"^花椰菜(台湾繁体)
【专利附图】

【附图说明】
[0029]图1为本发明 实施例提供的互联网中文简繁字转换系统结构图;
[0030]图2为本发明实施例中分词模块的结构图;
[0031]图3为本发明实施例中“台湾大学”网站首页首屏截屏图。
【具体实施方式】
[0032]为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进ー步的详细描述。
[0033]如图1所示,本实施例提供的互联网中文简繁字转换系统主要有五个模块:符号处理模块、词组处理模块、字处理模块、综合处理模块以及分词模块。
[0034]分词模块11,用于对输入的语句进行分词,不同的语义能分出不同的字和词组。如图2所示,分词模块11具体包括:
[0035]语句分词单元111、用于将语句分成单个字,如:王晓平在I月份滦南大会上说的
确实在理,切分为:王/晓/平/在/1/月/份/滦/南/太/会/上/说/的/确/实/在/理
[0036]组合词组单元112、用于通过词库检索对每个词之间进行组合计算所有可能的词组,得到所有词组的组合:
[0037]王/晓/平/在/1/月/份/滦/南/太/会上/说/的/确实/在/理
[0038]王/晓/平/在/1/月/份/滦/南/大会/上/说/的/确实/在/理
[0039]王/晓/平/在/1/月份/滦/南/太/会/上/说/的/确实/在/理
[0040]王/晓/平/在/1/月份/滦/南/大会/上/说/的/确实/在/理
[0041]王/晓/平/在/1/月份/滦/南/太/会上/说/的/确实/在/理
[0042]权重值如下:
【权利要求】
1.ー种互联网中文简繁字转换系统,其特征在于,包括: 分词模块,用于对输入的语句进行分词,不同的语义分出不同的字和词组; 符号处理模块,用于对简体语句与繁体语句中的不相同符号进行转换; 词组处理模块,用于对分词后简体的词组进行繁体转换; 字处理模块,用于将简体字转换为繁体字; 综合处理模块,用于对简体和繁体字词在不同语境中的不同用法进行转换。
2.根据权利要求1所述的互联网中文简繁字转换系统,其特征在于,所述分词模块具体包括: 语句分词单元,用于将语句分成单个字; 组合词组单元,用于通过词库检索对所述每个字进行组合,获取所有可能的词组,得到所有词组的不同组合; 最短路径分词单元,用于对所述不同组合分别使用N最短路径计算出至少ー个分词方案; 数字日期处理单元,用于针对所述至少一个分词方案进行数字、日期合并的处理; 名称处理单元,用于在所述合并处理后的分词方案中识别出人名、地名及翻译名; 二次最短路径分词单元,用于再次使用N最短路径获取最后的分词結果。
3.—种互联网中文简繁字转换方法,其特征在于,包括: 将输入的语句进行分词,不同的语义分出不同的字和词组; 将简体语句与繁体语句中的不相同符号进行转换; 对分词后简体的词组进行繁体转换; 将简体字转换为繁体字; 对简体和繁体字词在不同语境中的不同用法进行转换。
4.根据权利要求3所述的互联网中文简繁字转换方法,其特征在于,所述将输入的语句进行分词的步骤具体包括: 把语句分成单个字; 通过词库检索对所述每个字进行组合,获取所有可能的词组,得到所有词组的不同组合; 针对所述不同组合分别使用N最短路径计算出至少ー个分词方案; 针对所述至少一个分词方案进行数字、日期合并的处理; 在所述合并处理后的分词方案中识别出人名、地名及翻译名; 再次使用N最短路径获取最后的分词結果。
5.根据权利要求4所述的互联网中文简繁字转换方法,其特征在于,所述使用N最短路径进行分词的步骤具体包括: 通过上一歩得到词组组合,每个组合都以第一个词为起点,最后ー个词为終点,从起点开始记录到达終点的所有路径,每个词之间存在着权重,记录每个路径的最終权重值之和,权重最少的路径为最短路径;所述权重由词的词性决定,所述N最短路径为最短路径保留最前的N个結果。
【文档编号】G06F17/28GK103559178SQ201310215166
【公开日】2014年2月5日 申请日期:2013年5月31日 优先权日:2013年5月31日
【发明者】刘家丰, 周思达, 廖发源, 谭茜霞, 刘润泽 申请人:武汉中文百科网络有限公司, 北京四海书同文国际文化交流中心
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1