具标记提示的简繁字词转换系统及其方法

文档序号:6577754阅读:156来源:国知局
专利名称:具标记提示的简繁字词转换系统及其方法
技术领域
本发明涉及一种具标记提示的简繁字词转换系统及其方法,特别是指一种提供多 选特性字词的标示与候选字词的简繁字词转换系统及其方法。
背景技术
中文文字有简体字与繁体字之分,然而因为简体字与繁体字之间的差异甚大,也 造成了这两种文字的使用者在交流信息上的隔阂。不仅是简体字的使用者在阅读繁体字上 有一定的困难,对于没接触过简体字的繁体字使用者来说,阅读一份简体字文件也只能理 解其中一半的内容。另外,简体字与繁体字所使用的编码也不相同,简体字是用GB(汉语拼 音“国标”的声母)编码,繁体字则是使用Big5码,因此如果使用者所在的本地端没有装设 相应的编解码设备,就会有显示乱码的情形发生。简繁转换工具正是为此需求而生,无论是网站或文字编辑软件几乎都附有这类的 简繁转化工具,但要正确无误的转换一份简体字或繁体字文件,却并不轻松。简单的内码转 换仅适用于一字对应一字的情况,但遇到如“发”、“后”这类简体字由于同时可以对应多个 繁体字,则需要与前后字所形成的词汇来做进一步的判断。以“发”为例,对应两个不同的 繁体字“發”与“髪”,因此若要正确转换原文所要传达的意思,就必须先对“发”与前后文字 所形成的词汇来做进一步的判断,例如,“发展”与“头发”就必须分别转换成“發展”与“頭 髪”。再者,简体与繁体的惯用语也颇为分歧,例如简体单词“数据库”是对应于繁体单词“資 料庫”,又如“注销计算机”转换成繁体是“登出電腦”,此类转换不仅无法直译,甚至连字数 都不一定相同。另外,一词对应多词的转换也需要看上下文的意思;如“计划”对应有“計畫”和 “計劃”,又如简体的“文件”可能表达的是普通的“文件”,亦有可能是指电脑存取的电子文 件(file),若是第一种文意,繁体转为“文件”是没问题的,但第二种意思就须转为“檔案” 才正确。具有此文意判断需耗费的系统资源是最高的,然而其转换的正确度也是最高的。现阶段的简繁转换系统皆朝着转换出最贴近原文意思的方向做努力,但无论是多 精确的转换系统,都免不了会出现非原意所要表达的错误,而这种错误将造成使用者阅读 上的困扰。为了避免这种状况,往往还需要花费人力将转换过后的文件再校对一次,细心比 对原文与转换后文件以找出错误的地方再重新做正确的转换。综上所述,可知现有技术中长期在转换出现错误时,一直存在须靠人力花费时间 比对原文与转换后文件,将出错处再做正确的全文替换的问题,因此有必要提出改进的技 术手段,来解决此一问题。

发明内容
有鉴于现有技术存在的须靠人力花费时间比对原文与转换后文件,将出错处再做 正确的全文替换的问题,本发明遂提供一种具标记提示的简繁字词转换系统及其方法,其 中
本发明所提供的具标记提示的简繁字词转换系统,其包含单词转换数据库、第一单字转换数据库、第二单字转换数据库、解析模块、查找模块、生成模块、显示模块与标记连 结模块。其中,单词转换数据库储存有多个简体单词及其简体单词对应的一个或多个繁体 单词;第一单字转换数据库储存有多个简体单字及其对应的多个第一繁体单字;第二单字 转换数据库储存有多个简体单字及其对应的一第二繁体单字;解析模块用于将接收的一简 体字词内容依序解析为简体单词和/或简体单字;查找模块用于先在单词转换数据库查找 与各简体单词对应的一个或多个繁体单词,再在第一单字转换数据库查找与各简体单字对 应的多个第一繁体单字,最后在第二单字转换数据库查找与剩余的各简体单字对应的一第 二繁体单字;生成模块用于自多个第一繁体单字选择其中之一作为输出单字,并生成包含 其余第一繁体单字的候选单字列表,以及在有多个与简体单词对应的繁体单词时,自该些 繁体单词选择其中之一作为输出单字,并生成包含其余繁体单词的候选单词列表;显示模 块用于显示简体字词内容,以及显示繁体单词或输出单词,与输出单字或第二繁体单字;标 记连结模块用于标记输出单词与输出单字,并在各输出单词及各输出单字分别建立与其候 选单词列表及候选单字列表的显示连结。本发明所提供的具标记提示的简繁字词转换方法,首先建立包含有多个简体单词 及其对应的一个或多个繁体单词的单词转换数据库、包含有多个简体单字及其对应的多个 第一繁体单字的第一单字转换数据库,与包含有多个简体单字及其对应的一第二繁体单字 的第二单字转换数据库;接收一简体字词内容,并将其依序解析为简体单词和/或简体单 字;在单词转换数据库查找与各简体单词对应的繁体单词,并在对应的繁体单词非唯一时, 进一步选择一繁体单词作为输出单词,并生成包含其余繁体单词的候选单词列表;在第一 单字转换数据库查找与各简体单字对应的多个第一繁体单字,选择一第一繁体单字作为输 出单字,并生成包含其余第一繁体单字的候选单字列表,但若查无对应的该些第一繁体单 字时,进一步在第二单字转换数据库查找与各简体单字对应的一第二繁体单字;显示简体 字词内容,以及显示繁体单词/输出单词,或是输出单字/第二繁体字词;最后,标示输出单 词与输出单字,并在各输出单词及各输出单字分别建立与其候选单词列表与候选单字列表 的显示连结。本发明所提供的系统与方法如上,与现有技术之间的差异在于本发明有标记具多 选特性的字词,与提示其候选字词的技术手段。通过上述的技术手段,本发明可以减少在校 对原文与转换后文件所耗费的时间,达到减轻系统负担的技术功效。


图1为本发明的具标记提示的简繁字词转换系统方框示意图;图2A与图2B为本发明的具标记提示的简繁字词转换方法其步骤流程图;图3A为本发明的转换结果其界面示意图;图3B为本发明的输出字词其替换示意图;图4为本发明的暂存数据库其数据示意图。
具体实施例方式以下将配合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题并达到技术功效的实现过程能充分理解并据以实施。图1为本发明的具标记提示的简繁字词转换系统方框示意图。请参照图1,具标记 提示的简繁字词转换系统100包含单词转换数据库110、第一单字转换数据库120、第二单 字转换数据库130、解析模块140、查找模块150、生成模块160、显示模块170与标记连结模 块180。其中,单词转换数据库110储存有多个简体单词及其对应的一个或多个繁体单词; 第一单字转换数据库120储存有多个简体单字及其对应的多个第一繁体单字;第二单字转 换数据库130储存有多个简体单字及其对应的一个第二繁 体单字。需说明的是,第一单字转换数据库120的每一简体单字皆与两个或两个以上的第 一繁体单字有对应关系,如简体单字“发”对应有“發”与“髪”两个第一繁体单字;而第二 单字转换数据库130的每一简体单字仅对应一个唯一的第二繁体单字,如简体单字“门”仅 对应一第二繁体单字“門”;单词转换数据库110所包含的简体单词则不限于一对一或一对 多特性,下表为单词转换数据库110的部分数据 其中,编号1的简体单词“发生”对应有一个繁体单词“發生”,编号2与编号3的 简体单词“计划”分别对应繁体单词“計畫”与“計劃”,以代表简体单词“计划”对应有两个 不同的繁体单词,而栏位“频率”其作用则待后续提及时一并说明之。为突显本发明的特色 所在,以下将从简体转繁体的单向转换来做说明与举例。解析模块140用于将一简体字词内容101依序进行解析,具体来说,解析模块140 是将简体字词内容101依序与单词转换数据库110所包含的简体单词进行比对,并查找出 符合的简体单词,必须说明的是,对于其组成单字为一对一特性的简体单词(如“错误”), 不将其收录于单词转换数据库110,而是收录于第二单字转换数据库130中。举例来说,接 收的简体字词内容101为“当计划发生错误”,解析模块140即对此简体字词内容101进行 解析,并将其依序解析为“当”、“计划”、“发生”、“错”与“误”;其中“计划”与“发生”为简体 单词,其余皆为简体单字。查找模块150用于先在单词转换数据库110查找与各简体单词对应的一个或多 个繁体单词,接着再在第一单字转换数据库120查找与各简体单字对应的多个第一繁体 单字,最后再在第二单字转换数据库130查找与剩余的各简体单字对应的一个第二繁体单 字。延续上例来说明,查找模块150在单词转换数据库110查找出与“计划”对应的繁体单 词“計畫”与“計劃”,以及与“发生”对应的“發生”后,再在第一单字转换数据库120查找 分别与“当”、“错”、“误”符合的简体单字;其中“当”在第一单字转换数据库120有符合的 简体单字,即“当”为具有一对多特性的简体单字。查找模块150撷取与“当”对应的“當” 与“噹”后,在第二单字转换数据库130撷取分别与剩余的“错”、“误”对应的第二繁体单字“错”,“误”。
生成模块160用于自各简体单字对应的多个第一繁体单字中,选择其中之一作 为输出单字,以及在确认一简体单词所对应的繁体单词为非唯一时,选择其中之一做为输 出单词,并生成分别包含其余第一繁体单字与其余繁体单词的候选单字列表及候选单词列 表。延续上例,生成模块160可预设为选择第一单字转换数据库120的排序在前的“當”作 为简体单字“当”的输出单字,另因对应于简体单词“计划”的繁体单词不只一个,故生成模 块160选择在单词转换数据库110的排序在前的“計畫”作为输出单词,并产生包含“噹”的 候选单字列表与包含“計劃”的候选单词列表。显示模块170用于显示简体字词内容101以及转换后的繁体字词内容;此述的繁 体字词内容包含繁体单词或输出单词,以及输出单字或第二繁体单字。以上例说明,显示模 块170用于显示解析字词内容101 “当计划发生错误”,以及转换后的“當計畫發生錯誤”; 其中,“當”为输出单字,“計畫”为输出单词,“發生”为繁体单词,“錯”与“誤”皆为第二繁 体单字。标记连结模块180用于标记经转换后输出的输出单词与输出单字,并建立各输出 单词与各输出单字及其候选单词列表与候选单字列表的显示连结。延续上例,标记连结模 块180对转换结果“當計畫發生錯誤”之中的输出单字“當”与输出单词“計畫”进行标记, 并分别建立输出单字“當”与其包含“噹”的候选单字列表,以及输出单词“計畫”与其包含 “計劃”的候选单词列表之间的连结关系;如图3A所示,当使用者点选输出单词“計畫”时, 即显示其包含“計劃”的候选单词列表供使用者进行后续的替换。上述的标记方式可为方 框(请见图3A),亦可以下标或颜色来进行标记(图中未示),而连结是指可针对任一输出 单词或输出单字显示其候选单词列表或候选单字列表。此外,标记连结模块180更可如图 3A所示,用于标记简体字词内容101中,与输出单词或输出单字对应的简体单词或简体单 字。另外,具标记提示的简繁字词转换系统100可更包含一替换模块(图中未示),用 于在接收使用者自各候选单词列表或候选单字列表中选定的一繁体单词或第一繁体单字 时,将与之连结的输出单词或输出单字替换为该繁体单词或第一繁体单字。请参照图3A,依 据使用者选定的一候选单词310 “計劃”,替换模块将与之连结的一输出单词320 “計畫”, 如图3B所示的替换为“計劃”。针对简体字词内容101可能具一些重复的简体单词或简体单字,此具标记提示的 简繁字词转换系统100更包含一暂存数据库(图中未示),用于暂存前述的包含在简体字词 内容101的简体单词与简体单字,以及其对应的繁体单词或输出单词,与输出单字或第二 繁体单字;上例的转换结果“當計畫發生錯誤”将如图4所示被暂存在暂存数据库。查找模 块150可设定为在单词转换数据库110查找之前,先在此暂存数据库查找符合的简体单词 或简体单字。对于单词转换数据库110中对应有多个繁体单词的简体单词(如“计划”),单词 转换数据库110更可以储存简体单词转换为其对应的各繁体单词的频率,如上表中,栏位 “频率”中储存的数字代表简体单词转换为繁体单词的频率,其中编号2的简体单词“计划” 转换为繁体单词“計畫”的频率记为5,而编号3的“计划”转换为“計劃”的频率为2,编号 1的“发生”转换为“發生”的频率记为“_”,代表“发生”转换为“發生”并无其他可能。生成模块160可设计为在选择一繁体单词作为输出单词之前,比较对应同一简体单词的各繁体单词的使用频率后,选择使用频率较高的繁体单词作为输出单词。以简体单词“计划”为 例,生成模块160经比较后,将选择其频率较高的繁体单词“計畫”作为输出单词。此外,第 一单字转换数据库120亦可包含栏位“频率”,用于记录第一简体单字转换为其对应的各第 一繁体单字的频率。图2A为本发明的具标记提示的简繁字词转换方法其步骤流程图。请参照图2A,首 先,建立包含有多个简体单词及其对应的一个或多个繁体单词的单词转换数据库110、包含 有多个简体单字及其对应的多个第一繁体单字的第一单字转换数据库120,与包含有多个 简体单字及其对应的一个第二繁体单字的第二单字转换数据库130 (步骤205);接收一简 体字词内容101,并将其依据解析为至少一简体单词和/或简体单字(步骤210)。承上,先在单词转换数据库110查找与各简体单词对应的繁体单词(步骤215),其 中,若对应的繁体单词有多个时(步骤220),进一步从中选择一个作为输出单词,并产生包 含其余繁体单词的候选单词列表(步骤225),反之若对应有唯一的繁体单词时,撷取该繁 体单词;接着请参照图2B,分别以各简体单字,在第一单字转换数据库120比对出与之符合 的简体单字(步骤230),其中,针对不存在于第一单字转换数据库120的简体单字,在第二 单字转换数据库130查找与之对应的一第二繁体单字(步骤235),对于存在于第一单字转 换数据库120的简体单字,撷取其对应的多个第一繁体单字,并自其中选择一第一繁体单 字作为输出单字,其余第一繁体单字生成为候选单字列表(步骤240);显示简体字词内容 101,以及显示繁体单词/输出单词,或是输出单字/第二繁体单字(步骤245);最后,标记 输出单词与输出单字(步骤250),并于各输出单词与输出单字分别产生可连结至其候选单 词列表及候选单字列表的连结(步骤255)。其中,步骤250除了标记输出单词与输出单字外,可更包含标记简体字词内容101 中与该输出单词或输出单字对应的简体单词或简体单字;另外,于步骤255之后,可更包含 在接收使用者自各候选单词列表或候选单字列表选定的一繁体单词或第一繁体单字时,将 与之连结的输出单词或输出单字替换为该繁体单词或第一繁体单字的步骤。为针对简体字词内容101中重复出现的简体单词或简体单字,可更包含将简体单 词、简体单字、对应简体单词得输出单词或繁体单词,与对应简体单字得输出单字或第二繁 体单字储存于一暂存数据库,并在下一次执行步骤215之前先在此暂存数据库查找符合的 简体单词或简体单字,以撷取其对应之一繁体单词或输出单词,亦或输出单字或第二繁体 单字。本方法可更包含在建立储存有使用频率的单词转换数据库110与第一单字转换 数据库120,即该单词转换数据库110与该第一单字转换数据库120分别储存有对应其繁体 单词与第一繁体单字的使用频率,步骤225与步骤240亦可更包含为依据各繁体单词或第 一繁体单字的使用频率,选择其中之一作为输出单词或输出单字。以上为简体转繁体的说明,而繁体转简体的原理亦然。请参照图1的具标记提示 的简繁字词转换系统100,解析模块140将接收的一繁体字词内容依序解析完成后,查找模 块150先在单词转换数据库110查找与各繁体单词对应的简体单词,接着以该些繁体单字 为第一繁体单字,在第一单字转换数据库120查找与各第一繁体单字对应的简体单字,最 后再以剩余的第一繁体单字为第二繁体单字,在第二单字转换数据库130查找与各第二繁体单字对应的简体单字。承上,若有多个简体单字/简体单词与一第一繁体单字/繁体单词对应,则生成模块160进一步自该第一繁体单字/繁体单词所对应的多个简体单字/简体单词中,选择其 中之一作为输出单字/输出单词,并生成包含其余简体单字/简体单词的候选单字列表/ 候选单词列表;显示模块170显示繁体字词内容,并显示简体单词或输出单词,及输出单字 或第二繁体单字;标记连结模块180标记输出单词与输出单字,并于各输出单词与各输出 单字分别产生可连结至其候选单词列表及候选单字列表的连结。综上所述,可知本发明与现有技术之间的差异在于具有标记多选特性的简繁字 词,与提示其候选字词的技术手段,借由此一技术手段可以解决现有技术所存在的问题,进 而减少校对所耗费的人力与时间,以达到减轻系统负担的技术功效。虽然本发明所公开的实施方式如上,惟所述的内容并非用于直接限定本发明的专 利保护范围。本领域技术人员在不脱离本发明所揭露的精神和范围的前提下,可以在实施 的形式上及细节上作些许的更动。本发明的专利保护范围,仍须以所附权利要求书所界定 为准。
权利要求
一种具标记提示的简繁字词转换系统,其特征在于,包含一单词转换数据库,储存有复数个简体单词及其对应的一个或多个繁体单词;一第一单字转换数据库,储存有复数个简体单字及其对应的多个第一繁体单字;一第二单字转换数据库,储存有复数个简体单字及其对应的一第二繁体单字;一解析模块,用于将接收的一简体字词内容依序解析为简体单词和/或简体单字;一查找模块,用于在该单词转换数据库查找与各该简体单词对应的一个或多个繁体单词;在该第一单字转换数据库查找与各该简体单字对应的多个第一繁体单字;在该第二单字转换数据库查找与剩余的各该简体单字对应的该第二繁体单字;一生成模块,用于自多个第一繁体单字中选择其中之一作为输出单字,其余该第一繁体单字生成为候选单字列表,以及在各该简体单词对应有多个繁体单词时,自该多个繁体单词中选择其中之一作为输出单词,其余该繁体单词生成为候选单词列表;一显示模块,用于显示该简体字词内容、该些繁体单词或输出单词,与该些输出单字或第二繁体单字;及一标记连结模块,用于标记该些输出单词与输出单字,并建立该些输出单词与输出单字及其该候选单词列表与候选单字列表的显示连结。
2.如权利要求1所述的具标记提示的简繁字词转换系统,其特征在于,该标记连结模 块更用于标记该简体字词内容中与该些输出单词或输出单字对应的该些简体单词或简体单字。
3.如权利要求1所述的具标记提示的简繁字词转换系统,其特征在于,该系统更包含 一替换模块,用于在接收使用者自各该候选单词列表或候选单字列表选定的一繁体单词或 第一繁体单字时,将与之连结的该输出单词或输出单字替换为该繁体单词或第一繁体单字。
4.如权利要求1所述的具标记提示之简繁字词转换系统,其特征在于,该系统更包含 一暂存转换数据库,用于暂存包含在该简体字词内容的简体单词与简体单字,以及对应的 繁体单词或输出单词,与输出单字或第二繁体单字。
5.如权利要求1所述的具标记提示的简繁字词转换系统,其特征在于,该暂存转换数 据库更用于作为该查找模块查找与该简体字词内容的各简体单词及各简体单字对应的繁 体单词或输出单词,输出单字或第二繁体单字的优先数据来源。
6.如权利要求1所述的具标记提示的简繁字词转换系统,其特征在于,该单词转换数 据库与该第一单字转换数据库更用于分别储存对应其繁体单词与第一繁体单字的频率。
7.一种具标记提示的简繁字词转换方法,其特征在于,包含下列步骤建立包含有复数个简体单词及其对应的一个或多个繁体单词的一单词转换数据库、包 含有复数个简体单字及其对应的多个第一繁体单字的一第一单字转换数据库,与包含有复 数个简体单字及其对应的一第二繁体单字的一第二单字转换数据库; 接收一简体字词内容,并将其依序解析为简体单词和/或简体单字; 在该单词转换数据库查找与各该简体单词对应的繁体单词,并在确认该繁体单词非唯 一时,进一步自该些繁体单词选择其中之一作为输出单词,其余的该繁体单词生成为候选 单词列表;在该第一单字转换数据库查找与各该简体单字对应的多个第一繁体单字,其中在查无该些第一繁体单字时,进一步在该第二单字转换数据库查找与各该简体单字对应的该第二 繁体单字;自该些第一繁体单字选择其中之一作为输出单字,其余的该些第一繁体单字生成为候 选单字列表;显示该简体字词内容、繁体单词或输出单词,与输出单字或第二繁体单字; 标记该些输出单词与输出单字;及建立该些输出单词与输出单字及其该候选单词列表与候选单字列表的显示连结。
8.如权利要求7所述的具标记提示的简繁字词转换方法,其特征在于,该标记该些输 出单词与输出单字的步骤,更包含标记该简体字词内容中与该些输出单词或输出单字对应 的该些简体单词或简体单字的步骤。
9.如权利要求7所述的具标记提示的简繁字词转换方法,其特征在于,该方法更包含 下列步骤接收使用者自各该候选单词列表或候选单字列表选定的一繁体单词或第一繁体单字;及以选定的该繁体单词或第一繁体单字替换与之连结的该输出单词或输出单字。
10.如权利要求7所述的具标记提示的简繁字词转换方法,其特征在于,该方法更包含 建立包含有该简体字词内容的简体单词与简体单字,以及对应的繁体单词或输出单词,与 输出单字或第二繁体单字的一暂存数据库的步骤。
11.如权利要求10所述的具标记提示的简繁字词转换方法,其特征在于,该方法更包 含优先确认该暂存转换数据库储存有与各该简体单词或简体单字对应的一繁体单词/输 出单词,或输出单字/第二繁体单字的步骤。
12.如权利要求7所述的具标记提示的简繁字词转换方法,其特征在于,该单词转换数 据库与该第一单字转换数据库更用分别储存有对应其繁体单词与第一繁体单字的使用频 率。
全文摘要
本发明公开了一种具标记提示的简繁字词转换系统及其方法,其通过标记具多选特性的简繁字词,与提示其候选字词的技术手段,可以在校对原文与转换后文件时,方便查找可能转换错误的字词及方便进行替换,借此可减少校对所耗费的人力与时间,并达到减轻系统负担的技术功效。
文档编号G06F17/30GK101859295SQ20091013390
公开日2010年10月13日 申请日期2009年4月7日 优先权日2009年4月7日
发明者胡亚娟, 邱全成 申请人:英业达股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1