文字转换方法与系统的制作方法

文档序号:6337912阅读:174来源:国知局
专利名称:文字转换方法与系统的制作方法
技术领域
本发明涉及一种文字转换方法,尤其涉及一种可处理一个来源语言字词对应多个目标语言字词的文字转换方法与系统。
背景技术
随着地球村时代的来临,现代人经常有机会接触来自世界各地的信息。然而在面对由不熟悉的语言所撰写的资料时,往往必须仰赖语言转换工具的协助来将这些资料转换为熟悉的语言。大多数的语言转换工具是通过比对对照表来将属于来源语言的字词转换为目标语言。然而,在对照表未能反映不同语言之间的语意落差以及用语差异时,则十分容易产生较为失真的转换结果。除此之外,在进行语言转换之际,也常有一个来源语言字词可以被转换为多个目标语言字词的情况。对此,有部分的语言转换工具会要求使用者以人工的方式来选取所要转换成的目标语言字词,工具本身无法自动进行选择。另外,也有部分的语言转换工具会依据各个目标语言字词的出现频率高低来决定要将来源语言字词转换成哪个目标语言字词。但据统计,此种方式容易选择到错误的目标语言字词,而无法产生高正确率的语言转换结果。

发明内容
有鉴于此,本发明提供一种文字转换方法,特别适用在进行文字转换时针对一对多对应的字词来自动选择较佳的转换结果。本发明提供一种文字转换系统,能处理不同语言之间的用语差异,以提升文字转换时的正确性。本发明提出一种文字转换方法,用以将符合来源语言的文字段落转换为目标语言,其中文字段落包括多个来源语言字词,此方法包括下面步骤提供一字词对照表,此字词对照表记录来源语言与目标语言的字词对应关系;对文字段落进行断词处理而得到多个断词结果;比对上述断词结果与字词对照表,以判断各来源语言字词系属于第一种类和第二种类二者其中之一,其中属于第一种类的来源语言字词仅对应单一目标语言字词,而属于第二种类的来源语言字词对应复数个候选目标语言字词;依照字词对照表所记录的字词对应关系,在文字段落中将属于第一种类的来源语言字词转换成对应的目标语言字词;以及,将属于第二种类的来源语言字词,根据所对应的各候选目标语言字词及其与文字段落中至少一前后字词所组成的复数个关联字词的共同出现关联性,从上述候选目标语言字词中择一作为所要转换成的目标语言字词。本发明提出一种文字转换系统,用以将符合来源语言的文字段落转换为目标语言,其中文字段落包括多个来源语言字词。此系统包括一储存单元,用以储存一字词对照表,字词对照表记录来源语言与目标语言的字词对应关系;一分类单元,耦接储存单元,用以对文字段落进行断词处理而得到多个断词结果,并比对上述断词结果与字词对照表,以判断各来源语言字词系属于第一种类和第二种类二者其中之一,其中属于第一种类的来源语言字词仅对应单一目标语言字词,而属于第二种类的来源语言字词对应复数个候选目标语言字词;一转换单元,耦接储存单元与分类单元,用以依照字词对照表所记录的字词对应关系,在文字段落中将属于第一种类的来源语言字词转换成对应的目标语言字词,并将属于第二种类的来源语言字词,根据所对应的各候选目标语言字词及其与文字段落中至少一前后字词所组成的复数个关联字词的共同出现关联性,从上述候选目标语言字词中择一作为所要转换成的目标语言字词;以及一输出单元,耦接转换单元,用以输出已转换成目标语言的文字段落。本发明另提出一种文字转换方法,用以进行来源语言及目标语言的文字转换,该方法包括从符合来源语言的文字段落中取得一来源语言字词;提供一字词对照表,字词对照表记录来源语言与目标语言的字词对应关系,且来源语言字词对应至少一个候选目标语言字词;以及,根据所对应的各候选目标语言字词及其与文字段落中至少一前后字词所组成的复数个关联字词,分别在复数个语言数据源的共同出现关联性,从上述候选目标语言字词中择一作为所要转换成的目标语言字词。本发明另提出一种文字转换系统,用以进行来源语言及目标语言的文字转换,该系统包括一输入单元,从符合来源语言的文字段落中取得来源语言字词;一储存单元,耦接输入单元,提供一字词对照表,字词对照表记录来源语言与目标语言的字词对应关系,且来源语言字词对应至少一个候选目标语言字词;一转换单元,耦接输入单元和储存单元,用以根据所对应的各候选目标语言字词及其与文字段落中至少一前后字词所组成的复数个关联字词,分别在复数个语言数据源的共同出现关联性,从上述候选目标语言字词中择一作为所要转换成的目标语言字词;以及,一输出单元,耦接转换单元,用以输出已转换成目标语言的文字段落。基于上述,本发明在对文字段落进行文字的转换时,对于一来源语言字词对应数个候选目标语言字词的情况,可根据所对应的各候选目标语言字词及其与文字段落中至少一前后字词所组成的复数个关联字词的共同出现关联性,从上述候选目标语言字词中选出最适于转换成的目标语言字词,从而产生较佳的文字转换结果。为让本发明的上述特征和优点能更明显易懂,下文特举实施例,并配合所附图式作详细说明如下。


图1是依照本发明的一实施例所示的文字转换系统的方块图。图2是依照本发明的一实施例所示的文字转换方法的流程图。图3是依照本发明的一实施例所示的转换属于第二种类的来源语言字词的流程图。图4是依照本发明的另一实施例所示的转换属于第二种类的来源语言字词的流程图。图5是依照本发明的另一实施例所示的文字转换系统的方块图。图6是依照本发明的又一实施例所示的文字转换系统的方块图。图7是依照本发明的又一实施例所示的文字转换方法的流程图。
附图标记100 文字转换系统;110:储存单元;140 分类单元;150 转换单元;160 输出单元;210 250 本发明的一实施例所述的文字转换方法的各步骤;310 330 本发明的一实施例所述的转换属于第二种类的来源语言字词的各步骤;410 440 本发明的另一实施例所述的转换属于第二种类的来源语言字词的各步骤;500 文字转换系统;510 输入单元;520 语言模型建立单元;530 字词对照表更新单元;600 文字转换系统;610 输入单元;620 储存单元;630 转换单元;640 输出单元;710 730 本发明的另一实施例所述的文字转换方法的各步骤。
具体实施例方式图1是依照本发明的一实施例所示的文字转换系统的方块图。请参阅图1,文字转换系统100包括储存单元110、分类单元140、转换单元150,以及输出单元160。举例来说,文字转换系统100可实作在手机、个人数码助理(Personal Digital Assistant,PDA)、 电子书,或移动上网装置(Mobile Internet Device, MID)和各种电脑/计算机等。此外, 文字转换系统100也可以嵌入浏览器、文书处理软件,或者是网站服务之中。文字转换系统100用以将符合来源语言的文字段落转换为目标语言。例如,将属于简体中文的文字段落转换为繁体中文、将属于繁体中文的文字段落转换为简体中文、 将属于英文的文字段落转换为中文,或将属于中文的文字段落转换为英文等等。本发明并不对来源语言及目标语言的种类加以限制。文字段落包括多个来源语言字词(term), 来源语言字词可以是属于来源语言的单字(word),或是由数个单字所组成的词语/词组 (phrase)。储存单元110 例如是硬盘(Hard Disk Drive, HDD)、固态硬盘(Solid State Drive, SSD)或闪存(flash memory)储存装置,在此并不对储存单元110的种类加以限制。 储存单元110用以储存转换文字时所需参照的字词对照表,此字词对照表记录了来源语言和目标语言的字词对应关系。分类单元140耦接储存单元110。分类单元140系用以根据储存单元110中的字词对照表判断文字段落中的每个来源语言字词属于第一种类或第二种类。其中,属于第一种类的来源语言字词仅对应单一个目标语言字词,且值得一提的是,来源语言字词与所对应的目标语言字词的字数并不一定相等。而属于第二种类的来源语言字词则会对应多个候选目标语言字词。转换单元150耦接储存单元110与分类单元140。转换单元150用以依据分类单元140的判断结果,对属于不同种类的来源语言字词采用不同的方式来将其转换成目标语言字词,以确保能产生最佳的转换结果。为了进一步说明文字转换系统100中各个单元的详细运作方式,以下特举另一实施例来对本发明进行说明。图2是依照本发明的一实施例所示的文字转换方法的流程图, 请同时参阅图1与图2。首先在步骤210中,提供记录在储存单元110中的字词对照表,此字词对照表记录来源语言与目标语言的字词对应关系。详细地说,字词对照表记录数个属于来源语言的字词(可以是单字,或由数个单字构成的词组),以及各上述字词所分别对应的一或多个目标语言字词(可以是单字,或由数个单字构成的词组)。必需特别说明的是,在字词对照表中, 分别属于来源语言与目标语言且相互对应的两个字词,其字数并不一定相等。举例来说,假设来源语言为简体中文而目标语言为繁体中文,在字词对照表中属于简体中文的字词「西柚」,其对应的繁体中文字词为「葡萄柚」,而属于简体中文的字词「公交车」,其对应的繁体中文字词为「公車」。接着如步骤220所示,分类单元140对文字段落进行断词处理而得到数个断词结果。在本实施例中,分类单元140例如是对文字段落进行双连(bi-gram)或η连(n-gram) 断词处理,以将文字段落中连续且不包括标点符号的部分每两个字或η个字切割成一个断词结果。然而,本发明并不对分类单元140所采用的断词处理演算法加以限制。接下来在步骤230中,分类单元140将上述断词结果与储存单元110中的字词对照表进行比对,以判断文字段落中的每一个来源语言字词是属于第一种类或第二种类。详细地说,若在字词对照表中可找到与文字段落中的一来源语言字词部分或完全相符的字词,且该字词只对应一个属于目标语言的字词,则可判定该来源语言字词属于第一种类。在字词对照表中寻找和文字段落中与来源语言字词部分或完全相符的字词时,可依据长词优先的原则来进行。例如,依据双连或η连(n-gram)断词处理后得到复数个断词结果,依据长词优先原则,亦即先以较长字词的断词结果,来分别比对每一个断词结果和字词对照表, 以判断字词对照表中是否有和比对中断词结果相符者,若有相符,则判断比对中的断词结果是一字词。当所有断词结果均比对完之后,依据所有从断词结果中被判断出来的字词,将文字段落中的文字拆解成复数个来源语言字词。其拆解步骤,是从文字段落中先选出较长的字词作为来源语言字词,再从文字段落中剩余的字选出次长的字词作为来源语言字词, 以此类推重复进行,直到文字段落中剩下单一字作为来源语言字词。接着在步骤240中,转换单元150依照字词对照表所记录的字词对应关系,在文字段落中将属于第一种类的所有来源语言字词分别转换成其所对应的目标语言字词。更进一步时,转换单元150可依据长词优先转换的原则来将属于第一种类的来源语言字词转换为目标语言字词。最后如步骤250所示,转换单元150将属于第二种类的来源语言字词,根据所对应的各候选目标语言字词及其与文字段落中至少一前后字词所组成的复数个关联字词的共同出现关联性,从所对应的候选目标语言字词中择一作为所要转换成的目标语言字词。转换单元150的详细运作方式将于后配合图示再作说明。当转换单元150依据来源语言字词属于第一种类或第二种类而采取不同的方式来将来源语言字词转换为对应的目标语言字词之后,便可由输出单元160将完成转换的文字段落输出以供使用者观看。在以下的实施例中,假设来源语言为简体中文而目标语言为繁体中文,由于简体中文所使用的字数较少而繁体中文所使用的字数较多,即一个简体中文字可能会对应到多个繁体中文字,因而在将属于简体中文的文字段落转换为繁体中文时,容易面临一个简体中文字词对应多个繁体中文字词的情况。举例来说,假设文字转换系统100目前要转换的文字段落记载「这名博客在网志上面写着,他爱人煮了碗汤面给他吃」这段内容。首先,由分类单元140对文字段落进行断词处理,所产生的断词结果为「这名」、
「名博」、「博客」、「客在」、「在网」、「网志」、「志上」、「上面」、「面写」、「写着」.....「碗汤」、
「汤面」、「面给」、「给他」、「他吃」。分类单元140将上述断词结果和储存单元110中的字词对照表进行比对,而判断在此文字段落所包括的所有简体中文字词当中,只有「面」这个简体中文字词是属于第二种类,其余的简体中文字词都属于第一种类。如字词对照表所记录的字词对应关系所示,属于第一种类的简体中文字词「这」、「名」、「博客」、「在」、「网志」、 「上」、「写」、「着」、「他」、「爱人」、「煮」、「了」、「碗」、「汤」、「给」、「吃」分别对应繁体中文字词「這」、「名」、「部落客」、「在」、「部落格」、「上」、「窵」、「著」、「他」、「老婆」、「煮」、「了」、 「碗」、「湯」、「給」、「吃」。基此,转换单元150会依照上述字词对应关系,将属于第一种类的简体中文字词直接转换为对应的繁体中文字词。然而由于简体中文字词「面」会对应两个候选繁体中文字词「面」、「麵」,因此转换单元150会分别判断候选繁体中文字词「面」、「麵」 及其与文字段落中的至少一前后字词所组成的数个关联字词的共同出现关联性,进而从候选繁体中文字词「面」、「麵」中选择要转换成的繁体中文字词。在本实施例中,转换单元150 产生的转换结果为「這名部落客在部落格上面窵著,他老婆煮了碗湯麵給他吃」。在上述实施例中,转换单元150是先转换所有属于第一种类的来源语言字词,接着对于属于第二种类的来源语言字词,根据所对应的各候选目标语言字词及其与文字段落中的前后字词所构成的数个关联字词的共同出现关联性,进而从所有的候选目标语言字词中择一作为所要转换的目标语言字词。更进一步地,以下将以图3来说明转换单元150将属于第二种类的来源语言字词转换为适当的目标语言字词的详细步骤。在本实施例中,转换单元150会利用语言模型来计算各候选目标语言字词与前后字词所组成的数个关联字词的共同出现关联性。其中,语言模型例如是η连(n-gram)语言模型、双连(或η连)语言模型,或其他任何具有词与词的对照频率的词汇频率对照表。为了方便说明,以下将转换单元150正要处理且属于第二种类的来源语言字词称的为欲进行转换的来源语言字词。请参阅图3的步骤310,转换单元150利用一语言模型分别计算欲进行转换的来源语言字词的各个候选目标语言字词,其与文字段落中至少一前后字词所组成的数个关联字词的共同出现关联性。详言之,转换单元150依据欲进行转换的来源语言字词在文字段落中的位置,取得文字段落中的至少一前后字词(例如前一字、后一字、前二字、后二字……等),而候选目标语言字词与上述前后字词可组成数个关联字词。 转换单元150将利用语言模型计算上述关联字词的共同出现关联性。举例来说,假设来源语言为简体中文、目标语言为繁体中文,转换单元150采用的语言模型为η连语言模型,并以文字段落「這名部落客在部落格上(面)窵著,他老婆煮了碗湯(面)給他吃」为例,其中括弧内的简体中文「面」字,是尚未确认转换且属于第二种类的来源语言字词,其对应的候选目标语言字词为繁体中文的「面」、「麵」二个字。当转换单元150要将第一个括弧内的「面」转换为适当的目标语言字词时,转换单元150根据第一个括弧内的「面」在文字段落中的位置,从「這名部落客在部落格上」这些字词中定义出至少一前后字词。以候选目标语言字词「面」为例,其与上述前后字词所组成的关联字词为「上
面」、「格上面」、「落格上面」.....「名部落客在部落格上面」、「造名部落客在部落格上面」。
转换单元150会在语言模型中找出所有出现「面」这个字词的次数(以F(面)来表示),并在语言模型中找出关联字词「上面」的出现次数(以F(上面)来表示)。值得一提的是,倘若找到的次数为0,表示在语言模型中没有对应的关联字词,基此,转换单元150会将次数设定为一预设数值,以防止计算出概率为0的结果。在语言模型中,出现关联字词「上面」 的概率P (上面)可以下列算式来表示
权利要求
1.一种文字转换方法,用以将符合一来源语言的一文字段落转换为一目标语言,其中该文字段落包括多个来源语言字词,其特征在于,该方法包括下面步骤提供一字词对照表,该字词对照表记录该来源语言与该目标语言的字词对应关系; 对该文字段落进行一断词处理而得到多个断词结果;比对该些断词结果与该字词对照表,以判断各该些来源语言字词属于一第一种类和一第二种类二者其中之一,其中属于该第一种类的来源语言字词仅对应单一目标语言字词, 而属于该第二种类的来源语言字词对应复数个候选目标语言字词;依照该字词对照表所记录的字词对应关系,在该文字段落中将属于该第一种类的来源语言字词转换成对应的该目标语言字词;以及将属于该第二种类的来源语言字词,根据所对应的各该些候选目标语言字词及其与该文字段落至少一前后字词所组成的复数个关联字词的共同出现关联性,从该些候选目标语言字词中择一作为所要转换成的该目标语言字词。
2.根据权利要求1所述的文字转换方法,其特征在于,其中根据所对应的各该些候选目标语言字词及其与该文字段落中该至少一前后字词所组成的该些关联字词的共同出现关联性,从该些候选目标语言字词中择一作为该目标语言字词的步骤包括利用一语言模型分别计算各该些候选目标语言字词及其与该至少一前后字词所组成的该些关联字词的共同出现关联性;在该些候选目标语言字词中,选择对应最高的共同出现关联性的候选目标语言字词来作为该目标语言字词;以及在该文字段落中以该目标语言字词转换该来源语言字词。
3.根据权利要求1所述的文字转换方法,其特征在于,其中根据所对应的各该些候选目标语言字词及其与该文字段落中该至少一前后字词所组成的该些关联字词的共同出现关联性,从该些候选目标语言字词中择一作为该目标语言字词的步骤包括利用一语言模型分别计算各该些候选目标语言字词及其与该至少一前后字词所组成的该些关联字词的共同出现关联性;从该些候选目标语言字词中,选择复数个较高共同出现关联性的候选目标语言字词, 其中该些较高共同出现关联性的候选目标语言字词为其所对应的共同出现关联性大于一第一门槛值;以及利用支持该目标语言与一参考语言的一字典,分别将各该些较高共同出现关联性的候选目标语言字词的每一字,翻译为一对应参考语言字,并从该字典及各该对应参考语言字, 判断各该些较高共同出现关联性的候选目标语言字词的各该对应参考语言字之间的关联性,以选择对应参考语言字的关联性最高的候选目标语言字词来作为该目标语言字词。
4.根据权利要求3所述的文字转换方法,其特征在于,其中判断各该对应参考语言字之间的关联性的步骤包括根据各该对应参考语言字在该字典中在复数个字义解释的一出现频率,以决定各该对应参考语言字之间的关联性。
5.根据权利要求2所述的文字转换方法,其特征在于,更包括下面步骤 通过训练至少一语料库以建立该语言模型。
6.根据权利要求1所述的文字转换方法,其特征在于,更包括下面步骤通过网络探勘以取得一来源语言数据集与一目标语言数据集;从该来源语言数据集与该目标语言数据集分别找出相互对应的一来源语言语料与一目标语言语料;利用该来源语言语料与该目标语言语料产生一平行语料库;以及依据该平行语料库扩充该字词对照表的内容。
7.一种文字转换系统,用以将符合一来源语言的一文字段落转换为一目标语言,其中该文字段落包括多个来源语言字词,其特征在于,该系统包括一储存单元,用以储存一字词对照表,该字词对照表记录该来源语言与该目标语言的字词对应关系;一分类单元,耦接该储存单元,对该文字段落进行一断词处理而得到多个断词结果,并比对该些断词结果与该字词对照表,以判断各该些来源语言字词属于一第一种类和一第二种类二者其中之一,其中属于该第一种类的来源语言字词仅对应单一目标语言字词,而属于该第二种类的来源语言字词对应复数个候选目标语言字词;一转换单元,耦接该储存单元与该分类单元,依照该字词对照表所记录的字词对应关系,在该文字段落中将属于该第一种类的来源语言字词转换成对应的该目标语言字词,并将属于该第二种类的来源语言字词,根据所对应的各该些候选目标语言字词及其与该文字段落至少一前后字词所组成的复数个关联字词的共同出现关联性,从该些候选目标语言字词中择一作为所要转换成的该目标语言字词;以及一输出单元,耦接该转换单元,用以输出已转换成该目标语言的该文字段落。
8.根据权利要求7所述的文字转换系统,其特征在于,其中,该系统更包含一输入单元,耦接该储存单元,以接收符合该来源语言的该文字段落。
9.根据权利要求7所述的文字转换系统,其特征在于,其中,该转换单元利用一语言模型分别计算各该些候选目标语言字词及其与该至少一前后字词所组成的该些关联字词的共同出现关联性;在该些候选目标语言字词中,选择对应最高的共同出现关联性的候选目标语言字词来作为该目标语言字词;以及在该文字段落中以该目标语言字词转换该来源语言字词。
10.根据权利要求7所述的文字转换系统,其特征在于,其中该转换单元利用一语言模型分别计算各该些候选目标语言字词及其与该至少一前后字词所组成的该些关联字词的共同出现关联性;从该些候选目标语言字词中选择复数个较高共同出现关联性的候选目标语言字词,其中该些较高共同出现关联性的候选目标语言字词系为其所对应的共同出现关联性大于一第一门槛值;以及,利用支持该目标语言与一参考语言的一字典,分别将各该些较高共同出现关联性的候选目标语言字词的每一字,翻译为一对应参考语言字,并从该字典及各该对应参考语言字,判断各该些较高共同出现关联性的候选目标语言字词的各该对应参考语言字之间的关联性,以选择对应参考语言字的关联性最高的候选目标语言字词来作为该目标语言字词。
11.根据权利要求10所述的文字转换系统,其特征在于,其中该转换单元更包括用以根据各该对应参考语言字在该字典中在复数个字义解释的一出现频率,以决定各该对应参考语言字之间的关联性。
12.根据权利要求7所述的文字转换系统,其特征在于,其中该储存单元更包括储存有至少一语料库,且该文字转换系统更包括有一语言模型建立单元,耦接该储存单元,用以通过训练该至少一语料库以建立该语言模型。
13.根据权利要求7所述的文字转换系统,其特征在于,更包括一双语字词对照表更新单元,耦接该储存单元,通过网络探勘以取得一来源语言数据集与一目标语言数据集;从该来源语言数据集与该目标语言数据集分别找出相互对应的一来源语言语料与一目标语言语料;利用该来源语言语料与该目标语言语料产生一平行语料库;以及,依据该平行语料库扩充该字词对照表的内容。
14.一种文字转换方法,用以进行一来源语言及一目标语言的文字转换,其特征在于, 该方法包括从符合该来源语言的一文字段落中取得一来源语言字词;提供一字词对照表,该字词对照表记录该来源语言与该目标语言的字词对应关系,且该来源语言字词对应至少一个候选目标语言字词;以及根据所对应的各该至少一候选目标语言字词及其与该文字段落中至少一前后字词所组成的复数个关联字词,分别在复数个语言数据源的共同出现关联性,从该至少一候选目标语言字词中择一作为所要转换成的一目标语言字词。
15.根据权利要求14所述的文字转换方法,其特征在于,其中,根据所对应的各该至少一候选目标语言字词及其与该至少一前后字词所组成的该些关联字词分别在该些语言数据源的共同出现关联性,从该至少一候选目标语言字词中择一作为该目标语言字词的步骤包括利用一语言模型分别计算各该至少一候选目标语言字词及其与该至少一前后字词所组成的该些关联字词,分别在该些语言数据源的共同出现关联性;在该至少一候选目标语言字词中,选择对应最高的共同出现关联性的候选目标语言字词来作为该目标语言字词;以及在该文字段落中以该目标语言字词转换该来源语言字词。
16.根据权利要求14所述的文字转换方法,其特征在于,其中,该些语言数据源包括网页、网络文章、以及语言数据库。
17.一种文字转换系统,用以进行一来源语言及一目标语言的文字转换,其特征在于, 该系统包括一输入单元,从符合该来源语言的一文字段落中取得一来源语言字词;一储存单元,耦接该输入单元,提供一字词对照表,该字词对照表记录该来源语言与该目标语言的字词对应关系,且该来源语言字词对应至少一个候选目标语言字词;一转换单元,耦接该输入单元和该储存单元,根据所对应的各该至少一候选目标语言字词及其与该文字段落中至少一前后字词所组成的复数个关联字词,分别在复数个语言数据源的共同出现关联性,从该至少一候选目标语言字词中择一作为所要转换成的一目标语言字词;以及一输出单元,耦接该转换单元,用以输出已转换成该目标语言的该文字段落。
18.根据权利要求17所述的文字转换系统,其特征在于,其中,该转换单元利用一语言模型分别计算各该至少一候选目标语言字词及其与该至少一前后字词所组成的该些关联字词,分别在该些语言数据源的该共同出现关联性;在该至少一候选目标语言字词中,选择对应最高的共同出现关联性的候选目标语言字词来作为该目标语言字词;以及,在该文字段落中以该目标语言字词转换该来源语言字词。
19.根据权利要求17所述的文字转换系统,其特征在于,其中,该些语言数据源包括网页、网络文章、以及语言数据库。
20.根据权利要求17所述的文字转换系统,其特征在于,其中,该系统更包括一通讯单元,耦接该转换单元,用以通过通讯网络链接至该些语言数据源。
全文摘要
本发明提供一种文字转换方法与系统。此系统包括储存单元、分类单元、和转换单元,储存单元储存来源语言与目标语言的字词对应关系的字词对照表;分类单元对符合来源语言的文字段落做断词处理得到多个断词结果,比对断词结果与字词对照表以判断文字段落中各来源语言字词属于第一或第二种类,第一种类的来源语言字词对应一目标语言字词,第二种类的来源语言字词对应多候选目标语言字词;转换单元依照字词对照表将第一种类的来源语言字词转换成目标语言字词,对第二种类的来源语言字词则根据对应的各候选目标语言字词及其与前后字词所组成的数个关联字词的共同出现关联性,从候选目标语言字词择一作为目标语言字词。
文档编号G06F17/28GK102486770SQ201010576958
公开日2012年6月6日 申请日期2010年12月2日 优先权日2010年12月2日
发明者卢家庆, 吴世弘, 杨秉哲, 林倩慧, 谢文泰, 谷圳 申请人:财团法人资讯工业策进会
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1