利用统计学方法对汉字的本国语读音串转换系统及其方法

文档序号:6605093阅读:130来源:国知局
专利名称:利用统计学方法对汉字的本国语读音串转换系统及其方法
技术领域
本发明涉及对汉字的本国语读音串转换系统及其方法,尤其涉及利用与从汉字转 换为本国语相关的统计数据的对汉字的本国语读音串转换系统及其方法。
背景技术
作为汉字文化圈的亚洲各国在各式各样的文件中使用汉字。而且,在不属于汉字 文化圈的美国等国家也在有限的范围内使用汉字。特别是,在利用电脑的程序中大量使用 包含汉字的文本文件。但是,经常发生针对不熟悉汉字的用户,需要在word处理程序中将 汉字转换为本国语读音或者还需要在智能化信息检索中检索以汉字输入的检索疑问的情 况。例如,在韩国,旧时的报纸、法律文件等较频繁地用汉字标记。但是,韩国人在检索 旧报纸或者法律文件时,大多数情况下不是直接输入汉字而搜索汉字,而是输入汉字的韩 文读音进行检索。例如输入“吾钟”而检索“音乐”。在日本,文件中出现汉字的频率相对韩国更高。但是,日本人大多数情况下以音读 假名(yomigana)代替汉字而进行检索。例如,输入< ”而检索“音乐”。相对其他亚洲国家,在中国的文件中汉字出现的频率相当高。因此,中国人在大部 分情况下直接输入汉字本身而检索该汉字。但是,例外的是在中国还存在以拼音输入疑问 而检索汉字的情况。例如,以“kekoukele”这一疑问语检索“可口可乐”。美国等英语国家在文件中使用汉字的概率非常小。但是,将文件中使用的汉字转 换为英语进行检索则容易检索出相关文件。现有技术中,将汉字转换为本国语的方法有利用预先设定的转换表格的方式。艮口, 将对应特定汉字的本国语预先保存于转换表格,当用户输入汉字时,仅以指示方式给出对 应的本国语。特别是,用户们并没有意识到多音字的存在和每个多音字分别具有不同的汉字代 码值,而直接制作文件或输入检索疑问。多音字是指例如读音方式为“计,针,碎,H勺 多音字“乐”等具有两种以上读音方式的汉字。euckr或Unicode中为多音字设定了多种代 码值。具体为,在Unicode中对于每个读音都设定了不同的代码值,例如乐计0XF914)、 乐(辞0XF95C)、乐(砷0x6A02)、乐(立0xF9BF)。因此,当对于一个汉字能够转换的本国语读音数量为1个以上时,最终转换的本 国语读音也是各式各样,从而常常会导出与输入时的意图完全没有关系的读音。由此,需要 正确反应用户原本的意图,并导出符合文脉及本国语拼写法的本国语读音串。而且,因多音字的存在,文件和疑问中存在具有多种代码值的汉字,由此经常发生 不检索的情况。例如,假设4个文件分别为乐园(乐=0xF95C)、乐园(乐=0xF914)、乐园 (乐=0x6A02)、乐园(乐=0xF9BF)。此时,当用户输入对应“0xF95C”的“乐园”而检索文 件时,上述四个文件中只能检索到一个。因此,有必要将利用多种代码值表示的多音汉字转 换为一个正规化汉字而提高检索再现率。
4
而且,当在韩国完全不会考虑文脉及首音法则等韩文拼写法而从汉字转换为韩语 读音时,具有导出其他意外的结果的问题点。例如,将“来日”转换为"Sfl省”。由于每个国 家都具有固有的拼写法,因此需要考虑各国固有的拼写法转换本国语读音。为解决上述问题,需要提出更准确的从汉字转换为本国语读音的方法。

发明内容
本发明利用与汉字-本国语读音串转换相关的特征的统计数据而进行对汉字文 字串的本国语读音串转换,从而提供提升最终导出的本国语读音串的准确度的系统及方 法。本发明提供对于在现有的转换表格方式中无法处理的多音字,通过统计数据能够 转换为符合文脉及本国语拼写法的本国语读音串的系统及方法。本发明提供通过汉字代码的正规化处理,即使输入代码不准确的汉字也能够转换 成准确的本国语读音串的系统及方法。本发明提供通过统计数据对汉字文字串准确地反映出韩文中的首音法则等特殊 的语法,由此提高转换的本国语读音串的可靠性的系统及其方法。根据本发明实施例的本国语读音转换系统包括对汉字文字提取本国语读音的本 国语读音提取单元;利用与汉字-本国语读音转换相关的特征(feature)的统计数据而确 定对所述汉字文字的统计数据的统计数据确定单元;以及利用所述提取的本国语读音和所 述确定的统计数据对所述汉字文字转换为最佳的本国语读音的本国语读音转换单元。根据本发明实施例的本国语读音转换系统还包括对于包含字形相同、代码不同的 多音汉字的汉字文字,正规化所述汉字文字的代码的代码正规化部。根据本发明实施例的本国语读音转换方法包括对汉字的文字提取本国语读音的 步骤;利用与汉字-本国语读音转换相关的特征(feature)的统计数据而确定对所述汉字 文字的统计数据的步骤;以及利用所述提取的本国语读音和所述确定的统计数据对所述汉 字文字转换为最佳的本国语读音的步骤。根据本发明,利用与汉字-本国语读音串转换相关的特征的统计数据而将汉字文 字串转换为本国语读音串,最终能够提高导出的本国语读音串的准确性。根据本发明,对于现有的转换表格方式无法处理的多音字,也可以通过统计数据 而转换为符合文脉及本国语拼写法的本国语读音串。根据本发明,通过汉字代码正规化处理,当输入代码不准确的汉字时,也能够转换 为正确的本国语读音串。根据本发明,通过统计数据对汉字文字串能够准确反映如韩文首音法则等特殊语 法,从而能够提高转换的本国语读音串的可靠性。


图1为通过根据本发明实施例的本国语读音串转换系统将汉字文字串转换为本 国语读音串的整个过程的示意图;图2为示出根据本发明实施例的本国语读音串转换系统的整体组成的方框图;图3为说明根据本发明实施例的对汉字文字串进行正规化处理的过程的示意图4为根据本发明实施例的汉字_本国语读音串表格的示例图;图5为示出根据本发明实施例将汉字文字串转换为本国语读音串的过程的示意 图;图6为根据本发明实施例的本国语读音串转换方法的整个过程的流程图。主要符号说明100为本国语读音串转换系统,101-1 101-n为用户,102-1 102-n为本国语读音,103为转换示例。
具体实施例方式以下,参照附图的内容详细说明本发明实施例。但是,本发明并不局限于实施例。 各个附图中相同的符号表示相同的部件。本国语读音串转换方法能够基于本国语读音串系 统执行。图1为通过根据本发明实施例的本国语读音串转换系统将汉字文字串转换为本 国语读音串的整个过程的示意图。当用户101-1 101-n输入由至少一个汉字构成的汉字文字串时,本国语读音串 转换系统100能够将汉字文字串转换为本国语读音串102-1 102-n。可以根据本国语读 音串转换系统100所提供的文件的语言,确定不同的本国语。例如,当本国语读音串转换系 统100提供韩文文件时,本国语被确定为韩文。此时,汉字文字串可以由至少一个汉字构成。利用计算机的程序(PC用程序、服务 器用程序、网页用程序等)中,对于包含汉字的文本文件,常常需要将所包含的汉字转换为 本国语。例如,当用户输入“情报检索”这一文字时,本国语读音串转换系统100能够将所 述汉字文字串转换为韩文读音串102-1 102-n “項旦召确”。而且,当用户将汉字文字串 作为检索语句输入时,由于检索引擎按照所输入的汉字文字串直接检索,则检索结果就会 较少,因此本国语读音串转换系统100将汉字文字串转换为本国语读音串102-1 102-n, 以使检索引擎能够导出更加丰富的检索结果。而且,当特定文本文件中包含汉字文字串时,本国语转换系统100在相关汉字文 字串所处的位置标注对应所述汉字文字串的本国语读音串102-1 102-n,以使用户能够 更加方便地读出文本文件。例如,可从图1的转换示例103看出,当文本文件包含“乐山乐 水”这一汉字文字串时,本国语读音串转换系统100将上述汉字文字串转换成“立社且午” 这一韩文读音。根据本发明实施例的本国语读音串转换系统100利用对将给出的汉字文字串转 换为本国语读音串的数据进行统计学分析的数据,从而能够提供更加准确的本国语读音 串。而且,本国语读音串转换系统100提供符合文脉及本国语拼写法的本国语读音串,由此 能够确保转换为本国语读音串的结果的可靠性。图2为示出根据本发明实施例的本国语读音串转换系统的整体组成的方框图。参照图2可知,本国语读音串转换系统100包含代码正规化单元201 ;本国语读 音串提取单元202 ;统计数据确定单元203 ;以及本国语读音串转换单元204。代码正规化单元201可以对包含字形相同、代码不同的多音汉字的汉字文字串 205进行汉字文字串205的代码的正规化。例如,代码正规化单元201可以将多音汉字转换为代表汉字而对汉字文字串205代码进行正规化。此时,代码正规化单元201利用汉字正 规化数据207对汉字文字串205代码进行正规化。结果,可以导出通过代码正规化单元201而正规化的汉字文字串210。但是,当汉 字文字串205不包括多音字汉字时,代码正规化单元201不工作。代码正规化单元201的 具体工作过程,将结合图3详细说明。本国语读音串提取单元202利用汉字-本国语读音串表格208对汉字文字串提取 本国语读音串。此时,汉字-本国语读音串表格208可以由对多个汉字中的每个汉字的本 国语的读音串对照构成。即,根据汉字-本国语读音串表格208,每个汉字都有对应的本国
语读音。但是,还存在同一个汉字具有一个以上本国语读音的情况,此时应根据文脉及本 国语拼写法对本国语读音串进行不同的转换。对此,根据本发明实施例的本国语读音串转 换系统100能够通过从汉字转换为本国语的统计数据,提高所转换的本国语读音串的准确度。统计数据确定单元203利用与汉字-本国语读音串转换相关的特征(feature)的 统计数据确定对汉字文字串的统计数据。例如,统计数据确定单元203通过利用从汉字和本国语一起表示的数据提取的、 且对应于对汉字-本国语转换有意义的特征的统计数据209,确定对汉字文字串205的统 计数据。此时,统计数据确定单元203可以与汉字文字串205相关联地确定本国语读音串 206音节的音节概率和转移概率。S卩,根据本发明实施例,利用将汉字转换为本国语的多种统计数据,并根据情况准 确地确定汉字相同、但具有不同读音的本国语。利用统计数据的方法将结合图5详细说明。本国语读音串转换单元204利用提取的本国语读音串和确定的统计数据将汉字 文字串205转换为最佳的本国语读音串206。例如,本国语读音串转换单元204可以确定针 对汉字文字串205所要转换的本国语读音串中概率最高的本国语读音串206。此时,本国语读音串转换单元204可以基于隐马尔可夫模型(Hidden Markov Model)将汉字文字串205转换为本国语读音串206。特别是,本国语读音串转换部204对 于反复处理的汉字文字串使用维特比(viterbi)算法将汉字文字串205转换为表示最佳路 径的本国语读音串206。图3为说明根据本发明实施例的对汉字文字串进行正规化处理的过程的示意图。即使不将汉字文字串转换为本国语读音串,由于多音汉字导致在文件和疑问中存 在具有多种代码值的单词,从而可能发生无法检索的情况。对此,本国语读音串转换系统 100对于包含字形相同、代码不同的多音汉字的汉字文字串进行汉字文字串代码的正规化处理。例如,对于汉字“乐” 301可以导出字形相同,但读音不同的四个不同的汉字列表 302。这种汉字“乐”301输入成乐(1, 0xF9BF)时,可能不会导出如音乐(砷0x6A02 )303-1、娱乐(针OxF95FC)303-2以及乐园(对:0xF914 )303-3等检索结果303。由 此,为了解决这种问题,对于包含多音汉字的汉字文字串,本国语读音串转换系统可执行正 规化处理。此时,多音字在每个国家的本国语读音可能会不同。例如,对于“乐”韩文读音为“计,辞,呌,立”。但是对于“乐”日本的读音为“力? < (音楽,耔九力? < )、6 < (h < 太、)”,中国的读音方式为“yue”以及“le”。例如,本国语读音串转换系统可以将多音汉字转换为代表汉字而进行汉字文字串 代码的正规化处理。此时,本国语读音串转换系统可利用通过汉字辞典建立的正规化数据 对汉字文字进行正规化。即,即使用户输入“乐园(针0xF95FC),本国语读音串转换系统 也会对作为多音汉字的“乐”进行正规化处理而转换为代表汉字。由此,本国语读音串转换 系统就能够导出经正规化的汉字文字串305。根据本发明实施例的本国语读音串转换系统通过汉字文字的正规化过程,可解决 统计模型中的数据稀少问题。而且,本国语读音串转换系统还能够对使用不符合文脉及本 国语拼写法的应用代码的汉字进行本国语转换。图4为根据本发明实施例的汉字_本国语读音串表格的示例图。图4尤其表示汉 字-韩文读音串表格的示例。图4中说明的内容还可以类似地适用于其他本国语。根据本发明实施例的汉字-韩文读音串表格可以由对应多个汉字中的每一个汉 字的韩文读音串对照构成。特别是,汉字-韩文读音串表格还可以适用于一个汉字有多个 韩文读音的状况。由图4可知,“乐”的韩文读音可以是“计,辞,計,立”。例如,用户所输入的汉字文字中包含汉字“宁”时,本国语读音串转换系统利用汉 字_韩文读音串表格可以提取出“宁”的韩文读音串“巧, 芎,0J ”。而且,对于汉字文字串“乐”可以构成日语读音为“力5 <、6 < ”的汉字-日语读音 串表格。而且,对于汉字文字串“乐”可以构成中文读音(拼音)为“yue,le)的汉字-中 文读音串表格。图5为示出根据本发明实施例将汉字文字串转换为本国语读音串的过程的示意 图。参照图5,假设输入汉字文字串“喜喜乐乐”。此时,本国语读音串转换系统可以利 用汉字_本国语读音串表格将构成汉字文字串的多个汉字转换为本国语读音。例如,汉字 “喜”可以转换为韩文读音“计,针,砷,立”。本国语读音串转换系统利用与汉字-本国语读音串转换相关的特征的统计数据, 确定针对汉字文字串的统计数据。例如,本国语读音串转换系统从汉字和本国语一起表示 的数据中提取与对汉字-本国语转换有意义的特征对应的统计数据,并利用该统计数据确 定对汉字文字的统计数据。根据本发明的实施例,对汉字-韩文转换有意义的特征如下。特征可以根据每个 国家的语法及拼写法变更。-当前韩文读音与当前汉字一起出现的概率(例如,“乐”转换为“且”的概率)。-当前韩文读音与其前面的韩文读音一起出现的概率(例如,“丑”前面出现"立” 的概率)。-当前汉字与其前面的韩文读音一起出现的概率(例如,“山”的前面出现“立”的 概率)。-当前的韩文读音与其前面的前面的韩文读音一起出现的概率(例如,"1”的前 面的前面出现“盘”的概率)。
_当前的汉字与其前面的前面的韩文读音一起出现的概率(例如,“乐”的前面的 前面出现“立”的概率)。-当前的汉字为“不”,而且之后的韩文读音以“1,C ”开始时,不”读音为“早”的概率。-当前的汉字为“来”,而且当前的位置为词首时,“来”读音为“4”的概率(首音 法则)。-当前的汉字为“来”,而且当前的位置为词尾时,“来”读音为“明”的概率。上述特征的概率可以利用本国语和汉字一起出现的博客、文件、网页等的数据,以 统计方法确定。特别是,韩文读音中存在多种首音法则,其例外的状况也很多,因此通过利 用从汉字和韩文一起出现的数据中提取的、与对汉字_韩文转换有意义的特征对应的统计 数据,能够提高所转换的韩文读音的准确度。而且,在韩国以外的其他国家也存在类似于韩 国的首音法则的固有拼写法,因此反映这种固有拼写法的特征,可以导出符合各个国家拼 写法的统计数据。例如,韩文读音的首音法则及例外的情况如下,而且这种状况也可作为适用于根 据本发明实施例的统计数据的特征。-具有《L,,初声的韩文读音出现在词首时,读音为"0”(例如,叫;^ (女子)、 短对(年岁)、且仝(尿素)、勻喵(匿名)、···)。-具有“ξ,,初声的韩文读音出现在词首时,读音为“O”(例如,呀召(良心)、 砷4 (历史)、叫到(礼仪)、普 (龙宫)、异帮(流行)、···)。-具有“Ξ”初声的韩文读音出现在词首时,读音为“ι,,(例如,砷省(乐园)、 汕省(来曰)、土勻(老人)、H噌(雷声)、千碎(楼阁)、···)。-派生词和合成词中存在首音法则(语节内部存在词汇的分界)(例如,落花流水 (计許弁午)、修学旅行(午岢爿呦)、新女性(4。i項)...)。_首音法则的例外状况(例如,干吾呀(量)/王吾守(量)、岳音(律) /嗜曼(律)、迪省(列)/增舊(列)、司芒(论)/互芒(论))。根据本发明的实施例的本国语读音串转换系统可以对确定汉字文字 串的统计数据。例如,本国语读音串转换系统可以与汉字文字串相关联地计算 对本国语读音串的音节的音节概率和转移概率,由此确定对汉字文字串的统计 数据。例如,参照图5,针对汉字文字串“喜喜乐乐”,转换为韩文读音串的“司” 、‘背、辞’针,立”、"M",针,畔,立”可以构成各种情况下的读音。此时,可以将对于汉字文字串中的作为某一音节的汉字,转换为本国语的概率定 义为音节概率。例如,可以将对于汉字“喜”转换为韩文读音“司”的概率,定义为汉字“喜” 的音节概率。并且,对于汉字“乐”转换为韩文读音“计”的概率,可以定义为对汉字“乐”的 音节概率。图5中,作为根据汉字文字串决定的统计数据的音节概率可以分别确定为a、b、 c、d0而且,随着状态的转变,对于特定汉字的本国语读音,下一个汉字可能出现的本国 语读音的概率可以定义为转移概率。例如,汉字“喜”的韩文读音为“司“,在汉字“喜”的后面记载的汉字“喜”的韩文读音变成“萄”的概率可以定义为记载于后面的汉字“喜”的转移 概率。而且,汉字“喜”的韩文读音为“詞”,记载于汉字“喜”后面的汉字“乐”的韩文读音 为“计”的概率可以定义为记载于后面的汉字“乐”的转移概率。图5中,对于由汉字文字串 决定的统计数据的转移概率可以确定为χ、y、ζ。由此,本国语读音串转换系统利用提取的本国语读音串和所述确定的统计数据将 汉字文字串转换为最佳的本国语读音串。例如,本国语读音串转换系统利用作为统计数据 的音节概率和转移概率确定在汉字文字串所要转换的本国语读音串中概率最大的本国语 读音串。此时,本国语读音串转换系统基于隐马尔可夫模型(Hidden Markov Model)将汉 字文字串转换为本国语读音串。此时,在韩国,汉字可以转换为韩文读音串。而且,在日本,汉字可转换为假名(J 力5 ^ yomigana)、(么>9力5 & furigana)读音串。在中国,汉字可以转换为拼音(pinyin) 读音串。此时,拼音是将中文读音以罗马字母标记的,可以应用为电脑输入或读音记号。而且,例如美国或者英国等英语国家,汉字可以转换为罗马字(日本语的罗马字 标记)或者拼音(中文的罗马字标记)。例如,“I like寿司”会变成罗马字标记I like sushi,“刘备 visited” 变成拼音 “Liu Bei visited”。例如,本国语读音串转换系统可以通过根据下述数学式1的隐马尔可夫模型将汉 字文字串转换为本国语读音串。数学式1r(C) = arg max P{K\C)
K-arg max P(^C)
KP(K,C) = P(k]n,cXn)= P{c])·P(k\)·P(c2Ic1,^).P(k2|c]>2,k})·P(c32,■ P{k2 ’3 人2)..…P(cn 丨 卜丨,k,n_x) · Pikn |c 丨’ , k]n_x)
η ~ Π Pici,众卜,)· Piki\Cl_LJ, k^ ^ )
/=I此时,C为汉字文字串,K为本国语读音串。而
/=1
率,P (ki I Ci^ki-L, H)为转移概率。由此,根据汉字文字串最终转换出的本国语读音串可以根据下述数学式2确定。数学式2
ηarg max Π P{ct 2,“,kx_2._x) · P(k{ , kt_2)
纥,, 广1S卩,本国语读音串转换系统对于给出的汉字文字串可以确定组合音节概率和转移 概率的结果为最大的本国语读音。此时,本国语读音串转换系统对于反复处理的部分采用 维特比(viterbi)算法,对汉字文字串转换为表示最佳路径的本国语读音。经过上述过程,汉字文字“喜喜乐乐”的本国语读音串可以确定为“司司计计”。
,,‘,,,__,)且,为音节概
10
图6为根据本发明实施例的本国语读音串转换方法的整个过程的流程图。本国语读音串转换系统可以对汉字文字串的代码进行正规化处理S601。例如,本 国语读音串转换系统可以对包含字形相同,但代码不同的多音汉字的汉字文字串进行汉字 文字串的代码的正规化。此时,本国语读音串转换系统利用经过正规化处理后的数据将多 音汉字转换为代表汉字,以对汉字文字串的代码进行正规化处理。在此,正规化数据可根据 汉字辞典自动地建立。本国语读音串转换系统针对汉字文字串提取本国语读音串S602。例如,本国语读 音串转换系统利用将多个汉字中的每个汉字与本国语读音对应起来的汉字-本国语读音 串表格,针对汉字文字串提取本国语读音串。此时,若汉字文字串经过正规化过程,则本国 语读音串转换系统针对正规化的汉字文字串提取本国语读音串。本国语读音串转换系统利用与汉字-本国语读音串转换有关的特征(feature)而 确定针对汉字文字串的统计数据(S603)。例如,本国语读音串转换系统从汉字和本国语一起表示的数据中提取的、且对应 于对汉字-本国语转换有意义的特征的统计数据,确定针对汉字文字的统计数据。此时,本 国语读音串转换系统可以与汉字文字串相关联地以统计数据确定对本国语读音串的音节 的音节概率和转移概率。本国语读音串转换系统利用提取的本国语读音串和确定的统计数据,针对汉字文 字串转换为最佳的本国语读音串(S604)。例如,本国语读音串转换系统针对汉字文字串所 要转换的本国语读音串,可确定出概率最大的本国语读音串。此时,本国语读音串转换系统基于隐马尔可夫模型(Hidden Markov Model)将汉 字文字串转换为本国语读音串。特别是,本国语读音串转换系统对于反复处理的部分使用 维特比(viterbi)算法,可以将汉字文字串转换为表示最佳路径的本国语读音串。图6中没有说明的事项可以参照图1至图5的说明。而且,根据本发明实施例的针对汉字的韩文读音串转换方法包含为执行通过计算 机实现的动作而具有程序命令的计算机可读介质。所述计算机可读介质可包含单独或组合 的程序命令、数据文件、数据结构等。所述介质中的程序命令可以是为本发明特别设计的或 者是计算机软件领域的技术人员所公知的。计算机可读记录介质包括存储程序命令并执行 的硬件装置,例如硬盘、磁盘及磁带等磁性介质(magnetic media)、⑶-ROM、DVD等的光记 录介质(optical media)、软磁盘 floptical media)等的磁性-光介质(magneto-optical media)以及R0M、RAM、闪存等。程序命令中不仅包含由编译器制作的机械代码,还包括使用 解译器等在计算机上能够执行的高级语言码。以上说明是围绕本发明的有限实施例与附图进行的,但本发明并不局限于所述实 施例,本领域中具有普通知识的技术人员可以根据上述记载进行各种变更及修改。因此,本 发明的思想应依照权利要求范围理解,而对其进行的等同或等价的变形都属于本发明的思 想范围之内。
权利要求
一种本国语读音串转换系统,其特征在于包括本国语读音串提取单元,针对汉字文字串提取本国语读音串;统计数据确定单元,利用与汉字 本国语读音串转换相关的特征的统计数据,确定对所述汉字文字串的统计数据;以及本国语读音串转换单元,利用提取的所述本国语读音串和确定的所述统计数据,将所述汉字文字串转换为最佳的本国语读音串。
2.根据权利要求1所述的本国语读音串转换系统,其特征在于所述本国语读音串提取 单元利用本国语读音串表格提取本国语读音串,所述本国语读音串表格由对多个汉字中的 每个汉字的本国语读音串对照构成。
3.根据权利要求1所述的本国语读音串转换系统,其特征在于还包括代码正规化单 元,对于具有字形相同、代码不同的多音汉字的汉字文字串进行所述汉字文字串的代码的 正规化处理;所述本国语读音串提取单元针对经代码正规化处理的所述汉字文字串提取本国语读曰甲O
4.根据权利要求3所述的本国语读音串转换系统,其特征在于所述代码正规化单元通 过将所述多音汉字转换为代表汉字而进行所述汉字文字串的代码的正规化处理。
5.根据权利要求1所述的本国语读音串转换系统,其特征在于所述统计数据确定单元 利用从由汉字和本国语一起表示的数据中提取的、且对应于对汉字-本国语转换有意义的 特征的统计数据,确定针对所述汉字文字串的统计数据。
6.根据权利要求1所述的本国语读音串转换系统,其特征在于所述统计数据确定单元 用于与所述汉字文字串相关联地确定所述本国语读音串音节的音节概率和转移概率。
7.根据权利要求1所述的本国语读音串转换系统,其特征在于所述本国语读音转换单 元针对所述汉字文字串所要转换的本国语读音串,确定概率最大的本国语读音串。
8.根据权利要求7所述的本国语读音串转换系统,其特征在于所述本国语读音串转换 单元基于隐马尔可夫模型将所述汉字文字串转换为本国语读音串。
9.根据权利要求8所述的本国语读音串转换系统,其特征在于所述本国语读音串转换 单元对于反复处理的部分采用维特比算法,将所述汉字文字串转换为表示最佳路径的本国 语读音串。
10.一种本国语读音串转换方法,其特征在于包括对汉字文字串提取本国语读音串的步骤;利用与汉字-本国语读音串转换相关的特征的统计数据,确定对所述汉字文字串的统 计数据的步骤;以及利用提取的所述本国语读音串和确定的所述统计数据,将所述汉字文字串转换为最佳 的本国语读音串的步骤。
11.根据权利要求10所述的本国语读音串转换方法,其特征在于所述本国语读音串提 取步骤中,利用本国语读音串表格提取本国语读音串,所述本国语读音串表格由对多个汉 字中的每个汉字的本国语读音串对照构成。
12.根据权利要求10所述的本国语读音串转换方法,其特征在于还包括对于具有字 形相同、代码不同的多音汉字的汉字文字串进行所述汉字文字串的代码的正规化处理的步2骤,对所述汉字文字串提取本国语读音串的步骤中,针对经代码正规化处理的所述汉字文 字串提取本国语读音串。
13.根据权利要求12所述的本国语读音串转换方法,其特征在于对所述汉字文字串的 代码进行正规化处理的步骤中,通过将所述多音汉字转换为代表汉字而进行所述汉字文字 串的代码的正规化处理。
14.根据权利要求10所述的本国语读音串转换方法,其特征在于确定对所述汉字文字 串的统计数据的步骤中,利用从由汉字和本国语一起表示的数据中提取的、且对应于对汉 字-本国语转换有意义的特征的统计数据,确定针对所述汉字文字串的统计数据。
15.根据权利要求10所述的本国语读音串转换方法,其特征在于确定所述汉字文字串 的统计数据的步骤中,与所述汉字文字串相关联地确定所述本国语读音串的音节的音节概 率和转移概率。
16.根据权利要求10所述的本国语读音串转换方法,其特征在于将所述汉字文字串转 换为最佳的本国语读音串的步骤中,针对所述汉字文字串所要转换的本国语读音串,确定 概率最大的本国语读音串。
17.根据权利要求16所述的本国语读音串转换方法,其特征在于将所述汉字文字串转 换为最佳的本国语读音串的步骤中,基于隐马尔可夫模型对所述汉字文字串转换为本国语 读音串。
18.根据权利要求17所述的本国语读音串转换方法,其特征在于将所述汉字文字串转 换为最佳的本国语读音串的步骤中,对于反复处理的部分采用维特比算法,将所述汉字文 字串转换为表示最佳路径的本国语读音串。
全文摘要
本发明涉及一种利用统计学方法对汉字的本国语读音串转换系统及其方法。本国语读音转换系统包括本国语读音串提取单元,针对汉字文字串提取本国语读音串;统计数据确定单元,利用与汉字-本国语读音串转换相关的特征(feature)的统计数据,确定对所述汉字文字串的统计数据;以及本国语读音串转换单元,利用提取的所述本国语读音串和确定的所述统计数据,对所述汉字文字串转换为最佳的本国语读音串。
文档编号G06F17/30GK101950285SQ20101021500
公开日2011年1月19日 申请日期2010年7月1日 优先权日2009年7月8日
发明者徐熙喆, 李呟亭, 李志惠, 金泰壹 申请人:Nhn株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1