一种基于用户语言背景的文本转换装置的制作方法

文档序号:6578821阅读:101来源:国知局
专利名称:一种基于用户语言背景的文本转换装置的制作方法
技术领域
本发明涉及语言文本的处理技术,特别是涉及一种基于用户语言背景的文本转换
直O
背景技术
在日常应用中存在着大量的非规范型文本(非正常文字文本),例如日期、时间、 电话号码、外文等,还包括一些由各种符号等混合形态组成的非规范型文本。非规范型文本 非常便于人们理解与输入,但其对于计算机类电子处理装置来说却难于进行处理,像电子 词典、PDA (个人数字助理)、语言学习机等电子处理装置在遇到此类的文本时,通常先将非 规范型文本转化为规范文本,然后再按照正常的文本进行处理。同时对于语音合成发音系 统来说,由于非规范文本无法直接发音,也必须首先转换成规范型文本。但在实际应用中,这种转换不具有一一对应特性。一种非规范文本可能对应多种 规范文本。在很多情况下,根据人们的语言背景、个人习惯等非规范文本可以具有不同的转 换形式。在这种一对多的情况下,用户希望计算机可以根据自身的语言特点自动找到最正 确的转换。在另外一些情况下,对于很多非母语的语言学习用户,在语言学习过程中用户希 望能够获得最佳的规范型文本转换,以便达到学习的目的。在实际应用中,存在很多单一的 转换答案,虽然通过类似电子词典的装置可以获得正确的转换形式,但是却很难给读者带 来非常深刻的记忆。除此之外,在一句话中可能存在多种可以转换的形式,但是在这些转换 形式中某些形式容易出错,而有一些却相对不容易出错。在这种情况下,用户希望能够根据 易转换错误的程度得到提醒。同时由于不同国家的用户的转换习惯不同,在一个国家中很容易正确的转换形式 对另一个国家的用户来说可能是非常困难的。这种情况常发生在母语背景不同的用户身 上。同样的现象也常常出现在同一个国家的不同地区,由于一个国家内具有不同的方言,一 个地区很容易正确转换形式对另一个地区的用户来说也可能是非常困难的。在这些情况下 就需要针对不同国家、不同地区的用户给予必要的提醒信息。在现有的非规范文本转换技术中,存在着“使用上下文无关文法的文本规范化方 法”,其对通过语音识别器输出的文本进行规范化,使用上下文无关文法对文本进行语法分 析,并使规范化简单易行。虽然上述方法涉及到文本规范化的方法,但是仅仅是将非规范型 的文本转化为规范型文本,并不能根据用户的语言特点进行自动选择,更不能给用户提供 相应的提醒内容。综上所述,需要有一种方法及装置根据用户的语言背景进行非规范文本与规范文 本之间的转换,同时提醒用户易转换错的内容。

发明内容
本发明实施例的目的是提供一种基于用户语言背景的文本转换装置,能根据用户的语言特点选择出最佳的转换结果。为了实现上述目的,一方面,提供了一种基于用户语言背景的文本转换装置,包 括用于获取输入文本和用户语言背景的输入单元;存储字典和多个转换语料库的存储单元;利用所述字典对所述输入文本进行分词并找到分词结果中的非规范文本的分析 单元;根据所述输入单元获取的用户语言背景从所述多个转换语料库中取得对应所述 用户语言背景的适用语料库的选择单元;根据所述适用语料库将所述非规范文本转换为规范文本的转换单元;输出所述规范文本的输出单元。优选地,上述的文本转换装置中,所述多个转换语料库包括通用转换语料库和母 语习惯转换语料库。优选地,上述的文本转换装置中,所述存储单元中还存储有多个易转换错语料库;所述选择单元,还用于根据用户 的选择从所述多个易转换错语料库中取得适用用户语言背景的适用易转换错语料库;并且,所述文本转换装置还包括强调分析单元,用于根据所述分词字典对输入的非规范文本进行分析,得到强调 分析结果;强调结果单元,用于根据所述适用易转换错语料库和所述强调分析结果,对所述 非规范文本进行转换,得到强调结果;所述输出单元,还用于输出所述强调结果。优选地,上述的文本转换装置中,所述多个转换语料库还包括用户个人习惯转换语料库;所述多个易转换错语料库包括通用易转换错语料库、用户个人习惯易转换错语 料库和/或母语习惯易转换错语料库;所述规范文本为多个,并且所述输出单元对所述多个规范文本进行排序输出;所述强调结果为多个,并且所述输出单元对所述多个强调结果进行排序输出。优选地,上述的文本转换装置中,所述输出单元包括扬声器,所述扬声器用于对 所述规范文本进行正常声调的输出,对所述强调结果进行异常声调的输出,所述异常声调 包括加重和减慢。优选地,上述的文本转换装置中,所述输出单元包括显示器,所述显示器用于显示 所述规范文本和所述强调结果。优选地,上述的文本转换装置中,所述存储单元能够在不改变主系统的条件下加载或卸载所述多个转换语料库和 所述多个易转换错语料库。优选地,上述的文本转换装置中,所述通用转换语料库具有从通用语言背景中提取的规则或统计信息;所述用户个人习惯转换语料库具有从用户个人习惯中提取的规则或统计信息;
所述母语习惯转换语料库具有从母语习惯背景中提取的规则或统计信息。本发明实施例至少存在以下技术效果1)本发明可以根据用户的语言背景将非规范化文本转换为最适合的规范化文本。2)本发明根据用户的语言背景提供给用户关于将非规范化文本转换为规范化文 本时易转换错的强调输出结果。3)对于从非规范文本向规范文本的转换,非规范文本由手工输入或扫描或通过其 他方式输入,本发明正确的转换结果将从扬声器中读出,其中容易转换错的地方将加重或 减慢或其它强调方式读出。4)对于从非规范文本向规范文本的转换,非规范文本由手工输入或扫描或通过其 他方式输入,本发明正确的转换结果将从显示器上显示,其中容易转换错的错误结果也将 单独显示。5)本发明存在多种语言或方言信息的存储单元,可以根据用户的需求进行加载或 卸载。6)本发明可以根据用户的需求指定某种语言或方言也可以同时选择多种语言或 方言来获得多种强调结果。7)在多个强调结果输出的情况下,本发明可以根据用户的母语习惯、用户的个人 习惯、通常的强调信息来对多个输出结果进行自动排序。


图1是本发明基于用户语言背景的文本转换装置的硬件结构图;图2是图1中数据处理单元102的内部结构图;图3是图1中存储单元103的内部结构图;图4a是图3中通用NT- > T转换语料库的内部结构图;图4b是图3中用户个人习惯NT- > T转换语料库的内部结构图;图4c是图3中母语习惯NT- > T转换语料库的内部结构图;图5a是图3中通用NT- > T易转换错语料库的内部结构图;图5b是图3中用户个人习惯NT- > T易转换错语料库的内部结构图;图5c是图3中母语习惯NT- > T易转换错语料库的内部结构图;图6所示是本发明的流程图;图7是图6中步骤602的详细描述;图8是图6中步骤603的详细描述;图9是图2中转换结果产生单元202所执行流程的详细描述;图10是图6中步骤606的详细描述;图11是非规范文本易转换错强调式学习过程示意图;图12是非规范文本易转换错强调式学习过程另一示意图;图13,为图4,图5中确定非规范文本类别的统计信息图。
具体实施例方式为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对具体实施例进行详细描述。本发明的基于用户语言背景的文本转换装置,包括用于获取输入文本和用户语言背景的输入单元;存储字典和多个转换语料库的存储单元;利用所述字典对所述输入文本进行分词并找到分词结果中的非规范文本的分析 单元;根据所述输入单元获取的用户语言背景从所述多个转换语料库中取得对应所述 用户语言背景的适用语料库的选择单元;根据所述适用语料库将所述非规范文本转换为规范文本的转换单元;输出所述规范文本的输出单元。图1示出了本发明一个实施例的基于用户语言背景的文本转换装置的示意图。如 图ι所示,本实施例的文本转换装置10包括输入单元101、存储单元102、处理单元103、 显示单元104和声音单元105。其中,输入单元101接收用户输入的非规范文本、规范文本、用户的语言背景的语 言种类信息、用户标识信息和功能选择信息。其中,非规范文本可以包括相对于规范文本而 言的数字、符号、外文以及其组合形式。规范文本可以包括一个或多个词语,一个或多个句 子,在这里,词语和句子都属于语言信息,但语言信息并不局限于词语和句子。用户的语言 背景可以是用户的母语和/或用户所熟悉的除了母语之外的其它语言,例如,外国语或方口寸。存储单元102存储非规范文本转化为规范文本的转换信息以及转换被错识的信 肩、ο在本实施例中,存储单元102所存储的非规范文本转化为规范文本的要素的信息 及被错识信息是在大量的各种语言背景的人群的基础上通过统计得到的。要素信息及被错 识信息所对应的频率信息就指人们出现语言信息的要素信息及被错识信息的频率。此外,存储单元102还可以存储包含用于对规范文本进行分词用的字典。处理单元103 (其功能相当于于分析单元、选择单元和转换单元),根据存储单元 102所存储的非规范文本转换信息及被错识信息和字典,产生针对用户的语言背景的所接 收的文本的强调信息和所接收的文本中的语言信息的要素正确信息。显示单元104和声音单元105形成装置的输出单元,以向用户输出所接收的文本 的强调信息和正确信息。其中,显示单元104显示可视信息,例如,非规范文本的正确转换 信息,非规范文本的易转换错信息等。声音单元105输出声音信息,例如,非规范文本的转 换信息的错误读音和词语的正确读音。图2是图1中处理单元103单元的内部结构图。其中,文本分析单元201,对输入文本进行相应的文本处理;转换结果产生单元202。对文本分析后的非规范文本进行处理得到规范文本的转 换形式。强调结果产生单元203,对分析后的文本进行处理得到需要强调的结果序列。输出文本处理单元204。对结果序列进行相应的文本处理以适应装置的输出。图3是图1中存储单元102的内部结构图。存储单元102为数据存储器,包含三
6个大的组成单元(三个虚线框部分所示)非规范文本(NT)至规范文本(T)转换语料库, 非规范文本至规范文本易转换错语料库,以及字典。其中非规范文本(NT)至规范文本⑴转换语料库由三个子单元构成,包括通用 非规范文本转换语料库301,存储着对某非规范文本在通常情况下进行转换的信息;用户 个人习惯非规范文本转换语料库302,存储着对某个人用户在使用装置过程中进行转换的 信息;母语习惯非规范文本转换语料库303。存储着某特定母语背景下某非规范文本进行 转换的信息。易转换错语料库由三个子单元构成,包括通用易转换错语料库304,存储着对某 非规范文本在通常情况下容易转换错的信息;用户个人习惯易转换错语料库305,存储着 对某个人用户在使用装置过程中易转换错信息;母语习惯易转换错语料库306。存储着在 某特定母语背景下对某非规范文本容易转换错的信息。此外,分词字典307中存储着词语及拼音信息。图4a是图3中通用非规范文本转换语料库301的内部结构。其中包含非规范文 本模板,类别,内容,正确的转换结果以及每种可能转换形式的频率。其中的数据是从一定 数量的不同背景的人群中进行统计得到的结果。在图4a实例中是对使用非规范文本的不 同母语背景人群(有日本人,美国人,法国人,德国人,中国不同地区人等)进行综合的统 计,每一种母语背景的人群都应保证一定的数量,使用该语料库处理相对的通用性,反应的 是对非规范文本在综合层面上进行转换的信息。图4b是图3中用户个人习惯非规范文本转换语料库302的内部结构。其中包含 用户标识、非规范文本模板、类别、内容、正确转换结果以及每种可能转换形式的频率。其中 的数据是使用该装置的个人在使用过程中统计得到的结果。在图4b实例中是对进行非规 范文本进行转换的某个用户进行使用信息的记录,反应的是对非规范文本在特定用户层面 上进行转换的信息。图4c是图3中母语习惯非规范文本转换语料库303的内部结构。其中包含语言 种类、非规范文本模板、类别、内容、正确转换结果以及每种可能转换形式的频率。其中的数 据是从一定数量的特定语言背景的人群中进行统计得到的结果。该语料库反应的是对非规 范文本在特定背景用户群进行转换的信息。图5a是图3中通用易转换错语料库304的内部结构。其中包含非规范文本模板, 类别,内容,正确的转换结果,易转换错的结果以及易转换错的频率。其中的数据是从一定 数量的不同背景的人群中进行统计得到的结果。图5b是图3中用户个人习惯易转换错语料库305的内部结构。其中包含用户标 识、非规范文本模板,类别,内容,正确的转换结果,易转换错的结果以及易转换错的频率。 其中的数据是使用该装置的个人在使用过程中统计得到的结果。在图5b实例中是对学习 汉语非规范文本的某个用户进行使用信息的记录,反应的是对非规范文本特定用户层面上 容易转换错的信息。图5c是图3中母语习惯易转换错语料库306的内部结构。其中包含语言种类、非 规范文本模板,类别,内容,正确的转换结果,易转换错的结果以及易转换错的频率。该语料 库反应的是对非规范文本在特定背景用户群容易转换错的信息。图6所示是本发明的流程图。包括
步骤601,用户输入要学习的单词或句子;步骤602,一旦输入初始文本,用户根据他们的语言习惯选择需要的一种或多种功 能;步骤603,对输入文本进行分析;步骤604,对分析结果中容易转换错的部分产生强调输出结果(生成强调文本);步骤605,对分析结果中生成最可能的转换文本;步骤606,根据用户命令或系统要求进行相应的文本输出(输出文本处理);步骤607,将会通过显示器与扬声器将最终的结果提供给用户(输出)。图7是图6中步骤602的详细描述。步骤701是提供用户进行选择的界面。步骤702,根据用户需求进行选择;共有三个功能分支供用户进行选择步骤703,是语言背景选择,用户可以选择其母语作为背景语言,如果用户熟悉多 种语言,还可以进行多种语言的选择。另外,由于对在一种语言中还存在着多种方言,用户 在选择一种语言之后,还可以再选择一种或数种方言作为背景语言;步骤704,是非规范文本与规范文本的转换功能选择。步骤705,是非规范文本与规范文本的易转换错功能选择,用户可以得到对易转换 错文本的强调结果。步骤706,根据用户需求选择相应功能;步骤707,功能输出,系统将在这些对应的功能的基础上进行运行。图8是图6中步骤603的详细描述,包括步骤801,输入文本;步骤802,首先确定在整个文本中的非规范文本部分,并得到其非规范文本的形式 "NT Template”;步骤803,对规范部分进行分词;步骤804,提取非规范文本上下文关键词信息;步骤805,根据提取的上下文信息及非规范文本的形式确定非规范文本的类别。图9是图2中转换结果产生单元202所执行流程的详细描述,是找到输入文本中 非规范文本易转换错的正确及错误形式的流程;包括步骤901,获取正确的输入文本;步骤902,根据非规范文本提取顺序提取非规范文本。如果该非规范文本在易转换 错语料库中存在,将会根据通用易转换错语料库304,用户个人习惯易转换错语料库305与 母语习惯易转换错语料库306计算该非规范文本易转换错的程度。步骤903,如果一个非规范文本有多种易转换结果,将对所有易转换结果进行排 序;步骤904,如果不存在用户个人习惯选择将直接输出易转换的序列,如果还存在用 户个人习惯选择,则将根据用户选择顺序更新个人习惯易读错语料库;步骤905,输出一个非规范文本的正确转换形式;步骤906,输出易转换错的强调结果的排序序列。图10是图6中步骤606的详细描述,包括
步骤1001,获得正确的转换形式及其强调序列;步骤1002,判断用户对非规范文本进行选择了吗?是执行步骤1003,否则执行步 骤 1004 ;步骤1003,判断所选择的非规范文本是需要强调吗?是执行步骤1005,否则执行 步骤1006 ;步骤1004,只有一个强调结果?是执行步骤1008,否则执行步骤1005 ;步骤1005,对不同的结果进行排序,转步骤1009 ;步骤1006,提示没有强调结果,结束。步骤1007,根据用户需求提取强调结果,结束。步骤1008,输出强调结果,结束。步骤1009,根据排序输出强调结果,结束。以如图11为例,输出强调易转换错结果为“二”与“贰”,此时如果对于用户个人来 说“二”更容易转换错,则将这种对于用户个人来说更容易转换错结果的顺序记录下来并更 新个人习惯易读错语料库。图13,为图4,图5中确定非规范文本类别的统计信息。对于图11,在非规范文本转换装置中存在一显示器用来显示输出结果。存在一扬 声器用来输出强调声音。在实施例中,输入文本1101 (现在是2月份),用户通过按键选择 语言背景1104,这里背景语言是日语。同样用户可以同时还可以选择背景方言。当选择了 上述功能后,系统进行对文本进行后续分析。如显示1102,其中非规范文本“2”的最优的转 换形式为“二”显示于输入文本的下方,其它转换结果1103显示于输入文本的下方。在这 个例子中,显示了两个转换错强调的结果,分别为“二”,“两”并按顺序进行输出。图11输入文本为1101 (现在是2月份),根据图8的步骤802首先确定2为整句 话中的非规范文本,并且其“NT Template”是“NUM”。由步骤803对整句话进行分词得到 “现在/是/2/月份”,由步骤804提取其上下文信息“现在”,“月份”(其中“是”由于是高 频词,可列入停用表中不予提取。)由于对于同一个非规范文本形式“NUM”可能存在多个类 别,为此需要进行类别确认。如图13,不妨假设NUM对应仅有两个类别,“日期”与“数字”。 “日期”类别中,“现在”的概率为(232)/(232+851+31+132) = 0. 19,“月份”的概率为(851)/ (232+851+31+132) = 0.68。在“数字”类别中,“现在”的概率为(13) / (1124+13+73+2234) =0. 004,“月份”的概率为(73)/(1124+13+73+2234) = 0.021。由于 0. 19*0. 68 大于 0. 004*0. 021所以认为非规范文本2的类别为“日期”。由于所接收到的功能选择信息是“非规范文本与规范文本的转换功能”,所以装置 的处理单元103中的转换结果产生单元202根据所接收到的用户的语言背景所对应的语言 种类信息是日语,在得到“日期”类别后,从存储单元102的通用转换语料库301中提取到 非规范文本“2”的转换内容“二”及其对应的频率信息“851”,根据接收到的用户标识信息 “山田”从存储单元102的用户个人习惯转换语料库302中提取到非规范文本“2”的转换内 容“二”及其对应的频率信息“ 101”,以及,根据所接收到的用户的语言背景所对应的语言种 类信息是日语,从存储单元102的母语习惯转换语料库303中提取到非规范文本“2”的转 换信息“二”及其对应的频率信息“164”。然后转换结果产生单元202计算非规范文本“2” 的转换概率信息(851+101+164) / (100+851+73+101+12+32+101+164+333) = 1116/1767 = 90. 63,同样对应“两”的转换概率信息也可以得到(73+12+333)/(100+851+73+101+12+32+1 01+164+333) = 418/1767 = 0. 24。接结转换结果产生单元按照非规范文本“2”的转换结 果所计算的概率信息从大到小的顺序,“2”的转换结果进行排序,即规范文本“二”。所以把 非规范文本“2”的转换信息“二”放在首位,而转换信息“两”放在第二位。对于图12,在非规范文本转换装置中存在一显示器用来显示输出结果。存在一扬 声器用来输出强调声音。在实施例中,输入文本1201 (这项工作一共花了 2个月时间),用 户通过按键选择语言背景1204,这里背景语言是日语。同样用户可以同时还可以选择背景 方言。当选择了上述功能后,系统进行对文本进行后续分析。如显示1202,其中非规范文本 “2”的正确转换形式为“两”显示于输入文本的下方,易转换错强调输出结果1203显示于输 入文本的下方。在这个例子中,显示了两个易转换错强调的结果,分别为“二”,“贰”并按顺 序进行输出。由于所接收到的功能选择信息是“非规范文本与规范文本的易转换错功能”,所以 处理单元103中的强调结果产生单元203根据所接收到的用户的语言背景所对应的语言种 类信息是日语,从存储单元102的通用易转换错语料库304中提取到非规范文本“2”的易转 换错内容“二”及其对应的频率信息“536”,根据接收到的用户标识信息“山田”从存储单元 102的用户个人习惯易转换错语料库305中提取到非规范文本“2”的易转换错内容“二”及 其对应的频率信息“67”,以及,根据所接收到的用户的语言背景所对应的语言种类信息是 日语,从存储单元102的母语习惯易转换错语料库306中提取到非规范文本“2”的易转换错 信息“二”及其对应的频率信息“332”。然后易转换错结果产生单元202计算非规范文本“2” 的转换概率信息(536+67+332)/(536+23+67+132+332+43) = 953/1133 = 0. 84,同样对应另 一个易转换错“两”的转换概率信息也可以得到(23+132+43)/(536+23+67+132+332+43)= 198/1133 = 0. 16。转换结果产生单元按照非规范文本“2”的易转换错结果所计算的概率 信息从大到小的顺序,“2”的易转换错结果进行排序,把非规范文本“2”的易转换信息“二” 放在首位,而易转换错信息“贰”放在第二位。正确的结果“两”放在输入文本下方。可见,本发明并不仅仅是从非规范型的文本转化为规范型文本。在本发明中,文本 转换装置将根据用户的语言背景自动计算最佳的转换结果。除此之外,在本发明中,文本转 换装置还将根据用户的母语习惯、个人习惯等对不同的转换结果自动的进行排序,并对易 转换错的内容给出提醒,告诉用户哪个地方最容易转换错而不是仅仅排列出一大堆转换的 提示。由上可知,本发明实施例具有以下优势1)本发明可以根据用户的语言背景将非规范化文本转换为最适合的规范化文本。2)本发明根据用户的语言背景提供给用户关于将非规范化文本转换为规范化文 本时易转换错的强调输出结果。3)对于从非规范文本向规范文本的转换,非规范文本由手工输入或扫描或通过其 他方式输入,本发明正确的转换结果将从扬声器中读出,其中容易转换错的地方将加重或 减慢或其它强调方式读出。4)对于从非规范文本向规范文本的转换,非规范文本由手工输入或扫描或通过其 他方式输入,本发明正确的转换结果将从显示器上显示,其中容易转换错的错误结果也将 单独显示。
5)本发明存在多种语言或方言信息的存储单元,可以根据用户的需求进行加载或 卸载。6)本发明可以根据用户的需求指定某种语言或方言也可以同时选择多种语言或 方言来获得多种强调结果。7)在多个强调结果输出的情况下,本发明可以根据用户的母语习惯、用户的个人 习惯、通常的强调信息来对多个输出结果进行自动排序。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人 员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应 视为本发明的保护范围。
权利要求
一种基于用户语言背景的文本转换装置,其特征在于,包括用于获取输入文本和用户语言背景的输入单元;存储字典和多个转换语料库的存储单元;利用所述字典对所述输入文本进行分词并找到分词结果中的非规范文本的分析单元;根据所述输入单元获取的用户语言背景从所述多个转换语料库中取得对应所述用户语言背景的适用语料库的选择单元;根据所述适用语料库将所述非规范文本转换为规范文本的转换单元;输出所述规范文本的输出单元。
2.根据权利要求1所述的文本转换装置,其特征在于,所述多个转换语料库包括通用 转换语料库和母语习惯转换语料库。
3.根据权利要求2所述的文本转换装置,其特征在于, 所述存储单元中还存储有多个易转换错语料库;所述选择单元,还用于根据用户的选择从所述多个易转换错语料库中取得适用用户语 言背景的适用易转换错语料库;并且,所述文本转换装置还包括强调分析单元,用于根据所述分词字典对输入的非规范文本进行分析,得到强调分析结果;强调结果单元,用于根据所述适用易转换错语料库和所述强调分析结果,对所述非规 范文本进行转换,得到强调结果;所述输出单元,还用于输出所述强调结果。
4.根据权利要求3所述的文本转换装置,其特征在于, 所述多个转换语料库还包括用户个人习惯转换语料库;所述多个易转换错语料库包括通用易转换错语料库、用户个人习惯易转换错语料库 和/或母语习惯易转换错语料库;所述规范文本为多个,并且所述输出单元对所述多个规范文本进行排序输出; 所述强调结果为多个,并且所述输出单元对所述多个强调结果进行排序输出。
5.根据权利要求4所述的文本转换装置,其特征在于,所述输出单元包括扬声器,所述 扬声器用于对所述规范文本进行正常声调的输出,对所述强调结果进行异常声调的输出, 所述异常声调包括加重和减慢。
6.根据权利要求4所述的文本转换装置,其特征在于,所述输出单元包括显示器,所述 显示器用于显示所述规范文本和所述强调结果。
7.根据权利要求4所述的文本转换装置,其特征在于,所述存储单元能够在不改变主系统的条件下加载或卸载所述多个转换语料库和所述 多个易转换错语料库。
8.根据权利要求4所述的文本转换装置,其特征在于,所述通用转换语料库具有从通用语言背景中提取的规则或统计信息; 所述用户个人习惯转换语料库具有从用户个人习惯中提取的规则或统计信息; 所述母语习惯转换语料库具有从母语习惯背景中提取的规则或统计信息。
全文摘要
本发明提供一种基于用户语言背景的文本转换装置,包括用于获取输入文本和用户语言背景的输入单元;存储字典和多个转换语料库的存储单元;利用所述字典对所述输入文本进行分词并找到分词结果中的非规范文本的分析单元;根据所述输入单元获取的用户语言背景从所述多个转换语料库中取得对应所述用户语言背景的适用语料库的选择单元;根据所述适用语料库将所述非规范文本转换为规范文本的转换单元;输出所述规范文本的输出单元。本发明能根据用户的语言特点选择出最佳的转换结果。
文档编号G06F17/28GK101930429SQ20091014889
公开日2010年12月29日 申请日期2009年6月19日 优先权日2009年6月19日
发明者刘宏建, 周泉, 国德峰, 永松健司 申请人:株式会社日立制作所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1