一种用于提供信息的装置和方法

文档序号:2533079阅读:225来源:国知局
专利名称:一种用于提供信息的装置和方法
技术领域
本发明涉及一种用于提供信息的装置和方法。
技术背景通过诸如电子词典、PDA、语言学习机等电子装置可以进行语言 的学习。对于这些装置可以从扬声器中得到句子及词语的正确发音, 同时每一个词的拼音也可以通过显示屏显示出来。通过这种方式,用 户可以得到每一个词语的正确发音或句子中韵律词间的停顿等有用 的信息。在这实际中,存在很多容易读错的词语。虽然通过电子词典这样 的装置可以获得正确的读音,但是却很难给用户带来非常深刻的记 忆。除此之外,在一句话中可能存在多处易读错的词语,但是在这些 词语中某些词语更容易读错,而有一些却相对不容易读错。在这种情 况下,用户希望能够根据易读错的程度得到提醒。除此之外,由于在很多语言中大量存在着的多音字、多音词现象。 在不同情况下同一个词语的发音可能有非常大的不同。在这种情况下 需要给用户必要的提醒信息。同时由于不同国家的用户的发音习惯不同,在一个国家中很容易 正确发音的词语对另一个国家的用户来说可能是非常困难的。这种情 况常发生在语言背景不同的用户身上。同样的现象也常常出现在同一 个国家的不同地区,由于一个国家内存在不同的方言, 一个地区很容 易正确发音的词语对另一个地区的用户来说也可能是非常困难的。在 这些情况下需要给不同国家、不同地区的用户以必要的提醒信息。在语言学习过程中,不仅是发音,对于不同语言背景的用户,某 些词语或句子的含义也非常容易弄错。这经常存在于一些容易望文生 义的地方。特别是在一些相似语言如汉语与日语,很多词语在字形上是相同或者相似的,但其含义却可能完全不同。基于上述背景,专利"理工学振興会,外国語自律学習^ ^亍A,特開2001—249679",通过一个语音识别装置与声音分析装置来显示 声音识别的结果。通过判断用户的语言背景与要学习的语言的声音特 征可以提醒用户注意困难的发音,同时该专利还通过对比实际发音与 语音识别的内容来判断发音的正确与否。虽然上述方法涉及到强调式 阅读,但过程非常复杂。发明内容为了消除目前语言学习装置中的诸多问题,本发明的目的在于提 供一种用于提供信息的装置和方法,其基于接收的文本向用户提供所 接收的文本中的语言信息的要素被错识信息。为了实现本发明的目的,按照本发明的一种用于提供信息的装置,包括存储单元,用于存储语言信息的要素被错识信息; 接收单元,用于接收用户输入的文本;处理单元,用于从所述存储单元中提取其语言信息与所述接收的 文本中的语言信息相应的要素被错识信息,作为所述接收的文本中的 语言信息的要素被错识信息。为了实现本发明的目的,按照本发明的一种用于提供信息的方 法,包括存储语言信息的要素被错识信息; 接收用户输入的文本;以及从所述存储的语言信息的要素被错识信息中提取其语言信息与 所述接收的文本中的语言信息相应的要素被错识信息,作为所述接收 的文本中的语言信息的要素被错识信息。由上述可以看出,通过本发明的用于提供信息的装置和方法,不需要进行语音识别也不需要将语音识别的结果进行对比,根据所接收 的文本就能够向用户提供所接收的文本中的语言信息的要素被错识"(曰息。


图1示出了本发明一个实施例的用于提供信息的装置的示意图。图2示出了本发明一个实施例的存储单元的示意图。 图3a-3c分别示出了本发明一个实施例的通用词语读错语料库、 用户个人词语读错语料库和特定语言背景词语读错语料库的示例。 图4a_4c分别示出了本发明一个实施例的通用词语译错语料库、用户个人词语译错语料库和特定语言背景词语译错语料库的示例。 图5a-5c分别示出了本发明一个实施例的通用句子译错语料库、用户个人句子译错语料库和特定语言背景句子译错语料库的示例。 图6示出了本发明一个实施例的处理单元的结构示意图。 图7示出了本发明一个实施例的强调信息的第一示例。 图8示出了本发明一个实施例的强调信息的第二示例。 图9示出了本发明一个实施例的强调信息的第三示例。
具体实施方式
图1示出了本发明一个实施例的用于提供信息的装置的示意图。如图1所示,本实施例的用于提供信息的装置IO包括:接收单元101、存储单元102、处理单元103、显示单元104和声音单元105。其中,接收单元101接收用户输入的文本、用户的语言背景的语 言种类信息、用户标识信息和功能选择信息。其中,文本可以包括一 个或多个词语, 一个或多个句子,在这里,词语和句子都属于语言信 息,但语言信息并不局限于词语和句子。用户的语言背景可以是用户 的母语和/或用户所熟悉的除了母语之外的其它语言,例如,外国语 或方言等。功能选择信息表明用户期望装置IO执行哪一种功能。存储单元102存储但不局限于语言信息的要素被错识信息、出现语言信息的要素被错识信息的人们的语言背景的语言种类信息或者 出现语言信息的要素被错识信息的用户的标识信息、以及语言信息的 要素被错识信息所对应的频率信息。语言信息的要素包括语言信息的读音、语言信息的译文等,语言 信息的要素被错识信息包括语言信息的读音被错识信息和语言信息 的译文被错识信息等。其中,语言信息的读音被错识信息包括词语的 读错信息等,例如,"sil" (l表示声调中的阴平声)是词语"狮"的 读错信息,而语言信息的译文被错识信息包括词语的译错信息和句子 的译错信息等,例如,汉语词语"汽车"对应的正确日语译文是"自 動車",但一些人会将其错误地翻译为日语词语"汽车",在这种情况下,日语译文"汽车"就是汉语词语"汽车"的译错信息。在本实施例中,存储单元102所存储的语言信息的要素被错识信 息是在大量的各种语言背景的人群的基础上通过统计得到的。语言信 息的要素被错识信息所对应的频率信息就指人们出现语言信息的要 素被错识信息的频率。此外,存储单元102还可以存储包含语言信息的要素正确信息的 字典,其包括词语的正确读音、词语的正确译文、句子的正确译文等。处理单元103根据存储单元102所存储的语言信息的要素被错识 信息、出现语言信息的要素被错识信息的人们的语言背景的语言种类 信息或者出现语言信息的要素被错识信息的用户的标识信息、语言信 息的要素被错识信息所对应的频率信息和字典,产生针对用户的语言 背景的所接收的文本的强调信息和所接收的文本中的语言信息的要 素正确信息。显示单元104和声音单元105形成装置10的输出单元,以向用 户输出所接收的文本的强调信息和正确信息。其中,显示单元104显 示可视信息,例如,词语的错误拼读信息,词语的译错信息,词语的 正确译文信息、句子的译错信息,句子的正确译文信息等。声音单元 105输出声音信息,例如,词语的错误读音和词语的正确读音。图2示出了本发明一个实施例的存储单元的示意图。如图2所示, 存储单元102包括词语读错语料库、词语译错语料库、句子译错语料 库和字典。其中,词语读错语料库进一步包括通用词语读错语料库301、用 户个人词语读错语料库302、特定语言背景词语读错语料库303。通 用词语读错语料库301存储对各种语言背景的人们进行统计得到的 人们普遍会读错的词语的读错信息和词语的读错信息对应的频率信 息。用户个人词语读错语料库302存储对用户统计得到的用户个人会 读错的词语的读错信息、出现词语的读错信息的用户的标识信息和词 语的读错信息对应的频率信息。特定语言背景词语读错语料库303中 存储对不同语言背景的人们统计得到的不同语言背景的人们会读错 的词语的读错信息、出现读错信息的人们的语言背景所对应的语言种 类信息以及读错信息对应的频率信息。词语译错料库进一步包括通用词语译错语料库304、用户个人词 语译错语料库305和特定语言背景词语译错语料库306。通用词语译 错语料库304存储对各种语言背景的人们统计得到的人们普遍会译 错的词语的译错信息和译错信息所对应的频率信息。用户个人词语译 错语料库305存储对用户统计得到的用户个人会译错的词语的译错 信息、出现译错信息的用户的标识信息和译错信息对应的频率信息。 特定语言背景词语译错语料库306存储对不同语言背景的人们统计 得到的不同语言背景的人们会译错的词语的译错信息、出现译错信息 的人们的语言背景所对应语言种类信息和译错信息对应的频率信息。句子译错语料库进一步包括通用句子译错语料库307、用户个人 句子译错语科库308和特定语言背景句子译错语料库309。其中,通 用句子译错语料库307存储对各种语言背景的人们统计得到的人们 普遍会译错的句子的译错信息和译错信息对应的频率信息。用户个人 句子译错语料库308存储对用户统计得到的用户个人会译错的句子 的译错信息、出现译错信息的用户的标识信息和译错信息对应的频率信息。特定语言背景句子译错语料库309存储对不同语言背景的人们 统计得到的不同语言背景的人们会译错的句子的译错信息、出现译错 信息的人们的语言背景所对应的语言种类信息和译错信息对应的频 率信息。字典310存储词语的正确读音信息和正确译文信息,句子的正确 译文信息。此外,变调字典311存储词语变调所需要的变调规则信息。图3a-3c分别示出了本发明一个实施例的通用词语读错语料库、 用户个人词语读错语料库和特定语言背景词语读错语料库的示例。如图3a的通用词语读错语料库301的示例所示,通过对各种语 言背景(例如日语、韩语、汉语、中国-四川方言、英语、法语、德 语、俄语等)的人们进行统计发现,人们普遍会把汉语词语"狮"读 错成"Sil",发生"Sil"错误的频率为99。人们还普遍会把词语"狮" 读错成"Si4",发生"Si4" (4表示声调中的去声)错误的频率为50。 人们普遍会把词语"四"读错成"Shi4",发生"Shi4"错误的频率 为85。人们普遍会把词语"石头"读错成"Si2Toul" (2表示声调中 的阳平声),发生"Si2Toul"错误的频率为73。如图3b的用户个人词语读错语料库302的示例所示,山田个人 会把词语"狮"读错成"Sil",他发生"Sil"错误的频率为50,此 外,山田个人还会把词语"狮子"读错成"Si4",他发生"Si4"错 误的频率为3,山田个人会把词语"四"读错成"Shi4",他发生"Shi4" 错误的频率为1,酒井个人会把词语"石头"读错成"Si2Toul",他 发生"Si2Toul"错误的频率为2。如图3c的特定语言背景词语读错语料库303的示例所示,对具 有日语背景的人们进行统计发现,日语背景的人们会把词语"狮"读 错成"Sil",具有日语背景的人们发生"Sil"错误的频率为22,此 外,具有日语背景的人们还会把词语"狮"读错成"Si4",具有曰语 背景的人们发生"Si4"错误的频率为68,具有日语背景的人们会把 词语"四"读错成"Shi4",具有日语背景的人们发生"Shi4"错误 的频率为45。图4a_4c分别示出了本发明一个实施例的通用词语译错语料库、 用户个人词语译错语料库和特定语言背景词语译错语料库的示例。如图4a的通用词语译错语料库304的示例所示,通过对各种语 言背景(例如日语、韩语、汉语、英语、法语、德语、俄语等)的人 们进行统计发现,人们普遍会把汉语词语"汽车"译错成日语词语"汽 车",发生日语词语"汽车"译错的频率为76,人们普遍会把汉语词 语"走"译错成日语词语"走6 ",发生日语词语"走3 "译错的频 率为44。如图4b的用户个人词语译错语料库305的示例所示,山田个人 会把汉语词语"汽车"译错成日语词语"汽车",他发生日语词语"汽 车"译错的频率为7,山田个人会把汉语词语"走"译错成日语词语 "走3 ",他发生日语词语"走3 "译错的频率为5。如图4c的特定语言背景词语译错语料库306的示例所示,对日 语背景的人们统计发现,具有日语背景的人们会把汉语词语"汽车" 译错成日语词语"汽车",发生日语词语"汽车"译错的频率为66, 具有日语背景的人们会把汉语词语"走"译错成日语词语"走3", 发生日语词语"走3 "译错的频率为89。图5a-5c分别示出了本发明一个实施例的通用句子译错语料库、 用户个人句子译错语料库和特定语言背景句子译错语料库的示例。如图5a的通用句子译错语料库307的示例所示,通过对各种语 言背景(例如日语、韩语、汉语、英语、法语、德语、俄语等)的人 们进行统计发现,人们普遍会把汉语句子"好容易做完了"译错成日 语句子"々t 〈 L ",发生日语句子"t々卞〈L t "译错的频 率为43。如图5b的用户个人句子译错语料库308的示例所示,山田个人 会把汉语句子"好容易做完了"译错成日语句子"&々十< ^ & ", 发生日语句子"t々t < L t "译错的频率为3。如图5c的特定语言背景句子译错语料库309的示例所示,对日语背景的人们统计发现,具有日语背景的人们会把汉语句子"好容易 做完了"译错成日语句子",二々十< ^ & ",发生日语句子"^々t〈L ,译错的频率为25。图6示出了本发明一个实施例的处理单元的结构示意图。如图6 所示,处理单元103包括文本分析单元201、强调信息产生单元202 和正确信息产生单元203。文本分析单元201对所接收的文本进行文本处理,以获取该文本 的语言信息,在这里,该文本的语言信息包括词语和句子。对获取的 词语,进行消歧、拼音标标注和变调等处理。其中,对词语进行变调 处理所需的信息存储在存储单元102的变调字典311中。强调信息产生单元202首先根据接收单元101所接收的功能选择 信息,确定用户选择执行以下哪一种功能词语读错信息功能、词语 译错信息功能、句子译错信息功能。然后,根据用户所选择的功能,强调信息产生单元202根据接收 单元101所接收的用户的语言背景的语言种类信息和用户标识信息, 从词语读错语料库、词语译错语料库或句子译错语料库中,产生针对 用户的语言背景的所接收文本中的词语的读错信息、词语的译错信息 或句子的译错信息。具体地,当用户选择的是词语读错信息功能时,对于所接收的文 本中的每一个词语W,强调信息产生单元202首先从存储单元102 的通用词语读错语料库中提取(或者,获取,检索)其词语与所接收 的文本中的词语W相对应的读错信息及该读错信息对应的频率信 息,从存储单元102的特定语言背景词语读错语料库中提取其词语和 其对应的语言种类信息分别与所接收的文本中的词语W和所接收的 用户的语言背景的语言种类信息相对应的读错信息及该读错信息对 应的频率信息,以及从存储单元102的用户个人词语读错语料库中提 取其词语和其用户标识信息分别与所接收的文本中的词语W和所接 收的用户的标识信息相对应的读错信息及该读错信息对应的频率信息,然后,将所提取的读错信息中的每一种读错信息的频率信息除以 通用词语读错语料库、用户个人词语读错语料库和特定语言背景词语 读错语料库这三个语料库中各个读错信息所对应的频率信息的总和, 以计算所提取的每一种读错信息的概率信息,最后,按照所计算的每 一种读错信息的概率信息从大到小的顺序,对所提取的每一种读错信
息进行排序,该排序后的读错信息就是所接收的文本中的词语w的
强调信息。
此外,当用户选择的是词语译错信息功能时,对于所接收的文本
中的每一个词语W,强调信息产生单元202首先从存储单元102的 通用词语译错语料库中提取其词语与所接收的文本中的词语W相对 应的译错信息及该译错信息对应的频率信息,从存储单元102的特定 语言背景词语译错语料库中提取其词语和其对应的语言种类信息分 别与所接收的文本中的词语W和所接收的用户的语言背景的语言种 类信息相对应的译错信息及该译错信息对应的频率信息,以及从存储 单元102的用户个人词语译错语料库中提取其词语和其用户标识信 息分别与所接收的文本中的词语W和所接收的用户的标识信息相对 应的译错信息及该译错信息对应的频率信息,然后,将所提取的译错 信息中的每一种译错信息的频率信息 除以通用词语译错语料库、用户 个人词语译错语料库和特定语言背景词语译错语料库这三个语料库 中各个译错信息所对应的频率信息的总和,以计算所提取的每一种译 错信息的概率信息,最后,按照所计算的每一种译错信息的概率信息 从大到小的顺序,对所提取的每一种译错信息进行排序,该排序后的 译错信息就是所接收的文本中的词语W的强调信息。
此外,当用户选择的是句子译错信息功能时,对于所接收的文本 中的每一个句子S,强调信息产生单元202首先从存储单元102的通 用句子译错语料库中提取其句子与所接收的文本中的句子S相对应 的译错信息及该译错信息对应的频率信息,从存储单元102的特定语 言背景句子译错语料库中提取其句子和其对应的语言种类信息分别 与所接收的文本中的句子S和所接收的用户的语言背景的语言种类 信息相对应的译错信息及该译错信息对应的频率信息,以及从存储单元102的用户个人句子译错语料库中提取其句子和其用户标识信息 分别与所接收的文本中的句子S和所接收的用户的标识信息相对应 的译错信息及该译错信息对应的频率信息,然后,将所提取的译错信 息中的每一种译错信息的频率信息除以通用句子译错语料库、用户个 人句子译错语料库和特定语言背景句子译错语料库这三个语料库中 各个译错信息所对应的频率信息的总和,以计算所提取的每一种译错 信息的概率信息,最后,按照所计算的每一种译错信息的概率信息从 大到小的顺序,对所提取的每一种译错信息进行排序,该排序后的译 错信息就是所接收的文本中的句子S的强调信息。
图7示出了本发明一个实施例的强调信息的第一示例。其中,在 该第一示例中,假设存储单元102存储了图3a-3c中所示的通用词语 读错语料库301、用户个人词语读错语料库302和特定语言背景词语 读错语料库303,以及字典。
如图7所示,在该第一示例中,装置10的接收单元101接收到 的文本是"狮子和四十",接收到的用户的语言背景所对应的语言种 类信息是日语和中国-四川方言,接收到的用户标识信息是"山田", 以及接收到的功能选择信息是"词语读错信息功能"。
根据所接收的功能选择信息是"词语读错信息功能",装置10的 处理单元103中的文本分析单元201对所接收的文本进行文本处理, 获得所接收的文本的以下词语狮、子、和、四、十、狮子、四十。
由于所接收的功能选择信息是"词语读错信息功能",所以,装 置10的处理单元103中的强调信息产生单元202从存储单元102的 通用词语读错语料库301中提取到词语"狮"的读错信息"Sil"及 其对应的频率信息"99",词语"狮"的读错信息"Si4"及其对应的 频率信息"50",以及词语"四"的读错信息"Shi4"及其对应的频 率信息"85",根据接收到的用户标识信息"山田"从存储单元102 的用户个人词语读错语料库302中提取到词语"狮"的读错信息"Sil" 及其对应的频率信息"50",词语"狮"的读错信息"Si4"及其对应的频率信息"3",以及词语"四"的读错信息"Shi4"及其对应的频 率信息"1",以及,根据所接收到的用户的语言背景所对应的语言种 类信息是日语和中国-四川方言,从存储单元102的特定语言背景词 语读错语料库303中提取到词语"狮"的读错信息"Sil"及其对应 的频率信息"22",词语"狮"的读错信息"Si4"及其对应的频率信 息"68",以及词语"四"的读错信息"Shi4"及其对应的频率信息 "45"。然后,强调信息产生单元202计算词语"狮"的读错信息"Sil" 的 概 率 信 息 (99+50+22)/(99+50+85+73+50+3+ 1+2+22+68+45)=171/498=0.343,词语"狮"的读错信息"Si4"的概 率信息(50+3+68)/(99+50+85+73+50+3+1+2+22+68+45)=121/498= 0.243 ,词语"四"的读错信息"Shi4 "的概率信息 (85+1+45)/(99+50+85+73+50+3+1+2+22+68+45)=131/498=0.243 。接 着,强调信息产生单元202按照词语"狮"的读错信息"Sil"和"Si4" 各自计算的概率信息从大到小的顺序,将词语"狮"的读错信息"Sil" 排列在词语"狮"的读错信息"Si4"之前,由于词语"四"的读错 信息只有一个,即"Shi4",所以把词语"四"的读错信息"Shi4" 排列在词语"四"的读错信息的首位。
处理单元103中的正确信息产生单元203从存储单元102中提取
到所接收的文本的词语的正确读音信息。
显示单元104显示出所接收的文本701,所接收的用户的语言背 景所对应的语言种类信息和功能选择信息702,所接收的文本的词语 的正确读音信息703,以及词语"狮"的读错信息"Sil"和"Si4" 和词语"四"的读错信息"Shi4" 704。
声音单元105以声音的方式输出所接收的文本的词语的正确读 音信息,以及词语"狮"的读错信息"Sil"和"Si4"的读音,词语 "四"的读错信息"Shi4"的读音。
图8示出了本发明一个实施例的强调信息的第二示例。其中,在 该第二示例中,假设存储单元102存储了图4a-4c中所示的通用词语 译错语料库304、用户个人词语译错语料库305和特定语言背景词语译错语料库306,以及字典。
如图8所示,在该第二示例中,装置10的接收单元101接收到 的文本是汉语词语"汽车",接收到的用户的语言背景所对应的语言 种类信息是日语,接收到的用户标识信息是"山田",以及接收到的 功能选择信息是"词语译错信息功能"。
根据所接收的功能选择信息是"词语译错信息功能",装置10的 处理单元103中的文本分析单元201对所接收的文本进行文本处理, 获得所接收的文本的以下词语汽、车、汽车。
由于所接收的功能选择信息是"词语译错信息功能",所以,装 置10的处理单元103中的强调信息产生单元202从存储单元102的 通用词语译错语料库304中提取到汉语词语"汽车"的译错信息日语 词语"汽车"及其对应的频率信息"76",根据接收到的用户标识信 息"山田"从存储单元102的用户个人词语译错语料库305中提取 到汉语词语"汽车"的译错信息日语词语"汽车"及其对应的频率信 息"7",以及,根据所接收到的用户的语言背景所对应的语言种类信 息是日语,从存储单元102的特定语言背景词语译错语料库306中提 取到汉语词语"汽车"的译错信息日语词语"汽车"及其对应的频率 信息"66"。然后,强调信息产生单元202计算汉语词语"汽车"的 译错信息日语词语"汽车"的概率信息(76+7+66)/(76+44+7+5+66+ 89)=149/287=0.52。接着,强调信息产生单元202按照汉语词语"汽 车"的译错信息所计算的概率信息从大到小的顺序,把汉语词语"汽 车"的译错信息进行排序,由于汉语词语"汽车"的译错信息只有一 个,即日语词语"汽车",所以把汉语词语"汽车"的译错信息日语 词语"汽车"排列在汉语词语"汽车"的译错信息的首位。
处理单元103中的正确信息产生单元203从存储单元102中提取 到所接收的文本的词语的正确译文信息,即日语词语"《t力車"。
显示单元104显示出所接收的文本801,所接收的用户的语言背 景所对应的语言种类信息和功能选择信息802,所接收的文本的词语 "汽车"的正确译文信息日语词语"《勒卑"803以及译错信息日语 词语"汽车"804。图9示出了本发明一个实施例的强调信息的第三示例。其中,在 该第三示例中,假设存储单元102存储了图5a-5c中所示的通用句子 译错语料库307、用户个人句子译错语料库308和特定语言背景句子 译错语料库309,以及字典。
如图9所示,在该第三示例中,装置10的接收单元101接收到 的文本是汉语句子"好容易做完了。",接收到的用户的语言背景所对 应的语言种类信息是日语,接收到的用户标识信息是"山田",以及 接收到的功能选择信息是"句子译错信息功能"。
根据所接收的功能选择信息是"句子译错信息功能",装置10的 处理单元103中的文本分析单元201对所接收的文本进行文本处理, 获得所接收的文本的以下句子"好容易做完了。"。
由于所接收的功能选择信息是"句子译错信息功能",所以,装 置10的处理单元103中的强调信息产生单元202从存储单元102的 通用句子译错语料库307中提取到汉语句子"好容易做完了。"的译 错信息日语句子"々寸< ^ ^ "及其对应的频率信息"43",根据 接收到的用户标识信息"山田"从存储单元102的用户个人句子译 错语料库308中提取到汉语句子"好容易做完了。"的译错信息日语 句子";b々卞〈L ;t "及其对应的频率信息"3",以及,根据所接收 到的用户的语言背景所对应的语言种类信息是日语,从存储单元102 的特定语言背景句子译错语料库309中提取到汉语句子"好容易做完 了。"的译错信息日语句子"^々t < L "及其对应的频率信息"25"。 然后,强调信息产生单元202计算汉语句子"好容易做完了。"的译 错信息日语句子"^々十< L & "的概率信息 (43+3+25)/(43+3+25)=71〃1=1。接着,强调信息产生单元202按照汉 语句子"好容易做完了。"的译错信息所计算的概率信息从大到小的 顺序,把汉语句子"好容易做完了。"的译错信息进行排序,由于汉 语句子"好容易做完了。"的译错信息只有一个,即日语句子"&々 t〈 L;b",所以把汉语句子"好容易做完了。"的译错信息日语句子 ";t々t < L t "排列在汉语句子"好容易做完了。"的译错信息的首位。
处理单元103中的正确信息产生单元203从存储单元102中提取 到所接收的文本的句子"好容易做完了。"的正确译文信息,即曰语 句子"々,i完成^亡"。
显示单元104显示出所接收的文本901 ,所接收的用户的语言背 景所对应的语言种类信息和功能选择信息902,所接收的文本的句子 "好容易做完了。"的正确译文信息日语句子"々。t完成L & " 903 以及译错信息日语句子"^々t 〈 L" 904。
本领域技术人员应当理解,虽然在上面的实施例中,存储单元 102包括词语读错语料库、词语译错语料库和句子译错语料库三个语 料库,但本发明并不局限于此。在本发明的其它实施例中,存储单元 102可以只包括词语读错语料库、词语译错语料库和句子译错语料库 中的一个或两个,或者还可以包括词语和句子的其它要素被错识信息 语料库,或者还可以包括其它语言信息的要素被错识信息语料库。
此外,本领域技术人员应当理解,虽然在上面的实施例中,词语 读错语料库、词语译错语料库和句子译错语料库的每一个都进一步包 括三个语料库,但本发明并不局限于此。在本发明的其它实施例中, 词语读错语料库、词语译错语料库和句子译错语料库的每一个都可以 仅进一步包括其中的一个或两个语料库。
此外,本领域技术人员应当理解,本发明的用于提供信息的装置 既可以在电子词典、PDA、语言学习机等电子装置中实现,也可以在 计算机网络环境和无线通信网络环境中实现。当在计算机网络环境和 无线通信网络环境中实现时,接收单元IOI、存储单元102和处理单 元103在服务器中实现,而显示单元104和声音单元105在作为客户 端的终端上实现,该终端例如是计算机或移动终端等。
本领域技术人员应当理解,本发明所公开的用于提供信息的装置 和方法可以在不偏离发明实质的基础上做出各种变形和改变,因此,本发明的保护范围由权利要求书来限定。
权利要求
1、一种用于提供信息的装置,包括存储单元,用于存储语言信息的要素被错识信息;接收单元,用于接收用户输入的文本;以及处理单元,用于从所述存储单元中提取其语言信息与所述接收的文本中的语言信息相应的要素被错识信息,作为所述接收的文本中的语言信息的要素被错识信息。
2、 如权利要求l所述的装置,其中,所述存储的语言信息的要素被错识信息包括不同语言背景的人 们错识的语言信息的要素被错识信息;所述存储单元进一步存储所述不同语言背景的人们错识的语言 信息的要素被错识信息所对应的语言种类信息;所述接收单元进一步接收所述用户的语言背景所对应的语言种 类信息;以及所述处理单元根据所述接收的文本中的语言信息和所述接收的 语言种类信息从所述存储的不同语言背景的人们错识的语言信息的要素被错识信息中提取相应的要素被错识信息,作为所述接收的文本 中的语言信息的要素被错识信息。
3、 如权利要求l所述的装置,其中,所述存储的语言信息的要素被错识信息包括用户个人错识的语 言信息的要素被错识信息;所述存储单元进一步存储所述用户个人错识的语言信息的要素 被错识信息所对应的用户的标识信息;所述接收单元进一步接收所述用户的标识信息;以及所述处理单元根据所述接收的文本中的语言信息和所述接收的 用户的标识信息从所述存储的用户个人错识的语言信息的要素被错 识信息中提取相应的要素被错识信息,作为所述接收的文本中的语言信息的要素被错识信息。
4、 如权利要求2或3所述的装置,其中,所述存储的语言信息的要素被错识信息还包括人们普遍错识的 语言信息的要素被错识信息;以及所述处理单元根据所述接收的文本中的语言信息从所述存储的 人们普遍错识的语言信息的要素被错识信息中获取相应的要素被错 识信息,并与所提取的要素被错识信息一起,作为所述接收的文本中 的语言信息的要素被错识信息。
5、 如权利要求2所述的装置,其中,所述存储的语言信息的要素被错识信息还包括用户个人错识的 语言信息的要素被错识信息;所述存储单元进一步存储所述用户个人错识的语言信息的要素 被错识信息所对应的用户的标识信息;所述接收单元进一步接收所述用户的标识信息;以及所述处理单元根据所述接收的文本中的语言信息和所述接收的 用户的标识信息从所述存储的用户个人错识的语言信息的要素被错 识信息中获取相应的要素被错识信息,并与所提取的要素被错识信息 一起,作为所述接收的文本中的语言信息的要素被错识信息。
6、 如权利要求5所述的装置,其中,所述存储的语言信息的要素被错识信息还包括人们普遍错识的 语言信息的要素被错识信息;以及所述处理单元根据所述接收的文本中的语言信息从所述存储的 人们普遍错识的语言信息的要素被错识信息中检索相应的要素被错 识信息,并与所获取的和所述提取的要素被错识信息一起,作为所述 接收的文本中的语言信息的要素被错识信息。
7、 如权利要求l-6中的任意一个所述的装置,其中,所述语言信息的要素被错识信息是词语的读错信息、词语的译错 信息和句子的译错信息中的至少一种。
8、 如权利要求l-6中的任意一个所述的装置,其中,还包括 输出单元,用于向所述用户输出所述接收的文本中的语言信息的要素被错识信息。
9、 如权利要求8所述的装置,其中,所述输出单元进一步包括: 显示单元,用于向所述用户显示所述接收的文本中的语言信息的要素被错识信息中的可视信息;以及声音单元,用于向所述用户输出所述接收的文本中的语言信息的 要素被错识信息中的声音信息。
10、 如权利要求l-6中的任意一个所述的装置,其中,还包括所述处理单元在提取所述接收的文本中的语言信息的要素被错 识信息之前,先对所述接收的文本进行文本处理以获得所述接收的文 本中的语言信息。
11、 如权利要求l-6中的任意一个所述的装置,其中,所述存储的语言信息的要素被错识信息是通过统计得到的。
12、 一种用于提供信息的方法,包括存储语言信息的要素被错识信息; 接收用户输入的文本;以及从所述存储的语言信息的要素被错识信息中提取其语言信息与 所述接收的文本中的语言信息相应的要素被错识信息,作为所述接收 的文本中的语言信息的要素被错识信息。
13、 如权利要求12所述的方法,其中,所述存储的语言信息的 要素被错识信息包括不同语言背景的人们错识的语言信息的要素被错识信息,所述方法还包括进一步存储所述不同语言背景的人们错识的语言信息的要素被错识信息所对应的语言种类信息;进一步接收所述用户的语言背景所对应的语言种类信息;以及 根据所述接收的文本中的语言信息和所述接收的语言种类信息从所述存储的不同语言背景的人们错识的语言信息的要素被错识信息中提取相应的要素被错识信息,作为所述接收的文本中的语言信息的要素被错识信息。
14、 如权利要求12所述的方法,其中,所述存储的语言信息的 要素被错识信息包括用户个人错识的语言信息的要素被错识信息,所 述方法还包括进一步存储所述用户个人错识的语言信息的要素被错识信息所 对应的用户的标识信息;进一步接收所述用户的标识信息;以及根据所述接收的文本中的语言信息和所述接收的用户的标识信 息从所述存储的用户个人错识的语言信息的要素被错识信息中提取 相应的要素被错识信息,作为所述接收的文本中的语言信息的要素被 错识信息。
15、 如权利要求13或14所述的方法,其中,所述存储的语言信 息的要素被错识信息还包括人们普遍错识的语言信息的要素被错识 信息,所述方法还包括根据所述接收的文本中的语言信息从所述存储的人们普遍错识 的语言信息的要素被错识信息中获取相应的要素被错识信息,并与所 提取的要素被错识信息一起,作为所述接收的文本中的语言信息的要 素被错识信息。
16、 如权利要求13所述的方法,其中,所述存储的语言信息的 要素被错识信息还包括用户个人错识的语言信息的要素被错识信息,所述方法还包括进一步存储所述用户个人错识的语言信息的要素被错识信息所 对应的用户的标识信息;进一步接收所述用户的标识信息;以及根据所述接收的文本中的语言信息和所述接收的用户的标识信 息从所述存储的用户个人错识的语言信息的要素被错识信息中获取 相应的要素被错识信息,并与所提取的要素被错识信息一起,作为所 述接收的文本中的语言信息的要素被错识信息。
17、 如权利要求16所述的方法,其中,所述存储的语言信息的 要素被错识信息还包括人们普遍错识的语言信息的要素被错识信息, 所述方法还包括根据所述接收的文本中的语言信息从所述存储的人们普遍错识 的语言信息的要素被错识信息中检索相应的要素被错识信息,并与所 获取的和所述提取的要素被错识信息一起,作为所述接收的文本中的 语言信息的要素被错识信息。
18、 如权利要求12-17中的任意一个所述的方法,其中, 所述语言信息的要素被错识信息是词语的读错信息、词语的译错信息和句子的译错信息中的至少一种。
19、 如权利要求12-17中的任意一个所述的方法,其中,还包括 向所述用户输出所述接收的文本中的语言信息的要素被错识信息。
20、 如权利要求12-17中的任意一个所述的方法,其中,还包括: 在提取所述接收的文本中的语言信息的要素被错识信息之前,先对所述接收的文本进行文本处理以获得所述接收的文本中的语言信 息。
21、如权利要求12-17中的任意一个所述的方法,其中,所述存储的语言信息的要素被错识信息是通过统计得到的。
全文摘要
本发明涉及一种用于提供信息的装置和方法,该装置包括存储单元,用于存储语言信息的要素被错识信息;接收单元,用于接收用户输入的文本;以及,处理单元,用于从所述存储单元中提取其语言信息与所述接收的文本中的语言信息相应的要素被错识信息,作为所述接收的文本中的语言信息的要素被错识信息。利用该装置和方法,根据所接收的文本就能够向用户提供所接收的文本中的语言信息的要素被错识信息。
文档编号G09B5/00GK101556745SQ20081009116
公开日2009年10月14日 申请日期2008年4月7日 优先权日2008年4月7日
发明者刘宏建, 泉 周, 布社辉, 永松健司 申请人:株式会社日立制作所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1