使用因特网语料库的自动上下文相关语言产生、校正和增强的制作方法

文档序号:6595012阅读:138来源:国知局
专利名称:使用因特网语料库的自动上下文相关语言产生、校正和增强的制作方法
技术领域
本发明总体上涉及计算机辅助语言产生和校正,并且更具体地涉及适用于机器翻译的计算机辅助语言产生和校正。
背景技术
认为以下公布表示现有技术美国专^lJ No. 5, 659, 771 ;No. 5, 907, 839 ;No. 6, 424, 983 ;No. 7, 296, 019 ; No. 5,956,739 和 No. 4,674,065美国公布的专利申请No. 2006/0M7914 和 No. 2007/0106937

发明内容
本发明寻求提供用于计算机辅助语言产生的改进的系统和功能。根据本发明的优选实施例,提供了一种计算机辅助语言产生系统,包括语句检索功能,其基于包含词的输入文本来操作,以从因特网语料库检索多个语句,所述多个语句包含与在所述输入文本中的所述词对应的词;以及语句产生功能,其使用由所述语句检索功能从所述因特网语料库检索的多个语句来操作,以产生表达出所述输入文本的至少一个正确的语句。优选地,所述语句检索功能包括独立短语产生器,用于将所述输入文本划分为一个或多个独立短语;词干产生器和分类器,用于对每一个独立短语进行操作,以产生词中出现的词干, 并且向其分配重要性权重;以及替换产生器,用于产生与所述词干对应的替换词干。根据本发明的优选实施例,所述计算机辅助语言产生系统并且还包括词干到语句索引,所述词干到语句索引与所述因特网语料库交互,以检索所述多个语句,所述多个语句包含与在所述输入文本中的所述词对应的词。优选地,所述语句产生功能包括语句简化功能,用于简化从所述因特网语料库检索的所述语句;简化语句分组功能,用于对由所述语句简化功能提供的类似的简化语句进行分组;以及
简化语句组分级功能,用于对所述类似的简化语句的组进行分级。根据本发明的优选实施例,所述简化语句组分级功能使用下面的准则中的至少一些来操作A.在组中包含的简化语句的数量;B.在所述组中的词的词干与在独立短语中的词干及其替换的对应度;C.所述组包括不与在所述独立短语中的词及其替换对应的词的程度。优选地,所述简化语句组分级功能使用下面的过程的至少一部分来操作定义词干的权重,以指示词在语言中的重要性;计算与准则B对应的正匹配分级;计算与准则C对应的负匹配分级;基于以下项来计算复合分级在组中包含的简化语句的所述数量,并且所述数量对应于准则A ;所述正匹配分级;以及所述负匹配分级。根据本发明的实施例,所述计算机辅助语言产生系统还包括机器翻译功能,用于提供所述输入文本。根据本发明的优选实施例,提供了一种机器翻译系统,包括机器翻译功能;语句检索功能,其基于由所述机器翻译功能提供的输入文本来操作,以从因特网语料库检索多个语句,所述多个语句包含与在所述输入文本中的词对应的词;以及语句产生功能,其使用由所述语句检索功能从所述因特网语料库检索的多个语句来操作,以产生表达出由所述机器翻译功能产生的所述输入文本的至少一个正确的语句。优选地,所述机器翻译功能提供与在所述输入文本中的词对应的多个替换,并且所述语句检索功能用于从所述因特网语料库检索包括对应于所述替换的词的多个语句。根据本发明的实施例,语言产生包括文本校正。根据本发明的优选实施例,提供了一种文本校正系统,包括语句检索功能,其基于由所述文本校正功能提供的输入文本来操作,以从因特网语料库检索多个语句,所述多个语句包含与在所述输入文本中的词对应的词;以及语句校正功能,其使用由所述语句检索功能从所述因特网语料库检索的多个语句来操作,以产生表达出所述输入文本的至少一个正确的语句。优选地,所述系统还包括语句搜索功能,用于基于用户输入的查询词来提供所述输入文本。根据本发明的优选实施例,提供了一种语句搜索系统,包括语句搜索功能,用于基于用户输入的查询词来提供输入文本;语句检索功能,其基于由所述语句搜索功能提供的所述输入文本来操作,以从因特网语料库检索多个语句,所述多个语句包含与在所述输入文本中的词对应的词;以及语句产生功能,其使用由所述语句检索功能从所述因特网语料库检索的多个语句来操作,以产生表达出由所述语句搜索功能产生的所述输入文本的至少一个正确的语句。优选地,所述计算机辅助语言产生系统还包括语音至文本转换功能,用于提供所述输入文本。根据本发明的优选实施例,提供了一种语音至文本转换系统,包括语音至文本转换功能,用于提供输入文本;语句检索功能,其基于由所述语句搜索功能提供的所述输入文本来操作,以从因特网语料库检索多个语句,所述多个语句包含与在所述输入文本中的词对应的词;以及语句产生功能,其使用由所述语句检索功能从所述因特网语料库检索的多个语句来操作,以产生表达出由所述语音至文本转换功能产生的所述输入文本的至少一个正确的语句。上面概述的各种实施例可以组合或者包括一计算机辅助语言校正系统,该计算机辅助语言校正系统包括替换产生器,用于基于输入语句来产生基于文本的表示,所述基于文本的表示提供在所述语句中的多个词的每一个的多个替换;选择器,用于至少部分地基于因特网语料库来至少在所述语句的所述多个词的每一个的所述多个替换中进行选择;以及校正产生器,用于基于由所述选择器作出的选择来提供校正输出。优选地,所述选择器用于基于以下校正功能中的至少一个来作出所述选择拼写校正;误用词校正;语法校正;以及词汇增强。根据本发明的优选实施例,所述选择器用于基于以下校正功能中的至少两个来作出所述选择拼写校正;误用词校正;语法校正;以及词汇增强。另外,所述选择器用于基于以下时序的校正中的至少一个来作出所述选择在误用词校正、语法校正和词汇增强的至少一个之前进行拼写校正;以及在词汇增强之前进行误用词校正和语法校正。附加地或可替换地,通过下面的功能之一来提供所述输入语句词处理器功能; 机器翻译功能;语音至文本转换功能;光学字符识别功能;以及即时消息传送功能;并且所述选择器用于基于以下校正功能中的至少一个来作出所述选择误用词校正;语法校正; 以及词汇增强。优选地,所述校正产生器包括校正语言输入产生器,所述校正语言输入产生器用于基于由所述选择器作出的选择来提供校正后的语言输出,而不要求用户介入。附加地或可替换地,所述语法校正功能包括标点校正功能、动词屈折变化校正功能、单数/复数校正功能、冠词校正功能和介词校正功能中的至少一个。根据本发明的优选实施例,所述语法校正功能包括替代校正功能、插入校正功能和省略校正功能中的至少一个。优选地,所述选择器包括基于上下文的评分功能,所述基于上下文的评分功能用于至少部分地基于上下文特征序列(ere)在因特网语料库中的出现频率来对所述多个替换进行分级。另外,所述基于上下文的评分功能也用于至少部分地基于在所述因特网语料库中的标准化的CFS出现频率来对所述多个替换进行分级。上面概述的各种实施例可以组合或者包括一计算机辅助语言校正系统,该计算机辅助语言校正系统包括拼写校正功能、误用词校正功能、语法校正功能以及词汇增强功能中的至少一个;以及上下文特征序列功能,其与所述拼写校正功能、所述误用词校正功能、 所述语法校正功能和所述词汇增强功能中的至少一个协同工作,并且使用因特网语料库。优选地,所述语法校正功能包括标点校正功能、动词屈折变化校正功能、单数/复数校正功能、冠词校正功能和介词校正功能中的至少一个。附加地或可替换地,所述语法校正功能包括替代校正功能、插入校正功能和省略校正功能中的至少一个。根据本发明的优选实施例,所述计算机辅助语言校正系统包括所述拼写校正功能、所述误用词校正功能、所述语法校正功能以及所述词汇增强功能中的至少两个,并且其中,所述上下文特征序列功能与所述拼写校正功能、所述误用词校正功能、所述语法校正功能和所述词汇增强功能中的至少两个协同工作,并且使用因特网语料库。优选地,所述计算机辅助语言校正系统还包括所述拼写校正功能、所述误用词校正功能、所述语法校正功能以及所述词汇增强功能中的至少三个,并且其中,所述上下文特征序列功能与所述拼写校正功能、所述误用词校正功能、所述语法校正功能和所述词汇增强功能中的至少三个协同工作,并且使用因特网语料库。根据本发明的优选实施例,所述计算机辅助语言校正系统还包括所述拼写校正功能;所述误用词校正功能;所述语法校正功能;以及所述词汇增强功能,并且其中,所述上下文特征序列功能与所述拼写校正功能、所述误用词校正功能、所述语法校正功能和所述词汇增强功能协同工作,并且使用因特网语料库。优选地,所述校正产生器包括校正语言产生器,所述校正语言产生器用于基于由所述选择器作出的选择来提供校正后的语言输出,而不要求用产介入。上面概述的各种实施例可以组合或者包括一计算机辅助语言校正系统,该计算机辅助语言校正系统包括替换产生器,用于基于语言输入来产生基于文本的表示,所述基于文本的表示提供在所述语句中的多个词的每一个的多个替换;选择器,用于至少部分地基于在所述语言输入中的所述多个词的至少一些的多个替换中选择的一些之间的关系,来至少在所述语言输入中的所述多个词的每一个的所述多个替换中进行选择;以及校正产生器,用于基于由所述选择器作出的选择来提供校正输出。优选地,所述语言输入包括输入语句和输入文本中的至少一个。附加地或可替换地,所述语言输入是语音,并且所述产生器将语音形式的所述语言输入转换为基于文本的表示,所述基于文本的表示提供在所述语言输入中的多个词的多个替换。根据本发明的优选实施例,所述语言输入是以下项中的至少一个文本输入;光学字符识别功能的输出;机器翻译功能的输出;以及词处理功能的输出,并且所述产生器将文本形式的所述语言输入转换为基于文本的表示,所述基于文本的表示提供在所述语言输入中的多个词的多个替换。优选地,所述选择器用于基于以下校正功能中的至少两个来作出所述选择拼写校正;误用词校正;语法校正;以及词汇增强。另外,所述选择器用于基于以下时序的校正中的至少一个来作出所述选择在误用词校正、语法校正和词汇增强中的至少一个之前进行拼写校正;以及在词汇增强之前进行误用词校正和语法校正。根据本发明的优选实施例,所述语言输入是语音,并且所述选择器用于基于以下校正功能中的至少一个来作出所述选择误用词校正;语法校正;以及词汇增强。优选地,所述选择器用于通过执行以下功能中的至少两个来作出所述选择选择第一词集合或词组合,所述第一词集合或词组合包括的词少于在所述语言输入中用于初始选择的所有所述多个词;其后,对所述第一词集合或词组合的元素进行排序,以建立选择的优先级;并且其后,当在所述第一词集合的元素的多个替换中进行选择时,选择所述多个词中的其他词但是不是所有词来作为上下文,以影响所述选择。附加地或可替换地,所述选择器用于通过执行以下功能来作出所述选择当对于具有至少两个词的元素进行选择时,结合所述至少两个词彼此的另一个词的多个替换的每一个替换来对所述至少两个词的每一个词的多个替换的每一个替换进行评估。根据本发明的优选实施例,所述校正产生器包括校正语言输入产生器,所述校正语言输入产生器用于基于由所述选择器作出的选择来提供校正后的语言输出,而不要求用户介入。上面概述的各种实施例可以组合或者包括一计算机辅助语言校正系统,该计算机辅助语言校正系统包括误用词怀疑器,用于基于语言输入中的至少大多数词在所述语言输入的上下文中的适合性来评估所述至少大多数词;以及校正产生器,用于至少部分地基于由所述怀疑器执行的评估来提供校正输出。优选地,所述计算机辅助语言校正系统还包括替换产生器,用于基于所述语言输入来产生基于文本的表示,所述基于文本的表示提供在所述语言输入中的所述至少大多数词中至少一个的多个替换;以及选择器,用于至少在所述语言输入中的所述至少大多数词的所述至少一个中每一个的所述多个替换中进行选择;并且其中所述校正产生器用于基于由所述选择器作出的选择来提供所述校正输出。附加地或可替换地,所述计算机辅助语言校正系统还包括可疑词输出指示器,用于指示在所述语言输入中的所述至少大多数词的至少一些被怀疑为误用词的程度。根据本发明的优选实施例,所述校正产生器包括自动校正语言产生器,所述自动校正语言产生器用于至少部分地基于由所述怀疑器执行的评估来提供校正后的文本输出, 而不要求用户介入。优选地,所述语言输入是语音,并且所述选择器用于基于以下校正功能中的至少一个来作出所述选择误用词校正;语法校正;以及词汇增强。上面概述的各种实施例可以组合或者包括一计算机辅助语言校正系统,该计算机辅助语言校正系统包括误用词怀疑器,用于评估在语言输入中的词;替换产生器,用于产生所述语言输入中被所述怀疑器评估为可疑词的词中的至少一些的多个替换,在所述语言输入中的词的所述多个替换的至少一个与在因特网语料库中的所述语言输入中的所述词的上下文特征一致;选择器,用于至少在所述多个替换之间进行选择;以及校正产生器,用于至少部分地基于由所述选择器作出的选择来提供校正输出。上面概述的各种实施例可以组合或者包括一计算机辅助语言校正系统,该计算机辅助语言校正系统包括误用词怀疑器,用于评估在语言输入中的词,并且识别可疑词;替换产生器,用于产生所述可疑词的多个替换;选择器,用于根据多个选择准则来对每一个所述可疑词以及由所述替换产生器为其产生的所述多个替换的一些进行评级,并且相对于由所述替换产生器为其产生的所述多个替换的一些应用有利于所述可疑词的偏置;以及校正产生器,用于至少部分地基于由所述选择器作出的选择来提供校正输出。上面概述的各种实施例可以组合或者包括一计算机辅助语言校正系统,该计算机辅助语言校正系统包括替换产生器,用于基于输入来产生在所述输入中的至少一个词的多个替换;选择器,用于根据多个选择准则来对每一个所述至少一个词以及由所述替换产生器为其产生的所述多个替换的一些进行评级,并且相对于由所述替换产生器为其产生的所述多个替换的一些应用有利于所述至少一个词的偏置,所述偏置是用于指示人提供所述输入的不确定性的输入不确定性度量的函数;以及校正产生器,用于基于由所述选择器作出的选择来提供校正输出。上面概述的各种实施例可以组合或者包括一计算机辅助语言校正系统,该计算机辅助语言校正系统包括错误词怀疑器,用于对语言输入中的至少大多数词进行评估,所述怀疑器至少部分地对用于指示人提供所述输入的不确定性的输入不确定性度量进行响应, 所述怀疑器提供可疑错误词输出;以及替换产生器,用于产生由所述可疑错误词输出识别的可疑错误词的多个替换;选择器,用于在每一个可疑错误词和由所述替换产生器产生的所述多个替换中进行选择;以及校正产生器,用于基于由所述选择器作出的选择来提供校正输出。上面概述的各种实施例可以组合或者包括一计算机辅助语言校正系统,该计算机辅助语言校正系统包括拼写校正模块、误用词校正模块、语法校正模块和词汇增强模块中的至少一个,用于接收多词输入并且提供校正输出,拼写校正模块、误用词校正模块、语法校正模块和词汇增强模块中的所述至少一个的每一个包括替换词候选产生器,所述替换词候选产生器包括语音相似度功能,用于基于与在所述输入中的词的语音相似度来提出替换词,并且指示语音相似度的度量;以及字符串相似度功能,用于基于与在所述输入中的词的字符串相似度来提出替换词,并且指示每一个替换词的字符串相似度的度量;以及选择器,用于通过将所述语音相似度的度量和字符串相似度的度量与基于上下文的选择功能一起使用,来选择在所述输出中的词或由所述替换词候选产生器提出的替换词候选。上面概述的各种实施例可以组合或者包括一计算机辅助语言校正系统,该计算机辅助语言校正系统包括可疑词识别功能,用于接收多词语言输入,并且提供指示可疑词的可疑词输出;特征识别功能,用于识别包括所述可疑词的特征;替换选择器,用于识别对于所述可疑词的替换;特征出现功能,用于使用语料库并提供出现输出,所述出现输出按照包括所述替换的各个特征在所述语料库中的使用频率将所述各个特征进行分级;以及选择器,用于使用所述出现输出来提供校正输出,所述特征识别功能包括特征过滤功能,所述特征过滤功能包括下述功能中的至少一个用于消除包含可疑错误的特征的功能;用于对包含在所述多词输入的早期校正迭代中引入的词并且具有小于置信度预定阈值的置信度的特征进行负偏置的功能;以及用于消除被包含在具有大于预定频率阈值的出现频率的另一个特征中的特征的功能。优选地,所述选择器用于基于以下校正功能中的至少两个来作出所述选择拼写校正;误用词校正;语法校正;以及词汇增强。另外,所述选择器用于基于以下时序的校正中的至少一个来作出所述选择在误用词校正、语法校正和词汇增强中的至少一个之前进行拼写校正;以及在词汇增强之前进行误用词校正和语法校正。根据本发明的优选实施例,所述语言输入是语音,并且所述选择器用于基于以下校正功能中的至少一个来作出所述选择语法校正;和误用词校正;以及词汇增强。优选地,所述校正产生器包括校正语言输入产生器,所述校正语言输入产生器用于基于由所述选择器作出的选择来提供校正后的语言输出,而不要求用户介入。根据本发明的优选实施例,所述选择器也用于至少部分地基于用户输入不确定性度量来作出所述选择。另外,所述用户输入不确定性度量是基于人提供所述输入的不确定性测量的函数。附加地或可替换地,所述选择器也使用用户输入历史学习功能。上面概述的各种实施例可以组合或者包括一计算机辅助语言校正系统,该计算机辅助语言校正系统包括可疑词识别功能,用于接收多词语言输入并且提供指示可疑词的可疑词输出;特征识别功能,用于识别包括所述可疑词的特征;替换选择器,用于识别对于所述可疑词的替换;出现功能,用于使用语料库并且提供出现输出,所述出现输出按照包括所述替换的特征在所述语料库中的使用频率将包括所述特征进行分级;以及校正输出产生器,用于使用所述出现输出来提供校正输出,所述特征识别功能包括下述功能中的至少一个N元语法识别功能和共现识别功能,以及略过语法识别功能、转换语法识别功能以及用户先前使用特征识别功能中的至少一个。上面概述的各种实施例可以组合或者包括一计算机辅助语言校正系统,该计算机辅助语言校正系统包括语法错误怀疑器,用于基于语言输入中的至少大多数词在所述语言输入的上下文中的适合性来对所述至少大多数词进行评估;以及校正产生器,用于至少部分地基于由所述怀疑器执行的评估来提供校正输出。优选地,所述计算机辅助语言校正系统还包括替换产生器,用于基于所述语言输入来产生基于文本的表示,所述基于文本的表示提供在所述语言输入中的所述至少大多数词中至少一个的多个替换;以及选择器,用于至少在所述语言输入中的所述至少大多数词的所述至少一个中每一个的所述多个替换中进行选择,并且其中所述校正产生器用于基于由所述选择器作出的选择来提供所述校正输出。根据本发明的优选实施例,所述计算机辅助语言校正系统还包括可疑词输出指示器,用于指示在所述语言输入中的所述至少大多数词的至少一些被怀疑为包含语法错误的程度。优选地,所述校正产生器包括自动校正语言产生器,所述自动校正语言产生器用于至少部分地基于由所述怀疑器执行的评估来提供校正后的文本输出,而不要求用户介入。上面概述的各种实施例可以组合或者包括一计算机辅助语言校正系统,该计算机辅助语言校正系统包括语法错误怀疑器,用于对语言输入中的词进行评估;替换产生器, 用于产生所述语言输入中被所述怀疑器评估为可疑词的词的至少一些的多个替换,在所述语言输入中的词的所述多个替换的至少一个与在所述语言输入中的所述词的上下文特征一致;选择器,用于至少在所述多个替换中进行选择;以及校正产生器,用于至少部分地基于由所述选择器作出的选择来提供校正输出。上面概述的各种实施例可以组合或者包括一计算机辅助语言校正系统,该计算机辅助语言校正系统包括语法错误怀疑器,用于评估在语言输入中的词并且识别可疑词; 替换产生器,用于产生所述可疑词的多个替换;选择器,用于根据多个选择准则来对每一个所述可疑词以及由所述替换产生器为其产生的所述多个替换的一些进行评级,并且相对于由所述替换产生器为其产生的所述多个替换的一些应用有利于所述可疑词的偏置;以及校正产生器,用于至少部分地基于由所述选择器作出的选择来提供校正输出。优选地,所述校正产生器包括校正语言输入产生器,所述校正语言输入产生器用于基于由所述选择器作出的选择来提供校正后的语言输出,而不要求用户介入。上面概述的各种实施例可以组合或者包括一计算机辅助语言校正系统,该计算机辅助语言校正系统包括至少部分地基于上下文特征序列(CFS)在因特网语料库中的出现频率对各个替换校正进行基于上下文的评分。优选地,所述计算机辅助语言校正系统还包括与所述基于上下文的评分协同工作的下述功能中的至少一个拼写校正功能;误用词校正功能;语法校正功能;以及词汇增强功能。根据本发明的优选实施例,所述基于上下文的评分也至少部分地基于在因特网语料库中的标准化的CFS出现频率。附加地或可替换地,所述基于上下文的评分也至少部分地基于CFS重要性评分。另外,所述CFS重要性评分是以下项中的至少一个的函数词性标注和语句分析功能的操作;CFS长度;在CFS中的每一个词的出现频率和CFS类型。根据本发明的另一优选实施例,提供了一种计算机辅助语言校正系统,包括词汇增强功能,所述词汇增强功能包括词汇受挑战词识别功能;替换词汇增强产生功能;以及基于上下文的评分功能,其至少部分地基于上下文特征序列(CFS)在因特网语料库中的出现频率,所述替换词汇增强产生功能包括用于产生替换词汇增强的同义词词典预处理功能。上面概述的各种实施例可以组合或者包括一计算机辅助语言校正系统,该计算机辅助语言校正系统包括替换产生器,用于基于输入语句来产生基于文本的表示,所述基于文本的表示提供在所述语句中的多个词的每一个的多个替换;选择器,用于至少在所述语句的所述多个词的每一个的所述多个替换中进行选择;置信度分配器,用于向从所述多个替换选择的替换分配置信度;以及校正产生器,用于基于由所述选择器作出的选择和至少部分地基于所述置信度来提供校正输出。优选地,基于上下文特征序列(CFS)来评估所述多个替换,并且所述置信度基于以下参数中的至少一个所选择的CFS的数量、类型和评分;在所述CFS的上下文中,所述多个替换的出现频率的统计显著性的测量;在基于所述CFS的每一个的偏好度量和基于所述多个替换的词相似度评分而对所述多个替换之一进行的选择上的一致度;在第一预定最小阈值之上的所述多个替换中的所述一个的非上下文相似度评分;以及上下文数据的可获得的程度,所述程度由具有大于第二预定最小阈值的CFS评分并且具有在第三预定阈值之上的偏好评分的所述CFS的数量指示。上面概述的各种实施例可以组合或者包括一计算机辅助语言校正系统,该计算机辅助语言校正系统包括标点错误怀疑器,用于基于语言输入的特征语法在因特网语料库中的出现频率,基于所述语言输入中的至少一些词和标点在所述语言输入的上下文内的适合性来对所述至少一些词和标点进行评估;以及校正产生器,用于至少部分地基于由所述怀疑器执行的评估来提供校正输出。优选地,所述校正产生器包括下述功能中的至少一个丢失标点校正功能、多余标点校正功能和标点替代校正功能。上面概述的各种实施例可以组合或者包括一计算机辅助语言校正系统,该计算机辅助语言校正系统包括语法元素错误怀疑器,用于基于语言输入的特征语法在因特网语料库中的出现频率,基于所述语言输入中的至少一些词在所述语言输入的上下文内的适合性来对所述至少一些词进行评估;以及校正产生器,用于至少部分地基于由所述怀疑器执行的评估来提供校正输出。
优选地,所述校正产生器包括下述功能中的至少一个丢失语法元素校正功能、多余语法元素校正功能和语法元素替代校正功能。附加地或可替换地,所述语法元素是冠词、 介词和连词之一。


根据下面结合附图的详细描述,将更全面地理解和认识本发明,在附图中图1是根据本发明的一个优选实施例构造和操作的、用于计算机辅助语言校正的系统和功能的简化框示;图2是图示优选地在图1的系统和功能中使用的拼写校正功能的简化流程图;图3是图示优选地在图1的系统和功能中使用的误用词和语法校正功能的简化流程图;图4是图示优选地在图1的系统和功能中使用的词汇增强功能的简化流程图;图5是图示优选地在图1的系统和功能中使用的上下文特征序列(CFS)功能的简化框图。图6A是图示根据本发明的一个优选实施例的、形成图2的功能的一部分的拼写校正功能的简化流程图;图6B是图示根据本发明的一个优选实施例的、形成图3的功能的一部分的误用词和语法校正功能的简化流程图;图6C是图示根据本发明的一个优选实施例的、形成图4的功能的一部分的词汇增强功能的简化流程图;图7A是图示在图2和3的功能中有用的、用于产生替换校正的功能的简化流程图;图7B是图示在图4的功能中有用的、用于产生替换增强的功能的简化流程图;图8是图示用于对各个替换校正进行基于非上下文词相似度的评分和优选地使用因特网语料库的上下文评分的功能的简化流程图,该功能是在图2的拼写校正功能中有用的;图9是图示用于对各个替换校正进行基于非上下文词相似度的评分和优选地使用因特网语料库的上下文评分的功能的简化流程图,该功能是在图3、10和11的误用词和语法校正功能中和在图4的词汇增强功能中有用的;图10是图示丢失冠词、介词和标点校正功能的操作的简化流程图;图11是图示多余冠词、介词和标点校正功能的操作的简化流程图;图12是根据本发明的一个优选实施例构造和操作的、用于计算机辅助语言翻译和产生的系统和功能的简化框示;图13是优选地形成图12的系统和功能的一部分的语句检索功能的简化流程图;图14A和14B —起作为图示优选地形成图12的系统和功能的一部分的语句产生功能的简化流程图;以及图15是图示在图13、14A和14B的功能中有用的用于产生替换的功能的简化流程图。
具体实施例方式现在参考图1,图1是根据本发明的一个优选实施例构造和操作的、用于计算机辅助语言校正的系统和功能的简化框示。在图1中看出,用于校正的文本被从一个或多个来源提供到语言校正模块100,所述一个或多个来源非限制性地包括词处理器功能102、 机器翻译功能104、语音至文本转换功能106、光学字符识别功能108和任何其他文本来源 110,诸如即时消息或因特网。语言校正模块100优选地包括拼写校正功能112、误用词和语法校正功能114和词汇增强功能116。本发明的一个具体特征是拼写校正功能112、误用词和语法校正功能114和词汇增强功能116的每一个与上下文特征序列(CFS)功能118交互,CFS功能118使用因特网语料库120。为了在此描述的目的,上下文特征序列或CFS被定义为包括N元语法(N-gram)、略过语法(skip-gram)、转换语法(switch-gram)、共现(co-occurrence)、“用户先前使用特征”及其组合,它们又在后文中参考图5来定义。注意,为了描述的简单和清楚,随后的大多数示例仅使用η元语法。应当理解,本发明不限于此。因特网语料库的使用是重要的,因为它提供了用于极大数量的上下文特征序列的重要统计数据,产生高度鲁棒的语言校正功能。实际上,超过两个词的组合在传统的非因特网语料库中具有很差的统计,但是在因特网语料库中具有可接受的或良好的统计。因特网语料库是通常通过在因特网上抓取(crawl)并且从网页收集文本而从万维网收集的自然语言文本的大代表采样。优选地,也收集动态文本,诸如聊天副本、来自网络论坛的文本和来自博客的文本。所收集的文本用于累积关于自然语言文本的统计。与多达二十亿词的更通常的语料库大小相比,因特网语料库的大小可以例如是1万亿 (1,000, 000, 000, 000)词或几万亿词。诸如网络语料库的网络小采样包括100亿词,这远远小于由诸如GOOGLE 的搜索引擎编入索引的网络文本的百分之一。本发明可以用诸如网络语料库的网络采样来工作,但是优选地使用大得多的网络采样来用于文本校正任务。优选地,以下面两种方式之一来使用因特网语料库通过将CFS用作搜索查询来使用一个或多个因特网搜索引擎。每一个这样的查询的结果的数量提供了该CFS的出现频率。通过对因特网进行抓取和编索引,随着时间过去而建立本地索引。每一个CFS的出现次数提供了 CFS频率。本地索引以及搜索查询可以基于因特网的可选部分,并且可以用这些选择的部分来标识。类似地,因特网的部分可以被排除或被适当地加权,以便校正在因特网使用和一般语言使用之间的异常。以这种方式,在语言使用上可靠的网站(诸如新闻和政府网站)可以被赋予比其他网站(诸如聊天或用户论坛)更大的权重。优选地,输入文本首先被提供到拼写校正功能112,之后被提供到误用词和语法校正功能114。输入文本可以是任何适当的文本,并且在词处理的环境中,优选地是文档的一部分,诸如语句。词汇增强功能116优选地按照用户选项对已经被提供到拼写校正功能112 和误用词和语法校正功能114的文本进行操作。优选地,语言校正模块100提供包括校正后的文本的输出,所述校正后的文本伴随有针对每一个被校正词或每一组被校正词的一个或多个建议的替换。
现在参见图2,图2是图示优选地在图1的系统和功能中使用的拼写校正功能的简化流程图。如图2中所示,拼写校正功能优选地包括下面的步骤优选地使用传统的词典来识别在输入文本中的拼写错误,该词典具有丰富的在因特网上常用的正确的名称和词;将拼写错误分组为簇(cluster),该簇可以包括具有拼写错误的单个或多个词 (连续或几乎连续),并且选择要校正的簇。该选择试图找到包含最大量正确上下文数据的簇。优选地,选择在其附近具有最长的一个或多个正确拼写词序列的簇。后文中参考图6A 更详细地描述上述步骤。优选地基于后文参考图7A描述的算法来产生针对每一个簇的一个或优选地多个替换校正;优选地,基于后文参考图8描述的拼写校正替换评分算法,对各个替换校正进行至少部分基于非上下文词相似度的评分和优选地使用因特网语料库的上下文评分;对于每一个簇,基于上述评分,选择单个拼写校正,并且给出最优选的替换拼写校正;以及 提供校正后的文本输出,该校正后的文本输出包含针对每一个误拼写的簇的单个拼写校正,该单个拼写校正替代误拼写的簇。根据对以下示例的考虑,可以更好地理解图2的功能的操作接收下面的输入文本Physical ecudation can assits in strenghing muscles. Some students should eksersiv daily to inprove their strenth and helth becals thay ea so fate。下面的词被识别为拼写错误ecudation, assits ;strenghing ;eksersiv ;inprove ;strenth ;helth ;becals ; thay, eaD注意,“fate”未被识别为拼写错误,因为它出现在词典中。选择下面的簇,如表1中所示表 1
簇#簇1eksersiv2inprove their strenth3ecudation4assits in strenghing5helth becals thay ea 关于簇2,注意“their”被正确地拼写,但仍被包括在簇中,因为它被误拼写的词包围。
簇1 “eksersiv”被选择来进行校正,因为它在其附近具有最长的一个或多个正确拼写词序列。对于误拼写的词“eksersiv”产生下面的替换校正excessive, expressive, obsessive, assertive, exercise, extensive, exclusive, exertion, excised,exorcism。基于与误拼写的词的发音和字符串的相似度,向每一个替换校正赋予非上下文词相似度评分,例如如表2中所示表权利要求
1.一种计算机辅助语言产生系统,包括语句检索功能,其基于包含词的输入文本来操作,以从因特网语料库检索多个语句,所述多个语句包含与在所述输入文本中的所述词对应的词;以及语句产生功能,其使用由所述语句检索功能从所述因特网语料库检索的多个语句来操作,以产生表达出所述输入文本的至少一个正确的语句。
2.根据权利要求1所述的计算机辅助语言产生系统,并且其中,所述语句检索功能包括独立短语产生器,用于将所述输入文本划分为一个或多个独立短语; 词干产生器和分类器,用于对每一个独立短语进行操作,以产生词中出现的词干,并且向其分配重要性权重;以及替换产生器,用于产生与所述词干对应的替换词干。
3.根据权利要求2所述的计算机辅助语言产生系统,并且还包括词干到语句索引,所述词干到语句索引与所述因特网语料库交互,以检索所述多个语句,所述多个语句包含与在所述输入文本中的所述词对应的词。
4.根据前述权利要求中任一项所述的计算机辅助语言产生系统,并且其中,所述语句产生功能包括语句简化功能,用于简化从所述因特网语料库检索的所述语句; 简化语句分组功能,用于对由所述语句简化功能提供的类似的简化语句进行分组;以及简化语句组分级功能,用于对所述类似的简化语句的组进行分级。
5.根据权利要求4所述的计算机辅助语言产生系统,并且其中,所述简化语句组分级功能使用下面的准则中的至少一些来操作A.在组中包含的简化语句的数量;B.在所述组中的词的词干与在独立短语中的词干及其替换的对应度;C.所述组包括不与在所述独立短语中的词及其替换对应的词的程度。
6.根据权利要求5所述的计算机辅助语言产生系统,并且其中,所述简化语句组分级功能使用下面的过程的至少一部分来操作定义词干的所述权重,以指示词在语言中的重要性; 计算与准则B对应的正匹配分级; 计算与准则C对应的负匹配分级; 基于以下项来计算复合分级在组中包含的简化语句的所述数量,并且所述数量对应于准则A ; 所述正匹配分级;以及所述负匹配分级。
7.根据前述权利要求中任一项所述的计算机辅助语言产生系统,并且还包括 机器翻译功能,用于提供所述输入文本。
8.一种机器翻译系统,包括 机器翻译功能;语句检索功能,其基于由所述机器翻译功能提供的输入文本来操作,以从因特网语料库检索多个语句,所述多个语句包含与在所述输入文本中的词对应的词;以及语句产生功能,其使用由所述语句检索功能从所述因特网语料库检索的多个语句来操作,以产生表达出由所述机器翻译功能产生的所述输入文本的至少一个正确的语句。
9.根据权利要求7和8中任一项所述的系统,并且其中,所述机器翻译功能提供与在所述输入文本中的词对应的多个替换,并且所述语句检索功能用于从所述因特网语料库检索包括对应于所述替换的词的多个语句。
10.根据前述权利要求1-6中任一项所述的计算机辅助语言产生系统,其中,所述语言产生包括文本校正。
11.一种文本校正系统,包括语句检索功能,其基于由所述文本校正功能提供的输入文本来操作,以从因特网语料库检索多个语句,所述多个语句包含与在所述输入文本中的词对应的词;以及语句校正功能,其使用由所述语句检索功能从所述因特网语料库检索的多个语句来操作,以产生表达出所述输入文本的至少一个正确的语句。
12.根据前述权利要求1-6中任一项所述的计算机辅助语言产生系统,并且还包括 语句搜索功能,用于基于用户输入的查询词来提供所述输入文本。
13.一种语句搜索系统,包括语句搜索功能,用于基于用户输入的查询词来提供输入文本; 语句检索功能,其基于由所述语句搜索功能提供的所述输入文本来操作,以从因特网语料库检索多个语句,所述多个语句包含与在所述输入文本中的词对应的词;以及语句产生功能,其使用由所述语句检索功能从所述因特网语料库检索的多个语句来操作,以产生表达出由所述语句搜索功能产生的所述输入文本的至少一个正确的语句。
14.根据前述权利要求1-6中任一项所述的计算机辅助语言产生系统,并且还包括 语音至文本转换功能,用于提供所述输入文本。
15.一种语音至文本转换系统,包括 语音至文本转换功能,用于提供输入文本;语句检索功能,其基于由所述语句搜索功能提供的所述输入文本来操作,以从因特网语料库检索多个语句,所述多个语句包含与在所述输入文本中的词对应的词;以及语句产生功能,其使用由所述语句检索功能从所述因特网语料库检索的多个语句来操作,以产生表达出由所述语音至文本转换功能产生的所述输入文本的至少一个正确的语句。
16.根据前述权利要求中任一项所述的系统,并且还包括替换产生器,用于基于输入语句来产生基于文本的表示,所述基于文本的表示提供在所述语句中的多个词的每一个的多个替换;选择器,用于至少部分地基于因特网语料库来至少在所述语句的所述多个词的每一个的所述多个替换中进行选择;以及校正产生器,用于基于由所述选择器作出的选择来提供校正输出。
17.根据权利要求16所述的计算机辅助语言校正系统,其中,所述选择器用于基于以下校正功能中的至少一个来作出所述选择拼写校正;误用词校正; 语法校正;以及词汇增强。
18.根据权利要求16所述的系统,其中,所述选择器用于基于以下校正功能中的至少两个来作出所述选择拼写校正; 误用词校正; 语法校正;以及词汇增强。
19.根据权利要求18所述的系统,并且其中,所述选择器用于基于以下时序的校正中的至少一个来作出所述选择在误用词校正、语法校正和词汇增强的至少一个之前进行拼写校正;以及在词汇增强之前进行误用词校正和语法校正。
20.根据权利要求16-19中任一项所述的系统,并且其中 通过下面的功能之一来提供所述输入语句词处理器功能; 机器翻译功能; 语音至文本转换功能; 光学字符识别功能;以及即时消息传送功能;并且所述选择器用于基于以下校正功能中的至少一个来作出所述选择 误用词校正; 语法校正;以及词汇增强。
21.根据权利要求17-20中任一项所述的系统,并且其中,所述校正产生器包括校正语言输入产生器,所述校正语言输入产生器用于基于由所述选择器作出的选择来提供校正后的语言输出,而不要求用户介入。
22.根据权利要求17-21中任一项所述的系统,并且其中,所述语法校正功能包括标点校正功能、动词屈折变化校正功能、单数/复数校正功能、冠词校正功能和介词校正功能中的至少一个。
23.根据权利要求17-22中任一项所述的系统,并且其中,所述语法校正功能包括替代校正功能、插入校正功能和省略校正功能中的至少一个。
24.根据权利要求16-23中任一项所述的系统,其中,所述选择器包括基于上下文的评分功能,所述基于上下文的评分功能用于至少部分地基于上下文特征序列(CFS)在因特网语料库中的出现频率来对所述多个替换进行分级。
25.根据权利要求M所述的系统,并且其中,所述基于上下文的评分功能也用于至少部分地基于在所述因特网语料库中的标准化的CFS出现频率来对所述多个替换进行分级。
26.根据权利要求1-15中任一项所述的系统,并且还包括 以下功能中的至少一个拼写校正功能; 误用词校正功能; 语法校正功能;以及词汇增强功能;以及上下文特征序列功能,其与所述拼写校正功能、所述误用词校正功能、所述语法校正功能和所述词汇增强功能中的至少一个协同工作,并且使用因特网语料库。
27.根据权利要求沈所述的系统,并且其中,所述语法校正功能包括标点校正功能、动词屈折变化校正功能、单数/复数校正功能、冠词校正功能和介词校正功能中的至少一个。
28.根据权利要求沈或权利要求27所述的系统,并且其中,所述语法校正功能包括替代校正功能、插入校正功能和省略校正功能中的至少一个。
29.根据权利要求沈-28中任一项所述的系统,并且包括 以下功能中的至少两个所述拼写校正功能; 所述误用词校正功能; 所述语法校正功能;以及所述词汇增强功能,并且其中,所述上下文特征序列功能与所述拼写校正功能、所述误用词校正功能、所述语法校正功能和所述词汇增强功能中的至少两个协同工作,并且使用因特网语料库。
30.根据权利要求25-29中任一项所述的系统,并且包括 以下功能中的至少三个所述拼写校正功能; 所述误用词校正功能; 所述语法校正功能; 所述词汇增强功能,并且其中,所述上下文特征序列功能与所述拼写校正功能、所述误用词校正功能、所述语法校正功能和所述词汇增强功能中的至少三个协同工作,并且使用因特网语料库。
31.根据权利要求25-30中任一项所述的系统,并且包括所述拼写校正功能;所述误用词校正功能; 所述语法校正功能;以及所述词汇增强功能,并且其中,所述上下文特征序列功能与所述拼写校正功能、所述误用词校正功能、所述语法校正功能和所述词汇增强功能协同工作,并且使用因特网语料库。
32.根据权利要求25-31中任一项所述的系统,并且其中,所述校正产生器包括校正语言产生器,所述校正语言产生器用于基于由所述选择器作出的选择来提供校正后的语言输出,而不要求用户介入。
33.根据权利要求1-15中任一项所述的系统,并且包括替换产生器,用于基于语言输入来产生基于文本的表示,所述基于文本的表示提供在所述语句中的多个词的每一个的多个替换;选择器,用于至少部分地基于在所述语言输入中的所述多个词的至少一些的多个替换中选择的一些之间的关系,来至少在所述语言输入中的所述多个词的每一个的所述多个替换中进行选择;以及校正产生器,用于基于由所述选择器作出的选择来提供校正输出。
34.根据权利要求33所述的系统,并且其中,所述语言输入包括输入语句和输入文本中的至少一个。
35.根据权利要求33或权利要求34所述的系统,并且其中,所述语言输入是语音,并且所述产生器将语音形式的所述语言输入转换为基于文本的表示,所述基于文本的表示提供在所述语言输入中的多个词的多个替换。
36.根据权利要求33或权利要求34所述的系统,并且其中, 所述语言输入是以下项中的至少一个文本输入;光学字符识别功能的输出; 机器翻译功能的输出;以及词处理功能的输出,并且所述产生器将文本形式的所述语言输入转换为基于文本的表示,所述基于文本的表示提供在所述语言输入中的多个词的多个替换。
37.根据权利要求32-36中任一项所述的系统,并且其中,所述选择器用于基于以下校正功能中的至少两个来作出所述选择拼写校正; 误用词校正; 语法校正;以及词汇增强。
38.根据权利要求37所述的系统,并且其中,所述选择器用于基于以下时序的校正中的至少一个来作出所述选择在误用词校正、语法校正和词汇增强中的至少一个之前进行拼写校正;以及在词汇增强之前进行误用词校正和语法校正。
39.根据权利要求33-38中任一项所述的系统,并且其中,所述语言输入是语音,并且所述选择器用于基于以下校正功能中的至少一个来作出所述选择误用词校正; 语法校正;以及词汇增强。
40.根据权利要求33-39中任一项所述的系统,并且其中,所述选择器用于通过执行以下功能中的至少两个来作出所述选择选择第一词集合或词组合,所述第一词集合或词组合包括的词少于在所述语言输入中用于初始选择的所有所述多个词;其后,对所述第一词集合或词组合的元素进行排序,以建立选择的优先级;并且其后,当在所述第一词集合的元素的多个替换中进行选择时,选择所述多个词中的其他词但是不是所有词来作为上下文,以影响所述选择。
41.根据权利要求33-40中任一项所述的系统,并且其中,所述选择器用于通过执行以下功能来作出所述选择当对于具有至少两个词的元素进行选择时,结合所述至少两个词彼此的另一个词的多个替换的每一个替换来对所述至少两个词的每一个词的多个替换的每一个替换进行评估。
42.根据权利要求33-41中任一项所述的系统,并且其中,所述校正产生器包括校正语言输入产生器,所述校正语言输入产生器用于基于由所述选择器作出的选择来提供校正后的语言输出,而不要求用户介入。
43.根据权利要求1-15中任一项所述的系统,并且还包括误用词怀疑器,用于基于语言输入中的至少大多数词在所述语言输入的上下文中的适合性来评估所述至少大多数词;以及校正产生器,用于至少部分地基于由所述怀疑器执行的评估来提供校正输出。
44.根据权利要求43所述的系统,并且还包括替换产生器,用于基于所述语言输入来产生基于文本的表示,所述基于文本的表示提供在所述语言输入中的所述至少大多数词中至少一个的多个替换;以及选择器,用于至少在所述语言输入中的所述至少大多数词的所述至少一个中每一个的所述多个替换中进行选择;并且其中所述校正产生器用于基于由所述选择器作出的选择来提供所述校正输出。
45.根据权利要求43或44所述的系统,并且还包括可疑词输出指示器,用于指示在所述语言输入中的所述至少大多数词的至少一些被怀疑为误用词的程度。
46.根据权利要求43-45中任一项所述的系统,并且其中,所述校正产生器包括自动校正语言产生器,所述自动校正语言产生器用于至少部分地基于由所述怀疑器执行的评估来提供校正后的文本输出,而不要求用户介入。
47.根据权利要求43-46中任一项所述的系统,并且其中,所述语言输入是语音,并且所述选择器用于基于以下校正功能中的至少一个来作出所述选择误用词校正; 语法校正;以及词汇增强。
48.根据权利要求1-15中任一项所述的系统,并且还包括 误用词怀疑器,用于评估在语言输入中的词;替换产生器,用于产生所述语言输入中被所述怀疑器评估为可疑词的词中的至少一些的多个替换,在所述语言输入中的词的所述多个替换的至少一个与在因特网语料库中的所述语言输入中的所述词的上下文特征一致;选择器,用于至少在所述多个替换之间进行选择;以及校正产生器,用于至少部分地基于由所述选择器作出的选择来提供校正输出。
49.根据权利要求1-15中任一项所述的系统,并且还包括 误用词怀疑器,用于评估在语言输入中的词,并且识别可疑词; 替换产生器,用于产生所述可疑词的多个替换;选择器,用于根据多个选择准则来对每一个所述可疑词以及由所述替换产生器为其产生的所述多个替换的一些进行评级,并且相对于由所述替换产生器为其产生的所述多个替换的一些应用有利于所述可疑词的偏置;以及校正产生器,用于至少部分地基于由所述选择器作出的选择来提供校正输出。
50.根据权利要求1-15中任一项所述的系统,并且还包括替换产生器,用于基于输入来产生在所述输入中的至少一个词的多个替换; 选择器,用于根据多个选择准则来对每一个所述至少一个词以及由所述替换产生器为其产生的所述多个替换的一些进行评级,并且相对于由所述替换产生器为其产生的所述多个替换的一些应用有利于所述至少一个词的偏置,所述偏置是用于指示人提供所述输入的不确定性的输入不确定性度量的函数;以及校正产生器,用于基于由所述选择器作出的选择来提供校正输出。
51.根据权利要求1-15中任一项所述的系统,并且还包括错误词怀疑器,用于对语言输入中的至少大多数词进行评估,所述怀疑器至少部分地对用于指示人提供所述输入的不确定性的输入不确定性度量进行响应,所述怀疑器提供可疑错误词输出;以及替换产生器,用于产生由所述可疑错误词输出识别的可疑错误词的多个替换; 选择器,用于在每一个可疑错误词和由所述替换产生器产生的所述多个替换中进行选择;以及校正产生器,用于基于由所述选择器作出的选择来提供校正输出。
52.根据权利要求1-15中任一项所述的系统,并且还包括拼写校正模块、误用词校正模块、语法校正模块和词汇增强模块中的至少一个,用于接收多词输入并且提供校正输出,拼写校正模块、误用词校正模块、语法校正模块和词汇增强模块中的所述至少一个的每一个包括替换词候选产生器,所述替换词候选产生器包括语音相似度功能,用于基于与在所述输入中的词的语音相似度来提出替换词,并且指示语音相似度的度量;以及字符串相似度功能,用于基于与在所述输入中的词的字符串相似度来提出替换词,并且指示每一个替换词的字符串相似度的度量;以及选择器,用于通过将所述语音相似度的度量和字符串相似度的度量与基于上下文的选择功能一起使用,来选择在所述输出中的词或由所述替换词候选产生器提出的替换词候选。
53.根据权利要求1-15中任一项所述的系统,并且还包括可疑词识别功能,用于接收多词语言输入,并且提供指示可疑词的可疑词输出; 特征识别功能,用于识别包括所述可疑词的特征; 替换选择器,用于识别对于所述可疑词的替换;特征出现功能,用于使用语料库并提供出现输出,所述出现输出按照包括所述替换的各个特征在所述语料库中的使用频率将所述各个特征进行分级;以及选择器,用于使用所述出现输出来提供校正输出,所述特征识别功能包括特征过滤功能,所述特征过滤功能包括下述功能中的至少一用于消除包含可疑错误的特征的功能;用于对包含在所述多词输入的早期校正迭代中引入的词并且具有小于置信度预定阈值的置信度的特征进行负偏置的功能;以及用于消除被包含在具有大于预定频率阈值的出现频率的另一个特征中的特征的功能。
54.根据权利要求48-53中任一项所述的系统,并且其中,所述选择器用于基于以下校正功能中的至少两个来作出所述选择拼写校正; 误用词校正; 语法校正;以及词汇增强。
55.根据权利要求M所述的系统,并且其中,所述选择器用于基于以下时序的校正中的至少一个来作出所述选择在误用词校正、语法校正和词汇增强中的至少一个之前进行拼写校正;以及在词汇增强之前进行误用词校正和语法校正。
56.根据权利要求48-55中任一项所述的系统,并且其中,所述语言输入是语音,并且所述选择器用于基于以下校正功能中的至少一个来作出所述选择语法校正;和误用词校正;以及词汇增强。
57.根据权利要求48-56中任一项所述的系统,并且其中,所述校正产生器包括校正语言输入产生器,所述校正语言输入产生器用于基于由所述选择器作出的选择来提供校正后的语言输出,而不要求用户介入。
58.根据权利要求48、49和52-57中任一项所述的系统,并且其中,所述选择器也用于至少部分地基于用户输入不确定性度量来作出所述选择。
59.根据权利要求58所述的系统,并且其中,所述用户输入不确定性度量是基于人提供所述输入的不确定性测量的函数。
60.根据权利要求48-59中任一项所述的系统,并且其中,所述选择器也使用用户输入历史学习功能。
61.根据权利要求1-15中任一项所述的系统,并且还包括可疑词识别功能,用于接收多词语言输入并且提供指示可疑词的可疑词输出; 特征识别功能,用于识别包括所述可疑词的特征; 替换选择器,用于识别对于所述可疑词的替换;出现功能,用于使用语料库并且提供出现输出,所述出现输出按照包括所述替换的特征在所述语料库中的使用频率将包括所述特征进行分级;以及校正输出产生器,用于使用所述出现输出来提供校正输出, 所述特征识别功能包括 下述功能中的至少一个 N元语法识别功能;和共现识别功能;以及下述功能中的至少一个 略过语法识别功能; 转换语法识别功能;以及用户先前使用特征识别功能。
62.根据权利要求1-15中任一项所述的系统,并且还包括语法错误怀疑器,用于基于语言输入中的至少大多数词在所述语言输入的上下文中的适合性来对所述至少大多数词进行评估;以及校正产生器,用于至少部分地基于由所述怀疑器执行的评估来提供校正输出。
63.根据权利要求62所述的系统,并且还包括替换产生器,用于基于所述语言输入来产生基于文本的表示,所述基于文本的表示提供在所述语言输入中的所述至少大多数词中至少一个的多个替换;以及选择器,用于至少在所述语言输入中的所述至少大多数词的所述至少一个中每一个的所述多个替换中进行选择,并且其中所述校正产生器用于基于由所述选择器作出的选择来提供所述校正输出。
64.根据权利要求62或63所述的系统,并且还包括可疑词输出指示器,用于指示在所述语言输入中的所述至少大多数词的至少一些被怀疑为包含语法错误的程度。
65.根据权利要求62-64中任一项所述的系统,并且其中,所述校正产生器包括自动校正语言产生器,所述自动校正语言产生器用于至少部分地基于由所述怀疑器执行的评估来提供校正后的文本输出,而不要求用户介入。
66.根据权利要求1-15中任一项所述的系统,并且还包括 语法错误怀疑器,用于对语言输入中的词进行评估;替换产生器,用于产生所述语言输入中被所述怀疑器评估为可疑词的词的至少一些的多个替换,在所述语言输入中的词的所述多个替换的至少一个与在所述语言输入中的所述词的上下文特征一致;选择器,用于至少在所述多个替换中进行选择;以及校正产生器,用于至少部分地基于由所述选择器作出的选择来提供校正输出。
67.根据权利要求1-15中任一项所述的系统,并且还包括 语法错误怀疑器,用于评估在语言输入中的词并且识别可疑词; 替换产生器,用于产生所述可疑词的多个替换;选择器,用于根据多个选择准则来对每一个所述可疑词以及由所述替换产生器为其产生的所述多个替换的一些进行评级,并且相对于由所述替换产生器为其产生的所述多个替换的一些应用有利于所述可疑词的偏置;以及校正产生器,用于至少部分地基于由所述选择器作出的选择来提供校正输出。
68.根据权利要求66或权利要求67所述的系统,并且其中,所述校正产生器包括校正语言输入产生器,所述校正语言输入产生器用于基于由所述选择器作出的选择来提供校正后的语言输出,而不要求用户介入。
69.根据权利要求1-15中任一项所述的系统,并且还包括至少部分地基于上下文特征序列(ere)在因特网语料库中的出现频率对各个替换校正进行基于上下文的评分。
70.根据权利要求69所述的系统,并且还包括与所述基于上下文的评分协同工作的下述功能中的至少一个拼写校正功能; 误用词校正功能; 语法校正功能;以及词汇增强功能。
71.根据权利要求69或权利要求70所述的系统,并且其中,所述基于上下文的评分也至少部分地基于在因特网语料库中的标准化的CFS出现频率。
72.根据权利要求69-71中任一项所述的系统,并且其中,所述基于上下文的评分也至少部分地基于CFS重要性评分。
73.根据权利要求69-71中任一项所述的系统,并且其中,所述CFS重要性评分是以下项中的至少一个的函数词性标注和语句分析功能的操作;CFS长度;在CFS中的每一个词的出现频率和CFS类型。
74.根据权利要求1-15中任一项所述的系统,并且还包括词汇增强功能,所述词汇增强功能包括词汇受挑战词识别功能; 替换词汇增强产生功能;以及基于上下文的评分功能,其至少部分地基于上下文特征序列(CFS)在因特网语料库中的出现频率,所述替换词汇增强产生功能包括用于产生替换词汇增强的同义词词典预处理功能。
75.根据权利要求1-15中任一项所述的系统,并且还包括替换产生器,用于基于输入语句来产生基于文本的表示,所述基于文本的表示提供在所述语句中的多个词的每一个的多个替换;选择器,用于至少在所述语句的所述多个词的每一个的所述多个替换中进行选择; 置信度分配器,用于向从所述多个替换中选择的替换分配置信度;以及校正产生器,用于基于由所述选择器作出的选择和至少部分地基于所述置信度来提供校正输出。
76.根据权利要求75所述的系统,并且其中,基于上下文特征序列(CFS)来评估所述多个替换,并且所述置信度基于以下参数中的至少一个所选择的CFS的数量、类型和评分;在所述CFS的上下文中,所述多个替换的出现频率的统计显著性的测量; 在基于所述CFS的每一个的偏好度量和基于所述多个替换的词相似度评分而对所述多个替换中的一个进行的选择上的一致度;在第一预定最小阈值之上的所述多个替换中的所述一个的非上下文相似度评分;以及上下文数据的可获得的程度,所述程度由具有大于第二预定最小阈值的CFS评分并且具有在第三预定阈值之上的偏好评分的所述CFS的数量指示。
77.根据权利要求1-15中任一项所述的系统,并且还包括标点错误怀疑器,用于基于语言输入的特征语法在因特网语料库中的出现频率,基于所述语言输入中的至少一些词和标点在所述语言输入的上下文内的适合性来对所述至少一些词和标点进行评估;以及校正产生器,用于至少部分地基于由所述怀疑器执行的评估来提供校正输出。
78.根据权利要求77所述的系统,并且其中,所述校正产生器包括下述功能中的至少一个丢失标点校正功能、多余标点校正功能和标点替代校正功能。
79.根据权利要求1-15中任一项所述的系统,并且还包括语法元素错误怀疑器,用于基于语言输入的特征语法在因特网语料库中的出现频率, 基于所述语言输入中的至少一些词在所述语言输入的上下文内的适合性来对所述至少一些词进行评估;以及校正产生器,用于至少部分地基于由所述怀疑器执行的评估来提供校正输出。
80.根据权利要求79所述的系统,并且其中,所述校正产生器包括下述功能中的至少一个丢失语法元素校正功能、多余语法元素校正功能和语法元素替代校正功能。
81.根据权利要求79或权利要求80所述的系统,并且其中,所述语法元素是冠词、介词和连词之一。
全文摘要
一种计算机辅助语言产生系统,包括语句检索功能,其基于包含词的输入文本来操作,以从因特网语料库检索多个语句,所述多个语句包含与在所述输入文本中的所述词对应的词;以及语句产生功能,其使用由所述语句检索功能从所述因特网语料库检索的多个语句来操作,以产生表达出所述输入文本的至少一个正确的语句。
文档编号G06F17/20GK102165435SQ200980138185
公开日2011年8月24日 申请日期2009年2月4日 优先权日2007年8月1日
发明者Y·卡罗夫赞格威尔 申请人:金格软件有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1