一种中式英语的发现方法及系统与流程

文档序号:12863800阅读:168来源:国知局
一种中式英语的发现方法及系统与流程

本发明涉及自然语言理解、文本处理技术领域,具体涉及一种中式英语的发现方法及系统。



背景技术:

在国内,英语作为基础教学科目,贯穿每个涉及英语应用者的学习生涯。随着教育信息化技术的不断发展,传统的教学模式发生了较大变化,各种智能教与学系统已逐渐应用在日常教学中,如自动批改、学情诊断等。英语作文的自动批改已成为智能教学中一个重要的组成部分,而中式英语作为英语作文中常见的错误,其检出的准确性直接影响整个作文批改的结果,因此中式英语的发现一直是相关领域人员研究的热点。

现有的中式英语的发现多是基于资源的方法,如图1所示,主要包括:预先收集网络资源,构建中式英语集;然后判断作文中是否存在预先构建的中式英语集中的中式英语。现有方法的可靠性、准确性完全依赖于预先构建的中式英语集是否涵盖所有可能出现的中式英语,而在现实应用中,因资源的缺乏,以及中式英语错误也是因人而异、千变万化的,想要做到构建一个涵盖所有可能的中式英语集是不可能的,因而现有的中式英语发现方法效果不佳。



技术实现要素:

本发明实施例提供一种中式英语的发现方法及系统,以解决现有技术基于资源发现中式英语的方法准确率低的问题。

为此,本发明实施例提供如下技术方案:

一种中式英语的发现方法,包括:

获取待检测英语语句;

获取所述待检测英语语句中各词的主题信息;

基于各词的主题信息生成所述待检测英语语句中的搭配词;

确定搭配词中是否存在中式英语搭配词;

如果是,则确定待检测英语语句包含中式英语;

如果否,则确定待检测英语语句不包含中式英语。

优选地,所述方法还包括:预先构建主题抽取模型;

所述获取所述待检测英语语句中各词的主题信息包括:

基于所述主题抽取模型获取所述待检测英语语句中各词的主题信息。

优选地,构建主题抽取模型包括:

收集自然英语语料,并对所述自然英语语料中的各词进行主题标注;

根据所述自然英语语料及其主题标注信息训练得到主题抽取模型。

优选地,所述方法还包括:预先构建搭配词质量判断模型;

所述确定搭配词中是否存在中式英语搭配词包括:

基于所述搭配词质量判断模型确定各搭配词的质量;

如果所述搭配词为高质量搭配词,并且预先构建的搭配词库中没有与其相匹配的搭配词,则确定所述搭配词为中式英语搭配词。

优选地,所述构建搭配词质量判断模型包括:

收集自然英语语料,并对所述自然英语语料中的各词进行主题标注;

基于各词的主题标注信息生成自然英语语料中的搭配词;

提取搭配词特征,并标注搭配词质量,所述搭配词特征包括以下任意一种或多种:搭配词的共现频度、搭配词中不同词之间的点互信息、搭配词中每个词的逆向文档频率、搭配词中停用词的数量、当前搭配词的共现频度与频度最小的子搭配词的频度比;

根据所述搭配词特征及质量标注信息训练得到搭配词质量判断模型。

优选地,所述方法还包括:

以视觉和/或听觉的形式,展现包含中式英语的英语语句和/或中式英语搭配词;和/或

如果所述待检测英语语句包含中式英语,则以视觉和/或听觉的形式进行提示。

一种中式英语的发现系统,包括:

语句获取模块,用于获取待检测英语语句;

主题获取模块,用于获取所述待检测英语语句中各词的主题信息;

搭配词生成模块,用于基于各词的主题信息生成所述待检测英语语句中的搭配词;

确定模块,用于确定搭配词中是否存在中式英语搭配词;如果是,则确定待检测英语语句包含中式英语;如果否,则确定待检测英语语句不包含中式英语。

优选地,所述系统还包括:

第一模型构建模块,用于预先构建主题抽取模型;

所述主题获取模块具体用于基于所述主题抽取模型获取所述待检测英语语句中各词的主题信息。

优选地,所述第一模型构建模块包括:

第一语料收集单元,用于收集自然英语语料;

第一主题标注单元,用于对所述自然英语语料中的各词进行主题标注;

第一模型训练单元,用于根据所述自然英语语料及其主题标注信息训练得到主题抽取模型。

优选地,所述系统还包括:

第二模型构建模块,用于预先构建搭配词质量判断模型;

所述确定模块具体用于基于所述搭配词质量判断模型确定各搭配词的质量;如果所述搭配词为高质量搭配词,并且预先构建的搭配词库中没有与其相匹配的搭配词,则确定所述搭配词为中式英语搭配词。

优选地,所述第二模型构建模块包括:

第二语料收集单元,用于收集自然英语语料;

第二主题标注单元,用于对所述自然英语语料中的各词进行主题标注;

生成单元,用于基于各词的主题标注信息生成自然英语语料中的搭配词;

特征提取单元,用于提取搭配词特征,所述搭配词特征包括以下任意一种或多种:搭配词的共现频度、搭配词中不同词之间的点互信息、搭配词中每个词的逆向文档频率、搭配词中停用词的数量、当前搭配词的共现频度与频度最小的子搭配词的频度比;

质量标注单元,用于标注搭配词质量;

第二模型训练单元,用于根据所述搭配词特征及质量标注信息训练得到搭配词质量判断模型。

优选地,所述系统还包括:

展现模块,用于以视觉和/或听觉的形式,展现包含中式英语的英语语句和/或中式英语搭配词;和/或

提示模块,用于如果所述待检测英语语句包含中式英语,则以视觉和/或听觉的形式进行提示。

本发明实施例提供的中式英语的发现方法及系统,通过获取待检测英语语句中各词的主题信息,然后基于各词的主题信息获取所述待检测英语语句的搭配词,接着判断各搭配词是否为中式英语搭配词,最终根据待检测英语语句是否包含中式英语搭配词来判断待检测英语语句是否包含中式英语。传统的中式英语集由于中式英语错误是无法穷举的导致该中式英语集难以收集,而本发明基于搭配词判断待检测英语语句是否包含中式英语,自然英语中搭配词数量是有限的,因而可以预先构建一个自然英语搭配词的语料库,利用待检测英语语句中的搭配词在该语料库中进行匹配,以判断各搭配词是否为中式英语搭配词,进而提高判断待检测英语语句是否包含中式英语的正确率。

进一步地,本发明将搭配词分为质量高和质量低两类,然后判断高质量的搭配词是否为中式英语搭配词,其中,质量高搭配词指常见的词组合或常见的词搭配形式,质量低搭配词指其余搭配词,这样可以进一步解决由于英语语句或英语语句的词搭配形式多样,导致将低质量搭配词误判为中式英语的问题,以提高中式英语发现的准确率。

进一步地,本发明可以基于预先构建的主题抽取模型获取所述待检测英语语句中各词的主题信息,简单高效且准确率高。

进一步地,本发明可以基于预先构建的搭配词质量判断模型判断各搭配词的质量,简单高效且准确率高。

进一步地,本发明可以利用所述搭配词质量判断模型判断各搭配词的质量,所述搭配词特征可以包括以下任意一种或多种:搭配词的共现频度、搭配词中不同词之间的点互信息、搭配词中每个词的逆向文档频率、搭配词中停用词的数量、当前搭配词的共现频度与频度最小的子搭配词的频度比。通过多种 特征从多个角度判断各搭配词的质量,能有效提升判断各搭配词的质量的准确度。

进一步地,本发明考虑到人工投入量及效率问题,所述训练搭配词选取原则是涵盖各种搭配类型,如动+名、形容词+名词等,在同一类型中优先选取词频较高的搭配词进行搭配词质量标注。这样可以有效降低人工投入量,提升效率。

进一步地,本发明提供的预先构建的语料库为正确语料库,由于自然英语中搭配词数量有限,构建该语料库更加容易,例如英汉大辞典中出现的搭配词或者常见的动+名词、形容词+名词搭配等可以收入正确语料库。

进一步地,本发明还可以以视觉和/或听觉的形式,展现包含中式英语的英语语句和/或中式英语搭配词;和/或如果所述待检测英语语句包含中式英语,则以视觉和/或听觉的形式进行提示,并给出一些展现方式,以便审阅者和/或作者发现错误,并进行纠正。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。

图1是现有技术发现中式英语的方法的一种流程图;

图2是本发明实施例提供的中式英语的发现方法的一种流程图;

图3是本发明实施例提供的构建主题抽取模型的方法的一种流程图;

图4是本发明实施例提供的确定搭配词中是否存在中式英语搭配词的方法的一种流程图;

图5是本发明实施例提供的构建搭配词质量判断模型的方法的一种流程图;

图6是本发明实施例提供的中式英语的发现系统的一种结构示意图;

图7是本发明实施例提供的第一模型构建模块的一种结构示意图;

图8是本发明实施例提供的第二模型构建模块的一种结构示意图;

图9是本发明实施例提供的中式英语的发现系统的另一种结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明作进一步的详细说明。以下实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。

本发明提供的中式英语的发现方法及系统,通过对待检测英语语句进行主题抽取,根据句子中各主题生成搭配词,然后基于搭配词判断待检测英语语句是否包含中式英语,其中,搭配词指同一语句中主题相同的词组合。传统的中式英语集由于中式英语错误是无法穷举的,导致该中式英语集难以收集;而本发明基于搭配词判断待检测英语语句是否包含中式英语,自然英语中搭配词数量是有限的,,因而可以构建出一个英语集涵盖所有自然英语中搭配词,能有效提升中式英语发现的准确率。此外,还可以对搭配词进行分类处理,例如将搭配词分为质量高和质量低两类,然后判断高质量的搭配词是否为中式英语搭配词,其中,质量高的搭配词可以指常见的词组合或常见的词搭配形式,质量低的搭配词可以指其余搭配词(如不常见搭配词),这样可以进一步解决由于英语语句或英语语句的词搭配形式多样,导致将低质量搭配词误判为中式英语的问题。

为了更好的理解本发明的技术方案和技术效果,以下将结合流程图和具体的实施例进行详细的描述。

如图2所示,是本发明实施例提供的中式英语的发现方法的一种流程图,包括以下步骤:

步骤s01,获取待检测英语语句。

在本实施例中,所述待检测英语语句可以是用户以文字形式输入的英语语句,也可以是用户输入的英语语音,通过语音识别等方法将该英语语音转换为文字形式,此外,还可以是用户获取的图像信息等,然后通过光学字符识别(opticalcharacterrecognition,ocr)等技术获取英语语句,在此不做限定。

在一个具体实施例中,对考生的英语考试答案进行扫描,获取考生的英语考试答案图像,然后通过ocr技术获取答案中各英语语句。

步骤s02,获取所述待检测英语语句中各词的主题信息。

在本实施例中,所述主题信息是自然语言统计信息。当采用词集的形式对自然语料进行表述时,其维度会非常高,通过主题表述自然语料,可以达到降维的目的;此外,通过主题信息可以更好的挖掘词语中的隐含关系。实际应用中,可以假设有k种主题,这些主题中每个主题在其认知范围内都有一个能表达这个主题的词集,而这k个主题混合在一起形成了各种文档等。其中,主题数目可以由大量实验获取,该主题数目达到最优值的指标是使得在该主题数目时得到的搭配能涵盖自然语料中所有的搭配;确定主题数目过程中也会利用经验等进行确定,一般主题数目设置为50种。

在实际应用中,可以通过主题抽取模型获取所述待检测英语语句中各词的主题信息,具体地,主题抽取模型可以为:文档主题生成模型(latentdirichletallocation,lda)。

步骤s03,基于各词的主题信息生成所述待检测英语语句中的搭配词。

在本实施例中,所述待检测英语语句中主题信息相同的各词构成一个搭配词。在实际应用中,将在一个句子中属于同一个主题的各词,按照其在句子中的顺序,生成各搭配词,每个搭配词至少含有两个词。

步骤s04,确定搭配词中是否存在中式英语搭配词;如果是,则确定待检测英语语句包含中式英语;如果否,则确定待检测英语语句不包含中式英语。

在本实施例中,可以基于预先构建的自然英语搭配词库确定所述搭配词是否为中式英语搭配词。具体地,可以预先构建自然英语搭配词库,如果当前搭配词在自然英语搭配词库中存在,则确定当前搭配词不是中式英语搭配词,如果当前搭配词在自然英语搭配词库中不存在,则确定当前搭配词是中式英语搭配词。此外,也可以预先构建中式英语的搭配词库,如果当前搭配词在中式英语的搭配词库中存在,则确定当前搭配词是中式英语,如果当前搭配词在中式英语的搭配词库中不存在,则确定当前搭配词不是中式英语。当然,还可以同时构建两个或多个搭配词库,例如:自然英语搭配词库和中式英语搭配词库,如果当前搭配词在自然英语搭配词库中不存在,则继续在中式英语搭配词库中进行匹配,如果存在匹配结果,则确定当前搭配词是中式英语搭配词,如果不存在匹配结果,则确定当前搭配词不是中式英语搭配词,这样可以进一步提高 中式英语发现的准确率。以上仅是通过预先构建的搭配词库确定搭配词中是否存在中式英语搭配词的示例,还可以存在其它形式的设定、使用顺序或搭配组合,以上示例不能理解为对本发明的限定。

进一步地,所述方法还可以包括:以视觉和/或听觉的形式,展现包含中式英语的英语语句和/或中式英语搭配词;和/或如果所述待检测英语语句包含中式英语,则以视觉和/或听觉的形式进行提示;例如,语音播报:存在中式英语等。在实际应用中,可以采用以下任意一种或多种方式展现包含中式英语的英语语句和/或中式英语搭配词:

采用高亮或区别于其它展现内容的颜色显示包含中式英语的英语语句和/或中式英语搭配词;

展现包含中式英语的英语语句和/或中式英语搭配词对应的候选纠正英语语句和/或英语搭配词,并标记包含中式英语的英语语句和/或中式英语搭配词。

当然还可以以其它展现方式进行展现,在此不作限定。

在本发明实施例中,通过获取待检测英语语句中各词的主题信息,并基于各词的主题信息生成所述待检测英语语句中的搭配词,然后判断各搭配词是否为中式英语搭配词,最终通过判断待检测英语语句中是否包含所述中式英语搭配词来确定待检测英语语句是否包含中式英语。由于基于主题信息生成的搭配词能表示当前主题,且自然英语搭配词的数量有限,因而可以构建出一个涵盖所有自然英语搭配词的搭配词库,利用该搭配词库能有效判断当前搭配词是否为中式英语搭配词,最终通过判断待检测英语语句中是否包含所述中式英语搭配词来确定待检测英语语句是否包含中式英语,提高了发现中式英语的准确率。

在另一个实施例中,所述获取所述待检测英语语句中各词的主题信息包括:基于所述主题抽取模型获取所述待检测英语语句中各词的主题信息。对此,本发明还提供了一种构建主题抽取模型的方法,如图3所示,为一种构建主题抽取模型的方法的流程图。构建主题抽取模型包括以下步骤:

步骤s31,收集自然英语语料,并对所述自然英语语料中的各词进行主题标注。

在本实施例中,所述自然英语语料,可以为从网络上或已有的语料库中收 集的自然英语语料,如英语小说、英语论文、英语剧本、英语试题标准答案等。此外,还可以针对不同的需求筛选英语语料,例如美式英语、英式英语等;然后对所述自然英语语料中的各词进行主题标注。需要说明的是,标注信息可以是通过人工标注的方式对收集的自然英语语料进行标注,当然也可以是直接收集已经具有主题标注信息的自然英语语料,在此不做限定。

步骤s32,根据所述自然英语语料及其主题标注信息训练得到主题抽取模型。

在本实施例中,所述主题抽取模型可以为lda模型,所述主题抽取模型的输入为英语语句,输出为该英语语句中各词的主题信息,通过将步骤s31中收集的自然英语语料输入所述主题抽取模型,通过调整模型参数,使得所述主题抽取模型输出的结果趋近于预先标注的各词的主题信息,以训练所述主题抽取模型。

在一个具体实施例中,以ilikethisskateverymuch为例进行说明,预先标注好主题信息的该英语语句可以为:i:1like:2this:3skate:3very:2much:2,每个词后面的数字则代表该词所属的主题,即该词的主题信息。预先确定所述主题抽取模型的主题数目,将ilikethisskateverymuch输入所述主题抽取模型,通过调整模型参数,使得所述主题抽取模型输出的结果趋近于i:1like:2this:3skate:3very:2much:2,通过大量的自然英语语料训练所述主题抽取模型,以获取训练好的所述主题抽取模型。其中,搭配词有两个,分别为:likeverymuch和thisskate。

本发明实施例可以基于预先构建的主题抽取模型获取所述待检测英语语句中各词的主题信息,简单高效且准确率高。

在其它实施例中,本发明在生成所述待检测英语语句中的搭配词之后,还判断各搭配词的质量,对质量高和质量低的搭配词进行区别处理,以进一步提升中式英语搭配词检测的正确率,如图4所示,为本发明提供的一种确定搭配词中是否存在中式英语搭配词的流程图,包括:

步骤s41,基于所述搭配词质量判断模型确定各搭配词的质量。

在本实施例中,所述搭配词质量判断模型可以是支持向量机(supportvectormachine,svm),也可以是基于随机森林等算法训练的分类器,在此不 做限定。其中,所述搭配词质量判断模型的输入是一维或多维的搭配词特征,输出是搭配词的质量:质量高、质量低。搭配词的质量表征的是该搭配词是否为常见搭配词或常见的词搭配方式,如:动词+名词、形容词+名词的搭配方式等。

需要说明的是,还可以基于规则等方式确定各搭配词的质量,例如,根据针对各搭配词特征设定对应的阈值,根据该阈值进行质量判断,该阈值可以是根据经验和大量实验确定的,在此不做限定。

步骤s42,如果所述搭配词为高质量搭配词,并且预先构建的搭配词库中没有与其相匹配的搭配词,则确定所述搭配词为中式英语搭配词。

在本实施例中,通过本步骤对搭配词进行区别处理,可以进一步解决由于英语语句或英语语句的词搭配形式多样,导致将低质量搭配词误判为中式英语的问题,以提高中式英语发现的准确率。

需要说明的是,本实施例所举的搭配词库为自然英语的搭配词库,即正确语料库,由于正确搭配词数量有限,构建该语料库更加容易,例如英汉大辞典中出现的搭配词或者常见的动+名词、形容词+名词搭配等可以收入正确语料库。当然,也可以为中式英语的搭配词库,将在该库中匹配到的搭配词作为中式英语搭配词。还可以是两个或两个以上搭配词库组合使用以提升使用效果,在此不做限定。

在又一个实施例中,本发明实施例还提供了一种构建搭配词质量判断模型的方法,如图5所示,是构建搭配词质量判断模型的方法的一种流程图,包括:

步骤s51,收集自然英语语料,并对所述自然英语语料中的各词进行主题标注。

在本实施例中,本步骤可以同步骤s31,也可以利用步骤s32训练的主题抽取模型对所述自然英语语料中的各词进行主题标注,在此不再详述。此外,本步骤可以和步骤s31同时/不同时进行或直接调用步骤s31的结果,在此不作限定。

步骤s52,基于各词的主题标注信息生成自然英语语料中的搭配词。

在本实施例中,本步骤可以同步骤s03,在此不再详述。

步骤s53,提取搭配词特征,并标注搭配词质量。

在本实施例中,所述搭配词特征包括但不限于以下任意一种或多种:搭配词的共现频度、搭配词中不同词之间的点互信息、搭配词中每个词的逆向文档频率、搭配词中停用词的数量、当前搭配词的共现频度与频度最小的子搭配词的频度比,以下分别进行详细说明。

1)搭配词的共现频度

所述搭配词的共现频度指的是搭配词所有顺序的搭配出现频度的总和,如一个搭配词是abc,那么所有顺序的搭配有abc、acb、bac、bca、cab、cba,此时搭配词abc的共现频度为上述6个搭配在自然语料中出现的频度的和。

2)搭配词中不同词之间的pmi(点互信息)

两个词之间的点互信息的计算公式如式(1)所示:

其中,p(v)为搭配词v的共现频度,p(ui)、p(uj)分别为词ui和词uj在自然语料中出现的频度。

3)搭配词中每个词的idf(逆向文档频率)

idf=log(d/dt),d为自然语料中英语语句的数量,dt为当前词出现的语句的数量。

4)搭配词中停用词的数量

停用词的判断可以采用现有的相关技术,如最简单的,预先构建一个停用词表,然后通过匹配判断是否是停用词。

5)当前搭配词的共现频度与频度最小的子搭配词的频度比

频度最小的子搭配词的频度具体指当前搭配词的子搭配在自然语料中频度最小的子搭配词的频度,如当前搭配词abc,则其子搭配词有ab、ac、bc,则找该3个子搭配词中频度最小的搭配的频度。

在提取搭配词特征之后,对各搭配词进行质量标注,例如通过人工进行标注。一般认为在词典(如英汉大辞典)中出现的搭配词或者常见的动+名词、形容词+名词搭配等是高质量的搭配,反之一些从未见过或者出现频率过低或者含信息量少的一些搭配,被标注为低质量的搭配。

需要说明的是,训练语料构成的搭配词,考虑到人工投入量及效率问题, 一般选取词频较高的搭配词做标注、进行特征提取。此外,本实施例中也可以直接收集具有主题标注信息的搭配词。

步骤s54,根据所述搭配词特征及质量标注信息训练得到搭配词质量判断模型。

在本实施例中,将所述搭配词特征输入所述搭配词质量判断模型,通过调整模型参数,使得模型输出趋近于预先标注的质量标注信息,通过大量的训练得到所述搭配词质量判断模型。

在本发明实施例中,本发明可以利用所述搭配词特征判断模型判断各搭配词的质量,通过多维搭配词特征从多个角度判断各搭配词的质量,能有效提升判断各搭配词的质量的准确度。

相应地,本发明还提供了与中式英语的发现方法对应的中式英语的发现系统,如图6所示,为中式英语的发现系统的一种结构示意图,该系统包括:

语句获取模块601,用于获取待检测英语语句;

主题获取模块602,用于获取所述待检测英语语句中各词的主题信息;

搭配词生成模块603,用于基于各词的主题信息生成所述待检测英语语句中的搭配词;

确定模块604,用于确定搭配词中是否存在中式英语搭配词;如果是,则确定待检测英语语句包含中式英语;如果否,则确定待检测英语语句不包含中式英语。

进一步地,所述系统还可以包括:第一模型构建模块706,用于预先构建主题抽取模型;所述主题获取模块602具体用于基于所述主题抽取模型获取所述待检测英语语句中各词的主题信息。

如图7所示,是第一模型构建模块706的一种结构示意图,包括:

第一语料收集单元7061,用于收集自然英语语料;

第一主题标注单元7062,用于对所述自然英语语料中的各词进行主题标注;

第一模型训练单元7063,用于根据所述自然英语语料及其主题标注信息训练得到主题抽取模型。

本发明可以基于预先构建的主题抽取模型获取所述待检测英语语句中各 词的主题信息,简单高效且准确率高。

此外,所述系统还可以包括:第二模型构建模块707,用于预先构建搭配词质量判断模型;

所述确定模块604具体用于基于所述搭配词质量判断模型确定各搭配词的质量;如果所述搭配词为高质量搭配词,并且预先构建的搭配词库中没有与其相匹配的搭配词,则确定所述搭配词为中式英语搭配词。

如图8所示,是第二模型构建模块707的一种结构示意图,包括:

第二语料收集单元7071,用于收集自然英语语料;

第二主题标注单元7072,用于对所述自然英语语料中的各词进行主题标注;

生成单元7073,用于基于各词的主题标注信息生成自然英语语料中的搭配词;

特征提取单元7074,用于提取搭配词特征;

质量标注单元7075,用于标注搭配词质量

第二模型训练单元7076,用于根据所述搭配词特征及质量标注信息训练得到搭配词质量判断模型。

需要说明的是,第二语料收集单元、第二主题标注单元可以分别和第一语料收集单元、第一主题标注单元为同一个单元,在此不做限定。

本发明可以基于预先构建的搭配词质量判断模型判断各搭配词的质量,简单高效且准确率高。

在本实施例中,所述搭配词特征包括以下任意一种或多种:搭配词的共现频度、搭配词中不同词之间的点互信息、搭配词中每个词的逆向文档频率、搭配词中停用词的数量、当前搭配词的共现频度与频度最小的子搭配词的频度比。

进一步地,所述系统还可以对包含中式英语搭配词的英语语句和/或中式英语搭配词进行展示、提示和/或语音播报,如图9所示,为中式英语的发现系统的另一种结构示意图,所述系统还可以包括:

展现模块808,用于以视觉和/或听觉的形式,展现包含中式英语的英语语句和/或中式英语搭配词;和/或

提示模块809,用于如果所述待检测英语语句包含中式英语,则以视觉和/或听觉的形式进行提示。

通过展现模块808和/或提示模块809提示用户当前英语语句包含中式英语,具体地,所述展现模块808包括以下任意一个或多个单元:

高亮展现单元,用于采用高亮或区别于其它展现内容的颜色显示包含中式英语的英语语句和/或中式英语搭配词;

辅助展现单元,用于展现包含中式英语的英语语句和/或中式英语搭配词对应的候选纠正英语语句和/或英语搭配词,并标记包含中式英语的英语语句和/或中式英语搭配词。

此外,该系统还可以进一步包括存储模块(未图示),用于保存模型数据、搭配词、搭配词质量等相关信息。这样,以方便对待检测英语语句进行计算机自动处理,并存储最终检测结果。

本发明实施例提供的中式英语的发现系统,通过语句获取模块601获取待检测英语语句,然后利用主题获取模块602获取所述待检测英语语句中各词的主题信息,接着通过搭配词生成模块603生成所述待检测英语语句中的搭配词,然后利用确定模块604确定待检测英语语句中是否包含所述中式英语搭配词来确定待检测英语语句是否包含中式英语。传统的中式英语集由于中式英语错误是无法穷举的导致该中式英语集难以收集,而本发明利用搭配词生成模块603基于主题获取模块602获取的各词的主题信息,来生成所述待检测英语语句中的搭配词,而自然英语搭配词的数量有限,因而可以构建出一个涵盖所有自然英语搭配词的搭配词库,利用该搭配词库能有效判断当前搭配词是否为中式英语搭配词,提高了发现中式英语的准确率。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择 其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及系统;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1