基于英语音节计算方法在可读性评测中的应用方法与平台与流程

文档序号:12733648阅读:380来源:国知局
基于英语音节计算方法在可读性评测中的应用方法与平台与流程

本发明涉及英文信息处理技术领域,特别涉及一种基于英语音节计算方法在可读性评测中的应用方法与平台。



背景技术:

英语文章可读性的测量是客观确定该篇文章难易程度的最重要的指标,这一指标能够客观、快速、精确、量化地描述文章的难度,这一指标的确定在以下领域具有重要意义。

客观精确地选择和确定编入到学生教材中的英语文章的难度。根据英语文章不同的可读性指标,使我国从幼儿园到研究生的不同年级的教材中的英语文章的筛选更加科学、准确,使不同年级学习不同难度和不同等级的英语材料。目前,我国不同年级的英语教材中的文章的难易程度完全是编者人为主观判断的,而且,不同编者的学识水平、能力、偏好、教学目标不完全相同,这就造成选入教材的英文材料没有客观、统一、科学、量化的依据,不能真正满足不同年级、不同地域、不同层次、不同水平的学生的需要,无法科学地量身定做适合学生学习的教材或学习资料。

在社会人际交往中,快速准确的传送可读性高的文章或销售信息,能够更快、更广泛的吸引读者群或客户。在医疗、交通、公共服务等一切使用英语作为媒介进行传递信息的所有行业和部门,可读性高的信息,人们更容易理解、人际间传播的速度更快、更加精确。

在当前互联网时代,以英语为载体的微博、短信、微信、电子邮件、博文、页面文字、网上政府报告、网络新闻、广告、说明书等,在撰写时,经过可读性指标的验证,使文章在合理的高可读性范围内,将使文章具有更加快速、准确和高效的传播效果。

由于英语本身发音的复杂性、发展的历史以及外来语的影响等因素,英语音节的人工智能计算是世界上的难题之一。在计算语言学领域,音节的计算使用两种方法,数据驱动(机器学习)的方法和基于语言规律编译算法的方法((Marchand and Damper,2000;Damper and Marchand,2006;Marchand and Damper,2006)。数据驱动的方法成本低、建模简单、实施快,但这种方法严重依赖训练的语料类型和语料库的规模,一种文体的训练模型无法准确应用到另一种文体类型上。基于语言规律编译算法的方法,需要专家知识,由于专家水平不一,来编写繁琐的约束条件,而且要反复试验,目前没有统一的方法将此规律进行总结编译出来,并且现有的方法针对的用户不同,不能将所有的规律收纳编译,因此,在实际应用过程中测算的可读性指标也不尽相同,很可能因此导致阅读者误入歧途。另一方面,可读性评测在以英语为载体的微博、短信、微信、电子邮件、博文等方面并没有显示评测结果,搜索引擎也没有显示检索结果相对于用户可读性的功能。



技术实现要素:

本发明的目的旨在至少解决所述的技术缺陷之一。

为此,本发明的一个目的在于提出一种基于英语音节计算方法在可读性评测中的应用方法和平台,利用英语音节计算的方法,对用户将要阅读的英文文章进行可读性评测和难度值分析,科学地量身定做适合学生学习的教材或学习资料。

为了实现上述目的,本发明一方面的实施例提供一种基于英语音节计算方法在可读性评测中的应用方法,所述可读性评测中的应用方法在可读性反馈平台实现,包括以下步骤:

步骤S1,获取目标文档;将目标文档根据标点进行分句处理,得到句子总数;将所分语句根据空格进行分词处理;得到单词总数;所述目标文档的获取包括并不限于以下几种获取方式;

方式一、利用搜索引擎按照关键词进行搜索,从索引中检索出的符合条件的文字片段或文档;该搜索引擎包括所有支持英文搜索的网站;

方式二、用户自动输入的文档;

步骤S2,将目标文档中的每个单词按照预设标准化方式进行标准化处理;得到多个标准化处理词组;

步骤S3,将每个所述标准化处理词组按照从左向右的顺序进行扫描,并利用预设转换条件将词组的词长转换成音节数并得出音节总数;

步骤S4,将所述句子总数、单词总数和音节数代入预设可读性公式,计算可读性系数和阅读难度系数;

其中Flesch Readability为可读性系数;Flesch-Kincaid Level表示阅读难度系数;

步骤S5,在可读性反馈平台上,将可读性系数和阅读难度系数的计算结果与获取的目标文档进行同步显示,反馈给用户;

其中,针对步骤S1中的方式一、当可读性反馈平台的窗口检测得到用户输入目标文档,且触发了选择可读性按钮,则由所述可读性反馈平台分析该目标文档,并计算可读性系数和阅读难度系数,将可读性系数和阅读难度系数的计算结果自动显示可读性反馈平台的窗口的标题上方;

方式二、利用搜索引擎和关键字检索出的目标文档或文字片段,可读性系数和阅读难度系数的计算结果同步显示在该条目标文档或文字片段的下方或标题上方。

优选的,步骤S2中,所述预设标准化方式包括词尾字符转化和词头添加前缀;

所述词尾字符转化;将词尾字符划分为词尾二字符、词尾三字符、词尾四字符、词尾五字符、词尾七字符五大类;对应词尾字符的划分种类;每一类字符设有相应的词尾转换密钥;

所述词头添加前缀;将词开头字符划分为词头二字符、词头三字符、词头四字符、词头五字符四大类;对应词头字符的划分种类;删掉词头字符并在该处添加相应的词头转换密钥。

优选的,步骤S3中,所述预设转换条件包括以下多种预设转换条件:

预设转换条件一:所扫描词组全是辅音字母,则音节输出数等于输入词的词长;

预设转换条件二:所扫描词组中包含任意元音字母或字母‘y’且词长小于3,则音节数输出1;

预设转换条件三:所扫描词组中包含任意元音字母或字母‘y’且词长等于3,则按照以下情况处理:

1、仅有第一个或第三个字符是任意元音字母或字母‘y’,则音节数输出2;

2、第一、第二、第三个字符均是任意元音字母或字母‘y’,则音节数输出3;

3、仅有第一个和第三个字符是任意元音字母或字母‘y’,则音节数输出1;

预设转换条件四:所扫描词组中包含任意元音字母或字母‘y’且词长大于3时;从字母a到字母z的26个字母,依次与‘ia’‘io’‘iu’‘ae’‘eo’和‘iy’组合,组成三字符的字符串,则将它切割然后组合,将输入词中所有包含三字符的词串分割组合为四个字符。

优选的,步骤S4中还包括特定预设转换条件;

当被扫描字符是下列情况之一‘a’‘e’‘i’‘o’‘u’或‘y’,而且这个被扫描的字符不是输入词最后的字符,则音节输出数累计增加1;

当输入词的前两个字符是'mc',则音节输出数累计增加1。

本发明还提供一种基于英语音节计算方法在可读性评测中的应用平台,包括

目标文档获取终端,用于通过获取方式获取目标文档;并将目标文档发送至标准化处理服务器;

所述获取方式包括但不限于以下几种:方式一、利用搜索引擎按照关键词进行搜索,从索引中检索出的符合条件的文档;方式二、用户自动输入的文档;

所述目标文档获取终端将目标文档进行预处理,根据标点进行分句处理,将所分语句根据空格进行分词处理;所述目标文档获取终端将目标文档预处理之后获取的目标文档的句子总数和单词总数;发送至可读性计算服务器;

标准化处理服务器,用于读取目标文档;并将目标文档按照预设标准化方式进行标准化处理并按照预设转换条件,得出音节总数;并将音节总数发送至可读性计算服务器;所述标准化处理服务器包括标准化处理模块和扫描换算模块,所述标准化处理模块得到标准化处理词组;所述扫描换算模块,用于将标准化处理词组按照从左向右的顺序进行扫描,扫描过程中利用预设转换条件将词组的词长换算成音节数并得出音节总数;

可读性计算服务器,用于将所述句子总数、单词总数和音节数代入可读性公式,得到可读性系数和阅读难度系数;所述可读性公式包括可读性系数计算公式和阅读难度系数计算公式;

其中Flesch Readability为可读性系数;Flesch-Kincaid Level表示阅读难度系数;

可读性反馈终端;用于在显示屏幕上以活动窗口的形式,将可读性系数和阅读难度系数的计算结果与获取的目标文档进行同步显示,反馈给用户;

其中,针对目标文档获取终端中的方式一、当可读性反馈平台的显示窗口检测得到用户输入目标文档,且触发了选择可读性按钮,则由所述可读性反馈平台分析该目标文档,并计算可读性系数和阅读难度系数,将可读性系数和阅读难度系数的计算结果自动显示可读性反馈平台的窗口的标题上方;

方式二、利用搜索引擎和关键字检索出的目标文档或文字片段,可读性系数和阅读难度系数的计算结果同步显示在该条目标文档或文字片段的下方或标题上方。。

优选的,所述标准化处理模块中,设有预设标准化方式;所述预设标准化方式包括词尾字符转化和词头添加前缀;

所述词尾字符转化;将词尾字符按照规律划分为词尾二字符、词尾三字符、词尾四字符、词尾五字符、词尾七字符五大类;对应词尾字符的划分种类;每一类字符设有相应的词尾转换密钥;

所述词头添加前缀;将词开头字符按规律划分为词头二字符、词头三字符、词头四字符、词头五字符四大类;对应词头字符的划分种类;删掉词头字符并在该处添加相应的词头转换密钥。

优选的,所述扫描换算模块中,设有预设转换条件;所述预设转换条件包括以下常见几种预设转换条件:

预设转换条件一:所扫描词组全是辅音字母,则音节输出数等于输入词的词长;

预设转换条件二:所扫描词组中包含任意元音字母或字母‘y’且词长小于3,则音节数输出1;

预设转换条件三:所扫描词组中包含任意元音字母或字母‘y’且词长等于3,则按照以下情况处理:

1、仅有第一个或第三个字符是任意元音字母或字母‘y’,则音节数输出2;

2、第一、第二、第三个字符均是任意元音字母或字母‘y’,则音节数输出3;

3、仅有第一个和第三个字符是任意元音字母或字母‘y’,则音节数输出1;

预设转换条件四:所扫描词组中包含任意元音字母或字母‘y’且词长大于3时;从字母a到字母z的26个字母,依次与‘ia’‘io’‘iu’‘ae’‘eo’和‘iy’组合,组成三字符的字符串,则将它切割然后组合,将输入词中所有包含三字符的词串分割组合为四个字符。

优选的,所述预设转换条件还包括特定预设转换条件;

当被扫描字符是下列情况之一‘a’‘e’‘i’‘o’‘u’或‘y’,而且这个被扫描的字符不是输入词最后的字符,则音节输出数累计增加1;

当输入词的前两个字符是‘mc’,则音节输出数累计增加1。

根据本发明实施例的提供的一种基于英语音节计算方法在可读性评测中的应用方法和应用系统,相比于传统的可读性评测方法,至少具有以下优点:

1、无论是用户自己输入的文档还是通过扫描设备扫描的电子文档,亦或是通过网络检索到的文档,均可以通过本方法进行可读性分析,且可读性分析的结果能够通过显示终端直接展示出来;给用户带来直观的反馈。

2、本发明提供的应用系统中将音节计算作为可读性测算公式中重要的一项,提高了可读性测算的可行性,同时由于测算过程简单,便于实施,测算结果准确,便于将本系统推广应用到众多电子学习产品中。

本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:

图1为本发明一种基于英语音节计算方法在可读性评测中的应用方法的流程图;

图2为本发明实施例1的用户输入目标文档的界面图;

图3为本发明实施例2的可读性计算结果和原文档同步呈现的一种界面图;

图4为本发明实施例2的可读性计算结果和原文档同步呈现的另一种界面图;

图5为本发明一种基于英语音节计算方法在可读性评测中的应用平台的连接框图;

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。

如图1所示,本发明实施例的一种基于英语音节计算方法在可读性评测中的应用方法,包括以下步骤:

步骤1,获取目标文档;将目标文档根据标点进行分句处理,得到句子总数;将所分语句根据空格进行分词处理;得到单词总数;目标文档的获取包括并不限于以下几种获取方式;

方式一、利用搜索引擎按照关键词进行搜索,从索引中检索出的符合条件的文档;

方式二、用户自动输入的文档;

方式三、纸质文档通过扫描等手段形成的电子文档。

对输入文本的每个词或目标文档的每个词进行标准化处理,标准化处理是提高音节计算准确度的重要内容,根据对三大英文词典的反复试验,在没有进行标准化处理的情况下,词汇音节计算准确度只能达到48%-65%左右,进行标准化处理后,计算准确度能达到90%。标准化处理是将复杂的、没有规律的字母组合转化为便于识别和计算的规则。将分词后的每一个词或将查询到的目标文档的每一个词看作输入词,每一个步骤中进行标准化转换或移位后的词汇,作为下一个步骤的输入词:

步骤2,将目标文档中的每个单词按照预设标准化方式进行标准化处理;得到多个标准化处理词组;预设标准化方式包括词尾字符转化和词头添加前缀;

词尾字符转化;将词尾字符划分为词尾二字符、词尾三字符、词尾四字符、词尾五字符、词尾七字符五大类;对应词尾字符的划分种类;每一类字符设有相应的词尾转换密钥;例如,将如果输入词的结尾三个字符是下列情况之一(#39代表ASCII中的撇子符):’s’+#39+s’,‘ses’,‘sms’,‘ces’,‘hes’,‘ges’,‘xes’,‘yer’,‘ile’,‘cre’,‘ely’,‘h’+#39+’s’或者’ole’,则将这三个字符转换为‘dad’这里‘dad’则为此类词尾三字符对应的转换密钥;如果输入词尾三个字符是‘tua’或’ual’,将这三个字符转换的转换密钥为’tada’如果输入词尾三个字符是法语类词尾’ier’或’que’,将这三个字符转换为’k’。

相应的,如果输入词尾七个字符是复杂的’eations’,’iations’,‘oations’或’uations’,将这七个字符转化为’adada’;如果输入词的结尾是’sm’,则将这两个字符转化为’dob’;如果输入词尾五个字符是’sians’,’cians’或’tians’,将这五个字符转换为’dob’。

词尾四字符如果输入词尾四个字符是’eate’,‘iate’,‘oate’,‘vour’,‘uous’或’uate’,,将这四字符转换的转换密钥为’adad’。如果输入词尾四个字符是’sm’+#39+’s’,’cian’,’eous’,’bled’,’gled’,’dled’,’kled’,’pled’,’tled’或’fled’,将这四字符转换的转换密钥为’dob’。如果输入词尾四个字符是’sion’,’ious’,’ce’+#39+’s’,或’cial’,将这四字符转换为’dob’。

词头添加前缀;将词开头字符划分为词头二字符、词头三字符、词头四字符、词头五字符四大类;对应词头字符的划分种类;删掉词头字符并在该处添加相应的词头转换密钥。

例如词头二字符如果输入词开头是’io’,则将这两个字符去掉后,在前面加前缀为‘dido’的词头转换密钥。

如果输入词开头是’coinc’,则将这五个字符去掉后,在前面加前缀‘didod’。如果输入词开头是’heroi’,则将这五个字符去掉后,在前面加前缀’didada’。如果输入词尾是’sions’,将这五个字符转换为’son’。

如果输入词开头是’nois’,’goin’或’voic’,则将这四个字符去掉后,在前面加前缀‘didod’。如果输入词尾是’les’,且倒数第四个字符是下列之一:’a’,’e’,‘I’,‘o’,’u’或’y’,则去掉’les’后,在词尾加后缀’son‘。

如果输入词开头是’rea’且输入词词长大于4,则将这三个字符去掉后,在前面加前缀’rera’。如果输入词尾是’ded’或’ted’,将这三个字符转换为’daf’。

步骤3,将每个标准化处理词组按照从左向右的顺序进行扫描,并利用预设转换条件将词组的词长转换成音节数并得出音节总数;

预设转换条件一:所扫描词组全是辅音字母,则音节输出数等于输入词的词长;

预设转换条件二:所扫描词组中包含任意元音字母或字母‘y’且词长小于3,则音节数输出1;

预设转换条件三:所扫描词组中包含任意元音字母或字母‘y’且词长等于3,则按照以下情况处理:

1、仅有第一个或第三个字符是任意元音字母或字母‘y’,则音节数输出2;

2、第一、第二、第三个字符均是任意元音字母或字母‘y’,则音节数输出3;

3、仅有第一个和第三个字符是任意元音字母或字母‘y’,则音节数输出1;

预设转换条件四:所扫描词组中包含任意元音字母或字母‘y’且词长大于3时;从字母a到字母z的26个字母,依次与’ia’,’io’,’iu’,’ae’,’eo’和’iy’组合,组成三字符的字符串,则将它切割然后组合,将输入词中所有包含三字符的词串分割组合为四个字符。

例如,输入词是diary,包含ia,当以三字符字符串dia扫描diary时,发现输入词diary包含dia,则将输入词中的dia分割组合为dida。扫描全部字符,将输入词中所有包含三字符的词串分割组合为四个字符。

需要说明的是,还包括当被扫描字符是下列情况之一’a’,’e’,'i','o','u'或'y',而且这个被扫描的字符不是输入词最后的字符,则音节输出数累计增加1;当输入词的前两个字符是'mc',则音节输出数累计增加1。

步骤4,将句子总数、单词总数和音节数代入预设可读性公式,计算可读性系数和阅读难度系数;

其中Flesch Readability为可读性系数;Flesch-Kincaid Level表示阅读难度系数。

步骤S5,在可读性反馈平台上,将可读性系数和阅读难度系数的计算结果与获取的目标文档进行同步显示,反馈给用户;显示方式包括但不限于以下几种:

方式一、可读性反馈平台的窗口上用户输入目标文档,选择可读性按钮,可读性系数和阅读难度系数的计算结果自动显示可读性反馈平台的窗口的标题上方。

方式二、利用搜索引擎和关键字检索出的目标文档或文字片段,可读性系数和阅读难度系数的计算结果同步显示在该条目标文档或文字片段的下方或标题上方。

如图5所示,一种基于英语音节计算方法在可读性评测中的应用平台,包括目标文档获取终端1、标准化处理服务器2、可读性计算服务器3、可读性反馈终端4。

目标文档获取终端1,用于通过获取方式获取目标文档;并将目标文档发送至标准化处理服务器;目标文档获取终端将目标文档进行预处理,根据标点进行分句处理,将所分语句根据空格进行分词处理;目标文档获取终端将目标文档预处理之后获取的目标文档的句子总数和单词总数;发送至可读性计算服务器。

标准化处理服务器2,标准化处理服务器包括标准化处理模块和扫描换算模块,标准化处理模块中,设有预设标准化方式;预设标准化方式包括词尾字符转化和词头添加前缀;词尾字符转化;将词尾字符按照规律划分为词尾二字符、词尾三字符、词尾四字符、词尾五字符、词尾七字符五大类;对应词尾字符的划分种类;每一类字符设有相应的词尾转换密钥;词头添加前缀;将词开头字符按规律划分为词头二字符、词头三字符、词头四字符、词头五字符四大类;对应词头字符的划分种类;删掉词头字符并在该处添加相应的词头转换密钥。

例如,将如果输入词的结尾三个字符是下列情况之一(#39代表ASCII中的撇子符):’s’+#39+s’,‘ses’,‘sms’,‘ces’,‘hes’,‘ges’,‘xes’,‘yer’,‘ile’,‘cre’,‘ely’,‘h’+#39+’s’或者’ole’,则将这三个字符转换为‘dad’这里‘dad’则为此类词尾三字符对应的转换密钥;与上述方法步骤2中内容一致,在此不再赘述。

词头添加前缀;将词开头字符划分为词头二字符、词头三字符、词头四字符、词头五字符四大类;对应词头字符的划分种类;删掉词头字符并在该处添加相应的词头转换密钥。

扫描换算模块中,设有预设转换条件;预设转换条件包括以下常见几种预设转换条件:

预设转换条件一:所扫描词组全是辅音字母,则音节输出数等于输入词的词长;

预设转换条件二:所扫描词组中包含任意元音字母或字母‘y’且词长小于3,则音节数输出1;

预设转换条件三:所扫描词组中包含任意元音字母或字母‘y’且词长等于3,则按照以下情况处理:

1、仅有第一个或第三个字符是任意元音字母或字母‘y’,则音节数输出2;

2、第一、第二、第三个字符均是任意元音字母或字母‘y’,则音节数输出3;

3、仅有第一个和第三个字符是任意元音字母或字母‘y’,则音节数输出1;

预设转换条件四:所扫描词组中包含任意元音字母或字母‘y’且词长大于3时;从字母a到字母z的26个字母,依次与’ia’,’io’,’iu’,’ae’,’eo’和’iy’组合,组成三字符的字符串,则将它切割然后组合,将输入词中所有包含三字符的词串分割组合为四个字符。

预设转换条件还包括特定预设转换条件;当被扫描字符是下列情况之一’a’,’e’,'i','o','u'或'y',而且这个被扫描的字符不是输入词最后的字符,则音节输出数累计增加1;当输入词的前两个字符是'mc',则音节输出数累计增加1

可读性计算服务器3,用于将所述句子总数、单词总数和音节数代入可读性公式,得到可读性系数和阅读难度系数;所述可读性公式包括可读性系数计算公式和阅读难度系数计算公式;

其中Flesch Readability为可读性系数;Flesch-Kincaid Level表示阅读难度系数;

可读性反馈终端4;用于将可读性系数和阅读难度系数的计算结果嵌入在目标文档中,通过显示装置反馈给用户。

目标文档获取终端获取目标文档包括并不限于以下几种获取方式:方式一、利用搜索引擎按照关键词进行搜索,从索引中检索出的符合条件的文档;方式二、用户自动输入的文档;方式三、纸质文档通过扫描等手段形成的电子文档。无论是用户自己输入的文档还是通过扫描设备扫描的电子文档,亦或是通过网络检索到的文档,均可以通过本方法进行可读性分析,且可读性分析的结果能够通过显示终端直接展示出来;给用户带来直观的反馈。

如图2所示的一个实施例1,为本发明采用第二种获取方式即通过用户文字录入的方式获取目标文档,图中显示目标文档截取意识流大师爱尔兰作家詹姆斯·乔伊斯(James Joyce)的著名作品Finnegans Wake(芬尼根守灵夜)的开头前两段。这部作品被西方公认为是英语世界最晦涩难懂的小说,因为作者使用了大量的自造词、生僻词、古怪词、古代俚语、混合词、超长词等,这类词在英语词典中没有收录或极少收录,无法用常规的查询词典音节的方式来计算可读性。通过本发明提供的上述标准化处理方式和预设的转换条件,得出可读性计算结果。并将可读性公式与目标文档同步显示在可读性评测的应用系统的显示窗口中。

如图3的实施例2中可读性计算结果和原文档同步呈现的一种界面图,图4所示的可读性计算结果和原文档同步呈现的另一种界面图;本发明采用两图是在推特(Twitter)搜索关键词climate后反馈的结果,可读性指标嵌入在搜索结果的每一条推文或微博客中,反馈给用户。由于Twitter属于即时通讯社交工具,推文的语言特征是网络新词多、缩略语多、推文中与互联网地址夹杂、自造词多、口语多,所以许多词汇在英文词典中没有或很少收录,无法用常规的查询词典音节的方式来计算可读性。采用本发明提供的方法,搜索关键词climate相关的推文,可读性计算服务器计算每一篇推文中的可读性,将所计算得到的可读性系数和阅读难度系数,与检索到的每一条推文,进行同步显示,例如图3中标题为Pure Climate Skeptic的推文,可读性系数为21.8,阅读难度系数为34.8。

需要说明的是,目标文档按照搜索引擎搜索关键词来获取时,搜索引擎泛指;所有能进行英文搜索的网站、网络平台、网络数据库;常见的有推特、Google、百度、360搜索、有道搜索等。

本发明的理论基础来源于计算语言学中关于音节计算的两种方法,基于数据驱动的(机器学习)方法和基于规则的方法。数据驱动的方法源于对训练数据的统计,它严重依赖训练数据的规模、类型。根据训练数据建立起来的模型仅仅能够预测与训练数据高度相近的目标数据,如果目标数据与模型数据区别较大,模型的预测精度将严重下降。基于规则的方法源于专家知识,它是基于语言学家长期的、高度概念化的、统一的、对语言现象的较为全面的经验总结。本发明的规则的编写,是建立在三大英语发音词典基础之上的。本发明的通用性高,适合各类文体,使用简单,无需训练不同类型的模型,扩展性强,速度快,能够应用于各种类型和规模的文本。

本发明提到的方法是根据大量文本反复试验后确定的。对上述三大词典的检测后,音节计算的准确率分别为卡内基梅隆发音词典91.603%,牛津当代英语高级学习词典90.323%,韦氏大词典89.681%。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。本发明的范围由所附权利要求及其等同限定。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1