一种词典录入方法及系统与流程

文档序号:11155025阅读:320来源:国知局
一种词典录入方法及系统与制造工艺

本发明涉及翻译技术领域,特别涉及一种词典录入方法及系统。



背景技术:

现有技术中,对于词典类数据的录入,一般由一人或两人进行整本词典的录入工作,不仅耗时长,效率低而且还不能保证准确率。



技术实现要素:

本发明实施例提供了一种词典录入方法及系统,旨在解决如何提高词典录入结果的准确率。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。

根据本发明实施例的第一方面,提供了一种词典录入方法,包括:获取多个录入字符信息,多个字符信息为对同一词条图片进行录入后的信息;当多个录入字符信息中相同语素位置同一语素出现的概率大于阈值时,确定语素为最终语素。

根据本发明实施例的第二方面,提供一种词典录入系统,包括:录入模块,用于获取多个录入字符信息,录入字符信息为对同一词条图片进行录入后的信息,最终语素模块,当录入模块获取的多个录入字符信息中相同语素位置同一语素出现的概率大于阈值时,确定同一语素为最终语素。

本发明实施例提供的技术方案可以包括以下有益效果:

在本发明中,针对同一词条图片,能够获得多个录入字符信息,通过筛选出多个录入字符信息中相同语素位置出现概率大于阈值的同一语素,能够确保在多个录入字符信息中筛选出准确性较高的录入结果,因此能够有效提高词典录入结果的准确性。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种词典录入方法的流程示意图;

图2是根据一示例性实施例示出的一种词典录入方法的流程示意图;

图3是根据一示例性实施例示出的一种词典录入方法的流程示意图;

图4是根据一示例性实施例示出的一种词典录入方法的流程示意图;

图5是根据一示例性实施例示出的一种词典录入系统的框图;

图6是根据一示例性实施例示出的一种词典录入系统的框图;

图7是根据一示例性实施例示出的一种词典录入系统的框图;

附图标记说明:1、录入模块;2、最终语素模块;3、识别模块;4、修正模块;5、获取模块。

具体实施方式

以下描述和附图充分地示出本发明的具体实施方案,以使本领域的技术人员能够实践它们。实施例仅代表可能的变化。除非明确要求,否则单独的部件和功能是可选的,并且操作的顺序可以变化。一些实施方案的部分和特征可以被包括在或替换其他实施方案的部分和特征。本发明的实施方案的范围包括权利要求书的整个范围,以及权利要求书的所有可获得的等同物。在本文中,各实施方案可以被单独地或总地用术语“发明”来表示,这仅仅是为了方便,并且如果事实上公开了超过一个的发明,不是要自动地限制该应用的范围为任何单个发明或发明构思。本文中,诸如第一和第二等之类的关系术语仅仅用于将一个实体或者操作与另一个实体或操作区分开来,而不要求或者暗示这些实体或操作之间存在任何实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素。本文中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的结构、产品等而言,由于其与实施例公开的部分相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

本发明实施例提供一种词典录入方法及系统,旨在解决如何提高词典录入结果的准确率。为了实现上述目的,如图1所示,本发明实施例包括:

步骤S101:获取多个录入字符信息,多个录入字符信息为对同一词条进行录入后的信息。

步骤S102:当多个录入字符信息中相同语素位置同一语素出现的概率大于阈值时,确定该语素为最终语素。

其中,由于多个录入字符信息是针对同一词条图片进行录入后的结果,因此多个录入字符信息的语句结构应当一致,因此在多个录入字符信息中相同语素位置的语素应该相同,通过筛选出多个录入字符信息中相同语素位置出现概率大于阈值的同一语素,能够确保录入结果的准确性。阈值的具体数值可以为0.5、0.6、0.7、(0.7,0.9)等,在此不做限定,只要能够保证筛选出的同一语素更加准确即可。

在本实施例中,针对同一词条图片,能够获得多个录入字符信息,通过筛选出多个录入字符信息中相同语素位置出现概率大于阈值的同一语素,能够确保在多个录入字符信息中筛选出准确性较高的录入结果,因此能够有效提高词典录入结果的准确性。

在上述实施例中,确定语素为最终语素有多种实现方法,作为一种可选的实施例,当对应的词典库中存在该语素时,确定语素为最终语素。当对应的词典库中不存在该语素时,重新获取多个录入字符信息。通过在对应的词典库中查找该语素,能够确保最终语素的准确性。

在上述实施例中,如果词典录入方法的录入对象的是英汉词典,那么多个录入字符信息中既包括中文汉字语素,也包括英文单词语素,中文汉字语素对应中文词典,英文单词语素对应英文词典,当多个录入字符信息中相同语素位置出现概率大于阈值的同一语素为中文汉字语素时,对应的中文词典中存在该汉字语素,则证明该汉字语素是一个存在的汉字,确定该汉字语素为最终语素。

在上述任一实施例中,可选的,如图3,步骤S101之前还包括:

步骤S001:获取识别字符信息,识别字符信息为词条图片进行光学字符识别后的信息。

进一步可选的,在本实施例中,还包括:

步骤S1021:当多个录入字符信息和识别字符信息中相同语素位置同一语素出现的概率大于阈值时,确定语素为最终语素。

在本实施例中,利用光学字符识别技术录入了一种识别字符信息,能够增加同一词条图片的录入结果,同时筛选出多个录入字符信息和识别字符信息中相同语素位置出现概率大于阈值的同一语素,进一步提高录入结果的准确性。当然,在本实施例中,步骤S001和步骤S101的前后顺序可以改变。

在上述实施例中,如图4所示,步骤S001之后还包括:

步骤S002:获取多个修正字符信息,多个修正字符信息为对识别字符信息进行修正后的信息。

进一步可选的,在本实施例中,还包括:

步骤1022:当多个录入字符信息、识别字符信息和多个修正字符信息中相同语素位置同一语素出现的概率大于阈值时,确定语素为最终语素。

在本实施例中,通过对识别字符信息进行修正,又增加了一种新的录入结果情况,同时筛选出多个录入字符信息、识别字符信息和修正字符信息中相同语素位置出现概率大于阈值的同一语素,进一步提高录入结果的准确性。

可选的,在上述任一实施例中,如图2至图4所示,还包括:

步骤S01:获取词典的扫描图片;

步骤S02:获取扫描图片按照词条切割后的词条图片。

其中切割后的词条图片可以是单个词条的词条图片,也可以是多个词条的词条图片,但是词条图片必须包含完整的词条信息。例如对英汉词典的扫描图片,切割后的词条图片应该包含单词及其释义或短语及其释义的完整信息。通过对词典扫描片进行切割,可以将整个词典分为多个部分,通过把词典的不同部分利用上述任一实施例中的词典录入方法进行录入,能够有效提高词典录入的效率,节省大量时间。

本发明实施例还公开了一种词典录入系统,如图5所示,包括录入模块1,用于获取多个录入字符信息,多个录入字符信息为对同一词条图片进行录入后的信息,最终语素模块2,当录入模块1获取的多个录入字符信息中相同语素位置同一语素出现的概率大于阈值时,确定该语素为最终语素。

其中,由于多个录入字符信息是针对同一词条图片进行录入后的结果,因此多个录入字符信息的语句结构应当一致,因此在多个录入字符信息中相同语素位置的语素应该相同,通过筛选出多个录入字符信息中相同语素位置出现概率大于阈值的同一语素,能够确保录入结果的准确性。阈值的具体数值可以为0.5、0.6、0.7、(0.7,0.9)等,在此不做限定,只要能够保证筛选出的同一语素更加准确即可。

在本实施例中,针对同一词条图片,录入模块1会录入多个录入字符信息,因此对于同一词条图片,会有多个录入结果,通过筛选多个录入字符信息中相同语素位置出现概率大于阈值的同一语素,能够确保在多个录入字符信息中筛选出准确性较高的录入结果,因此能够有效提高词典录入结果的准确性。

在上述实施例中,最终语素模块2还用于当对应的词典库中存在该语素时,确定该语素为最终语素。最终语素模块2还用于当对应的词典库中不存在该语素时,触发录入模块1重新录入多个录入字符信息。通过在对应的词典库中查找该语素,能够确保最终语素的准确性。

在上述实施例中,如果词典录入系统的录入对象的是英汉词典,那么多个录入字符信息中既包括中文汉字语素,也包括英文单词语素,中文汉字语素对应中文词典,英文单词语素对应英文词典,当多个录入字符信息中相同语素位置出现概率大于阈值的同一语素为中文汉字语素时,对应的中文词典中存在该汉字语素,则证明该汉字语素是一个存在的汉字,确定该汉字语素为最终语素。

可选的,在上述任一实施例中,如图3所示,还包括识别模块3,用于获取识别字符信息,识别字符信息为对同一词条图片进行光学字符识别后的信息。进一步可选的,最终语素模块2还用于当录入模块1获取的多个录入字符信息和识别模块3获取的识别字符信息中相同语素位置同一语素出现的概率大于阈值时,确定该语素为最终语素。

在本实施例中,识别字符3利用光学字符识别技术录入了一种识别字符信息,能够增加同一词条图片的录入结果,同时筛选出多个录入字符信息和识别字符信息中相同语素位置出现概率大于阈值的同一语素,进一步提高录入结果的准确性。

可选的,在上述实施例中,还包括:修正模块4,用于获取多个修正字符信息,多个修正字符信息是对识别字符信息进行修正后的信息。进一步可选的,最终语素模块2还用于当录入模块1获取的多个录入字符信息、识别模块3获取的识别字符信息和修正模块4获取的多个修正字符信息中相同语素位置同一语素出现的概率大于阈值时,确定该语素为最终语素。

在本实施例中,通过修正模块4获取对识别字符信息进行修正的信息,又增加了一种新的录入结果情况,同时筛选出多个录入字符信息、识别字符信息和修正字符信息中相同语素位置出现概率大于阈值的同一语素,进一步提高录入结果的准确性。

可选的,在上述词典录入系统的任一实施例中,如图6和图7所示,还包括:获取模块5,用于获取词典的扫描图片,获取模块5还用于获取扫描图片按照词条切割后的词条图片。

其中切割后的词条图片可以是单个词条的词条图片,也可以是多个词条的词条图片,但是词条图片必须包含完整的词条信息。例如对英汉词典的扫描图片,切割后的词条图片应该包含单词及其释义或短语及其释义的完整信息。通过对词典扫描片进行切割,可以将整个词典分为多个部分,通过把词典的不同部分利用上述任一实施例中的词典录入系统进行录入,能够有效提高词典录入的效率,节省大量时间。

应当理解的是,本发明并不局限于上面已经描述并在附图中示出的流程及结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1