词汇译文的获取方法和装置制造方法

文档序号:6526638阅读:200来源:国知局
词汇译文的获取方法和装置制造方法【专利摘要】本发明提出一种词汇译文的获取方法和装置,方法包括:获取待翻译词汇,并根据待翻译词汇生成第一搜索结果;根据待翻译词汇从第一搜索结果中提取与待翻译词汇相关的至少一个关联实体词汇;根据至少一个关联实体词汇生成待翻译词汇的搜索条件;根据搜索条件进行搜索以获取第二搜索结果;从第二搜索结果中提取待翻译词汇对应的译文。本发明实施例的词汇译文的获取方法,在根据待翻译词汇生成的第一搜索结果中提取关联实体词汇,并根据关联实体词汇生成的搜索条件获取第二搜索结果,最终在第二搜索结果中提取待翻译词汇对应的译文,可以快速的获取新词对应的译文,不仅方便、智能,并且有效地提高了获取新词对应的译文的准确率,提升了用户体验。【专利说明】词汇译文的获取方法和装置【
技术领域
】[0001]本发明涉及计算机【
技术领域
】,尤其涉及一种词汇译文的获取方法和装置。【
背景技术
】[0002]随着互联网的发展,人们已经不再满足于从单一语言资料中获取信息,开始越来越多的关注从其他语言的资料中获取信息,因此需要借助机器自动翻译系统来实现跨语言信息获取。目前的机器翻译系统能够满足基本的阅读需求,其主要应用于从双语特定分布类型的中文网页中获取互译词对(如英文必须出现在括号中且与中文译文相邻)。例如:“...该调查由非党派的调查机构皮尤基金会(PewCharitableTrusts)委托经济能动性项目进行...”这段文本中,通过机器翻译系统可以获取“皮尤基金会”的译文“PewCharitableTrusts,,。[0003]但是,对于突发的新闻事件或热点新闻中的词汇,首先是因为现有的翻译词典没有收录,其次是该类词汇很难通过自动翻译方法得到正确的译文,因此译文的准确率比较低。此外该类词汇的翻译通常需要专业翻译工作者根据新闻热点背景来进行专业的翻译,耗费人力,不够方便、智能,用户体验差。【
发明内容】[0004]本发明旨在至少解决上述技术问题之一。[0005]为此,本发明的第一个目的在于提出一种词汇译文的获取方法。该方法可以快速的获取新词对应的译文,不仅方便、智能,并且有效地提高了获取新词对应的译文的准确率,提升了用户体验。[0006]本发明的第二个目的在于提出一种词汇译文的获取装置。[0007]为了实现上述目的,本发明第一方面实施例的词汇译文的获取方法,包括以下步骤:获取待翻译词汇,并根据所述待翻译词汇生成第一搜索结果;根据所述待翻译词汇从所述第一搜索结果中提取与所述待翻译词汇相关的至少一个关联实体词汇,其中,所述待翻译词汇与所述至少一个关联实体词汇属于第一语言;根据所述至少一个关联实体词汇生成所述待翻译词汇的搜索条件,其中,所述搜索条件属于第二语言;根据所述搜索条件进行搜索以获取第二搜索结果;以及从所述第二搜索结果中提取所述待翻译词汇对应的译文。[0008]本发明实施例的词汇译文的获取方法,在根据待翻译词汇生成的第一搜索结果中提取关联实体词汇,并根据关联实体词汇生成的搜索条件获取第二搜索结果,最终在第二搜索结果中提取待翻译词汇对应的译文,可以快速的获取新词对应的译文,不仅方便、智能,并且有效地提高了获取新词对应的译文的准确率,提升了用户体验。此外,借助搜索引擎检索出和新词相关的多语网页具有时效性特点,因此获取的译文也具有很高的时效性。[0009]为了实现上述目的,本发明第二方面实施例的词汇译文的获取装置,包括:待翻译词汇获取模块,用于获取待翻译词汇;第一搜索模块,用于根据所述待翻译词汇生成第一搜索结果;提取模块,用于根据所述待翻译词汇从所述第一搜索结果中提取与所述待翻译词汇相关的至少一个关联实体词汇,其中,所述待翻译词汇与所述至少一个关联实体词汇属于第一语言;搜索条件生成模块,用于根据所述至少一个关联实体词汇生成所述待翻译词汇的搜索条件,其中,所述搜索条件属于第二语言;第二搜索模块,用于根据所述搜索条件进行搜索以获取第二搜索结果;以及译文提取模块,用于从所述第二搜索结果中提取所述待翻译词汇对应的译文。[0010]本发明实施例的词汇译文的获取装置,在根据待翻译词汇生成的第一搜索结果中提取关联实体词汇,并根据关联实体词汇生成的搜索条件获取第二搜索结果,最终在第二搜索结果中提取待翻译词汇对应的译文,可以快速的获取新词对应的译文,不仅方便、智能,并且有效地提高了获取新词对应的译文的准确率,提升了用户体验。[0011]本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。【专利附图】【附图说明】[0012]本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中,[0013]图1是根据本发明一个实施例的词汇译文的获取方法的流程图;[0014]图2是根据本发明一个实施例的提取与待翻译词汇相关的至少一个关联实体词汇的流程图;[0015]图3是根据本发明一个实施例的根据至少一个关联实体词汇生成待翻译词汇的搜索条件的流程图;[0016]图4是根据本发明另一个实施例的词汇译文的获取方法的流程图;[0017]图5是根据本发明一个实施例的对网页相似度进行检测的流程图;[0018]图6是根据本发明一个实施例的对待翻译词汇和待翻译词汇对应的译文进行译文检测的流程图;[0019]图7是根据本发明一个实施例的词汇译文的获取装置的结构示意图;[0020]图8是根据本发明一个实施例的词汇译文的获取装置的结构示意图。【具体实施方式】[0021]下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。[0022]在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。在本发明的描述中,除非另有明确的规定和限定,术语“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。[0023]流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属【
技术领域
】的技术人员所理解。[0024]下面参考附图描述本发明实施例的词汇译文的获取方法和装置。[0025]图1是根据本发明一个实施例的词汇译文的获取方法的流程图。[0026]如图1所示,词汇译文的获取方法包括以下步骤:[0027]S101,获取待翻译词汇,并根据待翻译词汇生成第一搜索结果。[0028]在本发明的实施例中,待翻译词汇可为突发的新闻事件或热点新闻中的新词,或者为新兴的流行词汇等,在现有的翻译词典中没有收录的词汇。用户可利用搜索引擎输入待翻译词汇进行搜索,以生成第一搜索结果。举例来说,对待翻译词汇“大妈”进行搜索,可获取多个与“大妈”相关的网页,则上述网页及其内容为第一搜索结果。[0029]S102,根据待翻译词汇从第一搜索结果中提取与待翻译词汇相关的至少一个关联实体词汇。其中,待翻译词汇与至少一个关联实体词汇属于第一语言。[0030]在本发明的实施例中,如图2所示,根据待翻译词汇从第一搜索结果中提取与待翻译词汇相关的至少一个关联实体词汇,具体包括以下步骤:[0031]S201,获取第一搜索结果中的至少一个源语言网页,其中,至少一个源语言网页属于第一语言。[0032]在本发明的实施例中,根据待翻译词汇生成的第一搜索结果中可包含多个与该待翻译词汇相关的源语言网页,获取其中至少一个源语言网页,以便获取该源网页中包含待翻译词汇的相关内容。其中,待翻译词汇与至少一个源语言网页均属于第一语言。[0033]S202,提取至少一个源语言网页中的词汇,并记录出现次数。[0034]举例来说,根据待翻译词汇“大妈”,可获取多个与“大妈”相关的网页。提取其中至少一个网页中的词汇,例如:包含有“于是,金价保持稳定了一段时间。新闻界为中国大妈战胜华尔街而欢呼。”的网页中,提取“华尔街”、“中国”、“金价”等词汇,并记录上述词汇出现的次数。[0035]S203,将出现次数大于预设次数阈值的词汇作为与待翻译词汇相关的至少一个关联实体词汇。[0036]在本发明的实施例中,在源语言网页中若某词汇的出现次数大于预设次数阈值时,代表该词汇与待翻译词汇相关度比较高,则将该词汇作为关联实体词汇。例如:根据“大妈”获取的多个网页中,当实体词汇“金价”、“华尔街”出现的次数大于预设次数阈值时,则可将“金价”、“华尔街”作为“大妈”相关的关联实体词汇。[0037]S103,根据至少一个关联实体词汇生成待翻译词汇的搜索条件,其中,搜索条件属于第二语目。[0038]在本发明的实施例中,如图3所示,根据至少一个关联实体词汇生成待翻译词汇的搜索条件,具体包括以下步骤:下面以“新闻界为中国大妈战胜华尔街而欢呼。”为例进行说明。[0039]S301,对至少一个关联实体词汇进行翻译,生成至少一个关联实体词汇对应的译文。[0040]对“大妈”相关的关联实体词汇“金价”、“华尔街”等进行翻译,生成英文译文。“金价”翻译成“goldprice”、“华尔街”翻译成“WallStreet”、“新闻界”翻译成“Thepress”坐寸ο[0041]S302,对至少一个关联实体词汇对应的译文进行组合,以生成待翻译词汇的搜索条件。[0042]将网页中的实体词汇进行组合,生成英文的搜索条件“goldprice”+“WallStreet”+“holdsteady”或“goldprice”+“defeating”+“Thepress”等。[0043]S104,根据搜索条件进行搜索以获取第二搜索结果。[0044]根据搜索条件“goldprice”+“WallStreet”+“holdsteady”或“goldprice”+“defeating”+“Thepress”,可搜索到多个英文网页。其中一个网页的内容包含“......Asaresult,thegoldpriceheldsteadyforawhile.ThepresshailedtheChinesedamafordefeatingWallStreet.......”。[0045]S105,从第二搜索结果中提取待翻译词汇对应的译文。[0046]根据网页内容“......Asaresult,thegoldpriceheldsteadyforawhile.ThepresshailedtheChinesedamafordefeatingWallStreet.......,,可获取待番羽译词汇“大妈”的译文“dama”。[0047]本发明实施例的词汇译文的获取方法,在根据待翻译词汇生成的第一搜索结果中提取关联实体词汇,并根据关联实体词汇生成的搜索条件,对搜索条件进行搜索以获取第二搜索结果,最终在第二搜索结果中提取待翻译词汇对应的译文,不仅方便、智能,并且有效地提高了获取新词对应的译文的准确率,提升了用户体验。此外,借助搜索引擎检索出和新词相关的多语网页具有时效性特点,因此获取的译文也具有很高的时效性。[0048]图4是根据本发明另一个实施例的词汇译文的获取方法的流程图。[0049]如图4所示,词汇译文的获取方法包括以下步骤:[0050]S401,获取待翻译词汇,并根据待翻译词汇生成第一搜索结果。[0051]在本发明的实施例中,待翻译词汇可为突发的新闻事件或热点新闻中的新词,或者为新兴的流行词汇等,在现有的翻译词典中没有收录的词汇。用户可利用搜索引擎输入待翻译词汇进行搜索,以生成第一搜索结果。举例来说,对待翻译词汇“大妈”进行搜索,可获取多个与“大妈”相关的网页,则上述网页及其内容为第一搜索结果。[0052]S402,根据待翻译词汇从第一搜索结果中提取与待翻译词汇相关的至少一个关联实体词汇,其中,待翻译词汇与至少一个关联实体词汇属于第一语言。[0053]在本发明的实施例中,首先获取第一搜索结果中的至少一个源语言网页,并提取至少一个源语言网页中的词汇,并记录出现次数,然后将出现次数大于预设次数阈值的词汇作为与待翻译词汇相关的至少一个关联实体词汇。[0054]举例来说,根据待翻译词汇“大妈”,可获取多个与“大妈”相关的网页。在包含有“于是,金价保持稳定了一段时间。新闻界为中国大妈战胜华尔街而欢呼。”的网页中,提取“华尔街”、“中国”、“金价”等词汇,并记录上述词汇出现的次数,当出现的次数大于预设次数阈值时,则可将“金价”、“华尔街”作为“大妈”相关的关联实体词汇。[0055]S403,根据至少一个关联实体词汇生成待翻译词汇的搜索条件,其中,搜索条件属于第二语目。[0056]在本发明的实施例中,首先对至少一个关联实体词汇进行翻译,生成至少一个关联实体词汇对应的译文,然后对至少一个关联实体词汇对应的译文进行组合,以生成待翻译词汇的搜索条件。[0057]举例来说,对“大妈”相关的关联实体词汇“金价”、“华尔街”等进行翻译,生成英文译文。“金价”翻译成“goldprice”、“华尔街”翻译成“WallStreet”、“新闻界”翻译成“Thepress”等,然后将上述译文进行组合,生成英文的搜索条件“goldprice”+“WallStreet”+“holdsteady”或“goldprice”+“defeating”+“Thepress”等。[0058]S404,根据搜索条件进行搜索以获取第二搜索结果。[0059]继续上例进行说明,根据搜索条件“goldprice”+“WallStreet”+“holdsteady”或“goldprice”+“defeating”+“Thepress”,可搜索到多个英文网页。其中一个网页的内容包含“......Asaresult,thegoldpriceheldsteadyforawhile.ThepresshailedtheChinesedamafordefeatingWallStreet.......”。[0060]S405,从第二搜索结果中提取待翻译词汇对应的译文。[0061]继续上例进行说明,根据网页内容“......Asaresult,thegoldpriceheldsteadyforawhile.ThepresshailedtheChinesedamafordefeatingWallStreet.......”可获取待翻译词汇“大妈”的译文“dama”。[0062]S406,对待翻译词汇和待翻译词汇对应的译文进行译文检测。[0063]如图5所示,在对待翻译词汇和待翻译词汇对应的译文进行译文检测之前,具体包括以下步骤:[0064]S501,获取第二搜索结果中的至少一个目标语言网页。[0065]其中,第二搜索结果和目标语言网页均属于第二语言。[0066]S502,获取至少一个源语言网页和至少一个目标语言网页的相似度。[0067]在本发明的实施例中,源语言网页属于第一语言,目标语言网页属于第二语音,因此需要基于上下文互译词汇的方法来计算跨语言网页的相似度。计算公式如下所示:[0068]【权利要求】1.一种词汇译文的获取方法,其特征在于,包括:获取待翻译词汇,并根据所述待翻译词汇生成第一搜索结果;根据所述待翻译词汇从所述第一搜索结果中提取与所述待翻译词汇相关的至少一个关联实体词汇,其中,所述待翻译词汇与所述至少一个关联实体词汇属于第一语言;根据所述至少一个关联实体词汇生成所述待翻译词汇的搜索条件,其中,所述搜索条件属于第二语言;根据所述搜索条件进行搜索以获取第二搜索结果;以及从所述第二搜索结果中提取所述待翻译词汇对应的译文。2.如权利要求1所述的方法,其特征在于,所述根据所述待翻译词汇从所述第一搜索结果中提取与所述待翻译词汇相关的至少一个关联实体词汇具体包括:获取所述第一搜索结果中的至少一个源语言网页,所述至少一个源语言网页属于所述第一语目;提取所述至少一个源语言网页中的词汇,并记录出现次数;以及将所述出现次数大于预设次数阈值的词汇作为与所述待翻译词汇相关的至少一个关联实体词汇。3.如权利要求1所述的方法,其特征在于,所述根据至少一个关联实体词汇生成所述待翻译词汇的搜索条件具体包括:对所述至少一个关联实体词汇进行翻译,生成所述至少一个关联实体词汇对应的译文;以及对所述至少一个关联实体词汇对应的译文进行组合,以生成所述待翻译词汇的搜索条件。4.如权利要求2所述的方法,其特征在于,还包括:对所述待翻译词汇和所述待翻译词汇对应的译文进行译文检测;如果判断满足译文检测标准,则将所述待翻译词汇对应的译文提供至用户。5.如权利要求4所述的方法,其特征在于,所述对待翻译词汇和所述待翻译词汇对应的译文进行译文检测具体包括:检测所述待翻译词汇和所述待翻译词汇对应译文之间的相关性;检测所述待翻译词汇和所述待翻译词汇对应译文之间的上下文相似度;以及根据所述相关性和所述上下文相似度进行所述译文检测。6.如权利要求4所述的方法,其特征在于,在所述对所述待翻译词汇和所述待翻译词汇对应的译文进行译文检测之前,还包括:获取所述第二搜索结果中的至少一个目标语言网页;获取所述至少一个源语言网页和所述至少一个目标语言网页的相似度;根据所述至少一个源语言网页和所述至少一个目标语言网页的相似度进行译文检测。7.一种词汇译文的获取装置,其特征在于,包括:待翻译词汇获取模块,用于获取待翻译词汇;第一搜索模块,用于根据所述待翻译词汇生成第一搜索结果;提取模块,用于根据所述待翻译词汇从所述第一搜索结果中提取与所述待翻译词汇相关的至少一个关联实体词汇,其中,所述待翻译词汇与所述至少一个关联实体词汇属于第一语目;搜索条件生成模块,用于根据所述至少一个关联实体词汇生成所述待翻译词汇的搜索条件,其中,所述搜索条件属于第二语言;第二搜索模块,用于根据所述搜索条件进行搜索以获取第二搜索结果;以及译文提取模块,用于从所述第二搜索结果中提取所述待翻译词汇对应的译文。8.如权利要求7所述的装置,其特征在于,所述提取模块获取所述第一搜索结果中的至少一个源语言网页,并提取所述至少一个源语言网页中的词汇和记录出现次数,以及将所述出现次数大于预设次数阈值的词汇作为与所述待翻译词汇相关的至少一个关联实体词汇,其中,所述至少一个源语言网页属于所述第一语言。9.如权利要求7所述的装置,其特征在于,所述搜索条件生成模块具体包括:翻译子模块,用于对所述至少一个关联实体词汇进行翻译,生成所述至少一个关联实体词汇对应的译文;以及组合子模块,用于对所述至少一个关联实体词汇对应的译文进行组合,以生成所述待翻译词汇的搜索条件。10.如权利要求8所述的装置,其特征在于,还包括:译文检测模块,用于对所述待翻译词汇和所述待翻译词汇对应的译文进行译文检测,并在判断满足译文检测标准时将所述待翻译词汇对应的译文提供至用户。11.如权利要求10所述的装置,其特征在于,所述译文检测模块具体包括:相关性检测子模块,用于检测所述待翻译词汇和所述待翻译词汇对应译文之间的相关性;相似度检测子模块,用于检测所述待翻译词汇和所述待翻译词汇对应译文之间的上下文相似度;以及译文检测子模块,用于根据所述相关性和所述上下文相似度进行所述译文检测。12.如权利要求10所述的装置,其特征在于,还包括:网页相似度检测模块,用于获取所述第二搜索结果中的至少一个目标语言网页,并获取所述至少一个源语言网页和所述至少一个目标语言网页的相似度,以及根据所述至少一个源语言网页和所述至少一个目标语言网页的相似度进行译文检测。【文档编号】G06F17/30GK103729445SQ201310745535【公开日】2014年4月16日申请日期:2013年12月30日优先权日:2013年12月30日【发明者】王海峰,吴华,刘占一申请人:北京百度网讯科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1