一种信息挖掘方法及装置与流程

文档序号:12063656阅读:248来源:国知局
一种信息挖掘方法及装置与流程

本发明属于数据挖掘技术领域,尤其涉及一种信息挖掘方法及装置。



背景技术:

翻译人员的翻译能力不仅取决于其双语水平,还取决于其对翻译工具和翻译资源的掌握能力。随着互联网技术的发展,互联网中蕴含了越来越丰富的能够辅助翻译的网络资源,翻译人员在遇到疑难词汇或短语时也越来越倾向于借助互联网来实现辅助翻译。

目前,基于互联网实现辅助翻译的手段主要有三种:1)借助网络词典,2)借助网络自动翻译机器,3)借助网络搜索引擎从网络搜索翻译参考信息。对于网络词典而言,如在线翻译词典等,由于其尚未提供足够的语境翻译信息,易导致翻译人员在面对同一词汇/短语的多个翻译译项(如计算机对应computer、calculating machine等多个译项)时,往往无法决策;而网络自动翻译机器,如Google在线翻译等,因受机器翻译技术发展水平的限制,翻译质量常不尽如人意,距离实用化还有很大差距;借助网络搜索引擎,可以对互联网上的多语言官方网站、翻译论坛、翻译社区等蕴含的大量双语信息进行检索应用,这些信息具有动态性,并包含了大量的双语语境信息,能够较好地辅助翻译人员进行翻译。

为了提高对互联网上的翻译参考信息进行检索时的检索效率及效果,得到参考价值较高的翻译参考信息,进而实现更好地辅助翻译,如何高效、准确地获取互联网中蕴含的与当前翻译需求关联较紧密的翻译参考信息变得十分重要。



技术实现要素:

有鉴于此,本发明的目的在于提供一种信息挖掘方法及装置,以实现高效、准确地获取互联网中蕴含的与当前翻译需求关联较紧密的翻译参考信息,进而提升基于网络搜索的辅助翻译效率及效果。

为此,本发明公开如下技术方案:

一种信息挖掘方法,包括:

获得待译对象包含的各个关键词,及各个关键词在目标语言中对应的翻译译项;

从各个关键词对应的翻译译项中确定出至少一个译文引导词,所述译文引导词为各个关键词对应的翻译译项中所起的引导作用较大的翻译译项;其中,翻译译项所起的引导作用为:在将待译对象及翻译译项作为检索依据,来利用翻译译项对待译对象进行引导式检索时,翻译译项对检索出所述待译对象对应的翻译参考信息所起到的引导作用;

将所述待译对象及所述译文引导词作为检索依据,检索所述待译对象对应的翻译参考信息,得到检索结果;

基于预定的参考价值评价方式,从所述检索结果包含的各检索条目中获得参考价值较高的至少一个检索条目,并返回所述至少一个检索条目。

上述方法,优选的,所述从各个关键词对应的翻译译项中确定出至少一个译文引导词包括:

对各个关键词的翻译译项按照各翻译译项所起的引导作用的大小进行排序处理,得到一译项序列;

从所述译项序列的相应端获得引导作用较大的至少一个翻译译项作为译文引导词。

上述方法,优选的,所述对各个关键词的翻译译项按照各翻译译项所起的引导作用的大小进行排序处理,包括:

依据各个关键词所对应的翻译译项的数量,对不同关键词的翻译译项进行排序;其中,同一关键词的各个翻译译项作为一个整体参与排序,关键词对应的翻译译项的数量与关键词翻译译项所起引导作用的大小呈反向关系;

当存在所对应的翻译译项数量相同的不同关键词时,按所述不同关键词分别在所述待译对象中的重要度,对所述不同关键词的翻译译项进行排序;其中,关键词在待译对象中的重要度与关键词翻译译项所起的引导作用的大小呈正向关系;

依据采用同一关键词的每个翻译译项对待译对象进行引导式检索时搜索引擎返回的检索条目的个数,对同一关键词的各个翻译译项进行排序;翻译译项对应的检索条目的个数与翻译译项所起的引导作用的大小呈正向关系。

上述方法,优选的,所述将所述待译对象及所述译文引导词作为检索依据,检索所述待译对象对应的翻译参考信息,得到检索结果,包括:

将所述待译对象及所述译文引导词作为检索依据在多个预定的搜索引擎中进行检索,得到多个搜索引擎的检索结果。

上述方法,优选的,基于预定的参考价值评价方式,从所述检索结果包含的各检索条目中获得参考价值较高的至少一个检索条目,包括:

对所述多个搜索引擎的检索结果进行噪音滤除处理,并对滤除噪音后所得的多个搜索引擎的检索结果中相同的检索条目进行合并处理;

依据待译对象及译文引导词在所述合并处理后所得的各检索条目中的出现位置、距离、信息来源,及所述各检索条目在每个搜索引擎返回检索结果中的默认排序中的任意一种或多种,计算合并后所得的各检索条目与所述待译对象的相关度数值;

基于相关度数值,对合并后所得的各个检索条目进行排序;

从排序后所得的条目序列的相应端获得相关度数值较高的至少一个检索条目,并返回所述至少一个检索条目。

一种信息挖掘装置,包括:

第一获取单元,用于获得待译对象包含的各个关键词,及各个关键词在目标语言中对应的翻译译项;

确定单元,用于从各个关键词对应的翻译译项中确定出至少一个译文引导词,所述译文引导词为各个关键词对应的翻译译项中所起的引导作用较大的翻译译项;其中,翻译译项所起的引导作用为:在将待译对象及翻译译项作为检索依据,来利用翻译译项对待译对象进行引导式检索时,翻译译项对检索出所述待译对象对应的翻译参考信息所起到的引导作用;

检索单元,用于将所述待译对象及所述译文引导词作为检索依据,检索所述待译对象对应的翻译参考信息,得到检索结果;

第二获取单元,用于基于预定的参考价值评价方式,从所述检索结果包含的各检索条目中获得参考价值较高的至少一个检索条目,并返回所述至少一个检索条目。

上述装置,优选的,所述确定单元,进一步用于:

对各个关键词的翻译译项按照各翻译译项所起的引导作用的大小进行排序处理,得到一译项序列;从所述译项序列的相应端获得引导作用较大的至少一个翻译译项作为译文引导词。

上述装置,优选的,所述确定单元,进一步用于:

依据各个关键词所对应的翻译译项的数量,对不同关键词的翻译译项进行排序;其中,同一关键词的各个翻译译项作为一个整体参与排序,关键词所对应的翻译译项的数量与关键词翻译译项所起引导作用的大小呈反向关系;当存在所对应的翻译译项数量相同的不同关键词时,按所述不同关键词分别在所述待译对象中的重要度,对所述不同关键词的翻译译项进行排序;其中,关键词在待译对象中的重要度与关键词翻译译项所起的引导作用的大小呈正向关系;依据采用同一关键词的每个翻译译项对待译对象进行引导式检索时搜索引擎返回的检索条目的个数,对同一关键词的各个翻译译项进行排序;翻译译项对应的检索条目的个数与翻译译项所起的引导作用的大小呈正向关系。

上述装置,优选的,所述检索单元,进一步用于:将所述待译对象及所述译文引导词作为检索依据在多个预定的搜索引擎中进行检索,得到多个搜索引擎的检索结果。

上述装置,优选的,所述第二获取单元,进一步用于:

对所述多个搜索引擎的检索结果进行噪音滤除处理,并对滤除噪音后所得的多个搜索引擎的检索结果中相同的检索条目进行合并处理;依据待译对象及译文引导词在所述合并处理后所得的各检索条目中的出现位置、距离、信息来源,及所述各检索条目在每个搜索引擎返回检索结果中的默认排序中的任意一种或多种,计算合并后所得的各个检索条目与所述待译对象的相关度数值;基于相关度数值,对合并后所得的各个检索条目进行排序;从排序后所得的条目序列的相应端获得相关度数值较高的至少一个检索条目,并返回所述至少一个检索条目。

由以上方案可知,本发明公开了一种信息挖掘方法及装置,所述方法包括获得待译对象包含的各个关键词及各关键词在目标语言中对应的翻译译项,从各个关键词对应的翻译译项中确定出至少一个译文引导词,所述译文引导词为各个关键词对应的翻译译项中所起的引导作用较大的翻译译项,将待译对象及译文引导词作为检索依据,检索所述待译对象对应的翻译参考信息;从检索结果中获取参考价值较高的至少一个检索条目并返回。可见,本发明通过获得待译对象对应的引导作用较大的引文引导词,结合利用待译对象及译文引导词对待译对象对应的翻译参考信息进行引导式检索,以及通过从检索结果中获得并返回参考价值较高的至少一个检索条目,有效解决了上述技术问题,能够实现高效、准确地获取互联网中蕴含的与当前翻译需求关联较紧密的翻译参考信息,进而提升了基于网络搜索的辅助翻译效率及效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1是本发明实施例一提供的信息挖掘方法的一种流程图;

图2是本发明实施例二提供的信息挖掘方法的另一种流程图;

图3是本发明实施例二提供的采用本发明方案实现基于译文引导词择优选择及多搜索引擎返回结果整合、优化的信息挖掘过程示意图;

图4是本发明实施例三提供的信息挖掘装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

申请人通过预先对翻译人员等用户在实际项目翻译过程中的网络检索行为进行大量的数据采集及分析,提出了本发明的一种信息挖掘方法及装置。

其中,对翻译人员等用户的网络检索行为进行分析具体包括:

(一)对翻译人员网络检索内容的分析

具体地,申请人预先对近30名翻译人员在实际项目翻译过程中,进行网络检索以实现辅助翻译的行为进行了数据采集及分析,其中,从近30名翻译人员的网络检索行为对应的网络检索日志中随机抽取了14000余条日志进行了人工分析,例如包括分析翻译人员的检索内容、采用的搜索引擎地址、时间等信息,在此基础上,申请人将翻译人员所检索内容的翻译难点归纳如下:

1)专有名词

翻译过程中翻译人员通常会遇到诸如人名、地名、机构名等专有名词,而现有词典中往往无法给出准确可用的翻译。例如,“中国商用飞机有限责任公司(COMAC)”,在网络自动翻译系统和网络词典中均无法得到正确的翻译,需要到官网查询才能得到准确答案。

2)专业性术语

很多常用词汇应用在专业领域会有约定俗成的译法,例如Acknowledgement在航空领域翻译为“领知”,而如果翻译人员对航空领域不熟悉,则在在线词典的帮助下可能将其翻译为“认知”等,不能得出确切的翻译。此种情况下,需要上下文语境的帮助才能确定是采用常规译法还是领域性特定译法。

3)缩略语

相同的缩略语在不同的专业领域中其含义往往差异巨大,若翻译人员对专业词汇不熟悉,则翻译的困难性也会随之增加。例如,航空领域文献中缩略语GA(General Aviation),正确翻译为“通用航空”,而在线词典仅提供有“总代理人”、“遗传算法”、“赤霉素”等译法,这些译法都与航空领域无关,这说明词典资源不能完整收录不同专业领域的缩略语。

4)网络新兴词汇

随着社交网站的兴起,网络新兴词汇也迅速出现并被广泛使用,在线词典虽然也在逐渐收录新兴词汇,但是远赶不上新兴词汇的更新速度。例如,新兴词汇“ROM brain”是指一个人“死脑筋”,而在线词典翻译为“罗的大脑”,显然效果很不理想,这就影响了翻译人员的翻译质量和效率。

(二)对翻译人员网络检索策略的分析

针对翻译过程中遇到的上述各翻译难点,翻译人员往往需借助网络检索进行辅助翻译,且在进行网络检索时往往需要采用相应的检索策略来获取与翻译需求关联较紧密的翻译参考信息,基于此,除了对翻译人员的检索内容进行分析,申请人还对翻译人员在检索过程中所采用的人工网络检索策略进行了分析。

其中,本发明将检索过程中输入的待译词汇或短语统称为待译单元,在实际翻译过程中,当直接将待译单元输入搜索引擎进行检索时,得到的翻译参考信息(如待译单元对应的译文及语境信息等)往往很少,为了准确地检索到翻译所需的参考知识,翻译人员在检索过程中不再仅仅使用待译单元作为检索输入,来进行翻译参考信息的检索,而是采取不同的组合检索策略进行多次检索尝试。参考以下的表1及表2,其中,表1示出了申请人对翻译人员采用的各种检索策略进行统计分析的结果,具体如下:

表1

表2示出了不同组合检索策略对应的检索结果的对比情况,具体如下:

表2

通过表1和表2的分析可知,翻译人员较常采用且较为有效的组合检索策略是“待译单元+译文引导词”,该策略具体是采用译文引导词对待译单元对应的翻译参考信息进行引导式检索,用户在译文引导词的选择方面,往往需要进行不断尝试才能选择出较优的引导词,例如,表2中在对待译单元“安装孔”进行引导式检索时,采用引导词“hole”比采用其他引导词,如“install”、“mout”等的返回结果条目数量要多,因此,“hole”相比于其他引导词而言,在进行引导式检索时引导效果较优,引导作用较大,用户在检索过程中,通过不断尝试才能确定出较优的引导词,并采用较优引导词对应的检索结果进行辅助翻译,当某一搜索引擎未得到满意的翻译参考信息时,用户会更换另一个搜索引擎再次尝试,这样会消耗大量的时间。

基于上述分析,申请人提出本发明的信息挖掘方法及装置,接下来通过多个实施例对本发明方案进行说明。

实施例一

本发明实施例一提供一种信息挖掘方法,该方法用于辅助诸如翻译人员等用户高效、准确地获取互联网中蕴含的与当前翻译需求关联较紧密的翻译参考信息,参考图1示出的信息挖掘方法流程图,所述方法可以包括以下步骤:

步骤101、获得待译对象包含的各个关键词,及各个关键词在目标语言中对应的翻译译项。

其中,所述待译对象可以是待翻译的词汇、短语等待译单元。

本步骤具体可采用相关分词技术或关键词抽取技术对待译对象进行关键词提取,并通过双语词典,如网络在线词典等,获得各关键词对应的目标语言翻译译项。所获取的各个关键词的翻译译项作为候选的译文引导词,从而形成一个候选引导词集合。

例如,假设待译对象为中文语言形式的待译单元,目标(翻译)语言为英文,则可采用中文分词技术或中文关键词抽取技术提取出待译对象包括的各个关键词,并通过中英文在线词典获得各关键词的英文译项。

步骤102、从各个关键词对应的翻译译项中确定出至少一个译文引导词,所述译文引导词为各个关键词对应的翻译译项中所起的引导作用较大的翻译译项。

其中,翻译译项所起的引导作用具体是指:在将待译对象及翻译译项作为检索依据,来利用翻译译项对待译对象进行引导式检索时,翻译译项对检索出所述待译对象对应的翻译参考信息所起到的引导作用。

由于待译对象往往包含多个关键词,且某些关键词常对应多个翻译译项,比如“计算机世界”包含“计算机”及“世界”两个关键词,关键词“计算机”对应“computer”、“calculator”、“Calculating machine”及“Counting machine”等多个翻译译项,从而待译对象对应的候选引导词集合中包含的翻译译项的数量,即候选译文引导词的数量往往较大,针对该情况,为提升基于网络搜索的辅助翻译效率及效果,本实施例从候选引导词集合中确定出引导作用较大的至少一个翻译译项作为引导式检索时所采用的译文引导词,即从择优选择所采用的译文引导词,从而,仅采用引导作用较大即较优的翻译译项作为译文引导词对待译对象进行引导式检索。

在从候选引导词集合中进行译文引导词的确定时,具体可采用相应的衡量标准,对候选引导词集合中包含的各翻译译项进行引导作用大小的衡量,进而在此基础上,选取出引导作用较大的一个或多个翻译译项作为译文引导词。该部分内容将在本发明接下来的另一个实施例中进行详细阐述。

步骤103、将所述待译对象及所述译文引导词作为检索依据,检索所述待译对象对应的翻译参考信息,得到检索结果。

在确定出译文引导词的基础上,本步骤采用所确定出的译文引导词,在搜索引擎上对待译对象进行引导式检索,具体地,将待译对象及译文引导词共同作为搜索引擎的输入,实现通过搜索引擎检索得到待译对象对应的翻译参考信息(即所述检索结果)。

所述翻译参考信息具体可以是包含待译对象对应的译文及语境信息的各项检索条目,其中,所述检索条目可以是多语言官方网站、翻译论坛、翻译社区、双语文献等各种网络资源蕴含的大量双语信息所在的检索结果条目。

步骤104、基于预定的参考价值评价方式,从所述检索结果包含的各检索条目中获得参考价值较高的至少一个检索条目,并返回所述至少一个检索条目。

其中,具体可基于检索条目与待译对象的相关度,对检索结果包含的各检索条目的参考价值进行评价,检索条目与待译对象的相关度数值越大,则表示检索条目的参考价值越高,否则,检索条目与待译对象的相关度数值越小,则检索条目的参考价值越低。

在确定出检索结果包含的各检索条目的参考价值基础上,可基于各检索条目的参考价值,对检索结果包含的各检索条目进行择优,从中选取出参考价值较高的一部分检索条目并返回,如从检索得出的几千条检索条目中择优选取出参考价值较高的30条检索条目并返回等,以供用户参考,进而实现对用户的翻译过程进行辅助翻译。

该部分内容同样在本发明接下来的另一个实施例中进行详细阐述。

由以上方案可知,本发明方法包括获得待译对象包含的各个关键词及各关键词在目标语言中对应的翻译译项,从各个关键词对应的翻译译项中确定出至少一个译文引导词,所述译文引导词为各个关键词对应的翻译译项中所起的引导作用较大的翻译译项,将待译对象及译文引导词作为检索依据,检索所述待译对象对应的翻译参考信息;从检索结果中获取参考价值较高的至少一个检索条目并返回。可见,本发明通过获得待译对象对应的引导作用较大的引文引导词,结合利用待译对象及译文引导词对待译对象对应的翻译参考信息进行引导式检索,以及通过从检索结果中获得并返回参考价值较高的至少一个检索条目,有效解决了如何高效、准确地获取互联网中蕴含的与当前翻译需求关联较紧密的翻译参考信息这一问题,进而提升了基于网络搜索的辅助翻译效率及效果。

实施例二

本发明实施例二中,参考图2示出的信息挖掘方法的流程图,所述信息挖掘方法可以通过以下步骤实现:

步骤201、获得待译对象包含的各个关键词,及各个关键词在目标语言中对应的翻译译项。

由于中文分词技术在专业术语和专有名词等文本上的切分效果往往无法达到令人满意的程度,本实施例优选地采用关键词抽取技术来获取待译对象包括的各关键词。更进一步地,本实施例采用TextRank关键词抽取技术进行关键词提取,然后将抽取出来的关键词按照关键词在待译对象中的重要度(语义重要度)降序输出。比如对于“作动系统及螺旋桨系统战略事业部”,经过基于TextRank的中文关键词抽取技术处理后输出的关键词序列为:事业部,作动,系统,战略,螺旋桨。

针对所抽取的待译对象的各个关键词,本实施例使用预定的网络在线词典对关键词进行翻译译项的获取,所获取的各个关键词的翻译译项作为候选的译文引导词,从而形成一个候选引导词集合。

步骤202、对各个关键词的翻译译项按照各翻译译项所起的引导作用的大小进行排序处理,得到一译项序列;从所述译项序列的相应端获得引导作用较大的至少一个翻译译项作为译文引导词。

本步骤通过对各翻译译项进行排序,实现从中择优选取出引导作用较大的部分翻译译项作为最终采用的译文引导词。

为了对各个关键词的翻译译项在进行引导式检索时所起的引导作用的大小进行衡量,进而确定对各个关键词的翻译译项进行排序的策略,申请人预先进行了如下的分析及验证工作:

其中,通过对关键词翻译译项所起的引导作用进行分析,得出如下结论:关键词对应的翻译译项越少,表明该关键词的翻译确定性越强,相应地采用该关键词的翻译译项进行引导式检索时可得到较好的检索结果。从而,关键词所对应的翻译译项的数量越少,则该关键词的翻译译项在进行引导式检索时所起的引导作用就越大,即关键词所对应的翻译译项的数量与关键词翻译译项所起引导作用的大小呈反向关系。

针对该分析结论,申请人采集了100个待译单元对其正确性进行验证,具体地,利用上述关键词抽取技术对各待译单元进行关键词抽取,并使用预定的网络在线词典获得每个待译单元的关键词翻译译项,从而形成每个待译单元对应的候选引导词集合。在此基础上采用待译单元加对应的候选引导词的组合检索方式分别在多个搜索引擎(例如百度、谷歌、必应)中进行检索。检索结果参考以下的表3:

表3

以上表3中,关键词“世界”仅对应一个翻译译项“world”,关键词“计算机”对应4个翻译译项:“computer”、“calculator”、“Calculating machine”及“Counting machine”,也就是说,关键词“世界”对应的翻译译项数量(即1)小于关键词“计算机”对应的翻译译项数量(即4),且参考以上表3可知,采用“世界”的翻译译项作为译文引导词进行检索,在各搜索引擎获得的平均返回结果数为1469000条,而采用“计算机”对应的各翻译译项作为译文引导词进行检索,在各搜索引擎获得的平均返回结果数为249158条,可见,采用“世界”的翻译译项作为译文引导词进行检索,相比于采用“计算机”的各翻译译项作为译文引导词进行检索能够获得更多的检索结果,也即采用“世界”的翻译译项作为译文引导词进行检索的检索效果更好,从而通过表3的实验数据有效验证了以上结论的正确性。

基于此,可依据各个关键词所对应的翻译译项的数量,对不同关键词的翻译译项进行排序,比如按各个关键词所对应的翻译译项的数量,对各关键词的翻译译项进行升序排序等,其中,同一关键词的各个翻译译项作为一个整体参与排序。仍以表3中的待译单元“计算机世界”为例,依据各个关键词所对应的翻译译项的数量,按升序方式对该待译单元的关键词“世界”、“计算机”对应的翻译译项进行排序后,所得的译项序列为:

“world”、{“computer”、“calculator”、“Calculating machine”、“Counting machine”}。

其中,“计算机”的各翻译译项在此次排序中作为一个整体参与排序。

而对于同一关键词的不同翻译译项而言,由于在搜索引擎中具有较多返回结果的译文引导词的检索效果更好,因此,翻译译项对应的返回结果中检索条目的个数与翻译译项所起的引导作用的大小呈正向关系,从而,可依据采用同一关键词的每个翻译译项进行引导式检索时搜索引擎返回的检索条目的个数,对同一关键词的各个翻译译项进行排序,如依据对应的检索条目的个数,对同一关键词对应的各翻译译项进行降序排序等。

当存在所对应的翻译译项数量相同的不同关键词时,可按所述不同关键词分别在所述待译对象中的重要度,即可按照TextRank算法输出所述不同关键词的顺序对所述不同关键词的翻译译项进行排序,如依据所述重要度,对所述不同关键词的翻译译项进行降序排序等;其中,关键词在待译对象中的重要度与关键词翻译译项所起的引导作用的大小呈正向关系。

最终,可从依据上述排序策略所得的候选引导词序列中择优选取出引导作用较大的一个或预定个数的多个翻译译项作为译文引导词。

步骤203、将所述待译对象及所述译文引导词作为检索依据在多个预定的搜索引擎中进行检索,得到多个搜索引擎的检索结果。

由于在实际检索过程中,对于相同的检索输入信息,不同搜索引擎返回的结果不尽相同,当采用某一搜索引擎未得到满意的翻译参考信息时,用户会更换另一个搜索引擎再次尝试,基于此,为提高检索结果的有效性,本实施例优选地将所述待译对象及所述译文引导词作为检索依据在多个预定的搜索引擎中,如在百度、谷歌及必应等多个搜索引擎中进行检索,得到多个搜索引擎的检索结果,后续通过对多个搜索引擎的检索结果进行整合优化,来进一步提升最终的信息挖掘结果的参考价值。

基于此,本步骤面向多搜索引擎进行检索结果的采集,其中,采集各搜索引擎以所述待译对象及译文引导词为检索依据所返回的检索结果,具体包括采集搜索引擎返回的各检索条目的标题、url地址、摘要、来源网址等。例如,将待译对象“中文信息学报”以“Information”为译文引导词在百度搜索引擎中检索后,所采集的一检索条目的结果信息如以下的表4:

表4

步骤204、对所述多个搜索引擎的检索结果进行噪音滤除处理,并对滤除噪音后所得的所述多个搜索引擎的检索结果中相同的检索条目进行合并处理。

搜索引擎的检索结果中往往包含如商业广告等噪音数据,同时,不同搜索引擎的检索结果中常包含相同的检索条目,基于此,本步骤首先对各个搜索引擎的检索结果进行噪音滤除处理,以去除其中的噪音数据,之后,对各个搜索引擎的检索结果中相同的检索条目进行整合、合并。

步骤205、依据待译对象及译文引导词在所述合并处理后所得的各检索条目中的出现位置、距离、信息来源及所述各检索条目在每个搜索引擎返回检索结果中的默认排序中的任意一种或多种,计算合并后所得的各个检索条目与所述待译对象的相关度数值。

在对各搜索引擎的检索结果进行噪音滤除及相同检索条目合并的基础上,本步骤基于预定的计算方式,计算合并后所得的各个检索条目与待译对象间的相关度,以此衡量各个检索条目的参考价值,其中,两者间的相关度数值越大,则表示检索条目的参考价值越高,否则两者间的相关度数值越小,则表示检索条目的参考价值越低。

申请人通过对大量检索结果进行分析,提出一种基于待译对象与译文引导词在检索条目中的出现位置、距离、信息来源,及检索条目在搜索引擎返回结果中的默认排序等信息中的任意一种或多种信息,进行检索条目与待译对象间相关度计算的方式,具体描述如下:

1)基于位置的相关度打分

下文中出现的相关度均指检索条目与待译对象间的相关度,为方便描述,将其简称为检索条目的相关度。

待译对象或译文引导词出现在检索条目的标题中相比于出现在摘要中时,检索条目的相关度更高;两者同时出现在检索条目的标题或摘要中时,则该检索条目的相关度尤为突出。

基于此,本实施例中,设T1表示待译单元是否在标题中出现,其中若出现则T1=1,否则,若未出现则T1=0,T2表示引导词是否在标题中出现,S1表示待译对象是否在摘要中出现,S2表示译文引导词是否在摘要中出现,T2,S1,S2的取值方法同T1。设待译对象、译文引导词在标题中出现的权重为a(0<a<1),在摘要中出现的权重系数为(1-a),则基于位置信息的打分函数R1的计算公式可以表示为以下的式(1):

R1=a(T1+T2)2+(1-a)(S1+S2)2 (1)

2)基于距离信息的相关度打分

当待译对象与译文引导词同时出现在检索条目的标题或摘要中时,在原有位置信息的基础上,增加了两者间相对距离的信息,两者间的相对距离越近,则检索条目的相关度越大。

如果待译对象与译文引导词同时出现在检索条目的标题和摘要中,则设待译对象在标题中出现的具体位置为TL1(TL1>0),在摘要中出现的具体位置为SL1(SL1>0),译文引导词在标题中出现的具体位置为TL2(TL2>0),在摘要中出现的具体位置为SL2(SL2>0),α表示在待译对象、译文引导词标题中出现时对应的权重系数,与式1)中的α为同一变量,则基于距离信息的打分函数R2的计算公式可以表示为:

如果待译对象与译文引导词仅同时出现在检索条目的标题中,则基于距离信息的打分函数R2的计算公式可以表示为:

如果待译对象与译文引导词仅同时出现在检索条目的摘要中,则基于距离信息的打分函数R2的计算公式可以表示为:

3)基于检索条目在各搜索引擎中的排名信息的相关度打分

检索条目在各搜索引擎返回条目中的排名次序越靠前,则该检索条目的相关度越高。

设各搜索引擎的返回结果中包含的检索条目个数为Ni(一般10<Ni<100),某检索条目在某搜索引擎返回的各检索条目中的排名次序为ni,i表示搜索引擎序号(i=1,2,3…n),λi表示序号为i的搜索引擎的权重,则基于排名信息的打分函数R3的计算公式可以表示为:

4)基于结果来源信息的相关度打分

本实施例利用网站类型进行结果来源类型判断。例如,教育类网站.edu、政府网站.gov或.gov.cn、权威网站等,此类网站的返回结果具有较高的质量。

基于结果来源信息的相关度打分函数R4的计算公式可表示为:

在以上描述的基础上,可通过对上述各打分函数中的任意一种或多种函数进行融合,来形成最终的打分函数,示例性地,本实施例优选的采用线性组合的形式将上述所有打分函数进行融合,来得到最终的打分函数,该最终的打分函数具体可表示为:

R=β1R12R23R34R4 (7)

其中,β1表示基于位置的相关度打分的权重、β2表示基于距离信息的相关度打分的权重、β3表示基于检索条目在各搜索引擎中的排名信息的相关度打分权重、β4表示基于结果来源信息的相关度打分的权重。

步骤206、基于相关度数值,对合并后所得的各个检索条目进行排序;从排序后所得的条目序列的相应端获得相关度数值较高的至少一个检索条目,并返回所述检索条目。

本步骤将合并所得的各检索条目按其相关度数值进行排序,例如按相关度数值对各检索条目进行降序排序等,从而最终,可从排序所得的序列头部择优选取预定个数的检索条目进行返回,推荐给用户参考。

需要说明的是,在实际实施时,可具体将本发明方法应用于各搜索引擎端,从而在用户向某一搜索引擎输入待译对象时,获得输入的搜索引擎即可通过对该待译对象进行关键词抽取、翻译译项排序、择优等一系列处理确定待译对象的译文引导词,在此基础上,将待译对象及译文引导词作为检索输入,自动调用多个搜索引擎并获得多个搜索引擎的检索结果,最终整合优化多个搜索引擎的检索结果,实现向用户返回参考价值较高的翻译参考信息。参考图3,图3示出了采用本发明方案,实现基于译文引导词择优选择及多搜索引擎返回结果整合、优化的信息挖掘过程示意图。

还需要说明的是,本实施例提供的基于多搜索引擎的处理方式仅为本发明方法的一较优选的实施例,具体实施本发明方法时,不局限于采用本实施例的基于多搜索引擎的实现方式,还可以采用单搜索引擎的方式实现,在采用单搜索引擎方式实现本发明方法时,仅需对本实施例中涉及的对多搜索引擎处理的相关部分进行适应性调整即可,例如对于单搜索引擎而言,无需对检索条目进行整合合并等,本实施例对基于单搜索引擎的处理过程不再进行详细阐述。

实施例三

本实施例提供一种信息挖掘装置,参考图4,所述信息挖掘装置包括:

第一获取单元41,用于获得待译对象包含的各个关键词,及各个关键词在目标语言中对应的翻译译项;确定单元42,用于从各个关键词对应的翻译译项中确定出至少一个译文引导词,所述译文引导词为各个关键词对应的翻译译项中所起的引导作用较大的翻译译项;其中,翻译译项所起的引导作用为:在将待译对象及翻译译项作为检索依据来利用翻译译项对待译对象进行引导式检索时,翻译译项对检索出所述待译对象对应的翻译参考信息所起到的引导作用;检索单元43,用于将所述待译对象及所述译文引导词作为检索依据,检索所述待译对象对应的翻译参考信息,得到检索结果;第二获取单元34,用于基于预定的参考价值评价方式,从所述检索结果包含的各检索条目中获得参考价值较高的至少一个检索条目,并返回所述至少一个检索条目。

所述确定单元,进一步用于:对各个关键词的翻译译项按照翻译译项所起的引导作用的大小进行排序处理,得到一译项序列;从所述译项序列的相应端获得引导作用较大的至少一个翻译译项作为译文引导词。

所述确定单元,进一步用于:依据各个关键词所对应的翻译译项的数量,对不同关键词的翻译译项进行排序;其中,同一关键词的各个翻译译项作为一个整体参与排序,关键词所对应的翻译译项的数量与关键词翻译译项所起引导作用的大小呈反向关系;当存在所对应的翻译译项数量相同的不同关键词时,按所述不同关键词分别在所述待译对象中的重要度,对所述不同关键词的翻译译项进行排序;其中,关键词在待译对象中的重要度与关键词翻译译项所起的引导作用的大小呈正向关系;依据采用同一关键词的每个翻译译项进行引导式检索时搜索引擎返回的检索条目的个数,对同一关键词的各个翻译译项进行排序;翻译译项对应的检索条目的个数与翻译译项所起的引导作用的大小呈正向关系。

所述检索单元,进一步用于:将所述待译对象及所述译文引导词作为检索依据在多个预定的搜索引擎中进行检索,得到多个搜索引擎的检索结果。

所述第二获取单元,进一步用于:对所述多个搜索引擎的检索结果进行噪音滤除处理,并对滤除噪音后所得的所述多个搜索引擎的检索结果中相同的检索条目进行合并处理;依据待译对象及译文引导词在所述合并处理后所得的各检索条目中的出现位置、距离、信息来源及所述各检索条目在每个搜索引擎返回检索结果中的默认排序中的任意一种或多种,计算合并后所得的各个检索条目与所述待译对象的相关度数值;基于相关度数值,对合并后所得的各个检索条目进行排序;从排序后所得的条目序列的相应端获得相关度数值较高的至少一个检索条目,并返回所述检索条目。

此处,需要说明的是,本实施例涉及的信息挖掘装置的描述,与上文方法的描述是类似的,且同方法的有益效果描述,对于本发明的信息挖掘装置在本实施例中未披露的技术细节,请参照本发明方法实施例的说明,本实施对此不再作赘述。

还需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。

为了描述的方便,描述以上系统或装置时以功能分为各种模块或单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

最后,还需要说明的是,在本文中,诸如第一、第二、第三和第四等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1