辅助翻译搜索引擎系统及其方法

文档序号:6519463阅读:265来源:国知局
专利名称:辅助翻译搜索引擎系统及其方法
技术领域
本发明涉及一种互联网多语言互译系统及其方法;具体地说,涉及一种利用网络机器人从互联网上不断收集双语语料信息,对信息进行处理,再结合搜索引擎实现计算机辅助翻译的系统及其方法。
背景技术
随着中国加入WTO,以及申奥成功,中国的对外交流越来越多,所面临的外文词汇、文章也会随之增加,这就要求人们掌握一定的外语技能,特别是写作和翻译技能,而这对于绝大多数人来说是一件极其困难的事。此外,对于一些专门从事某行业的人士,也会在工作当中面临查阅大量外文资料的情况,而专业词汇量小将严重制约其效率。
目前,国内外已经存在了一些这种辅助翻译工具,但是效果却不理想。
首先,这些翻译工具有两种方式存在。一种是采用自带字典模式;对用户的输入请求句逐字逐词的进行翻译,但是这种翻译结果往往完全不符合外文语法,对用户的写作、阅读毫无用处。例如“中华人民共和国国家知识产权局”的外文翻译早有通行世界的官方定译,即“State Intellectual Property Office ofP.R.China”,但是按照逐字逐词的模式翻译会翻译成为“P.R.China NationKnowledge Property Office”,造成了错误;而要想知道这些已有的“约定俗成”的翻译,一种有效的办法是上网去搜索。另一种是采用语料库模式;对用户的输入请求句在语料库中查询,但是由于其语料库积累采用的是一种人工添加互译句对的方式,所以使语料库容量大小受限。目前做得最好的语料库也只有50万句对。
其次,翻译的一个重要特征是翻译的重复性。研究表明,在内容或句型句式上,个人的翻译重复率是30%左右,相对于整个互联网而言,这个重复率会更高。因此,对于人工添加双语语料库会造成大量的重复劳动,却得不到理想的效果。当然,对于双语语料库自动积累系统,也有专家做过这方面的研究;例如Christopher C.Yang《Mining English/Chinese Parallel Documents from theWorld Wide Web》,但论文所针对的研究系统,只利用网页标签中的title,抓取中英文一一对照的两个网页,进行双语语料库自动积累,而没有继续利用网页对的其它特征点,以及没有抓取互联网海量的中英文在同一网页的这一类网页网页信息。
通常,用户会在网页上搜索一个单词或短语已有的对应翻译,可以使用像百度、GOOGLE之类的通用搜索引擎。但这些搜索引擎并不是专为辅助翻译而设计的,对用户的搜索技能有较高要求,否则会给出成千上万的信息;由于信息量巨大,从而导致用户迷失在信息海洋中,无法快速获得自己真正需要的结果。
在现阶段,没有一种很好的方法解决上面提到的问题。用户也只能通过最原始的查字典的方式进行阅读、写作,对于一些不懂外文的人群几乎是无法完成的工作。
经《湖北省科技信息研究院查新检索中心》(国家一级科技查新咨询单位)检索,结论是委托查新内容是一种翻译搜索引擎,它通过搜索引擎在检索结果中给出多条来自WEB的翻译匹配语句,并同时给出相应的链接的功能,所检国内外文献中未涉及。

发明内容
本发明的目的就是克服现有技术存在问题和不足,提出一种行之有效的解决方案,即提供一种辅助翻译搜索引擎系统及其方法。
本发明的目的是这样实现的通过网络机器人不断地从互联网上抓取网页存入数据库,对抓取的网页建立索引,并提取与识别,分析过滤,对可能存在的双语对照内容匹配验证,保留完全对照的双语资料,连同该语料的出处URL,存入数据库。再对数据库中的双语资料建立索引,由此积累的语料库可被用户检索,当用户输入一个关键词或句子时,快速响应用户的请求,返回与用户查询关键词或句子相同或相似的参考例句,供用户参考。同时,还显示这些参考双语例句的出处URL与网页标题,供用户点击进入相应的网页以获得更多的信息。
具体地说,本发明包括系统和方法两部分
1、系统如图1,本系统包括互联网A、服务器B、无线网络连接C、Internet网络连接D、移动通信设备客户端E、桌面电脑客户端或浏览器F、移动用户G、电脑用户H;一路,与互联网A连通的服务器B、无线网络连接C、移动通信设备客户端E、移动用户G依次连通;另一路,与互联网A连通的服务器B、Internet网络连接D、桌面电脑客户端或浏览器F、电脑用户H依次连通;所述的服务器B包括依次连通的翻译搜索引擎服务器B1,数据库服务器B2,检索服务器B3;其中翻译搜索引擎服务器B1包括网络机器人模块B1.1、网页索引模块B1.2网页识别和预处理模块B1.3、分句匹配模块B1.4;其中数据库服务器B2包括源信息库B2.1、网页索引库B2.2、双语语料库B2.3;其中检索服务器B3包括索引模块B3.1、检索模块B3.2。
所述的网络机器人模块B1.1,即一种将互联网上的网页信息抓取下来,录入到源信息库B2.1中的系统模块;所述的网页是指一切存在于互联网上的网页数据信息,如,html、XML等各种类型网页;所述的网页索引模块B1.2,即一种对保存在源信息库B2.1中的网页信息进行分析,建立有助于网页识别的索引,录入到网页索引库B2.2中的系统模块;所述的网页识别和预处理模块B1.3,即一种从网页索引库B2.2中寻找含有双语信息的单个网页,或者寻找可能存在第二语言版本对照的纯第一语言版本网页,通过网页索引条件找出最匹配的第二语言版本对照的网页,形成双语网页对,然后,对单个网页或双语网页对进行噪音净化过滤,除去网页中的无关信息,提取可能存在双语翻译对照网页内容的系统模块;所述的分句匹配模块B1.4,即一种对网页识别和预处理模块B1.3提取的网页信息的内容,用分句匹配算法,分成对应的双语句对,连同URL和网页标题一起录入到双语语料库B2.3中的系统模块;所述的源信息库B2.1,即一种存储从互联网上抓取网页信息的数据库;
所述的网页索引库B2.2,即一种存储有助于网页识别与处理的索引及网页文本的数据库;所述的双语语料库B2.3,即一种存储可以提供辅助翻译的双语对照信息的数据库;上述的三个数据库B2.1、B2.2、B2.3,所采用的数据库即一般的通用数据库,如MySQL,SQL Server,Oracle等;所述的索引模块B3.1,即一种对匹配入库后的双语句对建立索引的系统模块;所述的检索模块B3.2,即一种用户通过各种客户端向服务器B提交想要翻译的语句,服务器B将它处理,将相近的中英文结果,以及URL(网页地址)出去返回给客户端界面上的系统模块。
2、方法如图2,本方法是一种实现辅助翻译搜索引擎的方法,它采用如下的步骤①网络机器人自动抓取网页存入源信息库1;②利用网页索引模块建立网页索引库2;③利用网页识别与预处理模块在网页索引库中找出单个网页或双语网页对,并进行网页预处理3;④进行分句匹配处理4;⑤存入双语预料库5;⑥对匹配入库后的双语句对建立索引6;⑦响应用户请求,快速检索出相近的双语结果及其出处URL7;⑧在各种客户端显示相近的双语结果及其出处URL8。
所述的步骤①网络机器人自动抓取网页存入源信息库1,即利用运行在服务器B端的网络机器人不断的从互联网A上抓取网页信息,将抓取的信息与该网页的URL存入到运行在服务器B上的数据库中;所述的步骤②利用网页索引模块建立网页索引库2,即读取源信息库B2.1中的网页信息,利用服务器B中的网页索引模块B1.2建立有助于网页识别和预处理的网页索引库B2.2;所述的步骤③利用网页识别与预处理模块在网页索引库中找出单个网页或双语网页对,并进行网页预处理3,即从网页索引库B2.2中读取含有双语信息的单个网页,或者读取可能存在第二语言版本对照的纯第一语言版本网页,通过网页索引条件找出最匹配的第二语言版本对照的网页,形成双语网页对,然后,对单个网页或双语网页对进行噪音净化过滤,除去网页中的无关信息,提取可能存在双语翻译对照的网页信息内容;所述的步骤④进行分句匹配处理4,即对网页信息进行识别和预处理完成的网页信息内容用分句匹配算法,分成对应的双语句对;所述的步骤⑤存入双语语料库5,即将分句匹配处理完成的双语句对,存入运行在服务器B端的双语语料库B2.3中;所述的步骤⑥对匹配入库后的双语句对建立索引6,即将双语语料库B2.3中的双语对照信息建立索引,以加快查询的响应速度;所述的步骤⑦响应用户请求,快速检索出相近的双语结果及其出处URL7,即对用户输入的查询语句,在建立的索引中检索,查询出与用户要求相同或相近的双语结果,并获得其出处URL;所述的步骤⑧在各种客户端显示相近的双语结果及其出处URL8,即将查询的双语结果及其相应的互联网地址返回到用户使用的客户端上。
本发明工作原理参阅图2,本发明是通过在服务器B端运行网络机器人程序,将互联网A上的网页信息资源抓取下来,存入源信息库B2.1,建立网页索引,在网页索引库B2.2中找出单个网页或双语网页对,然后将经这些步骤处理过的网页进行噪音净化和过滤,将净化后对应的双语网页信息,进行分句匹配处理4,分成对应的双语句对,录入双语语料库B2.3。在双语语料库B2.3中,将匹配入库后的双语句对建立索引以方便检索。用户可以通过各种客户端,如移动通信设备客户端E,桌面电脑客户端或浏览器F,向服务器B提交想要翻译的语句,找出相匹配的结果并将其通过用户界面接口显示。在显示页面上,将中文、英文及其在互联网上的出处URL及对应的网页标题同时显示在一起,形成集中对照的形式。
本发明具有以下优点和积极效果
①本发明是利用网络机器人抓取互联网A上的网页信息,对其进行净化过滤,提取其中存在的双语网页信息,并对其进行匹配验证,从而获取完全正确对照的双语资料,以提供给用户翻译查询。其优点在于实现双语语料库B2.3积累的全自动化,有别于一般的人工添加语料库的方式,从而突破了人工添加语料库数量小的限制,真正实现了双语语料库的海量积累。此外,用户检索时可以根据翻译的出处URL点击进入相应的翻译信息网页。
②本发明还能产生积极的效果。如,这种积累双语语料库打破了传统手工添加语料库模式,带来了技术上的革新。此外,积累的双语语料库可以有多种用途,而不仅仅应用于网络搜索翻译引擎,还可用于语言对比研究,翻译转换,翻译文体和自动翻译研究,双语词典编纂和翻译教学等方面。


图1-本发明的系统组成示意图;图2-本发明的方法流程图;图3-互联网、网络机器人模块与源信息库的连通图;图4-网页识别和预处理模块具体实施流程图;图5-网页索引表样本图;图6-分句匹配模块具体实施流程图;图7-用户页面生成流程图。
其中A-互联网。
B-服务器,包括B1-翻译搜索引擎服务器,B1.1-网络机器人模块,B1.2-网页索引模块,B1.3-网页识别和预处理模块,B1.4-分句匹配模块;B2-数据库服务器,B2.1-源信息库,
B2.2-网页索引库,B2.3-双语语料库;B3-检索服务器,B3.1-索引模块,B3.2-检索模块。
C-无线网络连接。
D-Internet网络连接。
E-移动通信设备客户端。
F-桌面电脑客户端或浏览器。
G-移动用户。
H-电脑用户。
1-网络机器人自动抓取网页存入源信息库;2-利用网页索引模块建立网页索引库;3-利用网页识别与预处理模块在网页索引库中找出单个网页或双语网页对,并进行网页预处理;4-进行分句匹配处理;5-存入双语预料库;6-对匹配入库后的双语句对建立索引;7-响应用户请求,快速检索出相近的双语结果及其出处URL;8-在各种客户端显示相近的双语结果及其出处URL;10-从网页索引库读取网页;11-网页分类识别;12-净化,12.1-初步过滤,12.2-完全过滤,12.3-建树,12.4-分析树获取结果;13-通过网页索引条件查找对应的中文网页;14-比较网页对;15-分析网页对获取结果;16-提交给分句匹配模块处理;17-网页索引表样本;
18-中文文章段落;19-英文文章段落;20-句子分割单元;21-多个中文句子(排队);22-多个英文句子(排队);23-判断句子匹配单元计算中英文句对的匹配评价值;24-V≥阀值;25-在用户界面中提交翻译内容;26-检索;27-返回对应的中文,英文,出处URL显示在用户界面上。
具体实施例方式
下面对本方法的有关步骤及其实际应用进一步说明。
为了说明方便,这里的双语采用中文和英文这两种语言对照,但本发明并不只限于中英文这两种语言。
所述的步骤①网络机器人自动抓取网页存入源信息库1,(参阅图3)即通过给网络机器人一个互联网地址来实现自动抓取这个互联网地址对应的单个网页信息及此网页信息中包含的其它链接的相应内容,将抓取的网页信息及其对应的互联网地址存入源信息库B2.1;例如给网络机器人一个互联网地址http://www.51education.net/Article_Show.asp?ArticleID=2402,在这个地址页面中有很多文字对应的链接,那么,网络机器人将会抓取这个互联网地址对应的页面上所有内容,同时也会把这个页面上包含的所有链接对应的内容抓取下来,即此互联网地址对应的整个网站的网页内容,并将抓取的内容和互联网地址同时保存在源信息库B2.1中。
所述的步骤②利用网页索引模块建立网页索引库2,即将网络机器人抓取的网页信息进行处理,建立该网页的相关特征信息(URL、域、文件名、网页标题、网页类型等)的索引。网页索引模块B1.2是负责提取网页超链接URL,分析网页的文本语言类型,分析网页的其他特征值,确定各索引项的模块;
例如网络机器人抓取了URL为http://www.snda.com/en/about/overview.htm的网页信息后,网页索引模块将该网页建立对应索引,如图5所示,存入网页索引库B2.2。
所述的步骤③利用网页识别和预处理模块在网页索引库中找出单个网页或双语网页对,并进行网页预处理3(参阅图4),即从网页索引库B2.2中读取网页,根据网页索引库B2.2记录的网页类型字段进行网页分类识别;如果该网页属于中英文对照在同一页的类型,则进入净化12处理;净化12具体流程如下1、首先对网页信息初步过滤12.1,去掉网页中可能存在的无用信息,将初步过滤后的内容存入一个临时文件中;2、对初步过滤后得到的临时文件进行完全过滤12.2,仅仅保留可能存在双语对照的段落;3、对识别完成后的双语对照段落建立XML(扩展标记语言)树;4、分析XML树,过滤掉所有冗余信息,仅仅只保留双语对照的网页;例如互联网地址http://www.51education.net/Article_Show.asp?ArticleID=240的一个网页,经过初步过滤12.1,除去此网页中“英文歌词翻译”对应的链接、“免费QQ送”对应的图片等,仅仅只保留“学习篇study(中英对照)”的正文内容。再经过完全过滤12.2,除去正文内容中的“作者无忧教育”、“转贴自www.51education.org”等无用信息。再次对此正文网页内容建XML树,分析XML树,过滤掉冗余信息,仅仅只保留双语对照的网页,即“学问浅薄,如履薄冰。A little learning is a dangerous thing.”、“事物的美存在于仔细观察者心目中。Beauty in things exists in the mind which contemplates them.”等。
如果该网页属于纯英文网页类型,则进入流程依次为通过网页索引条件查找对应的中文网页,比较网页对,分析网页对获取结果的预处理。其中,通过网页索引条件查找对应的中文网页,即根据英文网页的URL,查找在同一个域,与英文网页的文件名相同或相似的中文网页。
例如,“盛大简介”的纯英文网页在网页索引库B2.2中的索引表如图5所示,URL为http://www.snda.com/en/about/overview.htm,它的域为www.snda.com,文件名为overview.htm,通过它的域,找到对应的文件名为overview.htm的中文网页其URL为http://www.snda.com/cs/about/overview.htm所述的步骤④进行分句匹配处理4具体流程如下(参阅图6)1、对净化和预处理后的网页(一段中文对应一段英文)进行段落分割,分割成为多个句子单元;例如http://www.oxford.com.cn/Article_Show.asp?ArticleID=1467这个互联网地址中有下面的中英对照段落中文段落为时间是什么?是一种像金钱一样可以节省、的花用或浪费的东西吗?或者它像天气那样,是一种我们无法掌握的东西?全世界的时间是不是都一样呢?你会说,那是一个简单的问题,不管你去那里,一分钟都是60秒,一小时是60分钟,一天是24个小时,以此类推。嗯,也许是这样吧。但是在美国,时间的意义不只是如此而已。美国人视时间为一项重要的资源,也许这就是为什么他们喜欢说「时间就是金钱」的缘故。
英文段落为What is time?Is it a thing to be saved or spent or wasted,like money?Or is it something we have no control over,like the weather?Is time the same all over the world?That’s an easy question,you say.Wherever you go,a minute is 60 seconds,an hour is 60 minutes,a day is24 hours,and so forth.Well,maybe.But in America,time is more thanthat.Americans see time as a valuable resource.Maybe that’s why theyare fond of the expression,″Time is money.″经过句子分割后,上面中文段落分成7个中文句子,为时间是什么?是一种像金钱一样可以节省、的花用或浪费的东西吗?或者它像天气那样,是一种我们无法掌握的东西?全世界的时间是不是都一样呢?你会说,那是一个简单的问题,不管你去那里,一分钟都是60秒,一小时是60分钟,一天是24个小时,以此类推。
嗯,也许是这样吧。
但是在美国,时间的意义不只是如此而已。美国人视时间为一项重要的资源,也许这就是为什么他们喜欢说「时间就是金钱」的缘故。
经过句子分割后,上面英文段落分成10个英文句子,为What is time?Is it a thing to be saved or spent or wasted,like money?Or is it something we have no control over,like the weather?Is time the same all over the world?That’s an easy question,you say.
Wherever you go,a minute is 60 seconds,an hour is 60 minutes,a dayis 24 hours,and so forth.
Well,maybe.
But in America,time is more than that.
Americans see time as a valuable resource.
Maybe that’s why they are fond of the expression,″Time is money.″2、对上面分割后的中文句子和英文句子保持原有的顺序,调用匹配验证算法,判断哪些句对符合要求的匹配率。这里采用七种情况来对句对(句对即X句中文对应Y句英文,也就是说这X个中文句子和这Y个英文句子是对应的,所表达的意思是相同的)进行匹配。这七种情况分别是(中文句子数对英文句子数)1对0,0对1,1对1,1对2,2对1,1对3,3对1,则可以获得七个评价值;例如对第二步分割后的句子计算匹配率(下面例子中的“第0句”即没有句子)中文第1句对英文第0句的匹配率为0.0中文第0句对英文第1句的匹配率为0.0中文第1句对英文第1句的匹配率为0.15384615384615385中文第1句对英文第1、2句的匹配率为0.007692307692307693中文第1、2句对英文第1句的匹配率为0.010636499479268863中文第1句对英文第1、2、3句的匹配率为0.0025380710659898475中文第1、2、3句对英文第1句的匹配率为0.00654321287503227有匹配率可知中文第1句对英文第1句得匹配率最高,因此将其组成一个句对,作为一条记录保存。计算出后,去掉中文第1句和英文第1句,再以相同的方法计算上面七种情况的匹配率,即可获得全部双语匹配的句对。
3、将V(评价值)最高的取出,如果这个最高评价值满足阀值(所谓阀值是指我们通过大量统计得到的一个数字,凡是评价值比这个数字大的句子对,我们就会认定它们是对应的,否则不对应,经过大量统计得出阀值为0.02401435932272006),则判定它们是一个符合的句对。读到双语对照但不一定完全意思匹配的句对时,验证其匹配率;所述的步骤⑤存入双语语料库5,即将分句匹配处理后的中英句对存入运行在服务器B上的双语语料库B2.3中;例如经过分句匹配验证后,在双语语料库B2.3中存在记录一http://www.oxford.com.cn/Article_Show.asp?ArticleID=1467时间是什么?What is time?记录二http://www.oxford.com.cn/Article_Show.asp?ArticleID=1467是一种像金钱一样可以节省、的花用或浪费的东西吗?Is it a thing to be saved or spent or wasted,like money?记录三http://www.oxford.com.cn/Article_Show.asp?ArticleID=1467或者它像天气那样,是一种我们无法掌握的东西?Or is it something we have no control over,like the weather?记录四http://www.oxford.com.cn/Article_Show.asp?ArticleID=1467全世界的时间是不是都一样呢?Is time the same all over the world?记录五http://www.oxford.com.cn/Article_Show.asp?ArticleID=1467你会说,那是一个简单的问题,不管你去那里,一分钟都是60秒,一小时是60分钟,一天是24个小时,以此类推。
That’s an easy question,you say.Wherever you go,a minute is 60seconds,an hour is 60 minutes,a day is 24 hours,and so forth.
记录六http://www.oxford.com.cn/Article_Show.asp?ArticleID=1467嗯,也许是这样吧。
Well,maybe.
记录七http://www.oxford.com.cn/Article_Show.asp?ArticleID=1467但是在美国,时间的意义不只是如此而已。
Americans see time as a valuable resource.
记录八http://www.oxford.com.cn/Article_Show.asp?ArticleID=1467美国人视时间为一项重要的资源,也许这就是为什么他们喜欢说「时间就是金钱」的缘故。
Maybe that’s why they are fond of the expression,″Time is money.″所述的步骤⑥对双语语料库建立索引6,即对双语语料库B2.3中的记录建立索引,以加快检索查询的速度;所述的步骤⑦响应用户请求,快速检索出相近的双语结果及其出处URL7,即通过用户通过本系统提供的移动通信设备客户端E和桌面电脑客户端F输入想要查询的句子或单词,本系统获得用户的句子或单词后在索引文件中查询,检索出相同或相近的双语结果,并获得其出处URL;例如用户输入“全世界的时间是不是都一样呢”,进行翻译查询,则返回步骤⑤例子中记录四的结果http://www.oxford.com.cn/Article_Show.asp?ArticleID=1467全世界的时间是不是都一样呢?Is time the same all over the world?例如用户输入“也许是这样”,进行翻译查询,则返回步骤⑤例子中记录六的结果
http://www.oxford.com.cn/Article_Show.asp?ArticleID=1467嗯,也许是这样吧。
Well,maybe.
所述的步骤⑧在各种客户端显示相近的双语结果及其出处URL8,即在服务器B端检索出了与用户输入相同或相近的双语句对,在本系统提供的移动通信设备客户端E和桌面电脑客户端F集中显示出双语句对及双语句对的出处URL。显示结果还包括网页标题、及出处对应的超链接,点击双语结果或出处URL,都能链接到该双语结果对应的互联网网页。
例如用户输入“也许是这样”,查询后在页面显示的结果为嗯,也许是这样吧。
Well,maybe.
http://www.oxford.com.cn/Article_Show.asp?ArticleID=1467点击上面的超链接,能打开到该双语结果对应的互联网网页。
权利要求
1.一种辅助翻译搜索引擎系统,包括互联网(A)、服务器(B)、无线网络连接(C)、Internet网络连接(D)、移动通信设备客户端(E)、桌面电脑客户端或浏览器(F)、移动用户(G)、电脑用户(H);一路,与互联网(A)连通的服务器(B)、无线网络连接(C)、移动通信设备客户端(E)、移动用户(G)依次连通;另一路,与互联网A连通的服务器(B)、Internet网络连接(D)、桌面电脑客户端或浏览器(F)、电脑用户(H)依次连通;其特征在于所述的服务器(B)包括依次连通的翻译搜索引擎服务器(B1),数据库服务器(B2),检索服务器(B3);其中翻译搜索引擎服务器(B1)包括网络机器人模块(B1.1)、网页索引模块(B1.2)网页识别和预处理模块(B1.3)、分句匹配模块(B1.4);其中数据库服务器(B2)包括源信息库(B2.1)、网页索引库(B2.2)、双语语料库(B2.3);其中检索服务器B3包括索引模块(B3.1)、检索模块(B3.2)。所述的网络机器人模块(B1.1),即一种将互联网上的网页信息抓取下来,录入到源信息库(B2.1)中的系统模块;所述的网页索引模块(B1.2),即一种对保存在源信息库(B2.1)中的网页信息进行分析,建立有助于网页识别的索引,录入到网页索引库(B2.2)中的系统模块;所述的网页识别和预处理模块(B1.3),即一种从网页索引库(B2.2)中寻找含有双语信息的单个网页,或者寻找可能存在第二语言版本对照的纯第一语言版本网页,通过网页索引条件找出最匹配的第二语言版本对照的网页,形成双语网页对,然后,对单个网页或双语网页对进行噪音净化过滤,除去网页中的无关信息,提取可能存在双语翻译对照网页内容的系统模块;所述的分句匹配模块(B1.4),即一种对网页识别和预处理模块(B1.3)提取的网页信息的内容,用分句匹配算法,分成对应的双语句对,连同URL和网页标题一起录入到双语语料库(B2.3)中的系统模块;所述的源信息库(B2.1),即一种存储从互联网上抓取网页信息的数据库;所述的网页索引库(B2.2),即一种存储有助于网页识别与处理的索引及网页文本的数据库;所述的双语语料库(B2.3),即一种存储可以提供辅助翻译的双语对照信息的数据库;所述的索引模块(B3.1),即一种对匹配入库后的双语句对建立索引的系统模块;所述的检索模块(B3.2),即一种用户通过各种客户端向服务器(B)提交想要翻译的语句,服务器(B)将它处理,将相近的中英文结果,以及网页地址返回给客户端界面上的系统模块。
2.一种实现辅助翻译搜索引擎的方法,其特征在于采用如下的步骤①网络机器人自动抓取网页存入源信息库(1);②利用网页索引模块建立网页索引库(2);③利用网页识别与预处理模块在网页索引库中找出单个网页或双语网页对,并进行网页预处理(3);④进行分句匹配处理(4);⑤存入双语预料库(5);⑥对匹配入库后的双语句对建立索引(6);⑦响应用户请求,快速检索出相近的双语结果及其出处URL(7);⑧在各种客户端显示相近的双语结果及其出处URL(8)。
3.按权利要求2所述的一种实现辅助翻译搜索引擎的方法,其特征在于利用网页索引模块建立网页索引库(2)即将网络机器人抓取的网页信息进行处理,建立该网页的相关特征信息的索引。
4.按权利要求2所述的一种实现辅助翻译搜索引擎的方法,其特征在于利用网页识别与预处理模块在网页索引库中找出单个网页或双语网页对,并进行网页预处理(3),即从网页索引库(B2.2)中读取网页,根据网页索引库(B2.2)记录的网页类型字段进行网页分类识别,然后,对单个网页或双语网页对进行净化或预处理。
5.按权利要求2所述的一种实现辅助翻译搜索引擎的方法,其特征在于进行分句匹配处理(4)具体流程如下①对净化和预处理后的网页进行段落分割,分割成为多个句子单元;②对上面分割后的中文句子和英文句子保持原有的顺序,调用匹配验证算法,判断哪些句对符合要求的匹配率;③将评价值V最高的取出,如果这个最高评价值满足阀值,则判定它们是一个符合的句对。
6.按权利要求2所述的一种实现辅助翻译搜索引擎的方法,其特征在于在各种客户端显示相近的双语结果及其出处URL(8),显示结果还包括网页标题、及出处对应的超链接,点击双语结果及URL,都能链接到该双语结果对应的互联网网页。
全文摘要
本发明公开了一种辅助翻译搜索引擎系统及其方法;涉及一种互联网多语言互译系统及其方法;其步骤①网络机器人自动抓取网页存入源信息库1;②利用网页索引模块建立网页索引库2;③利用网页识别与预处理模块在网页索引库中找出单个网页或双语网页对,并进行网页预处理3;④进行分句匹配处理4;⑤存入双语预料库5;⑥对匹配入库后的双语句对建立索引6;⑦响应用户请求,快速检索出相近的双语结果及其出处URL7;⑧在各种客户端显示相近的双语结果及其出处URL8。本发明在于实现双语语料库积累的全自动化,应用于网络搜索翻译,用户检索时可以根据翻译的出处URL点击进入相应的翻译信息网页。
文档编号G06F17/30GK1707476SQ200510018660
公开日2005年12月14日 申请日期2005年5月6日 优先权日2005年5月6日
发明者程伟, 陈智贤, 贺方升, 李银刚, 孙上海, 王沧洪, 余俊, 朱柳嵩, 朱前线 申请人:贺方升
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1