提供个性化为特定语言的搜索结果的国际搜索和传送系统的制作方法

文档序号:6359720阅读:146来源:国知局
专利名称:提供个性化为特定语言的搜索结果的国际搜索和传送系统的制作方法
技术领域
本发明涉及一种多语言数据库网络的配置。而且,本发明涉及在数据库网络中以所选择的语言执行关键词搜索和获得搜索结果。
背景技术
因特网文本检索系统接受由多个关键词T1、T2、...、Ti、...、Tn组成的搜索查询S形式的、所请求信息的语句,并且返回包括对于搜索查询术语的匹配项目的一批文件。为了提供在因特网数据库上的这样的搜索性能,已经开发了搜索引擎,所述搜索引擎向信息包括源提供查询接口,并且返回按照所列出的文件如何良好地匹配搜索查询而依序排序的搜索结果。搜索引擎的用途之一是连接公司网站。公司网站的一个问题是对于客户和雇员等它难于找到它们需要的信息。在可以利用技术内容文章来很大地加权的某个产品支持数据库中尤其是这样。在一个全球性的公司中,这个信息可以是多种自然语言表达的形式、可以是模拟和数字形式、可以是多种不同格式和可以是多种机器语言表达的形式。数据类型和它们的形式、格式和语言可能不是搜索者所要求或甚至明白的。所需要的是国际化的搜索系统,它容易使用并且提供可以由搜索者明白的结果。

发明内容
因此,本发明的一个目的是提供以多种语言可以访问的国际化搜索系统,并且以可选择的语言提供可理解的搜索结果。
本发明的另一个目的是提供能够访问多种形式、格式和语言的信息的国际化搜索系统,它能够向搜索者以他们所期望的格式和计算机语言来提供所述信息。
本发明的另一个目的是通过一种国际化搜索系统,它接受多种民族语言的搜索术语和提供现场特定搜索结果。
按照本发明,以不同自然语言输入的数据穿过过渡翻译层,过渡翻译层利用包括用于所有所支持的自然语言的字符集的通用字符集将数据转变为单个计算机语言。以原始的自然语言来存储数据,并且文件被划分成由搜索术语识别的部分,这些部分被以基于类型的分类树排列。在产品数据库的情况下,当产品名称或数量是已知的时候,这些类型可以是使得能够进行迅速的关键词搜索的各种产品类型。双向倒排索引被通过用于由关键词搜索术语来访问,在关键词搜索术语中,以所有支持的语言表达的关键词被存储并且交叉参考到每种自然语言的文件中。当查询以多种语言之一的关键词的时候,可以一起来访问不同语言的相同含义的关键词。包括这个表格的搜索引擎可以识别以所查询的语言、第二种语言或由用户确定的所有所支持的语言的相关文件。以所选择的语言的文件被从所存储的部分公式化并且当搜索者请求时被识别。所操作的文件随后通过过渡翻译层被输出,并且以与输入形式和语言相同或不同的所期望格式被提供。


图1是用于在线区域网络的系统组织的示意图;图2是实现本发明并且连接到图1所示的网络的专用网络的示意图;图3是示出本发明的信息源、与翻译层相关的搜索引擎和信息内核的排列的示意图;图4是示出本发明的内核的细节的示意图;图5是示出按照本发明的后端数据收集的示意流程图;图6是按照本发明的关键词查询的处理的示意流程图;图7是按照本发明的文件请求查询的处理的示意图;图8A是与产品类型相关的分类树中的数据的排列的示意图;图8B是示出将本地产品名称加到通用的分类数据库产品类型的的处理图;图9是示出使用本地(日本)数据库的文件存储和检索的示意图;图10是将一种语言表达的关键词与另一种语言的它们的对应部分相关联的索引表格的图;图11是多语言数据库搜索系统的图;图12是用于输入搜索查询的计算机显示屏幕部分的图;
图13是用于获得搜索结果的流程图;图14是国际搜索处理的方框图;和图15是通过所述内核的元素示出搜索序列的流程图。
具体实施例方式
现在参见图1,通过诸如因特网104的包括网络节点服务器的广域网、经由在线服务来完成在多个用户计算机100a到100n和多个信息服务器102a到102n之间的通信。网络节点服务器管理诸如在任何给定的用户计算机和信息服务器之间的通信的网络业务。
计算机100被配备了通信软件,包括诸如网景通信公司的网景浏览器的WWW浏览器,它使得购物者可以经由因特网连接和使用在线购物服务。在用户计算机100上的软件管理向用户显示从服务器接收的信息的显示,并且向适当的信息服务器102发回用户的行为,以便可以向用户提供附加的显示信息或要按照其来行动的信息。可以经由调制解调器或诸如电缆连接的其他手段来建立对因特网的网络节点的连接106。
后述的图1所示的服务器是那些通过因特网通过产品、服务和信息以获得收费的商家。虽然下面的讨论针对在购物者和这样的商家之间经由因特网的通信,它一般可以应用到网络上的任何信息寻找者和任何信息提供者。(例如,信息提供者可以是诸如大学图书馆、公共图书馆或国会图书馆的图书馆或其他类型的信息提供者)关于商家和商家的产品的信息被存储在商家服务器103所访问的购物数据库108中。这可能是商家拥有的数据库或商家的供货商的数据库。可以公布为网页的、可以由商家服务器访问的所有产品信息被索引,并且一个全文索引数据库110记录每个词的出现数量和它们在所述位置的使用。除了独立商家的服务器和其他信息服务器之外,还有诸如Google公司的Google的多个搜索服务提供者的服务器114a-114,这些提供者保留通过询问独立商家的产品信息数据库108而获得的独立商家102a-102n的产品的全文索引116。诸如Google的这些搜索服务提供者的一些是通用的搜索提供者,而另一些是主题专用搜索提供者。
商家和所述应用服务提供者每个可以保留关于购物者和它们的购买习惯的信息的数据库以便为购物者定制在线购物。为购物者完成定制的电子购物环境的操作包括累积关于购物者的偏好的数据。每个商家记录和处理与诸如购物者选择的特定的网站和特定的产品、对于网站的进入和推出时间、对网站参观的次数等的电子购物选项相关的信息,以便建立购物者的购物简档。原始数据可以随后被处理以建立购物者的偏好简档。简档也可以包括由购物者当预订服务时提供的或从其他来源获得的关于购物者的个人数据或特点(如年龄、职业、地址和爱好)。简档数据可以帮助鉴别在关键词查询中使用的词的含义。例如,在医生的查询中的一个关键词可以具有与由土木工程师提供的同一关键词的使用完全不同的含义。关于购物者的数据累积被放置在每个商家的购物者简档数据库112或118中。在购物者的数据库中的每个独立购物者简档和搜索应用服务提供者可以根据购物者和它们的简档软件对于特定商家的或服务提供者的经验而彼此不同。数据收集可以在购物者的搜索期间继续,以便获得和使用更新的购物者简档数据。
利用在购物交易中涉及的关于的购物者的信息,商家能够满足购物者的需要,并且购物者被提供机会来观看和购买最可能感兴趣的商品,因为商家的产品和服务针对那些已经直接或间接表达了它们的兴趣的购物者。
当购物者向在他的/她的浏览器的默认网页或主页上提供的空间中输入用于关键词的形式的搜索特点的时候,商家万维网服务器102的搜索引擎利用关键词对所访问的全文索引数据库110或118进行搜索,并且获取描述包括所述关键词的匹配项的那些产品和服务的一批文件。这批文件包括对文件的基本测试排序Tf(包括点击的数量、它们的位置等,它们被用于对所述这批文件排序),并且高分在上。这个列表随后被发送到将使用排序算法的排序模块,以便利用文本因素和其他排序因素来对这批文件排序,并且也可以引入反映信息、提供者偏爱和兴趣的因素,所述排序算法例如在题目为“TheAnatomy of a Large-Scale Hypertextual Web Search Engine”by Sergey Brin andLawrence Page of the Computer Science Department,Stanford University,Stanford CA 94305(“大型超文本万维网搜索引擎的剖析”,Sergey Brin和Lawrence Page,计算机科学系,斯坦福大学,加利福尼亚州斯坦福,94305)的文章中描述的排序算法(该文在此引入作为参考),所述其他排序因素例如链接分析、流行、来自用户简档的用户的偏好。随后将基于所述排序算法重新排序的一批文件提供给用户。
图1示出了按照本发明、当商家万维网服务器120之一从商家获得信息和将其提供到用户的时候如何使用一个多语言因特网搜索管理服务器120。如图2所示,搜索管理服务器120在专用内联网网络200中连接到服务器202和诸如图1所示的多个计算机100,以便计算机10可以获得存储在专用内联网的内部来源的中的信息。内联网200具有公共因特网访问能力,它提供对在公共因特网104上的服务的访问。“防火墙”222将专用内联网200与公共因特网104分隔,仅仅允许具有正确ID和密码的那些从公共因特网104进入内联网200。内联网200的内部来源是公司文件管理系统204和内部数据库206。而且,内联网200具有语音识别系统220,它能够响应由客户端计算机100从单独的计算机100或这样的计算机的客户端网络提供的语音命令和语音口述的压缩数字化数据。
按照本发明,搜索管理服务器120包括图3所示的集成搜索管理系统,它接收来自内联网和因特网中的搜索引擎的查询和信息,并且通过计算机100访问除了在内联网和因特网中的那些之外的信息源。例如,可以在集成搜索管理系统中存储由语音识别系统220发送到计算机224并且连接到文本的语音。集成管理服务器包括中央处理单元230、网络接口232和足够大的随机访问存储器234和高密度存储器236,以便执行它的功能。除了它到内联网的连接,搜索管理系统包括到因特网的直接链路226以便使得商家的客户能够访问。
如图3所示,集成搜索管理系统有一个核心或内核300,它仅仅操作扩展标记语言(XML)形式的数据和代码,具有以通用统一代码字符集编码的字符。以所有所支持的语言的来自所有可能来源的数据在进入集成搜索管理系统之前被缩小为这种公共的形式。例如,HTML网页、文本文件和所涉及的语音消息被转换为公共形式。以搜索引擎302、信息源304和用户机器306的不同来源形式的数据在包括翻译程序的一系列命令解释程序中被转换为XML内核形式,在这些命令解释程序中,在其内部翻译程序中,将各种文件从它们的源形式转换为XML形式。在层中布置翻译程序308,以便它们可以在源语言和内核语言之间的翻译中共享。当要增加一个新的源层的时候,可以提供一个附加层来在新的或修改的源语言和现有的源语言之间翻译。如果要接受一个全新的协议,则可以增加翻译程序308和310的附加部分312。这提供了一种具有先进技术的搜索管理系统,它具有用于翻译单元308和310的面向对象的程序模块的模块使用。如图所示,信息源304可以以任何所支持的自然语言表达。数据在它的整个处理中保持它的自然语言状态。
如图4所示,排列使得内核300可以包括最小数量的元素。那些元素是文件提取管理器402,它负责浏览原始的信息源,并且利用与信息源兼容的机制来提取数据核文件内容,所述信息源将数据以可以由可搜索内容管理器404处理的格式放置。2002年5月30日提交的序号为10/157,243的美国专利申请包括文件提取管理器的说明。
可搜索内容管理器404,它负责处理从信息源提取的数据并且将其存储在内容储存库406中。数据被以标准的内核格式存储,所述标准内核格式最好基于文件的粒状(granular)元素或组件对象。这些元素可以随后被组合以构成相干文件。可以在2002年6月30日提交的序号为10/159,373的美国专利申请中找到处理的说明。如图8A所示,以基于产品类型的分类树将元素800存储在内容储存库406中。例如,对于一个面向计算机的业务,存在升序排列的软件产品类型802和硬件产品类型804,用于更具体地识别产品类型。图8B是处理图,示出了在包括在多个国家中的产品的名称的通用分类数据库上的本地产品名称的处理。如图8B所示,通过利用增加命令由通用提供分类(offering classification,OC)或分类(taxonomy)数据库920向组件储存库300增加本地国家产品名称810。文件夹en-US等包括由自然语言支持工具从产品名称数据库提供的提供信息,自然语言支持工具增加来自本地国家数据库的产品名称翻译。
将分类信息附加到文件部分使得有可能将关键词搜索与产品识别信息组合以将搜索结果的范围变窄。
内容储存库406,它是元素800的可搜索库,其中存储了可搜索内容。如图9所示,以不同语言902-904的可以获得的文件900被数据提取器402提取,并且被缩小为段或组件对象809,并被存储在内核存储系统或内容储存库中。对象908保留在内核存储储存库406中的文件的自然语言状态,但被改变为通用字符集的字符,并且被数据处理器230以XML计算机语言存储。
储存库406具有搜索索引408,用于提供一种机制以在用户的计算机屏幕910上利用诸如文件视图、文件类型、元数据等的给定的一组属性来请求特定的文件。以所有可以获得的、所支持的自然语言NL来在内容储存库中存储文件。所述索引包括2002年6月27日提交的序号为10/180,195的美国专利申请和2002年2月1日提交的序号为10/066,346的美国专利申请的倒排索引表410,以便可以选择适当语言的文件。
图10中示出了图4和9的扩展索引表410的更详细的视图。从文件D1-Dn提取英文关键词K1-Kn。以所有所支持的自然语言的对应关键词被获得,以便对于每个英文关键词Ki,有每种所支持语言的同义词。如图10所示,X指示文件D1-Dn,其中出现一个或多个所列出的关键词。于是,如图所示,关键词K1以英文出现在文件D1和Dj种,具有同义关键词K11和K12以自然语言NL1和NL2存在于文件中。类似地,同义词Ki1和Ki2在文件D2中,文件D2可以以自然语言NL1和2获得,而不能以英文获得。同义词Kn和Kn2在文件Dj中,文件Dj可以以英文和自然语言NL2获得而不能以自然语言NL1获得。存储在每个标有X的位置的是排序因素信息,例如词在文件中出现的次数,它与出现在文件中的其他关键词的接近程度,包括关键词的文件的类型(即技术杂志广告)等。这个信息随后用于将每个文件相对于通过搜索而找到的其他文件排序。
图9示出了数据检索处理和以组件格式存储的本地文件。来自本地国家数据库904的数据被复制到系统数据库902。数据提取器402从XML格式的系统数据库902和组件908检索数据,并且利用数据处理器230将其存储在组件库300。数据处理器230利用数据库920根据本地产品名称来存储组件。所述组件准备通过用于通过在用户的显示屏幕910上输入的查询的搜索。
当图10的表格被以任何所支持的语言表达的关键词查询的时候,包括与在查询中的关键词具有同义关键词的、以任何语言的文件以它们的排序信息被识别和提供。例如,假定查询包括关键词Ki和Kn,文件D2-Dj和Dn将以它们可获得的语言被识别。因此在文件D2的情况下,文件将被识别为可以以英文和民族语言NL1和NL2来获得,而以民族语言NL1和NL2可以获得文件Dj。伴随通过题目或申请号对文件的识别,所存储的排序因素信息将被提供到文件排序算法,例如在2002年4月10日提交的序号为10/120,071的共同待批准的美国专利申请中所示的文件排序算法,该美国专利申请在此引入作为参考。
图1图解了并入本发明的搜索系统。以任何所支持的语言的查询1110被输入到搜索引擎1120,并且被传送到参照图4和9所述的扩展关键词倒排索引410。索引410支持多种语言,并且允许以任何所支持的语言翻译关键词查询。在英文查询的情况下,查询利用语言关键词11301和以其他所支持的语言表达的关键词11302和1130n的列表被应用到倒排索引410。这产生了以任何用户感兴趣的语言的英文点击列表11401到1140n。有可能用户将选择一个列表(假定列表11402),确定那是不合适的,并且尝试另一种选择。如果用户明白英语的能力有限,它可以愿意看以任何其他自然语言11402到1140n的结果。如果民族语言结果(假定1140i)不够(或不存在),则用户可以继续到英文结果11401。作为另一种选择,用户可以识别所感兴趣的结果最可能是英文结果11401,并且可以以那些结果来开始。作为又一种选择,用户找到很多英文结果以至于他决定查看以他的民族语言1150的更多选择列表。当民族语言结果不足或不可获得的时候,搜索引擎将提供其他语言的文件以增加以英语作为默认列表语言的选择列表1160中列出的搜索结果,使得以英语不可获得的文件被以它们可以获得的语言提供。排序算法1170分析在选择列表中的文件以向用户提供排序列表1180。
如图12所示,用于查询本系统的计算机屏幕包括输入关键词查询1200的空间。搜索引擎1202用于指示搜索范围。搜索引擎1204用于执行要搜索的语言。区域1206用于指示查询术语被提供的语言,空间1208用于提供排序列表被提供的语言。因此在附图中,“便携式电脑”和“IBM”是要查看的关键词。搜索引擎是“任何国家”。但是,如果期望,搜索可以限定到假定特定的国家或甚至特定的文件储存库。例如,搜索引擎可以限定到国会图书馆或在美国的任何图书馆。执行搜索的语言被全部列出。这将导致对所有所支持的语言的搜索,以便将从表格中读出相同文件的多个拷贝。空间1206识别搜索词是英文的情况。但是,可以使用任何其他所支持的语言。例如,如果德语是所支持的语言,则搜索术语1200可以是德语词,并且查询语言将指示它们是德语的。最后,可以以与查询语言不同的语言来提供结果,以便如此处所示,虽然搜索术语是英文的,但是所排序的文件将以德语被提供,使得那些文件可以用德语言来获得。如果不能够以德语来获得任何一个文件,则列表将包括以可以用作为第一默认语言的英文获得的语言的那个文件。所述空间1200-1208的使用允许控制搜索执行及结果被提供的其范围和语言。
参见图13,通过用户在步骤1302和1304输入在图12的空间1200-1208中给出的搜索信息来查询系统。所输入的查询和其他信息随后被用于在步骤1206查询扩展的倒排索引表格,并且从表格410来获得文件列表。搜索随后在步骤1310被提供他喜欢的语言的排序文件列表,并且在步骤1312确定是否结果是满意的。如果是,则处理结束。但是如果搜索不满意,则他可以在步骤1314通过修改在步骤1302和1304提供的数据来扩展或否则改变它的搜索范围。
向回参见图4,索引管理器412负责利用由搜索引擎提供的适当接口来建立和更新搜索索引408,并且它基于存储在内容储存库中的内容。索引管理器可以处理多个搜索索引。
搜索管理器414主要负责从接口管理器组件收集搜索查询的输入参数,并且利用配置信息(如搜索引擎参数)、个性化信息(如优选文件类型)和分类信息(如搜索类别)来建立最后的查询对象。2002年7月23日提交的美国专利申请(YOR9-2002-0163)包括对搜索管理引擎的说明。
访问管理器416是到搜索引擎的直接接口。它负责以适当的格式向搜索引擎提交搜索查询,并且收集要由其他组件处理和返回的搜索结果。这可以通过利用面向内部组件的一般适配器接口以及面向不同的搜索引擎的可插入适配器来实现。2002年7月31日提交的序号为10/209,619的美国专利申请和2002年6月3日提交的序号为10/759,373的美国专利申请包括访问管理器的说明。
布局管理器418负责建立和定制文件内容和搜索结果的布局。从内容储存库模块406来检索内容。在2002年6月3日提交的序号为10/759,373的美国专利申请包括布局管理器的说明。
接口管理器420负责处理用户的GUI和与后端模块接口。对内核的输入和输出422、424、426、428、430和432分别是与内核300接口的翻译级310的饿输出和输入。
现在参见图5,通过连续提取、存储和索引数据的后端处理来从在内联网和因特网上的来源提取文件和其他数据。文件提取管理器402从数据源出来经过翻译程序308和310到达每个来源,以便提供向信息源提供兼容的请求(步骤500和502)。它从来源提取数据,在翻译程序308和310中将其转换为XML形式,并且将数据放到内容储存库406中(步骤504、506和510)。索引管理器412产生对于所提取的文件的索引数据,并将其与数据一起放置到内容储存库中(步骤512)。文件的所有所支持的国家语言NL被提取和存储在储存库中,并且可以利用倒排索引410来访问。
现在参见图6和14,在接收到以HTTP语言的查询的时候(步骤600),翻译程序308和310将查询翻译为内核XML形式(步骤602)。接口管理器形成用于访问内容储存库406的查询(步骤604),并且将所述查询提供到搜索管理引擎414(步骤606和608),搜索管理引擎414获得定制和配置数据并且将其加到查询的数据。定制数据个性化为用户定制查询,而配置数据识别提供数据的特定因特网或内联网服务器。访问管理器416产生信息的点击列表(步骤610),并且将其提供到接口管理器420,接口管理器420将其改变为用户的GUI,用户的GUI将其发送到翻译程序308和310以将其转换为用户接口的语言(步骤612)。
现在参见图7,当用户查看点击列表和利用HTTP文件查看查询拉请求数据的时候(步骤70),数据被转换为XML查询(步骤702)并且被提供到用于查询收集的接口管理器302(步骤704)。来自接口管理器的信息被提供到布局管理器418,布局管理器418从内容储存库314的内容产生文件(步骤706和708),并且将文件通过接口管理器420和翻译程序308和310发送到用户,以便将XML文件转换为HTTP形式(步骤710和712),并且将它们提供给用户显示器(步骤714)。
图15示出了在搜索系统的各种组件期间的事件的序列。
上面,我们已经说明了本发明的一个实施例,这个实施例的修改形式对本领域的技术人员是显然的。例如如所指出的那样,可以通过向翻译程序加上另一个层来容易地接纳不同的语言。而且。当XML已经被用做语言的内核的时候,诸如GML、HTML的其他语言可以被用来取代XML。另外,翻译程序被描述为在XML和HTTP、HTML之间的翻译,并且可以使用其他连接器。为此,应当明白,本发明不限于所述的实施例,而是包括落入所附的权利要求所限定的精神和范围内的所有改变。
权利要求
1.一种搜索引擎管理系统,用于搜索以多种自然语言表达的文件,所述系统包括格式翻译层,接收以两种或多种自然语言表达的一个或更多的输入,所述输入具有输入格式和输入数据,所述格式翻译层以其自然语言保留所述数据,使用输入适配器将输入格式转换为包括通用字符集的单一内核格式,所述翻译层还具有一个或多个输出适配器;内核,使用内核格式以一个或多个内核元素来操作输入数据,以便产生内核结果,其中内核结果通过翻译层被发送到一个或多个网络输出端,其中输出适配器将内核结果转换为以一种或多种自然语言表达的输出格式。
2.按照权利要求1的系统,其中内核格式包括下列格式中的任何一个或多个在统一代码字符集中的XML、GML和HTML。
3.按照权利要求1的系统,包括在内核中的关键词的列表,对于在内核的数据库中的多个文件中的每个文件,它包括以至少第一和第二自然语言表达的同义关键词;在内核中的倒排索引,用于数据库的所述多个文件,包括在列表中的同义关键词;在内核中的搜索引擎,响应于第一和第二语言表达的关键词,所述搜索引擎使用倒排索引来获得一组结果,其中包括与以第一或输入语言表达的输入关键词搜索术语对应的文件,并且包括以第二语言表达的文件。
4.按照权利要求3的系统,其中所述列表是双向列表,用于将搜索术语从第一种语言转换为第二种语言和从第二种语言转换为第一种语言。
5.按照权利要求4的系统,其中搜索术语的转换使用用于管理多种语言的统一代码系统。
6.一种在计算机可使用系统上的计算机程序产品,用于搜索引擎管理系统,所述搜索引擎管理系统用于搜索以多种自然语言表达的文件,包括用于格式翻译层的软件,所述格式翻译层接收以两种或多种自然语言表达的一个或更多的输入,所述输入具有输入格式和输入数据,所述格式翻译层以其自然语言保留所述数据,使用输入适配器将输入格式转换为包括通用字符集的单一内核格式,所述翻译层还具有一个或多个输出适配器;用于内核的软件,所述内核使用内核格式以一个或多个内核元素来操作输入数据,以便产生内核结果,其中内核结果通过翻译层被发送到一个或多个网络输出端,其中输出适配器将内核结果转换为以所选择的自然语言的输出格式。
7.按照权利要求6的计算机程序产品,其中内核格式包括下列格式中的任何一个或多个在统一代码字符集中的XML、GML和HTML。
8.按照权利要求6的计算机程序产品,其中内核元素包括内容储存库和下面的任何一个或多个内容提取管理器;可搜索内容管理器;访问管理器;索引管理器;接口管理器;布局管理器;SM引擎。
9.按照权利要求6的计算机程序产品,包括用于关键词列表的软件,对于在内核的数据库中的多个文件中的每个文件,它包括以至少第一和第二自然语言表达的同义关键词;用于倒排索引的软件,用于数据库的所述多个文件,包括在列表中的同义关键词;搜索引擎,响应于第一和第二语言表达的关键词,所述搜索引擎使用倒排索引来获得一组结果,其中包括与以第一或输入语言表达的输入关键词搜索术语对应的文件,并且包括以第二语言表达的文件。
10.按照权利要求9的计算机程序产品,其中所述列表是双向列表,用于将搜索术语从第一种语言转换为第二种语言和从第二种语言转换为第一种语言。
11.按照权利要求7的计算机程序产品,其中搜索术语的转换使用用于管理多种语言的统一代码系统。
12.按照权利要求6的计算机程序产品,其中包括用于通用分类数据库的软件,所述数据库包括以多种自然语言表达的产品名称。
13.按照权利要求6的计算机程序产品,包括用于在组件格式数据库系统中存储现场文件的软件。
全文摘要
以不同自然语言输入的数据穿过过渡翻译层,过渡翻译层利用包括用于所有所支持的自然语言的字符集的通用字符集将数据转变为单个计算机语言。以原始的自然语言来存储数据,并且文件被划分成由搜索术语识别的部分,这些部分被以基于类型的分类树排列。双向倒排索引被通过用于由关键词搜索术语来访问,在关键词搜索术语中,以所有支持的语言表达的关键词被存储并且交叉参考到每种自然语言的文件中。包括这个表格的搜索引擎可以识别以所查询的语言、第二种语言或由用户确定的所有所支持的语言的相关文件。所操作的文件随后通过过渡翻译层被输出,并且以与输入形式和语言相同或不同的所期望格式被提供。
文档编号G06F17/27GK1503163SQ0312754
公开日2004年6月9日 申请日期2003年8月6日 优先权日2002年11月22日
发明者金文柱, 西村真里子, 里子, 志, 田浦厚志, 美, 高村惠美 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1