选择用于文本分割的语言的方法和系统的制作方法

文档序号:6366081阅读:154来源:国知局
专利名称:选择用于文本分割的语言的方法和系统的制作方法
技术领域
本发明涉及文本分割,更具体地讲,涉及对文本分割的语言进行选择。
背景技术
已经存在了试图解译表示文本的数据的文本处理方法和系统。在接收到没有指示单词或其它分割段(token)的分隔符的、由字符串组成的文本时,进行文本处 理更加困难。当使用现有方法和系统处理这种字符串时,为了解译字符串,可以将字符分割为分割段。分割段可以是单词、首字母縮写、缩略语、适当名称、地理名称、股票市场交易符号或其它分割段。通常,可以使用现有的方法和系统,将字符串分割为分割字符串的多个组合。在对文本进行分割时选择使用正确的语言可以产生更加有意义的结果。

发明内容
本发明的实施例包括选择用于文本分割的语言的方法和系统。本发明的一个实施例包括识别与字符串相关联的至少第一备选语言和第二备选语言;从该字符串确定与第一备选语言相关联的第一分割結果,并从该字符串确定与第二备选语言相关联的第二分割结果 ’为兎一分割结果确定弟一出现频率,和为弟~■分割结果确定弟~■出现频率;以及至少部分地基于第一出现频率和第二出现频率,从第一备选语言和第二备选语言来识别可行的
イ五古
レロロ ο所提到的该示例性实施例并不限制或限定本发明,而是提供了有助于理解本发明实施例的示例。在具体实施方式
中对示例性实施例进行了讨论,并提供了对本发明进ー步的描述。通过核对说明书,可以进一歩理解本发明的各个实施例所提供的优点。


当參照附图阅读以下具体实施方式
时,可以更好地理解本发明的这些和其它特征、方面和优点,其中图I示出了根据本发明一个实施例的系统示意图;以及图2示出了由本发明执行的方法的一个实施例的流程图。
具体实施例方式引言本发明的实施例包括选择用于文本分割的语言的方法和系统。本发明具有多个实施例。通过引言和示例,本发明的一个示例性实施例提供了通过为字符串选择正确的语言,来改进将诸如域名之类的字符串分割为多个分割段或单词的方法。可以基于各种信号,例如,与该字符串相关联的语言、与用户相关联的IP地址、用于字符串的字符集、与用户相关联的浏览器应用程序的浏览器设置、以及与该字符串相关联的任何最高层域,来选择用于该字符串的多种潜在或备选语言。 可以使用每种备选语言将字符串分割为许多分割结果。每个分割结果可以是单词或其它分割段的特定組合。例如,可以针对英语语言将字符串“ usedrugs” 分割为以下分割结果“used rugs”, “use drugs”, “us ed rugs”等。根据针对每种备选语言的分割结果的数目,可以根据包含可行的分割后结果的可行语言中的文档或搜索疑问的数目来识别可行的分割结果和可行的语言。例如,可以为每种备选语言选择成为最可行分割结果的可能性最高的分割結果。搜索引擎可以确定包含所选择的分割结果的文档或搜索疑问的数目,并且可以为每种备选语言的每个所选分割结果都这样做。在一个实施例中,可以将在特定语言的文档或搜索疑问中以出现频率最大分割结果识别为最可行的分割结果。可以将与最可行的分割结果相关联的语言识别为最可行的语言。用于确定备选语言的语言信号也可以用于选择可行的语言。可行的分割结果和可行的语言可以被用于各种功能,包括基于语言和结果选择广告。给出该引言以将读者引导至该申请的一般技术主题。这并不意味着将本发明限制于该技术主題。以下对示例性实施例进行描述。系统架构可以构造根据本发明的各种系统。图I是示出了可以在其中执行本发明示例性实施例的示例性系统的示意图。本发明同样可以操作并体现于其它系统。现在參照附图,在所有多个附图中,类似的数字指示类似的単元,图I是示出了实施本发明实施例的示例性环境的示意图。图I中所示的系统100包括通过网络106与服务器设备104和服务器设备150通信的多个客户机设备102a-n。在一个实施例中,所示的网络106包括因特网。在其它实施例中,可以使用诸如内联网、WAN或LAN之类的其它网络。此外,根据本发明的方法可以在单个计算机内工作。图I中所示的客户机设备102a_n各包括计算机可读介质,例如,与处理器110连接的随机存取存储器(RAM) 108。处理器110执行存储器108中存储的计算机可执行程序指令。这种处理器可以包括微处理器、ASIC,和状态机。这种处理器包括或可以与像例如计算机可读介质这样的、存储了指令的介质通信,在处理器执行指令时,使处理器执行这里所描述步骤。计算机可读介质的实施例包括,但不局限于能够向诸如客户机102a的处理器110之类的处理器提供计算机可读指令的电、光、磁或其它存储或传输设备。其它适合介质的示例包括,但不局限于软盘、CD-ROM、DVD、磁盘、存储器芯片、ROM、RAM、ASIC、配置的处理器、所有光介质、所有磁带或其它磁介质、或计算机处理器可以从中读取指令的任何其它适合的介质。此外,各种其它形式的计算机可读介质可以将指令传输或携帯至计算机,包括路由器、专用或公共网络、或其它传输设备或信道(有线和无线)。指令可以包括来自任何适合的计算机编程语言的代码,包括例如,C、C++、C#、Visual Basic、Java、Python、Perl和JavaScript ο客户机设备102a_n还可以包括多个外部或内部设备,如,鼠标、⑶-ROM、DVD、键盘、显示器、或其它输入或输出设备。客户机设备102a-n的示例是个人计算机、数字助理、个人数字助理、蜂窝电话、移动电话、智能电话、寻呼机、数字书写板、膝上型计算机、因特网设备和其它基于处理器的设备。通常,客户机设备102a可以是与网络106连接并与ー个或多个应用程序交互的任何适合类型的基于处理器的平台。客户机设备102a-n可以在能够支持浏览器或浏览器支持的应用程序的任何操作系统,例如,Microsoft Windows B或Linux,上操作。例如,所示的客户机设备102a-n包括执行诸如微软公司的因特网Explorer 、Netscape通信公司的Netscape Navigator 、以及苹果计算机公司的Safari 之类的浏览器应用程序的个人计算机。通过客户机设备102a_n,用户112a_n可以通过网络106彼此通信,并与同网络106连接的其它系统和设备通信。如图I中所示,服务器设备104和服务器设备150也可以与网络106连接。服务器设备104可以包括执行分割引擎应用程序的服务器,服务器设备150可以包括执行搜索引擎应用程序的服务器。与客户机设备102a-n类似,图I中示出的服务器设备104和服务器设备150分别包括与计算机可读存储器118连接的处理器116、以及与计算机可读存储器154连接的处理器152。作为单个计算机系统来描述的服务器设备104和 150可以作为计算机处理器网络来实施。服务器设备104、150的示例是服务器、大型计算机、联网计算机、基于处理器的设备、以及类似类型的系统和设备。客户机处理器110和服务器处理器116、152可以是如以上描述的多种计算机处理器中的任何ー个,例如,来自加利福尼亚的圣克拉拉的英特尔公司的处理器、以及伊利诺斯州的绍姆堡的摩托罗拉公司。存储器118包含分割应用程序,也称为分割引擎120。服务器设备104或相关设备可以接入网络106,以接收来自与网络106连接的其它设备或系统的字符串。例如,字符可以包括用于书写系统中的标记或符号,包括表示诸如ASCII、Unicode、ISO 8859-1、Shift-JIS、以及EB⑶IC之类的字符,或任何其它适合的字符集的数据。在一个实施例中,分割引擎120可以在用户112a试图将网络浏览器应用程序指引至未接入的域名吋,从网络106上的服务器设备接收诸如域名之类的字符串。在一个实施例中,分割引擎120为字符串识别备选语言;针对每种备选语言将字符串分割为分割段的潜在组合;以及选择特定语言和组合与字符串相关联。分割段可以包括单词、适当名称、地理名称、缩略语、首字母縮写、股票市场市场交易符号或其它分割段。分割引擎120可以包括分割处理器122、频率处理器124、以及语言处理器126。在图I中所示的实施例中,每个均包括驻留在存储器118中的计算机代码。语言处理器126可以识别备选语言或用于字符串的语言。在一个实施例中,语言处理器126可以使用信号来识别用于该字符串的多种备选语言。例如,语言处理器可以使用语言学、用户的IP地址、用于字符串的字符集、与用户相关联的浏览器应用程序的浏览器设置、以及与该字符串相关联的任何最高层域来确定用于该字符串的备选语言。分割处理器122可以从每种备选语言的字符串中来确定分割段的潜在组合或分割结果的列表。在一个实施例中,分割段处理器124确定列表中每个分割结果的概率,并基于该概率为每种语言选择最高分割结果。分割结果的概率可以基于与结果中的各个分割段相关联的频率值。在一个实施例中,可以包括未分割的字符串作为分割結果。频率处理器124可以执行频率搜索或对每种备选语言的首选分割结果执行频率捜索。频率处理器124可以包括拼写检查功能,或可以调用驻留在别处的拼写检查功能,以便对所选分割结果执行拼写检查。在频率搜索中可以包括任何拼写修正后結果。在ー个实施例中,频率处理器将所选的分割结果发送至服务器设备150,以便对所选的分割结果执行频率搜索。如以下所述,频率捜索可以确定每个特定的分割结果的出现频率。分割处理器122可以基于频率搜索识别最佳或可行的分割結果。分割处理器122可以将与可行结果相关联的语言识别为该字符串的可行语言。在一个实施例中,可以将可行的分割结果和可行的语言发送至广告服务器,该广告服务器可以以可行语言和分割结果中的ー个或二者为来选择目标广告。下面进ー步描述分割处理器122、频率处理器124、以及语言处理器126的其它功能和特性。
服务器设备104还提供了对其它存储元件的访问,如,分割段存储元件,在示出的示例中为分割段数据库120。分割段数据库120可以用于存储与每个分割段相关联的分割段和频率信息。分割段数据库120还可以存储与每个分割段相关联的一种语言或多种语言。数据存储元件可以包括用于存储数据的任何ー种方法或多种方法的组合,所述数据包括但不局限于阵列、散列表、列表和对。服务器设备104可以访问其它类似类型的数据存储设备。服务器设备150可以包括执行搜索引擎应用程序,例如,Google 搜索引擎的服务器。在其它实施例中,服务器设备150可以包括相关信息服务器或广告服务器。在另ー实施例中,可以有多个服务器设备150。存储器154包括搜索引擎应用程序,也被称为搜索引擎156。搜索引擎156可以响应来自用户112a的捜索疑问,从网络106中定位相关信息,并可以保持捜索疑问的搜索日志。搜索引擎156还可以响应来自频率处理器124的频率搜索请求来执行频率搜索。搜索引擎156可以经由网络106,向用户112a提供捜索结果集或向分割引擎120提供频率信
O在一个实施例中,服务器设备150或相关设备已经在先前执行了网络106的缓行(crawl)以定位在与网络106连接的其它设备或系统处存储的诸如网页之类的项目(article)。例如,项目包括文档、电子邮件、即时消息收发器消息、数据库条目、各种格式的网页,例如,HTML、XML、XHTML、便携文档格式(HF)文档,以及媒体文档,例如,图像文档、音频文档和视频文档,或任何适合类型的无论什么的样文档或文档组或信息。索引器158可以用于对存储器154中或在诸如索引160之类的另一数据存储设备上的项目编索引。索引器还可以包括与每个项目相关联的语言或多种语言。在一个实施例中,存在多个索引,每个索引包含编索引后的总项目的一部分。应当理解,可以使用代替缓行或与缓行结合的用于对项目编索引的任何其它适合的方法,如,手动提交。搜索引擎156可以以多种适合的方式来执行频率捜索。在一个实施例中,搜索引擎156可以使用每个首选分割结果作为搜索疑问来执行网络搜索,并可以以分割结果的备选语言来捜索包含捜索疑问的项目。在该实施例中,可以生成频率搜索结果集,并且可以包括ー个或多个项目标识符。例如,项目标识符可以是统ー资源定位器(URL)、文件名、链接、图标、本地文件的路径、或者识别项目的其它。在一个实施例中,项目标识符可以包括与项目相关联的URL。频率处理器124可以使用每个频率捜索结果集中的项目标识符的数目作为相应分割结果的出现数目的表示。在另ー实施例中,频率处理器124可以直接与索引器158相接ロ。针对每个首选分割结果,索引器158可以确定在其中出现了分割结果的关联备选语言的项目数。可以将该信息发送至频率处理器124。在另ー实施例中,针对每个所选分割结果,搜索引擎156和/或频率处理器124可以根据捜索日志来确定关联备选语言中的捜索疑问的出现次数,频率处理器124能够根据该搜索日志信息来确定出现的频率。在一个实施例中,可以基于关联语言中的项目或捜索疑问的总数来对与分割结果关联的频率捜索中的项目或搜索询问数目进行归一化。应当注意,本发明可以包括具有与图I所示不同架构的系统。例如,在根据本发明的一些系统中,服务器设备104可以包括单个物理或逻辑服务器。图I中示出的系统100仅是示例性的,并用于帮助解释图2中所示的方法。处理可以执行根据本发明实施例的不同方法。根据本发明的一个示例性方法包括识别与字符串相关联的至少第一备选语言和第二备选语言;至少根据该字符串确定与第一备选语言相关联的第一分割结果,和根据该字符串确定与第二备选语言相关联的第二分割结果;确定第一分割结果出现的第一频率,和第二分割结果出现的第二频率;以及至少部分地基于出现的第一频率和出现的第二频率,从第一备选语言和第二备选语言来识别可行的 语言。可以识别两种以上的备选语言,并确定两个以上的分割結果。例如,可以识别三种备选语言,并对于每种备选语言来确定四个分割結果。可以至少部分地基于出现的第一频率和出现的第二频率,根据从第一分割结果和第二分割结果至少部分地识别可行的分割结果来对可行语言进行识别。可以至少部分地基于ー种或多种语言信号来识别第一备选语言和第二备选语言。语言信号可以包括与字符串相关联的语言学、与字符串相关联的用户的IP地址、用于字符串的字符集、与用户相关联的浏览器应用程序的浏览器设置、以及与字符串相关联的最高层域中的至少ー个。在ー个实施例中,对可行语言的识别可以至少部分地基于语言信号。在一个实施例中,至少部分地基于出现的第一频率和出现的第二频率,从第一备选语言和第二备选语言识别可行语言可以包括如果所述出现的第一频率大于所述出现的第二频率,则选择第一备选语言。字符串可以包括域名。第一分割结果可以包括分割段的第一組合,以及第二分割结果包括分割段的第二組合。在一个实施例中,确定第一分割结果出现的第一频率可以包括确定包含第一分割结果的第一备选语言中的项目数,并基于第一备选语言中的项目总数来对项目数进行归一化;以及确定包含第一分割结果的第一备选语言中的项目数可以包括确定响应包括第一分割结果的捜索疑问所生成的捜索结果集中的项目标识符数。在一个实施例中,确定包含第一分割结果的第一语言的项目数可以包括访问项目索引。在另ー实施例中,确定出现的第一频率可以包括确定第一备选语言中的多个搜索疑问中的第一分割结果的出现数目,并基于第一备选语言中的捜索疑问的总数来对出现数目进行归一化。该方法还可以包括至少部分地基于可行语言或可行的分割结果(或二者)来选择项目,以及该项目可以包括广告。在一个实施例中,确定第一分割结果可以包括从字符串确定第一备选语言中的多个分割結果,以及从第一备选语言中的多个分割结果来识别第一分割結果。识别第一分割结果可以包括计算多个分割结果中的每ー个的概率值。与第一分割结果相关联的第一概率值可以至少部分地基于第一分割结果内的每个分割段的频率。另ー示例性方法包括从域名来确定第一备选语言中的第一分割結果,以及第二备选语言中的第二分割结果;确定项目索引、文本索引和搜索结果集中的至少ー个中的第一分割结果出现的第一频率;确定第二分割结果出现的第二频率;如果所述出现的第一频率大于所述出现的第二频率,则将第一备选语言选择作为可行语言;如果所述出现的第二频率大于所述出现的第一频率,则将第二备选语言选择作为可行语言;至少部分地基于可行语言来选择广告,其中,广告包括可行语言中的文本以及使广告的显示与同域名相关联的网页相关联。图2示出了根据本发明一个实施例的选择用于文本分割的语言的示例性方法200。作为示例来提供该示例性方法,根据本发明,存在着多种执行该方法的方式。图2中示出的方法200可以通过ー个系统来执行,和提供各种系统的组合来进行。以下将由图I所示的系统100所执行的方法200作为示例进行描述,在解释图2的示例方法的过程中,弓丨用了系统100的各种元件。
參照图2,在方框202中开始该示例方法。方框204跟随方框202,在方框204中,分割引擎120可以访问字符串。可以从例如与网络106连接的设备、或从另ー设备中接收或访问字符串。在一个实施例中,字符串可以是与现在未用的或不存在的网站相关的域名,其中,从与该域名相关联的广告服务器中接收所述现在未用的或不存在的网站。方框206跟随方框204,在方框206中,识别字符串的备选语言。在一个实施例中,语言处理器126可以使用一种或多种语言信号来确定该字符串的多种备选语言。例如,语言处理器可以基于语言信号,将英语、法语和西班牙语识别为该字符串的三种备选语言。例如,使用的语言信号中的ー些可以是与字符串相关联的语言学、与字符串相关联的用户的IP地址、用于字符串的字符集、与同字符串相关联的用户相关联的浏览器应用程序的浏览器设置、以及与字符串相关联的最高层域。例如,可以使用语言学来确定字符串的结构或性质是否指示它使用的是特定语言。例如,特定语言具有以特定字符组开始或结束、并使用一般图案的趋势。用户的IP地址可以指示用户的位置和国家。从国家信息中,可以用与国家相关联的一种语言或多种语言作未备选语言。字符串的字符集可以指示与字符串相关联的一种语言或多种语言。例如,西里尔字母字符集可以指示俄语或ー些其它斯拉夫语言。与字符串相关联的用户的浏览器应用程序的浏览器设置可以指示与字符串相关联的语言和/或字符集。例如,可以在HTTP报头中与字符串一起传输用户的浏览器应用程序的语言和字符集设置。与字符串相关联的最高层域可以指示国家。最高层域可以是根之后层级的最高等级。在域名中,最高层域是最靠右边出现的域名部分。例如,对于域名“usedrugs. co. uk”,最高层域是uk”,可以指示英国。最高层域“.ru”可以指示俄国。与最高层域相关联的国家可以用于确定备选语言,如,“ru”指示俄国,它指示关联字符串可以是俄语的。ー些最高层域可以指示多于ー种语言。例如,“.ch”可以指示瑞士,以及可以指示可与法语、德语或意大利语相关联的字符串。可以使用识别字符串的备选语言的其它适合的信号和方法。方框208跟随方框206,在方框208中,通过针对每种备选语言对字符串进行分割,从字符串中生成多个分割結果。分割字符串可以包括将串中的字符解析为分割段的多种组合,并且可以由分割处理器122来执行。分割处理器122可以针对每种备选语言开发分割结果的列表。每个分割结果可以是分割段的多个组合或单个分割段。例如,在意大利语中,可以将字符串“assocomunicazioni”分割为“asso comunicazioni”和其它分割后的结果,以及在法语中,可以分割为“asso com uni cazioni”和其它分割后的结果。在另ー示例中,字符串“maisonblanche”可以在法语中分割为“maison blanche”和其它分割后的结果,以及在英语中,可以分割为“mai son blanc he”和其它分割后的結果。在另ー示例中,字符串“ usedrugs” 可以在英语中分割为包括“ used rugs”、“use drugs ”、“us ed rugs”、“u sed rugs”、“usedrugs”等的分割后的结果。还可以针对其它备选语言(如上例中的法语和西班牙语)生成分割結果。可以包括未分割的字符串作为分割結果。在分割处理中,分割处理器122可以利用来自分割段数据库126中的分割段。可以使用不同的方法来对字符串进行分割,如,在2003年12月30日提交的名为“Methods andSystems for Text Segmentation”的 PCT 国际专利申请No. PCT/US03/41609 中所描述的分割技术,在此ー并引入作为參考。方框210跟随方框208,在方框210中,为每种备选语言确定最高分割結果。可以通过分割处理器122来确定最高分·割結果,以及最高分割结果可以是最佳或可行的分割结果的概率最高的結果。在一个实施例中,可以基于为每个分割结果所确定的概率值来排列分割結果。在一个实施例中,可以通过将与每个单独的分割结果内的単独的分割段相关联的频率值相加来确定概率值。在另ー实施例中,可以通过包括将与每个单独的分割结果内的単独的分割段相关联的频率值的对数相加的复合函数来确定概率值。然后可以选择多个最高级别的分割結果。例如,可以排列每个备选语言的分割結果,以及可以选择每种备选语言的前三个結果。方框212跟随方框210,在方框212中,针对每种备选语言的首选分割结果来执行频率搜索。可以由频率处理器124结合搜索引擎156来进行频率搜索。在一个实施例中,分割处理器122可以将所选的分割结果传递至频率处理器124,频率处理器124可以确定在项目或捜索疑问的语料库中每个分割结果的出现频率。在一个实施例中,频率处理器124可以基于由搜索引擎156编索引的项目来确定分割结果的出现频率。在一个实施例中,频率处理器124可以经由网络106,将首选的分割结果发送至搜索引擎156。搜索引擎156可以利用每个分割结果作作捜索疑问,来对编索引项目中的每个分割结果进行捜索。例如,频率处理器124可以将由引号标注的每种备选语言的每个备选结果作为搜索疑问发送至搜索引擎156,从而搜索引擎156针对特定语言的项目中的确切的分割词组来执行搜索。在一个实施例中,对于每个分割结果,搜索引擎156可以生成包含响应搜索疑问的多个项目标识符的捜索结果集。搜索引擎156可以将每个分割结果的搜索结果集经由网络106发送回频率处理器124。频率处理器124可以基于项目标识符的数目,从每个捜索结果集中确定每个分割结果所出现的频率。在另ー实施例中,频率处理器124可以经由网络106,将首选分割结果发送至索引器158。索引器158可以访问索引160,以确定出现分割结果的特定语言中的项目数目,并且可以针对每个所选分割结果来这样做。在一个实施例中,索引160可以是多个索引,以及索引器158可以为每个分割结果检查总索引的一部分。然后,索引器158可以将与每个分割结果相关联的出现次数经由网络106传递至频率处理器124。在另ー个实施例中,频率处理器124可以经由网络106将首选的分割结果发送至搜索引擎156,以确定捜索疑问中的分割结果的出现次数。例如,针对关联语言中的每个分割结果,搜索引擎156可以确定该分割结果被用作捜索疑问或部分捜索疑问的次数。可以通过搜索引擎156,将每个分割结果在捜索疑问中的出现次数经由网络106发送至频率处理器124。例如,如果分割处理器122确定了在英语中,字符串“ usedrugs”的所选分割结果是“used rugs”、“use drugs”和“us ed rugs”,则频率处理器124可以将这些分割结果和与其它备选语言相关联的分割结果发送至搜索引擎156。例如,搜索引擎156可以将这些结果使用作为搜索疑问,并针对每个分割结果生成捜索结果集。例如,搜索引擎156可以使用“used rugs”作为搜索疑问,并为包含与含有 词组“used rugs”的英语项目相关联的项目标识符的捜索疑问确定捜索结果集。搜索引擎156可以针对与其它备选语言相关联的分割结果执行同样的动作。在另ー个实施例中,捜索引擎156可以从包含先前接收到的搜索引擎的关联搜索日志中确定接收到包含分割结果的搜索询问的次数。例如,搜索引擎156可以为接收到包含词组“used rugs”的捜索询问的次数来捜索它的搜索日志。在另ー个实施例中,搜索引擎156的索引器158可以接收搜索結果,并确定包含分割结果的索引160或索引160的一部分中的项目数目。例如,索引器158可以通过索引160或索引160的一部分来捜索包含“used rugs”的英语项目的数目。可以在频率搜索中包括拼写检查功能。例如,频率处理器124可以包括或可以调用拼写检查功能,从而可以对首选分割结果进行拼写检查。拼写检查功能可以为每个分割结果中的単独的分割段确定正确或优选的拼写。频率处理器124可以针对最高分割结果以及任何拼写修正后的分割结果来执行频率捜索,以确定两个结果的出现频率。例如,如果分害1]结果是“basebal game”,以及拼写修正后的结果是“baseball game”,贝U可以针对这两个结果均执行频率搜索。在一个实施例中,每个分割结果的出现频率是基于特定语言的项目或捜索询问总数的归ー化值。例如,如果在70个英语项目或捜索询问中出现英语的分割結果,以及存在总数1000的英语项目或捜索询问,则该英语分割结果的出现频率是O. 07(70/1000)。类似地,如果在60个法语项目或捜索询问中出现法语的分割結果,以及存在总数400的法语项目或捜索询问,则该法语分割结果的出现频率是O. 15(60/400)。这样,出现频率考虑了项目或捜索结果的语料库中的特定语言的流行性,以及并不固有地加权至更加流行的语言。方框214跟随方框212,在方框214中,对可操作语言和可操作的分割结果进行识另O。在一个实施例中,频率处理器124可以识别可操作语言和可操作的分割結果。例如,频率处理器124可以选择具有最高关联出现频率的分割結果。如上所述,出现频率可以是基于包含分割结果的项目或捜索询问数目、以及特定语言的项目或搜索询问的总数的归ー化值。附加信号还可以用于确定可行的分割結果。例如,频率处理器124可以考虑包含每个分割结果的项目的客观排序(如,用于网络项目的PageRank 排序算法),并使用目标排序来对包含每个分割结果的项目进行加权。出现于项目中的分割结果的次数和项目中的分割结果的位置还可以用于对包含分割结果的项目进行加权。可以选择与可行的分割结果关联的备选语言作为可行语言。在一个实施例中,在方框206中用于识别备选语言的语言信号可以用于确定可操作语言。如果语言信号指示该字符串最可能是特定语言,则这些信号可以用于对该语言进行更加重的加权。例如,诸如语言学、与用户关联的IP地址、用于字符串的字符集、与用户相关联的浏览器应用程序的浏览器设置、以及与字符串相关联的最高层域之类的语言信号可以指示域字符串相关联的语言是特定语言,例如,法语。另ー种语言,例如,英语的分割结果的出现频率信息可以接近或超过法语的另一分割结果的出现频率信息。语言信号可以用于对法语进行加权,以便使得在该示例中选择法语作为操作语言。在216中,结束该方法200。可以以各种方式来使用可行语言和可行的分割结果。可以在选择广告的过程中使用可行语言和/或可下的分割結果。例如,用户112a可以通过将字符串“ usedrugs. com”输入浏览器应用程序,尝试将他的浏览器应用程序导航至网站“usedrugs. com”。如果在域名“ usedrugs. com”处不存在这种网站,则可以将用户浏览器应用程序重定向为第三方网站。第三方网站会期望将与用户输入的域名相关的广告和/或链接放置在用户正在浏览的网页上。第三方网站可以将域名“usedrugs. com”发送至分割引擎120。分割引擎120可以使用以上描述的方法和系统,将可行语言和可行的分割结果返回第三方网站或与网站相关联的广告服务器。例如,可行的分割结果可以是“used rugs”,以及可行语言可以是英语。第三方网站或广告服务器可以使与英语的词组“used rugs”相关的广告和/或链接显示在 用户正在浏览的网页上,并可以确保用于网站上的语言是英语。在选择显示给用户的状态消息中使用的语言中也可以使用可行语言。综述尽管以上的描述包含了许多特例,但是这些特例不应当构成为对本发明范围的限制,而是仅作为所公开的实施例的范例。本领域技术人员可以预见在本发明范围内的任何其它可能的变化。这里使用的术语第一和第二仅用于区分ー个项目与另ー个项目。除非特别示出,术语第一和第二并不用于指示时间上的第一或第二、列表中的第一或第二、或其它顺序。例如,除非特别指出,“第二”可以在时间上或列表中在“第一”之前。
权利要求
1.一种计算机实现的方法,包括 接收没有分割段描述分隔符的字符串; 识别针对所述字符串的至少第一备选语言和第二备选语言; 至少确定包括第一多个分割段的第一分割结果和包括第二多个分割段的第二分割结果,所述第一多个分割段与包括所述字符串的所述第一备选语言相关联,以及所述第二多个分割段与包括所述字符串的所述第二备选语言相关联; 通过使用搜索引擎确定响应于包括所述第一分割结果的搜索疑问而产生的搜索结果集合中的项目标识符的数量,确定所述第一分割结果出现的第一频率;以及通过使用搜索引擎确定响应于包括所述第二分割结果的搜索疑问而产生的搜索结果集合中的项目标识符的数量,确定所述第二分割结果出现的第二频率;以及 至少部分地基于所述出现的第一频率和所述出现的第二频率,从所述第一备选语言和第二备选语言来识别并输出可行的语言。
2.根据权利要求I所述的计算机实现的方法,其中确定所述第一频率包括基于所述第一备选语言中由所述搜索引擎进行索引的项目总数,对所述第一频率进行归一化。
3.根据权利要求I所述的计算机实现的方法,其中使用搜索引擎来识别所述第一备选语言中的项目数包括在所述搜索引擎中执行包含所述第一分割结果的搜索疑问,并确定作为执行所述搜索疑问结果而由所述搜索引擎产生的结果集合中的项目标识符的数量。
4.根据权利要求I所述的计算机实现的方法,其中使用搜索引擎来识别所述第一备选语言中的项目数包括确定在与所述搜索引擎相关联的索引中与所述第一多个分割段中的一个或多个相对应的条目数。
全文摘要
公开了用于选择文本分割的语言的方法和系统。在一个实施例中,识别出与字符串相关联的至少第一备选语言和第二备选语言;至少确定与第一备选语言相关联的第一分割结果和与第二备选语言相关联的第二分割结果;确定第一分割结果出现的第一频率和第二分割结果出现的第二频率;以及至少部分地基于所述出现的第一频率和所述出现的第二频率,从第一备选语言和第二备选语言识别可行的语言。
文档编号G06F17/27GK102708095SQ20121006303
公开日2012年10月3日 申请日期2005年9月28日 优先权日2004年9月30日
发明者杰拉德·以色列·埃尔巴兹, 雅各布·L·曼德尔森 申请人:谷歌公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1