对于音译的机器学习的制作方法

文档序号:6595655阅读:178来源:国知局
专利名称:对于音译的机器学习的制作方法
技术领域
本说明书涉及音译(transliteration)。
背景技术
电子文档典型地用多种不同语言书写。通常在特定书写系统(例如,文字 (script))中表达每一种语言,所述书写系统通常由特定字母表表征。例如,可以使用拉丁字符来表达英语语言,而可以使用片假名字符来表达日语语言。一些语言所使用的文字包括已经被扩展为包括附加标记或者字符的特定字母表。在音译中,第一书写系统用于表示通常由第二书写系统表示的词。例如,音译词语可以是从一种文字转换成另一种文字的词语或者以一种文字的词语的另一种文字的语音表示。由于在音译词语中不反映词语的含义,所以音译会不同于翻译。用于提取音译对的技术可能需要注释的训练数据或特定于语言的数据。例如,对于音译的常规技术使用规则,其指定可以将第一文字的一个或多个特定字符映射到第二文字的一个或多个特定字符。这些规则典型地是特定于语言的,并且可能需要注释的训练数据和/或平行训练数据(例如,第一和第二文字的可比较训练数据)。

发明内容
本说明书描述了与对于音译的机器学习有关的技术。总的来说,在本说明书中描述的主题的一个方面可以被具体化在方法中,所述方法包括以下动作接收多个资源。多个资源可以包括多个锚文本。可以从多个锚文本确定一个或多个潜在音译。可以基于一个或多个潜在音译与识别相同资源或位置的文本同现的可能性,对一个或多个潜在音译进行排序。可以从一个或多个潜在音译识别一个或多个潜在音译对。每一个潜在音译对可以包括第一书写系统中的第一锚文本和第二书写系统中的第二锚文本。第二锚文本和第一锚文本可以识别相同资源或位置。对于每一个潜在音译对, 可以比较第一锚文本和第二锚文本;以及可以基于比较将潜在音译对第一次分类为是音译对或不是音译对。可以基于第一次分类的潜在音译对是音译对的可能性对第一次分类的潜在音译对进行第一次排序,以产生第一次排序的潜在音译对。可以识别第一次排序的潜在音译对的子集。该子集可以包括被分类为是音译对的潜在音译对和被分类为不是音译对的潜在音译对。对于子集中的每一个潜在音译对,可以使第一锚文本和第二锚文本对准(align); 以及可以提取来自对准的一个或多个编辑(edit)。可以基于一个或多个编辑和子集来生成分类模型。可以使用该分类模型将第一次分类的潜在音译对中的每一个第二次分类为是音译对或不是音译对。本方面的其它实施例包括对应的系统、装置和计算机程序产品。这些和其它实施例可以可选地包括以下特征中的一个或多个。比较第一锚文本和第二锚文本可以包括确定第一锚文本和第二锚文本之间的第一编辑距离,以及将第一编辑距离与第一阈值进行比较。对准可以基于使第一编辑距离最小化。第一阈值可以是第一锚文本的长度和第二锚文本的长度的较小者。当第一编辑距离大于第一阈值时,可以将潜在音译对第一次分类为不是音译对,以及当第一编辑距离小于第一阈值时,可以将潜在音译对第一次分类为是音译对。生成分类模型可以包括将一个或多个编辑中的每一个与特征相关联,以及为每一个特征生成特征权重。第二次分类可以包括对于第一次分类的潜在音译对中的每一个,将第一次分类的潜在音译对与分类模型中的一个或多个特征进行比较;基于该比较来确定一个或多个特征权重;以及对一个或多个特征权重求和以产生分类分值。该方法可以进一步包括对于与第一书写系统相关联的一个或多个编辑,基于第二次分类的潜在音译对是音译对的可能性对第二次分类的潜在音译对进行第二次排序;以及对于每一个第二次排序的潜在音译对,当第二次排序的潜在音译对的对应分类分值指示第二次排序的潜在音译对不是音译对时,将第二次排序的潜在音译对重新分类为不是音译对;当第二次排序的潜在音译对具有是音译对的最高可能性并且其对应分类分值指示第二次排序的潜在音译对是音译对时,将第二次排序的潜在音译对重新分类为最佳潜在音译对;确定第二次排序的潜在音译对和最佳潜在音译对之间的第二编辑距离;当第二次排序的潜在音译对的第二编辑距离小于第二阈值并且其对应分类分值指示第二次排序的潜在音译对是音译对时,将第二次排序的潜在音译对重新分类为是音译对;以及当第二次排序的潜在音译对的第二编辑距离大于第二阈值时,将第二次排序的潜在音译对重新分类为不是音译对。该方法可以进一步包括对于与第二书写系统相关联的一个或多个编辑,基于重新分类的潜在音译对是音译对的可能性对重新分类的潜在音译对进行第三次排序;以及对于被分类为是音译对的每一个第三次排序的潜在音译对,当第三次排序的潜在音译对的对应分类分值指示第三次排序的潜在音译对不是音译对时,将第三次排序的潜在音译对重新分类为不是音译对;当第三次排序的潜在音译对具有是音译对的最高可能性并且其对应分类分值指示第三次排序的潜在音译对是音译对时,将第三次排序的潜在音译对重新分类为最佳潜在音译对;确定第三次排序的潜在音译对和最佳潜在音译对之间的第三编辑距离; 当第三次排序的潜在音译对的第三编辑距离小于第三阈值并且其对应分类分值指示第三次排序的潜在音译对是音译对时,将第三次排序的潜在音译对重新分类为是音译对;以及当第三次排序的潜在音译对的第三编辑距离大于第三阈值时,将第三次排序的潜在音译对重新分类为不是音译对。分类模型可以使用支持向量机(SVM)。可能性可以使用对数似然比来计算。总的来说,在本说明书中描述的主题的另一个方面可以被具体化在方法中,所述方法包括以下动作接收多个资源。多个资源可以包括多个锚文本。可以从多个锚文本确定一个或多个潜在音译。可以从一个或多个潜在音译识别一个或多个潜在音译对。每一个潜在音译对可以包括第一书写系统中的第一锚文本和第二书写系统中的第二锚文本。第二锚文本和第一锚文本可以识别相同资源或位置。对于每一个潜在音译对,可以将潜在音译对分类为是音译对或不是音译对;可以将第一锚文本与第二锚文本对准。可以从对准提取一个或多个编辑。可以基于一个或多个编辑和分类的潜在音译对的子集来生成分类模型。本方面的其它实施例包括对应的系统、装置和计算机程序产品。这些和其它实施例可以可选地包括以下特征中的一个或多个。该方法可以进一步包括使用分类模型来从潜在音译对识别音译对。可以基于一个或多个潜在音译与识别相同资源或位置的文本同现的可能性来从一个或多个潜在音译识别一个或多个潜在音译对。 分类可以包括确定第一锚文本和第二锚文本之间的第一编辑距离;将第一编辑距离与第一阈值进行比较;以及基于该比较将潜在音译对分类为是音译对或不是音译对。对准可以基于使第一编辑距离最小化。第一阈值可以是第一锚文本的长度和第二锚文本的长度的较小者。该方法可以进一步包括基于精化规则和第一书写系统中的一个或多个编辑来对潜在音译对重新分类。该方法还可以包括基于精化规则和第二书写系统中的一个或多个编辑来对被分类为是音译对的潜在音译对重新分类。该方法可以进一步包括基于分类的潜在音译对是音译对的可能性对分类的潜在音译对进行排序。子集可以包括被分类为是音译对的潜在音译对和被分类为不是音译对的潜在音译对。分类模型可以使用支持向量机 (SVM)。在本说明书中描述的主题的特定实施例可以被实施来实现以下优势中的一个或多个。使用锚文本来自动识别音译对通过以下增加了识别的灵活性和覆盖范围(i)减少或消除对注释的训练数据的使用,以及(ii)减少或消除对特定于语言的规则或数据(例如,平行训练数据)的使用。结果,能够增加(例如,在词典中)所识别的音译对的数量,从而增加识别输入文本中的音译对的查准率、查全率和正确率。在附图和下面的描述中阐述了在本说明书中描述的主题的一个或多个实施例的细节。所述主题的其它特征、方面和优势从描述、附图以及权利要求将变得显而易见。


图1示出了示例音译对。图2是图示了使用锚文本对音译对的示例自动识别的框图。
图3包括示例潜在音译对和其对应的编辑。图4是示出了用于使用锚文本来自动识别音译对的示例过程的流程图。图5是通用计算机系统的示意图。各附图中相同的参考符号和标记指示相同的元素。
具体实施例方式图1示出了示例音译对。音译对可以包括例如在第一书写系统中表示的第一词和在第二书写系统中表示的第二词。第一书写系统和第二书写系统可以用于表达相同语言或不同语言。例如,第一和第二书写系统可以是片假名和日本汉字,其是用于表达日语的书写系统。作为另一个示例,第一和第二书写系统可以是拉丁语和日本汉字,其用于表达不同语言。另外,音译对中的每一个音译可以包括任何长度的文本,例如音译可以是单个字符或短语。音译可以具有多个变体。换句话说,对于在第二书写系统中表示的词的音译,在第一书写系统中可以有多个表示。例如,图1包括对于英语单词“saxophone (萨克斯管)”的拉丁表示的三个片假名音译寸夕乂7才>、寸矢乂7才 >以及寸矢乂 7才一 >。对注释的训练数据或特定于语言的规则的使用会限制可以用于(例如,使用分类器)训练例如用于识别音译对的分类模型的训练数据量。结果,可能减少音译的所有变体被识别的可能性。然而,使用锚文本来训练分类模型可以增加可用训练数据量(例如,可以使用包括锚文本的任何资源),从而增加分类器学习音译的所有变体的可能性。图2是图示了使用锚文本对音译对的示例自动识别的框图。图2包括一个或多个资源210。一个或多个资源210可以是例如网页、电子表格、电子邮件、博客以及即时消息 (IM)脚本。一个或多个资源210可以包括锚文本。锚文本例如是链接到由统一资源定位符(URL)识别的资源(例如,网页)的文本。 在一些实施方式中,锚文本可以链接到资源中的特定位置(例如,网页上的位置)。锚文本可以提供与资源有关的语境信息。在一些实施方式中,锚文本可以与相关联的URL的实际文本相关。例如,指向Google 网站的超链接可以被表示为<a href = “ http://www.google.com" >Google</a>。在该示例中,超链接在网页中显示为Google。在一些实施方式中,锚文本可以与相关联的URL的实际文本不相关。例如,指向 Google 网站的超链接可以被表示为<a href = “ http://www.google.com" >search engine</a>。在该示例中,超链接在网页中显示为捭索引擎。由于锚文本可以提供与资源有关的语境信息,所以识别相同资源的不同锚文本可以用作未注释的训练数据以识别音译对。尽管“搜索引擎”不是“Google”的音译,但是锚文本的其它示例可以提供与音译相同的语境信息。例如,指向Google 网站的另一个超链接可以被表示为<a href = " http://www.google.com" > 谷歌 </a>。在该示例中,超链接在网页中显示为谷歌。谷歌是“Google”的中文的音译。作为另一个示例,网页可以包括锚文本"一 〃 t ^ 7 ( "personal care (个人护理)”的片假名音译),以及英语网站可以包括锚文本Personal care,其均链接到相同网页(例如,关于个人健康的网页)。返回到图2,可以提取来自资源210的锚文本220。如在与链接到Google 网站的锚文本有关的先前示例中所说明的,锚文本的所提取的样本可以在相同书写系统中,因此不会是音译对。此外,没有链接到相同资源或位置的锚文本的所提取的样本比链接到相同资源或位置的样本更少可能是相关语境信息。具体地,锚文本的这些所提取的样本不太可能是相同语境信息。因此,可以通过识别在不同书写系统中表示并且链接到相同资源或位置的锚文本的样本来确定潜在音译对230 (例如,音译对候选)。每一个潜在音译对包括在第一书写系统中的第一锚文本和在第二书写系统中的第二锚文本。在从资源210提取锚文本220期间,可以收集与所提取的锚文本有关的各种统计。 例如,可以确定资源中的与锚文本相同但是没有链接到资源或位置的文本(例如,与URL不相关联的纯文本)的频率(例如,计数)。还可以确定在多于一种书写系统中出现并且链接到相同资源或位置(例如,作为潜在音译对出现)的锚文本的频率。此外,可以确定仅仅在单个书写系统中出现的锚文本的频率。
可以确定来自多个锚文本的一个或多个潜在音译。这些频率中的一个或多个可以用于计算潜在音译与识别相同资源或位置的文本同现的可能性。在一些实施方式中,可以通过使用对数似然比来计算同现的可能性。与锚文本的同现有关的其它统计也可以被收集,并且用于计算潜在音译对是音译对的可能性。可以从一个或多个潜在音译识别潜在音译对。可以基于一个或多个潜在音译与识别相同资源或位置的文本同现的可能性来对一个或多个潜在音译进行排序。使用该可能性确定,系统可以识别任何语言或书写系统的训练数据中的潜在音译对,例如系统可以是独立于语言/书写系统的。在识别潜在音译对220之后,可以对每一个潜在音译对评分。具体地,可以使用分类器(例如,线性支持向量机(SVM))来生成分类模型M0。如将在下面更详细描述的,分类模型240可以用于对每一个潜在音译对评分。作为概述,分类模型240可以包括音译对的特征和每一个特征的对应特征权重。可以将特征与潜在音译对进行匹配,以及可以对对应特征权重求和以产生潜在音译对的分类分值。将每一个潜在音译对最初分类为是音译对或不是音译对。在一些实施方式中,基于第一锚文本和第二锚文本之间的编辑距离对每一个潜在音译对进行最初分类。编辑距离可以被定义为例如用于将第一锚文本转变成第二锚文本的操作数。临时参考图3,示出了示例潜在音译对和其对应的编辑。音译对包括第一书写系统中的第一锚文本(例如,“sample”)和第二书写系统中的第二锚文本(例如,“寸> ”)。 可以在确定编辑距离之前对第一锚文本和第二锚文本进行处理。在一些实施方式中,将第一锚文本和第二锚文本转变成共同书写系统。例如,可以将寸转变成“sanpuru”(例如,语音拼写),使得第一锚文本和经转变的第二锚文本两者均包括拉丁字符。在一些实施方式中,使第一锚文本和经转变的第二锚文本两者规范化。例如,可以大写“sample”和 “sanpuru”,以产生“SAMPLE”和“SANPURU”。该规范化可以用于帮助对准第一锚文本和经转变的第二锚文本。在被处理之后,可以使第一锚文本和经转变的第二锚文本对准以确定编辑距离和来自第一锚文本和经转变的第二锚文本中的每一个的一个或多个编辑。在对准期间,可以将来自第一锚文本的字符与来自经转变的第二锚文本的字符进行匹配。在一些实施方式中,可以基于第一锚文本中的一个或多个字符与第二锚文本中的一个或多个字符同现的统计可能性来匹配字符。例如,可以通过骰子系数(Dice coefficient)来测量同现概率。在一些实施方式中,辅音图可以用于进一步精化对准过程。在一些实施方式中,可以执行对准,以使编辑距离最小化。返回到图3,以六个操作使“SAMPLE”的字符与“SANPURU”的字符相匹配。具体地,操作包括⑴使“S”与“S”相匹配,(2)使“A”与“A”相匹配,(3)使“M”与“N”相匹配,(4)使“P”与“PU”相匹配,(5) 使“L”与“R”相匹配,以及(6)使‘ ”与“U”相匹配。由于六个操作用于使第一锚文本与经转变的第二锚文本对准,所以编辑距离是六。在一些实施方式中,使未赋予权重的编辑距离最小化。在一些实施方式中,可以对编辑距离赋予权重,并且使赋予权重的编辑距离最小化。其它实施方式是可能的。在该示例对准中,识别了对于第一锚文本和经转变的第二锚文本中的每一个的六个编辑。与拉丁语相关联的编辑可以被表示为特征"S_s"、“ A_A"、“ M_N"、“ P_ PU"、“ L_R"以及"E_U"。字母之间的下划线可以用于区别来自第一锚文本的字符和来自经转变的第二锚文本的字符。与片假名相关联的编辑可以被表示为特征"S_S"、“ A_ A"、〃 N_M〃、“ PU_P〃、“ R_L〃以及〃 U_E〃。可以将每一个编辑与分类模型240中的特征相关联。例如,“P_PU”可以是与拉丁语相关联的潜在音译对的特征。替选地,“PU_ P”可以是与片假名相关联的潜在音译对的特征。在一些实施方式中,与潜在音译对中的锚文本的开头或结尾相对应的特征可以被分别指示为潜在音译对中的锚文本的开头的特征以及潜在音译对中的锚文本的结尾的特征。例如,特征"s_s"可以被表示为"~s_~s",其中前缀指示该特征表示在潜在音译对中的锚文本的开头处出现的字符。另外,特征"E_u"可以被表示为"E$_U$",其中后缀“$”指示该特征表示在潜在音译对的锚文本的结尾处出现的字符。可以在将潜在候选对与特征进行比较期间使用这些指示,使得将潜在候选对的开头和结尾仅仅与适当特征(例如,分别地,开头和结尾特征)进行比较。结果,适当特征权重可以用于计算分类分值。其它实施方式是可能的。例如,不同的字符(例如,定界符)可以用作分隔符、前缀或后缀。在一些实施方式中,执行对准,以使没有空编辑。在初始对准后,可以将邻近编辑聚组在一起,以使没有带有空侧的编辑。作为一个示例,可以将第一锚文本“TOP”与第二经转变的锚文本“T0PPU”(卜”)对准。最初,对准可以产生以下特征“Τ_Τ”、“0_0”、“Ρ_ P”、“<null>_P”以及“<null>_U”,其中<null>表示空编辑。可以执行对准,使得对邻近特征 “ <nu 11 >_P ” 和 “ <nu 11 >_U ” 进行组合来产生 “ <nu 11 >_PU ”,然后对“ P_P ” 和 “ <nu 11 >_PU ” 进行组合来产生“P_PPU”。结果,最终对准产生了特征“ T_T ”、“ 0_0”和“P_PPU”。在对准期间,可以收集可以用于计算潜在音译对是音译对的可能性的统计。例如, 可以确定第一锚文本和经转变的第二锚文本的每一个中的辅音数的计数。还可以确定第一锚文本和经转变的第二锚文本的每一个中的元音数的计数。可以计算计数之间的差额。第一锚文本和第二经转变的锚之间的差额可以用于计算潜在音译对是音译对的可能性。在为潜在音译对确定编辑距离之后,将编辑距离与阈值进行比较。在一些实施方式中,阈值是第一锚文本的长度和第二锚文本的长度的较小者。如果编辑距离大于阈值,则潜在音译对可以被分类为不是音译对。否则,潜在音译可以被分类为是音译对。返回到图 3中的示例,编辑距离是六,以及〃 SAMPLE"和〃 SANPURU"的长度分别是六和七。因此, 阈值是六,以及"SAMPLE"和寸可以被最初分类为是音译对。其它实施方式是可能的。例如,初始分类可以基于在对准期间确定的任何统计。作为另一个示例,如果编辑距离小于阈值,则潜在音译对可以被分类为不是音译对。在一些实施方式中,在所有潜在音译对被最初分类为是或不是音译对之后,对潜在音译对进行排序。可以根据潜在音译对是音译对的可能性来对潜在音译对进行排序。例如,可以使用在提取和对准期间获取的统计(例如,频率和计数)来计算每一个潜在音译对是音译对的对数似然比。排序的潜在音译对的子集可以用于生成(例如,训练)分类模型 2400例如,可以提取最可能是音译对(例如,前)并且被最初分类为是音译对的潜在音译对。这些对可以用于表示音译对的样本。另外,可以提取最不可能是音译对(例如,后 1%)并且被最初分类为不是音译对的潜在音译对。这些对可以用于表示不是音译对的样本。这些样本可以用于训练分类模型对0。音译对的样本、不是音译对的样本以及特征可以用于生成分类模型M0,例如为特
11征中的每一个生成特征权重。在一些实施方式中,可以使用该数据来训练简单线性SVM。具体地,音译对的样本可以用作第一类的数据点,例如,是音译对的数据点类。不是音译对的样本可以用作第二类的数据点,例如不是音译对的数据点类。可以确定超平面(例如,最大边界超平面(maximum-margin hyperplane)),其将数据点分隔为数据点的相应类并且使从超平面到最近数据点的距离最大化。其它实施方式是可能的。例如,数据可以用于使用线性判别分析或朴素贝叶斯分类器来训练生成模型;或使用逻辑回归或感知来训练判别模型。可以基于包括特征的样本来计算每一个特征的特征权重。例如,对于包括在第一类中的样本中的特征,可以增加特征权重。作为另一个示例,对于包括在第二类中的样本中的特征,可以减少特征权重。如果特征在第一和第二类两者中的样本中出现,则可以分配中立特征权重(例如,零)。使用该示例约定,更高的分类分值可以表示更好的潜在音译对 (例如,更好的音译对候选)。可以对与潜在音译对中的特征相对应的特征权重求和,以产生潜在音译对的分类分值。基于分类分值,从锚文本原始提取的潜在音译对可以被分类为是或不是音译对。使用前述示例约定,例如,如果分类分值为负,则潜在音译对可以被分类为不是音译对。例如, 如果分类分值为正,则潜在音译对可以被分类为是音译对。分类分值零可以表示中立分类。返回到图3中的示例,可以将包括〃 sample"和寸> >的潜在音译对与分类模型中的特征进行比较,并且可以返回特征〃 S_S"、“ A_A〃、“ N_M〃、“ PU_P〃以及〃 R_ L"。可以对与所返回的特征相对应的特征权重求和,以产生潜在音译对的分类分值,以及分类分值可以用于对潜在音译进行分类。在一些实施方式中,可以执行进一步精化来提高自动识别音译对的正确率和查准率。例如,可以使用下述精化规则。对于与第一书写系统相关联的一个或多个编辑(例如, 与特征〃 S_S"、“ A_A〃、“ N_M〃、“ PU_P〃以及〃 R_L〃相关联的编辑),可以基于潜在音译对是音译对的可能性,例如使用对数似然比,对潜在音译对再次进行排序。如果潜在音译对的对应分类分值为负,则潜在音译对可以被重新分类为不是音译对(例如,消极候选对幻。当潜在音译对具有是音译对的最高可能性并且其对应分类分值为正时,潜在音译对可以被重新分类为最佳潜在音译对(例如,最佳候选对4)。可以确定潜在音译对和最佳潜在音译对之间的第二编辑距离,以及当潜在音译对的第二编辑距离小于第二阈值并且其对应分类分值为正时,潜在音译对可以被重新分类为是音译对(例如,积极候选M6)。当潜在音译对的第二编辑距离大于第二阈值时,潜在音译对可以被重新分类为不是音译对。在一些实施方式中,对与第二书写系统相关联的一个或多个编辑(例如,与特征〃 S_S〃、“ A_A〃、“ N_M〃、“ PU_P〃、“ R_L〃 以及〃 U_E〃 相关联的编辑),也可以执行相同的精化规则。在这些和其它实施方式中,在先前精化中先前被重新分类为不是音译对的潜在音译对在该精化期间不被重新分类。在一些实施方式中,甚至可以通过执行前述用于训练分类模型240的步骤的一个或多个迭代,来实现对分类模型的进一步精化。在一些实施方式中,在生成并且精化初始分类模型240 (例如,预分类模型)之后, 分类模型240可以用于识别输入文本中的音译对。具体地,可以将输入文本与分类模型MO 中的特征进行比较,以及可以使用前述技术来识别音译对。另外,当生成了分类模型MO 时,生成所识别的音译对集,例如,被分类为音译对的潜在音译对。图4是示出了用于使用锚文本来自动识别音译对的示例过程400的流程图。方法包括接收410多个资源,所述多个资源包括多个锚文本。例如,提取引擎可以接收包括锚文本220的资源210。在一些实施方式中,可以从多个锚文本确定一个或多个潜在音译。可以基于一个或多个潜在音译与识别相同资源或位置的文本同现的可能性来对一个或多个潜在音译排序。可以从一个或多个潜在音译识别一个或多个潜在音译对。每一个潜在音译对包括第一书写系统中的第一锚文本和第二书写系统中的第二锚文本,第二锚文本和第一锚文本识别相同资源。可以将每一个潜在音译对分类420为是音译对或不是音译对。例如,分类引擎可以执行该分类。可以使第一锚文本与第二锚文本对准430。例如,对准引擎可以执行该对准。可以从对准提取440—个或多个编辑。例如,提取引擎或对准引擎可以执行该提取。可以基于一个或多个编辑和分类的潜在音译对的子集来生成450分类模型。子集可以包括被分类为是音译对的潜在音译对和被分类为不是音译对的音译对。可以使用分类模型从潜在音译对识别460音译对。例如,分类引擎可以生成分类模型,以及识别音译对。图5是通用计算机系统500的示意图。系统500可以用于实践与前述技术(例如, 过程400)联合描述的操作。系统500可以包括处理器510、存储器520、存储设备530和输入/输出设备讨0。组件510、520、530和MO中的每一个使用系统总线550互连。处理器 510能够处理用于在系统500内执行的指令。这样的执行的指令可以实现例如用于如图2 中使用锚文本来自动识别音译对的系统的一个或多个组件。在一个实施方式中,处理器510 是单线程处理器。在另一个实施方式中,处理器510是多线程处理器。处理器510能够处理存储在存储器520中或存储设备530上的指令以在输入/输出设备540上显示用于用户界面的图形信息。存储器520是存储系统500内的信息的计算机可读介质,诸如易失性或非易失性的。存储器520例如可以存储潜在音译对230和分类模型M0。存储设备530能够为系统 500提供持久性存储。存储设备530可以是软盘设备、硬盘设备、光盘设备、或带设备、或其它适当的持久性存储装置。输入/输出设备540为系统500提供输入/输出操作。在一个实施方式中,输入/输出设备540包括键盘和/或指示设备。在另一个实施方式中,输入/ 输出设备540包括用于显示图形用户界面的显示单元。输入/输出设备540可以为用于如图2中使用锚文本来自动识别音译对的系统提供输入/输出操作。分段系统可以包括使用锚文本来自动识别音译对的计算机软件组件。 这样的软件组件的示例包括从资源提取锚文本的提取引擎、使潜在音译对对准的对准引擎以及对潜在音译对进行分类的分类引擎。这样的软件组件可以存留于存储设备530、存储器 520中或可以通过网络连接获取,仅列出一些示例。尽管在本说明书中描述的示例中的许多示例图示了英语-日语(例如,拉丁语-片假名)音译,但是可以针对书写系统和语言的其它组合实现所描述的主题和功能操作的实施例。例如,可以从英语(例如,拉丁字符)和韩语(例如,朝鲜文字符)锚文本提取音译对。作为另一个示例,可以从印地语(例如,梵文字符)和俄语(例如,西里尔字符) 锚文本提取音译对。另外,在一些实施方式中,其它类型(例如,样本)的文本可以用于训练分类模型。 例如,单个书写系统中的词的语音变体可以用于训练分类模型。作为另一个示例,单个书写系统中的词的拼写变体可以用于训练分类模型。其它实施方式是可能的。
在本说明书中描述的主题和功能操作的实施例可以以数字电子电路,或者以计算机软件、固件或硬件,包括在本说明书中公开的结构以及其结构等价物,或者以它们中的一个或多个的组合来实现。可以将在本说明书中描述的主题的实施例实现为一个或多个计算机程序产品,即计算机程序指令的一个或多个模块,其被编码在有形程序载体上、由数据处理装置执行或控制数据处理装置的操作。有形程序载体可以是计算机可读介质。计算机可读介质可以是机器可读存储设备、机器可读存储基片、存储器设备或它们中的一个或多个的组合。术语“数据处理装置”包含用于处理数据的所有装置、设备以及机器,包括例如可编程处理器、计算机或多个处理器或计算机。除硬件外,装置可以包括创建用于讨论中的计算机程序的执行环境的代码,例如构成处理器固件、协议堆栈、数据库管理系统、操作系统或它们中的一个或多个的组合的代码。计算机程序(也称作程序、软件、软件应用、脚本或代码)可以以任何形式的编程语言编写,包括编译或解释语言、或者说明性或过程性语言,并且其可以以任何形式部署, 包括作为独立程序或作为模块、组件、子程序或适于在计算环境中使用的其它单元。计算机程序不必对应于文件系统中的文件。可以将程序存储在保持其它程序或数据的文件(例如,存储在标记语言文档中的一个或多个脚本)的一部分、专用于讨论中的程序的单个文件或者多个协调文件(例如,存储一个或多个模块、子程序或部分代码的文件)中。可以将计算机程序部署为在一个计算机上或者在位于一个地点或跨多个地点分布并且由通信网络互连的多个计算机上执行。在本说明书中描述的过程和逻辑流可以由执行一个或多个计算机程序的一个或多个可编程处理器执行以通过操作输入数据并且生成输出来执行功能。过程和逻辑流还可以由专用逻辑电路执行,以及装置还可以被实现为专用逻辑电路,所述专用逻辑电路例如 FPGA (现场可编程门阵列)或ASIC (专用集成电路)。适于执行计算机程序的处理器包括例如通用和专用微处理器两者,以及任何类型的数字计算机的任何一个或多个处理器。通常,处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的主要元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储器设备。通常,计算机还包括用于存储数据的一个或多个海量存储设备,例如磁、磁光盘或光盘,或可操作地耦接以从所述一个或多个海量存储设备接收数据或向所述一个或多个海量存储设备传送数据,或两者。然而,计算机不必具有这样的设备。此外,可以将计算机嵌入另一个设备中,所述设备例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPQ接收器、带有说话语言输入的设备,仅列出一些。智能电话是带有说话语言输入的设备的示例,其能够接受语音输入(例如,说话输入到设备上的麦克风中的用户查询)。适于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备,包括例如半导体存储器设备,例如EPROM、EEPROM和闪存设备; 磁盘,例如内部硬盘或可移动盘;磁光盘;以及⑶-ROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路补充,或合并入专用逻辑电路。为了提供与用户的交互,本说明书中描述的主题的实施例可以在具有下述的计算机上实现用于向用户显示信息的显示设备,例如CRT(阴极射线管)或LCD(液晶显示)监视器,以及用户通过其可以向计算机提供输入的键盘和指示设备,例如鼠标或跟踪球。也可以使用其它类型的设备来提供与用户的交互;例如,提供给用户的反馈可以是任何形式的感知反馈,例如视觉反馈、听觉反馈或触觉反馈;以及可以以任何形式,包括声学的、话音或触觉的输入,接收来自用户的输入。本说明书中描述的主题的实施例可以在计算系统中实现,所述计算系统包括例如作为数据服务器的后端组件、或者包括例如应用服务器的中间件组件、或者包括前端组件, 例如具有用户通过其可以与在本说明书中描述的主题的实施方式交互的图形用户界面或 Web浏览器的客户端计算机、或者一个或多个这样的后端、中间件或前端组件的任何组合。 系统的组件可以通过例如通信网络的任何形式或介质的数字数据通信互连。通信网络的示例包括局域网(“LAN")和广域网(“WAN"),例如因特网。计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离并且典型地通过通信网络交互。客户端和服务器的关系依靠在各个计算机上运行并且彼此具有客户端-服务器关系的计算机程序产生。虽然本说明书包含许多具体实现细节,但是这些细节不应当被解释为对任何实施方式或可以主张的内容的范围的限制,而应当被解释为对可以具体到特定实施方式的特定实施例的特征的描述。还可以将在本说明书中在分离的实施例的情境中描述的某些特征组合在单个实施例中实现。相反地,也可以将在单个实施例的情境中描述的各种特征分离地在多个实施例中实现或在任何适当的子组合中实现。此外,尽管可能在上面将特征描述为在某些组合中起作用,甚至最初主张如此,但是可以在一些情况下将来自所主张的组合的一个或多个特征从组合中删去,并且可以将所主张的组合指向子组合或者子组合的变体。类似地,虽然在附图中以特定顺序描绘了操作,但是不应当将这理解为需要以所示的特定顺序或者以连续顺序执行这样的操作、或者需要执行所有图示的操作,才能达到期望的结果。在某些情况下,多任务以及并行处理可以是有利的。此外,不应当将在上述实施例中的各种系统组件的分离理解为在所有实施例中均需要这样的分离,而应当理解的是,通常可以将所描述的程序组件和系统集成到一起成为单个软件产品或封装为多个软件产品。已经描述了在本说明书中描述的主题的特定实施例。其它实施例在权利要求的范围内。例如,可以以不同的顺序来执行权利要求中记载的动作并且仍然达到期望的结果。作为一个示例,在附图中描绘的过程不必需要所示的特定顺序或连续顺序,来达到期望的结果。在某些实施方式中,多任务以及并行处理可以是有利的。
权利要求
1.一种方法,包括接收多个资源,所述多个资源包括多个锚文本; 从所述多个锚文本确定一个或多个潜在音译;基于所述一个或多个潜在音译与识别相同的资源或位置的文本同现的可能性,对所述一个或多个潜在音译进行排序;从所述一个或多个潜在音译识别一个或多个潜在音译对,其中每一个潜在音译对包括第一书写系统中的第一锚文本和第二书写系统中的第二锚文本,所述第二锚文本和所述第一锚文本识别相同的资源或位置; 对于每一个潜在音译对, 比较所述第一锚文本和所述第二锚文本;以及基于所述比较将所述潜在音译对第一次分类为是音译对或不是音译对; 基于所述第一次分类的潜在音译对是音译对的可能性对所述第一次分类的潜在音译对进行第一次排序,以产生第一次排序的潜在音译对;识别所述第一次排序的潜在音译对的子集,所述子集包括被分类为是音译对的潜在音译对和被分类为不是音译对的潜在音译对; 对于所述子集中的每一个潜在音译对, 使所述第一锚文本和所述第二锚文本对准;以及从所述对准提取一个或多个编辑;基于所述一个或多个编辑和所述子集来生成分类模型;以及使用所述分类模型将所述第一次分类的潜在音译对中的每一个第二次分类为是音译对或不是音译对。
2.根据权利要求1所述的方法,其中比较所述第一锚文本和所述第二锚文本包括 确定所述第一锚文本和所述第二锚文本之间的第一编辑距离;以及将所述第一编辑距离与第一阈值进行比较; 其中所述对准基于使所述第一编辑距离最小化。
3.根据权利要求2所述的方法,其中所述第一阈值是所述第一锚文本的长度和所述第二锚文本的长度中的较小者。
4.根据权利要求3所述的方法,其中当所述第一编辑距离大于所述第一阈值时,将所述潜在音译对第一次分类为不是音译对,以及当所述第一编辑距离小于所述第一阈值时, 将所述潜在音译对第一次分类为是音译对。
5.根据权利要求1所述的方法,其中生成所述分类模型包括 将所述一个或多个编辑中的每一个与特征相关联;以及为每一个特征生成特征权重。
6.根据权利要求5所述的方法,其中所述第二次分类包括 对于所述第一次分类的潜在音译对中的每一个,将所述第一次分类的潜在音译对与所述分类模型中的所述一个或多个特征进行比较;基于所述比较来确定一个或多个特征权重;以及对所述一个或多个特征权重求和以产生分类分值。
7.根据权利要求6所述的方法,进一步包括对于与所述第一书写系统相关联的所述一个或多个编辑,基于所述第二次分类的潜在音译对是音译对的可能性对所述第二次分类的潜在音译对进行第二次排序;以及对于每一个第二次排序的潜在音译对,当所述第二次排序的潜在音译对的对应分类分值指示所述第二次排序的潜在音译对不是音译对时,将所述第二次排序的潜在音译对重新分类为不是音译对;当所述第二次排序的潜在音译对具有是音译对的最高可能性并且其对应分类分值指示所述第二次排序的潜在音译对是音译对时,将所述第二次排序的潜在音译对重新分类为最佳潜在音译对;确定所述第二次排序的潜在音译对和所述最佳潜在音译对之间的第二编辑距离; 当所述第二次排序的潜在音译对的第二编辑距离小于第二阈值并且其对应分类分值指示所述第二次排序的潜在音译对是音译对时,将所述第二次排序的潜在音译对重新分类为是音译对;以及当所述第二次排序的潜在音译对的第二编辑距离大于所述第二阈值时,将所述第二次排序的潜在音译对重新分类为不是音译对。
8.根据权利要求7所述的方法,进一步包括对于与所述第二书写系统相关联的所述一个或多个编辑,基于所述重新分类的潜在音译对是音译对的可能性对所述重新分类的潜在音译对进行第三次排序;以及对于被分类为是音译对的每一个第三次排序的潜在音译对,当所述第三次排序的潜在音译对的对应分类分值指示所述第三次排序的潜在音译对不是音译对时,将所述第三次排序的潜在音译对重新分类为不是音译对;当所述第三次排序的潜在音译对具有是音译对的最高可能性并且其对应分类分值指示所述第三次排序的潜在音译对是音译对时,将所述第三次排序的潜在音译对重新分类为最佳潜在音译对;确定所述第三次排序的潜在音译对和所述最佳潜在音译对之间的第三编辑距离; 当所述第三次排序的潜在音译对的第三编辑距离小于第三阈值并且其对应分类分值指示所述第三次排序的潜在音译对是音译对时,将所述第三次排序的潜在音译对重新分类为是音译对;以及当所述第三次排序的潜在音译对的第三编辑距离大于所述第三阈值时,将所述第三次排序的潜在音译对重新分类为不是音译对。
9.根据权利要求1所述的方法,其中所述分类模型使用支持向量机(SVM)。
10.根据权利要求1所述的方法,其中所述可能性使用对数似然比来计算。
11.一种方法,包括接收多个资源,所述多个资源包括多个锚文本; 从所述多个锚文本确定一个或多个潜在音译;从所述一个或多个潜在音译识别一个或多个潜在音译对,其中每一个潜在音译对包括第一书写系统中的第一锚文本和第二书写系统中的第二锚文本,所述第二锚文本和所述第一锚文本识别相同的资源或位置; 对于每一个潜在音译对,将所述潜在音译对分类为是音译对或不是音译对; 将所述第一锚文本与所述第二锚文本对准;以及从所述对准提取一个或多个编辑;以及基于所述一个或多个编辑和所述分类的潜在音译对的子集来生成分类模型。
12.根据权利要求11所述的方法,进一步包括使用所述分类模型来从所述潜在音译对识别音译对。
13.根据权利要求11所述的方法,其中所述一个或多个潜在音译对是基于所述一个或多个潜在音译与识别相同的资源或位置的文本同现的可能性从所述一个或多个潜在音译来识别的。
14.根据权利要求11所述的方法,其中所述分类包括确定所述第一锚文本和所述第二锚文本之间的第一编辑距离; 将所述第一编辑距离与第一阈值进行比较;以及基于所述比较将所述潜在音译对分类为是音译对或不是音译对; 其中所述对准基于使所述第一编辑距离最小化。
15.根据权利要求14所述的方法,其中所述第一阈值是所述第一锚文本的长度和所述第二锚文本的长度的较小者。
16.根据权利要求15所述的方法,进一步包括基于精化规则和所述第一书写系统中的所述一个或多个编辑来对所述潜在音译对重新分类。
17.根据权利要求16所述的方法,进一步包括基于所述精化规则和所述第二书写系统中的所述一个或多个编辑来对被分类为是音译对的所述潜在音译对重新分类。
18.根据权利要求11所述的方法,进一步包括基于所述分类的潜在音译对是音译对的可能性对所述分类的潜在音译对进行排序。
19.根据权利要求18所述的方法,其中所述子集包括被分类为是音译对的潜在音译对和被分类为不是音译对的潜在音译对。
20.根据权利要求11所述的方法,其中所述分类模型使用支持向量机(SVM)。
21.一种编码在计算机可读介质上的、可操作来促使一个或多个处理器执行操作的计算机程序产品,所述操作包括接收多个资源,所述多个资源包括多个锚文本; 从所述多个锚文本确定一个或多个潜在音译;从所述一个或多个潜在音译识别一个或多个潜在音译对,其中每一个潜在音译对包括第一书写系统中的第一锚文本和第二书写系统中的第二锚文本,所述第二锚文本和所述第一锚文本识别相同的资源或位置; 对于每一个潜在音译对,将所述潜在音译对分类为是音译对或不是音译对; 将所述第一锚文本与所述第二锚文本对准;以及从所述对准提取一个或多个编辑;以及基于所述一个或多个编辑和所述分类的潜在音译对的子集来生成分类模型。
22. —种系统,包括包括程序产品的机器可读存储设备;以及一个或多个计算机,所述一个或多个计算机可操作来执行所述程序产品并且执行操作,所述操作包括接收多个资源,所述多个资源包括多个锚文本; 从所述多个锚文本确定一个或多个潜在音译;从所述一个或多个潜在音译识别一个或多个潜在音译对,其中每一个潜在音译对包括第一书写系统中的第一锚文本和第二书写系统中的第二锚文本,所述第二锚文本和所述第一锚文本识别相同的资源或位置; 对于每一个潜在音译对,将所述潜在音译对分类为是音译对或不是音译对; 将所述第一锚文本与所述第二锚文本对准;以及从所述对准提取一个或多个编辑;以及基于所述一个或多个编辑和所述分类的潜在音译对的子集来生成分类模型。
全文摘要
公开了用于自动识别音译对的方法、系统和装置,包括计算机程序产品。在一个实施方式中,提供了方法。该方法包括接收多个资源,所述多个资源包括多个锚文本;从多个锚文本确定一个或多个潜在音译;以及从一个或多个潜在音译识别一个或多个潜在音译对,其中每一个潜在音译对包括第一书写系统中的第一锚文本和第二书写系统中的第二锚文本,第二锚文本和第一锚文本识别相同的资源或位置。
文档编号G06F17/28GK102227724SQ200980148103
公开日2011年10月26日 申请日期2009年10月5日 优先权日2008年10月10日
发明者宙市川, 斯拉文·比拉克 申请人:谷歌公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1