局部项目提取的制作方法

文档序号:6553699阅读:265来源:国知局
专利名称:局部项目提取的制作方法
局部项目提取技术领域这里所述的实施例总体上涉及信息检索,并且更具体地涉及与地 址相关的企业信息的识别。
背景技术
万维网("web")包括大量信息。然而,定位信息的期望部分是 有难度的。该问题是多方面的,因为网络上的信息量和对网络搜索没 有经验的新用户数量都在快速增加。搜索引擎试图返回指向用户感兴趣网页的超链接。 一般而言,搜 索系统对用户兴趣的确定基于用户输入的搜索词语(称为搜索查询)。 搜索系统的目标是根据搜索查询将高质量的相关结果(例如,网页) 的链接提供给用户。通常,搜索系统通过把搜索查询中的词语与预存 储网页语料库相匹配而实现上述目的。包含用户搜索词语的网页被"命 中"并作为链接返回给用户。局部搜索系统试图返回特定地理区域内的相关网页和/或企业登记 信息。当在网页上提及企业时,现有的局部搜索系统会匹配该企业与 黄页数据以识别对应的企业登记信息。然而,当不存在黄页数据或黄 页数据对企业不准确时,上面的技术不能实施。发明内容根据一方面, 一种方法包括识别包括地址的文档、定位文档内的 企业信息、并向该企业信息指定置信度得分,其中置信度得分与该企 业信息与该地址相关的概率有关。该方法也包括根据指定的置信度得 分确定是否把企业信息和地址相关联。
根据另一方面, 一种方法包括识别包括地址的文档、识别文档中 地址前面的词语集、并确定每个词语是与地址相关的名号的一部分的 概率。该方法也包括根据具有高概率是与地址相关的名号的一部分的一个或多个词语而识别候选名号、向候选名号指定置信度得分、并根 据指定的置信度得分确定是否把候选名号和地址相关联。根据另一方法, 一种方法包括识别包括地址的文档、识别文档中 的候选电话号码集合、确定在候选电话号码集合中的每个候选电话号 码与地址相关的概率、并根据确定的概率确定是否把候选电话号码之 一和地址相关联。根据另一方面,一种方法包括识别包括地标(landmark)的网页、识 别网页中的属性、并向属性指定置信度得分,其中置信度得分涉及属 性与地标相关的概率。该方法也包括根据指定的置信度得分而确定是 否把属性和地标相关联。


结合在说明书中并构成本说明书一部分的相应附图用于解释本发 明的实施例,并结合说明书解释本发明。在图中 图1是包括地址的示例文档的示意图;图2是其中实施符合本发明原理的系统和方法的网络的示例性示意图;图3是根据符合本发明原理的实施例的图2的客户端或服务器的 示例性示意图;图4是根据符合本发明原理的实施例的训练系统的示例性示意图;图5是根据符合本发明原理的实施例用于训练统计模型的示例性 处理的流程图;图6是根据符合本发明原理的实施例的局部项提取器的示例性示
意图;图7是根据符合本发明原理的实施例的用于识别与地址相关联的 企业名(名号)的示例性处理的流程图;图8是根据符合本发明原理的实施例的用于识别与地址相关联的 电话号码的示例性处理的流程图;以及图9-15是解释根据符合本发明原理的实施例的对示例性文档执行 的示例性处理的示意图。
具体实施方式
本发明的以下详细说明参考相应附图。在不同描述中的相同附图 标记是指相同或相似的组件。同样,以下详细说明并不限制本发明。概况局部搜索涉及识别与特定地理区域相关的企业登记信息。万维网 包括数十亿的文档,其中许多提及企业。识别尽可能与许多不同企业 相关的企业信息对于局部搜索系统是有利的。经常,黄页数据与企业 相关联。然而,有时在没有黄页数据或黄页数据可能不准确的情况下 在文档中提及企业。符合本发明原理的系统和方法识别与网页文档中提及的地址相关 的企业信息。在一个实施例中,企业信息包括与地址相关的企业名。 在另一个实施例中,企业信息包括与地址相关的电话号码。在另一实 施例中,企业信息包括另外类型的信息,诸如企业营业时间或到与地 址相关的企业的网站或地图的链接。图1是包括地址的示例文档的示意图。如图所示,该文档与位于 宾夕法尼亚州oakmont的餐馆Veltri's比萨饼店的评论相关联。可以分 析文档,确定该文档包括邮政地址(即,123 Allegheny Avenue, Oakmont, PA)。假设Veltri's不具有任何相关的黄页数据或具有可能不正确的黄 页数据。
使用这里所述的技术,文档进一步经过分析用于确定与地址相关 的企业信息。企业信息克包括与地址相关的企业名称(这里也称为名号(title))和/或电话号码。企业信息用于产生或校正与地址相关的企业登记信息。如这里使用的,词语"文档"用于广义的解释为包含任何机器可 读和机器可存储的工作产品。文档包括例如电子邮件、网页、企业登 记信息、文件、文件的组合、具有到其他文件内嵌链接的一个或多个 文件、新闻组帖子、博客、网络广告等。在因特网的范围,常见文档 是网页。网页经常包括文本信息并包括嵌入式信息(诸如元信息、图像、超链接等)和/或内嵌指令(诸如Javascript等)。如这里使用的, 词语"链接"用于广义的解释为包括不同文档之间和相同文档的不同 部分之间的任何引用。示例性网络配置图2是其中实施符合本发明原理的系统和方法的网络的示例性示 意图。网络200包括借助于网络250连接到多个服务器220-240的客户 端210。为了简化,两个客户端210和三个服务器220-240被示例为连 接到网络250。实际上,能有更多或更少的客户端和服务器。同样,在 某些示例中,客户端能执行服务器的功能以及服务器能执行客户端的功能。客户端210包括客户端实体。实体被定义为设备,诸如无线电话、 个人计算机、个人数字助理(PDA)、膝上型电脑、或另一类型的计 算或通信设备、在这些设备之一上运行的线程或进程和/或由这些设备 之一执行的对象。服务器220-240包括服务器实体,所述服务器实体根 据符合发明原理的形式收集、处理、搜索和/或维护文档。在符合本发明原理的实施例中,服务器220包括由客户端210使 用的搜索引擎225。服务器220能爬取文档语料库(例如,网页文档)、 索引文档并在文档库中存储与文档有关的信息。服务器230和240存 储或维护由服务器220爬取或分析的文档。虽然服务器220-240被表示为单独的实体, 一个或多个服务器 220-240可能执行另一个或多个服务器220-240的一个或多个功能。例 如,可把两个或多个服务器220-240实现成单个服务器。单独一个服务 器220-240可能被实施为两个或多个单独(并可能是分布的)设备。网络250包括局域网(LAN)、广域网(WAN)、电话网、诸如 公共交换电话网(PSTN)、内联网、因特网、存储设备或网络组合。 客户端210和服务器220-240可借助于有线、无线和/或光连接而连接 到网络250。示例性客户端/服务器结构图3是根据与本发明原理一致的实施例的对应一个或多个客户端 210和/或服务器220-240的客户端或服务器实体(下文称为"客户端/ 服务器实体")的示例性示意图。客户端/服务器实体包括总线310、 处理器320、主存330、只读存储器(ROM) 340、存储设备350、输 入设备360、输出设备370、以及通信接口 380。总线310包括允许在 客户端/服务器实体间通信的路径。处理器320包括常规处理器、微处理器或解释并执行指令的处理 逻辑。主存330包括随机访问存储器(RAM)或存储信息及指令用于 由处理器320执行的另一类型的动态存储设备。ROM 340包括常规 ROM设备或存储静态信息和指令用于由处理器320使用的另一类型的 静态存储设备。存储设备350包括磁的和/或光的记录介质及其对应驱 动器。输入设备360包括允许操作员向客户端/服务器实体输入信息的常
规机制,诸如键盘、鼠标、输入笔、语音识别和/或生物识别机制等。 输出设备370包括向操作员输出信息的常规机制,包括显示器、打印机、扬声器等。通信接口 380包括能使客户端/服务器实体与其他设备 和/或系统通信的如收发器等的装置。例如,通信接口 380包括借助于 诸如网络250的网络与另一设备或系统通信的装置。符合本发明原理的客户端/服务器能执行特定操作,这在下文将详 细描述。客户端/服务器实体能响应处理器320执行这些操作,所述处 理器执行在诸如存储器330的计算机可读介质中包含的软件指令。计 算机可读介质可被定义为物理的或逻辑的存储设备和/或载波。借助通信接口 380从另一计算机可读介质(诸如数据存储设备 350)或另一设备向存储器330读入软件指令。存储器330中包含的软 件指令能使得处理器320执行下面描述的指令。或者,硬线电路可以 用于取代或结合软件指令以执行符合本发明原理的处理。因此,符合 本发明原理的实施例并不限制于硬件电路和软件的任何特定组合。示例性训练系统图4是根据符合本发明原理的实施例的训练系统的示例性示意 图。在一个实施例中,训练系统400可以通过软件和/或硬件在服务器 220 (图2)、另一设备、或者独立于或包括服务器220的设备组内实 施。如图4所示,训练系统400包括根据训练集产生统计模型420的 训练器410。在一个实施例中,能识别包括有地址的文档集,对所述地 址存在黄页数据。 一般,训练器410识别通常与文档集中有黄页存在 的企业信息相关联的特征,以产生统计模型420。统计模型420用于预 测企业信息在文档中的位置,所述文档包括没有黄页或可能黄页数据 不正确的地址。
图5是根据符合本发明原理的实施例用于训练统计模型420的示例性处理的流程图。处理开始于分析文档语料库以识别包括存在黄页数据的地址的文档(框510)。例如,克分析文档语料库中的文档来确 定文档是否包括地址。任何已知地址识别技术都能用于识别文档中的 地址。当文档被识别包括地址时,对照黄页数据分析该地址以确定该黄 页数据是否包括匹配该地址的企业登记信息。可以从黄页的企业登记信息中识别诸如企业名("名号")禾n/或电话号码的企业信息。然后在文档内识别这种企业信息(框520)。例如,可分析文档的文本以确 定任何文本是否匹配该企业信息。当没有文本匹配企业信息时,从训练集中删除该文档。当文档的 文本匹配企业信息时,在文档内标记地址和企业信息(框530)并在训 练集中包括该文档。任何已知标记技术用于标记文档中的地址和企业 信息。在一个实施例中,在训练集仅包括那些企业信息出现在地址周 围的文档(例如,在预定词语数范围内,诸如该地址左面和/或右面的 20或60个词语)。在另一实施例中,可以在训练集中包括企业信息出 现在文档内任何位置的文档。—旦建立训练集(其可包括数百万文档),可以根据训练集产生 统计模型(框540)。例如,当文档包括地址时,可分析训练集中的文 档以收集关于如何识别文档内企业信息的特征。所述特征可与下述内 容相关联候选词语离参考点(例如,文档内的地址)的距离、候选 词语的特点、与候选词语相关的边界信息和/或与候选词语相关的标点 信息。用于确定名号的特定特征可能同用于确定电话号码的那些特征 不同。用于确定其他类型的企业信息的特征也是不同的。涉及候选名号词语特点的特征例子包括该词语是什么词、它是否是数字、它是否是大写、加粗、倾斜、下划线或居中,它是否是锚
定文本的一部分,以及它按字符的长度。涉及候选名号词语的边界信息的特征示例根据边界标记的出现(例如,HTML标签)并且可包括在候选名号词语与前面或后面词语之间是否存在有段落、换行、或列 表项标记以及是否存在有涉及表格或列表的开始或结束的标记。涉及 候选名号词语的标点信息的特征示例包括在候选名号词语与前面或后 面词语之间是否有逗号、句点、感叹号、问号、冒号、分号、破折号、 单或双引号、括号或空格。其他一些特征对本领域技术人员是显而易 见的。涉及候选电话号码词语特点的特征示例包括该词语是什么,它 按字符的长度是什么,以及如果电话号码包括区域代码该区域代码是 否适合该地址所位于的地理区域。涉及候选电话号码词语的边界信息的特征示例可基于边界标记(例如,HTML标签)的出现并包括是否 有段落、换行或列表项标记以及在候选电话号码词语和地址之间是否 有涉及表格或列表的开始或结束的标记。与候选电话号码词语相关的 某些其他特征包括常用电话号码词语(例如,call、 calling、 telephone、 telephoning、 phone、 phoning、 tel、 tele、 (T),等等)是否出现在候选 电话号码词语之前预定数量的词语中,常用传真号码词语(例如,fax、 faxing、(F)等等)是否出现在候选电话号码词语之前预定数量的词语中, 在候选电话号码词语和地址之间是否有另一电话号码。其他特征对本 领域技术人员是明显的。根据与文档中词语相关的特征,可使用统计模型来预测该词语是否是与文档中地址相关的企业信息的一部分。换句话说,统计模型从 训练集中识别多个不同线索,并使用这些线索以确定名号在文档何处 开始和结束和/或哪个电话号码可能对应该文档中的地址。示例性局部项提取器图6是根据符合本发明原理的实施例的局部项提取器600的示例 性示意图。在一个实施例中,局部项提取器600由服务器220 (图2)、
另一设备、或者独立于或包括服务器220的设备组内的软件和/或硬件 实施。如图6所示,局部项提取器600包括分类器610,用于根据统计 模型420分析带有地址的文档以确定与地址相关的企业信息。由分类 器610分析的文档包括具有没有对应黄页数据的地址的文档和/或具有 可能不准确黄页数据的地址的文档。由分类器610执行的功能根据企 业信息是对应于企业名(名号)信息还是对应于电话号码信息而不同。 当企业信息还包括除企业名或电话号码信息之外的其他信息时能执行 其他功能。图7是根据符合本发明原理的实施例的用于识别与地址相关联的 企业名(名号)的示例性处理的流程图。处理开始于识别包含地址的 文档(框710)。任何已知地址识别技术都可以用于识别文档中的地址。分析邻近该地址的词语并确定每个词语是名号一部分的概率(框 720和730)。在一个实施例中,分析开始于该文档中该地址前面直接 相邻的词语。换句话说,名号的搜索始于该地址,并在该文档的文本 中向后查看。这样做的理论基础是当名号出现在与地址相关的文档中 时,它几乎总是出现在文档中的地址之前。当分析候选词语时,可以根据统计模型确定候选词语是名号一部 分的概率,该概率给出了关于在前词语和候选词语周围的给定词语窗口 (例如,向左和向右寻找预定数量的词语)的预测。该概率的确定 基于候选词语和窗口中其他词语的特征。与候选词语相关的特征包括, 例如候选词语和地址之间的距离、候选词语的特点、候选词语与在前 或在后词语之间的边界信息、和/或候选词语与在前或在后词语之间的 标点信息。设t(i)(其值是0或1)是从地址开始往前第i个词语是(=1)或
不是(=0)名号中的词语的预测。设X(i)是第i个词语、S(i)是X(i)的属性(例如,距离和特点)、h(i)是x(i)与在后(或在前)词语之间的边 界信息、以及q(i)是x(i)与在后(或在前)词语之间的标点信息。则在这种上下文的约束下,X(i)是名号一部分的概率可以表示为F(i)=Prob[t(i)给定x(i+2)x(i+l)x(i)x(i-l)x(i-2), s(i+2)s(i+l)s(i)s(i-l)s(i-2), h(i+l)h(i)h(i-l)h(i-2), q(i+輔q(i-l)q(i-2),t(i國1)〗其中x(i+2)x(i+l)x(i)x(i-l)x(i-2)是指x(i)周围的词语窗口 (尽管词 语窗口被示为x(i)左边2个和右边2个词语,在符合本发明原理的其他 实施例中,窗口可以更大或更小)。s(i+2)s(i+l)s(i)s(i-l)s(i-2)指窗口中 词语的属性,h(i+1 )h(i)h(i-1 )h(i-2)指窗口中词语之间的边界信息, q(i+l)q(i)q(i-l)q(i-2)指窗口中词语之间的标点信息,以及t(i-l)指关于 在x(i)前面的词语(即,x(i-l))的预测。设X=x(n)x(n-l)...x(2)x(l),其中n指所考虑的文本串的大小(例 如,20个词),S=s(n)s(n-l),..s(2)s(l) , H=h(n-l)...h(2)h(l), Q-q(n-l)…q(2)q(l)以及T^(n)t(n-l)…t(2)t(l)。然后根据Prob(T给定X、 S、 H、 Q)确定整个串的概率。根据条件概率的定义和类Markov假设 (即,仅受局部范围影响),串的概率可以表示为Prob(T给定X、 S、 H、 Q)=kF(n)F(n-l)...F(2)F(l) 其中k是用于该范围的常数,并且其中等式左侧F(i)中的t(i)和t(i-l) 匹配等式的左侧T中的对应项。然后选择T,使得在T中所有的1都是相邻的约束下最大化Prob(T 给定X、 S、 H、 Q)。为此,对所有2n个T执行穷尽搜索并对每个T 估算Prob(T给定X、 S、 H、 Q)。为了恰好获得最佳名号,可使用公 知的单源最短路径算法。为了获得j个最佳名号,使用公知的j最佳算 法。
对所识别的每个候选名号可赋给置信度得分(框740)。置信度得分与名号所关联的概率有关(例如,Prob(T给定X、 S、 H、 Q))。 可选的,从候选名号集合内确定用于该地址的最佳名号(框750)。在 一个实施例中,用于该地址的最佳名号被识别为具有最高置信度得分 的候选名号。在另一实施例中,当地址出现在一组文档中时,用于该 地址的最佳名号被识别为在整个该组文档中具有最高置信度得分的候 选名号或出现在该组文档中大多数文档中的具有最高置信度得分的候 选名号。然后,把该名号与该地址相关联,以形成或补充企业登记信息。 在存储器中把地址和它相关的名号一起存储。图8是根据符合本发明原理的实施例的用于识别与地址相关联的 电话号码的示例性处理的流程图。处理开始于识别包含地址的文档(框 810)。任何已知地址识别技术都用于识别文档中的地址。识别文档中的候选电话号码集(框820)。在一个实施例中,文 档中的所有电话号码都被识别为候选电话号码。在另一实施例中,识 别该地址的特定距离内的电话号码。任何已知模型匹配技术都用于识 别候选电话号码集。根据统计模型,确定在给定关于在前候选电话号码的预测并给定 该候选电话号码周围的词语窗口 (例如,向左和右查看预定数量的词 语)的条件下每个候选电话号码与该地址相关联的概率(框830)。概 率确定可进一步根据与该候选电话号码相关的特征。特征包括(如上 所解释的),候选电话号码与该地址的距离、候选电话号码的特点、候选电话号码和该地址之间的边界信息和/或候选电话号码和该地址之 间的标点信息。按类似于上述参考名号的方式确定概率,其中在这里 的情况下,x(i)是指候选电话号码。
根据它们的确定概率将置信度得分指定给候选电话号码(框840)。
可选的,可以确定用于该地址的最佳电话号码(框850)。在一个实施 例中,地址的最佳电话号码被识别为具有最高置信度得分的候选电话 号码。在另一实施例中,当该地址出现在一组文档中时,该地址的最 佳电话号码被识别为在整个该组文档中具有最高置信度得分的候选电 话号码或出现在该组文档中大多数文档中的具有最高置信度得分的候 选电话号码。
然后,该电话号码与该地址相关联以形成或补充企业登记信息。 在存储器中把地址和其相关的电话号码存储在一起。
示例图9-15是解释根据符合本发明原理的实施例对示例性文档所执行 的示例性处理的示意图。如图9所示,该文档是与位于华盛顿特区的 Morton餐馆的概况相关的网页。可使用任何公知的地址识别技术来分 析网页以确定该网页包括邮政地址。如图10所示,地址对应于123 Connecticut Avenue, Washington, DC 20200。假设Morton不具有任何相 关联的黄页数据或可能具有不准确的黄页数据。
当试图识别与该地址相关的企业名(名号)时,搜索开始于紧接 着该地址前面的词语并向后搜索。在这种情况下,如图11所示,搜索 从词语"at"开始。确定在给定该候选词语周围的词语窗口、窗口中与 词语相关的特征、以及与之前词语相关的预测的条件下该候选词语"at" 是名号一部分的概率。该概率可以表示为F(at)=Prob[t(at)给定"visited Morton's at 123 Connecticut,"s(visited)s(Morton,s)s(at)s(123)s(Connecticut), h(Morton,s)h(at)h(123)h(Connecticut), q(Morton,s)q(at)q(123)q(Connecticut), O]"其中,例如s(at)指词语"at"的属性,h(at)指词语"at"和后面的 词语"Morton's"之间的边界信息,q(at)指词语"at"和后面的词语 "Morton's"之间的标点信息,以及"0"指关于在前词语的预测,在 这种情况下,对应该地址的一部分。尽管该简单示例采用对候选词语 左和右的两个词语的窗口,实践中窗口可更大或更小。与候选词语"at"相关的属性包括词语"at"与该地址的距离。在 该情况下,词语"at"紧邻地址前面。属性也包括词语"at"的特点。 在这种情况下,该词语是"at";它不是数字;它没被大写、粗体、斜 体、下划线或居中;它不是锚定文本的一部分;以及在长度上它有两 个字符。对于边界信息,假设词语"at"的左面(或右面)没有边界标 记。同样,词语"at"的左面(或右面)没有标点。假设该概率确定的 结果是预测词语"at"不是名号的一部分(例如,t(at)-O)。如图12所示,搜索继续至词语"Morton's"。确定在给出候选词 语周围的词语窗口、与窗口中词语相关的特征以及与之前词语相关的 预测的条件下该候选词语"Morton's"是名号一部分的概率。该概率可以表示为 P(Morton,s)=Prob[t(Morton,s)给定 "recently visited Morton's at 123," s(recently)s(visited)s(Morton,s)s(at)s(123), h(visited)h(Morton, s)h(at)h( 123), q(visked)q(Morton,s)q(at)q(123), 0]与词语"Morton's"相关的属性包括词语"Morton's"与该地址的 距离。在这种情况下,词语"Morton's"距该地址相隔一个词语。属性
也包括词语"Morton's"的特点。在这种情况下,该词语是"Morton's"; 它不是数字;它的第一个字符被大写;它不是大写、粗体、斜体、下 划线或居中;它不是锚定文本的一部分;以及在长度上它有8个字符。 对于边界信息,假设词语"Morton's"的左面(或右面)没有边界标记。 同样,词语"Morton's"的左面(或右面)没有标点。假设该概率判定 所产生的预测是词语"Morton's "是名号的 一 部分(例如, t(Morton,s)=l)。如图13所示,搜索继续至词语"visited"。确定在给出候选词语 周围的词语窗口、与窗口中词语相关的特征以及与之前词语相关的预 测的条件下该候选词语"visited"是名号一部分的概率。该概率可以表示为P(visited)=Prob[t(visited)给定"I recently visited Morton's at",s(I)s(recently)s(visited)s(Morton,s)s(at):h(recently)h(visited)h(Morton,s)h(at),q(recently)q(visited)q(Morton,s)q(at),l]与词语"visited"相关的属性包括词语"visited"与该地址的距离。 在这种情况下,词语"visited"离地址相隔两个词语。属性也包括词语 "visited"的特点。在这种情况下,词语是"visited";它不是数字; 它不是大写、粗体、斜体、下划线或居中;它不是锚定文本的一部分;以及在长度上它有七个字符。对于边界信息,假设词语"visited"的左 面(或右面)没有边界标记。同样,词语"visited"的左面(或右面) 没有标点。假设该概率判定的结果是词语"visited"不是名号的一部分 (例如,t(visited)=0)。一旦对每个候选词语是否是名号一部分进行预测(对于网页中的 某些词语集或网页中的所有词语),则考虑词语串的滑动以识别使得
词语串包括名号的概率最大的串。假设该处理识别词语"Morton's"为该地址的候选名号。如上所述,对该候选名号指定置信度得分。 当试图识别与地址相关的电话号码时,通过使用公知的模式匹配技术识别网页中的所有电话号码来开始搜索,如图14所示。在这种情 况下,识别两个候选电话号码202-987-6543以及202-987-6542。确定在给出候选电话号码周围的词语窗口、与候选电话号码相关 的特征以及与之前电话号码相关的预测的条件下的每个候选电话号码 是该地址的电话号码的概率。与候选电话号码相关的特征包括该电话 号码离该地址的距离。在这种情况下,这两个候选电话号码离地址大 约150词语。特征也包括在电话号码和地址之间是否有任何边界信息。 在这种情况下,在候选电话号码和地址之间存在两个段落边界。相关于电话号码的某些其他特征包括常用电话号码词语(例如, call、 calling 、 telephone 、 telephoning、 phone 、 phoning 、 tel、 tele、 (T)、 T等)是否出现在电话号码之前的预定数量的词语中,常用传真号码词 语(例如,fax、 faxing、 (F)、 F等等)是否出现在电话号码之前的预定 量数的词语中,在该词语和该地址之间是否有另一个电话号码。在这 种情况下,概率判定会导致这样的预测202-987-6543电话号码比 202-987-6542电话号码候选更有可能是该地址的电话号码。根据候选电话号码与地址相关联的概率对候选电话号码指定置信 度得分。如图15所示,使用具有最高置信度得分的名号和/或电话号码信 息来形成或补充与地址相关的企业登记信息。企业登记信息包括到与 企业相关文档的链接、企业的地址信息、企业的电话号码、提及企业 的文档的片断和/或一个或多个到涉及企业的文档的链接。
结论给出文档中的某些地标(例如,邮政地址),符合本发明原理的 系统和方法试图寻找该文档中的该地标的属性(例如企业信息,如企 业名、电话号码、营业时间或到网站或地图的链接等)。虽然上面的 描述集中于在文档中寻找与地址相关的企业信息,但也可不是这种情 况。在其他实施例中,上面的处理可以应用于其他地标和属性,如寻 找与产品(地标)相关的价格(属性)或产品识别号(属性)。文档 中出现的其他类型的地标和属性对本领域技术人员是容易理解的。上述本发明的优选实施例提供了图示和说明,但是穷举,也不是 将本发明限制于所公开的精确形式。根据上面的所述的启示,修改和 改变是可能的,并能从本发明的实施中获得。例如,虽然参考图5、 7和8描述了动作序列,在符合本发明原理 的其他实施例中可以修改动作的顺序。而且,可以并行执行非依赖的 各动作。同样,己经说明,候选词语是与地址相关的企业信息一部分的概 率居于诸如该词语周围的词语窗口、关于之前词语的预测以及与窗口 中一个或多个词语相关的属性、边界信息和标点的特征。在另一实施 例中,更多、更少或不同的特征可以用于预测候选词语是否是与地址 相关的企业信息的一部分。对本领域技术人员,很显然,上述本发明的各方面可以在图中所 示的实施例中按不同形式的软件、固件和硬件来实施。用于实施符合 本发明原理的各方面的实际软件代码或专用控制硬件并不限制本发 明。因此,描述各方面的操作和行为而不引用特定软件代码,本领域 技术人员可理解,能设计软件和控制硬件以实施根据这里说明的各方面o
本申请中所用的组件、操作或指令不应当理解为对本发明是关键 的或必要的,除非如此明确说明。同样,如这里所用,不带数量限定 的项是指包括一个项或多个项。当仅仅表示一个项时,使用词语"一 个"或类似语言。而且,短语"根据(基于)"用于表示"至少部分 的根据(基于)",除非明确说明了其他含义。
权利要求
1.一种方法,包括识别包含地址的文档;在所述文档中定位企业信息;对所述企业信息指定置信度得分,该置信度得分与所述企业信息同所述地址相关联的概率有关;根据所述指定的置信度得分确定是否把所述企业信息与所述地址相关联。
2.根据权利要求l的方法,其中企业信息对应于名号;以及其中在所述文档中定位企业信息包括分析在所述文档中该地址前面的多个词语,确定每个所述词语是与所述地址相关的名号的一部分的概率,以及根据具有高概率作为与该地址相关的名号的一部分的一个或多个 词语来识别候选名号。
3.根据权利要求2的方法,其中所述多个词语包括该文档中该地 址前面直接相邻的第一词语和在该文档中该第一词语前面的一个或多 个第二词语。
4.根据权利要求2的方法,其中确定每个所述词语包含在名号中 的概率包括预测词语之一是否是该名号的一部分,以及根据有关该词语之一的预测来预测另外一个词语是否是该名号的 一部分。
5.根据权利要求2的方法,其中所述词语之一包含在名号中的所 述概率基于该词语周围的词语窗口。
6. 根据权利要求2的方法,其中所述词语之一包含在名号中的所 述概率基于与另一个词语相关联的概率。
7. 根据权利要求2的方法,其中所述词语之一包含在名号中的概率基于与该词语相关的特征集。
8. 根据权利要求7的方法,其中所述特征集包括下述至少之一-该词语与该地址的距离、该词语的特点、该词语与前面或后面词语之 间的边界信息或该词语与前面或后面词语之间的标点信息。
9. 根据权利要求2的方法,其中所述词语之一包含在名号中的概 率通过统计模型来确定,该统计模型通过分析与具有已知地址和相关 联名号的多个文档相关联的特征而产生。
10. 根据权利要求1的方法,其中所述企业信息对应于名号;以及其中在文档中定位企业信息包括 分析所述文档中所述地址前面的多个词语,确定每个所述词语是与该地址相关的名号的一部分的概率,以及 根据具有高概率作为与该地址相关联的名号的一部分的一个或多 个词语组来识别多个候选名号。
11. 根据权利要求l的方法,其中所述企业信息对应于电话号码;以及其中在文档中定位企业信息包括 识别该文档中的候选电话号码集,以及确定该候选电话号码集中的每个候选电话号码与该地址相关联的 概率。
12. 根据权利要求ll的方法,其中候选电话号码之一与该地址相 关联的概率基于与该候选电话号码相关的特征集。
13. 根据权利要求12的方法,其中所述特征集包括下述至少之一 该候选电话号码与该地址之间的距离、该候选电话号码和该地址之间 的边界信息,常用电话号码词语是否出现在该候选电话号码之前,常 用传真号码词语是否出现在该候选电话号码之前,或该候选电话号码和该地址之间是否存在另一个候选电话号码。
14. 根据权利要求12的方法,其中候选电话号码之一与该地址相关联的概率根据统计模型来确定,该统计模型通过分析与具有已知地 址和相关电话号码的多个文档相关联的特征而产生。
15. 根据权利要求1的方法,其中企业信息与该地址相关联的概 率是根据统计模型确定的,该统计模型通过分析与具有已知地址和相 关企业信息的多个文档相关联的特征而产生。
16. 根据权利要求1的方法,其中企业信息至少包括名号、电话 号码、营业时间、或到与该地址相关的网站或地图的链接之一。
17. 根据权利要求1的方法,其中确定是否把所述企业信息与所述地址相关联包括分析该文档中的词语串;以及在各串中确定一个串,使该串中的词语包含所述企业信息的概率 最大。
18. 根据权利要求l的方法,进一步包括当所述企业信息与所述地址相关联,根据所述企业信息和所述地 址产生或补充企业登记信息。
19. 一种系统,包括 识别包括地址的文档的装置;在所述文档中定位一个或多个企业信息候选的装置; 向所述一个或多个企业信息候选指定置信度得分的装置,与一个企业信息候选相关联的所述置信度得分与所述企业信息候选同所述地址相关联的概率有关;根据所述指定的置信度得分确定是否把所述一个或多个企业信息候选之一和所述地址相关联的装置。
20. —种系统,包括 存储统计模型的存储器;以及 连接到所述存储器的处理器,用于 识别包括地址的文档; 识别该文档中的企业信息;根据所述统计模型预测所述企业信息是否与所述地址相关联; 根据所述预测确定是否把所述企业信息和所述地址相关联。
21. 根据权利要求20的系统,其中所述企业信息对应于名号;以及其中当识别该文档中的企业信息时,配置所述处理器用于分析该文档中该地址前面的多个词语,根据所述统计模型确定每个所述词语是与该地址相关的名号的一 部分的概率,以及根据具有高概率作为与该地址相关联的名号的一部分的一个或多 个词语来识别候选名号。
22. 根据权利要求21的系统,其中所述多个词语包括该文档中该地址前面直接相邻的第一词语和在该文档中该第一词语前面的一个或 多个第二词语。
23. 根据权利要求21的系统,其中当确定每个所述词语包含在名号中的概率时,配置所述处理器用于预测所述词语之一是否是名号的一部分,以及根据关于所述词语之一的预测来预测另外一个词语是否是该名号 的一部分。
24. 根据权利要求21的系统,其中所述词语之一包含在名号中的 概率基于该词语周围的词语窗口。
25. 根据权利要求21的系统,其中所述词语之一包含在名号中的 概率基于与另一个词语相关联的概率。
26. 根据权利要求21的系统,其中所述词语之一包含在名号中的 概率基于与该词语相关的特征集。
27. 根据权利要求26的系统,其中所述特征集包括下述至少之一 该词语与该地址的距离、词语的特点、该词语与前面或后面词语之间的边界信息或该词语与前面或后面词语之间的标点信息。
28. 根据权利要求20的系统,其中所述统计模型通过分析与具有 已知地址和相关名号的多个文档相关联的特征而产生。
29. 根据权利要求20的系统,其中所述企业信息对应于名号;以及其中当识别该文档中的企业信息,配置所述处理器用于-分析该文档中该地址前面的多个词语,确定每个所述词语是与该地址相关联的名号的一部分的概率,以及根据具有高概率作为与该地址相关联的名号的一部分的一个或多 个词语组来识别多个候选名号。
30. 根据权利要求20的系统,其中所述企业信息对应于电话号码;以及其中当在该文档中识别企业信息,配置所述处理器用于 识别该文档中候选电话号码集,以及根据所述统计模型确定所述候选电话号码集中的每个候选电话号 码与该地址相关联的概率。
31. 根据权利要求30的系统,其中候选电话号码之一与该地址相 关联的概率是基于与该候选电话号码相关的特征集。
32. 根据权利要求31的系统,其中所述特征集包括下述至少之一该候选电话号码与该地址之间的距离,该候选电话号码和该地址之间 的边界信息,常用电话号码词语是否出现在该候选电话号码之前,常 用传真号码词语是否出现在该候选电话号码之前,或该候选电话号码和该地址之间是否存在另一个候选电话号码。
33. 根据权利要求31的系统,其中所述统计模型通过分析与具有 已知地址和相关电话号码的多个文档相关的特征而产生。
34. 根据权利要求20的系统,其中所述统计模型通过分析与具有 已知地址和相关企业信息的多个文档相关的特征而产生。
35. 根据权利要求20的系统,其中企业信息至少包括名号、电话 号码、营业时间、或到与该地址相关的网站或地图的链接之一。
36. 根据权利要求20的系统,其中当确定是否把所述企业信息和 所述地址相关联时,配置所述处理器用于分析该文档中的词语串;以及在各串中确定一个串,使该串的词语包含所述企业信息的概率最 大。
37. 根据权利要求20的系统,其中进一步配置所述处理器,使得当所述企业信息与所述地址相关联时根据所述企业信息和所述地址产 生或补充企业登记信息。。
38. —种方法,包括识别包括地址的文档;识别在该文档中该地址前面的多个词语;确定每个所述词语是与该地址相关联的名号的一部分的概率; 根据具有高概率作为与该地址相关联的名号的一部分的一个或多个词语来识别候选名号;向所述候选名号指定置信度得分;根据所指定的置信度得分确定是否把所述候选名号与所述地址相 关联。
39. —种方法,包括 识别包括地址的文档; 识别该文档中的候选电话号码集;确定所述候选电话号码集中的每个候选电话号码与该地址相关的 概率;根据所确定的概率来确定是否把所述候选电话号码之一与所述地 址相关联。
40. —种方法,包括 识别包括地标的网页; 识别该网页中的属性;向所述属性指定置信度得分,所述置信度得分与所述属性同所述 地标相关联的概率有关;以及根据所指定的置信度得分,确定是否把所述属性与所述地标相关 联。
41. 根据权利要求40的方法,其中所述地标对应于邮政地址,并 且所述属性对应于有关名号、电话号码、营业时间、或到与该邮政地 址相关的网站或地图的链接之一的信息。
42. 根据权利要求40的方法,其中所述地标对应于产品并且所述属性对应于价格或产品识别号。
全文摘要
用于识别包含地址的文档并在文档中定位企业信息的系统。该系统向所述企业信息指定置信度得分,其中置信度得分与该企业信息同该地址相关联的概率有关。该系统根据指定的置信度得分确定是否把该企业信息与该地址相关联。
文档编号G06F17/30GK101128819SQ200580048639
公开日2008年2月20日 申请日期2005年12月30日 优先权日2004年12月30日
发明者迈克尔·丹尼斯·赖利 申请人:谷歌公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1