对准文档的字段的注解的制作方法

文档序号:6485397阅读:128来源:国知局
对准文档的字段的注解的制作方法
【专利摘要】本发明提供了对准文档的字段的注解的方法和系统。访问训练信息,该训练信息包括关于与针对文档类型的文档的训练群集相关联的多个字段中的每个的特征的第一测量信息的。以第一名称对第一训练群集进行注解并且以第二名称对第二训练群集进行注解。基于训练信息生成电子分类模型。访问用于与新文档的新群集相关联的字段的特征的第二测量信息。基于第二测量信息使用分类模型对新群集中的每个自动地注解。例如,以第一名称对具有第一字段类型的字段的第一新群集进行注解并且以第二名称对具有第二字段类型的字段的第二新群集进行注解。
【专利说明】对准文档的字段的注解
【背景技术】
[0001]存在用于以适当名称对文档中对信息进行注解的自动或人工的各种类型的技术。例如,存在对来自单个站点的信息进行定位、对来自单个站点的定位的信息进行分析和注解的自动技术。然后针对第二 web站点再次重复整个过程。然而,这些自动化技术导致不同的名称用于相同类型的字段,因为它们在web站点中使用提示来确定名称。例如,一个web站点可以将一个类型的字段当作用户,另一 web站点可以将相同类型的字段当作作者,并且第三web站点可以将相同类型的字段当作发帖者(poster)。在另一示例中,一个web站点可以将字段当作标题并且另一 web站点可以将相同类型的字段当作主题。
[0002]也存在依赖于人工过程的技术。例如,个人可以人工地考察web站点并且找到到作者的web页面的链接以及到作者的名称的另一链接。
【专利附图】

【附图说明】
[0003]图1描绘了根据一个实施例的、在一个时段上与组织相关联的多个用户生成的历史事件数据。
[0004]图1描绘了根据一个实施例的、用于对准文档的字段的注解的系统。
[0005]图2描绘了根据一个实施例的、针对web站点的论坛发帖(post)以及相关联的DOM。
[0006]图3描绘了根据各种实施例的三个图。
[0007]图4描绘了根据一个实施例的、对准文档的字段的注解的方法的流程图。
[0008]除非特别注明,在该简短描述中参考的图不应被理解为按比例绘制。
【具体实施方式】
[0009]现在将详细地做出对主题的各种实施例的参考,在附图中图示其示例。虽然本文讨论了各种实施例,但是将理解不意图将它们限制到这些实施例。反之,意图使呈现的实施例涵盖可以被包括在如通过所附权利要求书限定的各种实施例的精神与范围之内的替代、修改以及等同。更进一步地,在下文的实施例的描述中,记载了许多具体的细节以便提供本主题的实施例的彻底的理解。然而,可以在没有这些具体细节的情况下实行实施例。在其他情况下,没有详细描述众所周知的方法、过程、部件以及电路,从而没有不必要地模糊描述的实施例的方面。
[0010]除非特别声明,否则如从以下讨论显而易见的那样,应理解贯穿实施例的描述,利用诸如“检测”、“确定”、“操作”、“使用”、“访问”、“比较”、“相关联”、“删除”、“添加”、“更新”、“接收”、“传输”、“输入”、“输出”、“创建”、“获得”、“执行”、“存储”、“生成”、“注解”、“提取”、
“引起”、“变换数据”、“修改数据来变换计算机系统的状态”等等的术语的讨论是指计算机系统、数据存储系统、存储系统控制器、微控制器、处理器或者类似的电子计算设备或者这样的电子计算设备的组合的动作和过程。计算机系统或类似的电子计算设备被表示为在计算机系统的/设备的寄存器和存储器之内的物理(电子)量的数据进行操纵以及变换成类似地被表示为在计算机系统的/设备的存储器或寄存器或其他这样的信息存储、传输或显示设备之内的物理量的其他数据。
[0011]综述
根据各种实施例,提供了用于对准文档的字段的注解的一种方法与系统。例如,属于相同类型的文档的多个文档被用于基于通过分析文档获得的训练信息来生成电子分类模型。文档类型的示例包括新闻、游戏、发票以及信息技术。在该情况下,针对CNN、BBC以及纽约时报的文档是相同类型的文档的示例,因为它们全部是新闻类型文档。
[0012]如本文讨论的,页面可以具有与字段相关联的名称。如在以下的表1中描绘的。
[0013]表1描绘了训练web页面的字段类型
【权利要求】
1 .一种对准文档的字段的注解的方法,所述方法包括: 访问包括关于与针对文档类型的文档的训练群集相关联的多个字段中的每个的特征的第一测量信息的训练信息,其中以第一名称对与第一字段类型相关联的第一训练群集进行注解,并且以第二名称对与第二字段类型相关联的第二训练群集进行注解; 基于训练信息生成电子分类模型; 访问针对与新文档的新群集相关联的字段的特征的第二测量信息;以及基于第二测量信息使用分类模型由计算机系统执行对新群集中的每个进行自动地注解,其中以第一名称对具有第一字段类型的字段的第一新群集进行注解并且以第二名称对具有第二字段类型的字段的第二新群集进行注解。
2.如权利要求1所述的方法,其中所述方法进一步包括: 基于在与新文档相关联的字段之间的相似性测量生成新群集。
3.如权利要求2所述的方法,其中生成新群集进一步包括: 基于表示包括针对与新文档相关联的字段中的每个的子树的新文档的分层树结构生成新群集。
4.如权利要求2所述的方法,其中新群集的生成进一步包括: 基于针对与新文档相关联的字段中的每个的特征的测量生成新群集。
5.如权利要求1所述的方法,其中所述方法进一步包括: 访问针对与附加的新文档的附加新群集相关联的字段的特征的第三测量信息;以及基于第三测量信息使用分类模型由计算机系统执行对附加新群集中的每个进行自动地注解,其中以第一名称对具有第一字段类型的字段的第一附加新群集进行注解,并且以第二名称对具有第二字段类型的字段的第二附加新群集进行注解。
6.一种用于对准文档的字段的注解的系统,所述系统包括: 计算机处理器; 字段特征测量部件,其被配置用于访问群集并且被配置用于生成关于与群集相关联的多个字段中的每个的特征的测量信息,其中每个群集与同文档类型的文档相关联的字段的不同类型相关联; 群集分类部件,其被基于训练信息生成的分类模型配置,其中训练信息包括关于与针对文档类型的训练文档的注解的训练群集相关联的多个字段中的每个的特征的第一测量信息,其中以第一名称对第一注解的训练群集进行注解,因为第一注解的训练群集的字段与第一字段类型相关联,并且以第二名称对第二注解的训练群集进行注解,因为第二注解的训练群集的字段与第二字段类型相关联;以及 群集分类部件,其被配置用于访问针对与文档类型的新文档的第一与第二新群集相关联的字段的特征的第二测量信息,并且被配置用于基于第二测量信息使用分类模型自动地注解新群集中的每个,其中以第一名称对具有第一字段类型的字段的第一新群集进行注解并且以第二名称对具有第二字段类型的字段的第二新群集进行注解。
7.如权利要求6所述的系统,其中系统进一步包括字段到群集分配部件,其被配置用于基于在字段之间的相似性测量生成与文档相关联的群集。
8.如权利要求7所述的系统,其中字段到群集分配部件进一步被配置用于基于在针对与新文档相关联的字段中的每个的子树之间的相似性测量生成新群集,其中子树与表示新文档的分层树结构相关联。
9.如权利要求8所述的系统,其中相似性测量是在子树中的两个之间的编辑距离。
10.如权利要求7所述的系统,其中字段到群集分配部件进一步被配置用于基于针对与新文档相关联的字段中的每个的特征的测量生成新群集。
11.如权利要求6所述的系统,其中所述系统进一步包括信息提取部件,其被配置用于从与第一名称以及第二名称相关联的新文档提取信息。
12.非瞬时性计算机可读存储介质,其具有存储在其上的用于使得计算机系统来执行对准文档的字段的注解的方法的计算机可执行指令,所述方法包括: 访问包括关于与针对文档类型的文档 的训练群集相关联的多个字段中的每个的特征的第一测量信息的训练信息,其中以第一名称对与第一字段类型相关联的第一训练群集进行注解,并且以第二名称对与第二字段类型相关联的第二训练群集进行注解; 基于训练信息生成电子分类模型; 访问针对与新文档的新群集相关联的字段的特征的第二测量信息;以及基于第二测量信息使用分类模型由计算机系统执行对新群集中的每个进行自动地注解,其中以第一名称对具有第一字段类型的字段的第一新群集进行注解并且以第二名称对具有第二字段类型的字段的第二新群集进行注解。
13.如权利要求12所述的非瞬时性计算机可读存储介质,其中新群集的生成进一步包括: 基于在针对与新文档相关联的字段中的每个的子树之间的相似性测量生成新群集,其中子树与表示新文档的分层树结构相关联。
14.如权利要求13所述的非瞬时性计算机可读存储介质,其中相似性测量是在子树对之间的编辑距离。
15.如权利要求12所述的非瞬时性计算机可读存储介质,其中新群集的生成进一步包括: 基于针对与新文档相关联的字段中的每个的特征的测量生成新群集。
【文档编号】G06F17/00GK103999079SQ201180075990
【公开日】2014年8月20日 申请日期:2011年10月27日 优先权日:2011年10月27日
【发明者】S.戈兰, O.巴科尔, R.伯格曼, I.科亨, G.诺伊 申请人:惠普发展公司,有限责任合伙企业
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1