网页处理装置和网页处理方法与流程

文档序号:11830055阅读:来源:国知局

技术特征:

1.一种网页处理装置,用于在实体网页中嵌入资源描述框架属性,该装置包括:

第一识别单元,其用于识别网页的实体类型,所述实体类型对应至少一个资源描述框架属性;

第一划分单元,其基于所述网页的视觉结构以及所述实体类型,将所述网页划分为至少一个语义片段;

第一确定单元,根据预先确定的语义片段与资源描述框架属性的对应关系,确定所述网页中每个语义片段所对应的资源描述框架属性,其中,所述对应关系是基于网页检索所获得的训练网页而确定的;以及

嵌入单元,其用于在所述网页的每个语义片段中嵌入对应的资源描述框架属性。

2.如权利要求1所述的网页处理装置,其中,所述第一划分单元包括:

第二识别单元,其用于识别所述网页中的触发词;其中,所述触发词用于描述所述实体类型对应的资源描述框架属性的属性名称,并且用于引导所述实体类型对应的资源描述框架属性的属性值;

第二划分单元,其根据该触发词在所述网页的树状结构中所处的第一节点的位置,以及所述树状结构中与所述第一节点处于同一层次的第二节点的位置,将所述页面划分为至少一个语义片断。

3.如权利要求2所述的网页处理装置,其中,所述第二识别单元包括:

提取单元,其根据所述实体类型中的资源描述框架属性所对应的谓语,提取包含该谓语的文本片断;

第三识别单元,其用于从包含该谓语的文本片断中识别出将所述谓语作为所述触发词的文本片断。

4.如权利要求1所述的网页处理装置,其中,所述装置还包括第二确定单元,其用于确定语义片段与资源描述框架属性的对应关系。

5.如权利要求4所述的网页处理装置,其中,所述第二确定单元包括:

检索单元,其用于检索与知识库中的主语相关的网页,作为所述训练网页;

第四识别单元,其用于识别每一个训练网页的实体类型;

第三划分单元,其用于将每一个训练网页都划分为至少一个语义片断;

第一生成单元,其用于根据对全部训练网页的语义片断的划分结果,生成所述语义片断与所述语义片断中包含的谓语的对应关系;

第二生成单元,其用于根据所述语义片断与所述谓语的对应关系,以及谓语与资源描述框架属性的对应关系,生成所述语义片段与资源描述框架属性的对应关系。

6.如权利要求5所述的网页处理方法,其中,所述检索单元包括;

第三生成单元,其用于生成与所述主语相关的查询语句集合;

检索子单元,其用于根据所述查询语句集合进行检索,以得到检索网页集合;

过滤单元,其用于过滤所述检索网页集合中的噪声网页,得到所述训练网页。

7.一种网页处理方法,用于在实体网页中嵌入资源描述框架属性,该方法包括:

识别网页的实体类型,所述实体类型对应至少一个资源描述框架属性;

基于所述网页的视觉结构以及所述实体类型,将所述网页划分为至少一个语义片段;

根据预先确定的语义片段与资源描述框架属性的对应关系,确定所述网页中每个语义片段所对应的资源描述框架属性,其中,所述对应关系是基于网页检索所获得的训练网页而确定的;以及

在所述网页的每个语义片段中嵌入对应的资源描述框架属性。

8.如权利要求7所述的网页处理方法,其中,将所述网页划分为至少一个语义片段包括:

识别所述网页中的触发词,其中,所述触发词用于描述所述实体类型所对应的资源描述框架属性的属性名称,并且用于引导所述实体类型中的资源描述框架属性的属性值;以及

根据该触发词在所述网页的树状结构中所处的第一节点的位置,以及所述树状结构中与所述第一节点处于同一层次的第二节点的位置,将所述页面划分为至少一个语义片断。

9.如权利要求8所述的网页处理方法,其中,识别所述网页中的触发词包括:

根据所述实体类型中的资源描述框架属性所对应的谓语,提取包含该谓语的文本片断;以及

从包含该谓语的文本片断中识别出将所述谓语作为所述触发词的文本片断。

10.如权利要求7所述的网页处理方法,其中,预先确定语义片段与资源描述框 架属性的对应关系包括:

检索与知识库中的主语相关的网页,作为所述训练网页;

识别每一个训练网页的实体类型,并将每一个训练网页都划分为至少一个语义片断;

根据对全部训练网页的语义片断的划分结果,生成所述语义片断与所述语义片断中包含的谓语的对应关系;

根据所述语义片断与所述谓语的对应关系,以及谓语与资源描述框架属性的对应关系,生成所述语义片段与资源描述框架属性的对应关系。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1