网页处理装置和网页处理方法与流程

文档序号:11830055阅读:来源:国知局
技术总结
本发明实施例提供一种网页处理装置和网页处理方法,用于在实体网页中嵌入资源描述框架属性(RDFa),该装置包括:第一识别单元,其用于识别网页的实体类型,所述实体类型对应有至少一个RDFa;第一划分单元,其基于所述网页的视觉结构以及所述实体类型,将所述网页划分为至少一个语义片段;第一确定单元,根据预先确定的语义片段与RDFa的对应关系,确定所述网页中每个语义片段所对应的所述实体类型中的RDFa,其中,所述对应关系是基于网页检索所获得的训练网页而确定的;以及嵌入单元,其用于在所述网页的每个语义片段中嵌入对应的RDFa。根据本发明实施例,无需对训练网页进行预先的人工标注,从而节省时间和人力,并且具有良好的扩展性。

技术研发人员:方瑞玉;缪庆亮;房璐;孟遥
受保护的技术使用者:富士通株式会社
文档号码:201510172386
技术研发日:2015.04.13
技术公布日:2016.11.23

当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1