技术总结
本发明实施例提供一种网页处理装置和网页处理方法,用于在实体网页中嵌入资源描述框架属性(RDFa),该装置包括:第一识别单元,其用于识别网页的实体类型,所述实体类型对应有至少一个RDFa;第一划分单元,其基于所述网页的视觉结构以及所述实体类型,将所述网页划分为至少一个语义片段;第一确定单元,根据预先确定的语义片段与RDFa的对应关系,确定所述网页中每个语义片段所对应的所述实体类型中的RDFa,其中,所述对应关系是基于网页检索所获得的训练网页而确定的;以及嵌入单元,其用于在所述网页的每个语义片段中嵌入对应的RDFa。根据本发明实施例,无需对训练网页进行预先的人工标注,从而节省时间和人力,并且具有良好的扩展性。
技术研发人员:方瑞玉;缪庆亮;房璐;孟遥
受保护的技术使用者:富士通株式会社
文档号码:201510172386
技术研发日:2015.04.13
技术公布日:2016.11.23