从网页中抽取对象标识符的系统及方法

文档序号:6655078阅读:181来源:国知局
专利名称:从网页中抽取对象标识符的系统及方法
技术领域
本发明总的来说涉及与信息处理和信息抽取技术,且更具体地,涉及用于从网页中识别和抽取对象标识符的系统及方法。
背景技术
在当前的信息处理技术领域中,常常需要构建对象数据库,这就涉及要为对象生成和对象映射提供带有层次结构的对象标识符,表示对象并建立索引。这里,需要处理的对象通常涉及互联网上的网页。现实世界中的对象都有其唯一的对象标识符(即名字),当然,也可以用其它别名或约定俗成的简称表示对象标识符,比如,不同网页中同一对象的名字不尽相同的现象普遍存在。而在同一网页中,对同一对象的表示通常是一致的。为实现对象数据库的建立以及对象映射,对象应当具有唯一且一致的·对象标识符,这里该对象标识符可以是不完整的。对象的名字可以标识产品对象,但只用名字来表示对象可能带来歧义,因为有时多个产品的名字可能会非常相似,此时就需要一些辅助信息来帮助标识产品对象。因此,用来表示产品对象的名字以及这类辅助信息通常被称为对象标识符相关信息,且该对象标识符相关信息会被包含在网页中。在“Web page title extraction and its application, Yewei Xue,Yunhua Hu. Information Processing & Management, Vol.43, No. 5. September 2007,PP. 1332-1347”中,公开了一种网页标题抽取及其应用的技术。在上述文献当中,使用了监督学习方法SVM和CRF从HTML文档中抽取网页标题,其中,网页标题的抽取采用的特征为基于DOM树和基于视觉信息的。此外,在“US6910004 B2 Method and computer system for part-of-speechtagging of incomplete sentences,Xerox”中,公开了一种计算机实现的不完整语句的词性标注方法和系统。在上述文献当中,提供了一种使用标识符和人工上下文信息来对短语进行词性标注的方法,其中的短语为词语的集合。另外,在 “Namelt !Extraction of product names, Gerhard Friedrich,Kostyantyn Shchekotykhin. Sixth IEEE International Conference on Data Mining-Workshops ICDMT 06”中公开了一种抽取产品名的技术。在上述文献当中,主要提供了从网页中获取产品名的方法,其首先从网页的“ TITLE ”标签和“ A”标签中的内容中提取产品名信息,然后移除两种噪声网站相关噪声和产品特征相关噪声,之后经过聚类整合为产
P Ay
ρπ-α ο但是,以上涉及的现有技术主要具有以下缺点首先,在上述文献中公开的网页标题或者产品名的抽取方法中,仅采用DOM树和视觉信息的特征可能不能够满足抽取对象标识符相关信息的精度。并且,对于上述抽取出的对象标识符相关信息,还需要进行进一步的噪声清除和标识符单元标注处理来得到对象标识符。综上所述,实际上网页中对象标识符的抽取所涉及的是对象标识符如何定义的问题,以及定义之后,如何识别出对象标识符的问题。理想情况下,网页的标题即为其所谈论的对象的标识符。而实际情况中,标题可能含有部分对象标识符相关信息,需要进行噪声清除和单元标注等后续处理才能得到对象标识符。并且,单一网页提供的对象标识符相关信息不够全面,需要对来自多网页的对象标识符相关信息进行整合以得到对象标识符。因此,针对上述现有技术中的问题,需要提供一种从网页中抽取对象标识符的系统及方法,能够提高从网页中抽取对象标识符相关信息的精度,并且能够有效地对抽取出的对象标识符相关信息进行噪声清除和单元标注等后续处理,以便得到构建对象数据库所需的对象标识符。

发明内容
因此,本发明的目的是解决上述现有技术中的一个或多个问题和缺点。本发明的目的是提供了从网页中抽取对象标识符的系统和方法,其能够基于对象 标识符相关信息中每个单词的位置信息或内容信息或其两者,对抽取出的对象标识符相关信息进行噪声清除处理,以获得满足构建对象数据库的需求的标识符片段。本发明的目的还在于提供了从网页中抽取对象标识符的系统和方法,其能够基于词频和互信息的方法将抽取出的标识符片段标注为4-单元链,以满足构建对象数据库的需求。本发明的目的还在于提供了从网页中抽取对象标识符的系统和方法,其能够不仅采用了 DOM树和视觉信息的特征,还通过对内容信息的判断来从网页中抽取包含对象标识符相关信息的标识符块,从而提高了对象标识符相关信息的抽取精度。根据本发明的一个方面,提供了从网页中抽取对象标识符的系统,其中,所述网页包含表示所述对象标识符的各种信息的对象标识符相关信息,所述系统包括标识符块识别模块,用于从网页中识别标识符块,所述标识符块是包含所述对象标识符相关信息的一段文本;标识符片段抽取模块,与所述标识符块识别模块连接,用于根据所述标识符块识别模块识别出的标识符块中每个单词的位置信息和内容信息的至少其中之一,来从所述标识符块中移除无用信息,以得到标识符片段;以及标识符单元标注模块,与所述标识符片段抽取模块连接,用于将所述标识符片段抽取模块抽取出的标识符片段标注为适于构建对象数据库的对象标识符。上述系统进一步包括缺失单元补充模块,与所述标识符片段抽取模块和所述标识符单元标注模块连接,用于将所述标识符片段抽取模块从多个网页中抽取的标识符片段进行整合以形成整合后的标识符片段,并将所述整合后的标识符片段输出到所述标识符单元标注模块以由所述标识符单元标注模块标注为适于构建对象数据库的对象标识符。上述系统进一步包括标识符匹配模块,与所述标识符单元标注模块连接,用于根据所述标识符单元标注模块标注出的对象标识符识别出表示同一产品对象的对象标识符。在上述系统中,所述标识符块识别模块包括网页处理单元,用于处理网页以得到DOM树和视觉信息;视觉信息计算单元,与所述网页处理单元连接,用于根据DOM中的每个节点的视觉信息来计算所述节点的权重;结构信息计算单元,与所述网页处理单元连接,用于根据DOM中的每个节点的结构信息来计算所述节点的权重;内容信息计算单元,与所述网页处理单元连接,用于根据DOM中的每个节点的内容信息来计算所述节点的权重;以及加权选择单元,与所述视觉信息计算单元、所述结构信息计算单元和所述内容信息计算单元连接,用于根据由所述视觉信息计算单元、所述结构信息计算单元和所述内容信息计算单元对DOM树中的每个节点所计算的权重,来选择权重较高的节点作为所述标识符块。在上述系统中,所述视觉信息计算单元用于对于拥有相同横坐标或者相同纵坐标的不可能为标识符块的节点,给予较小的权重;使用二维的高斯函数评价文本节点在网页中的位置H(U,V) = e_J°(M,V) /2σ D(u,V)=各-W0 )2 +(V-V0)2
,
权利要求
1.一种从网页中抽取对象标识符的系统,其中,所述网页包含表示所述对象标识符的各种信息的对象标识符相关信息,所述系统包括 标识符块识别模块,用于从网页中识别标识符块,所述标识符块是包含所述对象标识符相关信息的一段文本; 标识符片段抽取模块,与所述标识符块识别模块连接,用于根据所述标识符块识别模块识别出的标识符块中每个单词的位置信息和内容信息的至少其中之一,来从所述标识符块中移除无用信息,以得到标识符片段;以及 标识符单元标注模块,与所述标识符片段抽取模块连接,用于将所述标识符片段抽取模块抽取出的标识符片段标注为适于构建对象数据库的对象标识符。
2.根据权利要求I所述的系统,进一步包括 缺失单元补充模块,与所述标识符片段抽取模块和所述标识符单元标注模块连接,用于将所述标识符片段抽取模块从多个网页中抽取出的标识符片段进行整合以形成整合后的标识符片段,并将所述整合后的标识符片段输出到所述标识符单元标注模块以由所述标识符单元标注模块标注为适于构建对象数据库的对象标识符。
3.根据权利要求I所述的系统,进一步包括 标识符匹配模块,与所述标识符单元标注模块连接,用于根据所述标识符单元标注模块标注出的对象标识符识别出表示同一产品对象的对象标识符。
4.根据权利要求I所述的系统,其中,所述标识符块识别模块包括 网页处理单元,用于处理网页以得到DOM树和视觉信息; 视觉信息计算单元,与所述网页处理单元连接,用于根据DOM中的每个节点的视觉信息来计算所述节点的权重; 结构信息计算单元,与所述网页处理单元连接,用于根据DOM中的每个节点的结构信息来计算所述节点的权重; 内容信息计算单元,与所述网页处理单元连接,用于根据DOM中的每个节点的内容信息来计算所述节点的权重;以及 加权选择单元,与所述视觉信息计算单元、所述结构信息计算单元和所述内容信息计算单元连接,用于根据由所述视觉信息计算单元、所述结构信息计算单元和所述内容信息计算单元对D OM树中的每个节点所计算的权重,来选择权重较高的节点作为所述标识符块。
5.根据权利要求4所述的系统,其中,所述内容信息计算单元用于 以如下公式计算节点内容与“TITLE”标签文本内容的相似度, sim (e,etitle) = | {wk | wk e e & wk e etitlJ / (log (| e |)+log (| etitle |)), 其中e表示节点的内容,etitle表示“TITLE”标签的内容,w代表节点中的一个单词;如果所述网页是产品规格说明页面,则对节点中的每个单词使用下列正则表达式进行匹配“(
+ [A-z]+)+
*”, “([A-z] +
+) + [A-z]*,,, “(
+ [_] {0,1} [A-z] + [-] {O, I})+
*,,, “([A-z] + [_] {0,1}
+ [_] {0,1}) + [Α-ζ]*”,其中每个正则表达式表示电子产品的产品名所具有的普遍规律;以及 对节点中具有较高词频的单词赋予较高的权重。
6.根据权利要求I所述的系统,其中,所述标识符片段抽取模块用于 判断所述标识符块中的每个单词是否出现在句首的大小为5的窗口中,如果是则单词打分为I,否则打分为O; 判断所述标识符块中的每个单词是否可以在通用的字典中找到,如果是则单词打分为O,否则打分为I ; 如果所述网页是产品规格说明页面,则判断所述标识符块中的每个单词是否匹配特定的正则表达式,如果是则单词打分为1,否则打分为O,其中所述正则表达式表示电子产品的产品名所具有的普遍规律;以及 将所述标识符块中分数超过两个O分的单词移除; 其中,所述标识符块中多组没有被移除单词分隔开的连续单词将组成一系列标识符单元,以形成标识符片段。
7.根据权利要求I所述的系统,其中,所述标识符单元标注模块用于 如果所述网页是产品规格说明页面,则将所述标识符片段标注为4-单元链,即,{类另U,生产商,产品名,属性}。
8.根据权利要求7所述的系统,其中,所述标识符片段由一系列标识符单元单元O,单元1,...,单元η组成,且所述标识符单元标注模块用于 假设单元O是生产商单元,计算单元O和单元I之间的互信息如果互信息为O,则确定生产商单元为单元O,如果互信息为1,则确定生厂商单元为(单元O,单元I); 假设词频最高的单词属于产品名单元,计算单元I和单元k+Ι之间的互信息如果所述互信息小于某个阈值,则确定产品名单元为(单元1,单元2,...,单元k+Ι),其中O < k< 5 ;以及 确定属性单元为(单元k+2, · · ·,单元η) ο
9.根据权利要求I所述的系统,其中,当所述系统用于处理包含多个对象的对象标识符相关信息的网页时,进一步包括 标识符块分类单元,与所述标识符块识别单元与所述标识符片段抽取模块连接,用于将所述标识符块识别单元识别出的多个对象的标识符块针对每一对象进行分类,以用于由所述标识符片段抽取模块从与每一对象对应的标识符块中抽取标识符片段。
10.一种从网页中抽取对象标识符的方法,包括步骤 从网页中识别标识符块,其中所述网页包含表示所述对象标识符的各种信息的对象标识符相关信息,且所述标识符块是包含所述对象标识符相关信息的一段文本; 根据所述识别出的标识符块中每个单词的位置信息和内容信息的至少其中之一,来从所述标识符块中移除无用信息,以得到标识符片段;以及 将所述标识符片段标注为适于构建对象数据库的对象标识符。
全文摘要
公开了从网页中抽取对象标识符的系统和方法。所述系统包括标识符识别模块,用于从网页中识别标识符块,所述网页包含表示对象标识符的各种信息的对象标识符相关信息,且标识符块是包含对象标识符相关信息的一段文本;标识符片段抽取模块,与标识符识别模块连接,用于根据标识符识别模块识别出的标识符块中每个单词的位置信息和内容信息的至少其中之一,来从标识符块中移除无用信息,以得到标识符片段;以及标识符单元标注模块,与标识符片段抽取模块连接,用于将标识符片段抽取模块抽取出的标识符片段标注为适于构建对象数据库的对象标识符。
文档编号G06F17/30GK102722489SQ20111007836
公开日2012年10月10日 申请日期2011年3月30日 优先权日2011年3月30日
发明者姜珊珊, 孙军, 谢宣松, 赵立军, 郑继川 申请人:株式会社理光
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1