网络信息语义结构识别方法和装置的制作方法

文档序号:6466247阅读:133来源:国知局
专利名称:网络信息语义结构识别方法和装置的制作方法
技术领域
本发明属于计算机科学技术领域语义网络分支,具体涉及一种网络信息语义结构识别方 法,适用于网络信息提取、全文搜索和语义搜索、商业情报挖掘、信息聚合、网络知识库建 立等应用领域。
背景技术
随着Internet和Web的长足发展,网络上的信息呈爆炸式增长,人们除了从传统媒介上 获取知识和信息以外,越来越习惯于在网络上寻求帮助,全文搜索技术实现了人们检索网络 信息的愿望,只要输入几个关键字,就可以迅速地获得含有这几个关键字的信息。然而,即 使有了搜索工具,人们还是感受到自己慢慢地在网络信息海洋中迷失了方向,找到自己关心 的信息和知识变得越来越困难,因为遭受越来越多的不相干的噪音信息所干扰,这些信息包 含査找的关键字,但是内容是不相干的。人们希望出现一种智能工具,根据用户的意愿帮助 人们摈除噪音,筛选出真正需要的信息来。自计算机发明以来,社会生产力大大提高,它将 人类从单调的繁杂的程式化的劳动中解放出来,使人们专注于创造性的活动,网络信息搜索 也是由计算机承担的,因此,人们自然而然的想到改进计算机算法,使其变成人们的智能信 息助理。
人工智能的研究有着悠久的历史,甚至在计算机出现之前,人们就在尝试人造的智能活 动。用人工智能帮助人们在网络上寻找目标信息是最理想的方法,人只有一个大脑用于思考, 如果有了很多人造大脑在网络上进行思考并筛选信息,显然效率和效能是倍增的。然而从学 术性的和技术性的实验结果推测,实现这种理想愿望还比较遥远。
实际上,计算机对信息的处理并不局限于知识理解,例如,数据库技术发展到今天已经 相当成熟了,几乎应用于现代所有的生产活动中。从表面上看,数据库具有相当高的智能, 例如,在数据库表中存了一串数字,数据库系统知道这串数字是一个电话号码,它就不会当 成日期或者商品数量进行处理,看起来它理解了这串数字的含义。从深层次的技术实现角度 看,它是从数据库中的语义结构信息(即数据库的Schema)中获得了指示,它并不是像人 类思维一样根据语义环境将这串数字理解成电话号码,而是数据库Schema规定它这样使用 的。由此可见语义结构在信息处理领域的重要性,可以想象如果网络页面上有语义结构信息,即使计算机不知道一串号码能够干什么,当用户搜索电话号码时搜索系统不会塞给用户一堆 商品统计数量。
但是,现有网络上的绝大多数信息是呈现给人们阅读的,传送到用户终端上的信息是使 用HTML排版的,里面绝大多数是排版信息(跟排版有关的语义),却少有关于内容的语义 信息。就像专家总结的对于内容语义而言,现有的网络信息是无结构的或者是弱结构的。 可见,如果把这些信息的有关内容的语义结构识别和提取出来,现有的Web就变成了一个巨 大的数据库,它至少能够分清一串数字是电话号码还是商品数量。然而,网络不像一个单一 的商业数据库,它为人类生活方方面面提供服务,因此,为现有的网络信息建立语义结构不 是一蹴而就的事, 一种解决方案是人们各自将感兴趣的领域的语义结构定义出来, 一开始这 些领域语义结构之间是不相通的孤岛,随着语义结构的延展和生长,孤岛将逐渐打通,形成 一张所谓的语义网络,理想情况下,这张网络覆盖了网络信息内容的所有语义范围。
本发明公开了一种方法和装置,它能够使所有热衷于网络语义结构定义和知识整理的人 们投入到语义网络的建设中来,本发明定义和识别出的网络页面信息的语义结构可以被信息 提取、全文搜索和语义搜索、商业情报挖掘、信息聚合、网络知识库等系统使用,为用户生 成更准确的结果信息。

发明内容
本发明公开了一种网络信息语义结构识别方法和装置,根据本发明的一个方面,提供了 一种网络信息语义结构识别方法,所述语义结构包括网络页面信息内容的多个语义相关的语 义注解、被注解的信息的属性、语义注解之间的关系,其特征在于,所述方法包括以下步骤
(1)定义样本页面的所述语义结构,在系统内部存储成语义结构树;
(2 )生成语义树识别指令和语义树合法性识别指令;
(3) 验证语义树识别指令和语义树合法性识别指令的有效性;
(4) 将语义结构描述文件和语义树识别指令文件和语义树合法性识别文件存储到外存 储器。
根据本发明的另一个方面,提供了一种网络信息语义结构识别的装置,所述语义结构包 括网络页面信息内容的多个语义相关的语义注解、被注解的信息的属性、语义注解之间的关
系,其特征在于,所述装置包括
5语义结构编辑单元,用于创建和编辑所述语义结构树;
样本语义信息块拾取单元,用于选取样本页面上的样本信息块,为每个样本语义信息块 建立信息内容与所述语义结构树中的节点之间的对应关系;
语义结构识别指令生成单元,用于计算样本语义信息块的位置和重现参数,产生所述语 义树识别指令和所述语义树合法性识别指令;
语义树识别验证单元,用于验证识别出来的语义信息块是否符合所述语义树的形状特征 和所述语义树节点的属性要求;
指令文件和语义结构文件读写管理单元,用于将内存中的所述语义树识别指令和所述语 义树合法性识别指令和所述语义结构树组织成文件,存储到所述外存储器上。


图1展示了一个语义结构树的例子,图1A是样本语义信息块示意图,图1B是对应的语 义结构树
图2是根据本发明的一个实施例的网络信息语义结构识别方法的流程图 图3是根据本发明的一个实施例的生成语义树识别指令和语义树合法性识别指令的方法 的流程图
图4是根据本发明的一个实施例的网络信息语义结构识别装置的分解图
具体实施例方式
下面结合附图对本发明的优选实施例进行详细的说明。
网络信息语义结构识别方法
在网络页面上,充斥很多与页面主题内容不相关的信息,例如,广告等,有用的信息和 知识只存在于页面的某些区域中,在下文中,我们称这些区域为语义信息块。 一般在一个页 面上有很多语义信息块,而且其语义结构可能不同,分别表达不同的含义,例如图1A,在博 客页面的某个区域的一组信息表达博主个人资料,它具有语义结构A;在另外一个区域是博 主发表的一系列博文,有n个语义信息块,它们具有语义结构B,本发明的优选实施例能够 准确全面地将符合语义结构A和语义结构B的语义信息块识别出来,并输出语义树识别指令文件和语义树合法性识别指令文件,这些文件可以指导其他系统提取出有语义结构的信息。
图IB是针对这个样本页面创建的两个语义结构树,语义树是多叉多层树,每个节点附 带一组属性值,对节点代表的语义进行修饰,本发明的优选实施例可以对节点的取值类型、 取值范围、语义类型进行修饰,节点之间的边代表了相互关系。因为博主资料只有一个语义 信息块,使用这个唯一的语义信息块建立与语义结构树的对应关系,而博文有多个语义信息 块,需要选择至少两个样本信息块,具体选择几个,需要考虑目标页面的布局,跟语义信息 块分布的维度有关。
图2是根据本发明的优选实施例的网络信息语义结构识别方法的流程图。首先在步骤 201,用户使用本发明的优选实施例中内嵌的浏览器加载样本网络页面,为页面内容定义语义 结构,包括网络页面信息内容的语义注解、被注解的信息的属性、语义注解之间的关系。语 义结构用树状结构展现,树节点代表信息内容的语义注解,用一个字符串给语义注解命名, 树节点之间的边表示语义关系,语义结构树存储在内存中(208)。
接着在步骤202,用户在样本页面上选择样本语义信息块,选择的样本信息块的数量跟 语义信息块分布的维度有关,例如,如果在页面上只有一栏,语义信息块从上到下顺序排放, 则只有一个维度,选择两个上下相邻的语义信息块即可,图1A所示的博文的语义信息块的 分布就属于这种情况;如果页面上横向有多栏,每一栏内语义信息块按相同的规则从上到下 顺序排放,则有两个维度,选择三个语义信息块,两两上下相邻和左右相邻。
接着在步骤203,用户使用本发明的优选实施例提供的网页内容拾取工具,建立所拾取 的信息内容与所定义语义结构树各节点的对应关系。
接着在步骤204,提取出样本信息树的位置参数、形状特征参数,产生所述语义结构树 的识别计算公式,并转换成语义树识别指令和语义树合法性识别指令,存储在内存中(209), 详细方法步骤如图3所示。
接着在步骤205,使用步骤204生成的语义树识别指令和语义树合法性识别指令,在目 标页面上识别符合所定义语义结构的信息块,验证识别指令的有效性。首先使用系统内置的 标准的XSLT引擎针对样本页面运行XSLT语义树识别指令,检验识别出来的语义信息块是 否覆盖了目标页面上的符合定义的语义结构的所有语义信息块,同时检验每个识别出来的语 义信息块中的语义信息内容是否准确,是否将页面上的不相干信息提取了出来,或者是否将 需要的语义信息内容遗漏了;然后使用系统内置的XML引擎针对识别出来的语义结构树实 例运行语义树合法性识别指令,检验是否符合定义的所述语义结构,本发明优选实施例将检验语义信息块中的语义信息内容是否符合定义的语义树结构的节点属性要求,是否具有相同 的树形状。如果没有完全覆盖所有的语义信息块,或者从提取到的语义信息内容不符合语义 树节点属性的定义,或者识别出来的信息块与语义树形状不相符,将提示用户重新选择样本 语义信息块,返回到步骤202;如果识别指令经验证是有效的,进行下一步。
接着在步骤207,将内存中的语义树识别指令和语义树合法性识别指令和语义结构组织 成文件,存储到外存储器中。
图3是根据本发明的优选实施例的生成语义树识别指令和语义树合法性识别指令的方法 的流程图,是图2的步骤204的详细分解。语义结构识别操作是针对网络页面DOM数据结 构进行的。DOM是文档对象模型(Document Object Model)的简写, 一个网络页面在呈现给 用户阅读时,网络页面内容存储在DOM数据结构中,是一个树状结构,本发明的优选实施 例对DOM结构进行读取,获得各种信息,包括DOM节点的内容、节点的特性以及节点之 间的父子和兄弟关系等。本发明的优选实施例选取的样本语义信息块是一棵DOM子树,所 述样本信息树是对样本信息块子树进行修剪后产生的跟所定义的语义结构树形状相同的信息 存储树,同时还包含关于树特征的元数据。
首先在步骤301,依照步骤201所定义的语义结构树,对每个样本语义信息块的信息存 储树进行修剪,去除不相关信息,保留符合所定义语义结构的信息,产生样本信息树,所有 样本信息树存储在一个集合中。在本发明的优选实施例中,样本信息树包含的关于树特征的
元数据有
1. 每个语义信息节点的访问路径,使用经过改造的XPath表达式表示
2. 每个语义信息节点是否被多个样本信息树所共享
3. 样本信息树的树干,即,样本信息树的第一个分支前面的部分是树干部分。 接着在步骤302,主要目的是计算出样本信息树每个节点的位置变化参数,使用这些参
数可以在目标页面上将每个节点识别出来,节点的位置变化参数包括
1. 在整个页面的DOM数据结构中具有相同的访问路径的DOM节点组成一个节点序 歹ij,样本信息树节点在该序列中的起始位置
2. 在这个节点序列中,样本信息树节点重复出现的周期
接着在步骤303,选举一个样本信息树分支作为参照。在步骤302,节点位置变化参数都 是对每个节点独立计算的,没有考虑语义树形状和在语义树内的相对关系,所以如果仅仅采 用此节点位置变化参数提取网络信息,必然会提取出很多不相干的内容来。选举出样本信息
8树参照分支后,样本信息树的其它节点的位置参数将相对于参照分支进行变换。
接着在步骤304,将样本信息树的节点的位置参数相对于参照分支进行变换,得到相对 位置参数,就是节点相对于参照分支的叶子节点的父子和兄弟关系,可以用来确定节点在样 本信息树中的位置,也就是决定了样本信息树的形状;然后根据不同样本信息树的参照分支 的位置信息计算出整棵树的位置参数。
接着在步骤305,产生语义结构识别公式,主要有两类公式参照分支的识别公式和语 义结构树中其它语义结构节点相对于参照分支的定位公式。参照分支的识别公式整合了语义
结构树位置参数和形状参数并将节点属性作为过滤条件。
接着在步骤306,生成语义结构识别指令和语义结构合法性识别指令。将步骤305产生 的识别公式转换成标准的XSLT指令生成语义结构识别指令,该指令可以被标准的XSLT引 擎解释执行,从网络页面上将符合语义结构的语义信息块识别出来,将语义信息块中的语义 内容提取出来,按照XSLT指令存储到XML文件格式的提取结果文件中。语义结构合法性识 别指令是根据语义结构树的位置参数和形状参数尤其是语义结构树节点的属性构造产生的, 是XML格式的,可以被专用的XML引擎解释执行,对提取出来的语义内容进行检査。
网络信息语义结构识别装置
图4是根据本发明的优选实施例的网络信息语义结构识别装置的分解图,图中标注的序 号代表单元之间的访问和被访问关系。如图4所示,用户使用语义结构编辑单元创建语义结 构树、定义语义结构树节点的属性、描述语义关系,语义结构树存储在内存中(401);用户 将样本页面加载到系统内嵌的Web浏览器上,使用样本语义信息块拾取单元为每个样本语义 信息块建立信息内容与语义结构树中的节点之间的对应关系(402);对应关系输入到语义结 构识别指令生成单元(403),利用从内存中获取的语义结构描述信息(404),语义结构识别 指令生成单元计算样本信息树的位置参数、形状特征参数,产生语义信息树识别计算公式, 转换成符合XSLT标准的语义树识别指令和符合XML文档格式标准的语义树合法性识别指 令,存储在内存中(405);语义树识别验证单元从内存中获取语义树识别指令和语义树合法 性识别指令,运用到样本页面上进行测试,如果用户不满意,使用语义结构编辑单元修改语 义结构或者使用样本语义信息块拾取单元修改页面内容与语义结构的对应关系,重复上述步 骤,直至满意为止;满足要求的语义树识别和合法性识别指令以及语义结构输入到指令文件 和语义结构文件读写管理单元(408, 409),生成符合XSLT标准的语义树识别指令文件和符 合XML文档格式标准的语义树合法性识别指令文件和语义结构描述文件,存储到外存储器上(410,411)。图中有些箭头是双向的,表示外存储器中原有的语义树识别和合法性识别指 令文件和语义结构描述文件被读入本实施例,对其进行修改或补充。
权利要求
1,一种网络信息语义结构的识别方法,所述语义结构包括网络页面信息内容的多个语义相关的语义注解、被注解的信息的属性、语义注解之间的关系,其特征在于,所述方法包括以下步骤(1)定义样本页面的所述语义结构,在系统内部存储成语义结构树;(2)生成语义树识别指令和语义树合法性识别指令;(3)验证语义树识别指令和语义树合法性识别指令的有效性(4)将语义结构描述文件和语义树识别指令文件和语义树合法性识别文件存储到外存储器
2,根据权利要求1所述的网络信息语义结构的识别方法,其特征在于,所述语义结构树包括语义结构树节点,代表网络页面信息内容的语义注解,用文本串命名语义注解; 语义结构树节点的属性,对语义注解进行修饰; 语义结构树节点之间的关系,用节点之间的边表示。
3, 根据权利要求l所述的网络信息语义结构的识别方法,其特征在于,所述语义结构描 述文件是一个XML文件,用于在外存储器上存储用户定义的所述语义结构。
4, 根据权利要求1所述的网络信息语义结构的识别方法,其特征在于,所述语义树识别 指令是标准的XSLT指令,'在外存储器上以语义树识别指令文件的形式存储。
5, 根据权利要求l所述的网络信息语义结构的识别方法,其特征在于,所述语义树合法 性识别指令是符合XML文档格式标准的指令,在外存储器上以语义树合法性识别指令文件 的形式存储。
6,根据权利要求1所述的网络信息语义结构的识别方法,其特征在于,所述存储到外存 储器的方法是在计算机内存中生成语义结构描述文件、语义树识别指令文件和语义树合法性 识别指令文件后,输出存储到本地硬盘和其它类型的本地外存储器和网络服务器存储器。
7,根据权利要求l所述的网络信息语义结构的识别方法,其特征在于,所述生成语义树 识别指令和语义树合法性识别指令的方法包括以下步骤(21) 用户在目标页面上为每个所述语义结构分别选择样本语义信息块,如果目标页面 上存在相同所述语义结构的多块信息,选择多个样本语义信息块,否则,为每个所述语义结 构只选择一个样本语义信息块;(22) 为每个样本语义信息块建立信息内容与所述语义结构树中的节点之间的对应关系;(23)计算样本语义信息块的位置和重现参数,产生符合XSLT标准的语义树识别指令 和符合XML文档格式标准的语义树合法性识别指令。
8, —种网络信息语义结构的识别的装置,所述语义结构包括网络页面信息内容的多个语 义相关的语义注解、被注解的信息的属性、语义注解之间的关系,其特征在于,所述装置包 括语义结构编辑单元,用于创建和编辑所述语义结构树;样本语义信息块拾取单元,用于选取样本页面上的样本信息块,为每个样本语义信息块 建立信息内容与所述语义结构树中的节点之间的对应关系语义结构识别指令生成单元,用于计算样本语义信息块的位置和重现参数,产生所述语 义结构树识别指令和所述语义结构树合法性识别指令语义树识别验证单元,用于验证识别出来的语义信息块是否符合所述语义树的形状特征 和所述语义树节点的属性要求指令文件和语义结构文件读写管理单元,用于将内存中的所述语义树识别指令和所述语 义树合法性识别指令和所述语义结构树组织成文件,存储到所述外存储器上。
全文摘要
本发明公开了一种网络信息语义结构识别方法和装置,所述语义结构包括多个语义相关的网络页面信息内容的语义注解、被注解的信息的属性、语义注解之间的关系。通过定义样本页面的所述语义结构,在系统内部存储成语义结构树;生成语义树识别指令和语义树合法性识别指令;经验证后将语义结构描述文件和语义树识别指令文件和语义树合法性识别文件存储到外存储器。本发明定义和识别出的网络页面信息的语义结构可以被信息提取、全文搜索和语义搜索、商业情报挖掘、信息聚合、网络知识库等系统使用。
文档编号G06F17/30GK101639840SQ200810142630
公开日2010年2月3日 申请日期2008年7月29日 优先权日2008年7月29日
发明者华天清, 齐勇挺 申请人:华天清
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1