网络信息语义结构识别方法和装置的制作方法

文档序号：6466247阅读：133来源：国知局

专利名称：网络信息语义结构识别方法和装置的制作方法
技术领域：
本发明属于计算机科学技术领域语义网络分支，具体涉及一种网络信息语义结构识别方法，适用于网络信息提取、全文搜索和语义搜索、商业情报挖掘、信息聚合、网络知识库建立等应用领域。
背景技术：
随着Internet和Web的长足发展，网络上的信息呈爆炸式增长，人们除了从传统媒介上获取知识和信息以外，越来越习惯于在网络上寻求帮助，全文搜索技术实现了人们检索网络信息的愿望，只要输入几个关键字，就可以迅速地获得含有这几个关键字的信息。然而，即使有了搜索工具，人们还是感受到自己慢慢地在网络信息海洋中迷失了方向，找到自己关心的信息和知识变得越来越困难，因为遭受越来越多的不相干的噪音信息所干扰，这些信息包含査找的关键字，但是内容是不相干的。人们希望出现一种智能工具，根据用户的意愿帮助人们摈除噪音，筛选出真正需要的信息来。自计算机发明以来，社会生产力大大提高，它将人类从单调的繁杂的程式化的劳动中解放出来，使人们专注于创造性的活动，网络信息搜索也是由计算机承担的，因此，人们自然而然的想到改进计算机算法，使其变成人们的智能信息助理。
人工智能的研究有着悠久的历史，甚至在计算机出现之前，人们就在尝试人造的智能活动。用人工智能帮助人们在网络上寻找目标信息是最理想的方法，人只有一个大脑用于思考，如果有了很多人造大脑在网络上进行思考并筛选信息，显然效率和效能是倍增的。然而从学术性的和技术性的实验结果推测，实现这种理想愿望还比较遥远。
实际上，计算机对信息的处理并不局限于知识理解，例如，数据库技术发展到今天已经相当成熟了，几乎应用于现代所有的生产活动中。从表面上看，数据库具有相当高的智能，例如，在数据库表中存了一串数字，数据库系统知道这串数字是一个电话号码，它就不会当成日期或者商品数量进行处理，看起来它理解了这串数字的含义。从深层次的技术实现角度看，它是从数据库中的语义结构信息(即数据库的Schema)中获得了指示，它并不是像人类思维一样根据语义环境将这串数字理解成电话号码，而是数据库Schema规定它这样使用的。由此可见语义结构在信息处理领域的重要性，可以想象如果网络页面上有语义结构信息，即使计算机不知道一串号码能够干什么，当用户搜索电话号码时搜索系统不会塞给用户一堆商品统计数量。
但是，现有网络上的绝大多数信息是呈现给人们阅读的，传送到用户终端上的信息是使用HTML排版的，里面绝大多数是排版信息(跟排版有关的语义)，却少有关于内容的语义信息。就像专家总结的对于内容语义而言，现有的网络信息是无结构的或者是弱结构的。可见，如果把这些信息的有关内容的语义结构识别和提取出来，现有的Web就变成了一个巨大的数据库，它至少能够分清一串数字是电话号码还是商品数量。然而，网络不像一个单一的商业数据库，它为人类生活方方面面提供服务，因此，为现有的网络信息建立语义结构不是一蹴而就的事，一种解决方案是人们各自将感兴趣的领域的语义结构定义出来，一开始这些领域语义结构之间是不相通的孤岛，随着语义结构的延展和生长，孤岛将逐渐打通，形成一张所谓的语义网络，理想情况下，这张网络覆盖了网络信息内容的所有语义范围。
本发明公开了一种方法和装置，它能够使所有热衷于网络语义结构定义和知识整理的人们投入到语义网络的建设中来，本发明定义和识别出的网络页面信息的语义结构可以被信息提取、全文搜索和语义搜索、商业情报挖掘、信息聚合、网络知识库等系统使用，为用户生成更准确的结果信息。

发明内容
本发明公开了一种网络信息语义结构识别方法和装置，根据本发明的一个方面，提供了一种网络信息语义结构识别方法，所述语义结构包括网络页面信息内容的多个语义相关的语义注解、被注解的信息的属性、语义注解之间的关系，其特征在于，所述方法包括以下步骤
(1)定义样本页面的所述语义结构，在系统内部存储成语义结构树；
(2 )生成语义树识别指令和语义树合法性识别指令；
(3) 验证语义树识别指令和语义树合法性识别指令的有效性；
(4) 将语义结构描述文件和语义树识别指令文件和语义树合法性识别文件存储到外存储器。
根据本发明的另一个方面，提供了一种网络信息语义结构识别的装置，所述语义结构包括网络页面信息内容的多个语义相关的语义注解、被注解的信息的属性、语义注解之间的关
系，其特征在于，所述装置包括
5语义结构编辑单元，用于创建和编辑所述语义结构树；
样本语义信息块拾取单元，用于选取样本页面上的样本信息块，为每个样本语义信息块建立信息内容与所述语义结构树中的节点之间的对应关系；
语义结构识别指令生成单元，用于计算样本语义信息块的位置和重现参数，产生所述语义树识别指令和所述语义树合法性识别指令；
语义树识别验证单元，用于验证识别出来的语义信息块是否符合所述语义树的形状特征和所述语义树节点的属性要求；
指令文件和语义结构文件读写管理单元，用于将内存中的所述语义树识别指令和所述语义树合法性识别指令和所述语义结构树组织成文件，存储到所述外存储器上。

图1展示了一个语义结构树的例子，图1A是样本语义信息块示意图，图1B是对应的语义结构树
图2是根据本发明的一个实施例的网络信息语义结构识别方法的流程图图3是根据本发明的一个实施例的生成语义树识别指令和语义树合法性识别指令的方法的流程图
图4是根据本发明的一个实施例的网络信息语义结构识别装置的分解图
具体实施例方式
下面结合附图对本发明的优选实施例进行详细的说明。
网络信息语义结构识别方法
在网络页面上，充斥很多与页面主题内容不相关的信息，例如，广告等，有用的信息和知识只存在于页面的某些区域中，在下文中，我们称这些区域为语义信息块。一般在一个页面上有很多语义信息块，而且其语义结构可能不同，分别表达不同的含义，例如图1A，在博客页面的某个区域的一组信息表达博主个人资料，它具有语义结构A;在另外一个区域是博主发表的一系列博文，有n个语义信息块，它们具有语义结构B,本发明的优选实施例能够准确全面地将符合语义结构A和语义结构B的语义信息块识别出来，并输出语义树识别指令文件和语义树合法性识别指令文件，这些文件可以指导其他系统提取出有语义结构的信息。
图IB是针对这个样本页面创建的两个语义结构树，语义树是多叉多层树，每个节点附带一组属性值，对节点代表的语义进行修饰，本发明的优选实施例可以对节点的取值类型、取值范围、语义类型进行修饰，节点之间的边代表了相互关系。因为博主资料只有一个语义信息块，使用这个唯一的语义信息块建立与语义结构树的对应关系，而博文有多个语义信息块，需要选择至少两个样本信息块，具体选择几个，需要考虑目标页面的布局，跟语义信息块分布的维度有关。
图2是根据本发明的优选实施例的网络信息语义结构识别方法的流程图。首先在步骤 201,用户使用本发明的优选实施例中内嵌的浏览器加载样本网络页面，为页面内容定义语义结构，包括网络页面信息内容的语义注解、被注解的信息的属性、语义注解之间的关系。语义结构用树状结构展现，树节点代表信息内容的语义注解，用一个字符串给语义注解命名，树节点之间的边表示语义关系，语义结构树存储在内存中(208)。
接着在步骤202，用户在样本页面上选择样本语义信息块，选择的样本信息块的数量跟语义信息块分布的维度有关，例如，如果在页面上只有一栏，语义信息块从上到下顺序排放，则只有一个维度，选择两个上下相邻的语义信息块即可，图1A所示的博文的语义信息块的分布就属于这种情况；如果页面上横向有多栏，每一栏内语义信息块按相同的规则从上到下顺序排放，则有两个维度，选择三个语义信息块，两两上下相邻和左右相邻。
接着在步骤203，用户使用本发明的优选实施例提供的网页内容拾取工具，建立所拾取的信息内容与所定义语义结构树各节点的对应关系。
接着在步骤204，提取出样本信息树的位置参数、形状特征参数，产生所述语义结构树的识别计算公式，并转换成语义树识别指令和语义树合法性识别指令，存储在内存中(209)，详细方法步骤如图3所示。
接着在步骤205，使用步骤204生成的语义树识别指令和语义树合法性识别指令，在目标页面上识别符合所定义语义结构的信息块，验证识别指令的有效性。首先使用系统内置的标准的XSLT引擎针对样本页面运行XSLT语义树识别指令，检验识别出来的语义信息块是否覆盖了目标页面上的符合定义的语义结构的所有语义信息块，同时检验每个识别出来的语义信息块中的语义信息内容是否准确，是否将页面上的不相干信息提取了出来，或者是否将需要的语义信息内容遗漏了；然后使用系统内置的XML引擎针对识别出来的语义结构树实例运行语义树合法性识别指令，检验是否符合定义的所述语义结构，本发明优选实施例将检验语义信息块中的语义信息内容是否符合定义的语义树结构的节点属性要求，是否具有相同的树形状。如果没有完全覆盖所有的语义信息块，或者从提取到的语义信息内容不符合语义树节点属性的定义，或者识别出来的信息块与语义树形状不相符，将提示用户重新选择样本语义信息块，返回到步骤202;如果识别指令经验证是有效的，进行下一步。
接着在步骤207，将内存中的语义树识别指令和语义树合法性识别指令和语义结构组织成文件，存储到外存储器中。
图3是根据本发明的优选实施例的生成语义树识别指令和语义树合法性识别指令的方法的流程图，是图2的步骤204的详细分解。语义结构识别操作是针对网络页面DOM数据结构进行的。DOM是文档对象模型(Document Object Model)的简写，一个网络页面在呈现给用户阅读时，网络页面内容存储在DOM数据结构中，是一个树状结构，本发明的优选实施例对DOM结构进行读取，获得各种信息，包括DOM节点的内容、节点的特性以及节点之间的父子和兄弟关系等。本发明的优选实施例选取的样本语义信息块是一棵DOM子树，所述样本信息树是对样本信息块子树进行修剪后产生的跟所定义的语义结构树形状相同的信息存储树，同时还包含关于树特征的元数据。
首先在步骤301,依照步骤201所定义的语义结构树，对每个样本语义信息块的信息存储树进行修剪，去除不相关信息，保留符合所定义语义结构的信息，产生样本信息树，所有样本信息树存储在一个集合中。在本发明的优选实施例中，样本信息树包含的关于树特征的
元数据有
1. 每个语义信息节点的访问路径，使用经过改造的XPath表达式表示
2. 每个语义信息节点是否被多个样本信息树所共享
3. 样本信息树的树干，即，样本信息树的第一个分支前面的部分是树干部分。接着在步骤302，主要目的是计算出样本信息树每个节点的位置变化参数，使用这些参
数可以在目标页面上将每个节点识别出来，节点的位置变化参数包括
1. 在整个页面的DOM数据结构中具有相同的访问路径的DOM节点组成一个节点序歹ij，样本信息树节点在该序列中的起始位置
2. 在这个节点序列中，样本信息树节点重复出现的周期
接着在步骤303，选举一个样本信息树分支作为参照。在步骤302，节点位置变化参数都是对每个节点独立计算的，没有考虑语义树形状和在语义树内的相对关系，所以如果仅仅采用此节点位置变化参数提取网络信息，必然会提取出很多不相干的内容来。选举出样本信息
8树参照分支后，样本信息树的其它节点的位置参数将相对于参照分支进行变换。
接着在步骤304,将样本信息树的节点的位置参数相对于参照分支进行变换，得到相对位置参数，就是节点相对于参照分支的叶子节点的父子和兄弟关系，可以用来确定节点在样本信息树中的位置，也就是决定了样本信息树的形状；然后根据不同样本信息树的参照分支的位置信息计算出整棵树的位置参数。
接着在步骤305，产生语义结构识别公式，主要有两类公式参照分支的识别公式和语义结构树中其它语义结构节点相对于参照分支的定位公式。参照分支的识别公式整合了语义
结构树位置参数和形状参数并将节点属性作为过滤条件。
接着在步骤306，生成语义结构识别指令和语义结构合法性识别指令。将步骤305产生的识别公式转换成标准的XSLT指令生成语义结构识别指令，该指令可以被标准的XSLT引擎解释执行，从网络页面上将符合语义结构的语义信息块识别出来，将语义信息块中的语义内容提取出来，按照XSLT指令存储到XML文件格式的提取结果文件中。语义结构合法性识别指令是根据语义结构树的位置参数和形状参数尤其是语义结构树节点的属性构造产生的，是XML格式的，可以被专用的XML引擎解释执行，对提取出来的语义内容进行检査。
网络信息语义结构识别装置
图4是根据本发明的优选实施例的网络信息语义结构识别装置的分解图，图中标注的序号代表单元之间的访问和被访问关系。如图4所示，用户使用语义结构编辑单元创建语义结构树、定义语义结构树节点的属性、描述语义关系，语义结构树存储在内存中(401);用户将样本页面加载到系统内嵌的Web浏览器上，使用样本语义信息块拾取单元为每个样本语义信息块建立信息内容与语义结构树中的节点之间的对应关系(402);对应关系输入到语义结构识别指令生成单元(403),利用从内存中获取的语义结构描述信息(404),语义结构识别指令生成单元计算样本信息树的位置参数、形状特征参数，产生语义信息树识别计算公式，转换成符合XSLT标准的语义树识别指令和符合XML文档格式标准的语义树合法性识别指令，存储在内存中(405);语义树识别验证单元从内存中获取语义树识别指令和语义树合法性识别指令，运用到样本页面上进行测试，如果用户不满意，使用语义结构编辑单元修改语义结构或者使用样本语义信息块拾取单元修改页面内容与语义结构的对应关系，重复上述步骤，直至满意为止；满足要求的语义树识别和合法性识别指令以及语义结构输入到指令文件和语义结构文件读写管理单元(408, 409)，生成符合XSLT标准的语义树识别指令文件和符合XML文档格式标准的语义树合法性识别指令文件和语义结构描述文件，存储到外存储器上(410,411)。图中有些箭头是双向的，表示外存储器中原有的语义树识别和合法性识别指令文件和语义结构描述文件被读入本实施例，对其进行修改或补充。
权利要求
1，一种网络信息语义结构的识别方法，所述语义结构包括网络页面信息内容的多个语义相关的语义注解、被注解的信息的属性、语义注解之间的关系，其特征在于，所述方法包括以下步骤(1)定义样本页面的所述语义结构，在系统内部存储成语义结构树；(2)生成语义树识别指令和语义树合法性识别指令；(3)验证语义树识别指令和语义树合法性识别指令的有效性(4)将语义结构描述文件和语义树识别指令文件和语义树合法性识别文件存储到外存储器
2，根据权利要求1所述的网络信息语义结构的识别方法，其特征在于，所述语义结构树包括语义结构树节点，代表网络页面信息内容的语义注解，用文本串命名语义注解；语义结构树节点的属性，对语义注解进行修饰；语义结构树节点之间的关系，用节点之间的边表示。
3, 根据权利要求l所述的网络信息语义结构的识别方法，其特征在于，所述语义结构描述文件是一个XML文件，用于在外存储器上存储用户定义的所述语义结构。
4, 根据权利要求1所述的网络信息语义结构的识别方法，其特征在于，所述语义树识别指令是标准的XSLT指令，'在外存储器上以语义树识别指令文件的形式存储。
5, 根据权利要求l所述的网络信息语义结构的识别方法，其特征在于，所述语义树合法性识别指令是符合XML文档格式标准的指令，在外存储器上以语义树合法性识别指令文件的形式存储。
6，根据权利要求1所述的网络信息语义结构的识别方法，其特征在于，所述存储到外存储器的方法是在计算机内存中生成语义结构描述文件、语义树识别指令文件和语义树合法性识别指令文件后，输出存储到本地硬盘和其它类型的本地外存储器和网络服务器存储器。
7，根据权利要求l所述的网络信息语义结构的识别方法，其特征在于，所述生成语义树识别指令和语义树合法性识别指令的方法包括以下步骤(21) 用户在目标页面上为每个所述语义结构分别选择样本语义信息块，如果目标页面上存在相同所述语义结构的多块信息，选择多个样本语义信息块，否则，为每个所述语义结构只选择一个样本语义信息块；(22) 为每个样本语义信息块建立信息内容与所述语义结构树中的节点之间的对应关系;(23)计算样本语义信息块的位置和重现参数，产生符合XSLT标准的语义树识别指令和符合XML文档格式标准的语义树合法性识别指令。
8, —种网络信息语义结构的识别的装置，所述语义结构包括网络页面信息内容的多个语义相关的语义注解、被注解的信息的属性、语义注解之间的关系，其特征在于，所述装置包括语义结构编辑单元，用于创建和编辑所述语义结构树；样本语义信息块拾取单元，用于选取样本页面上的样本信息块，为每个样本语义信息块建立信息内容与所述语义结构树中的节点之间的对应关系语义结构识别指令生成单元，用于计算样本语义信息块的位置和重现参数，产生所述语义结构树识别指令和所述语义结构树合法性识别指令语义树识别验证单元，用于验证识别出来的语义信息块是否符合所述语义树的形状特征和所述语义树节点的属性要求指令文件和语义结构文件读写管理单元，用于将内存中的所述语义树识别指令和所述语义树合法性识别指令和所述语义结构树组织成文件，存储到所述外存储器上。
全文摘要
本发明公开了一种网络信息语义结构识别方法和装置，所述语义结构包括多个语义相关的网络页面信息内容的语义注解、被注解的信息的属性、语义注解之间的关系。通过定义样本页面的所述语义结构，在系统内部存储成语义结构树；生成语义树识别指令和语义树合法性识别指令；经验证后将语义结构描述文件和语义树识别指令文件和语义树合法性识别文件存储到外存储器。本发明定义和识别出的网络页面信息的语义结构可以被信息提取、全文搜索和语义搜索、商业情报挖掘、信息聚合、网络知识库等系统使用。
文档编号G06F17/30GK101639840SQ200810142630
公开日2010年2月3日申请日期2008年7月29日优先权日2008年7月29日
发明者华天清, 齐勇挺申请人:华天清

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：华天清;齐勇挺
技术所有人：华天清
我是此专利的发明人

上一篇：一种预投影光线投射体绘制的并行处理方法
上一篇：笔记本电脑及其移动通信防盗装置、防盗方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。