信息处理装置和方法以及信息定位装置与流程

文档序号:12550667阅读:148来源:国知局
信息处理装置和方法以及信息定位装置与流程

本公开总体上涉及信息处理领域,具体而言,涉及对网页信息进行处理的信息处理装置和方法以及利用该信息处理装置或方法的信息定位装置。



背景技术:

目前,面对如互联网等包括海量信息的信息源,如何得到用户感兴趣的信息正受到越来越多的关注。为了提高信息处理的效果,如果能够得到用户期望的与关注对象有关的网页信息的特性,则可以利于过滤掉用户不想要的内容以及提取用户期望内容等。

因此,期望能够得到诸如互联网的信息源中与关注对象有关的网页信息的特性,以便利于利用该特性进行后续处理。



技术实现要素:

在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。

鉴于现有技术的上述缺陷,本发明的目的之一是提供一种能够获得与关注对象有关的网页信息的特性的信息处理方法和装置,以至少克服现有的问题。

根据本公开的一个方面,提供了一种信息处理装置,包括:搜索单元,用于搜索与关注对象有关的结构化的网页信息;语义特征获取单元,用于获取能够对搜索到的网页信息进行表征的语义特征,所述语义特征表示所搜索到的网页信息中的、与所述关注对象相关联的内容;以及样式特征获取单元,用于获取能够对搜索到的网页信息进行表征的样式特征,所述样 式特征表示所搜索到的网页信息的结构,其中,所述样式特征获取单元被配置为计算搜索到的网页信息的DOM树中的、与给定节点有关的标签名、标识和类名的出现频率,并得到以所述出现频率为权重的样式向量,以作为所述样式特征。

根据本公开的另一方面,提供了一种信息定位装置,其利用上述信息处理装置在与所述关注对象有关的网站中定位与所述关注对象有关的结构化的网页信息,所述信息定位装置包括:网站语义特征获取单元,用于获取所述网站的目标部分的语义特征,该语义特征表示所述目标部分中的、与所述关注对象相关联的内容;网站样式特征获取单元,用于获取所述网站的目标部分的样式特征,该样式特征表示所述目标部分的结构;相关度计算单元,用于计算所述目标部分的语义特征与所述信息处理装置所获取的语义特征之间的语义相关度、以及所述目标部分的样式特征与所述信息处理装置所获取的样式特征之间的样式相关度;以及确定单元,用于基于所计算的语义相关度和样式相关度,确定所述目标部分是否为所述结构化的网页信息,其中,所述网站样式特征获取单元被配置为:计算所述网站的目标部分的DOM树中的、与符合预定条件的节点有关的标签名、标识和类名的出现频率,并得到以所述出现频率为权重的网站样式向量,以作为所述目标部分的样式特征。

根据本公开的又一方面,提供了一种信息处理方法,包括:搜索与关注对象有关的结构化网页信息;获取能够对搜索到的网页信息进行表征的语义特征,所述语义特征表示所搜索到的网页信息中的、与所述关注对象相关联的内容;以及获取能够对搜索到的网页信息进行表征的样式特征,所述样式特征表示所搜索到的网页信息的结构,其中,获取所述样式特征包括:计算搜索到的网页信息的DOM树中的、与给定节点有关的标签名、标识和类名的出现频率,并得到以所述出现频率为权重的样式向量,以作为所述样式特征。

依据本公开的其它方面,还提供了一种使得计算机用作如上所述的信息处理装置的程序。

依据本公开的又一方面,还提供了相应的计算机可读存储介质,该计算机可读存储介质上存储有能够由计算设备执行的计算机程序,该计算机程序在执行时能够使计算设备执行上述信息处理方法。

上述根据本公开实施例的各个方面,至少能够获得以下益处:利用本公开所提供的信息处理方法和装置,能够针对与关注对象有关的结构化的 网页信息获得这些网页信息的语义特征和样式特征,并且所得到的语义特征反映了与关注对象相关联的内容,所得到的样式特征反映了网页信息的DOM树中的样式信息,即相当于获得了与关注对象有关的特性信息。

此外,利用本公开所提供的信息定位装置,能够利用所得到的语义特征和样式特征,在与关注对象有关的网站中定位与关注对象有关的结构化的网页信息。

通过以下结合附图对本公开的最佳实施例的详细说明,本公开的这些以及其他优点将更加明显。

附图说明

本公开可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本公开的优选实施例和解释本公开的原理和优点。其中:

图1是示意性地示出根据本公开实施例的信息处理装置的示例结构的框图。

图2A至图2C是用于说明根据本公开实施例的信息处理装置的样式特征获取单元所进行的示例处理的说明图。

图3是示意性地示出根据本公开实施例的信息定位装置的示例结构的框图。

图4是示意性地示出根据本公开实施例的信息定位装置的另一示例结构的框图。

图5是示意性地示出根据本公开实施例的信息处理方法的示例流程的流程图。

图6是示出了可用来实现根据本公开实施例的信息处理装置和方法的一种可能的硬件配置的结构简图。

具体实施方式

在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和 简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。

在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。

在面对诸如互联网的涉及大量信息的信息源时,期望能够得到与关注对象有关的网页信息的特性,以便利于利用该特性进行后续处理。

基于此,本公开提出了一种信息处理方法和信息处理装置,其能够针对与关注对象有关的结构化的网页信息获得这些网页信息的语义特征和样式特征,并且所得到的语义特征反映了与关注对象相关联的内容,所得到的样式特征反映了网页信息的DOM树中的样式信息。

根据本公开的一个方面,提供了一种信息处理装置。图1是示意性地示出根据本公开实施例的信息处理装置的示例结构的框图。如图1所示,信息处理装置100包括:搜索单元101,用于搜索与关注对象有关的结构化的网页信息;语义特征获取单元102,用于获取能够对搜索到的网页信息进行表征的语义特征,所述语义特征表示所搜索到的网页信息中的、与所述关注对象相关联的内容;以及样式特征获取单元103,用于获取能够对搜索到的网页信息进行表征的样式特征,所述样式特征表示所搜索到的网页信息的结构,其中,所述样式特征获取单元103被配置为计算搜索到的网页信息的DOM树中的、与给定节点有关的标签名、标识和类名的出现频率,并得到以所述出现频率为权重的样式向量,以作为所述样式特征。

利用上述信息处理装置100,能够针对与关注对象有关的结构化的网页信息获得这些网页信息的语义特征和样式特征,其中语义特征表示所搜索到的网页信息中与关注对象相关联的内容,样式特征表示所搜索到的网页信息的结构。并且,样式特征获取单元103利用了所搜索到的网页信息的DOM树中的样式信息,从而更准确地表征结构化的网页信息的特性。

作为示例,信息处理装置100所搜索和处理的与关注对象有关的结构化的网页信息可以是与关注对象有关的新闻类型的网页信息。

新闻类型的网页信息仅是结构化的网页信息的一种示例,信息处理装置100可以搜索和处理其他类型的网页信息。例如,当关注对象为商品时,信息处理装置100可以搜索并处理与该商品有关的在线销售类型的网页信息。当关注对象为诸如电影等的文艺作品时,信息处理装置100可以搜索并处理与该文艺作品有关的评论(诸如影评)类型的网页信息。

本领域技术人员可以理解,信息处理装置100可以搜索和处理的与关注对象有关的结构化的网页信息不限于上述示例,而是只要具有对应的结构化的特性即可。这样的结构化的特性例如可以对应于网页信息的类型。

在一个优选实施例中,所述语义特征获取单元102被配置为:计算搜索到的网页信息当中的、与所述关注对象的互信息高于第一阈值的词语的出现频率,并得到以所述出现频率为权重的语义向量,以作为所述语义特征。

语义特征获取单元102可以利用各种已知方式来计算搜索到的网页信息当中的词语与关注对象的互信息。作为示例,假设通过搜索得到与关注对象有关的N个结构化的网页(例如N个新闻网页),则关注对象与词语A的互信息PMI可以基于N个网页中的总词数、N个网页中关注对象与词语A共同出现的次数(即共现次数)、N个网页中词语A的出现次数、N个网页中关注对象的出现次数,通过下述公式(1)来计算。

PMI=log(关注对象与词语A共现次数*总词数)/(词语A出现次数*关注对象出现次数)…公式(1)

针对搜索到的网页信息当中的词语与关注对象的互信息,本领域技术人员可以基于经验或通过训练来得到合适的第一阈值,在此不再详细描述。

利用语义特征获取单元102的上述配置,信息处理装置100可以利用语义向量来表示所搜索到的网页信息中与关注对象相关联的内容。

在一个优选实施例中,所述语义特征获取单元102进一步被配置为:将搜索到的网页信息当中的、与所述关注对象的互信息高于第二阈值的词语作为关键词,并得到搜索到的网页信息当中的、与所述关键词的互信息高于所述第一阈值且与所述关注对象的互信息不高于所述第一阈值的词语,其中所述第二阈值高于所述第一阈值;以及计算所得到的词语在搜索到的网页信息当中的出现频率,并将该出现频率作为新的权重加入所述语 义向量中。

利用语义特征获取单元102的上述配置,信息处理装置100可以将与关注对象的关联度高的词语扩充为新的关键词进行搜索和计算,从而能够得到更全面地表示所搜索到的网页信息中与关注对象相关联的内容的语义向量。

在一个优选实施例中,在样式特征获取单元103计算样式向量时,所涉及的所述与给定节点有关的标签名、标识和类名包括从所述DOM树的根节点到所述给定节点的路径中所包括的节点的标签名、标识和类名。

以下参照图2A至图2C描述样式特征获取单元103进行的示例处理。图2A至图2C是用于说明根据本公开实施例的信息处理装置的样式特征获取单元所进行的示例处理的说明图。

图2A是利用搜索单元101搜索与关注对象“微软”有关的新闻类型的网页信息的示例结果。在本示例中,搜索单元101可以利用现有的新闻搜索引擎获得图2A所示的搜索结果,在图2A中分别以201、202、203指代搜索结果中的第一个网页的标题、时间和正文部分。图2B的上部示出了图2A中的第一个网页,并且类似地分别以201、202、203指代该网页的标题、时间和正文部分;图2B的下部示出了该网页的DOM树文档。图2C示出了从该网页的DOM树文档得到的、从DOM树的根节点到作为给定节点示例的正文节点的路径。

在一个示例中,样式特征获取单元103可以利用各种现有工具对搜索结果中的网页信息进行自动解析以生成DOM树文档,再从中提取从DOM树的根节点到给定节点的路径。

在例如图2C所示的从DOM树的根节点到正文节点的路径中,样式特征获取单元103可以提取出该路径中所包括的各个节点的标签名(tag name)、标识(ID)和类名(class)。例如,图2C所示的路径中,可以提取出“div”、“contentText”等。

对于搜索单元101得到的多个网页,样式特征获取单元103可以针对每个网页进行上述处理,并计算针对全部网页得到的标签名、标识和类名的出现频率,得到以出现频率为权重的样式向量,以作为样式特征。

尽管在该示例中并未示出,但是在诸如新闻类型的结构化的网页中,常用标签名、标识和类名等具有一定规律。例如,新闻类型的网页可能经常包括诸如“news”等标签名。相应地,样式特征获取单元103得到的涉 及这些标签名的样式向量中,诸如“news”等标签名的权重会比较高。因此,样式特征获取单元103所得到的样式特征体现了诸如新闻类型的结构化的网页信息的内在特性,从而能够更好地表征网页的特性。

尽管在图2C中以正文节点作为给定节点的示例,但本领域技术人员可以了解,样式特征获取单元103的处理中所涉及的给定节点不限于此。

在一个优选实施例中,所述与关注对象有关的结构化的网页信息为与关注对象有关的新闻类型的网页信息,而所述给定节点可以包括时间节点、标题节点和正文节点。

利用上述信息处理装置100,能够针对所搜索到的、与关注对象有关的结构化的网页信息获得这些网页信息的语义特征和样式特征,其中语义特征表示所搜索到的网页信息中与关注对象相关联的内容,样式特征表示所搜索到的网页信息的结构,从而得到了与关注对象有关的包括语义特征和样式特征的特性信息。基于上述特性信息,可有利地进行各种后续处理。

根据本公开的另一个方面,提供了一种信息定位装置。图3是示意性地示出根据本公开实施例的信息定位装置300的示例结构的框图,其中示出了信息定位装置300的示例配置,该信息定位装置300利用例如此前参照图1和图2A至图2C描述的信息处理装置100在与关注对象有关的网站中定位与关注对象有关的结构化的网页信息。

如图3所示,信息定位装置300包括:网站语义特征获取单元301,用于获取所述网站的目标部分的语义特征,该语义特征表示所述目标部分中的、与所述关注对象相关联的内容;网站样式特征获取单元302,用于获取所述网站的目标部分的样式特征,该样式特征表示所述目标部分的结构;相关度计算单元303,用于计算所述目标部分的语义特征与所述信息处理装置所获取的语义特征之间的语义相关度、以及所述目标部分的样式特征与所述信息处理装置所获取的样式特征之间的样式相关度;以及确定单元304,用于基于所计算的语义相关度和样式相关度,确定所述目标部分是否为所述结构化的网页信息,其中,所述网站样式特征获取单元302被配置为:计算所述网站的目标部分的DOM树中的、与符合预定条件的节点有关的标签名、标识和类名的出现频率,并得到以所述出现频率为权重的网站样式向量,以作为所述目标部分的样式特征。

利用上述信息定位装置300,能够在与关注对象有关的网站中定位与关注对象有关的结构化的网页信息。例如,在信息处理装置100已获得了 与关注对象有关的新闻类型的网页信息的语义特征和样式特征的情况下,信息定位装置300能够利用这样的语义特征和样式特征,在与关注对象有关的网站(例如该关注对象的官方网站)中定位与关注对象有关的新闻类型的网页信息,例如新闻板块。

信息定位装置300所获得的、与关注对象有关的网站的目标部分的语义特征和样式特征应该与信息处理装置100所获得的、搜索到的网页信息的语义特征和样式特征相对应,以便信息定位装置300的相关度计算单元303可以计算上述语义特征和样式特征之间的语义相关度和样式相关度。

在一个优选实施例中,当信息定位装置300的网站样式特征获取单元302进行处理时,网站的目标部分的DOM树中的、与符合预定条件的节点有关的标签名、标识和类名可以包括:从该DOM树的根节点到符合预定条件的节点的路径中所包括的各个节点的标签名、标识和类名。

在一个优选实施例中,信息定位装置300的网站语义特征获取单元301被配置为:计算所述网站的目标部分中所包括的词语的出现频率,并得到以所述出现频率为权重的语义向量,以作为所述目标部分的语义特征。

在一个优选实施例中,信息定位装置300所获得的语义特征和样式特征以及信息处理装置100所获得的语义特征和样式特征分别是语义向量和样式向量的形式。此时,相关度计算单元303可以计算两个语义向量之间的余弦距离作为语义相关度,并计算两个风格向量之间的余弦距离作为风格相关度。在计算上述余弦距离之前,相关度计算单元303可以对相关的向量进行归一化处理。

基于相关度计算单元303所得到的语义相关度和样式相关度,确定单元304可以例如根据预先设定的语义相关度阈值和样式相关度阈值等,确定网站的目标部分是否为结构化的网页信息。例如可以通过训练预先获得上述语义相关度阈值和样式相关度阈值。

在一个示例中,确定单元304可以在语义相关度和样式相关度分别大于其相应的阈值时,确定网站的目标部分为与关注对象有关的结构化的网页信息。在另一个示例中,确定单元304可以以不同的权重考虑语义相关度和样式相关度与其相应阈值的比较结果。例如,确定单元304可以对语义相关度与语义相关度阈值的比较结果以及样式相关度与样式相关度阈值的比较结果进行加权计算,并对加权结果与预先获得的整体相关度阈值 进行比较,以确定网站的目标部分是否为与关注对象有关的结构化的网页信息。

本公开实施例的信息定位装置可以带来有利的技术效果。例如,用户可能希望获得与关注对象有关的、特定类型的网页信息。但是,通过普通搜索引擎得到的信息可能会包括广告等不想要的信息,而通过分类搜索引擎(例如新闻搜索引擎等)所得到的信息可能来自多个来源,因而仍不能确定其权威性。利用本公开的信息定位装置,可以通过本公开的信息处理装置获得与关注对象有关的特定类型(例如新闻类型)的网页信息的语义特征和样式特征,进一步的还可以再从与关注对象有关的网站(例如该关注对象的官方网站)中定位与该关注对象有关的特定类型(例如新闻类型)的网页信息。因此,既确保了信息来源的准确性,又确保了所定位的信息类型的准确性。

以下参照图4来说明本公开实施例的信息定位装置的另一示例结构。图4是示意性地示出根据本公开实施例的信息定位装置的另一示例结构的框图。

在本实施例中,当信息定位装置针对网站目标部分的DOM树中符合预定条件的节点来计算与其有关的标签名、标识和类名的出现频率时,所述预定条件为预先获得的结构化的网页信息的DOM树中的节点的结构特性。例如,该结构特性可以是信息处理装置所搜索到的与关注对象有关的结构化的网页信息的DOM树中的节点的结构特性。

相应地,在图4所示的信息定位装置400中,除了与图3的信息定位装置300中的对应单元301至304相类似的网站语义特征获取单元401、网站样式特征获取单元402、相关度计算单元403、确定单元404之外,还包括网站结构特征获取单元405。网站结构特征获取单元405用于获取所述网站的候选部分的DOM树中的节点的结构特征,并且在所述候选部分的DOM树中的节点的结构特征符合所述预先获得的结构化的网页信息的DOM树中的节点的结构特性时,将所述候选部分提供给所述网站语义特征获取单元401和所述网站样式特征获取单元402作为所述目标部分。

在一个示例中,网站结构特征获取单元405可以利用通用的网页搜索功能,在网站中搜索与关注对象相关度高的部分,作为上述候选部分。作为替选,网站结构特征获取单元405也可以将网站的任意部分作为候选部分,并针对该候选部分进行用于获取DOM树中的节点的结构特征的处 理,直到处理了网站的所有部分为止。

在一个示例中,与关注对象有关的结构化的网页信息可以是与关注对象有关的新闻类型的网页信息。相应地,所述预定条件可以是与新闻类型的网页信息的DOM树中的节点的结构特性。

新闻类型的网页信息的DOM树中的节点例如可以具有下述结构特性:

(a)节点是非空节点,并且不是非文本节点。

(b)节点的文字比率(words node ratio,WNR)高于文字比率WNR阈值。该文字比率WNR可以通过公式(2)来计算,并且可以例如通过训练获得文字比率WNR阈值。

WNR=节点中的文字数量/节点所包含的子节点数…公式(2)

(c)节点的空间特征为处于页面的中间部分。例如,可以按照前根排序的遍历方式(也称为“先根序列”的遍历方式,即“根节点、左支、右支”的顺序),对叶子节点赋予从0开始递增的排序ID。与叶子节点对应的网页内容越靠底部,排序ID越大。处于页面的中间部分的节点的排序ID应在一定范围之内,该范围例如可以是排序ID的最大值的30%至70%之间。

网站结构特征获取单元405可以针对上述特性(a)-(c)来获取与关注对象有关的网站的候选部分的DOM树中的节点的结构特征,例如,节点是否为非空节点、是否为非文本节点;节点的文字比率WNR;节点的空间特征。

如果所获得的候选部分的DOM树中的节点的结构特征符合上述特性(a)-(c),则网站结构特征获取单元405将候选部分提供给网站语义特征获取单元401和网站样式特征获取单元402作为目标部分,以供后者进行进一步的特征获取。

以上以新闻类型的网页信息作为示例来描述基于其结构特性的预定条件,但是本领域技术人员可以由此了解对其他类型的网页信息可以适当地获得基于其结构特性的其他预定条件,在此不再详细描述。

利用信息定位装置400的网站结构特征获取单元405,可以进一步改进在网站中的信息定位的准确性。

根据本公开的又一方面,提供了一种信息处理方法。图5是示意性地示出根据本公开实施例的信息处理方法的示例流程的流程图。该信息处理方法可以执行根据本公开实施例的信息处理装置所实现的处理。

如图5所示,信息处理方法500可以包括:搜索步骤S501,搜索与关注对象有关的结构化网页信息;语义特征获取步骤S503,获取能够对搜索到的网页信息进行表征的语义特征,所述语义特征表示所搜索到的网页信息中的、与所述关注对象相关联的内容;以及样式特征获取步骤S503,获取能够对搜索到的网页信息进行表征的样式特征,所述样式特征表示所搜索到的网页信息的结构。其中,样式特征获取步骤S503的获取所述样式特征可以包括:计算搜索到的网页信息的DOM树中的、与给定节点有关的标签名、标识和类名的出现频率,并得到以所述出现频率为权重的样式向量,以作为所述样式特征。

上述信息处理方法500及其各个组成步骤S501至S505可以执行以上参照图1和图2A至图2C描述的信息处理装置100及其各个相应单元101至103所实现的处理,并实现类似的效果,在此不再进行重复说明。

在一个优选实施例中,获取所述语义特征可以包括:计算搜索到的网页信息当中的、与所述关注对象的互信息高于第一阈值的词语的出现频率,并得到以所述出现频率为权重的语义向量,以作为所述语义特征。

在一个优选实施例中,获取所述语义特征还可以包括:将搜索到的网页信息当中的、与所述关注对象的互信息高于第二阈值的词语作为关键词,并得到搜索到的网页信息当中的、与所述关键词的互信息高于所述第一阈值且与所述关注对象的互信息不高于所述第一阈值的词语,其中所述第二阈值高于所述第一阈值;以及计算所得到的词语在搜索到的网页信息当中的出现频率,并将该出现频率作为新的权重加入所述语义向量中。

在一个优选实施例中,所述与给定节点有关的标签名、标识和类名包括从所述DOM树的根节点到所述给定节点的路径中所包括的节点的标签名、标识和类名。

在一个优选实施例中,所述与关注对象有关的网页信息为与关注对象有关的新闻类型的网页信息。

在一个优选实施例中,所述给定节点包括时间节点、标题节点和正文节点。

根据本公开的另一个方面,还提供了一种信息定位方法,其能够实现 由以上参照图3至图4说明的信息定位装置300和信息定位装置400及其组成单元所执行的处理,并且能够获得类似的效果。

根据本公开实施例的信息定位方法能够利用根据本公开实施例的信息处理装置或方法来在与关注对象有关的网站中定位与关注对象有关的结构化的网页信息。所述信息定位方法可以包括:网站语义特征获取步骤,用于获取所述网站的目标部分的语义特征,该语义特征表示所述目标部分中的、与所述关注对象相关联的内容;网站样式特征获取步骤,用于获取所述网站的目标部分的样式特征,该样式特征表示所述目标部分的结构;相关度计算步骤,用于计算所述目标部分的语义特征与所述信息处理方法所获取的语义特征之间的语义相关度、以及所述目标部分的样式特征与所述信息处理方法所获取的样式特征之间的样式相关度;以及确定步骤,用于基于所计算的语义相关度和样式相关度,确定所述目标部分是否为所述结构化的网页信息。在所述网站样式特征获取步骤中,计算所述网站的目标部分的DOM树中的、与符合预定条件的节点有关的标签名、标识和类名的出现频率,并得到以所述出现频率为权重的网站样式向量,以作为所述目标部分的样式特征。

在一个优选实施例中,所述预定条件为预先获得的结构化的网页信息的DOM树中的节点的结构特性,并且,所述信息定位方法还可以包括:在所述网站语义特征获取步骤和所述网站样式特征获取步骤之前的网站结构特征获取步骤,用于获取所述网站的候选部分的DOM树中的节点的结构特征,并且在所述候选部分的DOM树中的节点的结构特征符合所述预先获得的结构化的网页信息的DOM树中的节点的结构特性时,将所述候选部分确定为所述目标部分。

在一个优选实施例中,在所述网站语义特征获取步骤中,可以计算所述网站的目标部分中所包括的词语的出现频率,并得到以所述出现频率为权重的语义向量,以作为所述目标部分的语义特征。

图6是示出了可用来实现根据本公开实施例的信息处理装置和方法的一种可能的硬件配置600的结构简图。

在图6中,中央处理单元(CPU)601根据只读存储器(ROM)602中存储的程序或从存储部分608加载到随机存取存储器(RAM)603的程序执行各种处理。在RAM 603中,还根据需要存储当CPU 601执行各种处理等等时所需的数据。CPU 601、ROM 602和RAM 603经由总线604彼此连接。输入/输出接口605也连接到总线604。

下述部件也连接到输入/输出接口605:输入部分606(包括键盘、鼠标等等)、输出部分607(包括显示器,例如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分608(包括硬盘等)、通信部分609(包括网络接口卡例如LAN卡、调制解调器等)。通信部分609经由网络例如因特网执行通信处理。根据需要,驱动器610也可连接到输入/输出接口605。可拆卸介质611例如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器610上,使得从中读出的计算机程序可根据需要被安装到存储部分608中。此外,本公开还提出了一种存储有机器可读取的指令代码的程序产品。上述指令代码由机器读取并执行时,可执行上述根据本公开实施例的图像处理方法。相应地,用于承载这种程序产品的例如磁盘、光盘、磁光盘、半导体存储器等的各种存储介质也包括在本公开的公开中。

在上面对本公开具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。

此外,本公开的各实施例的方法不限于按照说明书中描述的或者附图中示出的时间顺序来执行,也可以按照其他的时间顺序、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本公开的技术范围构成限制。

此外,显然,根据本公开的上述方法的各个操作过程也可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。

而且,本公开的目的也可以通过下述方式实现:将存储有上述可执行程序代码的存储介质直接或者间接地提供给系统或设备,并且该系统或设备中的计算机或者中央处理单元(CPU)读出并执行上述程序代码。

此时,只要该系统或者设备具有执行程序的功能,则本公开的实施方式不局限于程序,并且该程序也可以是任意的形式,例如,目标程序、解释器执行的程序或者提供给操作系统的脚本程序等。

上述这些机器可读存储介质包括但不限于:各种存储器和存储单元,半导体设备,磁盘单元例如光、磁和磁光盘,以及其它适于存储信息的介质等。

另外,客户信息处理终端通过连接到因特网上的相应网站,并且将依据本公开的计算机程序代码下载和安装到信息处理终端中然后执行该程 序,也可以实现本公开的各实施例。

综上,在根据本公开实施例中,本公开提供了如下方案,但不限于此:

方案1.一种信息处理装置,包括:

搜索单元,用于搜索与关注对象有关的结构化的网页信息;

语义特征获取单元,用于获取能够对搜索到的网页信息进行表征的语义特征,所述语义特征表示所搜索到的网页信息中的、与所述关注对象相关联的内容;以及

样式特征获取单元,用于获取能够对搜索到的网页信息进行表征的样式特征,所述样式特征表示所搜索到的网页信息的结构,

其中,所述样式特征获取单元被配置为计算搜索到的网页信息的DOM树中的、与给定节点有关的标签名、标识和类名的出现频率,并得到以所述出现频率为权重的样式向量,以作为所述样式特征。

方案2.如方案1所述的信息处理装置,其中,

所述语义特征获取单元被配置为:计算搜索到的网页信息当中的、与所述关注对象的互信息高于第一阈值的词语的出现频率,并得到以所述出现频率为权重的语义向量,以作为所述语义特征。

方案3.如方案2所述的信息处理装置,其中,所述语义特征获取单元进一步被配置为:

将搜索到的网页信息当中的、与所述关注对象的互信息高于第二阈值的词语作为关键词,并得到搜索到的网页信息当中的、与所述关键词的互信息高于所述第一阈值且与所述关注对象的互信息不高于所述第一阈值的词语,其中所述第二阈值高于所述第一阈值;以及

计算所得到的词语在搜索到的网页信息当中的出现频率,并将该出现频率作为新的权重加入所述语义向量中。

方案4.如方案1所述的信息处理装置,其中,

所述与给定节点有关的标签名、标识和类名包括从所述DOM树的根节点到所述给定节点的路径中所包括的节点的标签名、标识和类名。

方案5.如方案1所述的信息处理装置,其中,

所述与关注对象有关的结构化的网页信息为与关注对象有关的新闻类型的网页信息。

方案6.如方案5所述的信息处理装置,其中,

所述给定节点包括时间节点、标题节点和正文节点。

方案7.一种信息定位装置,其利用如方案1-6中任一项所述的信息处理装置在与所述关注对象有关的网站中定位与所述关注对象有关的结构化的网页信息,所述信息定位装置包括:

网站语义特征获取单元,用于获取所述网站的目标部分的语义特征,该语义特征表示所述目标部分中的、与所述关注对象相关联的内容;

网站样式特征获取单元,用于获取所述网站的目标部分的样式特征,该样式特征表示所述目标部分的结构;

相关度计算单元,用于计算所述目标部分的语义特征与所述信息处理装置所获取的语义特征之间的语义相关度、以及所述目标部分的样式特征与所述信息处理装置所获取的样式特征之间的样式相关度;以及

确定单元,用于基于所计算的语义相关度和样式相关度,确定所述目标部分是否为所述结构化的网页信息,

其中,所述网站样式特征获取单元302被配置为:计算所述网站的目标部分的DOM树中的、与符合预定条件的节点有关的标签名、标识和类名的出现频率,并得到以所述出现频率为权重的网站样式向量,以作为所述目标部分的样式特征。

方案8.如方案7所述的信息定位装置,其中,所述预定条件为预先获得的结构化的网页信息的DOM树中的节点的结构特性,

并且,所述信息定位装置还包括:网站结构特征获取单元,用于获取所述网站的候选部分的DOM树中的节点的结构特征,并且在所述候选部分的DOM树中的节点的结构特征符合所述预先获得的结构化的网页信 息的DOM树中的节点的结构特性时,将所述候选部分提供给所述网站语义特征获取单元和所述网站样式特征获取单元作为所述目标部分。

方案9.如方案7所述的信息定位装置,其中,

所述网站语义特征获取单元被配置为:计算所述网站的目标部分中所包括的词语的出现频率,并得到以所述出现频率为权重的语义向量,以作为所述目标部分的语义特征。

方案10.一种信息处理方法,包括:

搜索与关注对象有关的结构化网页信息;

获取能够对搜索到的网页信息进行表征的语义特征,所述语义特征表示所搜索到的网页信息中的、与所述关注对象相关联的内容;以及

获取能够对搜索到的网页信息进行表征的样式特征,所述样式特征表示所搜索到的网页信息的结构,

其中,获取所述样式特征包括:计算搜索到的网页信息的DOM树中的、与给定节点有关的标签名、标识和类名的出现频率,并得到以所述出现频率为权重的样式向量,以作为所述样式特征。

方案11.如方案10所述的信息处理方法,其中,获取所述语义特征包括:

计算搜索到的网页信息当中的、与所述关注对象的互信息高于第一阈值的词语的出现频率,并得到以所述出现频率为权重的语义向量,以作为所述语义特征。

方案12.如方案11所述的信息处理方法,其中,获取所述语义特征还包括:将搜索到的网页信息当中的、与所述关注对象的互信息高于第二阈值的词语作为关键词,并得到搜索到的网页信息当中的、与所述关键词的互信息高于所述第一阈值且与所述关注对象的互信息不高于所述第一阈值的词语,其中所述第二阈值高于所述第一阈值;以及

计算所得到的词语在搜索到的网页信息当中的出现频率,并将该出现 频率作为新的权重加入所述语义向量中。

方案13.如方案10所述的信息处理方法,其中,

所述与给定节点有关的标签名、标识和类名包括从所述DOM树的根节点到所述给定节点的路径中所包括的节点的标签名、标识和类名。

方案14.如方案10所述的信息处理方法,其中,

所述与关注对象有关的网页信息为与关注对象有关的新闻类型的网页信息。

方案15.如方案14所述的信息处理方法,其中,

所述给定节点包括时间节点、标题节点和正文节点。

最后,还需要说明的是,在本公开中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

尽管上面已经通过本公开的具体实施例的描述对本公开进行了披露,但是,应该理解,本领域技术人员可在所附权利要求的精神和范围内设计对本公开的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本公开所要求保护的范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1