获取网页中影视主体的方法及装置制造方法

文档序号:6508237阅读:207来源:国知局
获取网页中影视主体的方法及装置制造方法
【专利摘要】本发明涉及网络数据通信领域,其公开了一种获取网页中影视主体的方法及装置。该方法包括:在待挖掘影视主体的网页中抽取待挖掘文本,并根据预设切分规则对待挖掘文本进行切分,得到句子集合;在句子集合中,提取所有句子的最长公共子句作为候选影视主体;根据候选影视主体确定该网页的影视主体。通过本发明,能够避免现有技术中当存在大量需要解析的网站时,编写包装器的繁琐过程,还克服当网页结构经常发生变化时,由于无法实时地检测出网页结构的变化,而造成解析失败的缺陷。
【专利说明】获取网页中影视主体的方法及装置
【技术领域】
[0001]本发明涉及网络数据通信领域,特别是涉及ー种获取网页中影视主体的方法及装置。
【背景技术】
[0002]垂直捜索技术是针对某ー特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。用户可以通过垂直搜索获取到更加专业化、精准的信息。
[0003]现如今,垂直搜索已广泛应用到了对网页的捜索当中,例如,影视垂直捜索技木,主要用于识别网页中的影视主体。目前,在识别网页中影视主体的挖掘算法中,大多采用基于模板的影视主体提取方法,即使用包装器分析网页结构并构造出相应的正则表达式模板,从而在网页中进行网页影视主体数据的抽取。可见,现有方案依需要依赖于网页HTML(Hypertext Markup Language,超文本标记语言)内部结构特征,才能完成数据的抽取。
[0004]但是,发明人发现,现有技术中存在如下问题:在网页中获取影视主体时所使用的包装器是通过分析网页源代码来编写的,当存在大量需要解析的网站时,编写包装器的エ作量就会非常庞大,甚至难以完成。另外,当网页结构经常发生变化时,可能会导致无法实时地检测出网页结构的变化,从而造成解析失败,进而降低了获取网页中影视主体的效率。

【发明内容】

[0005]鉴于上述问题,提出了本发明以便提供ー种克服上述问题或者至少部分地解决上述问题的适于获取网页中影视主体的方法及相应的装置。
[0006]依据本发明的ー个方面,提供了ー种获取网页中影视主体的方法,包括:
[0007]在待挖掘影视主体的网页中抽取待挖掘文本,井根据预设切分规则对待挖掘文本进行切分,得到句子集合;
[0008]在句子集合中,提取所有句子的最长公共子句作为候选影视主体;
[0009]根据候选影视主体确定该网页的影视主体。
[0010]可选地,根据候选影视主体确定该网页的影视主体,包括:
[0011]根据预设提取规则在待挖掘文本中提取无意义子句,组成无意义子句集合;
[0012]使用无意义子句集合对候选影视主体进行清洗,得到该网页的影视主体。
[0013]可选地,在待挖掘影视主体的网页中抽取待挖掘文本,包括:
[0014]对待挖掘影视主体的网页内容进行归一化处理;
[0015]在归ー化处理后的网页内容中,抽取预设类型的信息作为待挖掘文本。
[0016]可选地,对待挖掘影视主体的网页内容进行归一化处理,包括下列至少之ー的组合:
[0017]将待挖掘影视主体的网页内容中的标点符号统ー转换成英文标点符号;
[0018]将待挖掘影视主体的网页内容中的数字统ー转换成阿拉伯数字;
[0019]将待挖掘影视主体的网页内容中的字体统ー转换成简体字;[0020]将待挖掘影视主体的网页内容中的英文字母统ー转换成小写英文字母。
[0021]可选地,在归ー化处理后的网页内容中,抽取预设类型的信息作为待挖掘文本,包括:
[0022]抽取下列至少之ー的信息,作为待挖掘文本:
[0023]归ー化处理后的网页内容头部信息中的标题信息、关键字信息和描述信息,该网页内容正文信息中的属性信息。
[0024]可选地,根据预设切分规则对待挖掘文本进行切分,包括:
[0025]使用第一预设标点符号对待挖掘文本中的关键字信息、描述信息及属性信息进行句子切分,其中,第一预设标点符号包括下列中的至少ー个:逗号、句号、换行符。
[0026]可选地,在句子集合中,提取所有句子的最长公共子句作为候选影视主体,包括:
[0027]在句子集合中,分别计算每个句子与标题信息的最长公共子句,得到第一子句集合;
[0028]在第一子句集合中,计算每两个子句的最长公共子句,得到第二子句集合;
[0029]统计第二子句集合中每个句子的频度,取出频度最高的部分子句,在其中选择出长度最长的句子作为所有句子的最长公共子句,并将其作为候选影视主体。
[0030]可选地,根据预设提取规则在待挖掘文本中提取无意义子句,组成无意义子句集合,包括:
[0031]根据预设提取规则,对待挖掘文本中的标题信息和关键字信息进行子句切分;
[0032]收集海量网页内容,统计切分得到的每个子句的频度,并将频度大于预设值的子句组成无意义子句集合。
[0033]可选地,根据预设提取规则,对待挖掘文本中的标题信息和关键字信息进行子句切分,包括:
[0034]在待挖掘文本中的标题信息和关键字信息中,将每两个第二预设标点符号之间的字符串作为ー个子句,其中,第二预设标点符号包括逗号和/或破折号;
[0035]对于切分后得到的每个子句而言,
[0036]若该子句中包含候选影视主体,则在候选影视主体的所在位置处将该子句进行切分。
[0037]可选地,使用无意义子句集合对候选影视主体进行清洗,得到该网页的影视主体,包括:
[0038]若候选影视主体不存在于无意义子句集合中,则确认该候选影视主体为该网页的影视主体;
[0039]若候选影视主体存在于无意义子句集合中,则根据预设提取规则,对网页头部信息中的标题信息进行切分;
[0040]在切分后的子句中选择最左边且未出现在无意义子句集合中的子句,作为新候选影视主体;以及
[0041]从新候选影视主体中清除出现在无意义子句集合中的部分,得到该网页的影视主体。
[0042]依据本发明的ー个方面,还提供了ー种获取网页中影视主体的装置,包括:
[0043]文本抽取器,配置为在待挖掘影视主体的网页中抽取待挖掘文本;[0044]切分器,配置为根据预设切分规则对待挖掘文本进行切分,得到句子集合;
[0045]主体提取器,配置为在切分器切分得到的句子集合中,提取所有句子的最长公共子句作为候选影视主体;
[0046]影视主体确定器,配置为根据主体提取器所获取的候选影视主体确定该网页的影视主体。
[0047]可选地,影视主体确定器包括:
[0048]无意义子句提取单元,配置为根据预设提取规则在待挖掘文本中提取无意义子句,组成无意义子句集合;
[0049]过滤单元,配置为使用无意义子句集合对候选影视主体进行清洗,得到该网页的影视主体。
[0050]可选地,文本抽取器包括:
[0051]处理单元,配置为对待挖掘影视主体的网页内容进行归一化处理;
[0052]抽取单元,配置为在归一化处理后的网页内容中,抽取预设类型的信息作为待挖掘文本。
[0053]可选地,处理单元配置为对下列至少之ー的组合进行归ー化处理:
[0054]将待挖掘影视主体的网页内容中的标点符号统ー转换成英文标点符号;
[0055]将待挖掘影视主体的网页内容中的数字统ー转换成阿拉伯数字;
[0056]将待挖掘影视主体的网页内容中的字体统ー转换成简体字;
[0057]将待挖掘影视主体的网页内容中的英文字母统ー转换成小写英文字母。
[0058]可选地,抽取单元配置为抽取下列至少之ー的信息,作为待挖掘文本:
[0059]归ー化处理后的网页内容头部信息中的标题信息、关键字信息和描述信息,该网页内容正文信息中的属性信息。
[0060]可选地,切分器还配置为使用第一预设标点符号对待挖掘文本中的关键字信息、描述信息及属性信息进行句子切分,得到句子集合;
[0061]其中,第一预设标点符号包括下列中的至少ー个:逗号、句号、换行符。
[0062]可选地,主体提取器包括:
[0063]计算单元,配置为在句子集合中,分别计算每个句子与标题信息的最长公共子句,得到第一子句集合;以及
[0064]在第一子句集合中,计算每两个子句的最长公共子句,得到第二子句集合;
[0065]选取单元,配置为统计第二子句集合中每个句子的频度,取出频度最高的部分子句,在其中选择出长度最长的句子作为所有句子的最长公共子句,并将其作为候选影视主体。
[0066]可选地,无意义子句提取单元配置为按照如下方式获取无意义子句集合:
[0067]根据预设提取规则,对待挖掘文本中的标题信息和关键字信息进行子句切分;
[0068]收集海量网页内容,统计切分得到的每个子句的频度,并将频度大于预设值的子句组成无意义子句集合。
[0069]可选地,无意义子句提取单元还配置为按照如下方式执行切分操作:
[0070]在待挖掘文本中的标题信息和关键字信息中,将每两个第二预设标点符号之间的字符串作为ー个子句,其中,第二预设标点符号包括逗号和/或破折号;[0071]对于切分后得到的每个子句而言,
[0072]若该子句中包含候选影视主体,则在候选影视主体的所在位置处将该子句进行切分。
[0073]可选地,过滤单元还配置为:
[0074]判断候选影视主体是否存在于无意义子句集合中;
[0075]若候选影视主体不存在于无意义子句集合中,则确认该候选影视主体为该网页的影视主体;
[0076]若候选影视主体存在于无意义子句集合中,则根据预设提取规则,对网页头部信息中的标题信息进行切分;
[0077]在切分后的子句中选择最左边且未出现在无意义子句集合中的子句,作为新候选影视主体;
[0078]从新候选影视主体中清除出现在无意义子句集合中的部分,得到该网页的影视主体。
[0079]本发明提供了一种获取网页中影视主体的方法及装置,通过本发明,能够在待获取影视主体的网页中提取待挖掘文本,并以对待挖掘文本进行切分的方式来获取网页的影视主体。本发明避免了现有技术中当存在大量需要解析的网站时,编写包装器的繁琐过程,降低了设备的处理压力,从而能够实现快速、准确地对大量的网站进行影视主体的提取。进一步本发明实施例还克服了当网页结构经常发生变化时,由于无法实时地检测出网页结构的变化,而造成解析失败的缺陷。
[0080]上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的【具体实施方式】。
【专利附图】

【附图说明】
[0081]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0082]图1是根据本发明一个实施例的一种获取网页中影视主体的方法流程图;
[0083]图2是根据本发明一个实施例的一种获取网页中影视主体的具体方法流程图;
[0084]图3是根据本发明一个实施例的网页头部信息的内容示意图;
[0085]图4是根据本发明一个实施例的包含属性信息的网页正文信息内容示意图;
[0086]图5是根据本发明一个实施例的提取候选影视主体的方法流程图;
[0087]图6是根据本发明一个实施例的一种获取网页中影视主体的装置框图。
【具体实施方式】
[0088]下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应该被这里阐述的实施例所限制。相反,提供这些实施例是为了能够透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。[0089]实施例一
[0090]本发明实施例提供了一种获取网页中影视主体的方法。该方法对能够提取网页中影视主体的设备进行了改进,例如,本实施例中的设备可以为用户终端,也可以为服务器,本实施例中的终端可以为PC (Personal Computer,个人计算机)、手机、手持电脑等。
[0091]图1是根据本发明一个实施例的一种获取网页中影视主体的方法流程图。该方法具体包括步骤S102至S106。
[0092]S102,在待挖掘影视主体的网页中抽取待挖掘文本,并根据预设切分规则对待挖掘文本进行切分,得到句子集合。
[0093]可选地,上述预设规则为根据待挖掘文本的内容预先制定的切分规则,具体实现过程在以下实施例中进行具体说明。
[0094]S104,在句子集合中,提取所有句子的最长公共子句作为候选影视主体。
[0095]S106,根据候选影视主体确定该网页的影视主体。
[0096]根据本发明提供的一种获取网页中影视主体的方法,能够在待获取影视主体的网页中提取待挖掘文本,并以对待挖掘文本进行切分的方式来获取网页的影视主体。可见,与现有技术相比,本实施例所提供的方法无需使用预先编写的包装器来分析网页结构,避免了现有技术中当存在大量需要解析的网站时,编写包装器的繁琐过程,降低了设备的处理压力,从而能够实现快速、准确地对大量的网站进行影视主体的提取。进一步本发明实施例还克服了当网页结构经常发生变化时,由于无法实时地检测出网页结构的变化,而造成解析失败的缺陷。
[0097]实施例二
[0098]本实施例为本发明的一个具体应用场景,通过本实施例,能够更加清楚、具体地阐述本发明所提供的方法。
[0099]图2是根据本发明一个实施例的一种获取网页中影视主体的具体方法流程图。该方法具体包括步骤S201至S206,下面对该方法进行具体介绍。
[0100]S201,获取待挖掘影视主体的网页的内容,并对该网页的内容进行归一化处理。
[0101]需要说明的是,网页内容是由特定格式的字符串组成的,设备在对网页内容进行处理时,要先读取和识别网页内容。其中,网页内容中通常包括标点符号、数字和字母等,这些字符串并不一定以一个统一的形态进行呈现,如网页内容中可能包括了大写字母,同时也包括了小写字母等,而这些非统一形态的字符这串不利于设备对网页内容的识别,使得设备对网页处理的效率较低。
[0102]由上述分析可知,为了使得设备能够较为快捷地对网页内容进行识别和处理,首先要对网页内容进行归一化处理,使得网页中不同类型的字符串进行统一。其中,归一化处理的过程具体包括:如果网页内容中包含标点符号,则将该网页内容中的标点符号统一转换成英文标点符号,如果网页内容中包含有数字,则该网页内容中的数字统一转换成阿拉伯数字,如果网页内容中包含有简体字和繁体字,则将该网页内容中的字体统一转换成简体字,如果网页内容中包含有英文字母,则将该网页内容中的英文字母统一转换成小写英文字母。归一化处理能够规范网页所包括的内容,利于设备对网页内容的识别,从而提高设备对网页内容处理的效率。
[0103]在对网页内容进行归一化处理之后,继续执行步骤S202。在步骤S202中,从归一化处理后的网页内容中抽取预设类型的信息作为待挖掘文本。
[0104]需要提及的是,网页通常以HTML格式进行编写,所以,网页内容中会包括头部信息和正文信息两部分。可选地,基于该两部分信息,步骤S202在对待挖掘文本进行提取时,可以分为以下两个阶段进行。
[0105]第一个阶段,使用正则表达式,在网页的头部信息中获取标题信息(Titletext)、关键字信息(Keyword text)及描述信息(Description text),将该三部分信息作为第一类文本。本实施例中,使用正则表达式只是本发明的一个较佳地实施方式,还可以使用其他的方法来获取第一类文本,本实施例不再进行具体说明。另外,本实施例中,选择上述三种信息为第一类文本的依据为:为了搜索设备便于对网页进行搜索,目前与影视相关的网站均为搜索设备做了优化,为了方便设备的搜索,网页的影视主体大都会出现在网页头部信息的标题信息、关键字信息及描述信息中。所以,该三部分信息提取,能够确保在后续的处理中获取到准确的影视主体。
[0106]第二阶段,若网页的正文信息中包含有属性信息,则还需在网页的正文信息中获取属性信息(Attribute text),将其作为第二类文本。需要说明的是,部分网页的正文内容中并未包含有属性信息,这种情况,只获取上述第一类文本作为待挖掘文本即可。本实施例选中,当网页的正文信息中包含有属性信息时,选择属性信息为第二类文本的依据为:在含有影视主体的网页中,通常会存在大量的和影视相关的属性信息,如影视名,演员名,导演,类型,更新时间,播放地址等。这些属性信息经常和影视名称出现在一起,因此抽取出正文信息中的属性信息作为第二类文本也能够确保在后续的处理中获取到准确的影视主体。
[0107]为了更加清楚地展现步骤S202所获取的待挖掘文本,现以图3和图4中所示的网页内容为例进行举例说明。其中,图3是根据本发明一个实施例的网页头部信息的内容示意图,图4是根据本发明一个实施例的包含属性信息的网页正文信息内容示意图。此时,根据图3和图4的内容所获取的待挖掘文本如表一所不。其中,表一的第一行为该网页的URL(Uniform Resource Locator,统一资源定位符),该行内容不属于待挖掘文本,表一的第二至四行为在图3所示的头部信息中选择的第一类文本为,表一的第五行为在图4所示的正文信息中选择的第二类文本。
[0108]表一
[0109]
【权利要求】
1.ー种获取网页中影视主体的方法,包括: 在待挖掘影视主体的网页中抽取待挖掘文本,井根据预设切分规则对所述待挖掘文本进行切分,得到句子集合; 在所述句子集合中,提取所有句子的最长公共子句作为候选影视主体; 根据所述候选影视主体确定该网页的影视主体。
2.根据权利要求1所述的方法,其中,所述根据所述候选影视主体确定该网页的影视主体,包括: 根据预设提取规则在所述待挖掘文本中提取无意义子句,组成无意义子句集合; 使用所述无意义子句集合对所述候选影视主体进行清洗,得到该网页的影视主体。
3.根据权利要求1或2所述的方法,其中,所述在待挖掘影视主体的网页中抽取待挖掘文本,包括: 对所述待挖掘影视主体的网页内容进行归一化处理; 在归ー化处理后的网页内容中,抽取预设类型的信息作为待挖掘文本。
4.根据权利要求1至3任一项所述的方法,其中,所述在归一化处理后的网页内容中,抽取预设类型的信息作为待挖掘文本,包括: 抽取下列至少之ー的信息,作为所述待挖掘文本: 归ー化处理后的网页内容头部信息中的标题信息、关键字信息和描述信息,该网页内容正文信息中的属性信息。
5.根据权利要求1至4任一项所述的方法,其中,在所述句子集合中,提取所有句子的最长公共子句作为候选影视主体,包括: 在所述句子集合中,分别计算每个句子与所述标题信息的最长公共子句,得到第一子句集合; 在所述第一子句集合中,计算每两个子句的最长公共子句,得到第二子句集合; 统计所述第二子句集合中每个句子的频度,取出频度最高的部分子句,在其中选择出长度最长的句子作为所有句子的最长公共子句,并将其作为候选影视主体。
6.ー种获取网页中影视主体的装置,包括: 文本抽取器,配置为在待挖掘影视主体的网页中抽取待挖掘文本; 切分器,配置为根据预设切分规则对所述待挖掘文本进行切分,得到句子集合; 主体提取器,配置为在所述切分器切分得到的句子集合中,提取所有句子的最长公共子句作为候选影视主体; 影视主体确定器,配置为根据所述主体提取器所获取的候选影视主体确定该网页的影视主体。
7.根据权利要求6所述的装置,其中,所述影视主体确定器包括: 无意义子句提取单元,配置为根据预设提取规则在所述待挖掘文本中提取无意义子句,组成无意义子句集合; 过滤单元,配置为使用所述无意义子句集合对所述候选影视主体进行清洗,得到该网页的影视主体。
8.根据权利要求6或7所述的装置,其中,所述文本抽取器包括: 处理单元,配置为对所述待挖掘影视主体的网页内容进行归一化处理;抽取单元,配置为在归一化处理后的网页内容中,抽取预设类型的信息作为待挖掘文本。
9.根据权利要求6至8任一项所述的装置,其中,所述抽取単元配置为抽取下列至少之一的信息,作为所述待挖掘文本: 归ー化处理后的网页内容头部信息中的标题信息、关键字信息和描述信息,该网页内容正文信息中的属性信息。
10.根据权利要求6至9任一项所述的装置,其中,所述主体提取器包括: 计算单元,配置为在所述句子集合中,分别计算每个句子与所述标题信息的最长公共子句,得到第一子句集合;以及 在所述第一子句集合中,计算每两个子句的最长公共子句,得到第二子句集合; 选取单元,配置为统计所述第二子句集合中每个句子的频度,取出频度最高的部分子句,在其中选择出长度最长的句子作为所有句子的最长公共子句,并将其作为候选影视主体。 ·
【文档编号】G06F17/30GK103455572SQ201310364935
【公开日】2013年12月18日 申请日期:2013年8月20日 优先权日:2013年8月20日
【发明者】孙林, 陈培军, 秦吉胜 申请人:北京奇虎科技有限公司, 奇智软件(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1