信息提取方法和装置的制造方法_2

文档序号:9911130阅读:来源:国知局
实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
[0029]图1示出了可以应用本申请的信息提取方法或信息提取装置的实施例的示例性系统架构100。
[0030]如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
[0031]用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、搜索类应用、新闻类应用、即时通信工具、邮箱客户端、社交平台软件等。
[0032]终端设备101、102、103可以是支持信息处理的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Aud1 LayerIII,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Aud1Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
[0033]服务器105可以是提供各种服务的服务器,例如为终端设备101、102、103提供网页文件信息的后台网页服务器。后台网页服务器可以将互联网上的网页文件发送给终端设备,也可以将互联网上的网页文件进行信息分析、提取等处理后将处理结果发送给终端设备。
[0034]需要说明的是,本申请实施例所提供的信息提取方法可以由服务器105单独执行,也可以由终端设备101、102、103和服务器105共同执行,还可以由终端设备101、102、103单独执行。相应地,信息提取装置可以设置于终端设备101、102、103中,也可以将信息提取装置设置于服务器105中,还可以将信息提取装置的部分单元设置于服务器105中。
[0035]应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
[0036]继续参考图2,示出了根据本申请的信息提取方法的一个实施例的流程200。所述的信息提取方法,包括以下步骤:
[0037]步骤201,将预先获取的网页文件解析为标签树结构,并从标签树的节点中识别出网页文件中的网页正文所在的至少一个正文节点。
[0038]在本实施例中,信息提取方法运行于其上的电子设备可以预先从本地或远程获取网页文件,例如,当上述电子设备为网页服务器时可以从本地获取网页文件,当上述电子设备为移动终端时可以通过有线连接方式或者无线连接方式从网页服务器获取网页文件。其中,上述网页文件可以是各种格式的文件,例如html格式、xhtml格式、dhtml格式、asp格式、php格式、jsp格式、shtml格式、nsp格式、xml格式。上述电子设备可以将上述网页文件解析为标签树结构,即将网页文件中的标签按照嵌套关系整理成一棵树状结构。上述电子设备还可以将解析得到的标签树进行过滤处理,去除与网页正文无关的信息所在的节点,其中,上述与网页正文无关的信息可以包括但不限于导航信息、版权声明信息、广告信息等。上述电子设备还可以根据各个节点的所包含的内容进一步从标签树的节点中识别出网页正文所在的至少一个正文节点,例如,可以将包含文本的字数大于设定数量、包含的链接文字少于设定数量的节点设别为正文节点。需要指出的是,上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
[0039]在本实施例的一些可选的实现方式中,上述电子设备可以首先将预先获取的网页文件进行规范化处理,使上述网页文件符合超文本标记语言规范,例如将只有〈title〉标签,而没有对应的〈/title〉标签的网页文件中补全〈/title〉,又例如补全〈I i>、〈hr>等结束标签;之后,对对规范化的网页文件进行文档对象模型(D0M,Document Object Model)树解析,生成标签树;最后,依次访问生成的标签树的各个节点,并根据各个节点包含的内容确定出正文节点。例如,分别统计标签树的各个节点包含的文本字数、链接文本字数、段落个数、以及包含的叶子节点中文本个数的方差等统计量,并将统计量与预先设定的阈值进行比较,选取满足条件的节点为正文节点,例如将文本字数多、链接文本字数少、段落个数多、以及包含的叶子节点中文本个数的方差大的节点识别为正文节点。
[0040]步骤202,将至少一个正文节点包含的内容进行段落划分,生成各个段落块,并根据各个段落块关联的标签的属性为各个段落块设定标签属性。
[0041]在本实施例中,上述电子设备可以将上述至少一个正文节点中包含的文本内容进行段落划分,生成各个段落块,每一个段落块与上述网页文件对应的网页正文上的段落相对应,同时,根据各个段落块所关联的标签的属性(例如颜色、加粗、链接、数字列表、非数字列表等)为各个段落块设定标签属性。
[0042]在本实施例的一些可选的实现方式中,上述电子设备可以首先从至少一个正文节点包含的内容中识别出网页文件的网页内容的标题,例如上述电子设备可以根据各个节点包含的内容在上述网页文件对应的网页正文中所在的位置、以及各个节点中包含的文本内容,从步骤201中得到的至少一个正文节点中识别出上述网页文件的网页内容的标题;之后将上述至少一个正文节点包含的内容中的、该标题之外的内容进行段落划分,生成各个段落块。
[0043]可选的,上述电子设备可以首先根据至少一个正文节点包含的内容在上述网页内容中的位置,从上述至少一个正文节点中选取至少一个候选标题节点,例如,上述电子设备可以查找到网页内容上部设定范围内的文本内容对应的节点,并将查找到的节点作为候选标题节点;之后,计算各个候选标题节点内的文本与上述网页文件的标题(title)标签对应的文本的编辑距离,以及各个候选标题节点内的文本与锚(anchor)标签对应的文本的编辑距离;然后,根据各个候选标题节点内的标签信息以及所计算的编辑距离将各个候选标题节点进行排序,例如按编辑距离由小到大的顺序进行排序;最后,根据排序结果从上述至少一个候选标题节点中确定一个正文标题节点,并将上述正文标题节点内的文本确定为网页内容的标题。可选的,上述电子设备还可以根据排序结果和与各个候选标题节点关联的标签从上述至少一个候选标题节点中确定一个正文标题节点,例如选取包含标题标签(H标签)、加粗(strong)标签等标题容易出现的标签的,且编辑距离小设定值的候选标题节点为正文标题节点。
[0044]在本实施例的一些可选的实现方式中,上述电子设备可以首先识别各个正文节点中的至少一个块元素,如果块元素中包含子块元素,则利用子块元素和换行(br)标签对正文节点中包含的文本进行段落划分,得到至少一个段落块;否则,利用换行标签对正文节点中包含的文本进行段落划分,得到至少一个段落块;之后,根据块元素以及子块元素中关联的标签的属性(例如颜色、加粗、链接、数字列表、非数字列表等)为各个段落块设定标签属性。
[0045]步骤203,基于各个段落块的标签属性将各个段落块包含的文本内容进行分类。
[0046]在本实施例中,上述电子设备可以基于步骤202中得到各个段落块以及各个段落块的标签属性,将各个段落块中包含的文本内容进行分类。例如,可以将标签属性相同的段落块划分为同一类。
[0047]步骤204,基于分类结果从段落块包含的文本内容中提取包含问题和答案的信息。
[0048]在本实施例中,上述电子设备可以采用现有的自然语言处理分析技术对步骤203中得到的分类结果进行分析处理,从各个段落块中所包含的文本内容中提取出问题,例如对各个段落块中所包含的文本内容进行分词、语义分析等一系列处理,从各个段落块中所包含的文本内容中提取出疑问句。提取出问题之后,上述电子设备可以根据提取出的问题在上述网页内容中的位置以及各个段落块中所包含的文本内容提取出与该问题对应的答案。
[0049]继续参见图3,图3是根据本实施例的信息提取方法的应用场景的一个示意图。在图3的应用场景中,用户通过利用其进行网页浏览的终端设备输入待搜索答案的问题“前列腺炎的症状”,网页服务器可以从预先存储的多条问题和答案的信息中搜索与问题“前列腺炎的症状”相关联的问题和答案,并将搜索到的问题和答案推送给用户,就会如图3所示。其中,预先存储的多条问题和答案的信息是通过以下方式获取的:首先,将预先获取的网页文件解析为标签树结构,并从标签树中识别出该网页文件的网页正文所在的至少一个正文节点;然后,对正文内容进行段落划分得到段落块,并设定各个段落块的标签属性;最后,对各个段落块包含的文本内容进行分类,
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1