信息提取方法和装置的制造方法

文档序号:9911130阅读:218来源:国知局
信息提取方法和装置的制造方法
【技术领域】
[0001]本申请涉及计算机技术领域,具体涉及信息技术领域,尤其涉及信息提取方法和
目.0
【背景技术】
[0002]随着互联网技术的蓬勃发展,互联网上的信息资源越来越丰富。一方面,搜索引擎为网络用户在互联网上快速找到所求信息提供了极大的便利。另一方面,随着互联网上资源的增多,以及搜索引擎中用户行为数据的积累,搜索引擎具备了提供自动问答的能力。相比于传统的搜索引擎,自动问答系统的搜索结果不再是一个排好序的网页列表,而是直接从相关网页中抽取出来的答案,用户无需再花费时间从网页中寻找答案,从而节约了用户时间。
[0003]由于自动问答系统索引的内容不再是整篇网页的内容,而是网页内容中包含问答的一个段落或者几句话,且互联网上天然存在的问题以及问题答案的资源较少,因此需要从网页内容中提取问题以及问题答案的信息。

【发明内容】

[0004]本申请的目的在于提出一种改进的信息提取方法和装置,来解决以上【背景技术】部分提到的技术问题。
[0005]第一方面,本申请提供了一种信息提取方法,所述方法包括:将预先获取的网页文件解析为标签树结构,并从所述标签树的节点中识别出所述网页文件中的网页正文所在的至少一个正文节点;将所述至少一个正文节点包含的内容进行段落划分,生成各个段落块,并根据各个段落块关联的标签的属性为各个段落块设定标签属性;基于各个段落块的标签属性将各个段落块包含的文本内容进行分类;基于分类结果从段落块包含的文本内容中提取包含问题和答案的信息。
[0006]在一些实施例中,所述将所述至少一个正文节点包含的内容进行段落划分,生成各个段落块,包括:从所述至少一个正文节点包含的内容中识别出所述网页文件的网页内容的标题;将所述至少一个正文节点包含的内容中的、所述标题之外的内容进行段落划分,生成各个段落块。
[0007]在一些实施例中,所述将预先获取的网页文件解析为标签树结构,并从所述标签树的节点中识别出所述网页文件中的网页正文所在的至少一个正文节点,包括:将预先获取的网页文件进行规范化处理,使所述网页文件符合超文本标记语言规范;对规范化的网页文件进行文档对象模型树解析,生成标签树;访问所述标签树的各个节点,并根据各个节点包含的内容确定出正文节点。
[0008]在一些实施例中,所述从所述至少一个正文节点包含的内容中识别出所述网页文件的网页内容的标题,包括:根据所述至少一个正文节点包含的内容在所述网页内容中的位置,从所述至少一个正文节点中选取至少一个候选标题节点;计算各个候选标题节点内的文本与所述网页文件的标题标签对应的文本的编辑距离,以及各个候选标题节点内的文本与锚标签对应的文本的编辑距离;根据各个候选标题节点内的标签信息以及所计算的编辑距离将各个候选标题节点进行排序;根据排序结果从所述至少一个候选标题节点中确定一个正文标题节点,并将所述正文标题节点内的文本确定为网页内容的标题。
[0009]在一些实施例中,所述将所述至少一个正文节点包含的内容进行段落划分,生成各个段落块,并根据各个段落块关联的标签的属性为各个段落块设定标签属性,包括:识别各个正文节点中的至少一个块元素;如果块元素中包含子块元素,则利用子块元素和换行标签对正文节点中包含的文本进行段落划分,得到至少一个段落块;否则,利用换行标签对正文节点中包含的文本进行段落划分,得到至少一个段落块;根据块元素以及子块元素中关联的标签的属性为各个段落块设定标签属性。
[0010]在一些实施例中,所述基于各个段落块的标签属性将各个段落块包含的文本内容进行分类,包括:将标签属性相同的段落块划分为同一段落块集合;根据各个段落块集合中的各个段落块包含的字符数以及各个段落块之间的行间隔识别出各个分块集合中的短标题结构;将各个段落块集合中的非短标题结构的段落块根据包含的文本进行分类。
[0011]在一些实施例中,所述基于分类结果从段落块包含的文本内容中提取包含问题和答案的信息,包括:根据识别出来的短标题结构对网页文件对应的网页正文内容进行逻辑块划分;利用正则表达式判断各个短标题结构是否是问题,如果是问题,则将该短标题设定为候选问题;根据候选问题在所述网页内容中的位置以及网页内容的逻辑块划分结果提取与候选问题对应的候选答案;基于候选问题与候选答案之间所间隔的行数、候选答案中数字编号是否连续、答案条目数、答案中被判定为问题的条目数中的至少一项,提取包含问题和答案的信息。
[0012]第二方面,本申请提供了一种信息提取装置,所述装置包括:解析单元,配置用于将预先获取的网页文件解析为标签树结构,并从所述标签树的节点中识别出所述网页文件中的网页正文所在的至少一个正文节点;划分单元,配置用于将所述至少一个正文节点包含的内容进行段落划分,生成各个段落块,并根据各个段落块关联的标签的属性为各个段落块设定标签属性;分类单元,配置用于基于各个段落块的标签属性将各个段落块包含的文本内容进行分类;提取单元,配置用于基于分类结果从段落块包含的文本内容中提取包含问题和答案的信息。
[0013]在一些实施例中,所述划分单元包括:识别子单元,配置用于从所述至少一个正文节点包含的内容中识别出所述网页文件的网页内容的标题;划分子单元,配置用于将所述至少一个正文节点包含的内容中的、所述标题之外的内容进行段落划分,生成各个段落块。
[0014]在一些实施例中,所述解析单元进一步配置用于:将预先获取的网页文件进行规范化处理,使所述网页文件符合超文本标记语言规范;对规范化的网页文件进行文档对象模型树解析,生成标签树;访问所述标签树的各个节点,并根据各个节点包含的内容确定出正文节点。
[0015]在一些实施例中,所述识别子单元进一步配置用于:根据所述至少一个正文节点包含的内容在所述网页内容中的位置,从所述至少一个正文节点中选取至少一个候选标题节点;计算各个候选标题节点内的文本与所述网页文件的标题标签对应的文本的编辑距离,以及各个候选标题节点内的文本与锚标签对应的文本的编辑距离;根据各个候选标题节点内的标签信息以及所计算的编辑距离将各个候选标题节点进行排序;根据排序结果从所述至少一个候选标题节点中确定一个正文标题节点,并将所述正文标题节点内的文本确定为网页内容的标题。
[0016]在一些实施例中,所述划分单元进一步配置用于:识别各个正文节点中的至少一个块元素;如果块元素中包含子块元素,则利用子块元素和换行标签对正文节点中包含的文本进行段落划分,得到至少一个段落块;否则,利用换行标签对正文节点中包含的文本进行段落划分,得到至少一个段落块;根据块元素以及子块元素中关联的标签的属性为各个段落块设定标签属性。
[0017]在一些实施例中,所述分类单元进一步配置用于:将标签属性相同的段落块划分为同一段落块集合;根据各个段落块集合中的各个段落块包含的字符数以及各个段落块之间的行间隔识别出各个分块集合中的短标题结构;将各个段落块集合中的非短标题结构的段落块根据包含的文本进行分类。
[0018]在一些实施例中,所述提取单元进一步配置用于:根据识别出来的短标题结构对网页文件对应的网页正文内容进行逻辑块划分;利用正则表达式判断各个短标题结构是否是问题,如果是问题,则将该短标题设定为候选问题;根据候选问题在所述网页内容中的位置以及网页内容的逻辑块划分结果提取与候选问题对应的候选答案;基于候选问题与候选答案之间所间隔的行数、候选答案中数字编号是否连续、答案条目数、答案中被判定为问题的条目数中的至少一项,提取包含问题和答案的信息。
[0019]本申请提供的信息提取方法和装置,通过将网页文件解析为标签树结构,而后将正文节点包含的内容进行段落划分生成段落块,最后将段落块包含的文本内容进行分类,并基于分类结果从段落块包含的文本内容中提取包含问题和答案的信息,从而实现了信息自动、精确的提取。
【附图说明】
[0020]通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
[0021]图1是本申请可以应用于其中的示例性系统架构图;
[0022]图2是根据本申请的信息提取方法的一个实施例的流程图;
[0023]图3是根据本申请的信息提取方法的一个应用场景的示意图;
[0024]图4是根据本申请的信息提取方法的又一个实施例的流程图;
[0025]图5是根据本申请的信息提取装置的一个实施例的结构示意图;
[0026]图6是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。
【具体实施方式】
[0027]下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
[0028]需要说明的是,在不冲突的情况下,本申请中的
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1