信息提取方法和装置的制造方法_4

文档序号:9911130阅读:来源:国知局
本身的限定,例如,解析单元还可以被描述为“将预先获取的网页文件解析为标签树结构,并从所述标签树的节点中识别出所述网页文件中的网页正文所在的至少一个正文节点的单元”。
[0079]作为另一方面,本申请还提供了一种非易失性计算机存储介质,该非易失性计算机存储介质可以是上述实施例中所述装置中所包含的非易失性计算机存储介质;也可以是单独存在,未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序,当所述一个或者多个程序被一个设备执行时,使得所述设备:将预先获取的网页文件解析为标签树结构,并从所述标签树的节点中识别出所述网页文件中的网页正文所在的至少一个正文节点;将所述至少一个正文节点包含的内容进行段落划分,生成各个段落块,并根据各个段落块关联的标签的属性为各个段落块设定标签属性;基于各个段落块的标签属性将各个段落块包含的文本内容进行分类;基于分类结果从段落块包含的文本内容中提取包含问题和答案的信息。
[0080]以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
【主权项】
1.一种信息提取方法,其特征在于,所述方法包括: 将预先获取的网页文件解析为标签树结构,并从所述标签树的节点中识别出所述网页文件中的网页正文所在的至少一个正文节点; 将所述至少一个正文节点包含的内容进行段落划分,生成各个段落块,并根据各个段落块关联的标签的属性为各个段落块设定标签属性; 基于各个段落块的标签属性将各个段落块包含的文本内容进行分类; 基于分类结果从段落块包含的文本内容中提取包含问题和答案的信息。2.根据权利要求1所述的方法,其特征在于,所述将所述至少一个正文节点包含的内容进行段落划分,生成各个段落块,包括: 从所述至少一个正文节点包含的内容中识别出所述网页文件的网页内容的标题;将所述至少一个正文节点包含的内容中的、所述标题之外的内容进行段落划分,生成各个段落块。3.根据权利要求1所述的方法,其特征在于,所述将预先获取的网页文件解析为标签树结构,并从所述标签树的节点中识别出所述网页文件中的网页正文所在的至少一个正文节点,包括: 将预先获取的网页文件进行规范化处理,使所述网页文件符合超文本标记语言规范; 对规范化的网页文件进行文档对象模型树解析,生成标签树; 访问所述标签树的各个节点,并根据各个节点包含的内容确定出正文节点。4.根据权利要求2所述的方法,其特征在于,所述从所述至少一个正文节点包含的内容中识别出所述网页文件的网页内容的标题,包括: 根据所述至少一个正文节点包含的内容在所述网页内容中的位置,从所述至少一个正文节点中选取至少一个候选标题节点; 计算各个候选标题节点内的文本与所述网页文件的标题标签对应的文本的编辑距离,以及各个候选标题节点内的文本与锚标签对应的文本的编辑距离; 根据各个候选标题节点内的标签信息以及所计算的编辑距离将各个候选标题节点进tx排序; 根据排序结果从所述至少一个候选标题节点中确定一个正文标题节点,并将所述正文标题节点内的文本确定为网页内容的标题。5.根据权利要求1所述的方法,其特征在于,所述将所述至少一个正文节点包含的内容进行段落划分,生成各个段落块,并根据各个段落块关联的标签的属性为各个段落块设定标签属性,包括: 识别各个正文节点中的至少一个块元素; 如果块元素中包含子块元素,则利用子块元素和换行标签对正文节点中包含的文本进行段落划分,得到至少一个段落块;否则,利用换行标签对正文节点中包含的文本进行段落划分,得到至少一个段落块; 根据块元素以及子块元素中关联的标签的属性为各个段落块设定标签属性。6.根据权利要求1所述的方法,其特征在于,所述基于各个段落块的标签属性将各个段落块包含的文本内容进行分类,包括: 将标签属性相同的段落块划分为同一段落块集合; 根据各个段落块集合中的各个段落块包含的字符数以及各个段落块之间的行间隔识别出各个分块集合中的短标题结构; 将各个段落块集合中的非短标题结构的段落块根据包含的文本进行分类。7.根据权利要求6所述的方法,其特征在于,所述基于分类结果从段落块包含的文本内容中提取包含问题和答案的信息,包括: 根据识别出来的短标题结构对网页文件对应的网页正文内容进行逻辑块划分; 利用正则表达式判断各个短标题结构是否是问题,如果是问题,则将该短标题设定为候选问题; 根据候选问题在所述网页内容中的位置以及网页内容的逻辑块划分结果提取与候选问题对应的候选答案; 基于候选问题与候选答案之间所间隔的行数、候选答案中数字编号是否连续、答案条目数、答案中被判定为问题的条目数中的至少一项,提取包含问题和答案的信息。8.一种信息提取装置,其特征在于,所述装置包括: 解析单元,配置用于将预先获取的网页文件解析为标签树结构,并从所述标签树的节点中识别出所述网页文件中的网页正文所在的至少一个正文节点; 划分单元,配置用于将所述至少一个正文节点包含的内容进行段落划分,生成各个段落块,并根据各个段落块关联的标签的属性为各个段落块设定标签属性; 分类单元,配置用于基于各个段落块的标签属性将各个段落块包含的文本内容进行分类; 提取单元,配置用于基于分类结果从段落块包含的文本内容中提取包含问题和答案的?目息O9.根据权利要求8所述的装置,其特征在于,所述划分单元包括: 识别子单元,配置用于从所述至少一个正文节点包含的内容中识别出所述网页文件的网页内容的标题; 划分子单元,配置用于将所述至少一个正文节点包含的内容中的、所述标题之外的内容进行段落划分,生成各个段落块。10.根据权利要求8所述的装置,其特征在于,所述解析单元进一步配置用于: 将预先获取的网页文件进行规范化处理,使所述网页文件符合超文本标记语言规范; 对规范化的网页文件进行文档对象模型树解析,生成标签树; 访问所述标签树的各个节点,并根据各个节点包含的内容确定出正文节点。11.根据权利要求9所述的装置,其特征在于,所述识别子单元进一步配置用于: 根据所述至少一个正文节点包含的内容在所述网页内容中的位置,从所述至少一个正文节点中选取至少一个候选标题节点; 计算各个候选标题节点内的文本与所述网页文件的标题标签对应的文本的编辑距离,以及各个候选标题节点内的文本与锚标签对应的文本的编辑距离; 根据各个候选标题节点内的标签信息以及所计算的编辑距离将各个候选标题节点进tx排序; 根据排序结果从所述至少一个候选标题节点中确定一个正文标题节点,并将所述正文标题节点内的文本确定为网页内容的标题。12.根据权利要求8所述的装置,其特征在于,所述划分单元进一步配置用于: 识别各个正文节点中的至少一个块元素; 如果块元素中包含子块元素,则利用子块元素和换行标签对正文节点中包含的文本进行段落划分,得到至少一个段落块;否则,利用换行标签对正文节点中包含的文本进行段落划分,得到至少一个段落块; 根据块元素以及子块元素中关联的标签的属性为各个段落块设定标签属性。13.根据权利要求8所述的装置,其特征在于,所述分类单元进一步配置用于: 将标签属性相同的段落块划分为同一段落块集合; 根据各个段落块集合中的各个段落块包含的字符数以及各个段落块之间的行间隔识别出各个分块集合中的短标题结构; 将各个段落块集合中的非短标题结构的段落块根据包含的文本进行分类。14.根据权利要求13所述的装置,其特征在于,所述提取单元进一步配置用于: 根据识别出来的短标题结构对网页文件对应的网页正文内容进行逻辑块划分; 利用正则表达式判断各个短标题结构是否是问题,如果是问题,则将该短标题设定为候选问题; 根据候选问题在所述网页内容中的位置以及网页内容的逻辑块划分结果提取与候选问题对应的候选答案; 基于候选问题与候选答案之间所间隔的行数、候选答案中数字编号是否连续、答案条目数、答案中被判定为问题的条目数中的至少一项,提取包含问题和答案的信息。
【专利摘要】本申请公开了信息提取方法和装置。所述方法的一【具体实施方式】包括:将预先获取的网页文件解析为标签树结构,并从所述标签树的节点中识别出所述网页文件中的网页正文所在的至少一个正文节点;将所述至少一个正文节点包含的内容进行段落划分,生成各个段落块,并根据各个段落块关联的标签的属性为各个段落块设定标签属性;基于各个段落块的标签属性将各个段落块包含的文本内容进行分类;基于分类结果从段落块包含的文本内容中提取包含问题和答案的信息。该实施方式实现了信息自动、精确的提取。
【IPC分类】G06F17/30
【公开号】CN105677764
【申请号】CN201511022937
【发明人】秦首科, 韩友, 陈志扬, 马飞超, 徐培治
【申请人】百度在线网络技术(北京)有限公司
【公开日】2016年6月15日
【申请日】2015年12月30日
当前第4页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1