信息提取方法和装置的制造方法_3

文档序号:9911130阅读:来源:国知局
并根据分类结果从文本内容中提取出网页内容中包含的问题和答案。
[0050]本申请的上述实施例提供的方法通过将网页文件解析为标签树,并将识别出的正文节点包含的内容进行段落划分和标签属性设定,最终提取出网页正文中包含问题和答案的ig息,实现了息的自动、精确的提取。
[0051]进一步参考图4,其示出了信息提取方法的又一个实施例的流程400。该信息提取方法的流程400,包括以下步骤:
[0052]步骤401,将预先获取的网页文件解析为标签树结构,并从标签树的节点中识别出网页文件中的网页正文所在的至少一个正文节点。
[0053]在本实施例中,信息提取方法运行于其上的电子设备可以预先从本地或远程获取网页文件,并将上述网页文件解析为标签树结构。之后,上述电子设备还可以根据各个节点的所包含的内容进一步从标签树的节点中识别出网页正文所在的至少一个正文节点。
[0054]步骤402,将至少一个正文节点包含的内容进行段落划分,生成各个段落块,并根据各个段落块关联的标签的属性为各个段落块设定标签属性。
[0055]在本实施例中,上述电子设备可以将上述至少一个正文节点中包含的文本内容进行段落划分,生成各个段落块,同时,根据各个段落块所关联的标签的属性为各个段落块设定标签属性。
[0056]步骤403,将标签属性相同的段落块划分为同一段落块集合。
[0057]在本实施例中,上述电子设备可以将步骤402得到段落块中标签属性相同的段落块划分为同一段落块集合。
[0058]步骤404,根据各个段落块集合中的各个段落块包含的字符数以及各个段落块之间的行间隔识别出各个分块集合中的短标题结构。
[0059]在本实施例中,上述电子设备可以计算各个段落块集合内的各个段落块之间的平均行间隔、最大连续行间隔数、平均字符数、最大字符数等并设定阈值,将有一定行间隔、字符长度均匀且不是很大的段落块识别为短标题结构。
[0060]步骤405,将各个段落块集合中的非短标题结构的段落块根据包含的文本进行分类。
[0061]在本实施例中,上述电子设备可以将各个段落块集合中的非短标题结构的段落块根据包含的文本进行分类,例如可以根据段落块内的文本是否包含数字、是否在段落开头部分有强调结构将段落块划分为编号键值型段落、键值型段落、编号型段落以及普通型段落等类别,其中上述编号键值型段落是指有编号且为键值型结构的段落(例如1、提炼中心思想的方法:透过表面分析本质)。
[0062]步骤406,基于分类结果从段落块包含的文本内容中提取包含问题和答案的信息。
[0063]在本实施例中,上述电子设备可以基于步骤405中得到的分类结果,从各个段落块中所包含的文本内容中提取出问题和该问题对应的答案。
[0064]在本实施例的一些可选的实现方式中,上述电子设备可以首先根据步骤404中识别出的短标题结构对网页文件对应的网页正文内容进行逻辑块划分,例如可以将识别出的短标题结构以及该短标题结构与下一短标题结构之间的部分划分为一个逻辑块;之后,利用正则表达式判断各个短标题结构是否是问题,如果是问题,则将该短标题设定为候选问题;然后,根据候选问题在上述网页内容中的位置以及网页内容的逻辑块划分结果提取与候选问题对应的候选答案;最后,基于候选问题与候选答案之间所间隔的行数、候选答案中数字编号是否连续、答案条目数、答案中被判定为问题的条目数中的至少一项,提取包含问题和答案的信息,例如当候选问题与候选答案的首条内容之间的行数超过预定的阈值时,去掉该候选问题与候选答案;当候选答案中包括多条带有数字编号的内容且编号不连续时,去掉该候选答案以及与该候选答案相对应的候选问题;当候选答案中包括的答案条目数小于设定阈值时,去掉该候选答案以及与该候选答案相对应的候选问题,其中答案条目数可以是指答案中包含的条目的数量,每一条目可以是指一个段落,也可以是指一句话;当候选答案中包括的答案条目有多条被判断为是问题(例如多条被判断为问句)时,去掉该候选答案以及与该候选答案相对应的候选问题。
[0065]从图4中可以看出,与图2对应的实施例相比,本实施例中的信息提取方法的流程400突出了对各个段落块的划分以及各个分块集合中的短标题结构的识别。由此,本实施例描述的方案可以更加准确地识别出网页内容中的问题,从而实现信息的精确提取。
[0066]进一步参考图5,作为对上述各图所示方法的实现,本申请提供了一种信息提取装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
[0067]如图5所示,本实施例所述的信息提取装置500包括:解析单元501、划分单元502、分类单元503和提取单元504。其中,解析单元501配置用于将预先获取的网页文件解析为标签树结构,并从上述标签树的节点中识别出上述网页文件中的网页正文所在的至少一个正文节点;划分单元502配置用于将上述至少一个正文节点包含的内容进行段落划分,生成各个段落块,并根据各个段落块关联的标签的属性为各个段落块设定标签属性;分类单元503配置用于基于各个段落块的标签属性将各个段落块包含的文本内容进行分类;提取单元504配置用于基于分类结果从段落块包含的文本内容中提取包含问题和答案的信息。
[0068]在本实施例中,信息提取装置500的解析单元501可以将预先获取的网页文件解析为标签树结构,并从上述标签树的节点中识别出上述网页文件中的网页正文所在的至少一个正文节点。
[0069]在本实施例中,上述划分单元502可以将上述至少一个正文节点包含的内容进行段落划分,生成各个段落块,并根据各个段落块关联的标签的属性为各个段落块设定标签属性
[0070]在本实施例中,上述分类单元503可以基于上述划分单元502得到的各个段落块的标签属性将各个段落块包含的文本内容进行分类。
[0071]在本实施例中,上述提取单元504可以基于上述分类单元503得到的分类结果从段落块包含的文本内容中提取包含问题和答案的信息。
[0072]本领域技术人员可以理解,上述信息提取装置500还包括一些其他公知结构,例如处理器、存储器等,为了不必要地模糊本公开的实施例,这些公知的结构在图5中未示出。
[0073]下面参考图6,其示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统600的结构示意图。
[0074]如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(R0M)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有系统600操作所需的各种程序和数据。CPU 60KROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线 604。
[0075]以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606 ;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口 605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
[0076]特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。
[0077]附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0078]描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括解析单元、划分单元、分类单元和提取单元。其中,这些单元的名称在某种情况下并不构成对该单元
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1