一种结构化文档的生成方法和系统的制作方法

文档序号:8430832阅读:619来源:国知局
一种结构化文档的生成方法和系统的制作方法
【技术领域】
[0001] 本发明属于信息处理和检索技术领域,具体涉及一种结构化文档的生成方法和系 统。
【背景技术】
[0002] 随着网络的普及,信息已成为生活和工作必不可少的组成部分。庞大的信息量,需 要更加有效的信息处理技术,而对庞大信息量的利用,则需要高效的信息检索技术。文档, 作为一种传统的信息存储方式,承载了大量、种类繁多的信息。各级政府,以及行业领域都 存在大量的文档资料,但绝大多数机构或组织的文档资料仍是以非结构化文本形式存在, 尤其中各家单位的业素材只能以非结构化文档的方式进行保存。这种形式不利于文档资 料内容的理解与宣贯,更不利于长期稳定的推广与实施,很难表现出其应用的利用价值。同 时,对于非结构化文档而言,无论是阅读或是检索均不方便,很难发挥出这些非结构化文档 应有的价值。
[0003] 因此,迫切需要对这些非结构化文档进行向结构化文档的转化,将非结构化文档 转化为最贴近原来文档意思表达的结构化文档,并对这些结构化文档进行管理,从而更加 有效、方便的完成对所需信息的读取和检索。
[0004] 目前,现有技术中对非结构化文档的处理方式,大多仅能针对非结构化文档的版 本、编号等周边信息进行结构化处理,实现非结构化文档向结构化文档的转换,很难涉及到 非结构化文档本身的描述内容,因此,现有技术无法真正实现对文档的内容处理和检索。

【发明内容】

[0005] 本发明实施例的目的是提供一种结构化文档的生成方法和系统,通过基于自定义 规则,将非结构化文档生成或转换为结构化文档,形成一套完整的结构化文档,通过结构化 文档实现对原有的非结构化文档内容的管理和应用。
[0006] 根据本发明的一个方面,提供了一种结构化文档的生成方法,所述方法包括: 采集非结构化文档; 提取所述非结构化文档的属性; 设定并提取所述非结构化文档的关键词; 利用所述属性和所述关键词构建与所述非结构化文档对应的结构化文档。
[0007] 上述方案中,所述设定并提取所述非结构化文档的关键词,进一步包括: 预设自定义规则,在所述规则中预设关键词的级别; 根据所述自定义规则从所述非结构化文档中提取关键词。
[0008] 上述方案中,所述关键词的级别包括:首要关键词级别、次要关键词级别、一般关 键词级别。
[0009] 上述方案中,所述非结构化文档的属性至少包括:文档名称、文档页数、发布日期、 文档格式、文档作者、文档发布单位、文档批准单位、文档版本。
[0010] 根据本发明的另一个方面,还提供了一种结构化文档的生成装置,所述装置包 括: 采集模块,用于采集非结构化文档; 属性提取模块,与所述采集模块相连,用于提取所述非结构化文档的属性; 关键词提取模块,与所述采集模块相连,用于设定并提取所述非结构化文档的关键 词; 构建模块,与所述属性提取模块和所述关键词提取模块相连,用于利用所述属性和所 述关键词构建与所述非结构化文档对应的结构化文档。
[0011] 上述方案中,所述关键词提取模块包括: 规则预设子模块,用于预设自定义规则,在所述规则中预设关键词的级别; 提取子模块,用于根据所述自定义规则从所述非结构化文档中提取关键词。
[0012] 上述方案中,所述关键词的级别包括:首要关键词级别、次要关键词级别、一般关 键词级别。
[0013] 上述方案中,所述非结构化文档的属性至少包括:文档名称、文档页数、发布日期、 文档格式、文档作者、文档发布单位、文档批准单位、文档版本。
[0014] 本文明实施例所公开的结构化文档生成方法,包括:采集非结构化文档;提取所 述非结构化文档的属性;设定并提取所述非结构化文档的关键词;利用所述属性和所述关 键词构建与所述非结构化文档对应的结构化文档。本发明通过提取非结构化文档的包括但 不限于文档名称、文档页数、发布日期、文档格式、文档作者、文档发布单位、文档批准单位、 文档版本等属性和基于自定义规则提取的关键词,并利用所提取的属性和关键词来构建与 所述非结构化文档相对应的结构化文档,形成一套完整的结构化文档,克服了传统非结构 化文档普遍以文本形式存在、不利于实际操作和应用的缺点,通过结构化文档实现对原有 的非结构化文档内容的管理和应用,更加充分发挥其应用与使用价值。
【附图说明】
[0015] 为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用 的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本 领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他 的附图。
[0016] 图1为本发明第一实施例的结构化文档的生成方法流程示意图; 图2为本发明第二实施例的结构化文档的生成方法流程示意图; 图3为本发明第三实施例的结构化文档的生成装置结构示意图; 图4为图3所示关键词提取子模块的内部结构示意图。
【具体实施方式】
[0017] 本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式"一"、"一 个"、"所述"和"该"也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措 辞"包括"是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加 一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元 件被"连接"或"耦接"到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在 中间元件。此外,这里使用的"连接"或"耦接"可以包括无线连接或耦接。这里使用的措 辞"和/或"包括一个或更多个相关联的列出项的任一单元和全部组合。
[0018] 本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术 语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该 理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意 义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
[0019] 为便于对本发明实施例的理解,下面详细描述本发明的实施方式,通过参考附图 描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
[0020] 本发明通过提取非结构化文档的属性和关键词,利用所提取的属性和关键词来构 建与所述非结构化文档相对应的结构化文档,所述属性通常包括但不限于文档名称、文档 页数、发布日期、文档格式、文档作者、文档发布单位、文档批准单位、文档版本等外部基本 属性,是对原有的非结构化文档的属性描述,所述关键词基于自定义规则进行提取,是对原 有的非结构化文档的内容描述。通过表达了属性描述的属性值和表达了内容描述的关键词 共同构建结构化文档,形成一套完整的结构化文档,克服了传统非结构化文档普遍以文本 形式存在、不利于实际操作和应用的缺点,更加充分发挥其应用与使用价值。下面结合具体 的实施例及其附图,对本发明作详细的说明。
[0021] 图1是本发明实施例的结构化文档的生成方法的流程图。
[0022] 如图1所示,本实施例的结构化文档的生成方法,包括如下步
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1