一种结构化文档的生成方法和系统的制作方法_2

文档序号:8430832阅读:来源:国知局
骤: 步骤S11,采集非结构化文档。
[0023] 本步骤中,非结构化文档采集过程,是将需要转换为结构化文档的非结构化文档 收集上来,同时要确保文档完整清晰,具备可读性。对于非电子的文档,可以通过扫描、录入 等方式将其转化为电子文档。这里的收集,可以是放置到一个特定的数据库中,或建立一个 完整的树状文件夹。同时,可以对所收集的文档进行补步或简单的分类存放,并根据分类情 况对所述非结构化文档赋予相应的外部属性值。
[0024] 步骤S12,提取所述非结构化文档的属性。
[0025] 本步骤中,所述非结构化文档的属性至少包括:文档名称、文档页数、发布日期、文 档格式、文档作者、文档发布单位、文档批准单位、文档版本,上述各类属性可以根据需要进 行任意选择和组合,也不仅仅限于上述属性,还可以是在采集的过程中添加的外部属性。
[0026] 步骤S13,设定并提取所述非结构化文档的关键词。
[0027] 本步骤中,设定和提取所述非结构化文档,进一步包括如下步骤: 步骤S131,预设自定义规则,在所述规则中预设关键词的级别。
[0028] 本步骤中,进行自定义的内容,包括但不限于关键词的选取,在具体的实现中,从 关键词的领域、分类等方面,设定关键词的选取规则。可以根据需要设定所述非结构化文档 的关键词级别数,如三个级别,或四个级别。例如,当设定为三个级别时,可以是首要关键词 级别、次要关键词级别,一般关键词级别,每个关键词级别中可以包括若干关键词,如每个 级别中三个关键词或四个关键词。
[0029] 步骤S132,根据所述自定义规则从所述非结构化文档中提取关键词。
[0030] 在步骤S131设定完关键词提取的自定义规则后,从所述非结构化文档中提取关 键词。
[0031] 步骤S14,利用所述属性和所述关键词构建与所述非结构化文档对应的结构化文 档。
[0032] 本实施例的结构化文档生成方法,通过提取非结构化文档的包括但不限于文档名 称、文档页数、发布日期、文档格式、文档作者、文档发布单位、文档批准单位、文档版本等属 性和基于自定义规则提取的关键词,并利用所提取的属性和关键词来构建与所述非结构化 文档相对应的结构化文档,形成一套完整的结构化文档,克服了传统非结构化文档普遍以 文本形式存在、不利于实际操作和应用的缺点,通过结构化文档实现对原有的非结构化文 档内容的管理和应用,更加充分发挥其应用与使用价值。
[0033] 图2所示的本发明第二实施例的结构化文档的生成方法流程示意图。
[0034] 如图2所示,本实施例的结构化文档的生成方法,是针对一篇《儿童学前教育分析 报告》的非结构化文档,现在要将这篇非结构化文档生成或转换为结构化文档,包括如下步 骤: 步骤S21,提取非结构文档《儿童学前教育分析报告》。
[0035] 本步骤中,将所提取的非结构文档《儿童学前教育分析报告》储存在非结构化文档 数据库中,同时确保文档完整清晰,具备可读性。
[0036] 步骤S22,提取所述文档的属性,所提取的属性包括:文档名称、文档页数、发布日 期、文档格式、文档作者、文档发布单位、文档批准单位、文档版本。
[0037] 步骤S23,设定自定义规则,在自定义规则中设定三个关键词级别分别为首要关键 词级别、次要关键词级别,一般关键词级别,每个关键词级别中设定为三个关键词,则依据 所述设定的自定义规则提取出它的关键词分别为: 首要关键词:儿童、学前、教育; 次要关键词:心理、幼师、发育; 一般关键词:幼儿园、学前班、父母。
[0038] 步骤S24,利用所述属性和所述关键词构建与所述非结构化文档对应的结构化文 档。
[0039] 构建文档结构化文档过程主要是将需要转换为结构化文档的非结构化文档的外 部基本属性和自定义的三级关键词作为文档的结构化文档素材,将其转化为文档结构化文 档。表1示出了所构建的结构化文档的基本结构。
[0040]表1
【主权项】
1. 一种结构化文档的生成方法,其特征在于,所述方法包括: 采集非结构化文档; 提取所述非结构化文档的属性; 设定并提取所述非结构化文档的关键词; 利用所述属性和所述关键词构建与所述非结构化文档对应的结构化文档。
2. 根据权利要求1所述的结构化文档的生成方法,其特征在于,所述设定并提取所述 非结构化文档的关键词,进一步包括: 预设自定义规则,在所述规则中预设关键词的级别; 根据所述自定义规则从所述非结构化文档中提取关键词。
3. 根据权利要求2所述的结构化文档的生成方法,其特征在于,所述关键词的级别包 括:首要关键词级别、次要关键词级别、一般关键词级别。
4. 根据权利要求1至3任一项所述的结构化文档的生成方法,其特征在于,所述非结构 化文档的属性至少包括:文档名称、文档页数、发布日期、文档格式、文档作者、文档发布单 位、文档批准单位、文档版本。
5. -种结构化文档的生成装置,其特征在于,所述装置包括: 采集模块,用于采集非结构化文档; 属性提取模块,与所述采集模块相连,用于提取所述非结构化文档的属性; 关键词提取模块,与所述采集模块相连,用于设定并提取所述非结构化文档的关键 词; 构建模块,与所述属性提取模块和所述关键词提取模块相连,用于利用所述属性和所 述关键词构建与所述非结构化文档对应的结构化文档。
6. 根据权利要求5所述的结构化文档的生成装置,其特征在于,所述关键词提取模块 包括: 规则预设子模块,用于预设自定义规则,在所述规则中预设关键词的级别; 提取子模块,用于根据所述自定义规则从所述非结构化文档中提取关键词。
7. 根据权利要求6所述的结构化文档的生成方法,其特征在于,所述关键词的级别包 括:首要关键词级别、次要关键词级别、一般关键词级别。
8. 根据权利要求5至7任一项所述的结构化文档的生成方法,其特征在于,所述非结构 化文档的属性至少包括:文档名称、文档页数、发布日期、文档格式、文档作者、文档发布单 位、文档批准单位、文档版本。
【专利摘要】本文明公开了一种结构化文档的生成方法和装置,所述方法包括:采集非结构化文档;提取所述非结构化文档的属性;设定并提取所述非结构化文档的关键词;利用所述属性和所述关键词构建与所述非结构化文档对应的结构化文档。本发明通过提取非结构化文档的包括但不限于文档名称、文档页数、发布日期、文档格式、文档作者、文档发布单位、文档批准单位、文档版本等属性和基于自定义规则提取的关键词,并利用所提取的属性和关键词来构建与所述非结构化文档相对应的结构化文档,形成一套完整的结构化文档,克服了传统非结构化文档普遍以文本形式存在、不利于实际操作和应用的缺点,通过结构化文档实现对原有的非结构化文档内容的管理和应用。
【IPC分类】G06F17-30
【公开号】CN104750801
【申请号】CN201510129472
【发明人】支俊辉, 贾楠, 余洁玮
【申请人】华迪计算机集团有限公司
【公开日】2015年7月1日
【申请日】2015年3月24日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1