一种通用文本挖掘方法和系统与流程

文档序号:11829784阅读:来源:国知局

技术特征:

1.一种通用文本挖掘方法,其特征在于,包括:

步骤1,运行网络爬虫,加载挖掘范围内的挖掘对象;

步骤2,对所述挖掘对象进行实际文本提取,得到实际文本;

步骤3,将所述实际文本形成概念标注图;

步骤4,根据与挖掘目标对应的所述概念和概念之间的关系,将所述概念和关系编译形成字节码,进而形成指令图;

步骤5,将所述概念标注图和所述指令图进行匹配,将所述概念标注图中符合指令图的概念和关系的内容形成分析结果。

2.根据权利要求1所述的通用文本挖掘方法,其特征在于,在步骤3之后,包括用于优化所述概念标注图的分析优化步骤,所述分析优化步骤的挖掘方法包括分词、词性分析、命名实体识别。

3.根据权利要求2所述的通用文本挖掘方法,其特征在于,在所述分析优化步骤之前,包括用于选定所述挖掘方法的挖掘方法定义步骤。

4.根据权利要求1所述的通用文本挖掘方法,其特征在于,在所述步骤4之前,包括定义与所述挖掘目标对应的所述概念以及定义概念之间的所述关系的挖掘目标定义步骤,所述挖掘目标是所述概念和关系的具体值。

5.根据权利要求1所述的通用文本挖掘方法,其特征在于,所述步骤1之前包括定义所述挖掘范围的挖掘范围定义步骤。

6.一种通用文本挖掘系统,其特征在于,包括:

加载模块(100),用于使用网络爬虫加载挖掘范围内的挖掘对象;

文本提取模块(200),用于对所述挖掘对象进行实际文本提取,得到实际文本;

标注图生成模块(300),用于将所述实际文本形成概念标注图;

编译模块(500),用于根据与挖掘目标对应的所述概念和概念之间的关系,将所述概念和关系编译形成字节码,进而形成指令图;

匹配模块(600),将所述概念标注图和所述指令图进行匹配,将所述概念标注图中符合指令图的概念和关系的内容形成分析结果。

7.根据权利要求6所述的通用文本挖掘系统,其特征在于,包括分析优化模块(400),用于优化所述概念标注图。

8.根据权利要求6所述的通用文本挖掘系统,其特征在于,包括挖掘方法定义模块(710),用于选定所述分析优化模块(400)中使用的挖掘方法。

9.根据权利要求6所述的通用文本挖掘系统,其特征在于,包括挖掘目标定义模块(740),用于定义与所述挖掘目标对应的所述概念,并定义所述概念之间的所述关系,所述挖掘目标作为所述概念的具体值。

10.根据权利要求6所述的通用文本挖掘系统,其特征在于,包括挖掘范围定义模块(730),用于定义所述挖掘范围。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1