本发明涉及数据处理,具体涉及一种关键要素识别及关联关系提取推荐方法及装置。
背景技术:
1、大数据时代给数据的挖掘和加工带来了便利,也给人们的生活方式和消费习惯带来了全新的变化。大数据分析作为一种现代技术手段,已经成为数字经济时代的新生态。而用户画像作为大数据分析的重要一环,如何在大数据中对用户特征进行深度挖掘,识别关键要素及其关联信息,从而构建用户画像,已成为各领域需要做出的一项必要性决策。精准的关键要素识别、关联信息提取能够促进用户画像构建,从而清晰划分用户群体及其各自的行为和目标,精确详尽的信息可以更好地帮助模型以及策略的快速定位。以往传统的数据提取方式通过人工检索数据集,逐一判断数据项含义,识别关键要素以及属性,已不能满足当前大数据环境海量、复杂的业务需求。如何快速地基于已有积累知识库素材,针对海量来源数据集,进行目标关键要素及关联信息识别提取,成为是否能快速进行数据治理从而构建画像的前提条件。
技术实现思路
1、本发明提供一种关键要素识别及关联关系提取推荐方法及装置,可以快速提取关键要素及关联信息,生成要素对象提取策略推荐及关联关系提取策略推荐,为数据分析、构建用户画像提供有效的技术支撑。。
2、为此,本发明提供如下技术方案:
3、一种关键要素识别及关联关系提取推荐方法,所述方法用于利用预先建立的对象信息知识库自动实现关键要素识别及关联关系提取推荐;所述对象信息知识库包括:各类型要素对象编码库、要素对象主体名称库、要素关联关系编码库;所述方法包括:
4、获取数据集,所述数据集包括多个数据项编码集合,每个数据项编码集合包括一个或多个数据项及其编码信息;
5、基于各数据项的编码信息将所述数据项编码集合与所述对象信息知识库中的各类型要素对象编码库进行碰撞,确定所述数据集中的要素对象,生成要素对象集合;每个要素对象具有一个或多个属性字段;
6、根据所述要素对象集合生成要素对象提取策略推荐及关联关系提取策略推荐。
7、可选地,不同的数据项编码集合包括不同类型的数据项。
8、可选地,所述基于各数据项的编码信息将各数据项编码集合与所述对象信息知识库中的各类型要素对象编码库进行碰撞,确定所述数据集中的要素对象,生成要素对象集包括:
9、基于各数据项的编码信息将各数据项编码集合与所述对象信息知识库中的各类型要素对象编码库进行碰撞,得到所述数据集中的各类型数据项集合,所述数据项集合包括:数据项编码、数据项名称、对象类型;
10、根据所述要素对象主体名称库去除所述数据项名称中的主体名及符号,得到对象限定词;
11、对所述对象限定词进行分组,得到多组要素对象,组成要素对象集合。
12、可选地,所述对所述对象限定词进行分组,得到多组要素对象包括:
13、计算不同对象限定词之间的相似度;
14、将相似度大于设定的相似度阈值的对象限定词分为同组,得到多组要素对象。
15、可选地,所述根据所述要素对象集合生成要素对象提取策略推荐包括:
16、遍历所述要素对象集合中的每一个对象;
17、提取所述对象的相关字段信息填充到与所述对象的类型对应的目标要素对象数据结构中;
18、提取所述对象的各属性字段,计算属性字段与所述数据集中字段名的匹配度;
19、如果匹配度大于设定的匹配度阈值,则将所述属性字段作为所述要素对象的推荐属性;
20、根据所述要素对象及其推荐属性生成要素对象提取策略推荐。
21、可选地,所述根据所述要素对象集合生成关联关系提取策略推荐包括:
22、将所述要素对象集合中的对象两两组合,确定组合的两个要素对象是否属于同一目标;
23、根据所述要素关联关系编码库确定所述两个要素对象的提取内容、与所述目标对应的关联关系编码、以及描述信息;
24、根据所述要素对象的提取内容、关联关系编码、以及描述信息,生成关联关系提取策略推荐。
25、可选地,所述提取所述两个要素对象的内容包括:
26、根据所述两个要素对象的类型、条件数据项编码构建提取条件;
27、根据所述提取条件提取所述两个要素对象的内容。
28、一种关键要素识别及关联关系提取推荐装置,所述装置用于利用预先建立的对象信息知识库自动实现关键要素识别及关联关系提取推荐;所述对象信息知识库包括:各类型要素对象编码库、要素对象主体名称库、要素关联关系编码库;所述装置包括:
29、数据集获取模块,用于所述数据集包括多个数据项编码集合,每个数据项编码集合包括一个或多个数据项及其编码信息;
30、要素对象集合生成模块,用于基于各数据项的编码信息将所述数据项编码集合与所述对象信息知识库中的各类型要素对象编码库进行碰撞,确定所述数据集中的要素对象,生成要素对象集合;每个要素对象具有一个或多个属性字段;
31、要素对象推荐模块,用于根据所述要素对象集合生成要素对象提取策略推荐;
32、关联关系推荐模块,用于根据所述要素对象集合生成关联关系提取策略推荐。
33、可选地,所述要素对象推荐模块包括:
34、信息提取单元,用于遍历所述要素对象集合中的每一个对象,提取所述对象的相关字段信息填充到与所述对象的类型对应的目标要素对象数据结构中;
35、推荐属性确定单元,用于提取所述对象的各属性字段,计算属性字段与所述数据集中字段名的匹配度;如果匹配度大于设定的匹配度阈值,则将所述属性字段作为所述要素对象的推荐属性;
36、要素对象推荐信息生成单元,用于根据所述要素对象及其推荐属性生成要素对象提取策略推荐。
37、可选地,所述关联关系推荐模块包括:
38、判断单元,用于将所述要素对象集合中的对象两两组合,确定组合的两个要素对象是否属于同一目标;
39、关联关系确定单元,用于根据所述要素关联关系编码库确定所述两个要素对象的提取内容、关联关系编码、以及描述信息;
40、关联关系推荐信息生成单元,用于根据所述要素对象的提取内容、关系编码及描述信息,生成关联关系提取策略推荐。
41、本发明提供的关键要素识别及关联关系提取推荐方法及装置,对于多来源数据集,通过比对对象信息知识库,识别数据集中的要素对象,然后对对象语义进行判断是否属于同一目标,对对象进行分组。最后逐一提取要素对象内容,推荐属性字段对应提取字段,对对象两两之间通过前面分组情况,进行对象之间关联关系的提取推荐。
42、本发明方案通过结合知识库内容以及相似性计算、自动推荐算法,可以快速识别关键要素及进行属性字段、关联关系提取推荐,能够帮助数据分析人员从海量复杂的数据集中迅速提取出关键信息,极大地提高了主题库、资源库数据入库效率,为数据分析、构建用户画像提供有效的技术支撑。
1.一种关键要素识别及关联关系提取推荐方法,其特征在于,所述方法用于利用预先建立的对象信息知识库自动实现关键要素识别及关联关系提取推荐;所述对象信息知识库包括:各类型要素对象编码库、要素对象主体名称库、要素关联关系编码库;所述方法包括:
2.根据权利要求1所述的关键要素识别及关联关系提取推荐方法,其特征在于,不同的数据项编码集合包括不同类型的数据项。
3.根据权利要求1所述的关键要素识别及关联关系提取推荐方法,其特征在于,所述基于各数据项的编码信息将各数据项编码集合与所述对象信息知识库中的各类型要素对象编码库进行碰撞,确定所述数据集中的要素对象,生成要素对象集包括:
4.根据权利要求3所述的关键要素识别及关联关系提取推荐方法,其特征在于,所述对所述对象限定词进行分组,得到多组要素对象包括:
5.根据权利要求1至4任一项所述的关键要素识别及关联关系提取推荐方法,其特征在于,所述根据所述要素对象集合生成要素对象提取策略推荐包括:
6.根据权利要求1至4任一项所述的关键要素识别及关联关系提取推荐方法,其特征在于,所述根据所述要素对象集合生成关联关系提取策略推荐包括:
7.根据权利要求6所述的关键要素识别及关联关系提取推荐方法,其特征在于,所述提取所述两个要素对象的内容包括:
8.一种关键要素识别及关联关系提取推荐装置,其特征在于,所述装置用于利用预先建立的对象信息知识库自动实现关键要素识别及关联关系提取推荐;所述对象信息知识库包括:各类型要素对象编码库、要素对象主体名称库、要素关联关系编码库;所述装置包括:
9.根据权利要求8所述的关键要素识别及关联关系提取推荐装置,其特征在于,所述要素对象推荐模块包括:
10.根据权利要求8所述的关键要素识别及关联关系提取推荐装置,其特征在于,所述关联关系推荐模块包括: