一种基于6w语义标识的元数据仓库启发式智能搜索方法

文档序号:9261460阅读:863来源:国知局
一种基于6w语义标识的元数据仓库启发式智能搜索方法
【技术领域】
[0001] 本发明设及信息技术领域,尤其设及一种基于6W语义标识的元数据仓库启发式 智能捜索方法。
【背景技术】
[0002] 飞速发展的Internet给用户提供了海量的信息资源,导致用户从爆炸性增长的 信息中迅速获得需要的信息变得越来越困难。用户在捜索问题过程中,由于现有捜索方法 对问题的理解层次不够深入,导致对用户的提出的问题往往答非所问、对问题的识别和分 析不够深入,无法找到符合用户预期的信息。

【发明内容】

[0003] 本发明的目的在于提供一种基于6W语义标识的元数据仓库启发式智能捜索方 法,从而解决现有技术中存在的前述问题。
[0004] 为了实现上述目的,本发明所述基于6W语义标识的元数据仓库启发式智能捜索 方法,该方法包括W下步骤:
[0005] S1,分解关键词:
[0006] 从用户输入的自然语言中获取关键词,并对所述关键词进行语义解析,然后标识 出每个关键词对应的数据元,得到每个关键词的数据元标识,将排序后的所有被标识数据 元作为索引;
[0007] S2,将所有被标识数据元进行场景匹配处理:
[000引根据S1中被标识数据元的标识,匹配业务模型中与所述标识相关联的场景;
[0009] S3,补充缺失项处理;
[0010] 判断被标识数据元的标识所对应的场景数是否大于预先设定的阔值,如果是,进 行补充缺失项处理,得到补充缺失项后总数据元标识所对应的场景,然后进入S4;如果否, 则直接进入S4;
[0011] S4,数据撰取处理:
[0012] 判断任意一个场景A所对应的数据元标识E在元数据仓库中是否找到对应的数 据,如果是,则从元数据仓库中获取数据元标识E所对应的数据,将所述数据进行知识计算 后得到结果构建数据集,然后进入S6;如果否,则进入S5;
[0013] S5,将用户输入的自然语言记录下来,并提醒用户没有所述自然语言的捜索结 果;
[0014] S6,将数据集中按照系列层、集合层、实体层、子集层顺序进行逻辑排列的结果进 行展示。
[0015] 优选地,步骤S1所述分解关键词,具体按照下述步骤实现:
[0016] S11,根据元数据模型、数据元素模型和元数据仓库形成的词典对用户输入的自然 语言进行分词,得到自然语言中的已知关键词;
[0017] S12,获取已知关键词对应的数据元,并对所述数据元对应的数据元标识;
[001引 S13,判断被标识的数据元中是否存在数值数据,如果存在,则抽取所述数值数 据;
[0019] S14,按照现有的数据元有既定的分类排序规则,将步骤S12中被标识数据元进行 排列,将排序后的所有被标识数据元作为索引。
[0020] 更优选地,步骤S11中,所述根据元数据模型、数据元素模型和元数据仓库形成的 词典,具体按照下述步骤实现;
[0021] S111,读取元数据仓库中的元数据,得到元数据的标识、元数据的数据和元数据的 描述,把元数据的数据作为索引对象;
[0022] S112,读取元数据模型中,得到元数据模型信息,根据元数据模型的结构将元数据 模型信息作为索引对象;
[0023] S113,读取数据元素模型,得到数据元素模型信息,根据数据元素模型的结构将数 据元素模型信息作为索引对象;
[0024]S114,上述Sill的索引对象元数据的数据、S112的索引对象元数据模型信息、 S113的索引对象数据元素模型信息作为词典的索引,完成词典的构建,词典按照预设的更 新时间而变化,所述词典被存入内存。
[00巧]优选地,一个关键词至少对应一个数据元,一个数据元仅有一个数据元标识。
[0026] 优选地,步骤S2将被标识数据元进行场景匹配处理,具体按照下述步骤实现:
[0027]S21,判断每个关键词的数据元标识所属的标识层,所述标识层范围从大到小依次 为系列层、集合层、实体层、子集层;
[002引 S22,根据系列层、集合层、实体层、子集层的顺序排序数据元标识,排序在前的数 据元标识优先匹配语义解析后的关键词,得到基础场景集;
[0029] S23,计算基础场景集中数据元标识与语义解析后的关键词的匹配度,得到匹配度 高于预先设定阔值的第一场景集;
[0030] S24,根据系列、集合、实体、子集的顺序进行第一场景集二次排序,得到第二场景 集。
[0031] 优选地,步骤S3补充缺失项处理,具体按照下述步骤实现:
[0032]S31,解析数据元标识对应的场景集,判断场景中的活动是否缺失,得到并标记活 动缺失的场景;
[0033] S32,将活动缺失的场景的标记组成树结构,返回展示界面供用户选择;
[0034]S33,根据用户的选择对步骤S31中所述活动缺失的场景补充数据元标识,然后把 补充的数据元标识和步骤S31中所述活动缺失的场景原有的数据元标识组合成补充后总 数据元标识,完成补充缺失项处理。
[00巧]优选地,步骤S4所述从元数据仓库中获取数据元标识E所对应的数据,将所述数 据进行后得到结果构建数据集,具体按照下述步骤实现:
[0036] A1,将抽取到的数据组成初级数据集,对初级数据集进行梳理,得到特征数据元和 非特征数据元;
[0037] A2,将非特征数据元进行知识计算,如果经过计算后得到结果数据,则进入B4 ;如 果经过知识计算后没有得到数值数据,则没有得到数值数据的非特征数据元作为问题目 柄,进入A3 ;
[003引A3,从元数据仓库查找与问题目标数据存在相关性的关键词的数据元标识所对应 的数据,再返回A2进行计算处理;
[0039] A4,将特征数据元和得到的结果数据按照系列层、集合层、实体层、子集层顺序进 行逻辑排列,得到数据集;其中,特征数据元对应具体的数值。
[0040] 更优选地,步骤A2中,所述知识计算具体按照下述步骤进行:
[0041] B1,将数据集中无数据的数据元作为目标数据元;
[0042]B2,从知识库中查找与所述目标数据元存在逻辑计算关系的条件数据元,得到知 识集Z;
[0043] B3,对知识集Z进行二次选择,如果知识集Z中的任意一个条件数据元是有数据的 数据元或者条件数据元存在于数据集中,则选择所述条件数据元,构建知识集Z1 ;
[0044] B4,通过条件数据元对应的数据、知识集Z1和条件数据元与目标数据元之间的逻 辑关系,得到目标数据元的数据集。
[0045] 优选地,业务逻辑模型根据业务域分成不同的系列,每个系列内的业务报表按照 业务分类W及对象不同分成不同的集合;所述集合再分成实体,即业务报表;所述实体再 分成子集,即所述业务报表内的子表格,每一个所述集合至少含有一个M类实体,即基础的 所述业务报表;所述M项是一种数据项的分类,用于确定数据唯一性的标识;所述数据项包 括M项、C项和0项,所述M项为必填项,所述C项和所述0项均为非必填项。
[0046] 本发明的有益效果是;
[0047] 本发明能够根据自然语言的问题进行分析,得出问题的关键信息,再从知识库中 获取匹配的知识,解决问题。能够有效地利用已知数据解决未知问题。能快速完成对相关 领域数据的全面捜索、导航、启发式联想。
【附图说明】
[0048] 图1是基于6W语义标识的元数据仓库启发式智能捜索方法的流程示意。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1