一种起点确定的RDF有向无环图查询的数据清理方法与流程

文档序号：12364221阅读：来源：国知局

技术特征：

1.一种起点确定的RDF有向无环图查询的数据清理方法，其特征在于，包括以下步骤：

步骤一：在概率RDF图中进行起点确定的RDF有向无环图查询获得与之匹配的同构图；

步骤二：量化清洗一条边时所得的期望质量提升模型；

步骤三：遍历同构图获得有效属性集，根据所述有效属性集访问所述概率RDF图来获得有效边集；

步骤四：通过朴素算法、剪枝算法一、或剪枝算法二在所述有效边集中选出使得所述期望质量提升模型提升最大化的边。

2.如权利要求1所述的起点确定的RDF有向无环图查询的数据清理方法，其特征在于，所述期望质量提升以如下公式表示：

EΔH＝H(R)-p(e_ijk＝1)H(R|e_ijk＝1)-p(e_ijk＝0)H(R|e_ijk＝0)

＝H(e_ijk)-(H(R,e_ijk）-H(R))

式中，H(·)表示熵，p(·)表示某一事件的概率，查询结果R表示与查询图匹配的同构图及其相应的概率，H(R|e_ijk＝0)表示当众包边e_ijk时且返回为0时的查询结果R的熵，H(R|e_ijk＝1)表示当众包边e_ijk时且返回为1时的查询结果R的熵，H(e_ijk)表示众包平台返回e_ijk的值的熵，H(R,e_ijk)表示查询结果R与e_ijk的返回值的联合熵。

3.如权利要求1所述的起点确定的RDF有向无环图查询的数据清理方法，其特征在于，所述朴素算法包括以下步骤：

步骤a1：遍历同构图链表获得有效属性集；

步骤a2：根据有效属性集访问RDF数据图来获得有效边集；

步骤a3：对于每条边遍历同构图链表，计算与其对应的集合一、集合二与集合三的概率，然后代入所述期望质量提升模型中求得其期望质量提升值；

步骤a4：从所述有效边集中选取使所述模型质量提升值最大的那条边为所求边。

4.如权利要求1所述的起点确定的RDF有向无环图查询的数据清理方法，其特征在于，所述剪枝算法一包括以下步骤：

步骤b1：遍历同构图获得有效属性集；

步骤b2：根据有效属性集访问RDF数据图来获得有效边集；

步骤b3：将所述有效边集中的边按照接近0.5的程度排序，

步骤b4：定义变量maxDeltaH，设其初值为0；

步骤b5：从排好序的有效边集中逐个取出边，对每个取出的边访问同构图链表来计算其模型质量提升值，如果模型质量提升值大于当前的maxDeltaH，那么将maxDeltaH设置成当前所访问边的模型质量提升值，同时将该边设为模型质量提升值最大的边；如果该边的熵小于maxDeltaH，则表示这条边及以后的边的模型质量提升值不可能再大于maxDeltaH了，返回maxEdge。

5.如权利要求1所述的起点确定的RDF有向无环图查询的数据清洗方法，其特征在于，所述剪枝算法二包括以下步骤：

步骤c1：遍历同构图链表建立一张二维表，每行表示同属性下的不同边，不同列表示不同的属性，且第一列仅记录属性及每行的概率和；遍历同构图的同时将其概率加到其包含所的边上；最后每条边记录了其集合一的概率，第一列属性的概率减去集合一的概率为其集合二的概率，遍历同构图的同时计算所有同构图的概率之和；

步骤c2：按照二维表遍历RDF数据图构造有效边集，并记录每个元素在二维表中的位置；

步骤c3：将EE中的边按照接近0.5的程度排序；

步骤c4：定义变量maxDeltaH，设其初值为0；

步骤c5：从排好序的有效边集中逐个取出边，对每个取出的边访问二维表表来计算其模型质量提升值，如果模型质量提升值大于当前的maxDeltaH，那么将maxDeltaH设置成当前所访问边的模型质量提升值，同时将该边设为EΔH最大的边；如果这条边的熵小于maxDeltaH，则表情这条边及以后的边的模型质量提升值不可能再大于maxDeltaH了，返回maxEdge。

完整全部详细技术资料下载

当前第2页1 2 3