一种基于概率模式匹配的关键字查询转换与分发系统和方法与流程

文档序号:12122057阅读:来源:国知局

技术特征:

1.一种基于概率模式匹配的关键字查询转换与分发系统,其特征是:关键字查询转换与分发系统包括:关键字查询接口、集成查询接口、Web数据库查询接口、关键字查询转换模块和查询分发模块;用户在关键字查询接口提交关键字查询,由关键字查询转换模块将用户的关键字查询转换为集成查询接口的查询,再由查询分发模块进一步将查询分发至各Web数据库查询接口,对各Web数据库进行查询。

2.根据权利要求1所述的一种基于概率模式匹配的关键字查询转换与分发系统,其特征是:所述的关键字查询接口,用于用户提交查询请求,即提交查询关键字;

所述的集成查询接口,是由各Web数据库查询接口抽取集成得到的结构化查询接口;

所述的Web数据库查询接口,是从Web上爬取得到的同一领域的数据库查询接口;

所述的关键字查询转换模块,用于将关键字查询接口上用户提交的查询转换至结构化集成查询接口上;

所述的查询分发模块,用于将集成查询接口上的查询分发至Web数据库查询接口上。

3.根据权利要求1所述的一种基于概率模式匹配的关键字查询转换与分发系统,其特征是:所述的关键字查询转换模块进一步包括:转换数据类型分析子模块、基于概率的转换模式匹配子模块和关键字转换子模块;先由数据类型分析子模块分析具有相同数据类型的关键字与集成接口的概念,将其作为潜在的匹配对;然后由基于概率的模式匹配子模块计算可能匹配对的匹配概率;最后由关键字转换子模块将用户的关键字查询转换至集成查询接口。

4.根据权利要求3所述的一种基于概率模式匹配的关键字查询转换与分发系统,其特征是:所述的转换数据类型分析子模块,用于分析用户查询的关键字、结构化集成接口的各概念所属的数据类型;所述的基于概率的转换模式匹配子模块,用于计算各可能匹配的匹配概率,不同的数据类型采用不同的计算方法,计算出匹配的概率;所述的关键字转换子模块,将各匹配概率按降序排序,选择且得到最优模式匹配结果,将关键字查询接口上用户提交的查询转换至结构化集成查询接口上。

5.根据权利要求1所述的一种基于概率模式匹配的关键字查询转换与分发系统,其特征是:所述的查询分发模块进一步包括:分发数据类型分析子模块、基于概率的分发模式匹配子模块和查询分发子模块;先由数据类型分析子模块分析具有相同数据类型集成接口的概念与各Web数据库查询接口各属性,将其作为潜在的匹配对;然后由基于概率的模式匹配子模块计算可能匹配对的匹配概率;最后由关查询分发子模块将集成接口的查询分发至各Web数据库查询接口各属性。

6.根据权利要求5所述的一种基于概率模式匹配的关键字查询转换与分发系统,其特征是:所述的分发数据类型分析子模块,用于分析结构化集成接口的各概念和各Web数据库查询接口各属性所属的数据类型;所述的基于概率的分发模式匹配子模块,用于计算各可能匹配的匹配概率,不同的数据类型采用不同的计算方法,计算出匹配的概率;所述的查询分发子模块,将各匹配概率按降序排序,选择且得到最优模式匹配结果,将集成查询接口上的查询分发至Web数据库查询接口上。

7.权利要求1所述的一种基于概率模式匹配的关键字查询转换与分发系统的分发方法,其特征是:所述的关键字查询转换与分发方法包括以下步骤:

步骤A:将用户的关键字查询转换为结构化集成查询接口的查询;利用用户查询的关键字信息和集成查询接口各概念的候选值信息,寻找关键字查询模式与集成查询接口模式之间的模式匹配关系,建立用户查询关键字和集成的结构化查询接口中的相关概念之间的对应关系,从而将用户的关键字查询转换为结构化集成查询接口的查询;

步骤B:将集成接口的结构化查询分发到各Web数据库查询接口的查询;利用集成接口的模式信息、候选值信息和Web数据库查询接口的模式信息、候选值信息,寻找集成查询接口模式与各Web数据库查询接口模式之间的匹配关系,建立集成查询接口各概念与Web数据库查询接口各属性的模式对应关系,从而将集成接口的结构化查询分发到各Web数据库查询接口;所述的集成接口的模式为概念及相应的标签名集合。

8.根据权利要求7所述的一种基于概率模式匹配的关键字查询转换与分发的方法,其特征是:所述的步骤A和步骤B均包括有延伸步骤,步骤A和步骤B的每一步的延伸步骤分别相同,具体步骤如下:

步骤A1或步骤B1:基于数据类型进行匹配的优化。数据类型是否相同其实是进行关键字和集成查询接口的概念之间或者集成查询接口的概念与Web数据库查询接口的属性之间是否匹配的先决条件,即关键字往往与其数据类型相同的概念匹配,概念也只与数据类型相同的属性匹配。基于数据类型的匹配优化就是将同类型的匹配项放在一组,进行匹配概率计算,否则不再进行匹配概率计算;所述的数据类型包括文本型、数字型和时间型;

步骤A2或步骤B2:对于不同的数据类型的匹配项进行匹配时,采用不同的概率计算方法,得到基于概率模式匹配的最优匹配结果;

步骤A3或步骤B3:将用户的关键字查询匹配到集成查询接口,再由集成查询接口进一步分发至各Web数据库查询接口。

9.根据权利要求8所述的一种基于概率模式匹配的关键字查询转换与分发的方法,其特征是:所述的步骤A2和步骤B2均包括有延伸步骤,步骤A2和步骤B2的每一步的延伸步骤分别相同,具体步骤如下:

步骤A21或B21步骤:对于字符型数据类型的匹配,采用基于字符串相似度的计算方法得到匹配概率,目前成熟的字符串相似度计算方法很多,例如Levenshtein distance,Affine gap distance,Jaro distance,Q-gram distance,相似度计算结果作为匹配的概率;

步骤A22或B22步骤:对于数字型数据类型的匹配,基于数字实例的覆盖情况,(1)无覆盖;(2)松散部分覆盖;(3)松散覆盖;(4)单一约束覆盖;(5)复杂约束覆盖,进行模式匹配的剪枝,得到可能的匹配对;

步骤A23或B23步骤:对于可能的数字型数据类型的匹配对,进行匹配概率计算,将各匹配概率按降序排序,选出概率最大的一对作为第一个匹配对,删除包含这个匹配对中任意一项的匹配概率,从余下的匹配概率中选择最大的一对作为第二个匹配对……,依次类推,直到找到所有的匹配项。

10.根据权利要求9所述的一种基于概率模式匹配的关键字查询转换与分发的方法,其特征是:所述的步骤A23和步骤B23均包括有延伸步骤,步骤A23和步骤B23的延伸步骤相同,具体步骤如下:

若给定数据为两个数值数据m和n,则匹配概率为:

<mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>m</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>=</mo> <mn>1</mn> <mo>-</mo> <mfrac> <mrow> <mo>|</mo> <mi>m</mi> <mo>-</mo> <mi>n</mi> <mo>|</mo> </mrow> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <mi>m</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>

若给定数据为两组离散的数字型数据的集合S1和S2,S1={n1,n2,n3,…},S2={m1,m2,m3,…},两者的重复数据的多少反映了相似程度,则匹配概率为:

<mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>S</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mo>|</mo> <msub> <mi>S</mi> <mn>1</mn> </msub> <mo>&cap;</mo> <msub> <mi>S</mi> <mn>2</mn> </msub> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <msub> <mi>S</mi> <mn>1</mn> </msub> <mo>&cup;</mo> <msub> <mi>S</mi> <mn>2</mn> </msub> <mo>|</mo> </mrow> </mfrac> </mrow>

若给定数据为两组范围型的数字集合R1和R2,R1={s1,s2,s3,…},R2={t1,t2,t3,…},两者的重叠程度反映了相似程度,则匹配概率为:

<mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>R</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>R</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mn>1</mn> </msub> <mo>&cup;</mo> <msub> <mi>s</mi> <mn>2</mn> </msub> <mo>&cup;</mo> <mo>...</mo> <mo>)</mo> <mo>&cap;</mo> <mo>(</mo> <msub> <mi>t</mi> <mn>1</mn> </msub> <mo>&cup;</mo> <msub> <mi>t</mi> <mn>2</mn> </msub> <mo>&cup;</mo> <mo>...</mo> <mo>)</mo> </mrow> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mn>1</mn> </msub> <mo>&cup;</mo> <msub> <mi>s</mi> <mn>2</mn> </msub> <mo>&cup;</mo> <mo>...</mo> <mo>)</mo> <mo>&cup;</mo> <mo>(</mo> <msub> <mi>t</mi> <mn>1</mn> </msub> <mo>&cup;</mo> <msub> <mi>t</mi> <mn>2</mn> </msub> <mo>&cup;</mo> <mo>...</mo> <mo>)</mo> </mrow> </mfrac> </mrow>

其中,0≤P≤1,且计算出的值越大,两项的匹配程度越大。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1