一种数据源的选择方法及系统的制作方法

文档序号:6607603阅读:396来源:国知局
专利名称:一种数据源的选择方法及系统的制作方法
技术领域
本发明涉及信息检索技术领域,尤其涉及一种数据源的选择方法及系统。
背景技术
随着互联网的迅速发展和壮大,网络上可利用的信息资源的数量越来越大,类型 也越来越丰富,面对数量庞大且无组织的信息资源,如何更好的帮助用户快速准确的查询 到所需要的信息就成为信息检索领域一个非常重要的研究课题。搜索引擎的出现极大地提 高了人们定位和收集信息的能力,搜索引擎通过收集众多网络站点的页面来提供全局性网 络资源控制与检索机制,以帮助用户方便快捷地找到所需的信息资源。随着信息资源的急剧膨胀,传统的信息资源无法提供某一关键词对应的更深入更 专业的信息。包含结构化数据的数据源的出现缓解了上述问题,它可以针对某一领域或某 一主题等提供更专业、更深入更全面的信息数据,例如餐饮信息“湘江老厨,**大街*号,电 话***,剁椒鱼头......”等。然而,发明人在实现本发明的过程中发现,在一个整合的搜索平台接入多个数据 源,当搜索平台接收到用户输入的查询信息时,由于接入的数据源众多,而无法判断哪个数 据源能向用户提供更匹配的信息资源。

发明内容
本发明实施例提供一种数据源的选择方法及系统,能够为用户选择可以提供更匹 配信息资源的数据源。为了解决上述技术问题,本发明实施例的技术方案如下本发明实施例提供一种数据源的选择方法,所述方法包括接收查询请求并获取请求中的关键词;确定所述关键词在所述属性索引项中的对应属性,其中,所述属性索引项为数据 源中结构化数据的属性索引项;计算所述属性在各所述数据源中对应的属性值与所述关键词的综合相似度;选择综合相似度满足预置条件的属性值对应的数据源作为满足所述查询请求的 数据源。本发明实施例还提供一种数据源的选择系统,其特征在于,包括属性创建单元,用于建立数据源中结构化数据的属性索引项;请求接收单元,用于接收查询请求并获取请求中的关键词;属性确定单元,用于确定所述关键词在所述属性索引项中的对应属性;计算单元,用于计算所述属性在各所述数据源中对应的属性值与所述关键词的综 合相似度;选择单元,用于选择综合相似度满足预置条件的属性值对应的数据源作为满足所 述查询请求的数据源。
本发明实施例通过创建各数据源中结构化数据的属性索引项,然后根据查询关键 词和对应属性获得综合相似度,进而实现了对结构化数据源的准确选择,从而可以为用户 提供更加匹配的信息,满足了用户的查询需求。


图1是本发明实施例一种数据源的选择方法流程图;图2是本发明实施例一的方法流程图;图3是本发明实施例二的方法流程图;图4是本发明实施例三的方法流程图;图5是本发明实施例四的方法流程图;图6是本发明实施例一种数据源的选择系统的结构示意图;图7是本发明实施例另一种数据源的选择系统的结构示意图;图8是本发明实施例另一种数据源的选择系统的结构示意图。
具体实施例方式为了使本领域技术人员能进一步了解本发明的特征及技术内容,请参阅以下有关 本发明的详细说明与附图,附图仅提供参考与说明,并非用来限制本发明。下面结合附图和实施例,对本发明的技术方案进行描述。参照图1,为本发明实施例一种数据源的选择方法流程图。该选择方法可以包括步骤101,建立数据源中结构化数据的属性索引项。在本实施例中,对于各数据源中的结构化数据按照属性分别根据属性值构建索 引,按属性建立属性值的文档频率(df)和词频(tf)值,并把与各属性对应的各数据源中的 属性值作为索引信息存在结构化索引库中。例如,建立餐馆信息的结构化数据包括餐馆名称、地址、联系电话、菜谱、菜系等属 性项。各属性索引项中除了包括各数据源中对应各属性的属性值之外,还包括属性值对应
的tf和df,如餐馆名称——“湘江老厨(tfl,dfl)、麦当劳(tf2,df2)......”其中,“餐
馆名称”为属性,“湘江老厨”、“麦当劳”为该数据源中的对应属性值,(tfl,dfl)、(tf2,df2) 分别为属性值“湘江老厨”、“麦当劳”的词频值和文档频率值。本步骤首先创建各数据源中结构化数据的属性索引项,以便于后续可以根据查询 关键词和属性、属性值对数据源进行选择,从而可以为用户提供更加匹配的信息。该步骤可 以预先建立完成,在每次选择数据源时使用,而无需每次选择时都重复该建立步骤。步骤102,接收查询请求并获取请求中的关键词。该查询请求中包含用户指定的关键词,该关键词可能为一个也可能为至少两个, 另外该请求中也还可以包含其它信息例如用户指定的该关键词对应的属性等,也还可以包 括关键词的逻辑关系。步骤103,确定所述关键词在所述属性索引项中的对应属性。该确定过程可以根据预存在选择系统中的关键词与对应属性的列表进行确定等 方式,系统中可以预先存储一个领域知识库或分类词库,可以根据该知识库确定关键词对属的属性,当然也可以直接根据用户的指定信息进行,例如,用户在查询请求中直接指定了 关键词的属性或相关属性。其中,一个关键词可能对应多种属性,多个关键词也有可能对应 相同的属性,例如“剁椒鱼头”属于招牌菜和菜单两个属性。步骤104,计算所述属性在各所述数据源中对应的属性值与所述关键词的综合相 似度。该综合相似度的确定可以根据属性值与关键词之间最相似值的相似度计算,也可 以根据属性值中包含关键词的记录数进行计算,或结合上述两参数进行计算等。具体计算 方法请参照后续实施例的描述。步骤105,选择综合相似度满足预置条件的属性值对应的数据源作为满足所述查 询请求的数据源。在获得综合相似度后,可以根据该值对属性值对应数据源进行排序,然后根据预 先设定的条件进行选择,如根据用户的查询精度要求进行选择等。该数据源可以包括垂直 搜索引擎,Deep Web和Web Database数据库等。本发明实施例通过创建各数据源中结构化数据的属性索引项,然后根据查询关键 词和对应属性获得综合相似度,进而实现了对结构化数据源的准确选择,从而可以为用户 提供更加匹配的信息,满足了用户的查询需求。下面通过具体实施例对本发明方法进行详细说明,以下实施例仍以餐饮信息的查 询为例进行说明。首先,在系统接收查询请求之前,先就餐饮信息的结构化数据建立属性索 引项,用Tl表示餐馆名称属性、T2表示电话号码属性、T3表示地址属性、T4表示菜系属性、 T5表示人均消费属性、T6表示招牌菜属性、T7表示菜单属性、T8表示基本介绍属性和T9表 示标签属性,属性索引项中,还包含各属性值的df和tf值。参照图2,为本发明实施例一的方法流程图。对于单关键词单属性情况的数据源选择,该方法可以包括以下步骤步骤201,接收查询请求并获取请求中的关键词“湘江老厨”。在本实施例中,用户提交的关键词为单关键词。步骤202,确定关键词“湘江老厨”在属性索引项中的对应属性。系统确定关键词“湘江老厨”对应的属性为餐馆名称属性Tl,也即需要在餐馆名称 属性T1的索引项中查询,本实施例中可以采用向量空间查询。步骤203,计算关键词“湘江老厨”与各个数据源中餐馆名称Tl的属性值之间的相 似度。本实施例中可以根据向量空间查询对应的计算方法将各数据源中关键词对应属 性的属性值与关键词的最相似值的相似度作为综合相似度。步骤204,选择综合相似度满足预置条件的属性值对应的数据源作为满足查询请 求的数据源。本实施例中,根据相似度的结果,从多个数据源中选择相似度最高的数据源。本发明实施例通过创建各数据源中结构化数据的属性索引项,然后根据单关键词 和对应单属性的属性值获得相似度,进而实现了对结构化数据源的准确选择,从而可以为 用户提供更加匹配的信息,满足了用户的查询需求。参照图3,为本发明实施例二的方法流程图。
对于多个关键词单属性情况的数据源选择,该方法可以包括以下步骤步骤301,接收查询请求并获取请求中的关键词“湘江老厨AND万科”。在本实施例中,用户提交的关键词为两个——“湘江老厨”和“万科”。步骤302,确定关键词间的逻辑关系。当查询关键词为至少两个时,在确定关键词在属性索引项中的对应属性之前,可 以先确定关键词间的逻辑关系,该逻辑关系的确定可以依据系统中预设或默认的规则,例 如系统中默认的关键词之间的逻辑关系为AND查询。其中,关键词之间的逻辑关系还可以 有多种,例如向量空间查询、OR查询、NOT查询、精确匹配、子串匹配、近似查询等。向量空间查询,是指结果是基于他们和查询的相似度来评价的,返回的结果中至 少包括一个查询关键词,但是包括关键词多的结果相似度高。AND查询,是指返回的结果中同时包括所有的关键词。OR查询,指的是返回的结果中包含部分关键词。NOT查询,就是布尔NOT查询,不包括制定的关键词。精确匹配,指的是完全匹配,多个关键词有序且情况,如“华为技术”做为关键词的 精确匹配的结果,而不是结果中只包括“华为”或“技术”或者两者分开的情况。子串匹配,类似于SQL查询中的”*”,”? ”或” %”操作,通过特定的字符指定子串匹配。近似查询,指的是查询关键词和每个文本属性都相关。根据上步骤可知,“湘江老厨”和“万科”之间的逻辑关系为AND查询,也即返回的 结果中同时包括所有的关键词。步骤303,确定关键词“湘江老厨”和“万科”在属性索引项中的对应属性。系统确定关键词“湘江老厨”和“万科”对应的属性为餐馆名称属性Tl,也即需要 在餐馆名称属性Tl的索引项中进行AND查询。步骤304,计算对应属性的属性值中包含关键词“湘江老厨”和“万科”的记录数作 为综合相似度。对于AND查询的计算方法,是指对于满足查询条件的属性A,使用关键词T出现在 属性A中概率使用df (T)/N来表示,其中N为数据源的中记录数。对于相互独立的查询关 键词Tl,...,Tm,同时包含在属性值A的概率可以使用df (Tl)*. · · *df(Tm)/Nm估计。对于OR查询的计算方法,是指对于关键词T查询在属性值A中的概率P (T),使用 P(T) =df(T)/N来估计。对于相互独立的查询关键词Tl,...,Tm,至少一个关键词包含在 属性值A中的概率使用
权利要求
1.一种数据源的选择方法,其特征在于,建立数据源中结构化数据的属性索引项,所述 方法包括接收查询请求并获取请求中的关键词;确定所述关键词在属性索引项中的对应属性,其中,所述属性索引项为数据源中结构 化数据的属性索引项;计算所述属性在各所述数据源中对应的属性值与所述关键词的综合相似度; 选择综合相似度满足预置条件的属性值对应的数据源作为满足所述查询请求的数据源。
2.根据权利要求1所述的方法,其特征在于,若所述关键词至少为两个,则在所述确定 所述关键词在所述属性索引项中的对应属性之前,还包括确定所述关键词间的逻辑关系;所述计算所述属性在各所述数据源中对应的属性值与所述关键词的综合相似度,具体为根据与所述逻辑关系对应的计算方法计算所述属性在各所述数据源中对应的属性值 与所述关键词的综合相似度。
3.根据权利要求2所述的方法,其特征在于,所述关键词间的逻辑关系包括 向量空间查询、AND查询、OR查询、NOT查询、精确匹配、子串匹配、近似查询。
4.根据权利要求1所述的方法,其特征在于,若所述关键词在所述属性索引项中的对 应属性为单属性,则所述计算所述属性在各所述数据源中对应的属性值与所述关键词的综 合相似度,包括计算所述属性值中包含所述关键词的记录数,作为所述综合相似度;或, 计算所述属性值与所述关键词的最相似值的相似度,作为所述综合相似度。
5.根据权利要求1所述的方法,其特征在于,若所述关键词在所述属性索引项中的对 应属性为至少两个属性,则所述计算所述属性在各所述数据源中对应的属性值与所述关键 词的综合相似度,包括确定所述各属性之间的关系;根据所述各属性之间的关系确定组合类型;根据所述组合类型对应的计算方法计算所述属性在各所述数据源中对应的属性值与 所述关键词的综合相似度。
6.根据权利要求5所述的方法,其特征在于,若所述关键词在所述属性索引项中的对 应属性为两个,则所述各属性之间的关系包括两个属性相互独立但属于不同的主题;两个属性属于不同的主题但是不相互独立;两 个属性互不包含但是属同一主题;其中一个属性是另一属性的一部分。
7.一种数据源的选择系统,其特征在于,包括属性创建单元,用于建立数据源中结构化数据的属性索引项; 请求接收单元,用于接收查询请求并获取请求中的关键词; 属性确定单元,用于确定所述关键词在所述属性索引项中的对应属性; 计算单元,用于计算所述属性在各所述数据源中对应的属性值与所述关键词的综合相 似度;选择单元,用于选择综合相似度满足预置条件的属性值对应的数据源作为满足所述查 询请求的数据源。
8.根据权利要求7所述的系统,其特征在于,关系确定单元,用于当所述关键词至少为两个时,在所述属性确定单元确定所述关键 词在所述属性索引项中的对应属性之前,确定所述关键词间的逻辑关系;所述计算单元,具体用于根据与所述逻辑关系对应的计算公式计算所述属性在各所述 数据源中对应的属性值与所述关键词的综合相似度。
9.根据权利要求7所述的系统,其特征在于,所述计算单元,具体用于当所述关键词在所述属性索引项中的对应属性为单属性时, 计算所述属性值中包含所述关键词的记录数,作为所述综合相似度;或者,计算所述属性值 与所述关键词的最相似值的相似度,作为所述综合相似度。
10.根据权利要求7所述的系统,其特征在于,当所述关键词在所述属性索引项中的对 应属性为至少两个属性时,所述计算单元包括第一子单元,用于确定所述各属性之间的关系;第二子单元,用于根据所述各属性之间的关系确定组合类型;计算子单元,用于根据所述组合类型对应的计算方法计算所述属性在各所述数据源中 对应的属性值与所述关键词的综合相似度。
全文摘要
本发明实施例提供一种数据源的选择方法及系统。一种数据源的选择方法,所述方法包括接收查询请求并获取请求中的关键词;确定所述关键词在所述属性索引项中的对应属性,其中,所述属性索引项为数据源中结构化数据的属性索引项;计算所述属性在各所述数据源中对应的属性值与所述关键词的综合相似度;选择综合相似度满足预置条件的属性值对应的数据源作为满足所述查询请求的数据源。本发明实施例通过创建各数据源中结构化数据的属性索引项,然后根据查询关键词和对应属性获得综合相似度,进而实现了对结构化数据源的准确选择,从而可以为用户提供更加匹配的信息,满足了用户的查询需求。
文档编号G06F17/30GK102135974SQ20101025212
公开日2011年7月27日 申请日期2010年8月6日 优先权日2010年8月6日
发明者孟卫一, 胡汉强, 贾江涛, 顾翀 申请人:华为软件技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1