查询特征和问题的制作方法

文档序号:8947466阅读:255来源:国知局
查询特征和问题的制作方法
【专利说明】查询特征和问题
【背景技术】
[0001] 用户针对各种类型的信息查询搜索引擎。搜索引擎可基于最匹配那些查询的词 语,提供排序的站点列表。搜索引擎的有效性取决于返回页面的相关性。虽然可能存在包 括特定的词或短语的数以百万计的页面,某些可能比其他的更相关、更受欢迎或更可信。
【附图说明】
[0002] 图1是根据本公开各方面的示例系统的框图。
[0003] 图2是根据本公开各方面的示例方法的流程图。
[0004] 图3是根据本公开各方面的示例特征的列表。
[0005] 图4是图示根据本公开各方面的支持向量机的使用的示例二维图。
[0006] 图5是根据本公开各方面的示例方法的另一流程图。
【具体实施方式】
[0007] 如上所述,用户针对各种类型的信息查询搜索引擎。一些查询可能寻找关于主题 的一般信息,而其他可能是具体问题。处理具体问题的一个方法是使用垂直搜索服务,例如 问答搜索、产品搜索、或工作搜索。这些服务可提供关于特定主题的实质性具体问题的答 案。例如,基于社区的问答系统("CQA")站点允许用户在其中提交问题,且允许其他订阅 者提供那些问题的答案。久而久之,CQA站点可能积累了可由用户搜索的大量问答集合。因 此,为了获得他们的具体问题的答案,用户可能需要找出这些垂直搜索站点,并且在其中提 交或找出他们的问题。虽然传统的搜索引擎可以尝试将问题中的词语与某些网页(例如, 其索引的数据库中包含的网页)中的那些词语相匹配,这些页面可能不包括相关的垂直搜 索页面。此外,即便搜索引擎知道相关的垂直搜索页面,搜索引擎可能将其排序在结果列表 中较低的位置。
[0008] 有鉴于前述的,本文公开了一种系统、非暂时性计算机可读介质、以及方法,用于 确定查询是否包括实质性具体问题。在一个示例中,此确定可至少部分基于查询的特征。在 另一个示例中,与当前查询相关的过去查询可用于验证该查询不包括实质性具体问题的发 现。在又另一个示例中,查询建议可用于验证该查询包括实质性具体问题的发现。在另一 方面,实质性具体问题可定义为满足以下两个条件的短语:第一,可通过在短语的开始加入 疑问词(例如,"who(谁)"、"what(什么)'"where(哪里)"、"how(如何)"、"(when)何 时"、或"why(为什么)"),该短语可转化为相关问题;第二,该短语充分突出重点,使得答案 没有明显不同(例如,"History of the world(世界历史)"将具有不同的结果)。
[0009] 本文公开的技术可准确预测当前查询是否包括实质性具体问题。因此,可使搜索 引擎以相关的垂直搜索页面为目标,并在返回给用户的结果中将这些页面排序更高,而不 是基于词语的相似性排序页面。当参照示例的下列描述和附图进行考虑时,本公开的各方 面、特征和优点将被理解。下列描述不限制应用,相反地,本公开的范围由所附权利要求及 其等同物限定。
[0010] 图1提供了用于执行本文公开的技术的例示性计算机装置100的示意图。计算机 装置100可包括常与计算机结合使用的所有组件。例如,其可具有键盘和鼠标和/或各种其 他类型的输入设备以及显示器,输入设备例如:笔输入、操纵杆、按钮、触摸屏等等,显示器 可包括例如:CRT、IXD、等离子体屏幕监视器、TV、投影仪等等。计算机装置100还可包括网 络接口(未示出),用于通过网络与其他设备通信。计算机装置100还可包含处理器110, 处理器110可为任意数量的已知处理器,例如,英特尔?公司的处理器。在另一个示例中, 处理器110可为专用集成电路("ASIC")。非暂时性计算机可读介质("CRM") 112可存储 可由处理器110获取并执行的指令。在一个示例中,指令可包括第一分类器114、第二分类 器116、以及第三分类器118。非暂时性CRM 112可由任何指令执行系统使用,或与任何指 令执行系统相连,该指令执行系统能够从非暂时性CRM 112获取或获得逻辑,并执行在非 暂时性CRM 112中包含的指令。
[0011] 非暂时性计算机可读介质可包括许多物理介质中的任一种,例如电子、磁性、光 学、电磁、或半导体介质。合适的非暂时性计算机可读介质的更多具体示例包括但不限于: 便携式磁性计算机磁盘,例如软盘或硬盘、只读存储器("R0M")、可擦除可编程只读存储 器、便携式光盘、或可直接或间接联接至计算机装置100的其他存储设备。可替代地,非暂 时性CRM 112可为随机存取存储器("RAM")设备、或者可分成被组织为双列直插式存储 模块(DIMM)的多个存储段。非暂时性CRM 112还可包括前述的一个或多个的任意组合和 /或其他设备。虽然图1中仅示出一个处理器和一个非暂时性CRM,计算机装置100实际上 可包括可存储或可不存储在同一物理外壳或位置中的其他处理器和存储器。
[0012] 驻留在非暂时性CRM 112中的指令可包括将由处理器110直接执行的任意指令 集(例如,机器代码)或将由处理器间接执行的指令集(例如,脚本)。在这点上,术语"指 令"、"脚本"、以及"应用程序"在本文中可互换使用。计算机可执行指令可以以任何计算机 语言或格式,例如对象代码或源代码的模块,来存储。此外,理解到,指令可以以硬件、软件、 或硬件和软件的组合的形式来实现,且本文的示例仅为例示性的。
[0013] 如在下面将更详细讨论的,第一分类器114可指示处理器110至少部分基于当前 查询是否包括预定的特征,来确定当前查询是否包括实质性具体问题。第二分类器116可 指示处理器110至少部分基于对与当前查询相关的过去查询的分析,来验证关于当前查询 是否包括实质性具体问题的确定。在另一个示例中,第三分类器118可指示处理器110至 少部分基于对当前查询的搜索引擎所生成的查询建议的分析,来验证关于当前查询是否包 括实质性具体问题的确定。
[0014] 图2至图5中示出系统、方法以及非暂时性计算机可读介质的工作示例。具体地, 图2图示出用于确定查询是否包括实质性具体问题的示例方法200的流程图。图3是可用 于确定查询是否包括实质性具体问题的预定特征的示例。图4是根据本公开各方面的使用 支持向量机的查询分析的工作示例。下面将结合图2的流程图讨论图3至图4中示出的动 作。图5是用于验证查询是否包括实质性具体问题的示例方法500的另一流程图。
[0015] 如图2的框202中示出的,第一分类器114可确定当前查询是否包括实质性具体 问题。这样的确定可基于查询是否包括指示实质性具体问题的预定义特征。如将在下面进 一步解释的,第一分类器114可包括二元分类器。这样的分类器可使用训练查询的预定义 特征,来确定新查询是包括还是不包括实质性具体问题。该特征可在第一分类器114的执 行之前被检测,且可以是被提供作为其输入的训练查询的部分。
[0016] 现在将讨论特征生成的概况。在一个示例中,查询特征可从文本检索会议 ("TREC")和美国在线("A0L")所生成的查询日志中提取。即使不是数百万个查询在某 一时间段被编辑,这些日志也可包含数千个查询。在一个实现方式中,一组研究人员可在视 觉上确定来自日志的查询样本是否包含实质性具体问题。在视觉确定完成之后,研究人员 可提取在视觉上被确定为包括实质性具体问题的查询的特征。如将在下面结合图3更详细 解释的,这些特征可在自动化工具的帮助下提取。除了下面讨论的特征提取示例外,其他示 例可使用降维算法,例如,核主成分分析、多线性主成分分析等等。
[0017] 在一个示例中,交叉验证可用于确定哪个提取的特征最表示实质性具体问题。交 叉验证是一种用于估计预测模型的准确性的统计技术。如上所述,研究人员可视觉上确定 哪些查询包括实质性具体问题,且可使
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1