搜索系统和相应方法

文档序号：8909170阅读：533来源：国知局

搜索系统和相应方法
【技术领域】
[0001] 本发明设及电子捜索系统，例如电子捜索引擎，化及用于电子捜索的相应的方法。技术背景
[0002] 传统上，捜索引擎已被设计成返回相关文件（例如网页）来响应用户查询。要做到该一点，捜索引擎将用户查询（包括关键字）与分配给特定网页的索引项或标签进行比较。如果用户输入的关键字和网页索引项匹配，则该捜索引擎会返回与用户查询相关的网页。
[0003] 然而，该方法存在一些缺点。为了使用传统捜索引擎，用户必须将他的捜索查询提炼成若干相关的关键字，或短问题，并且，在一般情况下，该捜索的结果高度取决于用户对于关键字的选择。传统捜索引擎并不能处理大量输入文本或自然语言文本。此外，传统捜索引擎局限于返回一个或多个特定文件作为结果。
[0004] 此外，如果与特定网页相关联的索引项集不包括其中的一个关键字，那么传统捜索引擎可化会错误地把网页作为不相关的网页丢弃。

【发明内容】

[0005] 本发明提供可W解决传统捜索引擎的弊端的一些捜索系统和捜索方法。
[0006] 本发明设及概率驱动捜索系统，该系统可W考虑到一系列证据源，来将相关的内容提供给用户。基于明确的捜索查询或某些其它文本输入，本发明的系统和方法使用统计模型来将相关的内容建议提供给用户，所述统计模型由与可识别的多段内容相关联的数据集推导出。
[0007] 本发明的第一个方面在于提供了一种捜索系统。所述捜索系统用于：接收文本输入，针对多段内容中的每一段生成该段内容与给定的文本输入之间存在相关性的似然性的估计，并选择性地输出作为内容建议的一段或多段最相关的内容。
[0008] 所述捜索系统的优选实施例包括统计模型。所述统计模型在与一段内容相关联的文本上进行训练，其中所述与一段内容相关联的文本是从多个不同的数据源中提取出的。该系统用于；接收文本输入，并通过统计模型生成该段内容与给定的文本输入之间存在相关性的似然性的估计。
[0009] 在一个优选实施例中，统计模型在一些特征上训练，该些特征是从与该段内容相关联的文本中提取出的。其中所述系统还包括；特征提取机构，其用于从文本输入中提取多个（一些）特征；W及关联机构，其用于W所述文本输入的各特征查询统计模型，从而生成该段内容与给定的文本输入之间存在相关性的似然性的估计。
[0010] 优选地，所述系统包括在与多段内容相关联的文本上训练的多个统计模型。所述系统用于；通过与多段内容中的每一段相关联的统计模型，生成所述多段内容中的各段内容与给定的文本输入之间存在相关性的似然性的估计。
[0011] 所述系统可用于根据相关性将所述多段内容排序，并确定一段或多段最相关的内容。
[0012] 所述系统可用于输出所述一段或多段最相关的内容中的各段内容的至少一个代表。
[0013] 所述系统可用于输出一段或多段最相关的内容。
[0014] 该段内容可W是特定的实体或与特定实体相关联的内容。
[0015] 所述系统可用于输出与所述一段或多段最相关的内容相关联的一个或多个实体的至少一个代表。
[0016] 所述系统可W包括在与一段或多段内容有关的非文本数据上训练的统计模型。优选地，所述系统用于接收非文本证据，并通过在非文本数据上训练的统计模型，生成该段内容与给定的非文本证据之间存在相关性的似然性估计。
[0017] 所述系统可W包括用于对文本输入进行分类的分类器。
[0018] 所述分类器可W用于对多个在文本上训练的统计模型中的每一个模型按内容类型分类，对文本输入按内容类型分类，并确定与所述文本输入属于相同内容类型的多个统计模型的子集。优选地，所述关联引擎用于W文本输入的各特征来查询统计模型的子集的各统计模型，W生成与所述模型的子集的各模型相关联的各段内容与给定的文本输入之间存在相关性的似然性估计。
[0019] 所述系统可W包括在自然语言文本上训练的第一语言模型和在对话文本上训练的第二语言模型。所述分类器可W用于将一部分文本输入与第一、第二模型进行比较，W将该部分文本输入分类为自然语言或对话语言。优选地，如果该部分文本输入分类为对话语言，则所述系统用于丢弃该部分文本输入。
[0020] 文本输入可W通过用户输入到系统中。可替代地，文本输入不通过用户输入到系统中。例如，无需用户干预，将文本输入提供给系统，例如该系统可接收来自，但不限于，电视或无线电广播、因特网网页、电子邮件会话、新闻推送等的文本输入。
[0021] 所述系统可W用于根据多个证据源生成多段内容的相关性的似然性估计，其中所述多个证据源之一是文本输入。所述系统因此可W用于接收多个证据。
[0022] 优选地，所述系统包括内容数据库，在该内容数据库中各段内容与多个数据集类型（例如文本、用户点击历史等）相关联。优选地，各段内容与内容类型（例如，电影、文献等）相关联。优选地，所述内容数据库包括至少一种基于语言的与各段内容相关联的统计模型，其中所述至少一个基于语言的统计模型在与所述一段内容相关联的文本数据集上训练。优选地，所述系统用于将所述输入文本提供给多个基于语言的统计模型，W生成各段内容与给定的输入文本之间存在相关性的似然性估计。优选地，所述系统除使用输入文本之夕F，还使用非文本证据来生成该似然性估计。
[0023] 基于语言的统计模型是在文本上训练过的统计模型。
[0024] 本发明的第二个方面在于，提供一种用于提供一个或多个内容建议的捜索内容的方法。所述方法包括；接收文本输入，对多段内容中的各各段内容，生成该段内容与给定的文本输入之间存在相关性的似然性估计，并选择性地输出作为内容建议的一段或多段最相关的内容。
[0025] 在一优选实施例中，所述方法为用于确定一段内容是否与文本输入相关的方法。所述方法包括：在捜索系统接收文本输入，并通过在与一段内容相关联的文本上训练的统计模型，生成该段内容与给定的文本输入之间存在相关性的似然性估计。所述与该段内容相关联的文本是从多个不同的数据源中提取出的。
[0026] 在一优选实施例中，所述统计模型在从与该段内容相关联的所述文本中提取的特征上训练。所述方法进一步包括；通过特征提取机构从所述文本输入中提取特征，并通过关联机构W文本输入的各特征查询统计模型，W生成该段内容与给定的文本输入之间存在相关性的似然性估计。
[0027] 优选地，所述方法包括使用了与多段内容相关联的文本上训练的多个统计模型的似然性估计生成步骤，所述似然性估计生成步骤具体为：通过与所述多段内容中的各段内容相关联的统计模型，生成多段内容中的各段内容与给定的文本输入之间存在相关性的似然性估计
[0028] 所述方法可W进一步包括；根据相关性将所述多段内容排序，并确定一段或多段最相关的内容。
[0029] 所述方法可W进一步包括；输出所述一段或多段最相关的内容中的各段内容的至少一个代表。
[0030] 所述方法可W进一步包括；输出一段或多段最相关的内容。
[0031] 所述一段内容可W是特定的实体。所述一段内容可W与特定实体相关联，所述方法进一步包括：输出与所述一段或多段最相关的内容相关联的一个或多个实体的至少一个代表。
[0032] 所述方法可W包括；通过在与一段或多段内容相关的非文本数据上训练的统计模型，生成多段内容中的各段内容与给定的非文本数据之间存在相关性的似然性估计。
[0033] 本发明的一个实施例中，所述方法包括；通过分类器对文本输入进行分类。
[0034] 所述方法可W包括；通过分类器对在文本上训练的所述多个统计模型中的每一个按内容类型分类，对文本输入按内容类型分类，W及确定与所述文本输入属于相同内容类型的多个统计模型的子集。
[00巧]所述方法包括；通过所述关联引擎，W文本输入的各特征来查询统计模型的子集的各统计模型，W及生成各段内容与给定的文本输入之间存在相关性的似然性估计，其中所述各段内容与所述模型的子集的各模型相关联。
[0036] 所述系统可W包括；在自然语言文本上训练的第一语言模型和在对话文本上训练的第二语言模型，而所述方法可W包括；通过分类器，将一部分文本输入与第一、第二模型进行比较；并将该部分文本输入分类为自然语言或对话语言。所述方法可W进一步包括：当该部分文本输入分类为对话语言时丢弃该部分文本输入。
[0037] 所述文本输入可W通过用户输入到系统中。可替代地，所述文本输入不通过用户输入到系统中。
[0038] 优选地，根据多个证据源生成所述多段内容的相关性的似然性估计，其中所述多个证据源之一是文本输入。所述方法可W包括；接收一个或多个额外的证据。
[0039] 优选地，生成上述估计的步骤包括：除了基于输入文本外还基于非文本证据进行估计。
[0040] 本发明的第=个方面在于，提供了一种包括计算机可读介质的计算机程序产品，在所述计算机可读介质上存储有计算机程序手段，该计算机程序手段用于使处理器执行W 上所描述的任何一种方法。
【附图说明】
[0041] 通过参考下面的附图，进一步的解释本发明。
[0042] 图1是根据本发明的高层系统架构的方框图。
[0043] 其中，图1中各标记分别为；用户5,关联引擎10,内容数据库20,内容建议30,多个证据源50,其它证据51，内容类型证据52,用户证据53,语境证据54,焦点证据55,分类器60。
【具体实施方式】
[0044]"内容"为本领域技术人员所公知的术语，并且可包括，但不限于W下之一；文件、新闻报道、视频、图像、应用程序、声音片段、文本片段等。在本申请的上下文中，"一段内容" 指特定内容（例如，特定的电影、书籍、新闻报道、应用程序等），所述特定内容与从多个不同的数据源（例如，转入应用程序的链接、应用程序的文本、对于该应用程序的评论、应用程序的下载数量等）中提取的数据相关联，该种数据可W包括文本和非文本（如点击历史记录）数

完整全部详细技术资料下载

当前第1页1 2 3 4 5 6

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：本杰明·麦德洛克;大卫·保罗·威廉姆斯;
技术所有人：触摸式有限公司;
我是此专利的发明人

上一篇：信息存储和检索的基于图形的系统和方法
上一篇：分类搜索结果的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。