搜索验证的系统和方法

文档序号:6477224阅读:238来源:国知局
专利名称:搜索验证的系统和方法
技术领域
本发明涉及针对基于web的系统进行搜索验证的系统和方法。
背景技术
大部分web站点包括搜索引擎设施,从而允许该站点的访问者 在尝试定位感兴趣的项目时执行搜索。当web站点日益成为与客户 进行交流的优选手段时,web站点的所有者对确保他们的web站点
作为对web站点进行体验的结果而遭受挫折的客户可能对拥有 站点的实体产生负面观点,并且在该web站点为客户^是供进行事务 的;f几制的实例中(诸如定位和购买出售的项目),客户可能由于不 能快速定位并且购买所需项目而中断对项目的购买。即使对于仅向 客户提供信息的站点(诸如政府部门的web站点)来说,站点的所 有者确保客户可以定位他们需要的信息仍旧是重要的,否则负面印 象本身将表明对拥有和/或操作该we b站点的实体不满意。
Web站点的一个问题在于,不能对引擎的有效性进行测试。迄 今所作的所有搜索引擎测试都是通过浏览器而手动进行的,结果, 各种组织在"事后"才意识到他们的搜索引擎的问题。
这通常是作为客户反馈的结果而发生的,在反馈中,客户曾尝 试在web站点上定位信息的项目并且将他们不能定位该信息向组织 进行报告。当然,依靠该方法来定位与web站点搜索引擎错失内容 相关联的问题导致了客户印象中的负面看法并且没有提供发现解决 方案的手段。此外,在认识到错失内容之后,该组织需要人工调查 并且解决web站点搜索引擎的问题。
当前,还没有执行搜索引擎验证以确保搜索引擎提供对web站点(或链接的web站点集合)所含信息的全覆盖的自动化方式。而
且,也不存在可以检测搜索引擎执行的覆盖的手段。如所指示的, 当前的解决方案在以下事实之后,即,当将客户反馈递送到搜索团
队时(例如,为何我不能找到文档"a" )。依赖于搜索引擎来传 递结果而没有深刻理解搜索引擎如何对所有w e b站点内容进行索 引。这是因为搜索引擎仅可以验证已经被索引的内容,而不验证错 失的内容。因而,在搜索引擎团队中工作的员工没有用于验证其搜 索引擎覆盖的主动手段。
本说明书中对任何现有技术的参考都不应作为对权利要求书的 优先权日期时公知常识的现有技术部分的承认或任何构成或建议。

发明内容
在一方面中,本发明提供了 一种用于验证主机搜索引擎的结果 的方法,所述方法包括以下步骤扫描可经由web界面递送的所有 数据对象,并且执行匹配引擎以生成包含所述主机搜索引擎错失内 容的报告集合。
所述报告集合可以包括详述所述web界面中内容的确切位置的 清单报告。其他报告可以在一个web站点报告中包括"具有最内 (most-in)链接的页面,,,以辅助搜索引擎操作员来调节他们的搜 索引擎。
所述报告集合还可以包括高亮显示由web界面系统所拥有的不 同web域的web URL清单。
在本发明的实施方式中,扫描可经由web界面递送的所有数据 对象的步骤包括为了未来参考而开发所有对象的索引。在一个实施 方式中,形成web站点中所有可用词的索引。此外,可以根据词的 独特性对所有可用词的索引进行排序。例如,可以采用强度分析从 而确定扫描期间定位的词的相对独特性。
在备选实施方式中,对诸如页面、图像、文本、链接、元数据 和脚本之类的所有对象,连同文档和PDF、 Word、 Power Point和其他输出格式的性质的所有对象进行捕获以及索引。
在已经建立了独特词的web站点中扫描和获取所有可用词的实
施方式中,这些可以在执行匹配引擎的时候被用作关^r建词。在该实 施方式中,将关键词输入到搜索引擎的相关字段中以确定关键词的 所有实例是否可以由搜索引擎定位。在将关键词输入到搜索引擎字
段中之后,继而可以将搜索引擎定位的所得URL集合与扫描所标识 的URL集合进行比较。针对关键词的、扫描所标识的URL集合与 搜索引擎尝试定位相同关键词的所有实例之间的任何差异表示错失 的内容。
在本发明的实施方式中,所述报告集合包括存在错失内容的 URL。
在另一方面,本发明提供一种用于验证主机搜索引擎的结果的 系统,所述系统包4舌
主机搜索引擎,用于执行对web站点的搜索;
扫描组件,其扫描并且定^立可经由到所述web站点的web界面 可获得的所有数据对象;以及
匹配引擎,用于接收由所述扫描组件定位的所述数据对象,并且 将该数据对象提交给所述主机搜索引擎,来确定不能被所述主机搜 索引擎定位的、从所述扫描组件获取的那些数据对象,从而表示由 所述主机搜索引擎错失的数据对象。
在又一方面中,本发明提供了 一种用于控制计算机的操作来验 证主机搜索引擎的结果的计算机指令代码,所述计算机指令代码实 现以下步骤
扫描可经由web界面递送的所有数据对象;以及
执行匹配引擎以生成包含所述主机搜索引擎错失内容的报告集合。
在另一方面中,本发明提供了一种包含在计算机可读介质上、 用于验证主机搜索引擎的结果的计算机程序,所述计算机程序包括 用于扫描可经由web界面递送的所有数据对象的计算机指令代码;
用于执行匹配引擎以生成标识所述主机搜索引擎错失内容的报 告集合的计算机指令代码。
因而,根据本发明的系统和方法验证企业web站点搜索引擎的 "覆盖有效性"。该系统和方法建议了 web站点搜索引擎还未进行 索引的地方或错失内容,从而通过促进更好的搜索结果来改进用户 生产力。
本文所述技术可以通过存储的、由一个或多个合适的处理设备 (诸如个人计算机或服务器计算机)执行的可执行指令实现。


现在将参考附图描述本发明,附图示出了本发明的示例性实施 方式,其中
图1是验证web站点搜索引擎的图示;
图2是在执行web站点分析时通常使用的数据库和信息类型的
图示; ,
图3是详述web站点访问者体验调查结果的报告,该报告包括 报告的web站点搜索性的等级;
图4a和图4b形成了针对web站点的搜索性度量和搜索引擎覆 盖的报告;
图5是包括验证搜索引擎过程期间未被定位的URL(web站点) 的详细列表的搜索引擎覆盖报告;以及
图6a和图6b形成了目标搜索引擎覆盖验证过程的结果的报告。
具体实施例方式
本发明实施方式驻留在可执行计算机软件中,该软件能够安装 在操作一定范围的操作系统软件(例如,Windows、 Linux和Solaris ) 或作为ASP服务执行的内部计算机设备上。软件扫描可经由web界 面对终端用户可用的所有数据对象。在完成扫描之后,软件执行分
8析匹配引擎,该引擎生成详述主机搜索引擎错失的、由扫描软件标 识的内容的区域的报告集合。
在实施方式中,该报告集合是基于html的并且标识以下物理区 域,在该物理区域中,对所有可用数据对象和企业web站点搜索结 果的扫描不同。当然,出于标识错失数据并且解决企业搜索引擎的 问题来包括错失数据的目的,而可以生成各种报告。例如,可以生 成详述组织中内容确切位置的清单才艮告。详述web站点内"具有最 内链接的页面"(即,具有到该页面的最向内指向的链接的页面) 的另一报告辅助搜索引擎用户调节他们的搜索引擎。在这点上,使 用链接的页面调节搜索引擎是惯用企业技术。标识web URL清单的 另 一 报告可用于向主机企业搜索团队高亮显示他们所拥有的区别 web域。
然后,报告的接收者可以使用结果来改进他们现有web站点搜 索引擎的覆盖。例如,访问现有web站点搜索引擎未索引的页面, 并且查看页面代码可以允许操作员理解页面代码是否是错失该页面 中潜在数据的原因。在这点上,已知javascript和/或flash导航中的 错误使得全部web站点未被索引。
报告辅助操作员解决他们web站点搜索引擎的任何问题,从而 确保完整的覆盖。该过程可以通过迭代过程实现,由此操作员使用 实现本发明方法的软件以验证他们现有企业搜索解决方案提议。
参考图1,在图表中表示了搜索验证过程(这里称为FindMax(查
例如,FindMax过程组件(10)从主管客户端Web站点(20) 的一个(或多个)计算机在一个(或多个)独立计算机上执行。主 要FindMax过程(10 )组件包括扫描引擎(25 ) 、 FindMax索引(30)、 匹配引擎(35)和报告引擎(40)。
类似地,客户端Web站点(20)包括一系列web页面(45)和 客户端搜索引擎(50)。
在图1中详细示出的实施方式中,在FindMax过程组件(10)和客户端Web站点(20)之间存在五个主要方法步骤(具有相应的数据通信)。在步骤(10),扫描引擎(25)扫描客户端Web站点(20)的web页面(45)。在步骤(20),对从扫描得到的定位数据对象进行索引以供匹配引擎(35)使用。在这点上,创建FindMax索引(30)并且将独特词(通过对索引进行分析确定的)传回客户端搜索引擎(50)。
在步骤(30),通过将独特词插入客户端搜索引擎(50)的搜索字段,而将那些词提交回到客户端搜索引擎(50)。客户端搜索引擎(50)定位与独特词相关的web页面,并且在步骤(40),将与独特词相关的web页面传送到匹配引擎(35 )。匹配引擎(35 )继而将来自于客户端搜索引擎(50)的页面与针对相同独特词的FindMax索引(30)中记录的那些页面进行比较,以确定针对相同独特词而言FindMax索引(30)中未^皮客户端搜索引擎(50)定位
的页面的任何实例。
在步骤(5),才艮告引擎(40)生成FindMax索引(30)中记录的页面与从客户端搜索引擎(50)取回的页面之间的不一致性的报告,该报告表示客户端搜索引擎(50)错失数据的实例。在步骤(5),将报告传送到客户端,以供负责客户端搜索引擎操作的操作员进行随后的分析,从而使他们能够调查搜索引擎错失数据的原因并且采取必要的修正性措施。
当然,可以生成一 系列报告来辅助搜索引擎操作员理解他们的搜索引擎缺陷并且辅助他们修正那些缺陷。本发明的系统和方法主要针对搜索覆盖的问题,该问题是可用于改进web站点可用性的一套度量中的一个成员。在这点上,参考图2,提供了示出系统主要组件的备选图示,其中标识了诸如消费者体验报告和站点质量报告之类的不同类型的报告。
无论如何,评估web站点可用性的基本方面是搜索引擎的覆盖。即使web站点页面的可视表示对于用户来i兌优于其他web站点,但如果搜索引擎没有定位该用户寻找的信息,则也将出现高的不满意度。
在实施方式中,扫描引擎具有扫描和分析通过浏览器递送到用
户的每一类web对象的能力。通常,web内容包括html、 flash、 AJAX、java脚本和诸如具有.doc、 ppt、 .xls的文件扩展名的那些冲各式的各种格式。因此,在该实施方式中,扫描引擎需要具有鲁棒性、零活并且能够解译提供的所有不同文件类型。这可能是非常复杂的过程,因为很多搜索引擎不能扫描这些不同的数据类型。
在另一实施方式中,实现并行处理技术,从而"力口速,,FindMax过程扫描web内容的能力(即,相对于扫描一个web站点而言,FindMax过程可以执行多个过程,从而减少完成对web站点的扫描所需的时间量)。
在另 一实施方式中,辅助扫描过程的学习才支术^皮合并到FindMax过考呈中。在该配置中,特别关注对web站点内重复内容和重定向的扫描。作为示例,如果扫描过程检测到递送出web服务器的重定向或重复内容,则扫描器应该自动停止取回重定向,并且继续关注更为相关的内容。相同概念可适用于重复内容,并且在这点上,扫描器应该检测内容中的模式,并且学习不取回重复内容以作为取回过程一部分。因而,在该实施方式中,扫描引擎在扫描web资源(asset)时进行"智能实时决策"。 ,
在一个特定实施方式中,FindMax过程对其扫描过的所有内容进行索引。对疋位的词进行索引的简单方法是基于搜索字符串的出现频率。在一个实施方式中,除了考虑频率,索引过程还评估上下文的相对重要性、与其他主题的接近性以及其他重要量度。在这点上,可以使用智能知识挖掘算法来理解什么概念涉及给定的搜索字符串和可以用于自动扩展查询以包4舌相关一既念。
在FindMax过程扫描信息库时使用高级学习技术的实施方式中,其学习关于信息分类的原理,该原理将库的结构表示为类别树的集合。该特征确保了 FindMax过程捕获在组织中分类以及存储信息的独特模式,而不是依靠不能应用的假设。
ii然后,可以将得到的分类树用作知识查询结果中的可化工具。 它们对用户来i兌还可用于独立地浏览。该可^L化工具帮助用户理解 组织内的信息层级,该信息层级继而可以将其用于优化它们的未来 搜索。
如上所述, 一旦完成了扫描,FindMax过程将从其内部搜索引擎 取得其所拥有的索引的输出(如上所述),并且将该输出与"主机 企业搜索解决方案,,的输出进行交叉匹配。将使用匹配引擎执行该 过程。在一个实施方式中,设计该匹配引擎4吏得FindMax过程/人其 所拥有的索引中找到web页面内独特的"低计数"词,继而将这些 独特词提交回"主机企业搜索解决方案"。然后,将从主机企业搜 索解决方案取回的结果(是URL)与FindMax过程输出进行匹配。 然后,在html报告中详述FindMax过程定位的而主机企业搜索引擎 没有定位的URL或web页面。
参考图3,提供了评估web站点的示例报告。该报告提供针对可 用性、质量、搜索性、访问性和跟踪性的独立比率。这些量度中的 每一个都是定期用于确定web站点有效性(以及用户友好性)的标 准量度。在图3报告中标识的测量中,搜索性方面是与搜索引擎覆 盖相关的量度。
参考图4a和图4b,提供了具体涉及搜索性和搜索引擎覆盖的更 详细的报告。在该报告中,提供涉及多个方面的更多细节,这些方 面诸如一般搜索性度量(例如,文档属性、HTML结构、内链文本 分析等),并且在通向该报告的结尾,报告一般搜索引擎覆盖和目 标搜索引擎覆盖结果。.
参考图5,提供了具有关于搜索引擎覆盖的更多细节的报告。在 报告的该部分中,连同搜索术语的总数量、测试的URL总数量和未 找到的URL的总数量一起,提供关于扫描的URL总数量的具体细 节。从这些所报告数量中,导出了 63.63%的总比率作为搜索引擎覆 盖的测量。此外,冲艮告包括搜索引擎未找到的URL的详细列表。在 生成该特定报告的本发明的实施方式中,提供了未找到的、到URL的链接,因此使查看者能够容易地选择该链接,并且将他们的浏览 器指向包含错失数据的页面。
参考图6a和图6b,提供了详述目标搜索引擎覆盖分析的结果的 报告。在图6a和图6b的实例中,报告没有提供任何实际的信息。
然而,此类报告是有用的,因为其允许组织确保关键页面(具 有内嵌的关键词)被他们所拥有的搜索引擎进行了索引,并且因此 用户可经由搜索查询来访问。组织通常在搜索引擎的优化(在优化 中,他们将"关键词,,添加到他们的web页面以允许页面被搜索引 擎正确地标识)上花费很多金钱。但是,如果其他错误(诸如脚本 以及断开的链接等)导致包括关键词的页面没有被编索引,那么就 浪费了组织的投入。目标搜索引擎覆盖标识了页面上的这些关键术 语,并且确保了它们被正确地进4亍了索引。
综上所述,本发明的系统和方法的实施方式通过在线扫描、映 射、搜索、报告和业务分析披露了 web站点的强点和弱点。
这些过程包括
1. 扫描软件标识每个对象,即每个页面、图像、文档和链接, 并且创建在给定时间点处的站点的时间和日期戳记录。
2. 报告报告服务于考虑Web属性的执行方和负责维护它们的 发布者。
3. 业务分析业务映射和报告提供了 "最后一英里,,的分析能 力,补充了现有统计业务分析产品。
4. 搜索搜索使站点管理器和Web分析人员能够精确标识站点 对象和特征的存在和位置。
5. 映射软件产生了站点的映射,标识了导航结构和去往和来 自每个页面、图像、文档和链接的链接。
6. 蓝图制定蓝图制定便于在站点所有者和站点发布者以及开 发者之间进行清楚和不模糊的交流。
当然,web站点是动态的并且连续改变。因而,需要对web站 点定期执行分析,从而监视搜索引擎覆盖以及克服缺陷或所错失数据所需的任何修正动作。来自于FindMax过程的才艮告允许搜索引擎 操作员调节他们的搜索引擎。在这点上,搜索引擎操作员可以使用 报告以达到下列目的
1 ) PDF-指示性质区域是空的还是无效的。
2) 比较文件名与取回的结果
3) 比较取回结果的整个URL
4) 扫描页面标题(其中添加用户可控变量确定字符数量)
5) 扫描主体内容(其中添加用户可控变量确定字符数量)
6) 包括元标签-关#:词
7) 匹配链接标题与页面标题
8) 具有最多内链接数的页面
9) 重复标题等
当然,本发明不限于借助示例描述和描绘的示例性实施方式, 而是还包括其任何技术等同物和组合。
相关技术领域的技术人员将理解除了那些具体描述的之外, 本发明易于变形和修改。应该理解,本发明包括落入本发明精神和 范围内的所有此类变形和修改。
贯穿说明书和权利要求,它们遵循以下原则,除非上下文需要, 否则词语"包括,,将被理解为表示对所述整体或步骤的包括或整体 或步骤的组,但是并不排除任何其他整体或步骤或整体或步骤的组。
权利要求
1.一种用于验证主机搜索引擎的结果的方法,所述方法包括以下步骤扫描可经由web界面递送的所有数据对象;以及,执行匹配引擎以生成包含所述主机搜索引擎错失内容的报告集合。
2. 根据权利要求1所述的方法,其中扫描数据对象的步骤包括 创建所有所扫描的数据对象的索引。
3. 根据权利要求1或2所述的方法,其中所述数据对象可以包 括以下的任意一项或多项<formula>formula see original document page 2</formula>元数据; 脚本; 文档;或 文档性质。
4. 根据权利要求2或3所述的方法,其中根据所述数据对象的 独特性对所述索引的内容进行排序。
5. 根据权利要求4所述的方法,其中通过所述数据对象的强度 分析来确定所述数据对象的独特性。
6. 根据权利要求5所述的方法,其中所述数据对象是词并且所 述强度分析考虑以下的任意一项或多项a. 出现频率;b. 上下文相对重要性;或c. 与其他主题的接近性。
7. 根据前述权利要求中的任一项所述的方法,其中所述匹配引 擎向所述主机搜索引擎提交从扫描步骤获取的数据对象。 ,面像本接"页图文链
8. 根据权利要求7所述的方法,其中将提交给所述主机搜索引 擎的所述数据对象限制为独特数据对象。
9. 根据前述权利要求中的任一项所述的方法,其中所述报告集合包括足以标识包含错失数据的特定web站点的信息。
10. 根据前述权利要求中的任一项所述的方法,其中所述匹配引 擎配备有关键字,所述关键字对于确定包含重要关键字的任何内容 是否被所述主机搜索引擎错失来说尤其重要。
11. 一种用于验证主机搜索引擎的结果的系统,所述系统包括 主机搜索引擎,用于执行对web站点的搜索;扫描组件,其扫描并且定位经由到所述web站点的web界面可获得的所有数据对象;以及匹配引擎,用于接收由所述扫描组件定位的所述数据对象,并且将所述数据对象提交给所述主机搜索引擎,来确定不能被所述主机 搜索引擎定位的、从所述扫描组件获取的那些数据对象,从而表示 由所述主机搜索引擎错失的数据对象。
12. 根据权利要求11所述的系统,其中所述扫描组件包括对定 位的数据对象进行索引的索引组件。
13. 根据权利要求11或12所述的系统,其中所述匹配引擎包括 生成错失的数据对象的报告的报告组件。
14. 根据权利要求13所述的系统,其中所述报告包括通往在所 述报告中被标识为包含错失数据的web页面的链接。
15. —种用于控制计算机的操作来验证主机搜索引擎的结果的计 算机指令代码,所述计算机指令代码实现以下步骤扫描可经由web界面递送的所有lt据对象;以及执行匹配引擎以生成包含所述主机搜索引擎错失内容的报告集合。
16. 根据权利要求15所述的计算机指令代码,用于实现对扫描 步骤标识的所述数据对象进行索引的附加步骤。
17. 根据权利要求16所述的计算机指令代码,用于实现以下附加步骤分析经过索引的数据对象,并且仅将独特数据对象传送到 所述匹配引擎以便提交给所述主机搜索引擎。
18. 根据权利要求17所述的计算机指令代码,用于实现以下附 加步骤通过根据以下任意 一项或多项对所述数据对象执行分析来 确定独特数据对象a. 出现频率;b. 上下文相对重要性;或c. 与其他主题的接近性。
19. 一种包含在计算机可读介质上用于验证主机搜索引擎的结果 的计算机程序,所述计算机程序包括用于扫描可经由web界面递送的所有数据对象的计算机指令代码;用于执行匹配引擎以生成标识所述主机搜索引擎错失内容的报 告集合的计算机指令代码。
20. 根据权利要求19所述的计算机程序,包括用于对由对可经 由所述w e b界面传递的所有数据对象的扫描标识的所述数据对象进 行索引的计算机指令代码。
21. 根据权利要求20所述的计算机程序,包括用于分析经过索 亏1的数据对象并且仅将独特数据对象传送到所述匹配引擎的计算机 指令代码。
22. 根据权利要求21所述的计算机程序,包括用于通过根据以 下任意 一 项或多项对所述数据对象进行分析来确定独特数据对象的 计算机指令代码a. 出现频率;b. 上下文相对重要性;或c. 与其他主题的接近性。
全文摘要
一种用于验证主机搜索引擎(50)的结果的方法,该方法包括以下步骤利用扫描引擎(25)扫描可经由web界面递送的所有数据对象;以及,执行匹配引擎(35)以生成包含所述主机搜索引擎(50)错失内容的报告集合。
文档编号G06F17/30GK101681375SQ200880016932
公开日2010年3月24日 申请日期2008年4月10日 优先权日2007年4月10日
发明者P·凯利特, S·D·柯克比 申请人:埃森哲环球服务有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1