根据确定的目的进行数字内容检索的系统和方法

文档序号:6553359阅读:158来源:国知局
专利名称:根据确定的目的进行数字内容检索的系统和方法
技术领域
本发明通常涉及搜索引擎,并且特别的,但不是具体地,提供一种根据用户确定的目的进行检索的系统和方法。
背景技术
在在线检索领域,主要的搜索引擎,例如,Yahoo!Search和Google,通常提供两种检索方式信息检索和关键字匹配广告。不幸的是,现在匹配许多关键字的数百万文档使得搜索引擎没有作用。例如,2005年12月在Google上输入单词“咳嗽”产生大约1.65千万个匹配的文档。通过一起输入“咳嗽”和“气喘”来缩小检索结果的尝试得到超过80万匹配的文档。真正与用户目的相关的这些答案并不是必须地出现在前几页中,而是可以在分散在全部结果列表中。
现有搜索引擎定位在线文档的普遍方式都是基于直接的关键字匹配。检索程序访问数百万站点并寻找与关键字精确匹配的文档,以及有时候是这些文档的组合。有些搜索引擎使用称作网络“爬虫”的特定的检索程序去预先寻找与通用关键字匹配的所有文档,并为了即时响应而存储它们。
在引擎发现与关键字匹配的所有在线文档后,通过Google创作的等级方法和其派生然后通过共同体中的文档的普遍性模拟文档的相关性。例如,为了估计文档的普遍性,Google创作的网页等级方法主要使用大量从其他“可信任”网站参考它的超链接。在从多个网站提供结果的好的模拟等级时,普遍性措施并不解决检索用户不知道如何在第一位置缩小检索标准的问题。该问题伴随着非常高数量的结果。搜索引擎减轻用户浏览大量网站的最初承诺难以完成,尤其在例如医药查询的复杂查询中。
核心问题是用户通常不知道如何改进查询来获得相关的答案。某些最近的方法,例如“聚类”,统计的查询在相同的查询中经常与关键词一起出现或出现在关键词周围的其他单词,并把这些随机单词呈现给用户作为查询扩展的向导/暗示。因此,引导趋向于成为可以相关或不相关的推测的较大范围。
基本上,现有方式中无一能理解用户的目的。搜索引擎如果知道用户的真正目的则基本上可以有助于降低结果。在复杂的查询中放开检索能力的关键,是根据主题的专家的引导定义并明确表达用户的检索目的并且帮助浏览该目的。

发明内容
本发明的实施例包括一种系统和方法。在一个实施例中,所述方法包括根据第一医学症状确定至少两个目的;根据确定的至少两个目的确定至少一个相关的医学症状;并且根据用户从至少一个相关的医学症状中选择的一个症状修改所确定的至少两个目的。目的可以包括疾病或者健康护理产品(药物、维生素、公开销售的药物,等)。在任何地方,用户可以根据目的和/或症状开始检索。
在一个实施例中,系统包括一个构造的知识数据库和一个中心。构造的知识数据库包括症状和涉及症状的目的(例如,可能的诊断)。中心可以使用构造的知识数据库根据第一症状确定至少两个目的;使用知识数据库根据确定的至少两个目的来确定至少一个相关的症状(或者“同时存在的症状”);以及使用知识数据库根据用户选择的症状从至少一个相关的症状中修改所确定的目的。


结合下面的附图描述本发明的非限定和不完全的实施例,其中在全部的视图中除非特别指出,相同的参考标记表示相同的部件。
图1是示意依照本发明的一个实施例的网络系统的框图;图2是示意数字内容的检索浏览器的框图;图3是示意检索浏览器的永久存储器的框图;图4是示意“目的”图表的框图;图5是示意检索方法的流程图;图6是显示用于修改检索术语(同等概念)的截屏;图7是显示可能的目的和附加检索术语(同等概念)的截屏;图8是显示确定的目的和附加检索术语(同等概念)的截屏;图9是显示使用所选检索术语(同等概念)的检索结果的截屏。
具体实施例方式
下述说明能使本领域普通技术人员制造和使用本发明,并且结合特定应用和其需求提供下述说明。实施例的各种改进对于本领域的技术人员是明显的,并且这里所限定的原理可以在不脱离本发明的精神和范围的情况下被应用到其他实施例和应用中。因此,本发明并不想被限定在所示的实施例中,而是最大范围地于于与这里公开的原理、特征和启示一致。
在本发明的一个实施例中,“想要的概念”包括是由一组表征它的属性限定的语法结构。每个属性通过一对关系ITD和DF与其他目的概念连接,ITD和DF在语法上意味着“X想要获得Y”,及其反向关系“Y可以从X中获得”,可选择的,数值(S)意味着获得的目的有多强烈。尤其的,该关系如下读取“当用户输入术语/概念X时,她想以S的强度(有时等于概率)寻找Y”。
本发明的实施例预先构造一组具有下属基本属性的人造结构(名为“想要的概念”)



表I使用医药查询作为例子说明该含义/语法,该方法可以被如下描述当用户输入一些症状(例如,“咳嗽”)时,她可能想要知道她的可能诊断。本发明的实施例将基于ITD图表400(图4)构成她的可能诊断的推测(如想要的概念)。在图表400中,输入症状“A”意味着用户想要获得一种诊断。在该例子中,疾病X和Y是可能的目的。
通过可能目的的知识,本发明的实施例可以向检索用户提供一个改进他的/她的查询的有意义向导。在该例子中,实施例可以逻辑的使用目的概念图表400中的DF关系(ITD的翻转)从而获得所有的同等概念(在这种情况下B,C,D)并且提示用户“你是否有下面的B,C,D?”通过增加新的症状/概念B,系统把Y排除在可能的目的外并且把查询改进为“A+B”。在复杂的垂直领域,通过重要性的顺序,这样的扩展或改进查询将基本上把检索结果缩小。
本发明的实施例包括一种使用预定目的图标400作为导航器使用户可以改进/扩展他/她的查询的系统和方法。该导航器根据在检索中建立的用户的合理的目的(胜于基于相同关键字周围的人从其他之前的查询中统计收集的单词)向用户提供与特定领域相关的术语/概念。
对于逻辑演绎,一个传统的演绎系统(专家系统,基于规则的产品系统,等)进入一个典型指数运算的链锁过程。相反的,本发明的实施例如下所述在运算方面是线性的。
该过程可以进一步结合例子说明·假设在全世界的蚂蚁中只存在三种疾病X,Y和Z。
在本发明的实施例中,知识库中两类想要的概念(例如,症状和疾病)之间的每个ITD关系周围的世界可以表示为矩阵


表II隐含的逻辑演绎可以与过程一样重新用公式表示为(假设单个的默认)进行循环直到选择列表为空或者当用户停止选择时当用户选择症状S时,1.系统仅仅考虑在行中包含S的疾病作为候选(和/或排除所有其他不包含S的疾病);以及2.显示所有包括S的列中所有可能的症状作为选择(避免多于显示)。回到例子情况1步骤1当用户选择症状A时,1.系统通过查询包括A的行仅仅考虑X,Y(并且排除Z),以及2.通过观看包括A的所有的列,显示B,C,D作为选择。
步骤2当用户选择症状B时,1.系统通过查看包括A的行,仅仅考虑X(并且排除Y);以及2.通过观看包含B的所有列显示D作为选择。
步骤3当用户选择症状D时,1.系统通过查看包括A的行仅仅考虑X(并且排除Y);以及2.通过观看包括D的所有列,不显示选择。
过程结束。
情况2步骤1当用户选择症状A时,1.系统通过查看包括A的行仅仅考虑X,Y(并且排除Z);以及2.通过观看包括A的所有列显示B,C,D作为选择。
步骤2当用户选择症状D时,1.系统通过查看包括A的行,仅仅考虑X,Y(并不排除任何疾病);以及2.通过观看包含D的所有列显示B,C作为选择。
步骤3当用户选择症状B时,1.系统通过查看包括A的行仅仅考虑X(并且排除Y);以及2.通过观看包括B的所有列,不显示选择。
过程结束。
在之前的任何步骤中,用户可以停止选择任何附加的选择。然后结束该过程。
该过程保证快速终止并且具有较高的性能/用户响应时间。即使在例如医学诊断的复杂检索领域中,症状的数量(或者最初观察概念)是有限的(在人类世界中限定为800左右的症状),并且可能诊断(或者可能的想要的概念)的数量也是有限的(限定在6000种疾病)。
对于每个症状,可能的诊断被估计在小于几百。此外,每个症状仅仅有10到50个“同等概念”(或者相关的症状)。因此,为了用户快速检索,为每个症状存储所有可能的相关症状是有意义的。
当选择两个以上症状时,可能诊断的数量基本上被降低。因此,本发明的实施例仅仅需要在第一步/级存储同等概念,并且从第二步往下动态的获得同等概念。
性能分析通过缓存第一级同等概念,需要发送到用户计算机的矩阵的大小可以从4,800,000(6000*800)降低到380(每个症状300中可能的疾病+80个相关的症状)。当用户选择第二症状时,本发明的实施例将其(几个字节的数据)发送到服务器,并且动态的获得同等概念。服务器把同等概念返回用户端计算机用于显示。(注意这将是最初同等设定的一个小的子集)。
因此,可以建立用户响应时间的最小标准。如果发现第一级存储并不充分,则存储可以发生在第二级,例如,每对症状的同等概念。
在目的构成和ITD图表的横越的帮助下,本发明的实施例可以帮助用户快速的改进他/她的查询从而进行精细确认检索。这将允许用户以单通道交互方式最大化的扩展初始查询。避免了在基于知识的专家系统中的漫长的多通道Q&A交互,并且最优化了本发明实施例的性能。
实施例把一个指数演绎过程(0(mn))转换成基本上不太复杂(0(m*n))的计算过程,其中m,n分别是发起和想要的概念的数量。此外,根据每个发起概念(例如,症状)的存储的同等概念关系,复杂度被将减为线性过程(0(m+n))。使用预处理的“同等概念”的这种技术最小化了这个查询扩展过程的响应时间。
在一个实施例中,一个运算法则计算并获得每个可能目的的“关联强度”,其根据在查询中输入的单词以及每个单独目的的各自的先存条件强度测量每个可能用户目的的强度。在一个实施例中,提供了贝叶斯网络的一个版本,以及为用户的目的计算关联性的条件概率。
在一个实施例中,系统的方法使用在线检索的结果数模拟检索过程中的条件强度和运算规则。该方法避免了现有技术中建立条件关联强度的巨大的且高昂的花费。为了建立条件关联强度,或者贝叶斯网络中的事先概率,所有的现有方法需要每个概念在足够的采样空间中的统计的采样。在真实世界中,“概念”的数量可是是几十万(例如,大约有6000种可能的疾病,其可以进一步分成50,000种可能的ICD-9疾病编码,每一个将需要很长的时间来获得其症状的条件概率)。
现在结合附图描述本发明。
图1是示意依照本发明的一个实施例的网络系统100的框图。网络系统100包括搜索引擎110、客户120、网络130、以及检索浏览器140。搜索引擎110、客户120以及检索浏览器140都耦合到网络130,例如因特网,从而在网络节点之间进行通信。在本发明的一个实施例中,搜索引擎110包括Google,Yahoo!,和/或其他搜索引擎。
检索浏览器140,将在下面进一步讨论,根据检索术语确定可能的目的,并提供涉及可能目的的附加检索术语以便用户选择。例如,对于一个检索术语咳嗽,一个可能的目的是哮喘。因此,检索浏览器140确定哪些其他检索术语将产生哮喘结果,并且把这些术语提供给用户进行选择。如果存在涉及检索术语的其他目的,则相关的检索术语也可以被显示以便用户选择从而降低可能的目的。在任何时候,用户可以根据检索术语和/或目的通过检索浏览器140将检索术语和/或目的发送到搜索引擎110进行检索。
图2是示意网络系统100的检索浏览器140的框图。检索浏览器140包括中央处理单元(CPU)205、工作存储器210、永久存储器220、输入/输出(I/O)接口230、显示器240、以及输入设备250,所有这些都通过总线260通信地相互耦合。CPU 205可以包括英特尔奔腾微处理器、摩托罗拉POWERPC微处理器,或者可以执行永久存储器220中存储的软件的其他处理器。工作存储器210可以包括随机访问存储器(RAM)或者其他类型的读/写存储设备或者存储设备的组合。永久存储器220可以包括硬件驱动、只读存储器(ROM)或其他类型存储设备,或者可以在检索浏览器140关闭后保存数据的存储设备的组合。I/O接口230通过有线或无线技术通信地耦合到网络130。显示器240可以包括一个平面显示器、阴极射线管显示器或者任何其他显示设备。输入设备250,优选的与本发明的其他部件相似,可以包括键盘、鼠标或用于输入数据的其他设备,或者输入数据的设备的组合。
在本发明的一个实施例中,检索浏览器140也可以包括附加设备,例如,网络连接器、附加存储器、附加处理器、局域网、用于通过硬件通道传输信息的输入/输出线、因特网或者企业内互联网等。本领域的技术人员也可以认识到可以以替代的方式从检索浏览器140接收数据和程序以及把数据和程序存储在检索浏览器140中。此外,在本发明的实施例中,检索浏览器140被一特定用途集成电路取代。
图3是示意检索浏览器140的永久存储器220的框图。永久存储器220包括构造的知识数据库300、症状知识数据库310、用户端检索代理320、基于知识的剖析器330、后端中心、以及目的计算引擎的后端关联350。详细内容包括在下面的表III中。



表III图4是示意目的图表400的框图。图表显示了检索术语A、B、C、D和相关的目的X、Y、Z。A想要获得(ITD)X或Y;B想要获得X或Z;C想要获得Y或Z;以及D想要获得X或Z。检索浏览器140可以确定与X和Y相关的同等概念(检索术语)并显示它们(例如,A、B、C和D)。用户对一个同等概念的随后选择都将缩小可能的目的。例如,选择B仅仅想要获得X并排除Y。在本发明的一个例子中,可以同时具有两个目的(例如,一个人可以具有表示他/她具有两种不同疾病的两种不同疾病的症状)。在本发明的一个实施例中,对于症状的目的也可以是用于该症状的治疗或公开销售的药物,例如,对于症状头疼,目的是阿司匹林。
“从中获得”(DF)关系允许用户选择一个目的,并反向的缩小用户的检索术语的可选项。ITD和DF的组合以及交互实质上降低了计算,并形成一个精确的查询,于是快速检索结果。
图5是示意检索方法500的流程图。在本发明的实施例中,检索浏览器140和搜索引擎110执行方法500。在本发明的一个实施例中,浏览器140和引擎110可以基本上同时执行方法的几个例示。首先,接收检索术语(例如,症状)(510)。然后确定可能的目的(疾病诊断)(520)。然后基于可能的目的确定可能的检索术语(530)并根据可能的目的显示(540)。用户然后选择一个或多个附加的检索术语,附加术语在(550)被接收并且确定可能的目的(560)。由于附加检索术语的接收,可以结合图4如上所述的确定目的。如果确定目的(570),或者没有更多的检索术语,则根据用户选择的或接收的目的和/或术语执行检索(580)。在一个实施例中,方法500可以包括向搜索引擎发送检索术语和/或目的以便执行检索,而不是执行(580)。然后方法500结束。相反的,方法500从(520)重复。在本发明的一个实施例中,方法500可以在任何时间停止并使用任何接收的检索术语和/或目的在(580)执行检索。
图6是显示用于改进检索(假设第一术语或症状是咳嗽)的检索术语(同等概念)的截屏。当用户输入同样的单词“咳嗽”时,系统立即提出一个可能同等术语(或共同的症状)的复杂列表便于从户从中选择。该列表并不是从相近术语的普通列表中随机收集的,而是从专业知识数据库中收集的。
图7是显示可能目的和附加检索术语(同等概念)的截屏。用户选择他的/她的想法中的其他症状(同等概念),也就是“气短”和“呼吸困难”,系统将立即缩小可能的“目的”(即,该例子中可能的诊断)并自动的缩小选择列表。
图8是显示确定的目的和附加检索术语(同等概念)的截屏。如果用户选择附加的同等术语,可能的目的可能缩小为仅仅一个。
图9是显示使用选择的检索术语(同等概念)的检索结果的截屏。用户可以在任何时间停止选择并开始在线检索;或者她可以包括一个特定的合适的目的(例如,“哮喘”)。只要用户选择他的/她的所有同等术语/症状,系统最大化的扩展这个查询。
当用户按下“检索”时,单词的新扩展的表达用于执行该查询。返回结果的数量基本上降低到53,000,降低了100倍。最重要的是,相关结果基本上一直在第一个10-15结果内显示(即,大部分搜索引擎内的第一页)。
本发明所示出的实施例的上述说明仅仅作为例子,并且按照上述启示,上述实施例和方法的其他变化和改进也是可能的。尽管网络站点被描述为分离的不同的站点,本领域的技术人员清楚这些站点可以是完整站点的一部分,每一个可以包括多个站点的部分,或者可以包括一个或多个站点的组合。例如,检索浏览器140和搜索引擎110可以与客户120组合。而且,客户120,也被称为计算机,可以包括能进行计算的设备,例如可以是个人数字助手、无线电话、膝上型电脑或台式电脑。此外,本发明的部件可以使用编程的通用目的数字计算机、使用特定应用集成电路、或者使用互连传统部件和电路的网络实现。连接可以是有线、无线、电缆等。这里所述的实施例并不是完全的或者限定的。本发明仅仅由权利要求限定。
权利要求
1.一种基于计算机的方法,包括根据第一医学症状确定至少两个目的;根据确定的至少两个目的确定至少一个相关的医学症状;以及根据用户从至少一个相关的医学症状中选择的一个症状修改所确定的至少两个目的。
2.如权利要求1所述的方法,还包括把所修改的目的发送到客户用于显示。
3.如权利要求1所述的方法,还包括根据第一症状和至少一个相关的症状执行检索。
4.如权利要求3所述的方法,其中执行还包括根据修改的目的执行检索。
5.如权利要求1所述的方法,其中根据第一症状确定至少两个目的还包括根据第一症状的关联强度。
6.如权利要求1所述的方法,还包括重复确定至少一个相关的症状和修改。
7.如权利要求1所述的方法,其中确定至少两个目的是进一步根据第一症状的同义词。
8.如权利要求1所述的方法,其中根据第一症状确定至少两个目的是进一步根据第一症状的条件强度。
9.如权利要求1所述的方法,其中至少两个目的包括一种疾病。
10.如权利要求1所述的方法,其中至少两个目的包括一种健康产品。
11.一种系统,包括一个症状和涉及症状的目的的构造知识数据库;以及一个中心,可以使用构造知识数据库根据第一症状确定至少两个目的;使用知识数据库根据确定的至少两个目的确定至少一个相关的症状;以及使用知识数据库根据用户从至少一个相关的症状中选择的一个症状修改所确定的至少两个目的。
12.如权利要求11所述的系统,还包括一个用户端检索代理,可以向客户发送所修改的目的以用于显示。
13.如权利要求11所述的系统,还包括一个用户端检索代理,可以向搜索引擎发送第一症状和至少一个相关的症状,以用于检索。
14.如权利要求13所述的系统,其中用户端检索代理还可以向搜索引擎发送修改的目的以用于检索。
15.如权利要求11所述的系统,还包括目的计算引擎的后端关联,并且其中根据第一症状确定至少两个目的是进一步根据由所述目的计算引擎的关联计算的第一症状的关联强度。
16.如权利要求11所述的系统,其中中心还可以重复确定至少一个相关的症状和所述修改。
17.如权利要求11所述的系统,还包括一个同义词知识数据库,并且其中中心使用同义词知识数据库根据第一症状的同义词确定所述至少两个目的。
18.如权利要求11所述的系统,还包括一个目的计算引擎的后端关联,并且其中根据第一症状确定至少两个目的是进一步根据由目的计算引擎的后端关联计算的第一症状的条件强度。
19.如权利要求11所述的系统,其中至少两个目的包括一种诊断。
20.如权利要求11所述的系统,其中至少两个目的包括一种健康产品。
21.如权利要求11所述的系统,其中中心还可以根据用户从至少两个目的中选择的一个目的来反向确定至少一个相关的症状。
22.一种计算机可读介质,在其上存储有计算机执行一种方法的指令,所述方法包括根据第一症状确定至少两个目的;根据确定的至少两个目的确定至少一个相关的症状;以及根据用户从至少一个相关的症状中选择的一个症状修改所确定的至少两个目的。
23.一种系统,包括用于根据第一症状确定至少两个目的的装置;用于根据确定的至少两个目的确定至少一个相关的症状的装置;以及用于根据用户从至少一个相关的症状中选择的一个症状修改所确定的至少两个目的的装置。
全文摘要
一种用于检索的系统和方法,基于用户输入的症状确定用户的目的。症状和/或目的的精确查询被发送到搜索引擎执行检索。
文档编号G06F19/00GK101084502SQ200580043781
公开日2007年12月5日 申请日期2005年12月22日 优先权日2004年12月22日
发明者查尔斯·C·库 申请人:艾文斯有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1