智能搜索、智能文件系统和自动智能助手的方法

文档序号:6424988阅读:237来源:国知局
专利名称:智能搜索、智能文件系统和自动智能助手的方法
技术领域
本发明涉及一种搜索引擎,特别是涉及一种智能内容联想图形显示的智能搜索、智能文件系统和自动智能助手的方法。
背景技术
计算机(如个人计算机,工作站和服务器),大容量的储藏器(如硬盘,储藏区域网络(SAN),网络储藏器(NAS))和计算机网络(如区域网络,企业网络,宽带网,和互联网)提供了空前的功能,使得我们具备了储存,收集和处理巨大量数据的能力。这种功能具有潜在的扩宽和增强用户知识和智力的能力,使他们可能在正确的时间利用正确的数据,。从而促进生产力和创造力的发展。但由于目前的计算机系统和网络软件,信息检索,提取和管理方法的缺欠,这种潜在的能力还没有成为现实。这些缺欠可总结为陈旧、低效的信息提取和管理方法、低效的人工检索、并缺乏给用户智能协助的有力工具。
现在的互联网搜索引擎是基于关键字搜索。搜索结果只分成几个固定的分类,如网页,团体,目录,图像和新闻等。搜索结果被一起列出。其排序由搜索引擎商的秘密排序公式决定。排序的结果往往由被供应商和搜索处理引擎服务商操纵。用户只能接受这样一个秘密的、受商业网站操纵的排序结果。如果一个用户所要找的信息被搜索引擎排序排的低,用户就很难找到他所感兴趣的信息。
目前的搜索引擎需要一个用户人工输入各种不同的关键字和组合,逐个地检察、翻页和阅读搜索结果,等候下载。这些都极大地限制了用户的生产力和他能够筛选的信息的数量。
同时,目前计算机文件系统仍然以老式的文件柜的方式以文件夹为基础来组织所存储的文件。一个用户找一个文件时,如果他不能精确地记得文件是在哪一文件夹,或文件名字,或文件里的关键字,在目前技术条件下查询是十分困难的。
在互联网中搜索和在个人计算机上的文件搜索中,如果很少的关键字被使用,会有太多结果可能被返还,而且如果太多关键字被用,需要的结果可能被排除。信息检索技术面临的挑战是现代技术可给用户提供巨大数量的信息,但为了找到他所需要的信息,用户需要花的搜索和阅读的时间往往长的不可接受或不实际。
目前有四项资源没有被充份地使用以解决以上困难。这些资源是(1)高速微处理器的处理力量,目前高速微处理器具备数十亿赫兹速度,而且会随着半导体工艺技术和系统结构的发展继续增加;(2)在一部计算机和一个网络上的大量储藏空间;(3)逐渐增加的网络连接带宽;(4)互联网上可连接到的千百万用户,极大量的并不断增加的信息,以及在互联网上这些信息的交互。
千百万台快速的数十亿赫兹微处理器往往是闲置的,而且多数在工作之后被关掉。使用这些资源的一个例子是利用大量分布的闲置的计算机来进行计算的网格计算及并行处理。由于隐私,安全和其他的理由,大多数的用户是不愿意允许他们的个人计算机这样被用的。大部分情况下,由于以前的技术及使用模型要求一个用户在计算机上人工的打字、点光标才能读取信息,一个用户往往只能够读取存储在本地计算机或互联网上的庞大数量的信息一小部分。特别是由于大部份的信息往往是无结构的信息,在以前的技术情况下,就更要求用户的人工参与。所以,以前的技术使得一个用户能读取的信息量极大的受限于他可坐在计算机前面的时间和处理带宽。对一个人有用的信息量和他所能够用以前的技术读取到的信息量的比是一个极大的数字,而且将会继续快速地增加。宽带互联网在很快的普及,带宽在不断的加大,商业和家庭的用户也在快速增加。但是,在许多时间中,除非用户正在下载大的文件或观看录象,这些带宽没有被利用。这些信息、处理和带宽资源不应被闲置或不被充分使用,而应该被更充分的利用。给用户提供信息搜索过滤和智能助手的服务,提高生产力。这就是本发明的宗旨之一。
有关的美国专利发明是Weissman和Elbaz的美国6,453,315 B1″以内容意义为基础的信息组织和提取″,此发明使用一个被预先编码的辞典。这个辞典定义了语意元素和空间,及以元素之间的关系表达的词语之间的关系。为了要以概念来提取信息,它定义了两个概念之间在意思上的距离。这个距离取决于两个词语之间联结链的个数、类型和方向。这个专利只是可用于以语意来检索信息的办法之一。它并没有解决本专利申请前面所指出的缺陷和困难。
以前商业的搜索引擎包括Google,AskJeeve,雅虎和MSN提供文件编目分类产品的商业厂商包括Autonomy公司,EMC/Documentum公司,Inxight软件公司,Clearforest公司。在信息检索、文本分类和文本信息挖掘上的工作有广泛的报告,研究了各种不同的统计,机器学习和推论,模式发现和相配,和自然语言处理方法。本专利的有些实现中使用了有些以前在信息检索,文本分类、文本信息挖掘上、人工智能和自然语言处理方面的技术。但这些之前的技术本身在本专利前没有解决在本专利申请前面所指出的缺陷和困难。
搜索引擎的发展经历了第一代(Yahoo),第二代(Google),和现在正在发展中的第三代(元搜索/个性化搜索)。所有这些技术都有一个致命的弱点检索回来太多的信息掩埋了用户。用户无法从上万到好几百万条信息里有效的找出他所真正想要得到的信息。第三代以个性化搜索的最大难点在于没有有效的方法可以猜测用户的真正搜索意图。
按以上所述,实用中需要发展智能化的计算机文件和网络文件的先进检索方法、计算机文件先进管理方法、给用户提供有效的检索、发现、监视和使用文件和信息的智能化、自动化的协助的方法。

发明内容
本发明的目的在于提供一种全新的关于信息检索、组织和使用的方法,技术方案和软件。
更具体的说,是一种基于新型方便信息提取的文件系统和结构,进行人工智能化信息提取、监视和联想,以协助用户对互联网网络和本地计算机的特大数量信息数据进行信息收集及数据处理,以便改进检索质量,达到精确搜索效果,并进行研究和创造的一种智能搜索、智能文件系统和自动智能助手的方法。
为规范技术术语,本发明使用以下名词定义处理机包括个人计算机、服务器、客户计算机、客户终端、机顶盒、工作站、自动控制器、移动电话手机、网络处理器、提供网络服务的服务器、多谋体中心个人计算机、个人数字助手(PDA)、网络存储器、存储网络控制器等。
信息体包括文件、用户提供的输入,程序、一个或一组用户在一段时间里的行为、工作或信息采取的纪录、网页、电子邮件、数据库和数据库里的项目、知识库和知识库里的项目、软件代理(software agent)、存在一部计算机或存储器里的信息等、及其上列的内容或属性。
应用包括在一部或多台处理机上进行下列一项或多项的软件、程序、代码或进程信息处理、信息存储、信息读写、信息显示、信息传送、信息通讯、用户交互、信息输入、信息输出、计算机网络通讯等。例子包括微软的办公软件、电子邮件软件、网络浏览器、Access和Oracle数据库系统、个人信息管理软件、络服务器软件、中间件、IBM Websphere,网络服务平台、企业情报软件、企业过程管理软件等。
为了实现上述发明目的,本发明通过如下的技术方案实现1.一种智能搜索方法,其特征在于,包括将存储在一个或多个存储器件的一个或多个文件的内容分类划分到一个或多个分类类别,并把分类划分的结果存储起来;接收用户提供的一个或多个搜索条件,在存储的分类划分的结果里搜索符合用户提供的一个或多个搜索条件的一个或多个文件;
将符合用户提供的一个或多个搜索条件的一个或多个文件组织到一个甲分类类别集里,该甲分类类别集是所说的符合用户提供的一个或多个搜索条件的一个或多个文件所被划分入的分类类别的一个集合。
所说的一个或多个文件分类划分到的分类类别集包括一个分类层次结构。
所述的对划入一个分类类别集的文件产生一个类别名。
将符合用户提供的一个或多个搜索条件的一个或多个文件组织到一个甲分类类别集里是在一个用户操作的处理机上运行的。
显示甲分类类别集里类别的类别名或链接,且对一个用户选择多于一个分类类别的响应包括显示所有所选的分类类别的交集里的文件的名字或链接。
将符合用户提供的一个或多个搜索条件的一个或多个文件组织到一个甲分类类别集里对甲分类类别集里的类别用基于一个或多个排序准则的排序公式进行排序。
甲分类类别集有允许用户修改所说的排序准则或公式的用户接口。
显示甲分类类别集里类别的类别名或链接,和排序最高的分类类别里的文件的名字或链接。
2.一种智能搜索排序方法,其特征在于,包括计算一个符合一个或多个搜索条件的甲文件集里的文件在一个或多个加权的排序准则上的排序;提供一个用户接口让用户选择一个对一或多个加权的排序准则的加权向量;并用此用户选择的加权向量对甲文件集里的文件进行排序。
所说的用户选择的加权向量对甲文件集里的文件进行排序是在一个用户操作的处理机上运行的。
还包括提供一个用户接口允许用户定义一个新的排序准则。
还包括提供一个以上的预先定义好的加权向量让用户选择。
包括提供一个用户接口允许用户组合两个以上预先定义好的加权向量以产生一个新的加权向量。
3.一种智能搜索方法,其特征在于,包括接受一个用户提供的对一个搜索的描述;分析此描述并产生一个或多个代表此搜索的准则;用如此产生的一个或多个代表此搜索的准则改进搜索结果和用户的搜索意图的匹配。
用户提供的对一个搜索的描述包括一个或多个关键字,分析此描述并产生一个或多个代表此搜索的准则包括产生和用户提供的一个或多个关键字相关的一个或多个附加的关键字,进一步包括使用用户提供的一个或多个关键字和产生的一个或多个附加的关键字一起进行搜索,以改进搜索结果和用户的搜索意图的匹配。
用户提供的对一个搜索的描述包括一个或多个关键字和对用户的搜索目的的描述,进一步包括使用从对用户的搜索目的的描述产生的、代表用户的搜索目的一个或多个准则对包含用户提供的一个或多个关键字的搜索结果进行过滤或排序。
进一步包括提供一个搜索目的的清单,使得用户可以通过选择搜索目的的清单里的一个或多项来提供用户对搜索目的的描述。
进一步包括响应于用户选择搜索目的的清单里的两项以上,将搜索结果分类到满足用户选择搜索目的的清单里的项的类别里。
用户提供的对一个搜索的描述包括用户对要搜索的信息用自然语言的描述,分析此描述并产生一个或多个代表此搜索的准则包括产生一个或多个关键字,并用产生的一个或多个关键字进行搜索。
用户提供的对一个搜索的描述包括一个或多个关键字和对用户对不同搜索结果的喜恶的描述,分析此描述并产生一个或多个代表用户对不同搜索结果的喜恶的准则,并用此准则对包含用户提供的一个或多个关键字的搜索结果进行过滤或排序。
4.一种智能搜索方法,其特征在于,包括从指定的在一部或多部处理机上的至少一个文件里提取一个或多个搜索元素;使用此提取的一个或多个搜索元素产生一个或多个搜索请求;把产生的一个或多个搜索请求送交一个搜索程序,并接收搜索程序送回的搜索结果。
一个搜索元素包括下列一个或多个关键字文件的特征、文件的分类类别,搜索的目的或对不同搜索结果的喜恶的描述。
包括响应于一个用户用一个应用程序看、写、编辑、或处理一个文件时,指定此文件,并从此文件产生一个或多个搜索请求。
进一步包括在下列一个或多个条件成立时,显示与所说的至少一个指定文件里提取的一个搜索元素相关的搜索结果当接收到搜索程序送回的和所说的搜索元素相关的搜索结果;当此文件里的此搜索元素显示在一个应用程序的窗口里;当用户在此文件里选择此搜索元素。
进一步包括把一或多个超链接和一个搜索元素或搜索元素的结合相结合,响应于一个用户使用一个输入器件选择一个此超链接,显示和此搜索元素或搜索元素的结合相关的搜索结果。
进一步包括对搜索结果进行下列的一个或多个处理过滤,分类,排序,提取搜索结果的摘要或总结。
一个或多个搜索请求包括进行下列的一个或多个搜索在一个或多个指定信息源里的文件里搜索,在一个最近文档的文件夹里的文件或链接的文件里搜索,在网络浏览器的历史纪录或喜好夹里所列的或相链接的文件里搜索。
进一步包括产生重复的搜索请求;把所产生的请求在一段时间里按一个时间安排送交给一个搜索程序;从此搜索程序接收搜索结果。
进一步包括探测以前一次搜索结果和后来一次搜索结果之间的改变,并在探测到改变时通知用户。
探测以前一次搜索结果和后来一次搜索结果之间的改变进一步包括比较一个从以前一次搜索结果计算的数字摘要和一个从后来一次搜索结果计算的数字摘要。
重复的搜索请求包括搜索一组指定的信息源的搜索请求,并进一步包括探测在此一组指定的信息源里的信息的改变。
进一步包括响应于用户使用一个输入器件指定一个文件,从用户如此指定的文件产生一个或多个搜索请求,在一个用户操作的处理机上运行一个搜索程序去搜索和此处理机相连通的一个或多个存储器里存储的文件来执行如此产生的搜索请求,并显示搜索程序基于如此产生的搜索请求找到的文件的名称或链接。
5.一个智能搜索的命题处理方法,其特征在于,包括从一或多个信息体里提取一个甲论断或命题;将甲论断或命题普遍化扩展到含有一个或多个普遍化论断或命题的集合,此集合里的普遍化论断或命题和甲论断或命题且甲论断或命题是此集合的成员之一;基于此集合里的一个或多个普遍化论断或命题,处理此信息体里的文字信息。
一个信息体包括下列中的一个或多项在一个存储器里的一个文件,用户提供的输入,一个数据库,一个程序,一个或一组用户在一段时间里的行为的纪录,用户正在读、写或编辑的一个文件,用户最近读、写或编辑过的一个文件。
将甲论断或命题普遍化包括将甲论断或命题中至少一部分用一个可以代表此部分的一个予以的描述来替换。
处理此一或多个信息体里的文字信息包括下列中的一个或多项对此文字信息或此信息体进行分类或排序,决定一个普遍化论断或命题是否和另一个论断或命题有关系,将一个甲普遍化论断或命题送交到一个搜索程序以寻找一个或多个含有一个乙普遍化论断或命题的文件,此乙普遍化论断或命题和此甲普遍化论断或命题有相关关系。
6.一个智能搜索文件链接方法,包括分析一个或多个存储器里的内容;在此一个或多个存储器里的内容里认定有相关关系的文件;在有相关关系的文件之间建立并记录链接;当一个文件被选或被在一个应用窗口里打开时,显示和此文件有关系的文件的链接。
认定有相关关系的文件包括认定两个文件为有相关关系如果两个文件含有相同或相似的关键字、概念、论断、命题、模式,或两个文件都和同一个交易、事件或项目相关,或两个文件都在同一个时间段里被产生、浏览、编辑,或两个文件都是由同一个作者或由相关的人建立。
7.一个智能搜索方法,其特征在于,包括提供一个用户接口以接收一个用户提供的对一个搜索的描述和一个或多个文件链接的列表,此一个或多个文件链接的列表包括下列一个或多项一个网络浏览器的历史纪录里文件的链接的集合,一个网络浏览器的喜好夹里文件的链接的集合;一个最近文档的文件夹里的文件链接的集合,一组指定的文件夹里的文件链接的列表;获取搜索结果,此搜索结果包括在此一个或多个文件链接的列表所链接的文件集合里寻找含有和用户提供的对搜索的描述相关的内容的文件得到的。
进一步包括下列一项或多项提供一个用户接口让用户选择包括哪一个或一些文件链接的列表;提供一个用户接口让用户定义一个文件链接的列表;提供一个用户接口让用户选择、使用在网络上的另外一部或多部处理器上的一个或多个文件链接的列表;采取或下载此一个或多个文件链接的列表里所链接的文件,并在一部用户操作的处理机上运行搜索以在此一个或多个文件链接的列表所链接的文件集合里寻找含有和用户提供的对搜索的描述相关的信息的文件;将从一个文件链接的列表所链接的文件集合里获得的搜索结果组织到为这个文件链接的列表设置的一个分类类别里。
8.一个智能搜索文件的组织方法,其特征在于,包括在已有文件夹组织结构的文件系统里,基于文件间的一个或多个关系,建立至少一个关系组织结构以对一或多部处理机上的多个文件进行组织;提供一个用户接口让用户从一个组织结构集合里选择一个或多个组织结构,此组织结构集合包括上述至少一个关系组织结构和文件夹组织结构;提供在如此选择的一个或多个组织结构里定位或找到一个文件的一个或多个途径。
其至少一个关系组织结构包括下列一个或多项基于此多个文件的一个或多个特征的一个系统层次分类结构,基于此多个文件的内容的一个系统层次分类结构,基于此多个文件之间的链接的网状结构,基于此多个文件的一个或多个特征的一个集合归属关系的结构,基于此多个文件之间的一个或多个逻辑、统计、时间、存储的地方关系的一个结构。
进一步包括基于一个或多个加权排序准则对此至少一个关系组织结构里的一个子集的文件进行排序;提供一个用户接口让用户选择一个对一或多个加权的排序准则的加权向量;用此用户选择的加权向量对此集里的文件进行排序。
进一步包括当一个用户选择一个甲组织结构和一个乙组织结构时,对文件首先以甲组织结构进行组织,然后在甲组织结构的一个子集或分类类别或节点里,再将文件以乙组织结构进行组织。
此多个文件包括下列一个或多项存储在一个或多个硬盘上的文件;一个网络浏览器的历史纪录里的文件或链接的文件;一个最近文档的文件夹里的文件或链接的文件;一组指定的文件夹里的文件或链接的文件;一组指定类型的文件;一组含有一个或多项指定的信息的文件;和一组具备一个或多项指定的特征的文件。
9.一种文件组织方法,包括观察在一部或多部处理机上在一段时间里的一个或多个应用或一个或多个用户的行为或工作或信息采取;基于此分析,进行下列一项或多项建立一个在这段时间里一个或多个用户的行为或工作或信息采取的总结;基于至少一个关系组织结构,对在这段时间里和所说的一个或多个应用有关联的信息体或信息体里含的信息、或和所说的一个或多个用户工作过或采取过的信息体或信息体里含的信息进行组织;对在这段时间里和所说的一个或多个应用有关联的信息体或信息体里含的信息、或所说的一个或多个用户工作过或采取过的信息体或信息体里含的信息建立索引;提供一个用户接口让用户搜索在这段时间里和所说的一个或多个应用有关联的信息体或信息体里含的信息、或所说的一个或多个用户工作过或采取过的信息体或信息体里含的信息;建立并记录在一个信息或信息体和另一个信息或信息体之间的一个链接。
进一步包括提供一个用户接口让用户选择观察在一部或多部处理机上的哪些应用、用户行为或工作或信息采取。
进一步包括下列一项或多项所说的信息体包括一个或多个文件、网页、电子邮件、数据库、和数据库里的项目;所说的至少一个关系组织结构包括基于所说的信息体里含的信息对此信息或含此信息的信息体进行分类或分组;所说的至少一个关系组织结构包括建立一个或多个联系组或电子邮件地址组,并将一个联系名或电子邮件地址划分到一个联系组或电子邮件地址组,如果与此一个联系名或电子邮件地址相关的电子邮件或文件和与此联系组或电子邮件地址组里其他一个或多个联系名或电子邮件地址相关的电子邮件或文件是相关的;所说的对有关的信息体或信息体里含的信息建立索引包括对所说的一个或多个用户送出或接收的一个或多个电子邮件、或所说的一个或多个用户访问过或工作过的网页建立索引;所说的提供一个用户接口让用户搜索有关的信息体或信息体里含的信息包括提供一个用户接口让用户搜索所说的一个或多个用户送出或接收的一个或多个电子邮件、或所说的一或多个用户访问过或工作过的网页。
所说的建立并记录在一个信息或信息体和另一个信息或信息体之间的一个链接包括下列一项或多项若一个甲文件和另一个乙文件有关、或和个人信息管理应用程序的联系库里至少一个联系项或一个联系名有关,则在甲文件和乙文件或此个人信息管理应用程序的联系库里至少一个联系项或联系名之间建立和记录一个链接;若一个文件和至少一个电子邮件有关,则在此文件和此至少一个电子邮件之间建立和记录一个链接;若一个文件和一个任务或项目管理应用里至少一个任务或项目有关,则在此文件和此至少一个任务或项目之间建立和记录一个链接。
进一步包括若下列一项或多项成立则认定一个文件是和个人信息管理应用程序的联系库里至少一个联系项或联系名有关此文件通过电子邮件送给过此至少一个联系项或联系名;此文件曾通过电子邮件从此至少一个联系项或联系名接收过;此至少一个联系项或联系名是此文件的作者;此文件里含有此至少一个联系项或联系名的名称。
进一步包括下列一项或多项若一个文件是一个电子邮件的附件,或一个文件和一个电子邮件含有相关的内容,则认定此文件和此电子邮件有关;若一个任务或项目提到一个文件,或一个文件和一个任务或项目的描述含有相关的内容,则认定此文件和此任务或项目有关。
进一步包括提供一个用户接口让用户完成下列一项或多项提取和一个文件里或一个联系库里的一个联系项或联系名有链接的文件;提取和一个文件有链接的联系库里的联系项或联系名;提取和一个电子邮件有链接的文件;提取和一个文件有链接的电子邮件;提取和一个任务或项目有链接的文件;提取和一个文件有链接的任务或项目。
10.一种智能搜索联想方法,其特征在于,包括从一个信息体提取一个或多个甲联想元素;寻找一个或多个乙联想元素;验证在一个或多个甲联想元素和一个或多个乙联想元素之间是否有相关联系。
一个联想元素包括下列一项或多项一个关键字;一组关键字;一个概念;一个命题;一个论断;一个文字描述,和一个信息体包括下列一项或多项在一个存储器里的一个文件,用户提供的输入,一个数据库,一个程序,一个或一组用户在一段时间里的行为的纪录,用户正在读、写或编辑的一个文件,用户最近读、写或编辑过的一个文件;
寻找一个或多个乙联想元素,且验证在一个或多个甲联想元素和一个或多个乙联想元素之间有相关联系包括下列一项或多项在一个知识表达结构里顺沿至少一个关系连接或至少一个推理步骤找到乙联想元素,并将甲联想元素和乙联想元素连接起来;跳跃到一个知识表达结构里的一部分,此部分含有乙联想元素,且甲联想元素和乙联想元素具有相关的性质;在一部或多部处理机上搜索至少一个文件,此文件含有乙联想元素,且甲联想元素和乙联想元素具有相关的性质或出现在相关的上下文里;在至少一个用户或一组用户在一段时间里的行为、网上浏览、搜索历史的记录里,搜索甲联想元素和乙联想元素的共同出现;进一步包括对一或多对甲联想元素和乙联想元素之间的联想进行排序;进一步包括提供一个用户接口让用户选择或定义一个排序的方法;进一步包括寻找一个或多个丙联想元素,并通过递推关系或递推推理来验证在一个或多个甲联想元素、一个或多个乙联想元素和一个或多个丙联想元素之间是否有相关联系;进一步包括使用一个目录单列出可用于验证在一个或多个甲联想元素和一个或多个乙联想元素之间是否有相关联系的信息源;将一个或多个甲联想元素和一个或多个乙联想元素送交到此目录单所列的一个或多个信息源;接收从此一个或多个信息源送回的可有助于验证在此一个或多个甲联想元素和此一个或多个乙联想元素之间是否有相关联系的信息;进一步包括使用一个目录单列出可用于验证在一个或多个甲联想元素和一个或多个乙联想元素之间是否有相关联系的信息源;将一或多个甲联想元素送交到此目录单所列的一个或多个信息源;接收从此一个或多个信息源送回的一个或多个乙联想元素和可有助于验证在此一个或多个甲联想元素和此一个或多个乙联想元素之间是否有相关联系的信息。
本发明的智能搜索方法可以把网上的上万到上百万个文件压缩到十几个到几十个重要概念,使得用户不必一个一个文件的读而一下就可以抓到这些文件的实质,提取这些文件中所含的最具有创见的概念。这是一个具有突破性的技术,可以挖掘到以前其他技术挖不到的,价值高的信息。同时还发展了独家所创的信息挖掘图形化产生和显示方法,这种方法使得用户可以一目了然的看到所要挖掘的信息的逻辑结构,统计和演变关系,使用户快速理解和挖掘到重要信息。
本发明的方法还提供了搜索后对检索结果的处理上,提供更优化的检索结果。本发明形成的产品为基于智能化信息检索和挖掘技术的人工智能化搜索引擎,提供有效的信息检索和挖掘广泛,将应用于企业管理和规划,市场研究,科学研究,技术开发,中高等教育,军事,国家安全,外交等领域


图1显示本发明的一种高级检索程序的一个实现方式;图中所示的符号为110、被索引页储藏器,115、分类引擎,105、网爬行器,135、概念/语意分析器和知识库,140、搜索引擎,155、概念/语意分析器,145、关键字抽出器,150、关键字索引库,160、知识库;图2显示搜索结果分类的一个实现,其分类依赖于搜索使用的关键字;图3显示用户接口的一个例子,本接口可接收用户搜索目的和指导的输入;图4显示了一个在用户的本地计算机上对搜索结果进行处理、分类和排序的实现方式;图中所示的符号为410、用户接口,420、概念和语意分析器,430搜索查询产生器,440、搜索引擎接口,450、搜索结果缓冲寄存器,460、语意过滤器,470、分类和排序器,490、用户历史和个人偏爱模块。
图5显示一个基于文件进行搜索的实现方式;图中所示的符号为505、搜索用户接口,510、概念/语意分析器,515、查询产生器,540、定时调度器,520、计算机文件搜索器,530、分类、过滤和排序引擎,525、网络搜索引擎接口,550、变化发现器,555、早先搜索记录;图6显示一个文件组织系统的实现;图中所示的符号为605、文件系统用户界面,610、文件实体储藏,615、文件分析器,620、文件分类、排序和索引引擎,625、排序和索引储藏,628、知识库,630、用户请求分析器,635、文件搜索器,640、过滤和排序器;图7显示一个本发明的文件组织系统的用户接口窗口的一个例子;图中所示的符号为710、传统的文件目录/文件夹;图8显示一个本发明的文件组织系统的用户接口,此接口以关键字或概念或描述来找到文件;图9显示一个本发明的用户接口窗口的一个例子,当一个文件被选择的时候,被选择的文件相关的文件就显示出来;图10显示一个智能助理个体的实现;图中所示的符号为1000、人工智能化的用户助手,1010、用户接口,1020、人工智能化的用户助手控制器,1025、自动下载器,1030、文章抽象和摘要模块,1040、数据分析模块,1060、命题和模式分析模块,1070、命题搜索模块,1050、联想和普遍化模块,600、文件组织模块,500、基于文件搜索和总在进行的搜索实现;图11显示一个用知识库来发现和确认联想的例子。
以下结合附图和发明人给出的具体实施的例子对本发明作更进一步的详细描述。本发明的描述将引用图示,在文中的同一数字将代表图示中的同一个部件或部分。下面将描述本专利的实现例子。这些实现例子是用来描述本发明的有关方面,而不应被解释成为限制本发明的范围。当实现例子用到方块图、结构或流程,每一块部件或步骤既代表方法里的一个步骤,也代表实现方法的装置里用于实现一个步骤的一个部件。取决于实现方式,一个装置的部件可由硬件、软件、固件或它们的组合来实现。在本发明的描述中,网页一词可代表任何可用一个URL访问到的文件,如html,pdf,txt文件,微软Office文件(doc,ppt,xls,等)。
具体实施例方式
1.先进的网络搜索以前的搜索引擎的主要缺陷包括在搜索引擎中只能把搜索结果划分到预先设好的、有限的分类;搜索引擎独断地决定搜索结果的排序;使用关键字搜索的搜索结果含有很多对用户意图无关的结果。如下的本专利的各种实现可克服以前搜索引擎的这些缺陷。
1.1依赖于搜索关键字的搜索结果分类在文献中可见到关于搜索引擎进行实现搜索的发展的报告。这些文献中的方法利用一个用户的搜索历史来猜测用户的搜索意图以达到实现搜索的目的。一个常用的例子是如果一个人拥有一辆美洲豹(Jaguar)汽车,而且搜索关键字“美洲豹(Jaguar)”,搜索引擎应该把有关Jaguar汽车的搜索结果排列在前面,而不是把有关动物美洲豹的搜索结果排列在前面。这样的实现搜索方法有二个问题。首先,它需要收集许多用户的个人数据。对于很多用户来说,这构成对个人隐私或秘密的威胁。其次,搜索引擎并不真正的知道用户要寻找什么信息。比如一个用户正是因为他喜欢美洲豹(Jaguar)这个动物才拥有美洲豹(Jaguar)汽车。所以,他可能有时想要寻找关于美洲豹(Jaguar)这种动物的信息,但有时他可能想要寻找关于美洲豹(Jaguar)这种品牌的汽车。在这种情况下,搜索引擎无法猜测用户的搜索意图。如果搜索引擎错误地猜测用户的意图,错误地排除网站或网页,用户的经验将会是不满意的。也有以前的方法用用户输入的搜索字符串来猜测用户的搜索意图,并以此来把相配结果放在前面显示。因用户输入的搜索字符串往往不含足够的用户搜索意图的信息,这种方法的成功率是有限的,AskJeeve是一个如此例子。
以前的搜索引擎把搜索结果无组织的显示给用户。这些显示结果以线性的按搜索引擎提供商的秘密排序公式来排序。搜索结果被分成少数的类别网页,目录,团体,图像,新闻等。在大多数情况,大部份的搜索结果分在“网页”类别中列出。“网页”类别中往往包括成千上万或更多的网页。除非用户要找的网页碰巧是排在搜索结果的第一页或前面少数几页里,用户要想看到他想找的网页往往就像大海捞针。结果是用户往往看不到他想要找到的网页。也有以前的提供特殊服务引擎,比如分类电话簿搜索,购物搜索,图像搜索,旅行搜索等。用户要选择这些特殊的搜索引擎来搜索特殊的结果。这类以前的特殊化搜索引擎是商业化服务,使用特殊化数据库。往往只有给这类搜索引擎服务商付钱的网站才会被包括在这类搜索引擎的索引里。
在有些情况下,以前的搜索引擎在用户搜索后,询问用户问题以便清楚用户的搜索意图。举例来说,如果一个用户在搜索框输入一个网址,比如输入search.com在Google中搜索文字框里,Google会返回下面的结果,要求用户从下面项里选择Google能为你提供下列关于这个网址的信息显示Google记存的关于search。com的信息找出与search.com类似的网页找出连接到search.com的网页找出含有″search.com″的网页在用户作出选择之后,Google进一步定义搜索并如前文描述地无组织地呈现搜索结果。
针对上述的问题和限制的搜索方法,本发明的目的在于,提供一种本发明的方法避免了错误地猜测用户意图和由此引起的错误地排除网页的问题,并且不需要用户的使用历史或隐私信息,也不需要关于网页内容的特殊数据库。本发明的方法使用包含在互联网上公开地数十亿的网页里的信息和知识。在一个搜索过程的实现中,本发明的搜索引擎提取出所有可检索到的和用户提供的搜索关键字有关的网页,将这些搜索结果按搜索关键字有关的分类法进行分类后显示给用户。一个例子是用[美洲豹](Jaguar)作为搜索关键字进行搜索。搜索引擎取回的搜索结果包括了所有和这组关键字有关的网页有关于美洲豹(Jaguar)动物的信息,美洲豹(Jaguar)牌子汽车的信息,以美洲豹(Jaguar)命名的运动队和吉祥物的信息,以及其他任何和含有美洲豹(Jaguar)关键字的网页。根据美洲豹(Jaguar)这组关键字,相关的分类类别有美洲豹(Jaguar)牌子汽车及其子分类如车评、售车代理商、车价、售后服务和自助资源等;美洲豹(Jaguar)动物及其子分类如动物学、生活环节、生态系统、自然保护区等;运动团队;书刊及其子分类;新闻及其子分类等。另一个例子是用[无线网络安全](wireless networking security)作为关键字组的搜索。和这组搜索关键字有关的分类包括技术类及其子分类研究、书刊、白皮书、学术会议、研究机构、工业标准、技术新闻等;生产商类及其子分类如芯片制造商、软件商、系统集成商、设备上、生产商新闻等;产品类及其子分类如面向企业的产品、面向家用的产品、技术支持、软件下载、零售商、缺陷产品回收、产品评论和比较、产品新闻等。另外一个例子是用[turkey]作为关键字的搜索。用这个搜索关键字得到的搜索结果包含有关土耳其(Turkey)国家的网页,有关火鸡的网页,也可能包含有关在土耳其(Turkey)国家里的火鸡的的网页。即使有了用户的搜索历史,从[turkey]这一个搜索关键字和用户的搜索历史来猜测用户的搜索意图是很难猜准的。本发明提供的处理这类多义搜索关键字的一个有效办法是把搜索结果按搜索关键字的多种含义来分类。
基于关键字或关键字组的分类类别也可是时变的,特别是与现行时事有关的关键字或关键字组。一个例子是用[以色列巴勒斯坦和平和冲突](Israel Palestine peace and conflicts)作为搜索关键字组的搜索。这个搜索若在2003年进行,和这组搜索关键字有关的分类应包括对时间不敏感的类别以色列历史、巴勒斯坦历史、政治领袖、军事武力冲突、过去的和平努力等,和包括对时间敏感的类别巴勒斯坦和以色列的现行政府和政治领袖、美国的和平路线图(roadmap)及其子分类如美国的位置、巴勒斯坦的位置、阿拉伯国家的位置,以色列的位置、国际反应和活动等;新闻及其子分类如自杀爆炸、以色列军事行动、阿拉伯新闻,以色列新闻,西方新闻等。本发明的基于搜索关键字对搜索结果进行分类和组织的方法给用户提供了一个方便、容易理解和容易提取的结构来很快的找到他所要寻找的信息。
为了能很快地把基于搜索关键字将搜索结果的分类呈现给用户,本发明的搜索引擎将编入索引的网页预先按网页中所含的关键字或概念进行分类。
图1显示本发明的一个实现的方块图。一个网爬行器(web crawler)105搜索互联网以便收集网页或文件并将它们编入索引。这些编入索引的网页或文件将被称为被索引页,并被存入被索引页储藏器110。一个分类引擎115把这些被索引页进行分类,把它们按一个分类层次结构分为主类和一道多级子类里,而且为这些分类类别进行命名。这个分类层次结构可以多于二级,有子分类,子子分类等。任一级的一个子分类可属于多个上层分类。被索引页的分类结果可以存入被索引页储藏器110。在被索引页储藏器110里每一个被索引页的项里可以开一个存储域存放被索引页的分类结果。被索引页的分类结果也可以存入一个索引页分类储藏器120。每一个被索引页可以属于多个分类类别或子分类类别。
对被索引页的分类可用本发明下文中提供的新分类方法实现,也可用以前的分类方法,如推后语意分析(latent semantic analysis)、关键字集群(keywords clustering)、人工注解(human annotated categorization)、领域定义和关系知识库(ontologies)来实现,也可用以上方法的结合来实现。索引页分类储藏器120可用分类类别的类名、子类名来索引,也可用被索引页的页名来索引。
在前面一种情况下,索引页分类储藏器120中的每一项包含一个分类或子分类类别的类名和多个存储域,如这个分类或子分类类别相关联的关键字(组)或概念(组)、这个分类或子分类类别的上一级分类(母分类)和下一级分类(子分类)、及一个属于这个分类或子分类的被索引页的清单。如果这个分类或子分类类别是分类层次里的一个终结点,它在索引页分类储藏器120中的项则包含它的分类或子分类类别的类名、和这个分类或子分类类别相关联的关键字(组)或概念(组)、及一个属于这个分类或子分类的被索引页的清单。
在后一种情况下,索引页分类储藏器120中的每一项包含一个指到一个被索引页的指针或链接、这个被索引页属于的分类或子分类类别的类名、和这些分类或子分类类别相关联的关键字(组)或概念(组)、这些分类或子分类类别的上一级分类(母分类)和下一级分类(子分类)。如果被索引页的分类结果是存入被索引页储藏器110,则分类结果可以几种不同方式存储。
第一种方式在被索引页储藏器110存入另外一个文件。每一个被索引页都在这个文件中有一项,此项包含一个指到这个被索引页的指针或链接、这个被索引页属于的分类或子分类类别的类名、和这些分类或子分类类别相关联的关键字(组)或概念(组)、这些分类或子分类类别的上一级分类(母分类)和下一级分类(子分类)。
第二种方式也是在被索引页储藏器110存入另外一个文件。但在这个文件中,每一个分类或子分类类别的类名被记为分类层次结构里的一个节点。在被索引页储藏器110存的每一个被索引页的项里记入一个或多个链接。每个链接对应于一个用以分类的关键字或关键字组,并指向此关键字或关键字组被分入的分类或子分类类别的类名在分类层次结构里的节点。如果一个关键字或关键字组被分入多个分类或子分类,对应于此关键字或关键字组将记入多个链接。
将分类处理预先进行是很重要的,因为它可以在用户搜索时很快地就把搜索结果的分类显示给用户。本发明使用互联网上的大量网页来建立被索引页的分类层次结构,所以本发明可以不使用特殊的知识库就可把被索引页进行分类。。
一个可加配的概念/语意分析器和知识库135可和分类引擎115一起合作以在分类的处理中达到一定水平的概念和语意的理解。这样的分类可达到按概念和语意的理解来进行,而不是仅仅按关键字(组)进行,并可在分类时把上下文考虑进去。举例来说,一个可加配的概念/语意分析器和知识库135将具有知识把轿车、汽车、卡车、摩托车等关键字(组)都划分在机动车辆的分类类别里,并可以根据上下文是讲机动车辆的理解而把含有美洲豹(Jaguar)和探索者(Explorer)这样的关键字组的被索引网页划分到汽车的分类类别和轿车、四轮传动越野车(SUV)的子分类类别内,也划分到汽车制造商分类类别的子分类美洲豹(Jaguar)汽车制造公司、福特汽车公司的类别里。
分类或子分类的类名可选在此分类或子分类里的被索引页所包含的最时常发生的或最重要的字或字组。重要性可根据字或字组的位置如文章的题目、摘要、结论中,也可根据语意分析来决定。分类或子分类的类名也可通过概念提取或抽象化提高到分类层次结构的高一层来产生。分类或子分类的类名也可用领域定义和关系知识库(ontologies)来产生。在本发明的一个实现中,为了保证分类结果和分类或子分类的类名的质量,分类层次里最高层的分类和类名可由人工编辑来产生。应为分类层次里最高层的分类的个数不是很大,所以人工编辑需要的投入不会过大。最高层的分类和类名的例子包括机动车、玩具、汽车、零售商、制造商、大学、研究、产品及评价、软件等。然后,一个自动产生的分类的类别可被归并到一个人工编辑产生的最高层的分类或划归为这些一个或多个人工编辑产生的最高层的分类的子分类。
一个搜索引擎140接受来自用户的搜索请求。可用一个可加配的概念/语意分析器155来达成对此搜索请求在概念和语意层次的理解,这样可达到按概念或语意来进行搜索,而不是按关键字的精确匹配来进行搜索。同时对此搜索请求在概念和语意层次的理解也可使分类时把搜索请求的关键字(组)在文中的上下文考虑进去。概念/语意分析器155的功能可分两个阶段。在搜索预处理阶段,它可把搜索关键字扩展到概念相等的关键字集、搜索关键字的各种组合等,以保证搜索可覆盖到用户可能要找寻的信息。举例来说,如果一个用户输入搜索关键字[美洲豹汽车修理](Jaguar car repair)。概念/语意分析器155可产生出其他相近的关键字汽车、维修、服务,和这些扩展后的关键字的组合如美洲豹汽车服务、美洲豹汽车修理、美洲豹汽车维修。在后处理阶段,概念/语意分析器155可用搜索关键字在文中的上下文来过滤搜索回来结果。举例来说,在上述的例子中,搜索结果里可能包括一个既含有一个关于动物园里的美洲豹的故事又包含一个关于需要修理的福特汽车的收回的通知的新闻网页,概念/语意分析器155可根据搜索关键字在此网页里出现时的上下文来把这个网页过滤掉。
为了加速搜索,一个关键字抽出器145可将时常使用的关键字或关键字短语(在本发明中统称为关键字)预先提取出来并存入一个关键字索引库150。关键字索引库150里的每一个关键字的存项可包括一个清单列出所有含有此关键字的被索引页。本发明也可用网上用户用过的搜索关键字的纪录来更新在关键字索引库150中的关键字。这样就可保证关键字索引库150里保存的关键字和网上用户群以最高概率使用的关键字同步。关键字索引库150的功能之一是作为一个快速存储器使得被索引页可更快速地被搜索到。使用关键字库快存功能是可选择的(optional)。
搜索引擎140使用概念/语意分析器155的分析结果和关键字索引库150来进行被索引页的搜索。在搜索后,搜索引擎140把相匹配的网页属于的分类和子分类如图2显示给用户。虽然分类层次结构组织可能有许多层次,但是在一个实现中,显示给用户的搜索结果被编入不超过二层的分类层次。这样做可避免让用户花费太多时间在分类层次结构里寻找。仰赖用于搜索的关键字,搜索结果可能是从分类层次结构里任何一层的节点。举例来说,如果一个用户输入搜索关键字[无线网路](wireless networking),搜索结果显示的最高分类层次的类别将会包括WLAN(无线局部区域网络)、WPAN(无线个人区域网络)、WMAN(无线电都会区域网络)、移动电话网络等。在每一个显示的最高分类层次的类别下面,可再显示一层子分类类别。在另一种情况下,如果一个用户输入更狭窄定义的搜索关键字[802。11b无线局部区域网络](802.11b WLAN),搜索结果显示的最高分类层次的类别将会包括和802.11b无线局部区域网络有关的技术、制造商、零售商、服务提供商等。在这些分类层次的类别中,有些可再显示一层子分类类别,有些则可能没有子分类。
在一种设置下(如程序默认/隐含(default)设置),具有最多页数的分类类别或子分类类别或按搜索关键字或搜索概念排序最高的分类类别或子分类类别网页将显示给用户,而其他的分类类别或子分类类别将被显示为索引标签(index tabs)。在图2的例子中,分类类别A的子分类类别A(208)具有最多页数或按搜索关键字或搜索概念排序最高,所以在子分类类别A(208)里的网页的题目和总结就被在显示区220里显示出来。其他分类类别205、206和其他子分类类别A(210和212)将被显示为索引标签。当用户点击一个分类的索引标签,那个分类及[或]它的子分类里的网页的题目和总结就被显示出来。相似地,在一种自设置下,当用户点击一个分类的索引标签,那个分类类别里的具有最多页数或按搜索关键字或搜索概念排序最高的子分类里的网页的题目和总结就被显示出来。如果有太多的分类类别和自分类类别,显示区与不够把所有类别和子类别都显示出来,那么只有那些按具有最多页数或按搜索关键字及[或]搜索概念排序最高的分类及[或]子分类的类名被显示出来。其它的搜索结果可组织到一个“其他”的索引标签之下列出,如图2里所示的206和212索引标签。当用户点击一个这样的索引标签,组织到这个索引标签下的分类及[或]子分类及[或]网页数将可以按如同在上面描述的方法一样的方法现实。注意一个被索引的页可以被划分和显示在多个分类类别或子分类类别里,且在每个分类类别或子分类类别里按相应的排序规则排序。本发明中的排序在每类立可有此类专门的排序规则,而且可以完全或局部计算出来,这样就可允许用户在搜索时选择排序方法。这一点下面还会进一步描述。
1.2用户可选择的多维的和分类特定的排序方法之前的搜索引擎把它们的对网页的排序强加于用户。有些搜索引擎提供一些有限的灵活性,如用“按相关排序”(“sort by relevance”),“按时间排序”(“sort by time”)。即使在这种情况下,搜索引擎的提供商还是把排序的规则/公式保持秘密,不给用户控制权。举例来说,Google使用一个高度机密的排序公式来对网页进行排序。这个算法的成分之一是公开发表的“页序(PageRank)”算法的变形,但整个排序算法是高度保密的。之前的基于链接流行度(link popularity)、链接结构(link structure)、关键字匹配和频率等的网页排序方法多有缺陷,会受到推销商品的厂商们的操纵。这些厂商通过猜测、尝试等搜索引擎排序最佳化(search engine optimization)来把他们的网页往前推。举例来说,Google的PageRank以输入和输出的链接的个数和权重回作为一个网页排序的重要因素之一。这就导致了“链接场”(link farms)的方法来操纵网页在Google的排名。在2003年十一月,Google对他的网页排序算法作了一些变化,结果造成了一些没有期待的结果。由搜索引擎来独裁网页排序法则的另一个问题是它的排序结果不适合用户要搜索的结果。举例来说,和一个主题匹配的最好文章可能是在一个新的网站/页上,但这个网站/页可能还没有建立许多链接。具有很好内容但还没有很多链接或访问的新网站/页对一个用户可能是很重要的。
本发明产生一个真实的民主的网络和个人化搜索结果的排序。本发明允许用户选择他想如何对搜索结果排序,或选择一个排序的方法或调整一个排序方法的参数以产生适宜用户的需要的排序结果。这样就允许搜索结果的排序取决于每一个用户个人化和对每次搜索个别化,而不再把搜索引擎公司独断的排序强加给用户。
搜索结果可在多因素的空间里排序。可用来进行排序衡量的一些因素的例子包括链接流行度(link popularity)、访问流行度(visit popularity)、概念匹配、关键字精确匹配、和题目有关的信息量(同样可以多因素来衡量,如对关键字或关键字所表达的概念有关的段落或字的个数)、作家和网站的权威性和客观性(可以多因素来衡量,如从排名在前的大学或研究实验室,一个有名的专家,客观研究信息相比于商业的信息)、信息的性质和客观性(可以多因素来衡量,如新闻性,政治性,教育性,技术性,商业性,零售性,促销性的,等等)。
在一种实现里,图1里的排序引擎125把在被索引页储藏器110里的网页预先进行排序。也就是说,本发明预先计算好每个被索引页相对于排序因素集里的每一个排序因素的排序,这个排序是一个从0到10的一个数字。排序引擎125可和概念/语意分析器和知识库135合作来进一步改进排序的结果。通过使用概念/语意分析器和知识库135,再使排序因素上的排序可以概念和语意来进行,而不只是关键字(组)的匹配。类似分类的结果,每个被索引页的排序结果可写回到此页在被索引页储藏器110的项里,或写入一个分开的排序索引/储藏130之内。搜索结果的排名可由一个排序公式来产生。这个排序公式把一个网页在部分或全部排序因素上的排序加上权后结合起来。
下面是一个计算一个网页pj的排序R(pj)的公式的例子R(pj)=ΣiNwiri(pj)=w·rt(pj)---(1)]]>
在上式里,wi是给网页pj在排序因素i上的排序R(pj)的加权,w和r(pj)w是对应的加权向量和排序矢量。注意若要忽略一个排序因素i,只需要把相对应的加权wi设为零即可。如果只选一个排序因素来对搜索结果或一个网页进行排序,那么只有这个选中的排序因素的加权是非零,其余排序因素的加权都是零。
在搜索引擎140取回搜索结果之后,在一种实现中,搜索结果按一种默认/隐含设置(default)的排序方法,使用一个自设的排序公式用一个或多个排序因素来排列而且在220中呈现给用户。此后,用户若选择或点击列在目录214中的其他一种排序方法,搜索结果将会依照被用户选择的排序方法进行排列并在220中显示。排序方法的目录214也可包括用户可自定义的排序方法。若用户点击“定义/调整自定排序方法”的链接216,一个显示窗口就打开,在此窗口中,用户可以选择和调整用户自定排序公式里的每个排序因素的加权的大小。举例来说,一个研究生或设计工程师可能会给衡量信息的技术和教育性质的因素分配较高的加权,以便教育网站和技术刊物或文章被排列在前。而一个消费者则可能会给衡量信息和零售的相关性的因素分配较高的加权,以便零售商、价格比较和产品评论类网页被排列在前。在用户决定了新的加权向量w之后,搜索引擎140使用新的加权向量w和上述公式(1)或和其类似的排序公式重新计算搜索结果在一个分类或子分类里的排序。
因为搜索结果的所有网页的排序向量r(pj)都已经被预先计算了,这种重新排序的计算可是很快的,可在搜索时实时进行。这样,一个用户可以不必一页一页的翻阅搜索结果去寻找其中所含的他所感兴趣的网页,他只要选择或调整不同的排序方法或加权的选择,就可增加他所感兴趣的网页被排在第一页或前列的概率。如果一个用户把他所选择的排序方法或加权设为默认/隐含设置(default),这个选择将被保存,直到用户改变它。
在搜索结果的显示中,因为搜索结果的每个分类或子分类所含的网页集可能是不同的,同一个被索引页在每个分类或子分类的排名可能是不同的。在不同的分类或子分类里,被索引页可能由网页所含的不同的部份或组合或概念被搜索引擎提取到搜索结果里,同一个网页可能被包含在多个分类或子分类,但在这些分类或子分类里具有不同的排名。这样的结果是一个被索引页可能在一个分类或子分类中排名在前,但是在另外一个分类或子分类里不存在,或存在但排名在后。
1.3用户的搜索意图和对搜索的详细描述之前的搜索引擎缺乏接受用户对搜索意图和细节的指导和详细描述的能力。这就使得之前的搜索引擎不能有效地取得用户搜索目的。举例来说,三个用户可能以相同的关键字组搜索[无线网插卡](wireless networking card)。但是一个用户是一个消费者,为他的手提电脑找寻最好的价格的无线局域网插卡(WLAN PC Card),另外一个用户是一家生产无线局域网芯片的公司的一位技术市场经理,为他的公司找寻关于无线局域网插卡(WLANPC Card)制造商以便增加他的公司生产的无线局域网芯片的销售,而第三个用户是一个研究生,找寻用于无线局域网插卡(WLAN PC Card)的技术信息。之前的搜索引擎对所有这三个搜索相同对带,给三个用户相同的搜索结果和排名。一个用户可通过增加更多关键字来缩小搜索,举例来说,上面的第三个用户可以增加关键字组“技术”来搜索[无线网插卡技术](wireless networking card technology)。但是并非所有讨论用于无线网插卡技术的网页都包含“技术”这个关键字组,增加了这个关键字组就可能排除去他感兴趣的一些网页。
本发明用一个新的搜索接口来接受用户指导和描述,进一步定义他要找寻信息来解决上面提到的问题。
图3显示了这个新的搜索接口的一个实现。在这个实现中,有两个可选择的输入区域一个是描述搜索目的区域310,一个是让用户对搜索提供进一步指导或描述的区域320。用户在305中输入要搜索的关键字。若他只使用这些关键字进行搜索,他这时就可以点击“搜索”按钮开始搜索。为了要更精确的定义搜索,用户可以在描述搜索目的区域310给搜索引擎提供描述他的搜索目的的信息。在一种实现中,描述搜索目的区域310时一个可拉开的项目列表,此列表可能含有的项目有购物--零售、教育信息、法律信息、卖物、研究信息、市场研究、讨论、收集一个组织或个人的信息等等。在另外一个实现中,这些列目的每一项前有一个点击盒,用户若要选择哪一项就点击那一项前的点击盒。用户可如此点击进行多项选择。
在另一种实现中,一个用户可以直接在310里打字输入他的搜索目的的文字描述。在提供进一步指导或描述的区域320里,用户可用自由的自然语言形式更详细地描述他要找寻的及[或]他不要找寻的。举例来说,用户可在320里输入“我喜欢名牌”,“HP是我的第一选择,Gateway是我的第二选择”,或“价格低廉是最重要的”。
为了加速搜索时间,本发明的实现把全部被索引页都预先分类,列在描述搜索目的区域310的搜索目的类别里。这样,在搜索时,只有其搜索目的的分类和用户在310里所选的搜索目的相配的被索引页才会出现在搜索结果里。举例来说,如果一个用户选择购物为他的搜索目的,只有被划分到搜索目的为购物的分类之内的被索引页会被搜索到。如果一个用户选择学习为他的搜索目的,只有被划分到搜索目的为教育或学习的分类之内被索引页会被搜索到。
当一个用户点击“搜索”按钮时,搜索接口就将用户提供的搜索关键字,搜索目的和搜索指导或详细描述(如果用户也提供了)一起传送给搜索引擎140。搜索引擎140把用户输入到305区域的搜索关键字,连同用户在310区域选择的一个或多个搜索目的和在区域320输入的搜索指导或详细描述,一起送到概念/语意分析器155。概念/语意分析器155使用这些传送过来的信息来产生用来进行搜索的关键字(组)集。
概念/语意分析器155产生的搜索关键字(组)集可能和有用户输入的搜索关键字有不同之处。一般情况下,概念/语意分析器155产生的搜索关键字(组)集可能把用户输入的搜索关键字扩展到多个搜索关键字(组)的搜索,也可能将有的搜索关键字(组)的搜索范围缩小。这样做的结果是根据用户在310选择的搜索目的和在320输入的搜索指导或描述来对用户输入的搜索关键字的搜索进行修正以更精确地匹配用户的搜索意图。当用搜索关键字(组)集产生了搜索结果后,搜索引擎140再一次调用概念/语意分析器155对搜索结果进行过滤和排序。概念/语意分析器155以网页中所含概念和搜索关键字的匹配、关键字在网页中的上下文、和对用户在310选择的搜索目的和在320输入的搜索指导或描述的分析来对搜索结果进行过滤和排序。搜索引擎140使用预先计算好每个网页在个排序因素上的的排名r(pj)来计算各网页在搜索结果里的排名。
举例来说,如果一个用户在搜索目的区域310中输入他的目的是从一个在线零售商购物,那么被划分到在线零售商、产品评论、和价格比较等分类类别的网址和网页将会被在搜索结果里排序在前,而被划分到研究组织、大学、工业标准等分类类别的网址和网页将会被排除在搜索结果以外或在搜索结果里排序在后。如果一个用户选择如他的搜索目为技术研究,那么而被划分到研究组织、大学、工业标准等分类类别的网址和网页将会被在搜索结果里排序在前,而被划分到在线零售商、产品评论、和价格比较等分类类别的网址和网页将会被排除在搜索结果以外或在搜索结果里排序在后。如果一个用户输入搜索关键字[无线局域网产品](WLAN products),并在310区域选择或输入市场情报作为他的搜索目的,搜索引擎140可以下列次序对搜索结果排序关于在市场中的竞争者的网页;他们的产品比较;他们的市场占有率,价格,专利和技术,然后是销售这些产品的零售商。
如果用户在搜索指导或详细描述区域320输入他喜欢名牌商标产品,那么本发明的排序将把搜索结果里的产品按商标的流行名誉排列。搜索引擎140在计算搜索结果中的网页排序时将使用概念/语意分析器155对用户的搜索指导或详细描述的分析、预先计算的各排序因素上的排序向量r(pj)和由一个可加配的知识库160可提供的信息。知识库160包含各种通常知识和信息,比如各种不同产品的制造商的目录、各种服务供给上的目录、商标、大学的排名、各公司客户服务满意程度、各专科的专家和权威的名字和信息等等。搜索引擎140和概念/语意分析器155用这些通常知识和信息可根据用户在310选择或输入的搜索目的和在320输入的搜索指导或详细描述对搜索结果进行适应不同用户的排序。知识库160的可由专家输入建立或由产生收集、分析和分类在互联网上的信息来产生。
搜索引擎140把过滤、分类和排序后的搜索结果显示给用户。如果一个用户在310选择或输入多于一个搜索目的,比如当310是带有点击盒的列项时一个用户点击了两个或更多的点击盒,搜索引擎140在显示搜索结果时把搜索结果按用户所选的搜索目的分类列出,比如如果用户选择二个搜索目的购物和技术学习,搜索引擎140则把搜索结果分入两个大类一个购物类和一种技术学习类。
搜索关键字和用户的搜索目的、对搜索的指导或详细描述之间的不同是描述用户的搜索目的或对搜索的指导或详细描述所用的字有可能再也有可能或不在搜索结果的网页中,而搜索关键字则一定要在搜索结果的网页中。用户的搜索指导或详细描述可扩展或缩窄搜索关键字的搜索范围。用户的搜索目的可用来帮助定义对搜索结果的分类的范围和网站的性质,比如是一个在线零售商、制造商、研究组织、政府,标准组织等。用户的搜索目的也可以用于对搜索结果排序时把和用户的搜索目的相匹配的网页排列在前。用户的搜索指导或详细描述可以用于产生其他的相关的搜索关键字和概念来搜索被索引页,也可以用于过滤和排序搜索结果以达到只有具有一个有高概率可和用户要找寻的信息互相匹配的网页被呈现给用户或排在搜索结果的前列。这是与之前的搜索引擎形成明显对比之前的搜索引擎呈现成千上万个网页给用户,且排序由搜索引擎控制、决定。当搜索结果有那么多页时,大多数的用户看的页数不会超过最前面的20到30页。如果用户要寻找的信息不在这些最前面的20到30页中,搜索结果就被抛弃。
本发明依赖于搜索关键字对搜索结果的分类的实现可以抓取用户的潜在搜索意图。这样就不会用太多的、无组织的、无关的搜索结果淹没用户,因为他可以只选择他要找寻的分类而不理睬由于搜索关键字的其他含意被提取的搜索结果的分类。
本发明的对于用户可选择或可调整的多因素的排序的实现,可以通过把对搜索结果的排序的控制放到用户的手里,达到让用户更快速地找到他要寻找的信息。这样对搜索结果的排序就不是由搜索引擎公司垄断。
在搜索中利用用户的搜索目的和对搜索的指导或详细描述忠告的实现可以达到更准确的,相配用户的搜索目的的搜索结果和排名。把这些实现的集成产生一个更有用的、更高效率的、更有效的、更对用户友好的、和更民主的搜索引擎。
2.智能化扩展网络搜索及基于文件的搜索2.1由本地处理协助的先进网络搜索以上描述的几种实现是用一个新的搜索引擎。在另外一个实现里,对搜索结果的分类、用户可选择的排序、对用户的搜索目的的分析是在用户的计算机上本地实现的。这样,即使使用之前的搜索引擎,本发明的高级检索功能也能实现。在这样的实现中,在图4所示的用户接口410里的一个关键字输入框里,用户可以打入搜索关键字(组)。用户接口410把用户输入的关键字送到在用户的计算机上的一个概念和语意分析器420进行分析,对在用户的产生关键字和关键字组合取得被用户提供的关键字表现的各种不同的内容计算机上的一个搜索查询产生器430把结果送给分析。概念和语意分析器420把分析结果送给在用户的计算机上的一个搜索查询产生器430。搜索查询产生器430产生出一组关键字和关键字组合来代表用户提供的关键字(组)可能包含的各种意义。一个搜索引擎接口440把搜索查询产生器430产生的送交给互联网上的到一个或多个搜索引擎。当一个或多个搜索引擎松户搜索结果时,这些搜索结果被累积寄存在一个搜索结果缓冲寄存器450里。一个语意过滤器460根据一个概念和语意分析器提供的对搜索关键字的概念和语意的分析对搜索结果进行过滤。一个分类和排序器470对经过语意过滤器460过滤以后保留下来得搜索结果进行分类和排序。分类和排序器470可用一个或多个排序方法或因素对搜索结果进行排序,比如链接流行度、访问流行度、概念匹配、精确关键字匹配、所含关于搜索题目的信息量、作者和网站的权威性和客观性、信息的性质和目的等。分类和排列后的搜索结果通过用户接口410呈现给用户。用户接口410给用户提供多种可选择的排序方法,并以用户选择的排序方法来排列搜索结果。
用户接口410也可以提供一个跳出的菜单或自由的文字输入的方式让用户选则活输入他的意图或搜索目的。用户提供的意图或搜索目的将会被提供给概念和语意分析器420。概念和语意分析器420对用户提供的意图或搜索目的进行分析,并将分析结果提供给搜索查询产生器430,用来指导搜索查询产生器430产生合适的搜索。概念和语意分析器420对用户提供的意图或搜索目的的分析结果也将提供给语意过滤器460和分类和排序器470,用来指导对搜索结果的过滤,分类和排序。因为这种实现的程序是在用户的计算机上运行,用户的历史和个人偏爱490可以提供给也在用户的计算机上运行的语意过滤器460和分类和排序器470以达到对搜索结果的选择,分类和排序的实现,而不需要牺牲用户的隐私(因为用户的历史和个人偏爱490只是在用户的计算机上运行的程序之间的传送,不被送到网络上)。
之前的网络搜索是一件很耗时的人工过程,需要一个用户在计算机上人工输入他想要搜索的每个关键字(组)。而且往往也需要一个用户在其他应用和网络浏览器之间来回切换。本发明的下列实现克服了这些问题。
2.2使用在计算机上的文件进行搜索图5的方块图显示得是一个基于文件的搜索的一种实现。这种实现是安装在用户的计算机上,它将允许一个用户使用搜索用户接口505选择在他的计算机上的一个或多个文件,然后启动一个搜索去“寻找被和被选文件相关或相似的文件”。搜索用户接口505也可以提供给用户其他的选择功能,以进一步选定搜索是在寻找什么样的搜索结果,比如在用户的计算机上的文件或网上的网页的日期、类型、来源、所含内容的分类等。搜索用户接口505也可以提供给用户其他的选择功能来规定搜索是找所选文件所含的共同概念(交集)或是找所选文件所含的所有概念(合集)、规定搜索的目的、可在搜索上花费的时间、什么时候开始搜索(比如马上、在计算机空闲时、在预定的时间的等。一个预定调度器可实现这个功能)、还可以让用户提供对搜索更详细的指导和如何对搜索结果排序的指导。用户对搜索提供的更详细的指导可能是通用的、泛意的词或字,它们不是被用来进行匹配的关键字。搜索程序包括一个概念/语意分析器510。概念/语意分析器510分析被选的文件,和用户提供的搜索目的和搜索更详细的指导(如果用户提供了这些),并从被选的文件中提取出共同(交集)的概念和摘要及[或]所有(合集)的概念和摘要。概念/语意分析器510把被提取出的概念和摘要提供给一个查询产生器515。查询产生器515产生搜索用的关键字。查询产生器515把产生的搜索用的关键字送到一个计算机文件搜索器520(如果用户选择了搜索在计算机上的文件),也送到网络搜索引擎接口525(如果用户选择了网络搜索)。计算机文件搜索器520搜索在用户计算机上含有和搜索用的关键字相匹配的文件。网络搜索引擎接口525通过网上搜索引擎在内部网或互联网上搜索含有和搜索用的关键字相匹配的网页。网络搜索引擎接口525可以被配置链接跟随功能。链接跟随功能可跟随在搜索到的网页或网络服务里所含的URL链接,一直到指定的深度。这很像一个网络爬行器(webcrawler)。在搜索结果被送回后,它们被传送到分类、过滤和排序引擎530。分类、过滤和排序引擎530,在概念和语意分析器510的协助下,对搜索结果进行分类、过滤和排序。在这些都完成之后,搜索结果将传送到搜索用户接口505呈现给用户。
2.3总在进行的搜索用户对一个搜索的题目的兴趣时常是维持一段时间,而不仅仅是只进行一次搜索。在这种情况下,一个用户会希望监视他在搜索是认定的一些网站或网页上的变化,也可能会希望能够不断地去寻找和他的搜索的题目有关的新出现的网站或网页。之前的搜索引擎或搜索程序不提供如此的能力。本发明的几种实现会提供如此的能力。
在一个实现中,一个用户维持一个文件或一个包含多个文件的文件夹。这个文件或文件夹可被叫做“我现在的兴趣”。这样一个文件可以由图5所示的搜索程序产生。定时调度器540定期地在预定的时间把存在“我现在的兴趣”的文件或文件夹里的搜索请求送给一个网络搜索接口以重复相同的搜索。当搜索引擎送回搜索结果后,它们被传送给一个变化发现器550。变化发现器550把新的搜索结果与储存在早先搜索记录555的搜索结果进行比较。变化发现器550检测在认定的信息源里改变和新信息源的出现。如果发现了新的或变化了的信息,变化发现器550把它写入“我现在的兴趣”的一个文件或文件夹里以便用户查阅,或给用户送一个通知告知他新的或变化得信息。
早先搜索记录555间存储上次搜索结果里所有及[或]用户要监视的网页的来源,比如URLs,和所有及[或]用户要监视的网页的内容的信息摘要(message digest)或奇偶检测码(parity check or checksum)。在一个实现中,用户决定要监视哪些信息来源,只有这些被选择的信息来源被储存在早先搜索记录555中以便监视它们所含的信息的变化。信息摘要或奇偶检测码是可用于网络安全中的广为人知的方法,这些方法也能被用来监测网页内容的变化。这样就只需储存要监视的网页的信息摘要或奇偶检测码,而不需储存要监视的网页的所有内容。这就减少了储藏空间而且可较快速地发现变化。为了节省用户等候下载的时间,网络搜索引擎接口425可被编程以自动地下载并储存匹配用户要求的网页或文件。因此,这种自动化的,总在进行的搜索程序持续地为用户上搜索新的信息来源、监视变化、分类、下载。这与以前的情况形成明显的对比。以前,一个用户需要经常地去一个搜索引擎网站,比如雅虎(Yahoo)和Google,人工输入所有的搜索字(组),然后一页又一页地翻阅搜索结果。
如果一个用户想要停止一个总在进行的搜索,他只要把这个搜索从“我现在的兴趣”的文件或文件夹里消除掉即可。如果一个用户想要增加一个新的总在进行的搜索,他只要把这个搜索作为一个新项添加在“我现在的兴趣”的文件或作为一个新的文件添加在“我现在的兴趣”的文件夹里即可。本发明的这种总在进行的搜索在很多应用里都是对用户很有用的,比如在市场情报收集、监视竞争者动态、在比较购物中监视价格变化和新的零售商、研究监视新的发展和发现等等,而且也能节省用户很多的时间、使他们对他们感兴趣的事件或题目有更好的、更及时地了解。
在上述的实现中,一个总在进行的搜索是在用户的本地计算机上被控制、预定、调度和启动的。在另外的一个实现中,一个网络搜索引擎提供总在进行的搜索的服务给它的用户。一个用户把描述一个总在进行的搜索的文字或文件传送到一个网络搜索引擎。网络搜索引擎接受用户的输入,产生一个相应的总在进行的搜索的过程(process),为用户运行这个上面所描述的总在进行的搜索。网络搜索引擎运行的这个过程包括分析用户的输入、产生搜索要用的关键字(组)、安排定期地搜索以监视总在进行的搜索有关的网页或网站出现和指定的网页或网站是否有新的内容、过滤和分析在指定源检测到的变化或检测到的新的信息源、给用户发送告知或提醒。在本发明之前,一些搜索引擎提供监视新闻和股价变化得服务。当新闻或股价变化发生的时候,这些服务传送给用户通知或提醒。本发明的上述实现不同于这些之前的这些搜索引擎的提供监视新闻和股价变化得服务,因为之前的这些服务只限于用关键字或数字匹配的方法对新闻提供者或股票信息提供者提供的信息进行过滤。在这些之前的这些服务中,信息的来源是固定的,新信息的检测局限于简单的关键字或数字匹配。
2.4在应用程序里进行自动搜索在许多情况下,当一个用户正在一个应用程序里工作的时候,比如在一个文字处理程序(如微软的Word程序)中写一个研究论文或一项项目报告或一个商业计划时,他时常需要在网络上及[或]在他的计算机上搜索相关的信息。在本发明之前,当一个用户想要进行搜索时,他需要打开一个网络浏览器或一个搜索接口,在其中人工地打字输入他想要搜索的关键字(组)、等搜索引擎返回搜索结果、翻阅这些搜索结果,然后再返回到应用程序甲利益继续在应用程序甲里的工作。如此的搜索往往可能是太局限因为用户没有搜索在应用程序甲里的所有题目或概念,或太广泛因为在应用程序甲里的上下文内的内容没有在搜索被考虑进去。
本发明的一个实现是一个自动搜索程序。这个自动搜索程序自动地搜索和应用程序甲里用户正在读/写的文件相关的网页和文件。如图4所示,本发明的自动搜索程序可配置有一个概念/语意分析器,一个搜索关键字(组)产生器和搜索接口。举例来说,如一个用户正在一个文字处理应用里打字写一个研究论文,自动搜索程序将自动地分析这个文字文件,识别此文件所含的概念、题目或主题,产生搜索用的关键字(组),然后用这些产生的搜索用的关键字(组)在用户自己的计算机上、企业内部网络及[或]互联网上搜索相关的文件或网页。这样产生的搜索结果将被链接到用户正在读/写的这个文字文件中相关的关键字、句子或段落。这些链接可以加彩加亮或上标或下标的形式显示。这些链接的显示可以只在显示屏上显示,而在打印时将不出现。也可以在文字处理应用的“察看”(View)选择菜单里加一个打开和关闭显示这些链接的选项。当用户点击一个这样的链接时,相应的搜索结果可在一个单独的窗口里显示,也可在应用程序甲里,如上述的文字处理应用里,旁边的一个窗框(side window)里显示。搜索结果也可已被分类和排序。分类和排序可使用本发明前面描述的方法及其功能和特征。一个用户可以允许或不允许这种在应用程序里进行自动搜索的功能,也可以设定搜索的范围为在一个文件夹之内、在一个硬盘内、在计算机里、在企业内部网络里、和在互联网上。在一个实现中,当一个用户引述搜索结果的一个来源的时候,搜索程序自动地把这个来源加入文件的参考文献清单里。
本发明的上述搜索程序的运行的时间可被编程设置。这样一些大量要求处理器时间的操作可被设置在处理器和硬盘空闲时运行。这就保证了这种在应用程序里进行自动搜索的处理不会严重地影响应用程序甲(比如上述的文字处理应用)的速度。在现今的数十亿赫兹处理器上,这样的安排是完全可行的,因为当计算机在运行文字处理、电脑制表(spreadsheet)、数据库等应用时,计算机的处理器很大一部分时间是空闲的。
这种在应用程序里进行自动搜索的功能可以和上面描述的总在进行的搜索功能集成在一起。如此集成的搜索程序可以在用户没有在处理或读/写一个文件时也继续搜索和这个文件相关的信息。这就保证了用户可以得到与他在写作的文件相关的最新的信息。
3.先进的计算机文件及信息管理系统之前的计算机文件系统,如微软的窗口操作系统(Microsoft Windows),苹果计算机的Mac操作系统和Linux操作系统中的文件系统,仍然是基于传统的实物的文件箱和文件夹的概念。在传统的实物的文件箱和文件夹里,一个文件因为是一个实体,所以只能在一个文件箱或文件夹里出现。然而,这种一个实体只能在一个文件箱或文件夹里出现的限制在计算机上是不存在的。一个文件或文件夹的数据可只存储在一个硬盘的给定的位置而且只存储一次,但是它可以逻辑地出现在多个目录或列表里、多个分类类别里或一个分类层次结构乐得多个节点里。之前的文件系统没有利用这个事实来改进在计算机上的文件组织。随着磁盘容量增加和在互联网上索取到的信息量的增加,一个用户可能有大量的文件分布在很多文件夹和子文件夹里,而且会浏览许多许多网页之。其结果是如果用户不记得一个文件在文件系统里的准确位置,或不记得找到一个网页的精确关键字,找到这个文件或网页可能是一件很困难的事情。举例来说,假设一个用户在一或两个月,或两年以前在一台计算机上读或写过一个文件。用户只记得这个文件和多个题目有关,或含有多个概念或引用了多句话。在这种情况下,在本发明之前,用户没有一个有效率的方法来找到这个文件。如果一个用户精确地知道一个文件里用的一些的关键字,用户可以使用之前的操作系统里的搜索功能,打开一个“搜索”窗口进行搜索。但是对一个大容量的硬盘,这样的搜索会需要很长的时间。在这段时间里,计算机的处理器和硬盘忙于进行搜索,只有很少的资源可以拿出来去做其他的工作。结果是用户往往只能等着搜索完成。
之前的其他个人计算机上搜索程序,比如Idealab的X1搜索程序,建立一个计算机上文件和电子邮件的索引以加速对计算机上的文件和电子邮件的搜索。然而,这种搜索程序仍然是一个关键字的搜索程序。这种搜索程序只是把匹配的文件和电子邮件以线性清单形式列出给用户,不对搜索结果进行其他组织或结构,也不是一个有组织结构的文件系统。这种搜索程序的搜索是以关键字匹配为基础。如果一个用户不记得文件或电子邮件里的关键字,它对用户是没有帮忙的。如果用户使用太少的关键字,搜索结果清单里会有太多结果,没有结构或组织,使得找到他想要的文件很困难。如果用户使用太多的关键字,他想要寻找的文件可能被排除在外。
以前有为企业用的将文件组织成分类层次结构的解决方案,如Autonomy公司和Ducumentum公司的此类产品。此类之前的将文件组织成分类层次结构的方法典型地都是局限于按照从文件里提取的关键字对文件进行分类。为了要找到一个文件在这种分类层次结构里的位置,用户需要知道一个文件应该属于哪个分类类别,以便这种分类层次结构里航行来找到这个文件。但是时常用户只对一个文件的内容或题目有含糊记忆,而且即使能知道它属于哪一个分类类别,这个分类类别也可能有太多文件。用户可能需要把这个分类类别里的文件一个一个地打开来找他想要的文件。
文件系统中的文件之间可以有多种相关关系,比如文件分类类别的从属、相似性、联想关系、时间、文件类型、链接和引用、来源,作者,因果关系、文件集的从属、概念上的关系文件等。所以对文件的搜索也可以根据多种关系进行。举例来说,相似性可以多种方法来测量,比如关键字匹配、共同的主题或题目、包含有相同的或相关的句子或段落或引用或参考;联想关系可以概念扩充、相反概念、共发生、逻辑、及模式等多种方法来测量;时间关系可以文件被产生、修正或存取的时间等来定义;文件之间的因果关系可以定义为哪一文件是对另一文件的回复(比如电子邮件的线(thread))、引用关系、或处理一个相似题目或事件的文件之间的时序关系等;一个文件集的从属关系可以定义一组和一个交易、事件或项目相关的文件的集合。
本发明的一种实现将一部个人计算机上的文件以如上述的多种关系进行组织,并用户提供多种找到或提取文件的方法或途径。在一部计算机的处理器和硬盘的闲置时,或当处理器和硬盘的带宽没有完全被利用的时候,一个安装在这部计算机上的文件组织程序,如图6所示,对储存在这部计算机上的所有文件,以背景处理的方式,进行分析和组织。这样,储存在这部计算机上的文件已经以很多关键字、概念和多种相关关系被索引、分类和组织。当一个用户进行索取时,就不需要很多时间进行搜索,用户需要的文件很快就可被发现而且呈现给用户。同时,本发明的文件组织程序是在利用计算机的剩余或闲置的资源在背景里进行的,它不影响在计算机上运行的其他应用的运行效率。在计算机系统期间的空闲时间或当系统有多余的处理器和硬盘片通道资源时,一个文件分析器615从一个文件实体储藏610(比如一个硬盘)中提取并分析储存在610而且没有被分析的文件。文件分析器615从一个文件中提取可以描述或代表这个文件的信息,包括标题、副标题、文本中的关键字、文件所含的人名、地名、物名或其他名称、图或表的说明、摘要或总结、文件中提到的日期、作者、链接、参考文献、文件的产生、修正、存取的日期等等。文件分析器615可以包含一个概念和语意义分析模块。根据文件中的文字,在知识库628的协助下,这个概念和语意义分析模块估计文件中的文字表达的意义或概念,或表达这些意义或概念的概率。文件分析器615的语意分析能力可以把对文件的理解或特征描述从低级的字、词的匹配提高到高级的概念或意义上的相配。文件分析者615也可包含一个文件摘要模块以自动地提取文件的摘要或简短总结。此摘要或简短总结能力可以用来对文件进行以主题或题目和概念上的相似性为基础的分类。文件分析器615把分析的结果送到文件分类、排序和索引引擎(FCRIE)620。根据文件分析器615从文件里提取的对文件的特征描述,(FCRIE)620把每个文件分到一个或多个类或子类里、加进索引结构并给每个文件一个排序。根据文件里包含的各种信息,如关键字、概念、语意分析、功能、作者、日期、文件之间的多层次的概念上的关系等等,FCRIE 620可以把一个文件分到多个不同的分类或子分类。FCRIE 620还建立一个可以用许多不同特征信息,比如文件中所含的许多不同的关键字或概念,对文件进行搜索的文件索引。对于每个分类的类别、关键字或概念匹配,FCRIE 620给每一个文件一个排序。这个排序代表此文件在它属于的类别的重要性,或此文件和所用的关键字或概念的匹配的接近程度。分类、排序和索引的结果存储在文件分类、排序和索引储藏(FCRIS)625中。当一个新的文件在计算机上被产生或接收到的时候,这个事件被发现后文件分析器615自动地提取这个文件,对它进行分析,然后把它送给FCRIE 620去进行分类,编入索引和排序。其结果被储存在FCRIS 625。
根据文件分析器615从文件里提取的对文件的特征描述,(FCRIE)620可利用知识库628中的知识对文件进行分类、建立索引和排序。知识库628里的知识可以人工编辑,也可以从一个服务器下载。知识库628也可以被装备机器学习的能力,这样知识库628就可以利用和用户的互动来学习新的概念、根据语意的分类和排序方法,以改善已有的概念、根据语意的分类和排序方法。
为了在本发明的文件系统中航行或找到一个文件,用户点击一个图标(icon)以打开一个图形用户接口(GUI)窗口700,给用户提供多种选择,如图7所示。另一种情况下,图形用户接口窗口能自动地在开机时启动。在窗口的左边,多种组织和找到文件的方法显示在710和715中。传统的文件目录/文件夹文件系统作为选择之一710提供给用户。传统的目录/文件夹文件系统可以用来提供本发明的新文件系统的底层支持文件结构。呈现给用户的其他选择可包括,如720所示按文件所含内容、概念或题目组织、按预先定义的基于文件所含关键字或概念的分类和子分类结构组织、以关键字或概念搜索文件、找和被选择的一个或多个文件相似的文件、找和被选择的一个或多个文件在时间上或交易、事件、项目上相关的文件、按文件的作者组织文件,等。另一个选项730是以两个或更多的上述的选择的组合来组织文件。一个例子是一个分类层次结构和传统的目录/文件夹结构的组合。在这种组合里,在一个指定的分类所里的所有文件以传统的目录/文件夹结构显示。用户接口也可提供给用户选择他自己想要的组合。一个用户选择的或默认/隐含设置(default)的文件组织显示在窗口700里的右边。750是一个分类的显示例子。
在一个以关键字或概念或描述寻找文件的实现中,为了寻找一个文件,一个用户在如图8所示的一个文字输入框810打字输入一个要寻找的文件的描述,比如[2004年财政预算电脑制表](2004 financial budget spreadsheet)。因为用户在输入框810中输入的字(组)可能不在文件名字中,而且也可能不是要寻找的文件中的用字,这不是一个简单的关键字或文件名字的搜索。用户在文字输入框810里输入的文字被送到一个用户请求分析器630。用户请求分析器630的一个内容或语意分析模块,利用知识库628的知识,分析用户的请求,从中提取出其特征信息并用这些特征信息来搜索文件。这些特征信息可包括抽象出的概念、关键字、分类的类别、文件类型、日期时间、等。在上述这个用[2004年财政预算电脑制表](2004 financial budget spreadsheet)的描述来寻找文件的例子中,用户请求分析者630将根据这个描述来提取可以代表这个描述的特征信息,包括它是一个类似于微软Excel的电脑制表文件,它含有成排成列的数字或货币的数量、成排成列的递增或递减的月份或季度(比如一月、二月、一季度、二季度、04/01等)和以不同的格式表达的年份(比如04,2004,二零零四等)、关键字(比如费用、收入、销售、收入、薪水、预算、财政等)。
这些提取出来可以代表用户的描述的特征信息被送给一个文件搜索器635。文件搜索器635在FCRIS 625里搜索和这些特征信息的匹配。文件搜索器635用和FCRIS 625中匹配的索引来取回文件实体或文件实体在文件实体储藏610中的位置。这些取回的文件或它们的特征信息可被送到一个可加配的过滤和排序器640以更进一步过滤和排列被取回的文件。过滤和排序器640根据文件和代表用户描述的特征信息的匹配程度对文件进行过滤和排序。然后,过滤和排序后的搜索结果被显示给用户。显示的在结构和排序方法可以是默认/隐含设置或用户选择的。举例来说,如图8所示,搜索结果以一个层次结构的分类组织850显示,并在每一个分类的类别里以和代表用户描述的特征信息的匹配接近程度排序。用户可点击一个文件夹或文件的图标来打开这个文件夹或文件。
在一个实现中,作为本发明的文件系统的一部份,当用户选择或打开一个文件时,一个窗口在旁边自动打开,和用户选择或打开的文件相关的文件被显示在这个窗口里,如图9所示。910显示的是用户感兴趣的文件被编入一个分类树的结构。用户选择了一个文件920。和文件920相关的文件被列出在右边,这里的相关可包括类似的主题或题目、相似的关键字或概念(可以根据用户定义或统计比如像最频繁发生的概念)、在时间上的关系(比如在相同的时间段产生或修改)、出于相同的作者、有叁考或引用或链接关系、或包含有相似的或反对的命题(将用图10进一步描述)等。这一个功能实现可以和前面讲的用本地计算机上存的文件作为网络搜索的描述的实现结合起来。这样不但在计算机上和所选文件相关的文件,而且在局域网络上或互联网上和所选文件相关的文件/网页都可以在旁边的窗口中显示。
因为当计算机有剩余的资源时候,以多种预先定义的相关关系的分类、排序和索引已经进行完了,而不是当一个用户要寻找文件的时间才进行,所以拥护要找的结果可以很快久显示出来。一般说来,这些结果是在一个用户点击或打字输入他对要找文件的描述之后马上就可提取并显示出来,而不是等候着对一个几十千兆字节(GB)的硬盘进行搜索。当此实现的程序刚装在一部计算机上,它需要时间完成对所有的文件读取、分类、排列和建立索引。
在另外一个实现中,一个程序记录用户和他的个人计算机的交互历史,并以此作为组织在计算机上的文件的方法之一。此实现纪录用户在每一天和计算机的交互,比如访问了哪些网页、收到和送出了那些电子邮件、读/写处理了那些文件、使用或安装了那些应用程序,并将这些交互信息储存在一个文件或数据库里。此实现有一个语意分析器。这个语意分析器能从储存在上述文件或数据库里的交互信息中提取出所含的重要概念或题目、用户和计算机一天、一周、一月的交互的主题或摘要。利用这样的分析就可以把文件按时间和题目或主题组织起来,显示给用户。除此之外,这种按时间和题目或主题组织文件的程序可以支持对用户和计算机的交互历史进行搜索,并可给用户提供在计算机上工作的日、周、月的总结显示。
在另一个实现中,文件的组织包括了电子邮件,联络簿数据库和任务,比如像微软景观(Microsoft Outlook)应用程序中提供的那些功能。和对其他文件一样,文件组织模块600对每一电子邮件,联络簿数据库和任务里的项进行分析、分类、排序、编入索引。举例来说,文件组织模块600可以自动地把一封送出的电子邮件的在联络簿数据库中的所有接收人或一封收到的电子邮件的在联络簿数据库中的所有接收人分类成属于一个组。文件组织模块600也可以使用电子邮件的主题、日期、组内人的名字、或以上的组合自动地产生一个这样的组的组名。组名可以允许人工编辑。联络簿数据库里的每一个联络者可以被划分到多各组里。除此之外,文件组织模块600可把相关的电子邮件链接起来,这里电子邮件的相关可以是具有相同邮件线(email thread)、日期、寄件人、接收人、主题、题目或概念等。每封电子邮件可以属于多条邮件线或概念或主题相关等的组。文件组织模块600在每一个电子邮件的索引栏里记录它和其他电子邮件的链接,并把这些链接编成索引。
对每个电子邮件,如果计算机上有含有和此电子邮件相关的主题、题目或概念的文件,或一个文件是一封收入电子邮件的一个附件,或一个文件曾经是一封外出的电子邮件的附件,和这些文件的链接也将被记录在此电子邮件的索引栏里,且编入此电子邮件的链接索引。同样地,当文件组织模块600对文件进行分析、分类、排列、和建立索引时,如果一个文件和电子邮件、联络簿数据库和任务里的项或它们的附件有相关的主题、题目、概念、内容、或其他的关系,文件组织模块600将把和这些电子邮件、联络簿数据库和任务里的项的链接记录在这个文件的索引项里,并将这些链接编入索引。举例来说,如果一个文件被作为电子邮件寄给了一个人,而且这个人是联络簿数据库的一项,那么一个在这个文件和这个人在联络簿数据库的项的链接将被建立、记录和编入索引。如果一封电子邮件被删除,从一个文件到这个电子邮件的链接可以保留有关的信息,如电子邮件的寄件人、收件人、题目和时间等。
上面的相同的方法也可以对用户在过去一段时间访问过的网页,比如存在用户所用的网络浏览器的“历史”(History)文件夹中的网页,进行分析、分类、排序和索引。之前的网络浏览器只简单列出或按访问的天或星期来组织用户访问过的网页或网站。一个用户时常面对这样一个困惑他试图回忆起来它在数天或数个星期以前在互联网上看到一个网页里的信息,但是他忘记精确的是哪一天看到的,也忘记了网址和用来找到这个信息的关键字。为了解决这个欠缺,文件组织模块600对存在用户所用的网络浏览器的“历史”(History)文件夹中的网站或网页进行分析、分类、排序和索引,把他们按照关键字、概念和语意、作浙、日期、和计算机上的文件的关系等,分入一个分类结构并在每一类别中排序。这样,一个用户就可以用概念、描述(而不是限于关键字)、时间段(而不限于精确的日期)、作者等,来搜索“历史”(History)文件夹中的网站或网页。
请注意,在“历史”(History)文件夹中的网站或网页的实体不需要被储存在用户的计算机上。文件组织模块600可从互联网上取回需要网页并对它们进行分析、分类、排列和编入索引,但是在文件组织模块600完成了这些处理之后,这些网页本身不需要被储存在用户的计算机上。文件组织模块600只需要把分类、排序和索引信息储存在用户的计算机上。对于需要保护隐私的用户,在文件组织模块600种,这一个搜索、分类、排列用户“历史”(History)文件夹中的功能可加密码保护,或可被排除掉、或当“历史”(History)文件夹被删除时非除掉。文件组织模块600可用相同的方法自动地组织“喜好”(Favorite)文件夹中的网页。
计算机文件组织的上述实现和网络搜索的实现、基于文件的搜索的实现是相似的,但是这些实现被改造成为一个适应于在一部计算机上以多种途径定位、搜索、提取文件和组织文件和信息的方法。这些实现将会使一个用户能够有效地、智慧地组织合提取在他的计算机上和在互联网上的信息。举例来说,一个用户对他要寻找的文件提供这样的描述(1)它是讨论全球天气变化的效应、(2)是由一群包括一位来自一个亚洲国家的科学家们写的、(3)用户是在互联网搜索关于热带雨林(Rainforest)的信息时第一次看到这个文件的、(4)用户在大约3个月以前将此文件的一个修改版用电子邮件寄给了一个在联络簿数据库的一个人。在这个例子里,(1)是一个对内容的描述,而不是关键字,要找的文件里可能含有也可能不含有这个描述里的用字;(2)是对作者的属性的描述,而不是准确的名字;(3)是一个时间上共发生的事件;(4)是一个来源和电子邮件附件的关系。
计算机文件组织的上述各种实现提供了一个高层的文件系统,它将文件按文件之间的关系包括多层的概念关系进行分类、按多个分类和排序因素进行排序。
4.基于文件及网络搜索和联想的、人工智能的助手本发明的各种实现利用在“发明背景”章节指出的四类没有被充份使用的资源以给用户在研究或改革或创造的过程中提供具有人工智能的协助。本发明提供协助用户的自动功能,以协助用户进行或自动化地替代用户进行部分个人或工作或商业情报的收集和分析,提供创造工程需要的事实发现、信息检索、分析和抽象化、变化的发现和监视,和创造新概念或新思想是需要的联想、推论、一般化和普遍化。
图10显示了一个这样的人工智能化的用户助手的实现的例子。人工智能化的用户助手1000使用了前面描述的基于文件的搜索和总在进行的搜索的实现(如图5所示),和文件组织模块600(如图6所示)。一个自动下载器1025提供从互联网下载的协助。一个用户可经过用户接口1010来设置人工智能化的用户助手1000的配置。配置的例子包括是用文件及[或]文字描述来表达用户的目标以指导在网上的信息和情报的收集、需要监视的信息源和监视时段、期间检测、提醒用户的方法、设置人工智能化的用户助手1000自动地,藉由跟踪和分析用户和计算机的交互和用户正在计算机上处理的和文件,为它自己产生目标和任务。
人工智能化的用户助手控制器1020调度和协调人工智能化的用户助手1000的各种功能,分析用户的指示或描述、或用户正在计算机上处理的文件、或用户和计算机的交互。在进行这种分析时,人工智能化的用户助手控制器1020可以让文件组织模块600中的概念和语意分析器或基于文件的搜索和总在进行的搜索的实现500协助完成分析任务。基于这些分析,人工智能化的用户助手控制器1020产生出人工智能化的用户助手1000要达到的目标和为了达到此目标要完成的任务。人工智能化的用户助手控制器1020然后遵循用户的指示或设置安排执行这些任务的时间。一般情况下,这些任务被自动地在背景里运行。
人工智能化的用户助手控制器1020与文件组织模块600进行交互,以对计算机上的文件进行分析和渐进地分类、排序、和建立索引。文件组织模块600是基于概念和文件之间的关系进行这些分类、排序、和建立索引的,而其指导宗旨是要有利于达到人工智能化的用户助手1000的目标。根据产生的目标和任务,人工智能化的用户助手控制器1020产生一个或多个总在进行的搜索任务或基于文件的搜索任务,以在用户的计算机上和互联网上搜索有关的信息。这些搜索任务是由文件组织模块600及基于文件搜索和总在进行的搜索实现500来完成的,并由一个自动下载器1025协助。自动下载器1025具有自动的网络爬行功能(web crawler)。
因为这些搜索任务是根据概念和语意分析产生的,它们的搜索范围要比基于文件中或用户的指导或描述中的关键字的搜索范围要广泛。把关键字扩大到概念是人工智能化搜索的一个重要的步骤,然而,为了给一个用户提供人工智能化的协助,本发明把人工智能化搜索提高到了概念的空间里的一个更高的层次---命题的层次。命题这一层次可以代表概念之间的关系。同时,在命题这一层次,也可以找出概念之间的关系的模式。
因此,人工智能化的用户助手控制器1020指示一个命题和模式分析模块1060对一个文字文件或文字的描述进行分析、提取其中所含的主要命题、并且找寻在概念之间关系的模式。识别并提取命题的方法之一是在找到一个包含一个或更多的重要关键字的句子,把这个句子提取出来,把不重要的形容词或副词或从句删除掉。对于非文字的数据,一个数据分析模块1040进行统计数据分析、回归分析和有关变量中的变化模式的发现。命题和模式分析模块1060可使用这样的分析和模式发现,连同变量的文字名字和与这些变数有关的概念,来提取模式和命题。
为了能够使用命题来进行语意的搜索,命题和模式分析模块1060,藉由把句子的不同部份的关键字用可代表这些关键字的意义的概念性的描述来替代的方法,将命题的意义普遍化。如果一个句子的一个部份的关键字(组)有多个语意的意义,此关键字(组)可被每个语意的意义的概念性描述替代,这样,一个从文字文件或文字的描述里提取的命题就变成了多个普遍化了的命题。当命题和模式分析模块1060从相关的活所有的文件中提取了命题并对这些命题进行了普遍化以后,人工智能化的用户助手控制器1020可启动一个命题搜索模块1070以搜索包含可匹配的普遍化了的命题的文件。命题搜索模块1070在匹配两个普遍化了的命题时,要求命题中的各个不同的部分的概念含义相同或相似,也要求命题中的各个不同的部分的关系相同或相似。
除了发现相匹配或相似的命题之外,命题和模式分析模块1060和命题搜索模块1070也可搜索寻找包含命题的反命题或和命题的语意意义相反的命题的文件或网页。这里列出命题搜索模块1070发现两个互相反对的普遍化的命题的两个方法如果两个普遍化的命题的一个相同的部份的概念上意义是相反的而各不同部分之间的关系是相同或相似的,则这两个普遍化的命题被认为相反的;如果两个普遍化的命题的各个相同的部份的概念上意义是相同或相似的而其不同部分之间的关系是相反的,则这两个普遍化的命题也被认为相反的。使用相似的和相反的命题的搜索功能,人工智能化的用户助手1000对一个文件中的或用户输入的文字表达的命题既可提出支持观点或证据又可提出反对观点或证据。
在命题和模式分析模块1060从文件或网页中提取出命题并对其普遍化后,文件组织模块600和基于文件的搜索及总在进行的搜索实现模块500可以按照包含在这些文件或网页的命题(包括相似的和相反的命题,和尚面描述的相似的和相反的命题的搜索功能相似)将这些文件或网页进行分类和排序。
在图10中显示的人工智能化的用户助手1000是在用户的本地计算机上实现的。对本行业熟悉的人可以容易地看到人工智能化的用户助手1000的功能可以在一个网络上的至少一个服务器上同样地实现,以提供对服务器上的内容或此服务器可通过一个网络读取到的内容进行人工智能化的分类、排序、摘要、组织、联想、和总在进行的搜索。举例来说,一个网络搜索引擎可以实现命题和模式分析模块1060和命题搜索模块1070,这样的网络搜索引擎就可以搜索含有和一个命题在语意上相匹配或相似或相反的命题的网页。同样地,一个网搜索引擎可以实现命题和模式分析模块1060的功能使它有能力对网页按网页所含的命题的语意进行分类和排序。
人工智能化的用户助手的自动化搜索功能可以自动地爬行、下载,分析和识别很多的文件。虽然人工智能化的用户助手能对这些文件分类和排序,用户可能还是有太多文件的文件要看。因此,人工智能化的用户助手有一个文章抽象和摘要模块1030,它从一个文字文件提取出一个摘要,以便一个用户能很快地读过许多文件的很浓缩了的摘要。文章抽象和摘要模块1030可用好几种方法提取出一个文字文件的摘要,包括收集起来命题和模式分析模块1060从一个文件里提取的主要的命题、识别和提取重要的句子(比如一个章节的第一个句子、跟随着如“这个文章是关于…”,“我们的结论是…”的标志句型的句子)、或跟随着类似于“摘要”,“总结”,“结论”这样标题的段落,等等。
认识到在概念、原理、现象等之间的联想,也就是大家有时称为把事情联系起来,是人类创造性的最重要途径之一。举例来说,把圆石头滚动下坡和移动重物体联想到一起很可能导致轮子的发明;把锐利的物体和这个物体在身体上造成的创伤联想在一起很可能导致石头刀和矛的发明;把在水上漂行的圆木和在水上航行的欲望联想在一起可能导致木筏、独木舟和随后船的发明。这类例子举不胜举。人工智能化的用户助手1000的功能的一部份就是协助一个用户进行联想思维,通过搜索大量的联想和模式,并将最有可能性的联想和模式呈现给用户。这样,人工智能化的用户助手1000可以替用户去创造联想并把这些联想中有希望的建议给用户。因为计算机、储藏器、网络连接和信息的读取通道可以一天24小时一星期7天不停地以高速的处理速度和宽带的连接工作,人工智能化的用户助手1000可以搜索、尝试、探所、测试和推理分析很多、很多的联想,许多这些联想是一个用户无法考虑到的。
一个联想和普遍化模块1050接收人工智能化的用户助手控制器1020提供的概念、命题和模式分析模块1060提供的命题和模式作为它的输入。这些概念、命题和模式被称为输入集。联想和普遍化模块1050横跨一个概念及[或]命题的空间,通过普遍化和特别化或归纳法和推理法,在计算机上的文件里和网络上的网页里包含的、可以和输入集通过莫种关系联系在一起的概念、命题和模式。
举例来说,如果输入集包含有802.11b的概念,联想和普遍化模块1050在概念空间里上移一个层次就到了无线局域网的概念,再上移一个层次就到了无线网的概念,再上移一个层次就到了无线通讯的概念,它可以再下移一个层次到移动电话网的概念,再下移一个层次可到手提移动电话机的概念,这样就找到了802.11b和移动电话的联系,可以把“802.11b移动电话”作为一个可能的联想呈现给用户。
如图11所示,用同样方法可得到的其他的可能联想包括“802.11a移动电话”,“802.11b和802.16和蓝牙Bluetooth”,“802.11b蓝牙Bluetooth移动电话”等。当这些联想被呈现给一个对相关技术熟悉的人,这些联想就可能建议下列发明一个以802。11b,或802.11a,或802.11g为基础的移动电话网络;一个全覆盖的无线网络用802.16做无线都会区域网(wireless metro area networking),用802.11b做无线局域网,用蓝牙Bluetooth做个人局域网;一个移动电话网络使用802.11b作为无线局域连接,使用蓝牙Bluetooth作为个人局域连接;等等。
一条有更高的创造潜力的联想路径是跳到概念或命题空间里任意地、表面上似乎无关的部份来探索联想。使用和上面相同的例子,一个联想和普遍化模块1050可任意地跳到在医疗保健方面的子空间,并探索802.11b无线局域网和医疗保健和病人监测的联系。这样就可以给用户建议一个“802.11b无线局域网和病人监测”的联系并把通过对病人监测的需求进行网络搜索得到的、支持这个联想的证据一起呈现给用户。一个联想和普遍化模块1050将“病人监测”和“802.11b”和它们的普遍化和特殊化后的概念,比如从802.11b得到的无线网路、可动性、一贯连接性,和从病人监测得到的心电图(ECG)监测、位置监视等,送交给人工智能化的用户助手控制器1020,1020据此产生出搜索请求并把此搜索请求送交给基于文件的搜索和总在进行的搜索实现500。据此,模块500在网络上进行概念和语意的搜索,并会送回搜索结果。这些搜索结果可包括病人监测和心电图(ECG)监测对可动性和24小时的连续性的要求,等。这样的搜索结果加强了病人监测和802。11b无线网络的可动性和一贯连接性的联想。结果是联想和普遍化模块1050将“802.11b无线局域网和病人监测”的联想的强度和排序增强。当1000把这样一个联想呈现给一个对相关技术或需求熟悉的用户时,它就可能导致发明使用802.11b或其它无线技术进行病人监测的仪器、网络及服务。这种在概念和命题空间进行随意跳跃来探索联想的方法可以找出许多类似的联想。例子包括跳跃到玩具、环境监视、家庭和办公室用等空间里去探索联想。大部份如此的任意联想不可能找到任何的支持证据或可能被常识知识排除,比如“802.11b和恐龙的绝灭”,“802.11b和相对论”等都可被排除。
联想和普遍化模块1050可以产生联想的另外一个方法是在网络上寻找联想。它在网上搜索既包含一个输入集的概念或命题及它的普遍化和特别化或它的归纳和推理,又包含第二个概念或命题集的网页或文件。因为第二个概念或命题集包含在相同的网页或文件里,联想和普遍化模块1050假设两者之间有联系,并去搜索更多的支持输入集和第二个概念或命题集的联想的证据。对于上面相同的例子,在使用无线局域网的可动性和一贯连接性的特征进行的搜索中,联想和普遍化模块1050可能在互联网上找到一个网页,这个网页讨论了需要在一个时段连续地监测一个病人的心电图(ECG)而同时允许病人自由地移动的要求。这样,联想和普遍化模块1050就可识别到一个在802.11b和病人的心电图(ECG)监测之间的可能的联想。
联想和普遍化模块1050还可以通过在一组用户的搜索历史和网上浏览历史来寻找和产生联想。这被称为合作联想。合作联想和信息过滤中的合作过滤(collaborative filtering)的方法有类似之处。在合作联想中,一个服务器记录一组用户的搜索和浏览的历史,并可将这些历史提供给其他用户,比如组里的用户。为了保护用户的隐私,服务器记录这些历史时是隐名的,并需要得到一个用户的同意之后才能把他的历史记录在服务器里。在这一个方法中,一个用户在一个服务器上注册允许服务器隐名地纪录他的搜索和浏览历史并提供给其他的用户在进行合作联想时使用,作为对他的回报,他将可以使用这一组里其他用户的搜索浏览历史进行合作联想。在一情况下,这一组用户可能来自一个公司或部门,他们在工作地点的搜索和浏览的历史是为公司的利益而记录的。在另外的一个情形中,一群用户可能是在互联网上的一个自愿的用户团体或社区。在任何一个情形中,属于甲用户的联想和普遍化模块1050搜索一组用户的搜索和浏览历史,先找到其他的也搜索或浏览了和甲用户的输入集及它的普遍化、特殊化、归纳、推理的用户子组,再在这个用户子组的搜索和浏览历史中寻找这些用户同时或在一段制定的时间里还搜索了什么概念或命题、还浏览了含有什么概念或命题的网页。这个实现收获一组用户的集体智能来挖掘创新的联想。
上述的实现既用了推理也用了强行(brute force)的方法来从多种信息源里搜索联想,包括知识库、在用户计算机上的文件、在网络上的网页和文件、用户历史等。为了发现潜在的联想,联想和普遍化模块1050可寻找多个概念之间的联想(比如两个概念、三个概念、和n个概念之间的联想),在命题、数据模式之间的联想,在输入集的核心概念或命题的扩大或高一层的相关的概念或命题之间的联想。多元素的联想可以用可传递关系来发现和验证,举例来说,如果存在支持甲概念和乙概念的联想的推理或证据,也存在支持乙概念和丙概念的联想的推理或证据,则甲概念、乙概念和丙概念的三元素联想就可被发现并认为是有支持的。
联想和普遍化模块1050可进一步分析和搜索支持可能的联想的证据。基于分析和支持证据,联想和普遍化模块1050可使用现行的统计方法来估计一个可能的联想有意义的概率或可能性。这些发现了的可能的联想然后就可按估计的有意义的概率或可能性排序。在一个实现中,联想和普遍化模块1050进行基于知识的推理来发现从这样的联想可以得到什么结论,并把这样的推理呈现给用户。
从上述的描述可很明显地看到,人工智能化的用户助手1000可在概念、命题、关系等多层次上做出很大量的联想。它还可以把这些联想结果推广到第二级和第三级的联想,也就是搜索在和输入集(及它的普遍化、特殊化、归纳、推理)有了联系或联想的概念或命题之间的联系或联想。多数的联想可能是无意义的。对于那些缺乏来自于基于知识的、常识的推理和其他的文件的支持的联想,人工智能化的用户助手1000可以排除它们其中的一些,也可以给另一些很低的概率或排序。剩余的联想可以呈现给用户,按联想有意义的概率或可能性或其他测度排序,让用户检查、选择或作进一步的调查或结论。这个实现的目的是建议的一些联想可能使得一个用户认识或尝试在一些概念、模式、关系、命题之间的联系,而这种联系可能使用户一般想不到的联系。希望是人工智能化的用户助手1000探索了并建议给用户的这些联想中有一些会引导用户沿着一个可导致发明或创新的方向进一步探索。本发明是很有实用意义的,因为有了当今的高速处理器、宽带网络连接和大的数据储藏空间的组合,人工智能化的用户助手1000可以探索非常大量的信息和知识,制造和检验非常大量的联想,远远超过一个人所能在同一段时间(比如24小时或7天)所能做到的。而且人工智能化的用户助手1000能不知疲累地、保持集中力、不休息地工作,本发明的实用意义就更为明显了。
人工智能化的用户助手1000使用用户指定的文件或用户正在读或写的文件自动地执行它的功能。用户接口1010接受用户的输入和指示,或跟踪用户和计算机的交互,把人工智能化的用户助手1000的结果以各种不同的形式呈现给用户。在一种呈现其工作结果的形式里,人工智能化的用户助手1000将自动地在以文件中的相关的关键字、句子或段落上加上链接。这样的一个如此连接可能不是一个网址,而是一个分了类和排了序的网址和用户计算机上文件的目录。在另外的一个形式里,用户接口在用户正在读或写的文件的第一扇窗口边上打开第二扇窗口。链接可以自动地在第一扇窗口中显示,而第二扇窗口显示被分类和排序了的搜索和联想的结果。
当用户在第一扇窗口中点击一个链接时,分类和排序了的相关的搜索和联想结果在第二扇窗口中显示。点击在第二扇窗口里的一个项目可打开第三扇显示文件摘要或总结、联想的总结、或支持一个联想的推理或证据的总结。在读了摘要或总结后,如果用户有兴趣进一步探索,他可以点击以打开文件全文。另一种形式下,当用户点击一个在第二扇窗口中的链接是,第三扇窗口直接地显示相联接的文件的全文。用户接口1010可提供给用户可选的、给搜索或联想结果打分的功能。人工智能化的用户助手1000可使用用户给搜索和联想结果打的分来改善它的搜索和联想结果。类似前面描述的多因素用户可选排序方法,搜索和联想的结果也可以以多因素排序,用户可以选择使用哪一种排序方法,也可以用一个他自己定义的排序公式。
本发明将会为用户节省大量的时间。因为一个用户不再需要长时间的为等候下载或漫游网页而黏在一部计算机前面。本发明可以自动地按语意在概念和命题空间的各种不同层次上搜索、分析、摘要文件和网页。根据分析,本发明可以把用户最可能要看的网页和文件自动下载和存储起来,这样当用户要读它们时,它们立即可被显示。本发明搜索的范围更加宽广,探所的联想的范围也远远比一个用户可做到的广泛。本发明的摘要功能可使一个用户能很快地筛选很多的相关文件,扩充了用户筛选大量信息的能力。当用户在游玩或睡觉时,人工智能化的用户助手1000能帮助用户搜索、过滤、和联想。
上面所描述的人工智能化的用户助手是在用户的本地计算机上运行的。在另一个实现中,人工智能化的用户助手是以一个服务器-客户的模式实现的。一个服务器和用户的本地计算机共同合作地完成人工智能化的用户助手的功能。一个网络搜索和知识库的网络服务(Web Service)提供者可以在服务器上开发和维持高质量的、有人工编辑的领域定义和关系知识库及通用知识库,和适用于各种不同领域的推理算法。这些领域定义和关系知识库及通用知识库和推理算法可以是开放式的,具有学习能力,可以通过使用用户反馈来改善。服务器对在服务器上和在互联网上的文件和网页进行分类、排序和建立索引,它可以执行基于文件的搜索和总在进行的搜索实现500的部分功能,并执行联想和普遍化模块1050、命题和模式分析模块1060、文章抽象和摘要模块1030和数据分析模块1040的全部功能。在用户计算机上的人工智能化的助理控制器1020把所有网络搜索和知识库搜索都送到服务器执行,除非用户阻断把这些搜索送到服务器。服务器将进行语意搜索、命题和模式分析、抽象化和摘要的提取、探索和1020提供的输入集及它的普遍化、特别化、归纳和推理的联想,对结果进行分类和排序,并送回给人工智能化的助理控制器1020,并由用户接口1010把结果呈现给用户。
在一个实现中,甲服务器维持一个各种领域定义和关系知识库、通用知识库和专家系统的网络服务的链接的目录或清单。这个目录对其他的运行合格的领域定义和关系知识库、通用知识库和专家系统的计算机或服务器是开放的。甲服务器爬行搜索网上的运行合格的领域定义和关系知识库、通用知识库和专家系统的计算机或服务器,并在验证它们的资格后把它们包含在目录之中。一个计算机或服务器也可送请求给甲服务器请求被加到目录里。甲服务器在验证它的资格后把它包含在目录之中。甲服务器分析人工智能化的助理控制器1020送来的输入集及它的普遍化、特别化、归纳和推理。对于能够从外部的领域定义和关系知识库、通用知识库和专家系统受益的搜索、推论、分类、排序任务,甲服务器把它们编制成对这些知识库或专家系统的查,在它维持的领域定义和关系知识库、通用知识库和专家系统的网络服务的链接的目录或清单上找到运行合适的领域定义和关系知识库、通用知识库和专家系统的网络服务的计算机或服务器,并把这些查询送到这样找到的计算机或服务器去。甲服务器接收来自此计算机或服务器的答案,对这些答案进行编译和综合,并和甲服务器本身获得的结果相结合(如果甲服务器本身有结果的话),然后把结果显示给用户。
类似前面描述的实现,甲服务器给用户提供联想的支持证据和推理,提供多因素的、用户可选择的排序方法。这些结果可能使用在甲服务器上的信息获得的,或是服务器从其他的计算机或服务器获得的。在一个实现中,甲服务器把结果以摘要或详细信息的形式送给用户。详细信息可以一个报告的形式,并要求用户缴一个服务费才可以得到。为了避免用户等候报告的下载,报告可以自动地传送给用户,但报告是加密格式并有密码保护。当用户点击一个链接表示他想要读报告且同意缴费时,甲服务器将会送解密钥匙及[或]密码送给用户。如果他不愿读报告,用户就不需要缴费。费用可按每个报告付费或以一个定约的方式按期付费。若甲服务器是从另外一个乙计算机或服务器提供的服务获得了结果,甲服务器将会记录用户支付的费用适当部分作为应付给第二部计算机或服务器的拥有者。
虽然前文对本发明的一些优先的实现的陈述已经显示、描述、或举例说明了本发明的基本的创新特征或原理,但是读者应该理解那些对相关技术领域知识的人可以在不离开本发明的精神的情况下,对前面所描述的方法、元素、模块、器件的细节以及他们的应用作出各种不同的省略、替换或改变。因此,本发明的范围不应该被前文的描述所限制。相反地,本发明的原则可适用于在一个很大范围的方法、系统和器件,以取得前文描述的利益或好处,并可取得其他的利益或好处或满足其它的目的。因此,本发明的范围应该被本发明的权利要求定义。
权利要求
1.一种智能搜索方法,其特征在于,包括将存储在一个或多个存储器件的一个或多个文件的内容分类划分到一个或多个分类类别,并把分类划分的结果存储起来;接收用户提供的一个或多个搜索条件,在存储的分类划分的结果里搜索符合用户提供的一个或多个搜索条件的一个或多个文件;将符合用户提供的一个或多个搜索条件的一个或多个文件组织到一个甲分类类别集里,该甲分类类别集是所说的符合用户提供的一个或多个搜索条件的一个或多个文件所被划分入的分类类别的一个集合。
2.如权利要求1所述的智能搜索方法,其特征在于,进一步包括下列一项或多项所说的一个或多个文件分类划分到的分类类别集包括一个分类层次结构;所述的对划入一个分类类别集的文件产生一个类别名;将符合用户提供的一个或多个搜索条件的一个或多个文件组织到一个甲分类类别集里是在一个用户操作的处理机上运行的;显示甲分类类别集里类别的类别名或链接,且对一个用户选择多于一个分类类别的响应包括显示所有所选的分类类别的交集里的文件的名字或链接;将符合用户提供的一个或多个搜索条件的一个或多个文件组织到一个甲分类类别集里对甲分类类别集里的类别用基于一个或多个排序准则的排序公式进行排序;甲分类类别集有允许用户修改所说的排序准则或公式的用户接口;显示甲分类类别集里类别的类别名或链接,和排序最高的分类类别里的文件的名字或链接。
3.一种智能搜索排序方法,其特征在于,包括计算一个符合一个或多个搜索条件的甲文件集里的文件在一个或多个加权的排序准则上的排序;提供一个用户接口让用户选择一个对一或多个加权的排序准则的加权向量;并用此用户选择的加权向量对甲文件集里的文件进行排序。
4.如权利要求3所述的智能搜索排序方法,其特征在于,进一步包括下列一项或多项所说的用户选择的加权向量对甲文件集里的文件进行排序是在一个用户操作的处理机上运行的;还包括提供一个用户接口允许用户定义一个新的排序准则;还包括提供一个以上的预先定义好的加权向量让用户选择;包括提供一个用户接口允许用户组合两个以上预先定义好的加权向量以产生一个新的加权向量。
5.一种智能搜索方法,其特征在于,包括接受一个用户提供的对一个搜索的描述;分析此描述并产生一个或多个代表此搜索的准则;用如此产生的一个或多个代表此搜索的准则以改进搜索结果和用户的搜索意图的匹配。
6.如权利要求5所述的智能搜索方法,其特征在于,进一步包括下列一项或多项用户提供的对一个搜索的描述包括一个或多个关键字,分析此描述并产生一个或多个代表此搜索的准则包括产生和用户提供的一个或多个关键字相关的一个或多个附加的关键字,进一步包括使用用户提供的一个或多个关键字和产生的一个或多个附加的关键字一起进行搜索,以改进搜索结果和用户的搜索意图的匹配;用户提供的对一个搜索的描述包括一个或多个关键字和对用户的搜索目的的描述,进一步包括使用从对用户的搜索目的的描述产生的、代表用户的搜索目的一个或多个准则对包含用户提供的一个或多个关键字的搜索结果进行过滤或排序;进一步包括提供一个搜索目的的清单,使得用户可以通过选择搜索目的的清单里的一个或多项来提供用户对搜索目的的描述;进一步包括响应于用户选择搜索目的的清单里的两项以上,将搜索结果分类到满足用户选择搜索目的的清单里的项的类别里;用户提供的对一个搜索的描述包括用户对要搜索的信息用自然语言的描述,分析此描述并产生一个或多个代表此搜索的准则包括产生一个或多个关键字,并用产生的一个或多个关键字进行搜索;用户提供的对一个搜索的描述包括一个或多个关键字和对用户对不同搜索结果的喜恶的描述,分析此描述并产生一个或多个代表用户对不同搜索结果的喜恶的准则,并用此准则对包含用户提供的一个或多个关键字的搜索结果进行过滤或排序。
7.一种智能搜索方法,其特征在于,包括从指定的在一部或多部处理机上的至少一个文件里提取一个或多个搜索元素;使用此提取的一个或多个搜索元素产生一个或多个搜索请求;把产生的一个或多个搜索请求送交给一个搜索程序,并接收此搜索程序送回的搜索结果。
8.如权利要求7所述的智能搜索方法,其特征在于,进一步包括下列一项或多项一个搜索元素包括下列一个或多个关键字文件的特征、文件的分类类别,搜索的目的或对不同搜索结果的喜恶的描述;包括响应于一个用户用一个应用程序看、写、编辑、或处理一个文件时,指定此文件,并从此文件产生一个或多个搜索请求;进一步包括在下列一个或多个条件成立时,显示与所说的至少一个指定文件里提取的一个搜索元素相关的搜索结果当接收到搜索程序送回的和所说的搜索元素相关的搜索结果;当此文件里的此搜索元素显示在一个应用程序的窗口里;当用户在此文件里选择此搜索元素;进一步包括把一或多个超链接和一个搜索元素或搜索元素的结合相结合,响应于一个用户使用一个输入器件选择一个此超链接,显示和此搜索元素或搜索元素的结合相关的搜索结果;进一步包括对搜索结果进行下列的一个或多个处理过滤,分类,排序,提取搜索结果的摘要或总结;一个或多个搜索请求包括进行下列的一个或多个搜索在一个或多个指定信息源里的文件里搜索,在一个最近文档的文件夹里的文件或链接的文件里搜索,在网络浏览器的历史纪录或喜好夹里所列的或相链接的文件里搜索;进一步包括产生重复的搜索请求;把所产生的请求在一段时间里按一个时间安排送交给一个搜索程序;从此搜索程序接收搜索结果;进一步包括探测以前一次搜索结果和后来一次搜索结果之间的改变,并在探测到改变时通知用户;探测以前一次搜索结果和后来一次搜索结果之间的改变进一步包括比较一个从以前一次搜索结果计算的数字摘要和一个从后来一次搜索结果计算的数字摘要;重复的搜索请求包括搜索一组指定的信息源的搜索请求,并进一步包括探测在此一组指定的信息源里的信息的改变;进一步包括响应于用户使用一个输入器件指定一个文件,从用户如此指定的文件产生一个或多个搜索请求,在一个用户操作的处理机上运行一个搜索程序去搜索和此处理机相连通的一个或多个存储器里存储的文件来执行如此产生的搜索请求,并显示搜索程序基于如此产生的搜索请求找到的文件的名称或链接。
9.一个智能搜索的命题处理方法,其特征在于,包括从一个或多个信息体里提取一个甲论断或命题;将甲论断或命题普遍化扩展到含有一个或多个普遍化论断或命题的集合,此集合里的普遍化论断或命题和甲论断或命题且甲论断或命题是此集合的成员之一;基于此集合里的一个或多个普遍化论断或命题,处理此信息体里的文字信息。
10.如权利要求9所述的智能搜索的命题处理方法,其特征在于,进一步包括下列一项或多项一个信息体包括下列中的一个或多项在一个存储器里的一个文件,用户提供的输入,一个数据库,一个程序,一个或一组用户在一段时间里的行为的纪录,用户正在读、写或编辑的一个文件,用户最近读、写或编辑过的一个文件;将甲论断或命题普遍化包括将甲论断或命题中至少一部分用一个可以代表此部分的一个予以的描述来替换;处理此一个或多个信息体里的文字信息包括下列中的一个或多项对此文字信息或此信息体进行分类或排序,决定一个普遍化论断或命题是否和另一个论断或命题有关系,将一个甲普遍化论断或命题送交到一个搜索程序以寻找一个或多个含有一个乙普遍化论断或命题的文件,此乙普遍化论断或命题和此甲普遍化论断或命题有相关关系。
11.一个智能搜索文件链接方法,包括分析一个或多个存储器里的内容;在此一个或多个存储器里的内容里认定有相关关系的文件;在有相关关系的文件之间建立并记录链接;当一个文件被选或被在一个应用窗口里打开时,显示和此文件有关系的文件的链接。
12.如权利要求11所述的智能搜索文件链接方法,其特征在于,进一步包括下列一项或多项认定有相关关系的文件包括认定两个文件为有相关关系如果两个文件含有相同或相似的关键字、概念、论断、命题、模式,或两个文件都和同一个交易、事件或项目相关,或两个文件都在同一个时间段里被产生、浏览、编辑,或两个文件都是由同一个作者或由相关的人建立。
13.一个智能搜索方法,其特征在于,包括提供一个用户接口以接收一个用户提供的对一个搜索的描述和一个或多个文件链接的列表,此一个或多个文件链接的列表包括下列一个或多项一个网络浏览器的历史纪录里文件的链接的集合,一个网络浏览器的喜好夹里文件的链接的集合;一个最近文档的文件夹里的文件链接的集合,一组指定的文件夹里的文件链接的列表;获取搜索结果,此搜索结果包括在此一个或多个文件链接的列表所链接的文件集合里寻找含有和用户提供的对搜索的描述相关的内容的文件得到的。
14.如权利要求13所述的智能搜索方法,其特征在于,进一步包括下列一项或多项提供一个用户接口让用户选择包括哪一个或一些文件链接的列表;提供一个用户接口让用户定义一个文件链接的列表;提供一个用户接口让用户选择、使用在网络上的另外一部或多部处理器上的一个或多个文件链接的列表;采取或下载此一个或多个文件链接的列表里所链接的文件,并在一部用户操作的处理机上运行搜索以在此一个或多个文件链接的列表所链接的文件集合里寻找含有和用户提供的对搜索的描述相关的信息的文件;将从一个文件链接的列表所链接的文件集合里获得的搜索结果组织到为这个文件链接的列表设置的一个分类类别里。
15.一个智能搜索文件的组织方法,其特征在于,包括在已有文件夹组织结构的文件系统里,基于文件间的一个或多个关系,建立至少一个关系组织结构以对一或多部处理机上的多个文件进行组织;提供一个用户接口让用户从一个组织结构集合里选择一个或多个组织结构,此组织结构集合包括上述至少一个关系组织结构和文件夹组织结构;提供在如此选择的一个或多个组织结构里定位或找到一个文件的一个或多个途径。
16.如权利要求15所述的智能搜索文件的组织方法,其特征在于,进一步包括下列一项或多项其至少一个关系组织结构包括下列一个或多项基于此多个文件的一个或多个特征的一个系统层次分类结构,基于此多个文件的内容的一个系统层次分类结构,基于此多个文件之间的链接的网状结构,基于此多个文件的一个或多个特征的一个集合归属关系的结构,基于此多个文件之间的一个或多个逻辑、统计、时间、存储的地方关系的一个结构;进一步包括基于一个或多个加权排序准则对此至少一个关系组织结构里的一个子集的文件进行排序;提供一个用户接口让用户选择一个对一个或多个加权的排序准则的加权向量;用此用户选择的加权向量对此集里的文件进行排序;进一步还包括当一个用户选择一个甲组织结构和一个乙组织结构时,对文件首先以甲组织结构进行组织,然后在甲组织结构的一个子集或分类类别或节点里,再将文件以乙组织结构进行组织;此多个文件包括下列一个或多项存储在一个或多个硬盘上的文件;一个网络浏览器的历史纪录里的文件或链接的文件;一个最近文档的文件夹里的文件或链接的文件;一组指定的文件夹里的文件或链接的文件;一组指定类型的文件;一组含有一个或多项指定的信息的文件;和一组具备一个或多项指定的特征的文件。
17.一种文件组织方法,其特征在于,包括观察在一部或多部处理机上在一段时间里的一个或多个应用或一个或多个用户的行为或工作或信息采取;基于此分析,进行下列一项或多项建立一个在这段时间里一个或多个用户的行为或工作或信息采取的总结;基于至少一个关系组织结构,对在这段时间里和所说的一个或多个应用有关联的信息体或信息体里含的信息、或和所说的一个或多个用户工作过或采取过的信息体或信息体里含的信息进行组织;对在这段时间里和所说的一个或多个应用有关联的信息体或信息体里含的信息、或所说的一个或多个用户工作过或采取过的信息体或信息体里含的信息建立索引;提供一个用户接口让用户搜索在这段时间里和所说的一个或多个应用有关联的信息体或信息体里含的信息、或所说的一个或多个用户工作过或采取过的信息体或信息体里含的信息;建立并记录在一个信息或信息体和另一个信息或信息体之间的一个链接。
18.如权利要求17所述的文件组织方法,其特征在于,进一步包括下列一项或多项进一步包括提供一个用户接口让用户选择观察在一部或多部处理机上的哪些应用、用户行为或工作或信息采取;进一步包括下列一项或多项所说的信息体包括一个或多个文件、网页、电子邮件、数据库、和数据库里的项目;所说的至少一个关系组织结构包括基于所说的信息体里含的信息对此信息或含此信息的信息体进行分类或分组;所说的至少一个关系组织结构包括建立一个或多个联系组或电子邮件地址组,并将一个联系名或电子邮件地址划分到一个联系组或电子邮件地址组,如果与此一个联系名或电子邮件地址相关的电子邮件或文件和与此联系组或电子邮件地址组里其他一个或多个联系名或电子邮件地址相关的电子邮件或文件是相关的;所说的对有关的信息体或信息体里含的信息建立索引包括对所说的一个或多个用户送出或接收的一个或多个电子邮件、或所说的一个或多个用户访问过或工作过的网页建立索引;所说的提供一个用户接口让用户搜索有关的信息体或信息体里含的信息包括提供一个用户接口让用户搜索所说的一个或多个用户送出或接收的一个或多个电子邮件、或所说的一个或多个用户访问过或工作过的网页;所说的建立并记录在一个信息或信息体和另一个信息或信息体之间的一个链接包括下列一项或多项若一个甲文件和另一个乙文件有关、或和个人信息管理应用程序的联系库里至少一个联系项或一个联系名有关,则在甲文件和乙文件或此个人信息管理应用程序的联系库里至少一个联系项或联系名之间建立和记录一个链接;若一个文件和至少一个电子邮件有关,则在此文件和此至少一个电子邮件之间建立和记录一个链接;若一个文件和一个任务或项目管理应用里至少一个任务或项目有关,则在此文件和此至少一个任务或项目之间建立和记录一个链接;进一步包括若下列一项或多项成立则认定一个文件是和个人信息管理应用程序的联系库里至少一个联系项或联系名有关此文件通过电子邮件送给过此至少一个联系项或联系名;此文件曾通过电子邮件从此至少一个联系项或联系名接收过;此至少一个联系项或联系名是此文件的作者;此文件里含有此至少一个联系项或联系名的名称;进一步包括下列一项或多项若一个文件是一个电子邮件的附件,或一个文件和一个电子邮件含有相关的内容,则认定此文件和此电子邮件有关;若一个任务或项目提到一个文件,或一个文件和一个任务或项目的描述含有相关的内容,则认定此文件和此任务或项目有关;进一步包括提供一个用户接口让用户完成下列一项或多项提取和一个文件里或一个联系库里的一个联系项或联系名有链接的文件;提取和一个文件有链接的联系库里的联系项或联系名;提取和一个电子邮件有链接的文件;提取和一个文件有链接的电子邮件;提取和一个任务或项目有链接的文件;提取和一个文件有链接的任务或项目。
19.一种联想方法,其特征在于,包括从一个信息体提取一个或多个甲联想元素;寻找一个或多个乙联想元素;验证在一个或多个甲联想元素和一个或多个乙联想元素之间是否有相关联系。
20.如权利要求19所述的联想方法,其特征在于,进一步包括下列一项或多项一个联想元素包括下列一项或多项一个关键字;一组关键字;一个概念;一个命题;一个论断;一个文字描述,和一个信息体包括下列一项或多项在一个存储器里的一个文件,用户提供的输入,一个数据库,一个程序,一个或一组用户在一段时间里的行为的纪录,用户正在读、写或编辑的一个文件,用户最近读、写或编辑过的一个文件;寻找一个或多个乙联想元素,且验证在一个或多个甲联想元素和一个或多个乙联想元素之间有相关联系包括下列一项或多项在一个知识表达结构里顺沿至少一个关系连接或至少一个推理步骤找到乙联想元素,并将甲联想元素和乙联想元素连接起来;跳跃到一个知识表达结构里的一部分,此部分含有乙联想元素,且甲联想元素和乙联想元素具有相关的性质;在一部或多部处理机上搜索至少一个文件,此文件含有乙联想元素,且甲联想元素和乙联想元素具有相关的性质或出现在相关的上下文里;在至少一个用户或一组用户在一段时间里的行为、网上浏览、搜索历史的记录里,搜索甲联想元素和乙联想元素的共同出现;进一步包括对一或多对甲联想元素和乙联想元素之间的联想进行排序;进一步包括提供一个用户接口让用户选择或定义一个排序的方法;进一步包括寻找一个或多个丙联想元素,并通过递推关系或递推推理来验证在一个或多个甲联想元素、一个或多个乙联想元素和一个或多个丙联想元素之间是否有相关联系;进一步包括使用一个目录单列出可用于验证在一个或多个甲联想元素和一个或多个乙联想元素之间是否有相关联系的信息源;将一或多个甲联想元素和一个或多个乙联想元素送交到此目录单所列的一个或多个信息源;接收从此一个或多个信息源送回的可有助于验证在此一个或多个甲联想元素和此一个或多个乙联想元素之间是否有相关联系的信息;进一步包括使用一个目录单列出可用于验证在一个或多个甲联想元素和一个或多个乙联想元素之间是否有相关联系的信息源;将一个或多个甲联想元素送交到此目录单所列的一个或多个信息源;接收从此一个或多个信息源送回的一个或多个乙联想元素和有助于验证在此一个或多个甲联想元素和此一个或多个乙联想元素之间是否有相关联系的信息。
全文摘要
本发明公开了一种全新的关于信息检索、组织和使用的智能搜索、智能文件系统和自动智能助手的方法。能够进行人工智能化信息提取、监视和联想,以协助用户对互联网网络和本地计算机的特大数量信息数据进行信息收集及数据处理,以便改进检索质量,达到精确搜索效果。本发明的方法可以把网上的上万到上百万个文件压缩到十几个到几十个重要概念,使得用户不必一个一个文件的阅读一下就可以抓到这些文件的实质,提取这些文件中所含的最具有创见的概念,还提供了经智能搜索后对检索结果的处理方法。本发明形成的产品将应用于企业管理和规划,市场研究,科学研究,技术开发,中高等教育,军事,国家安全,外交等领域。
文档编号G06F7/00GK1716244SQ200410073518
公开日2006年1月4日 申请日期2004年12月28日 优先权日2003年12月29日
发明者梁平 申请人:西安迪戈科技有限责任公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1