一种建立向互联网用户推荐数据内容服务的方法

文档序号:7709252阅读:512来源:国知局
专利名称:一种建立向互联网用户推荐数据内容服务的方法
技术领域
本发明属于互联网中分布式技术、信息检索技术以及人类行为学等方面综合应 用。其中包括大规模分布式系统的建立,并在这样的系统中进行数据发布、搜索和访问的基 本方式,以及利用人类在社会网络中的行为模式进行数据扩散的方法。
背景技术
当前主要互联网搜索技术都是基于一个中心服务器1来建立的。其中心服务器 中有一个网络遍历系统;它不断沿着互联网数据系统间的超级链接2将远程数据取到本 地;这个工作一直在按照固定的周期运转,从而获得新数据;如果远程数据进行了更新,必 须调整周期,尽量使取到本地的数据能尽量和远程数据保持一致1并减小本地和远程的 计算压力。在数据传到本地后,系统会按照事先规定好的方式对其进行索引从而提高数据 的查询效率。上述的工作也是周期性地进行以保证新数据或者更新数据的查询效率。当 用户需要对互联网进行搜索时,用户的请求会从多个客户端传送到保存有上述数据的服务 器。这样就形成了一个所谓中心结构的搜索系统。服务器在获得用户的请求后,立即开始 在建立了索引的系统上进行查询;一旦获取查询结果就将其返回给远程用户。当这样一个 系统大到某个规模时,系统会忙于应付大量搜索请求。在上述框架下实现的互联网搜索系统具有设计简单、管理代价小和一致性维护方 便等优点1。但同时这样的系统也存在一些不足。其中之一就是除非用户主动请求,否则 系统不会向分散的用户主动发送任何数据;这一方面是由于系统过于繁忙,另一方面是很 难判断用户的需求。在这样的系统中,索引、查询以及排序等这些算法会主导整个系统的搜 索结果以及用户相应的感受。为了解决上述问题,一些改进方案被提出。这些解决方法主要是针对提高系统计 算能力1以及分析用户需求3而提出的。比如,使用高性能的集群算法,从而保证对用 户请求即时响应,并在可能的前提下主动向用户发送数据。但这样做是以提高投入成本为 代价的。分析用户的需求是难度很高的工作,这甚至涉及到计算机科学极限以及伦理学等 深刻问题。一般情况下,一个计算系统只能在严格前提条件限制下做有限的工作。比如,设 置用户访问历史记录,根据某些可能的算法对用户倾向做出相对合理的猜测。但这样的方 法准确率低,尤其对一个通用搜索系统来说更难以适用。另外,基于中心结构的搜索系统严重依赖机器算法对文本的分析。现实中,一些搜 索算法对一些数据是无法处理的,如图片、音频以及视频等。当索引时,如果没有相应的文 字说明,基本无法进行。这样,对这些数据的搜索效果会远远弱于基于文本的数据。为解决 这个问题,一般要求数据发布者在发布这些数据时尽量提供充分的文字解释,甚至是主动 选出关键字。这为用户带来许多额外负担。最后,即使针对文本数据,现在的机器算法也远 未完善。因此,语义网3的概念被提出,试图通过在系统中储备足够丰富知识体系,作为 查询数据的有力提示。但这种方法严重受限于知识表达技术4的欠缺以及庞大数据量带 来的计算压力和管理代价。一般这样的方法只适用于特定领域,对一个通用系统很难提供支持。图1表示了中心结构的搜索机制。

发明内容
本发明提出了在大规模非中心互联网环境下利用人类智能进行有效搜索的解决 方案。在这个方案的支持下,用户会获得更加准确的搜索结果,同时达到在即使没有主动发 出搜索请求时获得符合用户需求的推荐数据。本发明是通过以下技术手段实现发明目的的第一步,建立大规模对等分布式互联网系统。在这样的计算环境中,不存在处于中 心地位的计算节点,即服务器;计算都分散在每个加入系统的个人计算设备上,这里主要指 的是个人计算机,也可以包括其他联入互联网并独立工作的计算设备;同时,这样的环境还 要求有足够大的规模,来保证充分的计算能力和形成有价值的人类行为。由于这个环境不 是中心结构,这大大降低了建立系统所需的硬件成本。但因为主要的计算资源都来自于加 入系统的个人计算设备,当所拥有的个人计算设备数量大时,这个系统必须对分散的计算 资源做出有效管理;这加大了软件设计的成本。所谓对等,指的是系统中任何两个节点间处 于平等的计算地位,其相互间可以互为对方提供服务,每个节点既可以作为服务的请求者, 也可以作为服务的提供者。这和现有互联网系统中绝大多数个人计算设备处于服务请求 者、少数服务器作为服务提供者形成对照。最后,由于这样的系统需要在互联网上运行,必 须采用互联网上通用的通信协议,即TCP/IP59。第二步,建立高效计算集群。在具备了大规模对等分布式互联网环境后,另一个 关键问题就是采用适当的算法有效利用计算资源。通常在这样的系统中,计算资源的总和 要远远大于基于中心结构的计算系统。但如果没有适合的方式组织这些处于分散状态的 资源,这样系统表现出来的计算能力甚至会弱于中心结构的系统。本发明采取了建立高效 集群的办法将这些分散计算资源组织成一个个集群,在每个集群中计算资源会得到充分共 享,从而完成相应的计算。需要注意的一点是,由于每个节点都是由每个用户来控制,这样 的集群处于高动态变化当中,即每个节点随时都可能加入、也随时可能离开。这为建立高效 计算集群带来困难。本发明采用了在复杂网络系统6中数据复制1、网状多播机制7、 动态筛选节点7以及基于复杂网络理论6的路由算法8等手段来保证集群的高效运 行。第三步,建立合理的数据管理形式。本发明主要用于提供新的搜索能力,因此必须 针对大规模对等系统的特点,建立合理的数据管理形式。在本发明中,将不同的数据格式根 据表达的意义由用户组织起来形成一个数据单元。无论在发布、存贮、传输以及展示过程 中,都以这样的数据单元作为基本单位。其次,作为一个非中心结构的系统,要求对每个节 点上的数据进行索引,以应付查询请求。对于非中心结构系统,数据的一致性维护会相对困 难。但由于对等系统的特点,数据发生变化后节点之间可以主动通信,使得一致性维护要比 当前互联网系统要好。本地索引要尽量即时反应数据的动态变化。最后,在成本投入允许 的前提下,建立一个索引服务器会对这个非中心系统的搜索起到有效的辅助作用。这要求 每个计算节点在数据更新时,主动将更新数据的索引发布到这个服务器上。由于这个服务 器只是处于辅助作用,其计算代价以及硬件成本要远远小于一个纯粹中心结构的系统。第四步,建立社会网络系统。除了使用非中心对等结构等技术建立互联网环境外,在本发明中也运用了人类互联网社会学方面的研究成果8。通过对人类智能在大规模分 布式系统中的转换,为计算系统提供机器算法无法达到的能力。本发明为用户提供了方便 的接口从而保证社会网络系统的建立。第五步,建立基于社会网络系统的搜索机制。社会网络系统是一个非计算领域的 概念,它实质上是人类智慧在计算系统中的一个直接对应。本发明和传统系统不同之处除 了打破中心结构的局限而在更广泛而开放的环境中建立搜索机制外,还有就是大量用户便 捷地参与到搜索计算当中来每个用户既是搜索的请求者,同时在系统的支持下也是搜索 服务的提供者。在这个社会网络系统中,用户的主要行为可分为三类发布、搜索和访问。 当一个用户发布数据时,此数据会被发布到由其指定的群6中。对于群中用户来说,相当 于在没有发出搜索请求的情况下获得了数据。当一个用户搜索数据的时候,其搜索结果会 被复制到社会网络中搜索路径所经过的所有节点。对于这些节点上的用户来说,也相当于 在没有提出搜索请求的情况下获得了推荐数据。当一个用户访问另一个用户个人计算设备 上的数据时,根据社会网络中节点之间的联系特征,也可以很方便地找到一些有关节点,并 且把被访问数据复制到这些节点上。这样就形成了推荐互联网数据内容的效果。图2表示 了本发明的推荐搜索机制。本发明的积极效果为本发明通过在互联网应用中建立推荐系统,使得互联网基本应用更加智能化,为 用户使用互联网提供了更满意的体验,也为互联网作为信息传播和分享系统充分发挥其作 用提供了重要支持。


图1、中心结构的搜索机制;图2、推荐搜索机制。
具体实施例方式第一步,利用帐户管理机制为每个用户分配一个唯一标识。由于当前互联网IP地 址资源有限、不可能为每个互联网节点都分配一个IP地址,在大规模对等分布式系统中必 须为每个节点分配一个唯一标识。这可以通过设置帐户管理服务器来完成;用户登陆时必 须通过这个服务器的验证。用户之间可以通过这个唯一标识来联系和识别。第二步,通过TCP/IP协议以及相关穿透技术,建立个人计算设备之间通信解决方 案。在当前的互联网中,个人计算设备是不能直接通信的。所谓直接通信指的是任意两台 个人计算设备通过TCP5或者UDP9建立连接,并彼此交换数据。当前的互联网是基 于中心结构的分布式系统,又可以称作基于纯粹客户端服务器模式的互联网,这导致这个 系统是一个不对等系统。同时,由于IP地址资源10的限制和局域网安全10的考虑, 在互联网上形成了很多访问屏障。这些因素造成了任意两台个人计算设备只能通过访问服 务器间接联系。而由于个人计算设备规模庞大、服务器计算能力限制、网络带宽限制以及数 据资源不断向多媒体演进,服务器承载能力成为制约个人计算设备间联系瓶颈。与此同时, 个人计算设备计算能力以及拥有的带宽在不断增长,这使得实现个人计算设备之间独立通 信成为可能。根据互联网中个人计算设备所处网络情况10的不同,个人计算设备之间的通信方式有多种不同情况。针对这些情况的实现步骤如下。1)在局域网内直接利用TCP或UDP通信。这是一种质量最高最简便的连接情况。 两个节点同处于同一局域网内,每个节点在局域网内都支持高带宽,再加上其间不会经过 复杂的网络环境,这种连接效果很好。要建立这样的连接,一般需要各个节点首先和一个专 门设置的服务器建立连接,并保持这个连接处于活动状态,这个服务器要求具备公开可访 问IP地址;一般称为中继服务器。这个连接只需要利用基本TCP/IP提供的接口59
就可以完成。一旦这样的连接完成,中继服务器会获得各个节点外部IP地址和其局域网内 部IP地址。对不处于局域网内部的节点,这两个IP地址会相同。如果其中两个节点需要 建立连接,中继服务器首先把彼此的局域网内部地址通知对方,试图让它们通过这个地址 来联系。假设这个地址能连接成功,说明这两个节点处于同一局域网内,其间的连接状况会 保持高效率,并且不再需要中继服务器干预它们的连接。如果使用局域网内部IP地址不成 功,说明这两个节点处于不同局域网中,需要通过别的方式来解决其连接问题。2)对于存在公开可访问IP地址的情况,可以使用直接通信建立连接。其实两个节 点不处于同一局域网内,并不意味着它们之间不能通过基本TCP/IP提供的接口进行联系。 当两个节点都具备公开可访问IP地址时。他们之间的联系也很方便。当尝试在局域网内 通信失败后进行,中继服务器把二者的外部IP地址转交给对方,让二者再尝试建立连接。 这种情况和局域网内通信有相似之处,都只需要利用TCP/IP提供的接口就可完成;并且连 接建立后,他们无需中继服务器支持。还有一种情况和上述两种不同,就是一个节点具备公 开可访问IP地址,而另一个节点不具备这样的IP地址(一般这个节点处于一个局域网内 部)。这样,后者可以通过TCP/IP接口主动连接前者,而前者却无法主动连接后者,只能被 动等待前者发出任意请求后进行回应(这是一般局域网管理设备的规定10)。当前者需 要主动连接后者时,必须做一个变通。具备公开可访问的节点首先向中继服务器联系;中继 服务器再通知那个局域网内部的节点;此节点在获得这个通知后,向主动方发一个随意消 息;主动方接到消息后就可以正式发出自己的请求或其他数据,并且只要这个连接不中断, 不再需要中继服务器的支持。3)当需要建立连接的节点分别处于不同局域网内部时,使用穿透通信建立连接。 相对于上述连接情况,这是一种复杂的通信,即上述尝试全部失效。这个情况通常发生在要 求连接的两个节点都处于不同局域网内,都不具备公开可访问IP地址。这时可以利用局域 网管理设备允许回应进入局域网内部节点这个特征来进行穿透通信。假设处于上述情形的 两个节点之一要主动向另外一个节点发送数据。主动方首先通知中继服务器它需要和被动 方建立连接并获得被动方的外部IP地址。中继服务器在得到这个通知后,立刻通知被动方 通过主动方的外部IP地址和主动方联系。在确认被动方已经向主动方发出请求后,中继服 务器必须尽快告知主动方以避免过长的延迟使得被动方所处局域网管理设备取消连接会 话59。主动方在得知被动方已经向自己发出请求后,可以立刻向被动方发出所需数 据。由于局域网管理设备允许回应进入局域网内部节点,这时主动方发出的数据会被当作 回应而让被动方收到。这样就完成了所谓穿透通信。4)当穿透失效时,可利用间接通信建立连接。穿透通信并不是在任何时候都有效。 某些安全性高的局域网管理设备会为每次从其内部发出连接请求的节点重新分配IP地址 (通常是变更端口号)。这样主动方从中继服务器上获得的外部IP地址并不是被动方当前地址,穿透通信就不能进行。在这种情况下,都不具备公开可访问IP地址的节点只能通过 公开可访问的节点间接建立联系,这个公开可访问节点工作方式类似中继服务器。第三步,在个人计算设备之间建立多播系统。在一个非中心结构分布式系统中,要 求有高质量的多播机制以确保加入系统的节点之间能够保持相关联的状态一致,以进行高 质量集群计算。但要把很多在不同用户控制下的计算设备组织起来,一个优秀的多播算法 除了面对互联网本身的高动态特征外,还要面对大量用户不同的行为模式给系统带来的动 态变化。本发明中采取了改进的BT算法7来完成个人计算设备之间的多播。BT算法的 一些基本步骤如下。1)建立网状拓扑结构。在一个高动态的互联网环境中,一些常用拓扑结构变得无 法适应,例如树型和森林型。在这些结构中,要付出高昂代价来维护树和森林中节点加入和 退出。要做这些维护,一般需要对整个树或者森林动态变化有全面了解;因此,不得不使用 一个中心节点来负责,这也降低了系统的伸缩性。同时,由于树和森林的特征,导致每个节 点只能从唯一一个节点获取数据,这很难保证节点下载带宽被充分利用。鉴于这些问题, BT算法中提出了网状拓扑结构,即任意节点和其他节点联系是通过自身下载带宽是否充分 利用来决定,而不是根据预先定义的结构来决定。这样,每个节点一般会和多个节点建立连 接,并从多个节点上获得数据;与此同时,每个节点也会向上述多个节点上载数据。其连接 个数决定于一个节点所拥有的带宽以及每个连接所占用的带宽。在这样的机制下,每个节 点自己决定和其他节点建立连接,不需要一个中心节点的控制,提高了系统的容错能力和 伸缩性。另外每个节点的数据来自于多个节点,带宽利用率会提高。当发生节点加入和退 出情况时,由于多个连接的存在,不会对相关节点造成很大影响;整个系统也不会因此而进 行大的调整。这种结构的缺陷对参与多播的结点数有要求,不能过低,否则无法建立可实际 运行高质量的网络拓扑结构。2)根据互惠原则进行动态节点选择。由于大规模对等互联网的动态特征,节点之 间的连接并不是稳定不变的。每个节点都需要周期性地检测当前连接的质量,以淘汰那些 对其贡献有限的节点。互惠原则是淘汰节点时所要遵循的,即一个节点从某个节点下载所 获得的数据要和其上载给该节点的数据量相当;当这两个数据差距大,贡献少或者上载少 的一方可能会被阻塞,并在没有改善的情况下最终导致替换为其他节点。3)基于最大化并行节点之间合作效果的原则进行片段选择。当一个节点从多个 连接上获得数据时,节点处于一个并行合作的状态。并行合作会导致多播系统效率的显著 提高。但要维持这样的并行合作,需要对传输数据的选择做一些限定,以保证这些合作节点 在传输结束前能尽量保持差异性。所谓差异性指的是每个节点上所拥有的数据和别的节点 不同,这样节点之间相互合作才有可能。要达到上述目的,首先要把传输的数据分成多个片 段;其次,在合作过程中选择相互间最缺少的片段优先下载。这样会减少相对稀少片段的丢 失,同时每个节点的差异性也得到保持。4)基于上述原则形成基于数据共享的计算集群。在大规模对等互联网中,计算发 生在非集中控制的节点上。在这样的节点上形成高性能集群成为提高整个系统计算能力的 前提。由于互联网主要作用就是数据共享,前面所述节点选择和片段选择方法解决了在大 规模高动态情况下的高效数据分发问题,实际上也就形成了在互联网上有意义的高性能计 算集群。
第四步,利用社会科学规律在大规模非中心互联网中建立群并形成社会网络系 统。这里的群完全是社会科学的意义或者说是人类互联网行为学和心理学等方面的概念。 人类在互联网上主要行为按照对数据的存取特征可分为发布、搜索和访问三类。发布指的 是某个用户主动向系统中发送自己的数据。搜索指的是某个用户向系统发出请求以获得 其所需要的数据。访问则指用户根据特定的地址直接获取位于该地址对应的数据。无论属 于何种性质的行为都会发生在特定人群当中;这是人类文化、信仰、生活习惯、教育和语言 等多方面因素所决定的11。这样就有必要在符合用户意愿的前提下,把用户分成不同的 群。这个群的建立可以由系统首先做一个粗略划分,比如政治、经济、军事和体育等;同时允 许用户在这样的划分之下进行更细致的建群工作。用户可以任意建立自己所喜好的群并通 过各种社会化方式招揽用户;用户也可以根据自己的喜好任意加入或退出某个群。由于对 等互联网具备强伸缩性的特征,系统规模在无限扩大的同时不会受限,从而逐渐形成一个 社会网络系统6。一个社会网络系统具备复杂网络的基本特征,即小世界性6和幂律 性6。当用户在互联网上的行为发生在这样的网络环境中时,计算资源的组织会有其特殊 的方式和策略11;本发明借助这个环境最终形成所要达到的目的,即向用户推荐数据内 容。需要进一步强调的是,社会网络系统完全是社会科学意义上的概念在计算科学上的对 应。它体现的是人类智慧。人类在这个网络上的行为,如发布、搜索和访问,由于计算系统 的支持成为除计算资源之外另一种宝贵资源。对这种资源的利用,必然会形成崭新的智能 系统。第五步,在基于互联网社会网络基础上建立大规模非中心互联网搜索系统。要建 立一个高质量的大规模非中心互联网搜索系统涉及很多技术环节和知识。本发明基于对对 等互联网的认识,提出了一个简单模型。其基本做法讨论如下。1)将个人计算设备上用户在互联网上的各种行为获得的数据作为待搜索数据。和 当前系统不同,所有待搜索数据都来自于加入系统的每台个人计算设备。这些数据可以是 用户发布的数据,可能是用户搜索请求而从其他节点所获得的数据,还可能是它直接访问 某个节点而获得的数据。此外,在本系统中还有可能是系统复制到该节点上的数据。这些 数据进一步形成了有待搜索的新数据。当然,本系统允许用户对这些数据做其想做的任何 工作,如修改和删除等。2)在每个节点上建立索引形成非中心索引。基于数据都来源于每个节点而非集中 于一个中心结构的服务器,系统要求在每个节点上建立索引以提高搜索效率和智能。这个 索引是本发明所依赖的核心模块。系统要求对其进行定时更新,以跟踪节点上数据的变化。3)通过额外设立服务器建立辅助中心索引。由于非中心系统具有高动态特征,在 成本允许的前提下,还可以建立额外中心索引系统。但这个中心索引只是起到辅助作用,而 非当前系统中的核心作用。这个中心服务器的建立也和传统系统不同,首先它不保存数据, 而只有索引。这样可以减少中心服务器的工作负担和成本。其次,除了保存索引外,中心服 务器还要保存整个系统的拓扑结构。这是和当前系统又一个不同点。最后,这个中心服务 器必须定时处理来自各个节点的更新描述数据,以及时调整中心索引。4)在搜索系统中进行非中心式搜索。由于整个系统是一个非中心结构,搜索方式 也因此和中心结构不同。当一个用户发出搜索请求时,其请求不是发到中心服务器,而是发 送到周围的邻居节点。邻居节点在获得这个搜索请求后,将根据其索引对本地数据进行搜索。如果搜索到数据,则将结果返回给发出搜索请求的用户。如果没有,这个邻居节点会将 请求发送给它的邻居,进行下一步搜索。但这个搜索不会无限制地进行下去,通常会规定适 当的传递次数;当超过这个传递次数仍然未达到搜索目的后,搜索请求会被发送到中心服 务器,由它完成搜索。本发明中的搜索还有一点和传统系统不同,即要求返回结果的节点越 多越好。所以,即使从某一节点获得搜索结果,但如果返回搜索结果的节点数目有限,这时 仍然要求搜索继续进行下去。第六步,在社会网络系统中根据社会网络拓扑结构寻找相关节点。和当前系统显 著不同的一点是,除了要求系统返回搜索结果以外,本发明还要求系统返回相关节点。所谓 相关节点指可能对搜索结果感兴趣的节点。这些节点虽然没有发出搜索请求,但有可能会 接受这样的搜索结果。这样相关节点的搜索可以根据各节点在社会网络拓扑结构中所处的 位置来判断。当用户发布数据时,用户会指定发布所要针对的群,那么这个群中所有节点都 是相关节点。当用户进行搜索时,由于搜索要通过适当的传递才能完成,那么传递所经过的 节点也可视为相关节点。最后,当用户直接访问某个节点时,通常可以把访问节点和被访问 节点的邻居当作相关节点,甚至可以把两节点间路径上的节点作为相关节点。第七步,利用搜索到的相关节点在大规模非中心互联网系统中复制搜索结果。在 获得足够的搜索结果和相关节点后,系统将利用多播系统对搜索结果进行复制。当发布数 据时,基于多播机制的复制会在发布者和群中节点间展开。当搜索数据时,复制将在搜索请 求者、具有搜索结果的节点以及搜索请求传递节点间进行。当访问节点时,复制将在访问 者、被访问者、访问者邻居和被访问者邻居间进行。参考文献1Jean Dollimore, Tim Kindberg, George Coulouris ;Distributed Systems Concepts and Design ;Addison Wesley,4th Edition, 2005, ISBN 0321263542Tim Berners-Lee ;Making a Server ;http : //www. w3. org/Provider/ Serverffriter. html3Grigoris Antoniou, Frank van Harmelen(2008-03-31) ;A Semantic Web Primer,2ndEdition, the MIT Press, ISBN 02620124Ronald J. Brachman, Hector J. Levesque ;Knowledge Representation and Reasoning, Morgan Kaufmann,20041SBN 978-1-55860-932-7[5Vinton Cerf ;Specification of Internet Transmission Control Program ; RFC 675,December 196Newman M E J. ;The Structure and Function of Complex Networks ;SIAM Review, 2003,45, Page (s) : 167-257Cohen B. ;Incentives Build Robustness in BitTorrent ;in Workshop on Economics of Peer—to—Peer Systems, Berkeley USA, May 2008Hari Prasad Thadakamalla ;Decentralized Algorithms for Search and Routing in Large—Scale Networks, PhD Dissertation, Pennsylvania State University, December 2009J. Postel ;User Datagram Protocol ;RFC 768,August 198010Rosenberg J. , et al ;STUN-Simple Traversal of User DatagramProtocol (UDP) Through Network Address Translators(NATs) ;RFC 3489,March 2003
llYilei Shao ;Exploring Social Networks in Computer Systems, PhD Dissertation, Princeton University, June 2007。
权利要求
一种建立向互联网用户推荐数据内容服务的方法,其特征在于,所述推荐数据内容服务的方法包括利用账户管理机制为每个用户分配一个唯一标识;通过TCP/IP协议以及相关穿透技术建立个人计算设备之间通信解决方案;在个人计算设备之间建立多播系统;利用社会科学规律在大规模非中心互联网中建立群并形成社会网络系统;在基于互联网社会网络基础上建立大规模非中心互联网搜索系统;在社会网络系统中根据社会网络拓扑结构寻找相关节点;利用搜索到的相关节点在大规模非中心互联网系统中复制搜索结果。
2.如权利要求1所述的一种建立向互联网用户推荐数据内容服务的方法,其特征在 于,所述利用账户管理机制为每个用户分配一个唯一标识;具体实现步骤如下1)设置账户管理服务器;2)用户登录时必须通过账户管理服务器的验证;3)用户之间可以通过唯一标识来联系和识别。
3.如权利要求1所述的一种建立向互联网用户推荐数据内容服务的方法,其特征在 于,通过TCP/IP协议以及相关穿透技术,建立个人计算设备之间通信方案,使得任意两台 个人计算设备可以通过TCP或UDP建立连接,并彼此交换数据;其具体实现步骤如下1)在局域网内直接利用TCP或UDP通信;2)对于存在公开可访问IP地址的情况,可以使用直接通信建立连接;3)当需要建立连接的节点分别处于不同局域网内部时,使用穿透通信建立连接;4)当穿透失效时,可利用间接通信建立连接。
4.如权利要求1所述的一种建立向互联网用户推荐数据内容服务的方法,其特征在 于,在个人计算设备之间建立多播系统,以确保加入系统的节点之间能够保持相关联的状 态一致,以进行高质量集群计算;其具体实现步骤如下1)建立网状拓扑结构;2)根据互惠原则进行动态节点选择;3)基于最大化并行节点之间合作效果的原则进行片段选择;4)基于上述原则形成基于数据共享的计算集群。
5.如权利要求1所述的一种建立向互联网用户推荐数据内容服务的方法,其特征在 于,利用社会科学规律在大规模非中心互联网中建立群并形成社会网络系统,这个系统是 依据人类在互联网上主要行为自然形成的;其具体实现步骤如下1)赋予用户任意在互联网中进行发布、搜索和访问的行为;2)由系统首先对用户做一个粗略划分;3)允许用户在上述划分之下进行更细致的建群工作;4)用户可以任意建立自己所喜好的群并通过社会化方式招揽用户;5)用户也可以根据自己的喜好任意加入或退出某个群。
6.如权利要求1所述的一种建立向互联网用户推荐数据内容服务的方法,其特征在 于,在基于互联网社会网络基础上建立大规模非中心互联网搜索系统;其具体实现步骤如 下1)将个人计算设备上用户在互联网上的各种行为获得的数据作为待搜索数据;2)在每个节点上建立索引形成非中心索引;3)通过额外设立服务器建立辅助中心索引;4)在搜索系统中进行非中心式搜索;当用户发出搜索请求时,其请求发送到周围的邻 居节点;如果搜索到结果,则将结果返回给发出搜索请求的用户;否则,将请求发送给它的 邻居,进行下一步搜索,直至超过预定传递次数;要求返回结果的节点越多越好。
7.如权利要求1所述的一种建立向互联网用户推荐数据内容服务的方法,其特征在 于,在社会网络系统中根据社会网络拓扑结构寻找相关节点;其具体实现步骤如下1)根据各节点在社会网络拓扑结构中所处的位置来判断;2)当用户向某个群发布数据时,这个群中所有节点都是相关节点;3)当用户进行搜索时,搜索传递所经过的节点也可视为相关节点;4)当用户直接访问某个节点时,访问节点和被访问节点的邻居当作相关节点,也可以 把两节点间路径上的节点作为相关节点。
8.如权利要求1所述的一种建立向互联网用户推荐数据内容服务的方法,其特征在 于,利用搜索到的相关节点在大规模非中心互联网系统中复制搜索结果;其具体实现步骤 如下1)在获得足够的搜索结果和相关节点后,系统将利用多播系统对搜索结果进行复制;2)当发布数据时,基于多播机制的复制会在发布者和群中节点间展开;3)当搜索数据时,复制将在搜索请求者、具有搜索结果的节点以及搜索请求传递节点 间进行;4)当访问节点时,复制将在访问者、被访问者、访问者邻居和被访问者邻居间进行。全文摘要
本发明为一种建立向互联网用户推荐数据内容服务的方法,属于分布式技术领域,特别是大规模分布式技术在互联网中的应用;为了向用户提供基于推荐的智能搜索服务,本发明利用账户管理机制为每个用户分配一个唯一标识;通过TCP/IP协议以及相关穿透技术建立个人计算设备之间通信解决方案;在个人计算设备之间建立多播系统;利用社会科学规律在大规模非中心互联网中建立群并形成社会网络系统;在基于互联网社会网络基础上建立大规模非中心互联网搜索系统;在社会网络系统中根据社会网络拓扑结构寻找相关节点;利用搜索到的相关节点在大规模非中心互联网系统中复制搜索结果。在这个方案的支持下,用户会获得更加准确的搜索结果,同时达到在即使没有主动发出搜索请求时获得符合用户需求的推荐数据。
文档编号H04L29/08GK101931638SQ20091014860
公开日2010年12月29日 申请日期2009年6月25日 优先权日2009年6月25日
发明者李冰, 郭长锐 申请人:李冰
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1