互联网信息发布和搜索方法

文档序号:6464350阅读:257来源:国知局
专利名称:互联网信息发布和搜索方法
技术领域
本发明涉及一种互联网信息搜索方法,特别涉及一种互联网信息平台上的信息发布 和搜索方法。
背景技术
随着网络的快速发展,越来越多的人选择通过互联网来发布和搜索信息,而信息发 布及展示平台(以下简称信息发布平台)则是其中一个非常重要的渠道。
信息发布平台是基于网络的为用户提供信息发布和展示的平台。其主要功能是信 息的发布者可以通过此类平台发布各类信息,信息的査找者则可以根据自己的需求,在 此类平台上找到符合自己需求的信息。
信息发布平台包括但不限于Craigslist.org、 kijiji.com、 koubei.com等分类信息平台; Amazon.com 、 dangdang.com 、 redbaby.com.cn等B2C 电子商务平台;Ebay.com 、 Taobao.com 、 Paipai.com 等 C2C 平台等等;Alibaba.com 、 Globalsources.com 、 Made-in-china.com、 Chemnet.com等B2B电子商务平台。下文主要以B2B电子商务平 台为例进行说明。
目前信息发布平台的总体构架大致如图l所示,整个系统中主要有三个角色,分别 是信息发布者、互联网分类信息平台与信息査找者。
此系统中各角色的功能主要包括信息发布者通过互联网或其它相关途径在互联网 分类信息平台上根据一定规则发布相关信息;信息査找者则通过互联网或其它相关途径 在互联网分类信息平台上査找相关信息;互联网分类信息平台则一方面存储信息发布者 发布的相关信息,另一方面根据信息査找者的搜索请求返回搜索结果。
整个系统中最重要的组成部分为信息发布器、信息处理和存储模块、用户搜索器, 如图1所示。 一方面,信息发布者通过信息发布器发布相关信息,信息处理和存储模块 处理和存储相关信息;另一方面信息査找者通过用户搜索器向系统发出搜索请求,信息 处理和存储模块将搜索结果通过用户搜索器的显示界面返回给信息査找者。
目前,三个部分的基本构成或处理流程如下
信息发布器的信息的发布流程图2为现有一个典型的分类信息平台的信息发布流程图,整个信息的发布包括如下 步骤
步骤l:信息发布者登录系统; 步骤2:进入信息发布器; 步骤3:填写相关分类信息;
步骤4:填写完成的基本信息被存储入信息数据库。 信息处理和存储模块-
如图1所示,其处理流程按照如下流程 一方面
步骤1:文本索引器把信息数据库中的相关文本信息进行文本索引;
步骤2:索引之后的文本存入文本索引数据库;
另一方面
步骤1:信息质量指标提取器从信息数据库中提取与评估信息质量相关的指标信息; 步骤2:相关指标信息被存储入信息质量指标数据库;
步骤3:信息质量评级器根据事先定义好的信息质量评级方法对信息质量指标数据 库中的信息进行评级;
步骤4:信息质量评级之后,各信息的质量相关信息被存储入信息质量数据库;
用户搜索器的信息搜索流程
步骤l:信息査找者通过用户搜索器在文本索引数据库中进行査询,得到"信息和 査询的相关性";
步骤2:信息査找者通过用户搜索器在信息质量数据库中进行査询,得到"信息质
且" 里;
步骤3:在得到"信息和查询的相关性"以及"信息质量"之后,再综合这两方面 的因素得到"信息的综合排名"。那么给定一个査询,对于任意的一条信息的A,它的 综合排名大致由信息与査询的相关性和信息质量的乘积决定,见公式1。
信息的综合排名(A)-信息和査询的相关性(A)X信息质量(A)(公式1) 在以上过程中,对于信息质量的评估模块,目前普遍采用的方法为针对每一类信息 事先建立一套信息质量评估模型,模型中包含针对此类信息用户关心的各类指标,然后用这些指标对各类信息进行一一评估。 用户搜索器的信息展示流程
对于信息的査找者而言,其在互联网分类信息平台上的主要操作为査找各类信息。 目前用户在各类互联网分类信息平台上査找其所需要的信息, 一般是采用如图2所示的 信息査找流程
用户首先发出一个搜索请求501,系统则根据此请求返回一个"搜索列表页502", 用户通过根据此搜索列表页可以到达"信息展示页503"或者"其它搜索条件下的搜索 列表页502",然后如此循环。
用户在到达"信息的展示页503"之后,也有可能到达"与此信息相关的某搜索条 件下的搜索结果页502",然后如此循环。
其中,无论是直接通过搜索得到的"搜索结果列表页502"还是从一个"搜索结果 列表页"到达的"其它搜索条件下的搜索结果列表页502",或从"信息展示页503"到 达的"搜索结果列表页502"中,其"搜索结果列表页502"基本都是基于"关键词搜 索"、"类目搜索"或"关键词加类目搜索"而得到的。
在互联网分类信息平台上,信息的查找者一般都采用关键词搜索的方式查找自己想 要的信息,而系统则主要靠传统的信息检索方法来确定搜索结果与査询的相关性。
这种方法只能确定搜索结果的"字面"是否与搜索意图符合。比如用户想要査找打 电话用的"手机",则它会输入关键词"手机"进行搜索,系统则返回一大堆信息内容 包含"手机"的搜索结果。
但是,面对海量的信息时,对于一个査询,搜索引擎动辄返回几十万、几百万条信 息,用户不得不在结果中筛选,而实际上人们往往只愿意察看结果中的前十几个。所以 这就要求搜索引擎返回的结果不仅要与其搜索意图相关,而且还要求搜索结果质量好。 所以此时,对信息质量的评估变得非常重要。
而对于信息质量的评估,有相当多的平台甚至没有对这一块进行考虑。而对于对这 部分有所考虑的平台,目前普遍采用的方法为针对每一类信息事先建立一套信息质量评 估模型,模型中包含针对此类信息用户关心的各类指标,然后用这些指标对各类信息进 行一一评估。
比如以B2B电子商务平台为例,比如对于在B2B电子商务平台上的一条"苹果"相关的信息的评估,就可能会有平均果重、果径、果形指数、硬度、固形物含量、农药 残留量等等指标。而这仅仅是针对"苹果"本身的一些技术指标,而在贸易中,买家还 会关心"苹果"的提供者的诸如生产,供货,交付等各方面的能力。也就是说多方面的 因素最终决定了一个产品的质量(竞争力)。
采用此方法理论上的确可以获得比较好的结果,但是实际上这套体系运作起来非常 困难,其难点在于
一方面,对于每一类信息,用户关注的点是不尽相同的,而面对种类繁多的信息类 别,系统的运营商很难对每一类信息都有所了解,所以也就很难针对每类信息都建立一 套适合这类信息的信息质量评估模型;而即使能建立这么一套模型,其建立的模型往往 也仅能展现信息的某个方面而非全部;尤其是在面对新产生的信息种类时,信息的运营 商就更难即时的建立一套符合要求的信息质量评估模型了,这里存在很严重的滞后性。
而另一方面,即使系统的运营商能够针对每类信息都建立一套相对客观公正的质量 评估模型,而信息的发布者也很难把这套模型中的各项指标都填写完整;而即使是填写 完整,其系统的运营商也很难对其信息的真实性进行评估。
以上两方面的问题就导致在目前的互联网分类信息平台(比较典型的是B2B电子 商务平台)的运营商很难对信息的质量进行评估,进而就导致很难把搜索结果按质量排 序。比较现实的情况是,在找不到好的信息质量评估方式的情况下,大多数互联网分类 信息平台只能按信息是否是付费信息进行排序,付费的信息排前面,非付费的信息排后 面,在同为付费信息或同为非付费信息的时候就只能随机排序。
由此可见,导致在目前的互联网分类信息平台的运营商很难对信息的质量进行评估 的原因是因为互联网分类信息平台的运营商对信息本身缺乏了解导致的,也就是说他们 之间存在比较严重的信息不对称问题。
实际上,信息的发布者之间的信息不对称程度是非常低的。以B2B电子商务平台 为例,比如以生产手机的某厂商为例,他对自己的竞争对手都有哪些,这些竞争对手中 谁更强,谁更弱等都是非常了解的,他甚至能很容易把本行业的竞争对手按其竞争力从 高到低进行排序。
正是鉴于以上原因,如果能把信息发布者的这种能力挖掘出来,则能相对更容易对 信息的质量进行评估。
综上所述,现有的互联网分类信息平台上对信息的质量评估效果不理想,进而也导 致其搜索功能不理想,其搜索结果难以按信息的质量排序。

发明内容
为解决上述问题,本发明提供一种能提高信息的质量评估效果的互联网信息发布和 搜索方法。
本发明互联网信息发布和搜索方法,该方法通过包括信息发布器、信息数据库、文 本索引器、文本索引数据库、信息质量指标提取器、信息质量指标数据库、信息质量评 级器、用户搜索器组成的搜索系统,执行分类信息的搜索的步骤如下;
通过信息发布器发布分类信息,信息被存储入信息数据库;
文本索引器把信息数据库中的相关文本信息进行文本索引;
索弓I之后的文本存入文本索引数据库;
信息质量指标提取器从信息数据库中提取与评估信息质量相关的指标信息; 相关指标信息被存储入信息质量指标数据库;
信息质量评级器根据事先定义好的信息质量评级方法对信息质量指标数据库中的 信息进行评级;
信息质量评级之后,各信息的质量相关信息被存储入信息质量数据库; 信息査找者通过用户搜索器在文本索引数据库中进行查询,得到"信息和査询的相 关性";
用户搜索器在信息质量数据库中进行查询,得到"信息质量";
用户搜索器根据"信息质量"排序并显示在文本索引数据库中査询到的相关信息;
其中将信息的关联质量作为一个信息质量评级指标的步骤如下
A、 使用信息发布器发布信息,具体步骤如下 Al、填写相关分类信息;
A2、填写完成的基本信息被存储入信息数据库; A3、搜索与此信息同类的其他信息; A4、从搜索到的信息中挑选若干同类信息进行关联; A5、对已关联的信息进行排序;
B、 使用关联信息提取器从信息数据库中提取关联信息并将关联信息存储入关联信 息数据库;
C、 信息质量评级器从关联信息数据库提取关联信息,然后根据这些信息间的关联 情况计算出信息的关联质量,并将信息的关联质量作为一个信息质量评级指标。本发明互联网信息发布和搜索方法,其中特定信息的信息质量分别与Q(A)和
QR(A)正相关。
本发明互联网信息发布和搜索方法,其中特定信息的信息质量由公式Q(A)+QR(A) 确定。
本发明互联网信息发布和搜索方法,其中特定信息的关联质量与特定信息的关联 得分正相关,特定信息的关联得分由特定信息的主动关联得分AR(A)与特定信息的被动 关联得分PR(A)构成。
本发明互联网信息发布和搜索方法,其中特定信息的主动关联得分与特定信息向
其它信息发出关联的次数正相关。
本发明互联网信息发布和搜索方法,其中特定信息的主动关联得分计算方式为 AR(A)= a XJ",或AR(A)= a X J^f/,.。
本发明互联网信息发布和搜索方法,其中特定信息的被动关联得分与特定信息被 其它信息关联的次数以及在被其它信息关联时赋予的权重正相关。
本发明互联网信息发布和搜索方法,其中特定信息的被动关联得分计算方式为-
PR(A)= PX 或PR(A)-pX t爿K 。
本发明互联网信息发布和搜索方法,其中使用用户搜索器进行分类信息搜索的具 体步骤如下
Dl、使用"关键词搜索"、"类目搜索"或"关键词加类目搜索"发出搜索请求; D2、用户搜索器搜索文本索引数据库,并返回搜索结果列表页; D3、在搜索结果列表页中找到某条符合搜索意图的信息;
D4、通过上述符合搜索意图的信息进入与此特定信息对应的'过渡页','过渡页' 的内容包括曾向此特定信息发出过直接或间接关联的信息;
本发明互联网信息发布和搜索方法,其中步骤D4中,从符合搜索意图的信息进 入'过渡页'的方法为以下方法之一
D41,在搜索结果列表页中的特定信息条目中增加如"同类产品"字符串的链接, 信息査找者点击此链接即可到达与此特定信息对应的'过渡页';
D42,点击搜索结果列表页中的特定信息直接到达与此特定信息对应的'过渡页';D43,通过搜索结果列表页到达信息展示页之后,在信息展示页增加如"同类产品"
字符串的链接,信息査找者点击此链接即可到达与此特定信息对应的'过渡页'。 本发明互联网信息发布和搜索方法可以更好的对信息的质量进行评估。 另外,本发明互联网信息发布和搜索方法还提供了一种快速査找信息的方法,此方 法使得信息的査找者只要査找到了一条符合他搜索意图的信息,那么他就可以通过这条 信息用此方法找到更多他想要的信息,以上两点就为用户提供了更好的用户体验。


图1是现有的信息发布平台的总体构架;
图2是现有用户搜索器中信息搜索展示的基本流程;
图3是本发明互联网信息发布和搜索方法涉及的用户搜索器中信息搜索展示的基本 流程;
图4是本发明互联网信息发布和搜索方法涉及的信息发布平台的总体构架;
图5是本发明互联网信息发布和搜索方法涉及的信息发布器中"査找同类信息"的 一个页面演示,是以"手机"为例进行的说明;
图6是本发明互联网信息发布和搜索方法涉及的信息发布器中"与同类信息进行关 联"的一个页面演示,是以"手机"为例进行的说明;
图7是本发明互联网信息发布和搜索方法涉及的信息发布器中"已关联信息列表页" 的一个页面演示,是以"手机"为例进行的说明;
图8是"算法1:与搜索主题无关的信息QR值算法"中,集合t、 u、 v与信息A 的关系;
图9是"算法2:与搜索主题相关的信息QR值算法"中,集合T、 U、 V与信息A 的关系;
图IO是信息间的关联关系的一个示意图11是信息间的关联关系的一个示意图,它示出了从一条信息沿着关联关系到达 另一条信息的一条路径。
具体实施例方式
下面结合说明书附图对本发明互联网信息发布和搜索方法作进一步说明。 参见图4,本发明互联网信息发布和搜索方法,其基本结构与现有技术基本相同,下面将与现有技术不同的部分加以详细描述 一、新的信息发布器
新的信息发布器的信息发布流程包括两个阶段,每个阶段又分为若干步骤,其中 第一阶段为基本信息的发布阶段,包含如下步骤 步骤l:信息发布者登录系统; 步骤2:进入信息发布器; 步骤3:填写相关分类信息;
步骤4:填写完成的基本信息被存储入信息数据库。
与旧的信息发布流程相比,新的信息发布流程将增加同类信息间关联这一阶段,它 包含如下步骤
步骤5:搜索与此信息同类的其他信息;
步骤6:从搜索到的信息中挑选若干同类信息进行关联;
步骤7:对关联的信息进行排序;
步骤8:完成信息最终发布;
其中
步骤5中,在完成信息发布之后进入到信息发布器的"査找同类信息页面",此页 面为新增页面。 一般在信息发布者在信息发布器的"査找同类信息页面"中采用关键词 搜索的方式找到与此信息同类的竞争对手的信息。
比如以B2B电子商务平台为例,对于信息发布者,以一家生产手机的企业为例, 他在B2B平台上发布一条手机相关的产品(信息),此时,他可以采用他发布的产品的 名称,比如"手机"在信息发布器的"査找同类信息页面"进行搜索,如图5所示。系 统则从信息数据库中找到搜索关键词相关的产品,并返回搜索结果,如图6所示。
步骤6中, 一般情况下,通过步骤5可以获得大量"字面"符合搜索意图的信息, 这些信息出现在用户发布信息模块的"搜索结果页面",此页面也为新增页面。在这些 信息中,信息的发布者可以从中挑选与自己发布的信息最相关的信息并与之关联,此时 这些关联的结果将被存储入信息数据库中,其关联的结果主要包含关联了那些信息以及 被关联信息的排名,这个排名一般为如被关联的信息被同时关联,则其排名为原有搜 索结果列表的排名;若被关联的信息按时间前后分几次被关联,则排名按时间先后排名。
比如以上述案例为例,此时,信息发布者采用"手机"作为关键词在信息发布器的 "查找同类信息页面"进行搜索。在点击"搜索"指按钮之后,从而得到大量的"字面"包含"手机"的信息,这些信息就比如"手机链","干手机","手机","CDMA手机", "A88手机"等等。显然,"手机链","干手机"与信息发布者发布的信息不为同类信 息,此时它就可以挑选诸如"手机","A88手机"等并与之关联。如图6所示。
而对于"关联"这个动作, 一般可以釆取在搜索结果页面中在符合条件的信息上打 勾,然后再点击诸如"与选中的信息进行关联"之类的按钮实现。如图6所示。而对于 "关联"这个动作要达到的目的是让信息发布者找出他的主要竞争对手都有哪些。比如 一家生产手机的厂商,当他发布过一条手机相关的信息之后,他就可以在相应的信息发 布平台上找到他的主要竞争对手的相关产品。
在步骤6中,在信息发布者挑选出同类信息并与之关联之后,比如以上述案例(见 图6)中,在信息发布者在勾选第1页的第3条"供应A88"手机,第5条"供应手机" 并点击"与选择的信息进行关联"按钮之后,即可进入"已关联信息列表页",此页面 为新增页面。如图7所示。
在进入"已关联信息列表页"后,即可对已关联的信息进行排序,即进入步骤7。 在此页面可对已关联的信息进行重新排序。其排序方法为点击如图7所示的上下箭头符 号,点击向上箭头符合则此信息的排名向上移动,点击向下箭头符号则此信息的排名向 下移动。完成此步骤后,相关排名信息将被存储入信息数据库中。
在上述过程中,对已关联的信息,信息发布者还可执行删除等操作,而且其"关联" 的动作可以分多次完成等等。而为了让信息发布者愿意按以上方式发布信息,则需要建立一套针对信息发布者的 有效的激励机制,这套激励机制使得如果按此新方法发布信息,他就将获得更多的收益。
从另一个角度来看,如果把整个系统看成一个博弈平台,参与人存在于信息发布 平台上的信息发布者,表示为i=l,2,3,...,n, n为参与人总数。此博弈记为 G={Sl,...,sn;Ul,...,un}。面对此博弈,我们的目的是针对博弈建立一套博弈规则,此规 则使得此博弈中参与人(信息发布者)的最优策略是选择釆用新的信息发布方式发布信 息,即此策略为Nash均衡策略。
具体来讲,这套规则使得采用新的信息发布方法发布的信息的收益包括但不限于-
收益l:按此新方法发布的信息在其对应的搜索结果中搜索排名将相对靠前,从而 被査看的机率将更高,其收益增大。
收益2:按此新方法发布的信息会出现在被其关联过的信息的同类信息搜索列表页
(其定义见信息的同类信息搜索结果列表页的定义)中,从而被査看的机率也将更高,其收益增大。
收益3:在信息的査找者向某特定信息发送询盘时,系统会向其推荐曾向此特定信 息发出直接或间接关联的信息,此时信息的査找者在发询盘时存在很大的可能性也同时 向此类信息发送询盘,即此时按此新方法发布信息的信息收益将增大。
而为了实现以上目的,系统规定按此新方法发布的信息以及被此信息关联的信息都
将获得相应的QR值积分。而信息的QR值积分又与搜索排名息息相关,QR值积分越 高的信息在其对应的搜索结果中搜索排名相对靠前。 信息的QR值积分定义
对于信息发布平台上的任意一条信息,若它曾向系统中的其它信息发出过关联,且 其排序是根据它与其它各信息间关联程度从高到低排序,则通过此类关联,发出关联的 信息本身以及被关联的信息都可获得相应QR值积分,其QR值积分在增加情况如下
发出关联的信息将从与相关信息的关联中分别获得K1、 K2、 K3、…、Kn的得分。 收到关联的信息也分别将从这个动作中获得K1、 K2、 K3、…、Kn的得分。其中K1、 K2、 K3、…、Kn的分值分别为事先定义好的一系列常数,均大于零,并呈递减关系。
特别的,对于任意的发出关联的信息为X,收到关联的信息为Y,则发出关联的信 息X与收到关联信息Y因此关联而得到的分数可记为XY,显然XYG (Kl,K2,K3,…,Kn〉。
二、新的信息处理和存储模块
图4包含了新的信息处理和存储模块,其处理流程与现有流程相比,增加的步骤如

B、 使用关联信息提取器从信息数据库中提取关联信息并将关联信息存储入关联信 息数据库;
C、 信息质量评级器从关联信息数据库提取关联信息,将信息与其他信息的关联质 量作为 一个信息质量评级指标。
在新的信息处理和存储模块中,对于信息质量的评估,分别采用了两种方法。第一 种方法为传统的信息质量评估方法,针对每一类信息事先建立一套信息质量评估模型, 模型中包含针对此类信息用户关心的各类指标,然后用这些指标对各类信息进行一一评 估,最后得到一个分值。第二种方法为采用超链分析技术对信息进行质量评估,最后得到一个分值。两个分值加起来就为这条信息最终的信息质量的分值。
若对于任意的一条信息A,在基于传统的信息质量评估方式下其信息质量用Q (A) 表示,基于超链分析的信息质量评估方式下其信息质量用QR (A)表示,则A信息的 质量可用如下方式表示
信息质量(A)-Q(A)+QR(A) (公式2) 其中
对于信息质量QR(A)的计算可以有多种方法,但是归根结底,它的理论基础是一 条信息被关联的次数越多,则它可能是更重要的; 一条信息在被关联时被赋予更大的权
重,则它可能是更重要的。它的分析方法与学术上的引文分析技术非常类似。
以下列出几种通过此思想计算信息QR值的方法。
算法l:与搜索主题无关的信息QR值算法
信息发布平台上的所有信息用集合t来表示,t^ti,t2,t3,…,tn〉。
若A是信息发布平台上的一条信息,即AG t,集合t内所有被信息A关联的信息用
集合U表示,U={Ul,U2,U3,…,lU,其数目用O表示;集合t内向信息A发出过关联的 所有信息用集合V表示,V={Vl,V2,V3,…,Vp〉,其数目用p表示。
集合u、 v—般情况下会有交集,集合t、 u、 v及信息A的关系如图8所示。 则对于任意的一条信息A,其QR (Quality Rank)值的计算方式定义如下
QR(A)= a X AR(A)+ p X PR(A)= a XjMj +p X f Xv, (公式3 )
它表示信息A的QR值由两部分组成,分别是主动关联得分(Active Rank)与被 动关联得分(Passive Rank)。其意义在于如果信息A向集合t内的其它信息发出的关 联越多,则信息A将获得更高的QR值;如果信息A被集合t内的信息关联的次数越多, 并被赋予更高的权重,则信息A也将获得更高的QR值。其中
AR(A)表示信息A因向t内其它信息发出主动关联而获得的分数;
PR(A)表示信息A因被向t内其它信息关联而获得的分数;
这里a , P被用来调节主动关联得分与被动关联得分对QR值的影响程度。
其中
主动关联得分的计算方式为AR(A)=tjM,.,它表示信息A的主动关联得分是由 信息A因向对集合u内各信息发出关联而^^的分数之和。Aui为事先定义好的常数, 其定义见信息的OR值积分定义。
被动关联得分的计算方式为PR(A)=t^Vi,它表示信息A的被动关联得分等于
在集合v内为信息A关联的信息为其贡献的分值之和。Avi为事先定义好的常数,其定 义见信息的OR值积分定义。
算法2:与搜索主题相关的信息QR值算法
用户在信息发布平台上发出一个査询,系统采用传统的搜索算法得到n条信息,则 这些搜索结果用集合T来表现,T-0^,T2,T3,…,T^。
若A是集合T中的一条信息,则对于集合T中的任意一条信息A,则对于信息A, 集合T内所有被信息A关联的信息用集合U表示,U^Ui,U2,U3,…,U。),其数目用o 表示;集合T内向信息A发出过关联的所有信息用集合V表示,V-(Vi,V2,V3,…,V", 其数目用p表示。
集合U、 V—般情况下会有交集,集合T、 U、 V及信息A的关系如图9所示 则对于任意的一条信息A,其QR (Quality Rank)值的计算方式定义如下
QR(A)= a XAR(A)+pXPR(A)= axJ^R+(3X^^^ (公式4)
,=1 i=l
它表示信息A的QR值由两部分组成,分别是主动关联得分(ActiveRank)与被 动关联得分(Passive Rank)。其意义在于如果信息A关向集合T内的其它信息发出的关联越多,则信息A将获得更高的QR值;如果信息A被集合T内的信息关联的次数 越多,并被赋予更高的权重,则信息A获得更高的QR值。其中AR(A)表示信息A因向T内其它信息发出主动关联而获得的分数;PR(A)表示信息A因被向T内其它信息关联而获得的分数;这里a , p被用来调节主动关联得分与被动关联得分对QR值的影响程度。其中-主动关联得分的计算方式为AR(A)-力JR ,它表示信息A的主动关联得分是由,=1信息A因向对集合U内各信息发出关联而获得的分数之和。AUi为事先定义好的常数, 其定义见信息的OR侑积分定义。被动关联得分的计算方式为PR(A)=^JW,它表示信息A的被动关联得分等于在集合V内为信息A关联的信息为其贡献的分值之和。AVi为事先定义好的常数,其定 义见信息的OR值积分定义。相关算法的异同及总结以上仅为两种计算信息QR值的计算方式。两种方法总体思路基本相同,都是计算 信息的主动关联得分与被动关联得分,然后再相加。不同之处在于,第一种计算方式计算出来的信息的QR值与査询无关,而第二种计 算方式计算出来的信息的QR值则与査询息息相关。第一种算法可事先把计算结果存储 起来,计算代价相对较小,第二种算法一般情况下要求在线计算,计算代价较大。但第 二种方法可获得相对较优的计算结果。两种计算方式的异同类似于搜索引擎算法中的 PageRank算法与HITS算法的差异。除以上两种计算方式以外,还可以有其它更多的计算方式,比如以上计算方式中都 是没有考虑类似于PageRank算法与HITS算法的收敛向题的,而如果把此问题考虑进去 则其算法就更类似于PageRank算法与HITS算法了,但是这样也增加了计算代价。关于信息的QR值与信息质量之间的关系17需要说明的是,信息的质量并不一定与信息的QR值成正比。从信息QR值的计算 方式可以看出,信息的QR值由两部分组成,分别是主动关联得分(ActiveRank)与被 动关联得分(Passive Rank),其中只有被动关联得分是与信息质量相关,信息的主动关 联得分与信息质量没有直接的相关性。所以,在初期,在只有一部分信息是按新的信息发布方法发布的时候,这部分信息 虽可在其对应的搜索结果中排名靠前,即拥有相对较高的QR值,但此时其搜索排名高 的信息并不一定是质量好的信息。而只有在经过一定阶段之后,当所有的信息都按新的 信息发布方法发布之后,则可实现质量好的信息排名相对靠前,此时,QR值高的信息 就是质量相对较好的信息。三、新的用户搜索器在新的用户搜索器中,在原有的信息搜索展示方式的基础上增加一种新的方法,这 种方法使得信息的査找者只要在査找到一条符合他搜索意图的信息,那么他就可以沿着 这条信息通过此方法找到更多他想要的信息。如图3所示。这种方法包含以下步骤步骤l:用户发出搜索请求1301; 步骤2:系统返回搜索结果列表页1302;步骤3:用户采搜索结果列表页中找到某条符合搜索意图的信息1303;步骤4:通过上述符合搜索意图的特定信息通过1步、2步或多步可到达"与此特 定信息对应的'过渡页'",此页面是由曾向此符合搜索意图的特定信息发出过直接或间 接关联的信息以及其它信息(比如此符合搜索意图的特定信息本身)组成的搜索结果列 表页。其中,组成此搜索结果列表页的信息条目的获取方法是根据信息间相关度计算而 获得的,而非传统的根据"关键词搜索"、"类目搜索"或"关键词加类目搜索"得到的。 然后还可回到步骤3,如此循环;其中在步骤2中,在此搜索结果列表页中,此列表页中很可能会出现一些与搜索意图不 相关的结果。比如用户输入"手机"这个关键词,系统返回的可能是"干手机","手机 链","手机电池"等类别的产品。所以需要进入步骤3。在步骤3中,在步骤2所得的搜索结果列表页中, 一般情况下会有一部分产品是符 合用户搜索需求的,此时用户只需要找到其中的某条符合搜索需求的信息;在步骤4中,从搜索结果列表页到达"与此特定信息对应的'过渡页'"的方法可 以有多种,它包括但不限于方法l,在搜索结果列表页中的特定信息条目中增加诸如 "同类产品"链接,信息査找者点击此链接即可到达"与此特定信息对应的'过渡页'"; 方法2,点击搜索结果列表页中的特定信息直接到达"与此特定信息对应的'过渡页'", 而不是此特定信息的信息展示页。方法3,在通过搜索结果列表页到达信息展示页之后, 在信息展示页的适当位置增加诸如"同类产品"链接,信息査找者点击此链接即可到达 "与此特定信息对应的'过渡页'"。 特定信息对应的过渡页的定义特定信息对应的过渡页是由曾向此特定信息发出过直接或间接关联的信息以及其 它信息(比如此符合搜索意图的特定信息本身)组成的一个或多个搜索结果列表页。此 搜索结果列表根据相关信息与特定信息间的相关度从高到低对相关信息条目进行排序。 比如先展示向此特定信息发出过直接关联的信息,再展示向此特定信息发出过间接关联 的信息。其中,对于特定信息与相关信息间相关度的算法可以有多种,以下为其中一种 若A是信息发布平台上的一条信息,Sl、 S2、 S3、 ...Sn是向信息A直接或间接发 出过关联的信息,如图10所示。即沿着S1、 S2、 S3、 ...Sn发出过关联的路径最终可以 到达信息A。其中,向A发出过直接关联的信息就比如图10中的Sl、 S2、 S3,向A 发出过间接关联的信息就比如图10中的S4、 S5、 S6、 S7 ,如此类推。显然,此时A、 Sl、 S2、 S3、 ...Sn以及它们之间的关系构成一个有向网络。如图10所示。则任意的一条信息Si其相对于信息A的相关度表示为<formula>formula see original document page 19</formula> (公式5) 其中(Si,...,A)表示从Si到达A的各种有可能的路径。在上述有向网络中,从一个点到达 另外一个点可能l条,2条,甚至有多条路径,比如从S5到达A就可能会有(Ss,Si,A), (Ss,S2,A)等。若Si与A之间有n个节点,这些节点依次是M!,M2,M3,…,Mn表示。如图 11所示则<formula>formula see original document page 19</formula> (公式6)其中K为大于Id的常数。Si Mi表示Si因向Mi发出关联而得到的分数,特别的当Si与A是直接关联时Si Mi 即为SiA, SiMi的定义见信息的OR值积分定义。R(Si A)的含义是对于所有的与信息A直接或间接关联的信息,先展示直接关联的, 然后再展示2级关联的,再展示3级关联的,如此类推。在同一级别的关联中,优先展 示信息Si与信息A最短路径中得分最高的信息,如果得分相同,则优先展示信息本身 QR值高的。如果上述分值都相同,则随机排序。综上所述,本发明互联网信息发布和搜索方法可以更好的对信息的质量进行评估。另外,本发明互联网信息发布和搜索方法还提供了一种快速査找信息的方法,此方 法使得信息的査找者只要査找到了一条符合他搜索意图的信息,那么他就可以通过这条 信息用此方法找到更多他想要的信息,以上两点就为用户提供了更好的用户体验。此外,本发明所属技术领域人员根据说明书的上述内容,可以想到本发明互联网信 息发布和搜索方法可以不经任何创造性劳动应用于各种企业网(Intranet)、局域网、城 域网、广域网等。以上的实施例仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行 限定,在不脱离本发明设计精神的前提下,本领域普通工程技术人员对本发明的技术方 案作出的各种变形和改进,均应落入本发明的权利要求书确定的保护范围内。
权利要求
1.一种互联网信息发布和搜索方法,该方法通过包括信息发布器、信息数据库、文本索引器、文本索引数据库、信息质量指标提取器、信息质量指标数据库、信息质量评级器、用户搜索器组成的搜索系统,执行分类信息的搜索的步骤如下;通过信息发布器发布分类信息,信息被存储入信息数据库;文本索引器把信息数据库中的相关文本信息进行文本索引;索引之后的文本存入文本索引数据库;信息质量指标提取器从信息数据库中提取与评估信息质量相关的指标信息;相关指标信息被存储入信息质量指标数据库;信息质量评级器根据事先定义好的信息质量评级方法对信息质量指标数据库中的信息进行评级;信息质量评级之后,各信息的质量相关信息被存储入信息质量数据库;信息查找者通过用户搜索器在文本索引数据库中进行查询,得到“信息和查询的相关性”;用户搜索器在信息质量数据库中进行查询,得到“信息质量”;用户搜索器根据“信息质量”排序并显示在文本索引数据库中查询到的相关信息;其特征在于将信息的关联质量作为一个信息质量评级指标的步骤如下A、使用信息发布器发布信息,具体步骤如下A1、填写相关分类信息;A2、填写完成的基本信息被存储入信息数据库;A3、搜索与此信息同类的其他信息;A4、从搜索到的信息中挑选若干同类信息进行关联;A5、对已关联的信息进行排序;B、使用关联信息提取器从信息数据库中提取关联信息并将关联信息存储入关联信息数据库;C、信息质量评级器从关联信息数据库提取关联信息,然后根据这些信息间的关联情况计算出信息的关联质量,并将信息的关联质量作为一个信息质量评级指标。
2. 根据权利要求1所述的互联网信息发布和搜索方法,其特征在于特定信息 的信息质量分别与Q(A)和QR(A)正相关。
3. 根据权利要求2所述的互联网信息发布和搜索方法,其特征在于特定信息 的信息质量由公式Q(A)+QR(A)确定。
4. 根据权利要求1所述的互联网信息发布和搜索方法,其特征在于特定信息 的关联质量与特定信息的关联得分正相关,特定信息的关联得分由特定信息的主动关联 得分AR(A)与特定信息的被动关联得分PR(A)构成。
5. 根据权利要求4所述的互联网信息发布和搜索方法,其特征在于特定信息 的主动关联得分与特定信息向其它信息发出关联的次数正相关。
6. 根据权利要求5所述的互联网信息发布和搜索方法,其特征在于特定信息的主动关联得分计算方式为<formula>formula see original document page 3</formula>
7. 根据权利要求6所述的互联网信息发布和搜索方法,其特征在于特定信息 的被动关联得分与特定信息被其它信息关联的次数以及在被其它信息关联时赋予的权 重正相关。
8. 根据权利要求7所述的互联网信息发布和搜索方法,其特征在于特定信息的被动关联得分计算方式为<formula>formula see original document page 3</formula>
9. 根据权利要求1至8所述的互联网信息发布和搜索方法,其特征在于使用 用户搜索器进行分类信息搜索的具体步骤如下Dl、使用"关键词搜索"、"类目搜索"或"关键词加类目搜索"发出搜索请求; D2、用户搜索器搜索文本索引数据库,并返回搜索结果列表页; D3、在搜索结果列表页中找到某条符合搜索意图的信息;D4、通过上述符合搜索意图的信息进入与此特定信息对应的'过渡页','过渡页' 的内容包括曾向此特定信息发出过直接或间接关联的信息。
10. 根据权利要求9所述的互联网信息发布和搜索方法,其特征在于步骤D4 中,从符合搜索意图的信息进入'过渡页'的方法为以下方法之一D41,在搜索结果列表页中的特定信息条目中增加如"同类产品"字符串的链接, 信息査找者点击此链接即可到达与此特定信息对应的'过渡页';D42,点击搜索结果列表页中的特定信息直接到达与此特定信息对应的'过渡页'; D43,通过搜索结果列表页到达信息展示页之后,在信息展示页增加如"同类产品"字符串的链接,信息査找者点击此链接即可到达与此特定信息对应的'过渡页,。
全文摘要
一种互联网信息发布和搜索方法,其中该方法通过包括信息发布器、信息数据库、文本索引器、文本索引数据库、信息质量指标提取器、信息质量指标数据库、信息质量评级器、用户搜索器、关联信息提取器、关联信息数据库组成的搜索系统,执行分类信息的搜索。本发明互联网信息发布和搜索方法可以更好的对信息的质量进行评估。另外,本发明互联网信息发布和搜索方法还提供了一种快速查找信息的方法,此方法使得信息的查找者只要查找到了一条符合他搜索意图的信息,那么他就可以通过这条信息用此方法找到更多他想要的信息,以上两点就为用户提供了更好的用户体验。
文档编号G06F17/30GK101308507SQ200810114688
公开日2008年11月19日 申请日期2008年6月6日 优先权日2008年6月6日
发明者余德光, 婷 彭, 威 申 申请人:北京九城网络软件有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1