自助式智能垂直搜索方法

文档序号:6573576阅读:287来源:国知局
专利名称:自助式智能垂直搜索方法
技术领域
本发明涉及一种应用于数字网络的搜索领域,特别是一种自助式智能垂直搜索方法。
技术背景目前,搜索引擎技术的广泛应用使得用户能够轻松、便捷地获得希望获得的信息。但是,现有搜索引 擎和搜索技术也存在着缺点和不足1、 网络存在的海量信息,也使得利用关键字搜索技术的搜索引擎返回的搜索结果数量具大,其中非 常多的信息其实对用户而言是毫无用处的,用户不得不在这些庞大的信息集中寻找他们需要的信息。2、 现有的搜索技术不能主动地学习用户的使用偏好和习惯,从而使得搜索的结果更加合乎用户的"口 味",而是完全由用户自己来判断搜索结果对其的价值。3、 如今的搜索引擎不能反映用户对搜索结果的评价,也不能将这个主观的评价融入搜索引擎中,从而修正搜索的过程,使得搜索结果更为精准。4、 大多数的功能执行由服务器来进行,现有的通用搜索引擎不能有效利用用户端自身的数字终端硬 件资源,使得服务器的压力过重,从而不能高效地执行功能程序,造成大量投资购置服务器硬件。 发明内容本发明的目的正是为了克服上述缺点,而提供一种自助式智能垂直搜索方法,更具体的说,是一种用 户主动干预搜索机制、垂直深化搜索结果的自助式智能搜索方法、系统和计算机程序。本发明解决其技术问题采用的技术方案。这种自助式智能垂直搜索方法,包括如下步骤1. 1)、利用存储在客户端和服务器端的用户cookies文件、注册信息、历史搜索信息以及定制的关 注模块进行用户偏好学习,并将这个用户偏好建立为用户统计模型实时、动态地存储到搜索引擎数据库中;1. 2)、利用关联句/词库对用户输入的搜索语句进行高速中文分词,并生成一个关键句/词集文件, 该文件包含了进行语义分析后的所有相关、相似的关键句和关键词,对用户历史搜索信息进行统计学习, 得出在用户的搜索习惯中与这些关键句/词集相关、相似的关键句/词,通过高速中文分词和用户搜索习惯 学习,得出一个最终的关键句/词集文件;1. 3)、搜索引擎通过网络数据库搜索所有与这些惯性关键句/词相关的信息,同时,将这些搜索结果 与用户统计模型进行匹配,在这些搜索结果中搜索其关键句/词符合用户偏好的信息,最终,将符合用户 偏好的搜索结果返回给用户。本方法可以将用户对搜索结果的评价反映出来,据此来修正机器学习的过程,并同时修正用户统计模型。本方法中用户可以定制感兴趣的内容和信息、表格化搜索结果以及即时通讯。 本发明有益的效果是1、用户可以从庞大的信息集中寻找他们需要的信息。2、 该方法能主动地学习用户的使用偏好和习惯,从而使得搜索的结果更加合乎用户的"口味",而是 完全由用户自己来判断搜索结果对其的价值。3、 能反映用户对搜索结果的评价,也能将这个主观的评价融入搜索引擎中,从而修正搜索的过程, 使得搜索结果更为精准。4、 需要的硬件资源比google、百度等通用搜索引擎要多,能有效利用用户自身数字终端的硬件资源, 从而大大缓解服务器端的压力。


图1实施例中本发明方法得以实现的系统框图;图2实施例中实现本方法的用户评价机制和系统学习机制等的系统流程图;图3实施例中的关联词库数据结构图; 图4实施例中的专利信息数据结构图; 图5实施例中的商机信息数据结构图; 图6实施例中的公司信息数据结构图; 图7实施例中的用户统计模型数据结构图; 图8网页的专利信息搜索的用户界面截图; 图9网页的商机信息搜索的用户界面截图; 图10网页的公司信息搜索的用户界面截图。
具体实施方式
下面结合附图和实施例对本发明作进一步介绍为了更好地阐述本发明方法和系统的机制,首先对以下名词做如下解释 用户带着某种搜索信息的目的使用本发明所述系统的使用者。用户干预意指用户通过某种干预程序模块,如用户评价体系,来修正系统机器学习中出现的偏差, 不仅能提高机器学习的准确性,同时也使得搜索的结果更精确。垂直搜索正如字面意义解释的那样,垂直搜索指的是搜索结果的深化、精确化,而这种深化指的是 更贴近用户的搜索目的和偏好,所以,它的搜索基础是用户的统计模型和整个网络数据库,而非前一次搜 索的结果,这就使得本发明方法和系统和百度、gOOgle等目前比较知名的搜索引擎有着不同之处。对本描述来说,在附图的任一个或多个中引用具有相同标号的步骤或特征的情况下,这些步骤或特征 具有基本上相同的功能或操作。图1示出的是示例性实施例中自助式智能垂直搜索方法的系统框图。该系统包括客户端系统I 100, 客户端系统IUIO,数字网络120,外部数据源140,服务器端系统130,数据库记录150以及应用程序160。 卜面结合图l对各个部分进行详细地说明。客户端系统I 100和客户端系统IIllO是两种不同形式的客户端系统,而客户端系统和服务器端系统 在功能组成上可以认为都是一种客户机系统。客户机系统本发明所述的客户机系统都可以通过数字终端系统来实现,用于执行本发明所述处理过 程的应用程序,但并不仅限于此。客户机系统可以是数字终端或是连接到数字终端的终端。 一般地,为了 实现本发明所述方法和系统,在本发明中所指的数字终端至少需要包括显示装置、音频输入和输出装置、 用户输入单元、存储器以及CPU,并且被认为是可以执行能够实现本发明所述方法和系统的应用程序,如 网络浏览程序Internet Explorer。可以理解地,该客户机系统并不仅限于数字终端系统,也可以是手机等其他设备,该领域的技术人员 应该能很容易地理解这一点。显示装置可以是一个监视器,如常规的CRT和LED,或其他任何被安排为显示信息内容的装置。音频输入输出装置可以是耳机、麦克风、话筒等等将音频数据输入或输出计算机的装置。当然,音 频输入和输出装置可以融合为一体,如带有麦克风的耳机。用户输入单元可以是键盘、鼠标等等,输入单元可以配备光标控制键,如向左键、向右键、向上键和向下键。当然,显示装置和用户输入单元可以融合为一体,如触摸屏。存储器该存储器可以理解为存储由CPU执行能够实现本发明所述方法的应用程序,也可以存储文档,例如常规随机访问存储器(RAM)。CPU:该CPU可以是通用处理器单元,用以访问存储器中的文档,以进行搜索,也可以是一个单独的通信单元,如调制解调器,这个通信单元的作用是从外部获取文档。客户端系统I 100:客户端系统I代表的是一种访问网络120与服务器端系统130进行通信活动的客 户端组成方式。它进行通信的目的在于向服务器端系统130请求搜索信息。客户端系统I包括了通过本地 网络103连接的组群1和组群2,组群1和组群2同样是两个不同的客户机系统。组群1和组群2可以分 布在同一个或不同的本地网络内。客户机系统IOI、客户机系统102通过本地网络103联结为客户端系统 I 组群可以是通过个人、部门、商品、子公司、合作伙伴或其他方式进行联合的集合,也可以代表为 一个行业,如金融业、制造业。本地网络103:包括限制在有限地理区域的局域网LAN,以及不受限于有限地理区域的广域网WAN和 城域网MAN。客户端系统niio:与客户端系统i不同的是,客户端系统n代表的是另一种作为一个可以通过网络120与服务器端系统130进行通信活动的客户端形式。客户端系统I代表的是一个单独的客户机系统110。可以理解地,在另一个实施例中,可能包含客户端系统I和客户端系统II的其中一种或全部客户端系 统形式,但客户端系统的组合形式不影响本发明所述方法的实现。数字网络120:有线的或无线的数字网络信息或信号的传输网络,用来传输数字网络的信息。可以理 解为但不仅限于局域网LAN、广域网WAN、城域网MAN、虚拟专用网VPN和因特网。客户端系统I和客户端 系统II以及其他网络终端实体可以通过任何一种形式的网络连接到服务器端系统130,但它们不一定是通 过同一个网络连接到服务器端系统130上的。服务器端系统130:服务器端系统通过一个或多个服务器来实现,可以是数据库服务器131、网络服
务器132、应用程序服务器133的其中一个或多个服务器联合,也可以是一个服务器中包含了其中一种或 多种服务器的功能。服务器用于响应存储在服务器上的计算机程序操作。数据库服务器131:存储数据库记录150的所有电子信息并执行对数据库记录150的访问。 数据库记录150:存储与服务器端系统130有关的所有用户或客户机系统的各种信息内容和数据,如关联词库151、搜索结果152、用户统计模型153。这些信息内容和数据包括图3、图4-1、图4-2、图4-3和图5所示出的示例性实施例的数据库记录所包含的字段。图3说明了关联词库151结构的一个示例,它包含了多个字段。其中相似的本地句词集310代表了某 个关键句/词的所有类似句/词的集合,这些类似句/词是存储在数据库服务器131中的。相似的外部句词 集320代表了该关键句/词的所有类似句/词的集合,这些类似句/词是存储在连接在数字网络120上的外 部数据源140中的,服务器端系统130在需要时可以通过数字网络120向外部数据源140请求这些关键句 /词并存储到本地数据库服务器131中。相关的本地句词集330代表了该关键句/词的所有相关句/词的集 合,这些相关句/词是存储在数据库服务器131中的。相关的外部句/词集340代表了该关键句/词的所有 相关句/词的集合,这些相关句/词是存储在外部数据源140中的,服务器端系统130在需要时可以通过数 字网络120向外部数据源140请求这些关键句/词并存储到本地数据库服务器131中。相似的用户历史关 键句词集350是通过用户历史搜索结果统计得来的关于某个用户的该关键句/词的相似句/词集,这些关键 句/词具有特定的用户特征,为某个用户专有,服务器端系统130对某个用户的历史搜索结果和评价信息 进行统计后得出该句词集,在该用户登陆系统进行搜索时,服务器端系统130自动调用该句词集加入到这 个关键句/词的关联词库中。相关的用户历史关键句词集360是通过用户历史搜索结果统计得来的关于某 个用户的该关键句/词的相关句词集,与上述相似的ffl户历史关键句词集350类似地,在某个用户登陆系 统进行搜索时,服务器端系统130自动调用该句词集加入到这个关键句/词的关联词库中。相似在本发明中的"相似"指的是这样一种情况, 一个关键句/词有很多其它不同的关键句/词与其 意义相近,例如,"电脑"的相似关键词有"计算机"、"c咖puter"、 "PC机"等,其中"计算机"可能是 根据用户的历史搜索结果统计得出的相似关键词。相关在本发明中的"相关"指的是这样一种情况, 一个关键句/词有很多其它不同的关键句/词与其 有着紧密地联系,该联系有着特定的时代和历史特征,可以随着时代潮流的改变而改变,例如,"电脑" 的相关关键词有"笔记本"、"键盘"、"鼠标"、"U盘"、"MP3"等,其中"MP3"可能就是根据用户的历史 搜索结果统计得出的相关关键词。图4、图5、图6是搜索结果152的数据结构的三个示例。本发明的一个示例性实施例中,系统主要 针对三个内容的搜索专利、商机以及公司。其中图4展示的是专利信息数据的构成,专利信息数据构成410包括专利编号411、专利描述412、 专利概要413、专利全文414、发布时间415、发明人416、专利类型417以及所属公司编号418。专利编 号411表示的是专利信息的唯一编号,便于系统检索并调用。专利描述412即为该专利的名称。专利概要 413对服务器端系统和用户而言,其实起到一个接口的作用,它是静态的一个数据,和专利的其他信息一 样,被静态地存储在数据库服务器中,用户可以通过专利的概要了解这个专利是否对其有用、和他的搜索
目的相关;另一方面,服务器端系统也是通过专利概要413中的关键句/词而非专利全文414中的关键句/ 词进行搜索、匹配以及调用,所以,这也使得搜索的结果更贴近用户的目的;而通过这种途径所获得的搜 索结果的显示,也并非如百度和google —样,只是显示包含关键词的全文节选,而是专利的描述和其他 信息,只有当用户输入单元如鼠标移动到专利描述412上,才会显示专利概要413。专利全文414指的是 专利的全部说明文件。发布时间415是该专利在该网站发布即存储的时间,而非专利的公布时间。发明人 416是该专利的发明者。专利类型编号417代表该专利所属的类型,分为实用新型专利、外观专利和发明 专利,和专利类型属性表相关联。所属公司编号418是指拥有该专利的公司的唯一编号。类似地,图5展示的是商机信息数据的构成,本发明所指的商机是商业机会的简称,通过商机,用户 可以找到与其他公司或个人合作的方式。商机信息数据构成420包括商机编号421、商机描述422、商机 概要423、商机具体说明424、商机类型编号425、有效时间426以及所属公司编号427。商机编号421表 示的是商机信息的唯一编号,便于系统检索并调用。商机描述422即为该商机的名称。与专利概要类似地, 商机概要423对服务器端系统和用户而言,起到一个接口的作用,它包含了产品信息、公司信息、供求信 息以及公司的联系方式。 一方面,用户可以通过商机概要423 了解这个商机是否对其有用、和他的搜索目 的相关;另一方面,服务器端系统也是通过商机概要423中的关键句/词进行搜索、匹配以及调用。只有 当用户输入单元如鼠标移动到商机描述422上,才会显示商机概要423。商机具体说明424指的是商机的 具体说明。商机类型编号425将商机所属的类别归类,如求购和出售,和商机类型属性表相关联。有效时 间426指的是该商机能够产生价值的时间, 一旦超过这个时间期限,这个商机很有可能就消失了。所属公 司编号427是指拥有该商机的公司的唯一编号。类似地,图6展示的是公司信息数据的构成。公司信息数据构成430包括公司编号431、公司描述432、 公司信息概要433、公司简介434、公司具体信息435、公司类型编号436、成立时间437、注册资本438、 注册日期439、员工人数440、年营业额441、企业所有形式编号442、出口率443、外国人投资比率444、 公司网址445、公司email446、求购类别编号447、销售类别编号448、联系人449、公司电话号码450、 传真号码451、公司联系地址452以及邮政编码453。公司编号431表示的是公司的唯一编号,便于系统 检索并调用。公司描述432即为该公司的名称。与专利概要类似地,公司信息概要433对服务器端系统和 用户而言,起到一个接口的作用。 一方面,用户可以通过公司信息概要433 了解这个商机是否对其有用、 和他的搜索目的相关;另一方面,服务器端系统也是通过公司信息概要433中的关键句/词进行搜索、匹 配以及调用。只有当用户输入单元如鼠标移动到公司描述432上,才会显示公司信息概要433。公司简介 434是公司信息概要433的一部分,用以简单地介绍公司情况。公司具体信息435指的是公司的具体信息。 公司类型编号436与公司类型属性表相关联,将公司所属的类别归类,如生产型、贸易型、服务型、政府 和其他机构等。成立时间437指的是该公司进行工商登记及税务登记时申报的公司成立时间。注册资本438 指的是公司这注册时工商登记时的资产总额。注册日期439是该公司注册为系统用户的日期。员工人数440 是该公司的员工人数。年营业额441是指上一年的营业总额。企业所有形式442表示企业的所有制形式, 如国营、私营、有限责任制。出口率443是指公司的出口产品占公司总产品数量的比率。外国人投资比率 444是指外国人在公司的投资额占公司资产总额的比率。公司网址445是该公司的网站网址。公司emai1446 是指公司对外联系的电子邮件地址,方便外界进行业务咨询。求购类别编号447是指该公司求购产品的类 别,如数字终端周边等,和产品类别属性表相关联。销售类别编号448是指该公司销售的产品类别,如数 码设备等,和产品类别属性表相关联。联系人449是该公司对外联系的人员名称。公司电话号码450是该 公司的电话号码。传真号码451是该公司的传真号码。公司联系地址452是指该公司的联系地址。邮政编 码453是该公司联系地址的邮政编码。专利信息数据410、商机信息420以及公司信息430通过公司编号431进行关联,便于系统在搜索任 何一个内容的结果时,返回给用户的不仅仅是用户想要搜索的内容,同时也把同一个公司的相关专利、商 机以及公司信息返回给用户,使得用户能找到最贴近其搜索目的的搜索结果并激发用户的潜在兴趣。图7示出用户统计模型的数据构成。用户统计模型包含的数据有用户编号510、用户名520、其他 注册信息530、历史搜索信息540、历史关键句词集550、关注模块560以及客户端cookies文件。用户编 号510代表的是该用户信息存储在数据库中的唯一编号,便于服务器端系统130对用户模型的更新和调用。 用户名是用户自行提交的,作为用户登陆搜索系统的身份验证资料。其他注册信息530是用户在注册为搜 索系统注册用户时除了用户名之外的其他信息,如登陆密码、所属行业、公司名称等。历史搜索信息540 是用户注册之后进行搜索的搜索语句和搜索结果的集合,服务器端系统130利用历史搜索信息540来形成 历史关键句词集550,是系统进行偏好学习的重要根据。历史关键句词集550是由历史搜索信息540形成 的,代表在用户的搜索习惯中,用户认为的与某个关键句/词相似、相关的关键句/词是哪些,这些关键句 /词汇集成一个句词集,形成该用户专属的某个关键句/词的关键句词集,用户搜索过的关键句/词的关键 句/词集存储在该用户的统计模型中,形成用户的历史关键句词集550。关注模块是由用户自行定制的感兴 趣的想要搜索的内容,可以是特定的行业,如金融业、服务业,也可以是特定的信息语言,如英语、日语, 亦可以是特定的地理区域,如大陆、港澳台。关注模块560同样是用户偏好学习的重要依据。客户端cookies 文件570是存储在客户端的一些网页信息,如用户名和网址,当用户没有登陆系统而进行搜索时,客户端 cookies文件570是用户偏好学习的唯一依据,而当用户登陆系统尔后进行搜索时,客户端cookies文件 570和用户统计模型的其他数据一起,作为用户偏好学习的依据。为了更好地理解图7示出的数据结构,下面对客户端cookies文件570做一个更为详细的说明。cookies 亦称cookie。 cookies是一种能够让网站服务器把少量数据储存到客户端的硬盘或内存,或是从客户端的 硬盘读取数据的一种技术。cookies是当某个用户浏览某网站时,由网络服务器置于用户硬盘上的一个非 常小的文本文件,它可以记录用户的用户名、密码、浏览过的网页、停留的时间等信息。当用户再次来到 该网站时,网站通过读取cookies,得知用户的相关信息,就可以做出相应的动作,如在页面显示欢迎用 户的标语,或者让用户不用输入用户名、密码就直接登录等等。在本发明的实施例中,不单独把客户端 cookies文件570作为用户统计模型的唯一数据,而把客户端cookies文件570和用户统计模型153中的 其他数据一起作为用户偏好学习的依据的另一个原因是,可能出现多人共用一台数字终端、临时文件夹的 删除的情况,使得cookies文件不能准确反映情况甚至丢失,所以,必须把其他数据引入用户统计模型153, 使得偏好学习的过程更为准确。下面再回到图1。网络服务器132:与像客户端系统I IOO和客户端系统IIIIO这样的客户端系统进行通信,如向客户端 系统I IOO和客户端系统IIIIO发送信息、接收信息,并执行相关联的任务。应用程序服务器133:根据示例性实施例,应用程序服务器存储、执行诸如应用程序160的计算机程 序。外部数据源140:可以采用类似于服务器端系统130的一个或多个服务器来实现,它的作用在于查询 服务器端系统130之外的可用第三方信息源,并利用这些信息源提供的相关信息内容通过应用程序160的 访问和执行生成关联信息返回给客户端系统I IOO和客户端系统IIIIO。应用程序160:在本说明中,把能够实现本发明所述方法和系统的一种或多种计算机程序统称为应用 程序,当然,应用程序中的某些处理可以通过客户端系统I IOO和客户端系统IIIIO来实现。应用程序160 包括了以下几个主要程序和机制表格化程序161、用户评价机制162、用户偏好学习机制163、并发爬虫 机器人程序164以及即时通讯程序165。表格化程序161:指的是这样一个程序,它将搜索结果152的内容结构化,分解成显示页面需要的字 段,如将一个专利信息分解成专利名称,发明人,专利概要等字段,并将这些分解好的字段一一对应地存 入相应地的表格单元中,然后系统将这个表格调用出来,显示成用户看到的页面。用户评价机制162:用户通过对搜索结果的评价,将其认为比较符合搜索目的和偏好的搜索结果挑选 出来,系统根据这些选中的搜索结果的概要信息中的关键句/词,进行进一步的搜索,从而达到深化搜索 的目的;另一方面,用户通过对搜索结果的评价,修正系统偏好学习的错误和偏差,从而改正了用户统计 模型153。用户偏好学习机制163:服务器端系统130通过存储在数据库服务器131中的用户统计模型153和关 联词库151,通过将搜索结果与用户统计模型中的数据进行关联度匹配,即在这些结果中根据用户偏好和 习惯的关键句词集来再次搜索,关联度越高表示用户对这个搜索结果越偏好,即兴趣越大。根据关联度, 系统对搜索结果进行删减和排序,关联度高的搜索结果显示的就越靠前。并发爬虫机器人程序164:系统响应用户的搜索请求,并把与关键句词集中的所有关键句/词相关的信 息从各个外部数据源140中抓取所需要的数据和信息,实现这样一种方法的程序称为并发爬虫机器人程序。 通过这个程序采集得来的搜索结果经过分析,存入数据库中,并以此更新用户统计模型。在本说明的示例 性实施例中,并发爬虫机器人程序164运用了 HTTP协议、socket技术、cookie线程池、dom4j、 XML、正 则表达式等相关技术。HTTP协议HTTP协议(Hypertext Transfer Protocol,超文本传输协议)是用于从WWW服务器传输超 文本到本地浏览器的传送协议。它可以使浏览器更加高效,使网络传输减少。它不仅保证数字终端正确快 速地传输超文本文档,还确定传输文档中的哪一部分,以及哪部分内容首先显示(如文本先于图形)等。socket:所谓socket通常也称作"套接字",用于描述IP地址和端口,是一个通信链的句柄。应用程 序通常通过"套接字"向网络发出请求或者应答网络请求。cookie:如图7中对客户端cookies文件570的说明那样,cookie是一个文档文件,只能被特定的网 站读取和调用。dom4j: dom4j是一个Java的XML API,类似于jdom,用来读写XML文件。dom4j是一个非常优秀的 Java XML API,具有性能优异、功能强大和极端易用使用的特点。XML: XML代表Extensible Markup Language (extensible Markup Language的縮写,意为可扩展的 标记语言)。XML是一套定义语义标记的规则,这些标记将文档分成许多部件并对这些部件加以标识。它也 是元标记语言,即定义了用于定义其他与特定领域有关的、语义的、结构化的标记语言的句法语言。XML 定义了一套元句法,如果一个应用程序可以理解这一元句法,那么它也就自动地能够理解所有的由此元语 言建立起来的语言。XML描述的是结构和语义,而不是格式化。正则表达式正则表达式(regular expression)描述了一种字符串匹配的模式,可以用来检査一个串 是否含有某种子串、将匹配的子串做替换或者从某个串中取出符合某个条件的子串等。正则表达式作为一 个模板,将某个字符模式与所搜索的字符串进行匹配。即时通讯程序165:在搜索结果152中,专利信息410、商机信息420、公司信息430都涉及了公司的 电话号码,即时通讯165是这样一个程序,用户通过客户端系统I 100或客户端系统IIllO的用户输入装 置,如鼠标,向系统请求与搜索结果中的某个公司进行通讯,系统启动即时通讯应用程序,将该用户与这 个公司的固定电话终端或网络电话终端接通,该公司人员拿起电话机话筒或启动网络电话终端,即表示通 讯连接成功,用户利用音频输入输出装置,如耳机和麦克风就可以即时地向感兴趣的公司咨询,而被呼叫 的公司人员也可以利用固定电话机或者是耳机和麦克风解答咨询。这样,用户不需要在有疑问时,利用固 定电话等通讯设备呼叫对方,而是直接在网上完成咨询。应当理解,图l只是为了更清楚地说明本发明而示出其中一种示范系统,但并不代表本发明就局限于 此范围。下面来看图2。图2示出示例性实施例的处理过程。其中图中的虚线框部分是系统后台执行的步骤或 是用户不可见的步骤。首先用户通过客户端系统IIOO或客户端系统IIllO登陆到系统网站,即通过数字 网络120向服务器端系统130发送信息请求,服务器端系统130将初始页面信息200返回给用户。初始页 面200包括以下几个部分搜索语句输入框201:在搜索语句输入框201中,用户可以输入一条带有搜索目的的完整语句,如"杭 州8月份的硬盘价格如何?";也可以输入关键词,如"电脑杭州"。关注模块定制按钮202:用来启动定制程序,用户点击该按钮后,系统自动调转到定制页面,通过这 个机制,用户可以定制自己感兴趣的内容,如特定的行业和特定的地理位置等。当然,这个按钮有效的前 提是该用户已经是注册用户且已经登陆系统,这个前提在接下来的步骤中也有类似描述。用户登陆/注册按钮203:用户通过这个按钮可以注册为该系统的注册用户,也可以通过这个按钮登陆 到该系统,以便系统启动用户统计模型153,使得搜索结果更精确。步骤210中,用户通过客户端系统i ioo或客户端系统niio中的用户输入单元,如键盘,在搜索语句输入框201中输入想要搜索的问题语句或关键词,如"杭州8月份的硬盘价格如何?"、"电脑杭州" 等。服务器端系统130接收到搜索请求,首先执行步骤211,对用户输入的问题语句或关键词进行高速中 文分词,将"杭州8月份的硬盘价格如何?"这个完整语句语义分解为"杭州"、"硬盘价格"、"8月份" 这几个关键句/词。接着步骤212,服务器端系统130在本地数据库服务器131中以及通过网络120和并发爬虫机器人程 序164在外部数据源140中检査该用户的关联词库151是否包含这些关键句/词相似和相关的关键句/词。接着步骤213,系统将这些相似的和相关的关键句/词加上语义分解后的关键句/词一起,从该用户的 关联词库151中提取出来,生成一个新的关键句词集,这个关键句词集包含了所有上述的关键句/词。然后在步骤214,服务器端系统130访问本地数据库服务器131以及通过网络120和并发爬虫机器人 程序164从外部数据源140请求搜索包含这些关键句/词的信息。步骤215,系统进行逻辑判断,如果用户登陆了该系统,说明该用户必定是注册用户,则进一步同时 激发步骤216和步骤217。步骤216调用服务器端系统130存储的用户统计模型153。步骤217调用客户 端系统I 100或客户端系统IIllO中储存的cookies文件。而如果用户没有登陆该系统,则不管该用户是 否注册用户,系统只执行步骤217,即只调用客户端系统I 100或客户端系统IIllO中储存的cookies文件。随后的步骤218,系统启动用户偏好学习机制163,利用关联词库151以及特定用户的用户统计模型 153进行用户的偏好学习,得出哪些关键句/词是用户偏好的或是符合用户搜索习惯的,根据这些关键句/ 词来判断搜索来的结果对这个用户而言是否有用,关联度较高,并根据这个思路继续执行步骤219。步骤219利用用户偏好学习的结果,系统对搜索结果进行删减、排序,把不相关的信息从搜索结果中 删除,把关联度较高的排列在前。在随后的步骤220中,系统调用应用程序服务器133中的表格化程序161,将已经排序好的搜索结果 用结构化方式写到网页的表格中,使得各项内容一一对应、简洁有序。接着系统将表格化的搜索结果230 展示给用户。并同时执行步骤221、步骤222和步骤223。步骤221中,系统利用搜索结果更新服务器端 系统130中的用户统计模型153,并存储到数据库服务器131中。步骤222中,系统利用搜索结果更新客 户端系统I100或客户端系统II110中的cookies文件。步骤223种,系统利用搜索结果的关键句/词更新 该用户的关联词库。最后展示给用户的搜索结果230包含了以下信息用户评价复选框231:在搜索结果描述234前都有一个复选框,读者可以选中这个复选框表示对这一 条搜索结果的关注度比其他未选中的搜索结果高,从而使得服务器端系统130能够根据这些选中的搜索结 果进行进一步的搜索,并同时依此更新用户统计模型。搜索结果描述234:简要地代表一个搜索结果,但是需要注意的是,搜索结果描述有时候并不能完全 或正确地反映搜索结果的内容。即时通讯按钮235:该按钮激发即时通讯程序165,目的是随时地和另一方取得语音联系,以便获得 最新最准的资讯。在步骤236中,用户通过输入单元如鼠标、键盘等选中评价复选框231,表示对这个搜索结果较为满 意、感兴趣。随后步骤237中,用户点击再次搜索按钮,系统启动用户评价机制162,将选中的搜索结果 重新进行髙速中文分词,再次激发步骤211以及随后的步骤,目的在于重新在整个网络数据而非在第一次 的搜索结果中搜索与选中搜索结果相关的信息,再次搜索得来的信息可能会比第一次搜索得来的信息更 多、更丰富,而不是越搜越少,所以也使得搜索结果更精确、更贴近用户的需要。这个过程也可以更新用 户统计模型153,从而使得用户偏好学习机制163的学习过程更准确。可以替代地,用户执行步骤238,用户将鼠标移动到结果描述234上。这时激发步骤239,系统将这 个结果信息的概要展示给用户,用户通过这个信息概要,可以清晰地判断该信息对其是否有用。可以替代地,用户执行步骤240,用鼠标点击即时通讯按钮235。系统接收到用户请求后,步骤241, 系统判断用户是否己经将音频输入输出设备,如耳机、麦克风设备连接到计算机上。如果系统能检测到这些设备已经在运转,则执行步骤244,提示用户戴上耳麦并确保麦克风开启。这 时对方拿起话筒后进入步骤245,表示通讯已经建立成功。而如果系统监测到用户并没有把耳机和麦克风连接到计算机上,则执行步骤242,系统提示用户将耳机和麦克风等设备与计算机连接好。待用户连接好通讯设备,即步骤243后,系统继续执行步骤244及其后续步骤。可以替代地,用户执行步骤246,用鼠标或键盘点击搜索结果描述234。随后,系统执行步骤247,将链接的搜索结果网页显示给用户,并继续执行步骤221、步骤222以及步骤223,更新服务器端用户统计模型153、客户端cookies文件以及该用户的关联词库151。在步骤210的替代步骤250中,用户可以定制自己感兴趣的内容,如特定的行业和地理位置,但这个 功能只对注册用户开放。用户点击关注模块定制按钮202后,系统执行逻辑判断步骤251,判断用户是否 已经登陆了网站,如果用户已经登陆,则该用户必定是系统的注册用户,则系统继续执行步骤221、步骤 222以及步骤223。步骤221中,系统利用搜索结果更新服务器端系统130中的用户统计模型153,并存储 到数据库服务器131中。步骤222中,系统利用搜索结果更新客户端系统I 100或客户端系统IIllO中的 cookies文件。步骤223中,系统利用搜索结果的关键句/词更新关联词库151。如果系统的逻辑判断步骤251的结果为"否",即用户并没有登陆该系统,则系统执行步骤252,显示 用户注册/登陆框。接着步骤253,如果该用户为该系统的注册用户,则用户可以选择执行步骤254,输入用户名和密码 或只是密码,然后登陆到该系统网站。可以替代地,如果该用户尚未注册,则用户可以通过提交注册需要的信息,即步骤255注册为该系统 的注册用户。随后,步骤256,服务器端系统130自动利用注册信息为该用户新建一个用户统计模型153 并存储在数据库服务器131中。同时,服务器端系统130执行步骤222,更新客户端系统I 100或客户端 系统IIllO中的cookies文件。当然,可以很容易地看出,该流程并非一定按照如上所述的顺序进行,而是一个不断循环反复的过程, 步骤顺序的不同并不影响实现本发明所述的方法的系统,因此本发明也不受限于该示例性实施例所画出的 流程图。下面来看图8、图9、图10,这三张图分别展示的是一个实施例中的三个内容的搜索页面截图专利、 商机和公司。图8示出示例性实施例创建和生成的专利信息搜索网页的用户界面截图。其中搜索语句输入框610对 应于图2的搜索语句输入框201,两者在两张不同的图中标号不同,但是执行的功能相同,例如用户在搜 索语句输入框610输入"手机",则系统将手机相关的专利信息显示给用户,即图2中,系统执行步骤230, 返回的信息包括专利描述613、所属公司名称614、公司email615、电话号码616以及联系地址618。其
中,用户选中了两个专利描述613前的评价复选框612,表示这两个专利信息是用户需要的。用户点击再 次搜索按钮611后,系统会执行图2中的步骤237,在整个网络数据库重新搜索相关信息。在用户评价复 选框612后显示的是专利描述613,图8显示的是用户将光标移到专利描述613上的情况,此时,系统执 行图2中的步骤239,将该专利的概要信息619显示给用户。在每一个电话号码616之后,都有一个即时 通讯按钮617,如果用户对这个专利有兴趣或疑问,可以点击这个按钮连接到对方进行语音通话。当然, 该系统也提供普通搜索引擎提供的功能,即在结果中筛选信息,在本系统中,用户可以根据联系方式620 如email、电话、地址进行筛选,也可以根据特定关键字621如北京、浙江、上海、湖北进行筛选。除此 之外,系统在把用户搜索的专利信息显示给用户的同时,也提供了相关商机信息622和相关公司信息623, 便于用户査找,而这些商机和公司信息是通过图6中的公司编号451进行关联的。图9示出示例性实施例创建和生成的商机信息搜索网页的用户界面截图。其中搜索语句输入框630对 应于图2的搜索语句输入框201和图8的搜索语句输入框610,三者在不同的图中标号不同,但是执行的 功能相同,例如用户在搜索语句输入框630输入"电脑",则系统将电脑相关的商机信息显示给用户,即 图2中,系统执行步骤230,返回的信息包括商机描述633、商机类型634、所属公司名称635、电话号码 636、联系地址638。其中,用户选中了五个商机描述633前的评价复选框632,表示这五个商机信息是用 户需要的。用户点击再次搜索按钮631后,系统会执行图2中的步骤237,在整个网络数据库重新搜索相 关信息。在用户评价复选框632后显示的是商机描述633,图9显示的是用户将光标移到商机描述633上 的情况,此时,系统执行图2中的步骤239,将该商机的概要信息639显示给用户。和专利信息不同的是, 商机类型634代表的是该商机是出售信息还是求购信息。在每一个电话号码636之后,都有一个即时通讯 按钮637,如果用户对这个商机有兴趣或疑问,可以点击这个按钮连接到对方进行语音通话。当然,该系 统也提供普通搜索引擎提供的功能,即在结果中筛选信息,在本系统中,用户可以根据商机类型640如出 售、求购进行筛选,也可以根据联系方式641如email、电话、地址进行筛选,亦可以根据特定关键字643 如北京、浙江、上海、湖北进行筛选。除此之外,系统在把用户搜索的商机信息显示给用户的同时,也提 供了相关专利信息643和相关公司信息644,便于用户査找,而这些专利和公司信息是通过图6中的公司 编号451进行关联的。图10示出示例性实施例创建和生成的公司信息搜索网页的用户界面截图。其中搜索语句输入框650 对应于图2的搜索语句输入框201、图8的搜索语句输入框610和图9的搜索语句输入框630,四者在不 同的图中标号不同,但是执行的功能相同,例如用户在搜索语句输入框650输入"电脑",则系统将电脑 相关的公司信息显示给用户,即图2中,系统执行步骤230,返回的信息包括公司描述653、公司类型654、 注册资本655、电话号码656、联系地址658、邮政编码659。其中,用户选中了三个公司描述653前的评 价复选框652,表示这三个公司信息是用户需要的。用户点击再次搜索按钮651后,系统会执行图2中的 步骤237,在整个网络数据库重新搜索相关信息。和专利信息和商机信息不同的是,公司类型654代表的 是该公司是贸易型、生产型、服务型还是政府或其它机构。在每一个电话号码656之后,都有一个即时通 讯按钮657,如果用户对这个公司有兴趣或疑问,可以点击这个按钮连接到对方进行语音通话。当然,该 系统也提供普通搜索引擎提供的功能,即在结果中筛选信息,在本系统中,用户可以根据公司经营模式661 如贸易型、生产型、服务型、政府或其它机构进行筛选,也可以根据联系方式662如email、电话、地址 进行筛选,亦可以根据特定关键字663如北京、浙江、上海、湖北进行筛选。除此之外,系统在把用户搜 索的公司信息显示给用户的同时,也提供了相关专利信息664和相关商机信息665,便于用户査找,而这 些专利和商机信息是通过图6中的公司编号451进行关联的。图10显示的是用户将光标移到相关商机信 息665条目上的情况,类似地,系统执行图2中的步骤239,将该商机的概要信息660显示给用户。以上通过对参考附图的详细说明,该领域的技术人员能很容易地了解本发明所述方法和系统的实现原 理和机制,参考附图的绘制只是为了更好地说明本发明的方法和系统,而不是规定保护的范围,本发明的 保护范围由所附权利要求书界定。除上述实施例外,本发明还可以有其他实施方式。凡采用等同替换或等 效变换形成的技术方案,均落在本发明要求的保护范围。
权利要求
1、一种自助式智能垂直搜索方法,其特征在于该方法包括如下步骤1.1)、利用存储在客户端和服务器端的用户cookies文件、注册信息、历史搜索信息以及定制的关注模块进行用户偏好学习,并将这个用户偏好建立为用户统计模型实时、动态地存储到搜索引擎数据库中;1.2)、利用关联句/词库对用户输入的搜索语句进行高速中文分词,并生成一个关键句/词集文件,该文件包含了进行语义分析后的所有相关、相似的关键句和关键词,对用户历史搜索信息进行统计学习,得出在用户的搜索习惯中与这些关键句/词集相关、相似的关键句/词,通过高速中文分词和用户搜索习惯学习,得出一个最终的关键句/词集文件;1.3)、搜索引擎通过网络数据库搜索所有与这些惯性关键句/词相关的信息,同时,将这些搜索结果与用户统计模型进行匹配,在这些搜索结果中搜索其关键句/词符合用户偏好的信息,最终,将符合用户偏好的搜索结果返回给用户。
2、 根据权利要求l所述的自助式智能垂直搜索方法,其特征在于将用户对搜索结果的评价反映出 来,据此来修正机器学习的过程,并同时修正用户统计模型。
3、 根据权利要求1所述的自助式智能垂直搜索方法,其特征在于用户可以定制感兴趣的内容和信 息、表格化搜索结果以及即时通讯。
全文摘要
本发明涉及一种自助式智能垂直搜索方法,包括如下步骤利用用户cookies文件、注册信息、历史搜索信息以及定制的关注模块进行用户偏好学习,并将这个用户偏好建立为用户统计模型实时、动态地存储到搜索引擎数据库中;通过高速中文分词和用户搜索习惯学习,得出一个最终的关键句/词集文件;搜索引擎通过网络数据库搜索所有与这些惯性关键句/词相关的信息,同时,将这些搜索结果与用户统计模型进行匹配,将符合用户偏好的搜索结果返回给用户。本发明有益的效果是用户可以从庞大的信息集中寻找他们需要的信息,能主动地学习用户的使用偏好和习惯,从而使得搜索的结果更加合乎用户的“口味”,而且是完全由用户来判断搜索结果对其的价值。
文档编号G06F17/30GK101114294SQ20071007097
公开日2008年1月30日 申请日期2007年8月22日 优先权日2007年8月22日
发明者施侃晟, 施章祖 申请人:杭州经合易智控股有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1