可拓展的用户意图挖掘方法及其系统的制作方法

文档序号:9911146阅读:1033来源:国知局
可拓展的用户意图挖掘方法及其系统的制作方法
【技术领域】
[0001] 本发明涉及数据处理及用户交互技术领域,尤其涉及一种可拓展的用户意图挖掘 方法及其系统。
【背景技术】
[0002] 如今,遍及全世界,每秒都能生成成百上万个搜索结果的搜索引擎已经成为现代 人生活中不可或缺的一部分。随着网络信息的爆炸性增长,网络搜索服务的关键之处在于 通过简短的搜索条件来尽可能的匹配用户偏好从而更好的理解用户的需求。所述搜索引擎 在人类生活中扮演着重要的角色,并且通过向用户提供信息极大的促进了日常生活的便 利。
[0003] 但是,对于计算机而言,理解人类的搜索意图是很困难的。由于缺乏在某些场景中 的个人信息以及当寻找相类似用户群时所需要的大量计算,个性化的搜索是一个很有挑战 性的问题。
[0004] 不同的人均有不同的爱好。即使是对于一个用户,其爱好也有可能随时间而改变。 因此,能够满足个性化搜索需求和适应用户意图随时间的变化的在线搜索服务是非常必要 的。因此,特定的用户信息(例如,用户文档、用户搜索历史、在先观看的内容等等)可以作为 定义用户意图的标识。
[0005] 本发明公开的方法及其系统用于解决现有技术中的一个或者多个问题。
[0006] 发明概述
[0007] 本发明的一方面公开了一种可拓展的用户意图挖掘方法。所述方法包括:在公共 搜索日志数据集的若干搜索日志中检测第一命名实体并且基于所述第一命名实体,生成与 所述第一命名实体对应的若干搜索日志的第一特征。还包括在所述第一特征上应用所述多 模型的限制玻尔兹曼机从而训练公共多模型限制玻尔兹曼机,生成公共搜索项目的表示; 获取用户的搜索项目,判断是否存在用户的搜索历史。当不存在用户的搜索历史时,使用所 述公共多模型限制玻尔兹曼机来预测用户意图,并且当存在用户的搜索历史时,在所述搜 索历史上应用所述公共多模型限制玻尔兹曼机从而训练个人多模型限制玻尔兹曼机,并使 用所述个人多模型限制玻尔兹曼机来预测用户意图。
[0008] 本发明另一方面公开了可拓展的用户意图挖掘系统。所述系统包括:第一命名实 体检测单元,用于在公共搜索日志数据集的若干搜索日志中检测第一命名实体;第一特征 生成单元,用于基于所述第一命名实体,生成与所述第一命名实体对应的搜索日志的第一 特征;公共多模型限制玻尔兹曼机学习单元,用于在所述第一特征中应用多模型的限制玻 尔兹曼机从而生成公共搜索项目的表示;个人模型学习模块,用于在用户的搜索历史中应 用多模型的限制玻尔兹曼机从而训练个人多模型限制玻尔兹曼机;以及意图挖掘模块,用 于使用所述公共多模型限制玻尔兹曼机和个人多模型玻尔兹曼机预测用户意图。
[0009] 本发明的再一方面公开了一个存储有用于执行可拓展的用户意图挖掘的操作的 计算机可执行指令的计算机可读存储模块。所述计算机可执行指令包括:在公共搜索日志 数据集的搜索日志中检测第一命名实体;基于所述第一命名实体,生成与所述第一命名实 体对应的若干搜索日志的第一特征;在所述第一特征上应用所述多模型的限制玻尔兹曼机 从而训练公共模型限制玻尔兹曼机;生成公共搜索项目的表示;获取用户的搜索项目;判断 是否存在用户的搜索历史;当不存在用户的搜索历史时,使用所述公共多模型限制玻尔兹 曼机来预测用户意图,并且当存在用户的搜索历史时,在所述搜索历史上应用所述公共多 模型限制玻尔兹曼机从而训练个人多模型限制玻尔兹曼机,并使用所述个人多模型限制玻 尔兹曼机来预测用户意图。
[0010]本发明的其他方面,所属技术领域技术人员能够依据本发明的权利要求书,说明 书,以及附图有效实施并充分公开。
[0011] 附图简要说明
[0012] 图1为本发明【具体实施方式】的工作环境示意图。
[0013] 图2本发明【具体实施方式】的计算系统的结构框图。
[0014] 图3为本发明【具体实施方式】的可拓展的多模型学习系统的结构框图。
[0015] 图4为本发明【具体实施方式】的可拓展的用户意图挖掘方法的流程图。
[0016] 图5为本发明【具体实施方式】的限制玻尔兹曼机的示意图。
[0017]图6为本发明【具体实施方式】的使用URL数据训练限制玻尔兹曼机的示意图。
[0018] 图7为本发明【具体实施方式】的使用搜索文本数据训练限制玻尔兹曼机的示意图。
[0019] 图8为本发明【具体实施方式】的用于多类型输入数据的多模型学习系统的示意图。
[0020] 图9为本发明【具体实施方式】的多模型限制玻尔兹曼机预测用户意图的示意图。
[0021 ]图10为本发明【具体实施方式】的用户意图挖掘的搜索项目处理程序的示意图。
[0022] 详细说明
[0023]附图中展示的部分将被引用以具体说明,阐述本发明具体技术实施方案。说明书 中引用的数字代表附图的相应部分。
[0024] 图1为本发明【具体实施方式】中的工作环境100。如图1所示,所述工作环境100包括: 终端102,服务器106,用户108,网络系统110。
[0025] 终端102(也被称作终端设备)可以是任何合适的,具有运算能力的用户终端,例如 个人电脑(PC)、工作站、服务器计算机、掌上电脑(平板电脑)、智能手机、移动电话或者其他 用户端运算设备。在本发明的具体实施例中,终端102可以是一个移动终端,例如智能手机、 掌上电脑、移动电话等等。终端102可以在任何合适的运算平台上运行。用户108还可以使用 终端102连接网络系统110并向服务器106发出请求。所述终端102可以从任何合适的资源获 取网站,例如本地存储设备、服务器供应商提供的无线或者有线网络设备或者因特网。
[0026] 具体的,服务器106具体指一个或者多个用于提供特定网络服务功能(例如搜索服 务)的服务计算机。所述服务器106可以包括一个或者多个处理器从而平行运行计算机程 序。所述服务器106还可以存储终端获取的网页,并且每个网页有对应唯一的网址。所述唯 一对应的网址也被称作URL。终端102及服务器106可以通过网络系统110,例如有线网络、电 话网络和/或卫星网络等等建立连接。尽管图1仅展示了一个终端102和一个服务器106,本 发明还可以包括任何数量的终端及服务器。
[0027] 终端102和/或服务器106可以在任何合适的电子计算平台上运行。图2为本发明具 体实施例的用于运行终端102和/或服务器106的计算系统的结构框图。
[0028]如图2所示,所述计算系统200包括处理器202,存储器204,播放器206,通信模块 208,数据库210以及外围设备212。所述计算系统可以减省上述设备,也可以添加一些其他 类型的设备,而不限于上述设备。
[0029] 所述处理器202可以是任何合适的处理器或处理器组。具体的,所述处理器202为 能够进行多线程处理的多核心处理器。存储器204可以是任何合适的存储设备,例如R0M, RAM,闪存或者大容量存储器,例如CD-ROM,硬盘等。存储器204用于存储为进行各种数据处 理而预设的计算机运行程序。
[0030] 所述外围设备212具体包括:各种类型的传感器以及输入,输出设备,例如键盘,鼠 标。通信模块208具体包括:各类网络交互设备,用于在设备间通过网络系统建立连接。数据 库210具体包括一到多个用于存储不同数据以及对数据进行一些处理,例如搜索数据的数 据库。
[0031] 基于来自于用户108的至少一个搜索条件,终端102向服务器106发出请求,并且服 务器106回复接收到的请求。图3为本发明具体实施例的可拓展的多模型学习系统的结构框 图。
[0032]如图3所示,所述可拓展的多模型学习系统300可以包括公共模型学习模块30、个 人模型学习模块32、以及一个用户意图挖掘模块34。还可以增添或者减省一些特定的模块。 [0033]所述公共模型学习模块30可以用于执行公共模型学习程序。所述程序从大量的搜 索日志数据中学习一般的表示(例如公共数据的表示)并且学习公共模型的参数。所述公共 模型学习程序可以仅运行一次。
[0034]所述公共模型学习模块30可以包括搜索日志数据集301、第一命名实体检测单元 303、第一特征生成单元305以及公共多模型的限制玻尔兹曼机(RBM)学习单元307。还可以 增添或者减省一些特定的组成部分。所述公共模型学习模块30的组成部分可以在硬件、软 件或者软件硬件结合的方式中执行。
[0035]所述搜索日志数据集301可以用于存储网站的搜索引擎搜索日志(例如Google搜 索、必应搜索、雅虎搜索等等)与其他的资源(例如推特、博客)相比,所述搜索引擎搜索日志 能够更直观的反映用户的兴趣及需求。所述搜索日志可以包括用户会话、用户ID、搜索、搜 索项目、每个搜索的一系列URL、域名、URL排序等等。
[0036]所述第一命名实体检测单元303可以用于在搜索日志数据集301的大量搜索日志 中检测命名实体。在使用搜索引擎时,用户通常倾向于使用简单、直接的单词来描述用户的 需求。一般的,用户通常使用命名实体来描述自己的需求。在数据挖掘领域,命名实体表示 一个能够清晰的将一个项目从具有其他相类似属性的项目中区分出来的短语。命名实体的 例子包括:位置、人的姓名、地址以及产品名称等等。不同的用户可能会搜索一个命名实体 的不同方面,但很难告知搜索引擎用户的真正搜索
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1