内链信息推荐方法及装置制造方法

文档序号:6502698阅读:128来源:国知局
内链信息推荐方法及装置制造方法
【专利摘要】本发明公开一种内链信息推荐方法及装置,通过接收用户端发送的获取文档内容的请求,查找对应的文档内容;根据存储的用户端访问所有文档内容的历史数据及挖掘模型,识别该文档内容对应的服务类型,并选择与所述服务类型适配的挖掘模型;根据与所述服务类型适配的挖掘模型,对查找的所述文档内容进行待内链的词语的挖掘后,在所述文档内容中将挖掘的词语进行内链,并将词语内链后的文档内容发送至用户端的方法,使服务器端具有实时、主动向用户端发送词语内链后的文档内容的有益效果,提高了系统效率,节省了大量的人力成本。
【专利说明】内链信息推荐方法及装置

【技术领域】
[0001] 本发明涉及计算机网络技术,尤其涉及一种内链信息推荐方法及装置。

【背景技术】
[0002] 在用户端访问一些电子商务平台、社区或者使用即时通讯等包含有文字内容的产 品时,服务器端通常会针对用户端的点击率或者近期的热点话题,从上述文字产品中选取 一些专用术语如人名、地名、历史事件或者网页地址等内链信息发送至用户端,供用户端访 问;当用户端点击上述内链信息比如某一内链词语时,便会跳转至该内链词语对应的搜索 结果页面或者是百科词条页面或者是该内链词语所对应的其他相应页面。
[0003] 目前,选取上述内链词语的方式通常是由服务器后台的工作人员进行人工搜集、 统计、排序后,再推送至用户端;由于网络访问的用户不计其数而访问内容也千差万别,且 新的词语和社会热点也不断涌现,信息更新速度也很快,因此采用人工搜集、统计、排序后 进行推送的实现方式浪费大量的人力、物力和时间,内链信息推荐效率低,实施过程不智 能。


【发明内容】

[0004] 本发明的主要目的是提供一种内链信息推荐方法及装置,旨在达到服务器端能够 主动发送内链信息至用户端的目的。
[0005] 本发明实施例公开了一种内链信息推荐方法,包括以下步骤:
[0006] 接收用户端发送的获取文档内容的请求,查找对应的所述文档内容;
[0007] 根据存储的用户端访问所有文档内容的历史数据及挖掘模型,识别所述文档内容 对应的服务类型,并选择与所述服务类型适配的挖掘模型;
[0008] 根据与所述服务类型适配的挖掘模型,对查找的所述文档内容进行待内链的词语 的挖掘后,在所述文档内容中将挖掘的词语进行内链,并将词语内链后的文档内容发送至 用户端。
[0009] 本发明实施例还公开了一种内链信息推荐装置,包括:
[0010] 前端服务模块,用于接收用户端发送的获取文档内容的请求,查找对应的所述文 档内容;
[0011] 模型适配模块,用于根据存储的用户端访问所有文档内容的历史数据及挖掘模 型,识别所述文档内容对应的服务类型,并选择与所述服务类型适配的挖掘模型;
[0012] 在线挖掘模块,用于根据与所述服务类型适配的挖掘模型,对查找的所述文档内 容进行待内链的词语的挖掘后,在所述文档内容中将挖掘的词语进行内链,并将词语内链 后的文档内容发送至用户端。
[0013] 本发明通过接收用户端发送的获取文档内容的请求,查找对应的文档内容;根据 存储的用户端访问所有文档内容的历史数据及挖掘模型,识别该文档内容对应的服务类 型,并选择与所述服务类型适配的挖掘模型;根据与所述服务类型适配的挖掘模型,对查找 的所述文档内容进行待内链的词语的挖掘后,在所述文档内容中将挖掘的词语进行内链, 并将词语内链后的文档内容发送至用户端的方法,使服务器端具有实时、主动向用户端发 送词语内链后的文档内容的有益效果,提高了系统效率,节省了大量的人力成本。

【专利附图】

【附图说明】
[0014] 图1是本发明内链信息推荐方法第一实施例流程示意图;
[0015] 图2是本发明内链信息推荐方法第二实施例流程示意图;
[0016] 图3是本发明内链信息推荐方法中获取并存储用户端访问所有文档内容的历史 数据和挖掘模型一实施例流程示意图;
[0017] 图4采用本发明内链信息推荐方法进行实时内链挖掘过程中离线挖掘系统、实施 服务系统和用户服务端交互一实施例流程示意图;
[0018] 图5是本发明内链信息推荐装置第一实施例功能模块示意图;
[0019]图6是本发明内链信息推荐装置第二实施例功能模块示意图;
[0020] 图7是本发明内链信息推荐装置中离线挖掘模块一实施例功能模块示意图;
[0021] 图8是本发明内链信息推荐装置进行实时内链挖掘时各功能模块部署一实施例 结构示意图。
[0022] 本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

【具体实施方式】
[0023] 以下结合说明书附图及具体实施例进一步说明本发明的技术方案。应当理解,此 处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0024] 参照图1,图1是本发明内链信息推荐方法第一实施例流程示意图;如图1所示, 本发明内链信息推荐方法包括以下步骤:
[0025] 步骤S01、接收用户端发送的获取文档内容的请求,查找对应的所述文档内容;
[0026] 服务器端接收到用户端发送的获取文档内容的请求后,对上述请求进行合法性判 断、规范化处理等数据处理后,响应用户端合法的所述请求,并查找与所述请求对应的所述 文档内容。
[0027] 步骤S02、根据存储的用户端访问所有文档内容的历史数据及挖掘模型,识别所述 文档内容对应的服务类型,并选择与所述服务类型适配的挖掘模型;
[0028] 服务器端在查找到与用户端的请求对应的文档内容后,根据预先存储的用户端访 问所有文档内容的历史记录数据以及挖掘模型,识别用户端请求的文档内容所对应的服务 类型。
[0029] 所述文档内容所对应的服务类型包括即时通讯所对应的服务类型,比如QQ、飞信、 微信、MSN等即时通讯所包含的文档内容,如中文词语或者外文词语等。所述文档内容所对 应的服务类型还包括社区、电子商务平台、搜索页面等以网页形式出现的应用所包含的文 档内容,如问问、拍拍、微博、搜搜等页面所包含的文档内容。
[0030] 服务器端根据识别的文档内容所对应的服务类型,从预先存储的数据库中选择与 该服务类型适配的内链词的挖掘模型。
[0031] 步骤S03、根据与所述服务类型适配的挖掘模型,对查找的所述文档内容进行待内 链的词语的挖掘后,在所述文档内容中将挖掘的词语进行内链,并将词语内链后的文档内 容发送至用户端。
[0032] 服务器端根据与选择的所述服务类型适配的挖掘模型,对查找到的所述文档内容 进行内链词的实时挖掘。对所述文档内容进行内链词的实时挖掘可以理解为,对查找到的 所述文档内容出现的待内链的词语进行挖掘。服务器端挖掘出所述文档内容中待内链的词 语后,在所述文档内容中将挖掘出的待内链的词语进行内链,并将词语内链后的文档内容 发送至用户端。
[0033] 本实施例及本发明内链信息推荐方法及装置中的其他实施例中,将内链后的词语 称为内链词,在本实施例的后续实施例中,对内链词的解释将不再赘述。
[0034] 本实施例中,内链词成为当前文档内容与同一网站域名下的内容页面之间互相链 接的接口,提高了搜索引擎的收录与网站权重。在用户端浏览所述文档内容时,通过直接点 击所述文档内容中的内链词,便可以直接跳转至该内链词所对应的链接页面,提高了系统 效率,节省了用户端查询该词语的时间。
[0035] 比如在如下的具体应用场景中,以问问社区为例;在问问社区中,针对用户的提 问,会有多个其他用户的回答,如果某一个回答被采纳,该回答就成为满意答案或精华知 识。为了提高了搜索引擎的收录与网站权重,同时为了让该用户对其他用户的回答理解得 更加透彻和全面,节省用户的搜索时间,服务器端会针对满意答案中的一些专有术语(如人 名、地名、历史事件、物质名称等)进行内链,使上述专有术语称为内链词;服务器端在接收 到用户端触发的进入该内链词对应的页面如用户点击上述内链词时,则服务器端将控制搜 索引擎跳转进入到该内链词对应的搜索结果页面或是百科词条页面或者是其他对应的页 面,提高了搜索引擎的收录与网站权重,同时也方便用户查找。
[0036] 本实施例通过接收用户端发送的获取文档内容的请求,查找对应的文档内容;根 据存储的用户端访问所有文档内容的历史数据及挖掘模型,识别该文档内容对应的服务类 型,并选择与所述服务类型适配的挖掘模型;根据与所述服务类型适配的挖掘模型,对查找 的所述文档内容进行待内链的词语的挖掘后,在所述文档内容中将挖掘的词语进行内链, 并将词语内链后的文档内容发送至用户端的方法,使服务器端具有实时、主动向用户端发 送词语内链后的文档内容的有益效果,提高了系统效率,节省了大量的人力成本。
[0037] 请参照图2,图2是本发明内链信息推荐方法第二实施例流程示意图;本实施例与 图1所述实施例的区别是,仅增加了步骤S10、获取并存储用户端访问所有文档内容的历史 数据和挖掘模型;本实施例仅对步骤S10做具体描述,本发明内链信息推荐方法所涉及的 其他步骤请参照相关实施例的具体描述,在此不再赘述。
[0038] 如图2所示,本发明内链信息推荐方法在步骤S01、接收用户端发送的获取文档内 容的请求,查找对应的所述文档内容的步骤之前还包括:
[0039] 步骤S10、获取并存储用户端访问所有文档内容的历史数据和挖掘模型。
[0040] 服务器端获取用户端访问所有文档内容的历史数据和挖掘模型,并将获取的所有 文档内容的历史数据和挖掘模型存储在数据库中;本实施例所述的挖掘模型包括服务器端 在线挖掘需进行内链的词语的挖掘模型。
[0041] 服务器端获取用户端访问所有文档内容的历史数据包括:社区、电子商务平台和 搜索页面中用户的提问和满意回答、精华知识、微博博文、百度空间和QQ空间等空间社区 的博客、新闻等用户访问过的任一包含数字内容的产品所对应的数据。
[0042] 服务器端获取挖掘模型包括:采用高频共现的方式作为挖掘模型;比如,某两个 词在整体文档中共同出现的频率最高,则服务器端识别这个词是相关、相似、相近的词。月艮 务器端获取挖掘模型还包括,按照通用评分的算法模型比如排序模型、BM25算法模型。所 述挖掘模型至少一个。
[0043] 请参照图3,图3是本发明内链信息推荐方法中获取并存储用户端访问所有文档 内容的历史数据和挖掘模型一实施例流程示意图;如图3所示,在一优选的实施例中,获取 并存储用户端访问所有文档内容的历史数据和挖掘模型包括:
[0044] 步骤S11、获取用户端访问所有文档内容的历史数据;
[0045] 步骤S12、对所述所有文档内容的历史数据进行分词,并将分词后的所有文档内容 保存在知识库中;
[0046] 服务器端获取用户端访问的所有文档内容的历史数据后,将上述历史数据作为语 料对其进行分词。本实施例中所述的分词指中文分词,即将一个汉字序列切分成一个一个 单独的词。
[0047] 本实施例中,服务器端可以采用通用的分词库对上述文档内容进行分词,并将分 词后的文档内容保存在数据库中;为了便于查找,可以将分词后的文档内容直接保存在数 据库的知识库中。同时,由于不同服务类型的产品所对应的文档内容有所不同,因此,服务 器端也可以根据不同服务类型的产品所对应的不同文档内容,在知识库中增加各服务类型 所对应的常用词语和专用名词等。比如对于互动问答社区,可以增加常用短语、歇后语、专 用名词等。服务器端可以将每个文档的分词作为一个集合,并将语义相同或者相近的一组 词的集合组成一个语义树;将各个语义树组合成上述知识库。
[0048] 由于知识库因不同服务类型的文档内容的不同而有所区别,因此,可以将分词后 不同服务类型的文档内容分开保存在对应的知识库中;当然,分词后的所有文档内容可以 共用一个知识库。在一较佳的实施例中,将分词后不同服务类型的文档内容分别保存在各 自对应的知识库中。
[0049] 步骤S13、对所述知识库按照预设算法模型进行离线挖掘,获取离线挖掘的待内链 的词语;
[0050] 服务器端根据文档内容的服务类型,可以对不同的服务类型分别进行独立的离 线,即各产品之间分开,完全独立。
[0051] 在服务器端对上述知识库进行离线挖掘时,按照内链挖掘的相关性算法模型进 行,并获取离线挖掘的待内链的词语。离线挖掘的预设算法模型的重要参数包括:相关性、 用户喜爱度和用户点击度。
[0052] 以BM25算法为例,文档内容中出现的词语的BM25值越大,该词语的相关性越好。 BM25值的计算公式如下:
[0053]

【权利要求】
1. 一种内链信息推荐方法,其特征在于,包括以下步骤: 接收用户端发送的获取文档内容的请求,查找对应的所述文档内容; 根据存储的用户端访问所有文档内容的历史数据及挖掘模型,识别所述文档内容对应 的服务类型,并选择与所述服务类型适配的挖掘模型; 根据与所述服务类型适配的挖掘模型,对查找的所述文档内容进行待内链的词语的挖 掘后,在所述文档内容中将挖掘的词语进行内链,并将词语内链后的文档内容发送至用户 端。
2. 如权利要求1所述的方法,其特征在于,所述接收用户端发送的获取文档内容的请 求之前还包括: 获取并存储用户端访问所有文档内容的历史数据和挖掘模型。
3. 如权利要求2所述的方法,其特征在于,所述获取并存储用户端访问所有文档内容 的历史数据和挖掘模型包括: 获取用户端访问所有文档内容的历史数据; 对所述所有文档内容的历史数据进行分词,并将分词后的所有文档内容保存在知识库 中; 对所述知识库按照预设算法模型进行离线挖掘,获取离线挖掘的待内链的词语; 根据离线挖掘的待内链的词语在预设周期内用户端的点击度及与用户端获取的文档 内容的相关度,调整所述算法模型,以获取对应的所述挖掘模型并存储。
4. 如权利要求3所述的方法,其特征在于,所述对所述知识库按照预设算法模型进行 离线挖掘,获取离线挖掘的待内链的词语之后还包括: 根据离线挖掘的待内链的词语在预设周期内用户端的浏览次数、用户数量及流量,调 整所述算法模型,以获取对应的所述挖掘模型并存储。
5. 如权利要求3或4所述的方法,其特征在于,所述将分词后的所有文档内容保存在知 识库中包括: 根据文档内容的不同类型,将分词后的文档内容保存在不同的知识库中。
6. -种内链信息推荐装置,其特征在于,包括: 前端服务模块,用于接收用户端发送的获取文档内容的请求,查找对应的所述文档内 容; 模型适配模块,用于根据存储的用户端访问所有文档内容的历史数据及挖掘模型,识 别所述文档内容对应的服务类型,并选择与所述服务类型适配的挖掘模型; 在线挖掘模块,用于根据与所述服务类型适配的挖掘模型,对查找的所述文档内容进 行待内链的词语的挖掘后,在所述文档内容中将挖掘的词语进行内链,并将词语内链后的 文档内容发送至用户端。
7. 如权利要求6所述的装置,其特征在于,还包括: 离线挖掘模块,用于获取并存储用户端访问所有文档内容的历史数据和挖掘模型。
8. 如权利要求7所述的装置,其特征在于,所述离线挖掘模块包括: 数据获取单元,用于获取用户端访问所有文档内容的历史数据; 数据分词单元,用于对所述所有文档内容的历史数据进行分词,并将分词后的所有文 档内容保存在知识库中; 离线挖掘单元,用于对所述知识库按照预设算法模型进行离线挖掘,获取离线挖掘的 待内链的词语; 模型训练单元,用于根据离线挖掘的待内链的词语在预设周期内用户端的点击度及与 用户端获取的文档内容的相关度,调整所述算法模型,以获取对应的所述挖掘模型并存储。
9. 如权利要求8所述的装置,其特征在于,所述模型训练单元还用于: 根据离线挖掘的待内链的词语在预设周期内用户端的浏览次数、用户数量及流量,调 整所述算法模型,以获取对应的所述挖掘模型并存储。
10. 如权利要求7或8所述的装置,其特征在于,所述离线挖掘模块还用于: 根据文档内容的不同类型,将分词后的文档内容保存在不同的知识库中。
【文档编号】G06F17/30GK104156359SQ201310174941
【公开日】2014年11月19日 申请日期:2013年5月13日 优先权日:2013年5月13日
【发明者】潘璇, 程刚 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1