事件相关度计算方法、装置、设备及存储介质与流程

文档序号:17642995发布日期:2019-05-11 00:48阅读:318来源:国知局
事件相关度计算方法、装置、设备及存储介质与流程
本发明实施例涉及计算机
技术领域
,尤其涉及一种事件相关度计算方法、装置、设备及存储介质。
背景技术
:事件是由特定人、物、事在特定时间、特定地点相互作用的客观事实,事件的发生具有客观性、真实性等特点。事件相关度是指事件与事件之间的相关性强度。现有技术中,事件相关度的计算方法包括:通过文本相关性计算事件相关度的方法和通过事件关键属性计算事件相关度的方法。但是,通过现有技术计算的事件相关度的精度较低。技术实现要素:本发明实施例提供一种事件相关度计算方法、装置、设备及存储介质,以提高事件相关度的计算精度。第一方面,本发明实施例提供一种事件相关度计算方法,包括:获取用户行为日志,所述用户行为日志包括多个记录信息,所述多个记录信息中的每个记录信息对应一个用户的一次搜索行为,所述记录信息包括至少一个搜索关键词和所述用户点击的至少一个链接;根据事件库中第一事件对应的多个链接和所述用户行为日志,确定所述第一事件对应的多个搜索关键词,所述第一事件对应多个第一资讯,所述第一事件对应的多个链接和所述多个第一资讯一一对应,所述第一事件对应的多个搜索关键词中的每个搜索关键词用于搜索并点击所述多个第一资讯中的至少一个第一资讯;根据所述事件库中第二事件对应的多个链接和所述用户行为日志,确定所述第二事件对应的多个搜索关键词,所述第二事件对应多个第二资讯,所述第二事件对应的多个链接和所述多个第二资讯一一对应,所述第二事件对应的多个搜索关键词中的每个搜索关键词用于搜索并点击所述多个第二资讯中的至少一个第二资讯;根据所述第一事件对应的多个链接、所述第二事件对应的多个链接和所述用户行为日志,计算所述第一事件和所述第二事件的相关度;或者,根据所述第一事件对应的多个搜索关键词、所述第二事件对应的多个搜索关键词和所述用户行为日志,计算所述第一事件和所述第二事件的相关度。第二方面,本发明实施例提供一种事件相关度计算装置,包括:获取模块,用于获取用户行为日志,所述用户行为日志包括多个记录信息,所述多个记录信息中的每个记录信息对应一个用户的一次搜索行为,所述记录信息包括至少一个搜索关键词和所述用户点击的至少一个链接;第一确定模块,用于根据事件库中第一事件对应的多个链接和所述用户行为日志,确定所述第一事件对应的多个搜索关键词,所述第一事件对应多个第一资讯,所述第一事件对应的多个链接和所述多个第一资讯一一对应,所述第一事件对应的多个搜索关键词中的每个搜索关键词用于搜索并点击所述多个第一资讯中的至少一个第一资讯;第二确定模块,用于根据所述事件库中第二事件对应的多个链接和所述用户行为日志,确定所述第二事件对应的多个搜索关键词,所述第二事件对应多个第二资讯,所述第二事件对应的多个链接和所述多个第二资讯一一对应,所述第二事件对应的多个搜索关键词中的每个搜索关键词用于搜索并点击所述多个第二资讯中的至少一个第二资讯;第一计算模块,用于根据所述第一事件对应的多个链接、所述第二事件对应的多个链接和所述用户行为日志,计算所述第一事件和所述第二事件的相关度;或者,第二计算模块,用于根据所述第一事件对应的多个搜索关键词、所述第二事件对应的多个搜索关键词和所述用户行为日志,计算所述第一事件和所述第二事件的相关度。第三方面,本发明实施例提供一种设备,包括:存储器;处理器;以及计算机程序;其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如第一方面所述的方法。第四方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现第一方面所述的方法。本发明实施例提供的事件相关度计算方法、装置、设备及存储介质,通过获取用户行为日志,根据事件库中第一事件对应的多个链接、第二事件对应的多个链接和该用户行为日志,计算该第一事件和该第二事件的相关度,或者,根据第一事件对应的多个搜索关键词、第二事件对应的多个搜索关键词和该用户行为日志,计算该第一事件和该第二事件的相关度,通过不同用户的搜索并点击行为计算事件之间的相关度,提高了事件相关度的计算精度。附图说明图1为本发明实施例提供的事件相关度计算方法流程图;图2为本发明另一实施例提供的事件的示意图;图3为本发明另一实施例提供的事件相关度计算方法流程图;图4为本发明另一实施例提供的事件相关度计算方法流程图;图5为本发明实施例提供的事件相关度计算装置的结构示意图;图6为本发明实施例提供的事件相关度计算装置的结构示意图;图7为本发明实施例提供的设备的结构示意图。通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。在本发明实施例中,事件(event)是由特定人、物、事在特定时间、特定地点相互作用的客观事实,事件的发生具有客观性、真实性等特点。事件的相关度是指两个事件之间存在一定的关联关系,并且可通过一个数值来衡量相关性的强度。本发明实施例根据用户行为计算事件之间的相关度,该用户行为包括用户搜索行为和点击行为。搜索行为具体可以是用户在搜索引擎中输入搜索关键词,搜索引擎根据该搜索关键词搜索出与该搜索关键词相关的多个搜索结果。点击行为具体可以是用户对该搜索引擎搜索出的多个搜索结果中的至少一个搜索结果进行点击。下面以具体地实施例对本发明的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本发明的实施例进行描述。图1为本发明实施例提供的事件相关度计算方法流程图。本发明实施例针对现有技术的如上技术问题,提供了事件相关度计算方法,该方法具体步骤如下:步骤101、获取用户行为日志,所述用户行为日志包括多个记录信息,所述多个记录信息中的每个记录信息对应一个用户的一次搜索行为,所述记录信息包括至少一个搜索关键词和所述用户点击的至少一个链接。在本实施例中,用户在搜索引擎中输入搜索关键词,搜索引擎根据该搜索关键词搜索出与该搜索关键词相关的多个搜索结果,用户对该搜索引擎搜索出的多个搜索结果中的至少一个搜索结果进行点击。搜索引擎根据用户输入的搜索关键词、以及用户对搜索结果的点击行为,生成用户行为日志,因此,用户行为日志可来源于搜索引擎记录的海量的搜索关键词和用户点击的搜索结果的链接。在本实施例中,用户行为日志可包括多个记录信息,该多个记录信息中的每个记录信息对应一个用户的一次搜索行为,也就是说,根据一个用户的一次搜索行为生成一个记录信息,该记录信息包括至少一个搜索关键词和所述用户点击的至少一个链接。在本实施例中,将搜索关键词记为query,链接即统一资源定位符(uniformresourcelocator,url)。例如,t1时刻,用户1在搜索引擎中输入了query1,搜索引擎搜索到多个搜索结果,用户点击了该多个搜索结果中的某一个搜索结果,用户点击的该搜索结果对应的url记为url1,则用户1输入query1并点击url1可记为用户1的一次搜索行为,该搜索行为对应的记录信息包括query1和url1,该记录信息记为(query1,url1)。在其他实施例中,如果用户在搜索引擎中输入一个query之后的预设时间内又输入了另一个query,则将该用户输入该两个query以及相应的点击行为记为该用户的一次搜索行为。例如,t1时刻,用户1在搜索引擎中输入了query1,搜索引擎搜索到多个搜索结果,用户点击的搜索结果的url为url1。在t1时刻之后的预设时间内例如一分钟内,该用户1在搜索引擎中输入了query2,搜索引擎再次搜索到多个搜索结果,用户点击的搜索结果的url为url2,则将用户1输入query1并点击url1、输入query2并点击url2记为用户1的一次搜索行为,该搜索行为对应的记录信息记为(query1,url1,query2,url2)。若t1时刻,用户1在搜索引擎中输入了query1,搜索引擎搜索到多个搜索结果,用户没有点击任何一个搜索结果。在t1时刻之后的预设时间内例如一分钟内,该用户1在搜索引擎中输入了query2,搜索引擎再次搜索到多个搜索结果,用户点击的搜索结果的url为url2,则将用户1输入query1、输入query2并点击url2记为用户1的一次搜索行为,该搜索行为对应的记录信息记为(query1,query2,url2)。在其他实施例中,用户在该预设时间内例如一分钟内,若多次输入不同的query,则将该用户输入的多个query以及相应的点击行为记为该用户的一次搜索行为。另外,由于用户行为日志包括多个记录信息,每个记录信息还可以对应一个标识信息,例如,将每个记录信息记为一个session,记录信息的标识信息记为session_id,则session可表示为(session_id,query1,url1,query2,url2,……)。可选的,以天为时间单位统计用户行为日志,则该用户行为日志中可包括多个不同用户中每个用户的至少一次搜索行为对应的记录信息。进一步,根据该用户行为日志中的每个记录信息,可确定出每个记录信息中的搜索关键词对和链接对,该搜索关键词对包括两个不同的搜索关键词,该链接对包括两个不同的链接。进一步,统计该搜索关键词对在该用户行为日志中出现的次数,即该搜索关键词对的共现次数。统计该链接对在该用户行为日志中出现的次数,即该链接对的共现次数。例如,该用户行为日志中包括用户1的session和用户2的session,用户1的session表示为(session_1,query1,url1,query2,url2),用户2的session表示为(session_2,query1,url2,query2,url3)。用户1的session中的搜索关键词对为(query1,query2)、链接对为(url1,url2)。用户2的session中的搜索关键词对为(query1,query2)、链接对为(url2,url3)。搜索关键词对(query1,query2)的共现次数为2,链接对(url1,url2)的共现次数为1,链接对(url2,url3)的共现次数为1。再例如,该用户行为日志中包括用户1的session和用户2的session,用户1的session表示为(session_1,query1,url1,query2,url2),用户2的session表示为(session_2,query1,url2,query2,url3,query3,url1)。用户1的session中的搜索关键词对为(query1,query2)、链接对为(url1,url2)。用户2的session中的搜索关键词对为(query1,query2)、(query1,query3)、(query2,query3),用户2的session中的链接对为(url1,url2)、(url1,url3)、(url2,url3)。搜索关键词对(query1,query2)的共现次数为2,链接对(url1,url2)的共现次数为2,搜索关键词对(query1,query3)的共现次数为1,搜索关键词对(query2,query3)的共现次数为1,链接对(url1,url3)的共现次数为1,链接对(url2,url3)的共现次数为1。按照这种方法可统计出全天内的用户行为日志中不同的搜索关键词对和不同的链接对,以及每个搜索关键词对的共现次数和每个链接对的共现次数。进一步,将每个搜索关键词对、每个链接对、每个搜索关键词对的共现次数、每个链接对的共现次数以及日期存储在数据库中。步骤102、根据事件库中第一事件对应的多个链接和所述用户行为日志,确定所述第一事件对应的多个搜索关键词,所述第一事件对应多个第一资讯,所述第一事件对应的多个链接和所述多个第一资讯一一对应,所述第一事件对应的多个搜索关键词中的每个搜索关键词用于搜索并点击所述多个第一资讯中的至少一个第一资讯。在本实施例中,大量的资讯经过聚合、属性抽取和优化加工形成事件库,事件库中包括多个事件,一个事件可用资讯簇来描述,资讯簇即多个资讯,也就是说,一个事件可用多个资讯来描述,该资讯具体可以是新闻资讯。例如,计算事件库中任意两个事件的相关度,将其中一个事件记为第一事件,将另一个事件记为第二事件,用于描述第一事件的资讯记为第一资讯,用于描述第二事件的资讯记为第二资讯,也就是说,第一事件可用多个第一资讯来描述,第二事件可用多个第二资讯来描述。例如,第一事件可用资讯1、资讯2、资讯3来描述,资讯1的url记为url1,资讯2的url记为url2,资讯3的url记为url3,则第一事件对应的多个链接即为url1、url2和url3,可选的,将url1、url2和url3构成第一链接列表,该第一链接列表表示为{url1、url2、url3},该第一链接列表即为第一事件对应的链接列表。进一步,根据第一事件对应的链接列表和用户行为日志,确定所述第一事件对应的多个搜索关键词,所述第一事件对应的多个搜索关键词中的每个搜索关键词用于搜索并点击所述多个第一资讯中的至少一个第一资讯。可选的,所述根据事件库中第一事件对应的多个链接和所述用户行为日志,确定所述第一事件对应的多个搜索关键词,包括:根据所述事件库中所述第一事件对应的多个链接中的每个链接,从所述用户行为日志中获取与所述链接对应的至少一个搜索关键词;将多个所述链接中的每个所述链接分别对应的至少一个搜索关键词,确定为所述第一事件对应的多个搜索关键词。例如,用户行为日志中包括用户1的session、用户2的session和用户3的session。其中,用户1的session表示为(session_1,query1,url1,query2,url2),用户2的session表示为(session_2,query1,url2,query2,url3,query3,url1),用户3的session表示为(session_3,query2,url2,query3,url3,query4,url4)。该用户行为日志中每个搜索关键词对和每个搜索关键词对的共现次数具体如下表1所示,该用户行为日志中每个链接对和每个链接对的共现次数具体如下表2所示:表1搜索关键词对共现次数(query1,query2)2(query1,query3)1(query2,query3)2(query2,query4)1(query3,query4)1表2链接对共现次数(url1,url2)2(url1,url3)1(url2,url3)2(url2,url4)1(url3,url4)1根据第一事件对应的多个链接即为url1、url2和url3中的每个链接,从该用户行为日志中获取与该链接对应的至少一个搜索关键词。例如,在该用户行为日志中,与url1对应的至少一个搜索关键词为query1和query3,与url2对应的至少一个搜索关键词为query1和query2,与url3对应的至少一个搜索关键词为query2和query3。将url1、url2和url3中的每个链接分别对应的至少一个搜索关键词,确定为该第一事件对应的多个搜索关键词,即该第一事件对应的多个搜索关键词为与url1对应的query1和query3、与url2对应的query1和query2、与url3对应的query2和query3的集合。将该第一事件对应的多个搜索关键词记为第一搜索关键词列表,该第一搜索关键词列表记为{query1、query2、query3}。步骤103、根据所述事件库中第二事件对应的多个链接和所述用户行为日志,确定所述第二事件对应的多个搜索关键词,所述第二事件对应多个第二资讯,所述第二事件对应的多个链接和所述多个第二资讯一一对应,所述第二事件对应的多个搜索关键词中的每个搜索关键词用于搜索并点击所述多个第二资讯中的至少一个第二资讯。例如,事件库中的第二事件可用资讯3和资讯4来描述,资讯3的url记为url3,资讯4的url记为url4,则第二事件对应的多个链接即为url3和url4,可选的,将url3和url4构成第二链接列表,该第二链接列表表示为{url3、url4},该第二链接列表即为第二事件对应的链接列表。进一步,根据第二事件对应的链接列表和用户行为日志,确定所述第二事件对应的多个搜索关键词,所述第二事件对应的多个搜索关键词中的每个搜索关键词用于搜索并点击所述多个第二资讯中的至少一个第二资讯。可选的,所述根据所述事件库中第二事件对应的多个链接和所述用户行为日志,确定所述第二事件对应的多个搜索关键词,包括:根据所述事件库中所述第二事件对应的多个链接中的每个链接,从所述用户行为日志中获取与所述链接对应的至少一个搜索关键词;将多个所述链接中的每个所述链接分别对应的至少一个搜索关键词,确定为所述第二事件对应的多个搜索关键词。例如,根据第二事件对应的多个链接即url3和url4中的每个链接,从该用户行为日志中获取与该链接对应的至少一个搜索关键词。例如,在该用户行为日志中,与url3对应的至少一个搜索关键词为query2和query3,与url4对应的至少一个搜索关键词为query4。将url3和url4中的每个链接分别对应的至少一个搜索关键词,确定为该第二事件对应的多个搜索关键词,即该第二事件对应的多个搜索关键词为与url3对应的query2和query3、与url4对应的query4的集合。将该第二事件对应的多个搜索关键词记为第二搜索关键词列表,该第二搜索关键词列表记为{query2、query3、query4}。步骤104、根据所述第一事件对应的多个链接、所述第二事件对应的多个链接和所述用户行为日志,计算所述第一事件和所述第二事件的相关度。例如,根据第一事件对应的第一链接列表{url1、url2、url3}、第二事件对应的第二链接列表{url3、url4}和该用户行为日志,计算该第一事件和该第二事件的相关度。具体的,遍历第一链接列表{url1、url2、url3}中的每个链接,将当前遍历到的链接与第二链接列表{url3、url4}中的每个链接分别构成一个链接对,从而得到如下多个链接对:(url1,url3)、(url1,url4)、(url2,url3)、(url2,url4)、(url3,url3)、(url3,url4)。可选的,每个链接对包括两个不同的链接,因此去除(url3,url3)。进一步统计(url1,url3)、(url1,url4)、(url2,url3)、(url2,url4)、(url3,url4)分别在该用户行为日志中的共现次数,具体的,可根据如上表2所示的统计结果,查询(url1,url3)、(url1,url4)、(url2,url3)、(url2,url4)、(url3,url4)分别在该用户行为日志中的共现次数。进一步,根据(url1,url3)、(url1,url4)、(url2,url3)、(url2,url4)、(url3,url4)分别在该用户行为日志中的共现次数,计算该第一事件和该第二事件的相关度。步骤105、根据所述第一事件对应的多个搜索关键词、所述第二事件对应的多个搜索关键词和所述用户行为日志,计算所述第一事件和所述第二事件的相关度。例如,根据第一事件对应的第一搜索关键词列表{query1、query2、query3}、第二事件对应的第二搜索关键词列表{query2、query3、query4}和该用户行为日志,计算该第一事件和该第二事件的相关度。具体的,遍历第一搜索关键词列表{query1、query2、query3}中的每个搜索关键词,将当前遍历到的搜索关键词与第二搜索关键词列表{query2、query3、query4}中的每个搜索关键词分别构成一个搜索关键词对,可选的,每个搜索关键词对包括两个不同的搜索关键词,从而得到如下多个搜索关键词对:(query1,query2)、(query1,query3)、(query1,query4)、(query2,query3)、(query2,query4)、(query3,query4)。进一步统计(query1,query2)、(query1,query3)、(query1,query4)、(query2,query3)、(query2,query4)、(query3,query4)分别在该用户行为日志中的共现次数,具体的,可根据如上表1所示的统计结果,查询(query1,query2)、(query1,query3)、(query1,query4)、(query2,query3)、(query2,query4)、(query3,query4)分别在该用户行为日志中的共现次数。进一步,根据(query1,query2)、(query1,query3)、(query1,query4)、(query2,query3)、(query2,query4)、(query3,query4)分别在该用户行为日志中的共现次数,计算该第一事件和该第二事件的相关度。在本实施例中,计算该第一事件和该第二事件的相关度的方法可选取步骤104或步骤105,也就是说,在本实施例中,可根据第一事件对应的多个链接和第二事件对应的多个链接来计算该第一事件和该第二事件的相关度,或者根据第一事件对应的多个搜索关键词和第二事件对应的多个搜索关键词计算该第一事件和该第二事件的相关度。如图2所示,假设事件库中有4个事件,即事件1、事件2、事件3、事件4,此处只是示意性说明,并不限定该事件库中事件的个数。根据本实施例所述的方法可确定出4个事件中任意两个事件之间的相关度。当指定一个目标事件例如事件1时,可确定出该事件库中的其他事件分别与该事件1的相关度,或者,可以确定出该事件库中与该事件1的相关度大于阈值的事件列表。本发明实施例通过获取用户行为日志,根据事件库中第一事件对应的多个链接、第二事件对应的多个链接和该用户行为日志,计算该第一事件和该第二事件的相关度,或者,根据第一事件对应的多个搜索关键词、第二事件对应的多个搜索关键词和该用户行为日志,计算该第一事件和该第二事件的相关度,通过不同用户的搜索并点击行为计算事件之间的相关度,提高了事件相关度的计算精度。图3为本发明另一实施例提供的事件相关度计算方法流程图。在上述实施例的基础上,所述根据所述第一事件对应的多个链接、所述第二事件对应的多个链接和所述用户行为日志,计算所述第一事件和所述第二事件的相关度,具体包括如下步骤:步骤301、遍历所述第一事件对应的多个链接中的每个链接,将当前遍历到的所述第一事件对应的链接与所述第二事件对应的多个链接中的每个链接分别构成一个链接对。例如,第一事件对应的多个链接构成第一链接列表,第一链接列表表示为{url1、url2、url3},第二事件对应的多个链接构成第二链接列表,第二链接列表表示为{url3、url4}。遍历第一链接列表{url1、url2、url3}中的每个链接,将当前遍历到的链接与第二链接列表{url3、url4}中的每个链接分别构成一个链接对,从而得到如下多个链接对:(url1,url3)、(url1,url4)、(url2,url3)、(url2,url4)、(url3,url3)、(url3,url4)。步骤302、根据每个所述链接对在所述用户行为日志中的不同记录信息中出现的次数,计算所述第一事件和所述第二事件的相关度。进一步统计(url1,url3)、(url1,url4)、(url2,url3)、(url2,url4)、(url3,url4)分别在该用户行为日志中的共现次数,具体的,可根据如上表2所示的统计结果,查询(url1,url3)、(url1,url4)、(url2,url3)、(url2,url4)、(url3,url4)分别在该用户行为日志中的共现次数。进一步,根据(url1,url3)、(url1,url4)、(url2,url3)、(url2,url4)、(url3,url4)分别在该用户行为日志中的共现次数,计算该第一事件和该第二事件的相关度。可选的,所述链接对在所述用户行为日志中的不同记录信息中出现的次数为所述用户行为日志中包括所述链接对的记录信息的个数。如表2所示,链接对(url1,url2)的共现次数为2。例如,用户行为日志中包括用户1的session、用户2的session和用户3的session。其中,用户1的session表示为(session_1,query1,url1,query2,url2),用户2的session表示为(session_2,query1,url2,query2,url3,query3,url1),用户3的session表示为(session_3,query2,url2,query3,url3,query4,url4)。可见,用户1的session中包括(url1,url2),用户2的session中包括(url1,url2),用户3的session中不包括(url1,url2),即该用户行为日志中有两个session包括(url1,url2)。所以,链接对(url1,url2)的共现次数也就是该用户行为日志中包括(url1,url2)的session的个数。其他链接对的共现次数同理于此,不再一一赘述。可选的,所述根据每个所述链接对在所述用户行为日志中的不同记录信息中出现的次数,计算所述第一事件和所述第二事件的相关度,包括如下几种可行的实现方式:一种可行的实现方式是:将每个所述链接对在所述用户行为日志中的不同记录信息中出现的次数进行相加计算,得到所述第一事件和所述第二事件的相关度。例如,将(url1,url3)、(url1,url4)、(url2,url3)、(url2,url4)、(url3,url4)分别在该用户行为日志中的共现次数进行相加计算,得到该第一事件和该第二事件的相关度。另一种可行的实现方式是:根据每个所述链接对在所述用户行为日志中的不同记录信息中出现的次数,计算每个所述链接对在一个记录信息中出现的概率;根据所述链接对在一个记录信息中出现的概率、所述链接对中所述第一事件对应的链接在一个记录信息中出现的概率、以及所述链接对中所述第二事件对应的链接在一个记录信息中出现的概率,计算所述链接对中的所述第一事件对应的链接和所述第二事件对应的链接的点互信息pmi;将每个所述链接对中的所述第一事件对应的链接和所述第二事件对应的链接的点互信息pmi进行相加计算,得到所述第一事件和所述第二事件的相关度。例如,以(url1,url3)为例,如表2所示,(url1,url3)在该用户行为日志中的共现次数为1,该用户行为日志一共包括3个记录信息,则(url1,url3)在一个记录信息中出现的概率为1/3。url1出现在用户1的session、用户2的session中,即url1出现的次数为2,url1在一个记录信息中出现的概率为2/3。url3出现在用户2的session和用户3的session中,即url3出现的次数为2,url3在一个记录信息中出现的概率为2/3。将(url1,url3)在一个记录信息中出现的概率记为p(url1&url3),将url1在一个记录信息中出现的概率记为p(url1),将url3在一个记录信息中出现的概率记为p(url3),可选的,每个url在一个记录信息中出现的概率不为0。根据p(url1&url3)、p(url1)和p(url3)可计算出url1和url3的点互信息(pointwisemutualinformation,pmi)即pmi(url1,url3),pmi(url1,url3)可根据如下公式计算得出:pmi(url1,url3)=log2(p(url1&url3)/(p(url1)*p(url3)))同理可计算出pmi(url1,url4)、pmi(url2,url3)、pmi(url2,url4)、pmi(url3,url4),将pmi(url1,url3)、pmi(url1,url4)、pmi(url2,url3)、pmi(url2,url4)、pmi(url3,url4)进行相加计算,得到该第一事件和该第二事件的相关度。不失一般性,例如,第一事件对应的多个链接构成第一链接列表,第一链接列表表示为{a1、a2、…、an},第二事件对应的多个链接构成第二链接列表,第二链接列表表示为{b1、b2、…、bn}。遍历第一链接列表{a1、a2、…、an}中的每个链接,将当前遍历到的链接与第二链接列表{b1、b2、…、bn}中的每个链接分别构成一个链接对,从而得到如下多个链接对:(a1,b1),(a1,b2),…,(an,b1),…,(an,bn)。根据(a1,b1),(a1,b2),…,(an,b1),…,(an,bn)计算该第一事件和该第二事件的相关度的一种方法是:将(a1,b1),(a1,b2),…,(an,b1),…,(an,bn)分别在用户行为日志中的共现次数进行相加计算,得到该第一事件和该第二事件的相关度。另一种方法是:根据如上公式计算pmi(a1,b1),pmi(a1,b2),…,pmi(an,b1),…,pmi(an,bn),进一步将pmi(a1,b1),pmi(a1,b2),…,pmi(an,b1),…,pmi(an,bn)进行相加计算,得到该第一事件和该第二事件的相关度。本发明实施例通过遍历所述第一事件对应的多个链接中的每个链接,将当前遍历到的所述第一事件对应的链接与所述第二事件对应的多个链接中的每个链接分别构成一个链接对,根据每个所述链接对在所述用户行为日志中的不同记录信息中出现的次数,计算所述第一事件和所述第二事件的相关度,进一步提高了事件相关度的计算精度。图4为本发明另一实施例提供的事件相关度计算方法流程图。在上述实施例的基础上,所述根据所述第一事件对应的多个搜索关键词、所述第二事件对应的多个搜索关键词和所述用户行为日志,计算所述第一事件和所述第二事件的相关度,具体包括如下步骤:步骤401、遍历所述第一事件对应的多个搜索关键词中的每个搜索关键词,将当前遍历到的所述第一事件对应的搜索关键词与所述第二事件对应的多个搜索关键词中的每个搜索关键词分别构成一个搜索关键词对。例如,第一事件对应的多个搜索关键词构成第一搜索关键词列表,第一搜索关键词列表表示为{query1、query2、query3},第二事件对应的多个搜索关键词构成第二搜索关键词列表,第二搜索关键词列表表示为{query2、query3、query4}。遍历第一搜索关键词列表{query1、query2、query3}中的每个搜索关键词,将当前遍历到的搜索关键词与第二搜索关键词列表{query2、query3、query4}中的每个搜索关键词分别构成一个搜索关键词对,从而得到如下多个搜索关键词对:(query1,query2)、(query1,query3)、(query1,query4)、(query2,query3)、(query2,query4)、(query3,query4)。步骤402、根据每个所述搜索关键词对在所述用户行为日志中的不同记录信息中出现的次数,计算所述第一事件和所述第二事件的相关度。进一步统计(query1,query2)、(query1,query3)、(query1,query4)、(query2,query3)、(query2,query4)、(query3,query4)分别在该用户行为日志中的共现次数,具体的,可根据如上表1所示的统计结果,查询(query1,query2)、(query1,query3)、(query1,query4)、(query2,query3)、(query2,query4)、(query3,query4)分别在该用户行为日志中的共现次数。进一步,根据(query1,query2)、(query1,query3)、(query1,query4)、(query2,query3)、(query2,query4)、(query3,query4)分别在该用户行为日志中的共现次数,计算该第一事件和该第二事件的相关度。可选的,所述搜索关键词对在所述用户行为日志中的不同记录信息中出现的次数为所述用户行为日志中包括所述搜索关键词对的记录信息的个数。如表1所示,搜索关键词对(query1,query2)的共现次数为2。例如,用户行为日志中包括用户1的session、用户2的session和用户3的session。其中,用户1的session表示为(session_1,query1,url1,query2,url2),用户2的session表示为(session_2,query1,url2,query2,url3,query3,url1),用户3的session表示为(session_3,query2,url2,query3,url3,query4,url4)。可见,用户1的session中包括(query1,query2),用户2的session中包括(query1,query2),用户3的session中不包括(query1,query2),即该用户行为日志中有两个session包括(query1,query2)。所以,搜索关键词对(query1,query2)的共现次数也就是该用户行为日志中包括(query1,query2)的session的个数。其他搜索关键词对的共现次数同理于此,不再一一赘述。另外,所述根据每个所述搜索关键词对在所述用户行为日志中的不同记录信息中出现的次数,计算所述第一事件和所述第二事件的相关度,包括如下几种可行的实现方式:一种可行的实现方式是:将每个所述搜索关键词对在所述用户行为日志中的不同记录信息中出现的次数进行相加计算,得到所述第一事件和所述第二事件的相关度。例如,将(query1,query2)、(query1,query3)、(query1,query4)、(query2,query3)、(query2,query4)、(query3,query4)分别在该用户行为日志中的共现次数进行相加计算,得到该第一事件和该第二事件的相关度。另一种可行的实现方式是:根据每个所述搜索关键词对在所述用户行为日志中的不同记录信息中出现的次数,计算每个所述搜索关键词对在一个记录信息中出现的概率;根据所述搜索关键词对在一个记录信息中出现的概率、所述搜索关键词对中所述第一事件对应的搜索关键词在一个记录信息中出现的概率、以及所述搜索关键词对中所述第二事件对应的搜索关键词在一个记录信息中出现的概率,计算所述搜索关键词对中的所述第一事件对应的搜索关键词和所述第二事件对应的搜索关键词的点互信息pmi;将每个所述搜索关键词对中的所述第一事件对应的搜索关键词和所述第二事件对应的搜索关键词的点互信息pmi进行相加计算,得到所述第一事件和所述第二事件的相关度。例如,以(query1,query2)为例,如表1所示,(query1,query2)在该用户行为日志中的共现次数为2,该用户行为日志一共包括3个记录信息,则(query1,query2)在一个记录信息中出现的概率为2/3。query1出现在用户1的session和用户2的session中,即query1出现的次数为2,query1在一个记录信息中出现的概率为2/3。query2出现在用户1的session、用户2的session和用户3的session中,即query2出现的次数为3,query2在一个记录信息中出现的概率为3/3。将(query1,query2)在一个记录信息中出现的概率记为p(query1&query2),将query1在一个记录信息中出现的概率记为p(query1),将query2在一个记录信息中出现的概率记为p(query2),可选的,每个query在一个记录信息中出现的概率不为0。根据p(query1&query2)、p(query1)和p(query2)可计算出query1和query2的点互信息pmi即pmi(query1,query2),pmi(query1,query2)可根据如下公式计算得出:pmi(query1,query2)=log2(p(query1&query2)/(p(query1)*p(query2)))同理可计算出pmi(query1,query3)、pmi(query1,query4)、pmi(query2,query3)、pmi(query2,query4)、pmi(query3,query4),将pmi(query1,query2)、pmi(query1,query3)、pmi(query1,query4)、pmi(query2,query3)、pmi(query2,query4)、pmi(query3,query4)进行相加计算,得到该第一事件和该第二事件的相关度。不失一般性,例如,第一事件对应的多个搜索关键词构成第一搜索关键词列表,第一搜索关键词列表表示为{a1、a2、…、an},第二事件对应的多个搜索关键词构成第二搜索关键词列表,第二搜索关键词列表表示为{b1、b2、…、bn}。遍历第一搜索关键词列表{a1、a2、…、an}中的每个搜索关键词,将当前遍历到的搜索关键词与第二搜索关键词列表{b1、b2、…、bn}中的每个搜索关键词分别构成一个搜索关键词对,从而得到如下多个搜索关键词对:(a1,b1),(a1,b2),…,(an,b1),…,(an,bn)。根据(a1,b1),(a1,b2),…,(an,b1),…,(an,bn)计算该第一事件和该第二事件的相关度的一种方法是:将(a1,b1),(a1,b2),…,(an,b1),…,(an,bn)分别在用户行为日志中的共现次数进行相加计算,得到该第一事件和该第二事件的相关度。另一种方法是:根据如上公式计算pmi(a1,b1),pmi(a1,b2),…,pmi(an,b1),…,pmi(an,bn),进一步将pmi(a1,b1),pmi(a1,b2),…,pmi(an,b1),…,pmi(an,bn)进行相加计算,得到该第一事件和该第二事件的相关度。本发明实施例通过遍历所述第一事件对应的多个搜索关键词中的每个搜索关键词,将当前遍历到的所述第一事件对应的搜索关键词与所述第二事件对应的多个搜索关键词中的每个搜索关键词分别构成一个搜索关键词对,根据每个所述搜索关键词对在所述用户行为日志中的不同记录信息中出现的次数,计算所述第一事件和所述第二事件的相关度,进一步提高了事件相关度的计算精度。图5为本发明实施例提供的事件相关度计算装置的结构示意图;图6为本发明实施例提供的事件相关度计算装置的结构示意图。本发明实施例提供的事件相关度计算装置可以执行事件相关度计算方法实施例提供的处理流程,如图5所示,事件相关度计算装置50包括:获取模块51、第一确定模块52、第二确定模块53、第一计算模块54;或者,如图6所示,事件相关度计算装置50包括:获取模块51、第一确定模块52、第二确定模块53、第二计算模块55。其中,获取模块51用于获取用户行为日志,所述用户行为日志包括多个记录信息,所述多个记录信息中的每个记录信息对应一个用户的一次搜索行为,所述记录信息包括至少一个搜索关键词和所述用户点击的至少一个链接;第一确定模块52用于根据事件库中第一事件对应的多个链接和所述用户行为日志,确定所述第一事件对应的多个搜索关键词,所述第一事件对应多个第一资讯,所述第一事件对应的多个链接和所述多个第一资讯一一对应,所述第一事件对应的多个搜索关键词中的每个搜索关键词用于搜索并点击所述多个第一资讯中的至少一个第一资讯;第二确定模块53用于根据所述事件库中第二事件对应的多个链接和所述用户行为日志,确定所述第二事件对应的多个搜索关键词,所述第二事件对应多个第二资讯,所述第二事件对应的多个链接和所述多个第二资讯一一对应,所述第二事件对应的多个搜索关键词中的每个搜索关键词用于搜索并点击所述多个第二资讯中的至少一个第二资讯;第一计算模块54用于根据所述第一事件对应的多个链接、所述第二事件对应的多个链接和所述用户行为日志,计算所述第一事件和所述第二事件的相关度;第二计算模块55用于根据所述第一事件对应的多个搜索关键词、所述第二事件对应的多个搜索关键词和所述用户行为日志,计算所述第一事件和所述第二事件的相关度。可选的,第一确定模块52具体用于:根据所述事件库中所述第一事件对应的多个链接中的每个链接,从所述用户行为日志中获取与所述链接对应的至少一个搜索关键词;将多个所述链接中的每个所述链接分别对应的至少一个搜索关键词,确定为所述第一事件对应的多个搜索关键词。可选的,第二确定模块53具体用于:根据所述事件库中所述第二事件对应的多个链接中的每个链接,从所述用户行为日志中获取与所述链接对应的至少一个搜索关键词;将多个所述链接中的每个所述链接分别对应的至少一个搜索关键词,确定为所述第二事件对应的多个搜索关键词。可选的,第一计算模块54包括:第一遍历单元541和第一计算单元542;第一遍历单元541用于遍历所述第一事件对应的多个链接中的每个链接,将当前遍历到的所述第一事件对应的链接与所述第二事件对应的多个链接中的每个链接分别构成一个链接对;第一计算单元542用于根据每个所述链接对在所述用户行为日志中的不同记录信息中出现的次数,计算所述第一事件和所述第二事件的相关度。可选的,第一计算单元542具体用于:将每个所述链接对在所述用户行为日志中的不同记录信息中出现的次数进行相加计算,得到所述第一事件和所述第二事件的相关度。可选的,第一计算单元542具体用于:根据每个所述链接对在所述用户行为日志中的不同记录信息中出现的次数,计算每个所述链接对在一个记录信息中出现的概率;根据所述链接对在一个记录信息中出现的概率、所述链接对中所述第一事件对应的链接在一个记录信息中出现的概率、以及所述链接对中所述第二事件对应的链接在一个记录信息中出现的概率,计算所述链接对中的所述第一事件对应的链接和所述第二事件对应的链接的点互信息pmi;将每个所述链接对中的所述第一事件对应的链接和所述第二事件对应的链接的点互信息pmi进行相加计算,得到所述第一事件和所述第二事件的相关度。可选的,第二计算模块55包括:第二遍历单元551和第二计算单元552;第二遍历单元551用于遍历所述第一事件对应的多个搜索关键词中的每个搜索关键词,将当前遍历到的所述第一事件对应的搜索关键词与所述第二事件对应的多个搜索关键词中的每个搜索关键词分别构成一个搜索关键词对;第二计算单元552用于根据每个所述搜索关键词对在所述用户行为日志中的不同记录信息中出现的次数,计算所述第一事件和所述第二事件的相关度。可选的,第二计算单元552具体用于:将每个所述搜索关键词对在所述用户行为日志中的不同记录信息中出现的次数进行相加计算,得到所述第一事件和所述第二事件的相关度。可选的,第二计算单元552具体用于:根据每个所述搜索关键词对在所述用户行为日志中的不同记录信息中出现的次数,计算每个所述搜索关键词对在一个记录信息中出现的概率;根据所述搜索关键词对在一个记录信息中出现的概率、所述搜索关键词对中所述第一事件对应的搜索关键词在一个记录信息中出现的概率、以及所述搜索关键词对中所述第二事件对应的搜索关键词在一个记录信息中出现的概率,计算所述搜索关键词对中的所述第一事件对应的搜索关键词和所述第二事件对应的搜索关键词的点互信息pmi;将每个所述搜索关键词对中的所述第一事件对应的搜索关键词和所述第二事件对应的搜索关键词的点互信息pmi进行相加计算,得到所述第一事件和所述第二事件的相关度。图5和图6所示实施例的事件相关度计算装置可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。图7为本发明实施例提供的设备的结构示意图。本发明实施例提供的设备可以执行事件相关度计算方法实施例提供的处理流程,如图7所示,设备70包括:存储器71、处理器72、计算机程序;其中,计算机程序存储在存储器71中,并被配置为由处理器72执行以实现如上所述的事件相关度计算方法。图7所示实施例的设备可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。另外,本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现上述实施例所述的事件相关度计算方法。在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。本领域技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1