用于跨站点数据分析的方法和系统的制作方法

文档序号:7985050阅读:240来源:国知局
用于跨站点数据分析的方法和系统的制作方法
【专利摘要】本发明公开了一种用于配电管理的方法和系统。例如,提供一种跨站点数据分析方法,该方法包括:基于初始用户集中的至少一个用户在第一站点和第二站点中的动作标识所述第一站点与所述第二站点的至少一个动作关联特征,该初始用户集中的用户是第一站点和第二站点的成员;以及基于至少一个动作关联特征确定在第一站点中注册的第一用户名与在第二站点中注册的第二用户名是否属于同一用户。根据本发明的实施例,可以有效地判别不同站点中的相同的用户,即使他们的用户名不同。由此,可以通过在站点之间共享信息而向用户提供定制的信息服务。
【专利说明】用于跨站点数据分析的方法和系统
【技术领域】
[0001]本发明总体上涉及数据分析领域,并且更具体地,涉及用于跨站点的数据分析的方法和系统。
【背景技术】
[0002]目前网络已经成为了人们日常访问、浏览、存储和交换信息的常用媒介。从终端用户的角度看,可以通过网络上的站点(或简称“网站”)与网络信息进行交互。随着网络技术的发展,越来越多的站点能够利用数据分析之类的技术挖掘和学习用户的特性,例如交互习惯、偏好、兴趣等等,并且在此基础上为用户提供个性化的和/或定制的信息服务。例如,视频服务网站能够根据用户以往的浏览历史和交互行为推断用户潜在地对哪类信息比较感兴趣,并且将与此类信息有关的视频剪辑以醒目的方式推荐或者显示给用户。
[0003]然而,不同的站点甚至同一站点的不同栏目可能采用各自不同的算法和机制执行关于用户的数据分析,这不利于改善用户体验和操作效率。具体而言,假设一个站点通过对用户一段时间的分析和学习已经积累了关于该用户的知识并且可以由此提供定制信息服务。然而,当该用户访问另一站点时,在先前站点积累的用户知识无法被当前站点利用,甚至当这两个站点由同一供应商运营时也可能如此。因此,该用户在新站点交互时无法直接获得定制的个性化服务,而是必须等待该站点从头开始利用数据分析来学习用户的特性。
[0004]解决上述问题的一个可行途径是借助于用户在不同站点的用户名。可以理解,很多站点在允许用户使用该站点的功能之前要求用户进行注册成为该站点的成员。用户在站点的用户名通常是由用户选择的,例如由字母、数字和某些特定符号组成。现有技术解决方案通常基于如下假设:如果两个站点存在相同的用户名,则认为该用户名对应的是同一个用户。相应地,与该用户名相关联的用户知识和分析结果可以在这两个站点之间共享。
[0005]但是,同一用户在不同的站点可能具有不同的用户名。首先,由不同供应商运营的站点的用户命名机制通常是彼此隔离的。不同的站点供应商可能采用不同的用户名注册机制。而且,用户可能出于其他多种原因而在不同的站点采用不同的用户名,例如用户名被其他用户抢先注册、主观愿望,等等。因此,仅仅依靠完全相同的用户名来执行跨站点数据分析在可靠性和稳定性方面均存在缺陷。

【发明内容】

[0006]鉴于现有技术中存在的上述问题以及其他潜在问题,本领域中需要一种改进的跨站点数据分析解决方案。为此,本发明提供一种用于跨站点数据分析的方法和系统。
[0007]在本发明的一个方面,提供一种跨站点数据分析方法。该方法包括:基于初始用户集中的至少一个用户在第一站点和第二站点中的动作标识所述第一站点与所述第二站点的至少一个动作关联特征,所述初始用户集中的用户是所述第一站点和所述第二站点的成员;以及基于所述至少一个动作关联特征确定在所述第一站点中注册的第一用户名与在所述第二站点中注册的第二用户名是否属于同一用户。[0008]在本发明的另一方面,提供一种跨站点数据分析系统。该系统包括:特征标识单元,被配置为基于初始用户集中的至少一个用户在第一站点和第二站点中的动作标识所述第一站点与所述第二站点的至少一个动作关联特征,所述初始用户集中的用户是所述第一站点和所述第二站点的成员;以及用户判别单元,被配置为基于所述至少一个动作关联特征确定在所述第一站点中注册的第一用户名与在所述第二站点中注册的第二用户名是否属于同一用户。
[0009]通过下文描述将会清楚,根据本发明的实施例,能够有效地发现不同网站之间的潜在相同用户,从而实现跨网络的信息共享和互动。。
【专利附图】

【附图说明】
[0010]通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件:
[0011]图1示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图;
[0012]图2示出了根据本发明一个示例性实施例的跨站点数据分析方法200的流程图;
[0013]图3示出了根据本发明一个示例性实施例的跨站点数据分析方法300的流程图;以及
[0014]图4示出了根据本发明一个示例性实施例的跨站点数据分析系统400的框图。【具体实施方式】
[0015]下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
[0016]所属【技术领域】的技术人员知道,本发明可以实现为系统、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等),还可以是硬件和软件结合的形式,本文一般称为“电路”、“模块”或“系统”。此外,在一些实施例中,本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。
[0017]可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是-但不限于-电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPR0M或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
[0018]计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括-但不限于-电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
[0019]计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括-但不限于-无线、电线、光缆、RF等等,或者上述的任意合适的组合。
[0020]可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言-诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言-诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络-包括局域网(LAN)或广域网(WAN)-连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
[0021]下面将参照本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,这些计算机程序指令通过计算机或其它可编程数据处理装置执行,产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。
[0022]也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中,这样,存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置(instructionmeans)的制造品(manufacture)。
[0023]也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。
[0024]下面参考附图详细描述根据本发明的示例性实施例。图1示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。图1显示的计算机系统/服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
[0025]如图1所示,计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
[0026]总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
[0027]计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
[0028]系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM) 30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图1未显示,通常称为“硬盘驱动器”)。尽管图1中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如⑶-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
[0029]具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括-但不限于-操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
[0030]计算机系统/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信,和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口 22进行。并且,计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机系统/服务器12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机系统/服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
[0031]附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0032]下面参考图2,其示出了根据本发明一个示例性实施例的跨站点数据分析方法200的流程图。请注意,在此使用的术语“跨站点”可以表示跨不同的站点,也可以表示跨同一站点的不同栏目。相应地,下文描述中提及的“第一站点”和“第二站点”可以宽泛地解释为不同的站点或者相同站点的不同栏目。
[0033]方法200开始之后,在步骤S201,基于初始用户集中的至少一个用户在第一站点和第二站点中的动作,标识第一站点与所述第二站点的至少一个动作关联特征。
[0034]根据本发明的实施例,初始用户集是由这样的用户组成的用户集组,这些用户在第一站点和第二站点中均是合法成员。换言之,每个用户在第一站点和第二站点都具有用户名。根据本发明的实施例,存在多种可行的方式来确定初始用户集。可以理解,这里所说的“成员”可以是已注册的长期有效成员,也可以是仅在受限的时间内可以执行动作和/或具有受限的动作权限的临时性成员。
[0035]例如,根据本发明的某些实施例,可以认为第一站点和第二站点中的相同用户名属于同一用户。由此,在第一站点和第二站点据有些相同用户名的用户可以被选入初始用户集。也即,初始用户集中的至少一个用户可以在第一站点和第二站点中具有相同的用户名。具体而言,如果第一站点中存在用户名“AliceOl”,并且第二站点中也存在用户名“AliceOl”,则认为分别与不同站点相关联的这两个用户名属于同一用户。又如,如果两个站点中的用户名足够相似,则也可以认为属于同一用户。
[0036]备选地或附加地,根据本发明的某些实施例,可以通过人工的方式确定在步骤S201中考虑的至少一个用户。具体而言,可以例如通过调查问卷等方式请一个或多个用户指出其是否已向第一站点和第二站点二者注册,并且指出其在两个站点中各自的用户名。以此方式,同样可以确定初始用户集。
[0037]上文描述的仅仅是确定初始用户集的示例性方法,任何其他备选的或附加的方法均是可行的。
[0038]在步骤S201,对于初始用户集中的至少一个用户,可以获取和存储他/她在第一站点和第二站点上的动作。这些动作包括下列各项中的至少一项:在站点上对各种信息进行发布、浏览、交互、删除、引用等等。关于这些动作的信息可以被存储在任何适当的存储介质中以供后用。所存储的信息可以包括下列各项中的至少一项:对动作的描述、动作的类型、动作所操纵的内容或其索引、动作发生的时间,等等。
[0039]根据这些动作,可以标识或者说挖掘出同一用户在第一站点与第二站点之间的动作关联特征。在此所使用的术语“动作关联特征”是一种统计特征,用于指示相同的用户在第一站点和第二站点执行的动作之间的规律性的内在联系。可以理解,在此假设相同用户在不同站点之间的动作往往是具有某种内在关联性的。实践已证明了这个假设的合理性。
[0040]例如,如果发现初始用户集中超过预定比例或者数目的用户在第一站点上执行一个特定动作(记为第一动作)之后,将在给定的时段T内在第二站点上执行另一特定的动作(记为第二动作),则可以认为这种动作关联是带有规律性的,并且创建相应的动作关联特征。考虑一个更具体的示例,假设第一站点是视频服务站点并且第二站点是微博服务站点。如果发现初始用户集中超过预定比例或者数目的用户在第一站点上发布一段视频剪辑之后,都会在例如15分钟内在第二站点上发布引用该视频剪辑的微博,则认为这是同一用户在第一站点和第二站点上操作时的规律性特征。相应地,可以在动作关联特征中指明这一规律。这仅仅是一个示例,下文还将结合图2描述这方面的更多示例。
[0041]接下来,方法200进行到步骤S202,在此基于在步骤S201中标识的至少一个动作关联特征,确定在第一站点中注册的第一用户名与在第二站点中注册的第二用户名是否属于同一用户。
[0042]如上文所述,动作关联特征指示同一用户在第一站点和第二站点上操作时的规律性特征。由此,通过判断由第一用户名所对应的用户在第一站点中执行的动作和由第二用户名所对应的用户在第二站点中执行的动作是否符合或具有一个或多个这样的动作关联特征,可以确定第一站点中注册的第一用户名和第二站点中注册的第二用户名是否属于同一用户。
[0043]仍然考虑上文示例,如果步骤S201得出的动作关联特征指示同一用户通常在第一站点执行第一动作之后的时间段T内在第二站点执行第二动作,则在步骤S202可以确定当第一用户名所对应的用户在第一站点执行了第一动作(如果有的话)之后,第二用户名所对应的用户是否在时间段T内在第二站点中执行了第二动作。例如,在上文所述的示例中,可以确定当第一用户名对应的用户在第一站点(视频服务站点)上发布视频剪辑后,第二用户名对应的用户是否在15分钟内在第二站点上发布微博消息引用所发布的视频剪辑。如果是,则可以相应地提高第一用户名和第二用户名属于同一用户的可能性。可以针对其他动作关联特征类似地操作。当第一用户名和第二用户名属于同一用户的可能性超过预定阈值时,可以认为第一用户名和第二用户名属于同一用户。
[0044]方法200在步骤S202之后结束。
[0045]通过执行方法200,可以从初始用户集(例如,在第一站点和第二站点具有相同用户名的那些用户)标识同一用户在两个站点之间的动作关联特征。而后,可以利用这种具有一般性的统计特征来确定两个站点中的相同用户,即使他/她在第一站点和第二站点中的用户名是不同的。
[0046]确定不同站点的相同用户是有益的。例如,可以将在一个站点中已经学习和积累的关于用户的知识与其他站点共享,从而在其他站点中为用户提供更为准确、个性化和友好的定制信息服务。应当理解,在确定不同站点的相同用户之后,可以通过各种方式实现跨的信息共享,本发明的范围在此方面不受限制。
[0047]下面参考图3,其示出了根据本发明示例性实施例的跨站点数据分析方法300的流程图。方法300可以视为是上文参考图2描述的方法200的一种特定实现。
[0048]方法300开始之后,在步骤S301,确定初始用户集中的至少一个用户在第一站点中执行的第一动作与在第二站点中执行的第二动作之间的时间间隔。
[0049]如上所述,初始用户集中的用户是第一站点和第二站点二者的用户。特别地,根据某些实施例,初始用户集中的至少一个用户在第一站点和第二站点中注册的用户名相同。当然,其他确定初始用户集的适当方式也是可行的。
[0050]根据某些实施例,第一动作可以是用户在第一站点中发布内容,例如在视频服务站点中发布视频剪辑;第二动作可以是在第二站点中引用该用户在第一站点中发布的内容,例如在微博服务站点中发布微博引用在视频服务站点中发布的视频剪辑。如上所述,在记录第一动作和第二动作的信息时,可以记录各个动作发生的时间(例如,时间戳)。由此,可以计算出第一动作在第一站点中的发生时间与第二动作在第二站点中的发生时间之间的时间间隔。这仅仅是示例性的,也可以统计其他动作之间的时间间隔。
[0051]接下来,方法300进行到步骤S302,在此基于时间间隔标识时间间隔特征作为一个动作关联特征。根据本发明的实施例,如果对于初始用户集中超过预定数目或者比例的用户,上述时间间隔小于一个时间阈值,则可以认为同一用户在第一站点中执行第一动作和在第二站点中执行第二动作之间存在时间间隔上的规律。由此,可以创建指示第一动作、第二动作以及时间间隔阈值的动作关联特征。
[0052]接下来,方法300进行到步骤S303,在此确定至少一个用户在第二站点中对第一站点中与该用户相关的内容的引用数目。在本文中,内容与用户“相关”是指该内容由该用户发布、修改、评论、关注、操纵或以其他任何方式与该用户发生联系。另外,这里使用的术语“引用”指用户在第二站点中以任何目前已知或者将来开发的方式参考或者提及第一站点中的相关内容。作为一个示例,用户可以在微博服务站点(第二站点)发微博引用在视频服务站点(第一站点)中与该用户相关的视频剪辑,例如通过指向该视频剪辑的统一资源定位符(URL)。
[0053]方法300继而在步骤S304处基于引用数目标识引用数目特征作为一个动作关联特征。根据本发明的实施例,如果对于初始用户集中超过预定数目或者比例的用户,在第二站点中对第一站点中与该用户自己相关的内容的引用数目超过预定阈值,则可以认为同一用户通常倾向于在第二站点引用第一站点中与他/她本人有关的内容。由此,可以创建指示引用数目阈值的动作关联特征。
[0054]接下来,方法300进行到步骤S305,在此确定至少一个用户在第二站点中对第一站点中与该用户相关的内容的引用数目与第一站点中与该用户相关的内容总数之间的比率,即,引用比率。作为一个示例,假设一个用户在第一站点中具有N个相关内容并且在第二站点中引用了其中的M个内容,则该用户的引用比率是M/N。
[0055]方法300继而在步骤S306处基于引用比率标识引用比率特征作为一个动作关联特征。根据本发明的实施例,如果对于初始用户集中超过预定数目或者比例的用户,在第二站点对第一站点中与该用户自己相关的内容的引用比率超过预定阈值,则可以认为同一用户通常倾向于在第二站点比较频繁地引用第一站点中与他/她有关的内容。由此,可以创建指示引用比率阈值的动作关联特征。
[0056]接下来,方法300进行到步骤S307,在此确定第一站点中与至少一个用户相关的内容与第二站点中与该用户相关的内容之间的相似度。根据本发明的实施例,可以利用目前已知或者将来开发的任何适当手段来检测两个内容之间的相似度。
[0057]例如,对于文本内容而言,多种用于确定两段文本的内容相似度的方法是已知的。例如,可以提取两端文本内容的关键词,并且确定这些关键词所述的类别。两端文本包含的属于相同类别的关键词越多,可以认为他们越发相似。备选地或附加地,也可以通过全文比较等方式来确定文本的相似性。人工或者半人工操作也可以被用于确定文本相似性。
[0058]同样,对于音频、视频或者其他多媒体内容,可以通过与其关联的摘要、索引、描述信息等文本内容来确定内容相似度。备选地或附加地,也可以采用基于内容的多媒体处理来确定两段多媒体信息之间的相似度。这些方法在本领域中是已知的,对本发明的范围不构成限制,并且在此不再赘述。
[0059]方法300继而在步骤S308处基于内容相似度标识内容相似度特征作为一个动作关联特征。根据本发明的实施例,如果对于初始用户集中超过预定数目或者比例的用户,第二站点和第一站点中与该用户相关的内容的相似度超过预定阈值,则可以认为同一用户在第一站点和第二站点中的相关内容倾向于彼此近似。由此,可以创建指示内容相似度阈值的动作关联特征。
[0060]接下来,在步骤S309,基于以上一个或多个动作关联特征来确定第一站点中的第一用户名和第二站点中的第二用户名是否属于同一用户。具体而言,如果由第一用户名对应的用户在第一站点中执行的动作与第二用户名对应的用户在第二站点中执行的动作具有在步骤S302、S304、S306、S308中确定的动作关联特征中的一个或多个特征,则可以确定第一用户名和第二用户名属于同一用户。
[0061]例如,如果确定与第一用户名相关联的第一动作和与第二用户名相关联的第二动作在时间上满足时间间隔特征,则可以相应地提高第一用户名和第二用户名属于同一用户的可能性。对于其他动作关联特征同样如此。当这种可能性超过预定阈值时,即可认为第一用户名和第二用户名属于同一用户。
[0062]特别地,根据本发明的某些实施例,不同的动作关联特征可以具有不同的权重,这可以根据需要和情况灵活确定。其他计算任何定量的和/或定性的方式也是可能的。
[0063]接下来,方法300进行到可选的步骤S310。在步骤S310处,如果第一用户名和第二用户名被确定为属于同一用户,则在第一站点与第二站点之间共享与用户有关的信息。例如,可以将第一站点中已经学习和累积的关于用户的特性、偏好、交互习惯、兴趣等各种个性化信息传递给第二站点,以便第二站点利用这些信息为用户提供各种定制的信息服务。例如,第二站点可以根据这些信息为用户推荐内容、配置个人设置、调整图形用户界面(GUI)的布局、递送个性化信息(用户消息、系统消息、广告消息等),等等。本发明的范围在此方面不受限制。
[0064]方法300在步骤S310之后结束。
[0065]应当理解,上文结合图3描述的动作关联特征仅仅是示例性的。例如,可以考虑其他备选的和/或附加的动作关联特征。而且,上述动作关联特征并非都是必须的,可以在实际中仅考虑他们中的任意一个或多个而非全部。另外还应注意,步骤S301、S303、S305和S307的执行顺序仅仅是示例性的。本领域技术人员能够毫无疑义地理解,可以按照任何适当的顺序甚至并行地确定多个动作关联特征。相应地,上述步骤可以按照不同于图3中所示的顺序执行,并且在某些实施例中可以并行执行。
[0066]下面参考图4,示出了根据本发明示例性实施例的跨站点数据分析系统400的框图。如图4所示,根据本发明的实施例,系统400包括特征标识单元401,被配置为基于初始用户集中的至少一个用户在第一站点和第二站点中的动作标识所述第一站点与所述第二站点的至少一个动作关联特征。根据本发明的实施例,初始用户集中的用户是第一站点和第二站点的成员。另外,系统400还包括用户判别单元402,被配置为基于所述至少一个动作关联特征确定在所述第一站点中注册的第一用户名与在所述第二站点中注册的第二用户名是否属于同一用户。
[0067]根据本发明的某些实施例,特征标识单元401可以包括:时间间隔确定单元,被配置为确定所述至少一个用户在所述第一站点中执行的第一动作与在所述第二站点中执行的第二动作之间的时间间隔;以及时间间隔特征标识单元,被配置为基于所述时间间隔标识时间间隔特征作为所述至少一个动作关联特征之一。根据本发明的某些实施例,第一动作是在所述第一站点中发布内容,并且其中第二动作是在所述第二站点中引用在所述第一站点中发布的所述内容。
[0068]根据本发明的某些实施例,特征标识单元401可以包括:引用数目标识单元,被配置为确定所述至少一个用户在所述第二站点中对所述第一站点中与所述至少一个用户相关的内容的引用数目;以及引用数目特征标识单元,被配置为基于所述引用数目标识引用数目特征作为所述至少一个动作关联特征之一。
[0069]根据本发明的某些实施例,特征标识单元401可以包括:引用比率确定单元,被配置为确定所述至少一个用户在所述第二站点中对所述第一站点中与所述至少一个用户相关的内容的引用数目与所述第一站点中与所述至少一个用户相关的内容总数之间的比率;以及引用比率特征标识单元,被配置为基于所述比率标识引用比率特征作为所述至少一个动作关联特征之一。
[0070]根据本发明的某些实施例,特征标识单元401可以包括:相似度确定单元,被配置为确定所述第一站点中与所述至少一个用户相关的内容与所述第二站点中与所述至少一个用户相关的内容之间的相似度;以及相似度特征标识单元,被配置为基于所述相似度标识内容相似度特征作为所述至少一个动作关联特征之一。
[0071]根据本发明的某些实施例,用户判别单元402可以包括:第一确定单元,被配置为在由所述第一用户名对应的用户在所述第一站点中执行的动作与由所述第二用户名对应的用户在所述第二站点中执行的动作具有所述至少一个动作关联特征中的一个或多个特征的情况下,确定所述第一用户名和所述第二用户名属于同一用户。
[0072]根据本发明的某些实施例,系统400可以进一步包括:信息共享单元,被配置为在确定所述第一用户名和所述第二用户名属于同一用户的情况下,在所述第一站点与所述第二站点之间共享与所述用户相关的信息。
[0073]根据本发明的某些实施例,初始用户集中的至少一个用户在所述第一站点和所述第二站点具有相同的用户名。
[0074]为清晰起见,图4中没有示出系统400所包含的可选单元或者子单元。应当理解,系统400包含的各个单元或者子单元分别对应于上文参考图2和图3描述的方法200和300的相应步骤。由此,上文针对方法200和300描述的所有特征和操作同样分别适用于系统400,故在此不再赘述。
[0075]而且,系统400中的单元或子单元的划分不是限制性的而是示例性的,旨在从逻辑上描述其主要功能或操作。在图4中所示的单个单元的功能可以由多个单元来实现。反之,在图4中所示的多个单元亦可由单个单元来实现。本发明的范围在此方面不受限制。
[0076]特别地,系统400中包含的单元可以利用各种方式来实现,包括软件、硬件、固件或其任意组合。例如,根据本发明的某些实施例,系统400的各单元可以利用软件和/或固件模块来实现。此时,如上所述,这些软件单元可以通过调用其他装置或器件来实现光电转换或电光转换。备选地或附加地,系统400的单元也可以利用硬件来实现。例如,系统400的各单元可以实现为集成电路(IC)芯片、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、片上系统(SOC),等等。现在已知或者将来开发的其他方式也是可行的,本发明的范围在此方面不受限制。
[0077]通过上文描述可以理解,根据本发明的实施例,对于网络中的任意两个站点,可以首先根据在这两个站点中均是成员的用户的动作,挖掘、学习和标识同一用户在这两个站点之间的常见动作关联特征。动作关联特征在统计上指明同一用户在这两个站点之间执行动作的规律性内在联系。而后,利用这种联系,可以确定在这两个站点中具有不同用户名的相同用户。确定不同站点中的相同用户是有益的,例如可以在这些站点之间共享用户信息,从而促进对用户的个性化定制信息服务。
[0078]上文已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所公开的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本【技术领域】的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中技术的技术改进,或者使本【技术领域】的其它普通技术人员能理解本文公开的各实施例。
【权利要求】
1.一种跨站点数据分析方法,包括: 基于初始用户集中的至少一个用户在第一站点和第二站点中的动作标识所述第一站点与所述第二站点的至少一个动作关联特征,所述初始用户集中的用户是所述第一站点和所述第二站点的成员;以及 基于所述至少一个动作关联特征确定在所述第一站点中注册的第一用户名与在所述第二站点中注册的第二用户名是否属于同一用户。
2.根据权利要求1所述的方法,其中基于初始用户集中的至少一个用户在第一站点和第二站点中的动作标识所述第一站点与所述第二站点的至少一个动作关联特征包括: 确定所述至少一个用户在所述第一站点中执行的第一动作与在所述第二站点中执行的第二动作之间的时间间隔;以及 基于所述时间间隔标识时间间隔特征作为所述至少一个动作关联特征之一。
3.根据权利要求2所述的方法,其中所述第一动作是在所述第一站点中发布内容,并且其中所述第二动作是在所述第二站点中引用在所述第一站点中发布的所述内容。
4.根据权利要求1所述的方法,其中基于初始用户集中的至少一个用户在第一站点和第二站点中的动作标识所述第一站点与所述第二站点的至少一个动作关联特征包括: 确定所述至少一个用户在所述第二站点中对所述第一站点中与所述至少一个用户相关的内容的引用数目;以及 基于所述引用数目标识引用数目特征作为所述至少一个动作关联特征之一。
5.根据权利要求1所述的方法,其中基于初始用户集中的至少一个用户在第一站点和第二站点中的动作标识所述第一站点与所述第二站点的至少一个动作关联特征包括: 确定所述至少一个用户在所述第二站点中对所述第一站点中与所述至少一个用户相关的内容的引用数目与所述第一站点中与所述至少一个用户相关的内容总数之间的比率;以及 基于所述比率标识引用比率特征作为所述至少一个动作关联特征之一。
6.根据权利要求1所述的方法,其中基于初始用户集中的至少一个用户在第一站点和第二站点中的动作标识所述第一站点与所述第二站点的至少一个动作关联特征包括: 确定所述第一站点中与所述至少一个用户相关的内容与所述第二站点中与所述至少一个用户相关的内容之间的相似度;以及 基于所述相似度标识内容相似度特征作为所述至少一个动作关联特征之一。
7.根据权利要求1所述的方法,其中所述初始用户集中的至少一个用户在所述第一站点和所述第二站点具有相同的用户名。
8.根据权利要求1所述的方法,进一步包括: 如果确定所述第一用户名和所述第二用户名属于同一用户,则在所述第一站点与所述第二站点之间共享与所述用户相关的信息。
9.根据权利要求1-8任一项所述的方法,其中基于所述至少一个动作关联特征确定在所述第一站点中注册的第一用户名与在所述第二站点中注册的第二用户名是否属于同一用户包括: 如果由所述第一用户名对应的用户在所述第一站点中执行的动作与由所述第二用户名对应的用户在所述第二站点中执行的动作具有所述至少一个动作关联特征中的一个或多个特征,则确定所述第一用户名和所述第二用户名属于同一用户。
10.一种跨站点数据分析系统,包括: 特征标识单元,被配置为基于初始用户集中的至少一个用户在第一站点和第二站点中的动作标识所述第一站点与所述第二站点的至少一个动作关联特征,所述初始用户集中的用户是所述第一站点和所述第二站点的成员;以及 用户判别单元,被配置为基于所述至少一个动作关联特征确定在所述第一站点中注册的第一用户名与在所述第二站点中注册的第二用户名是否属于同一用户。
11.根据权利要求10所述的系统,其中所述特征标识单元包括: 时间间隔确定单元,被配置为确定所述至少一个用户在所述第一站点中执行的第一动作与在所述第二站点中执行的第二动作之间的时间间隔;以及 时间间隔特征标识单元,被配置为基于所述时间间隔标识时间间隔特征作为所述至少一个动作关联特征之一。
12.根据权利要求10所述的系统,其中所述第一动作是在所述第一站点中发布内容,并且其中所述第二动作是在所述第二站点中引用在所述第一站点中发布的所述内容。
13.根据权利要求10所述的系统,其中所述特征标识单元包括: 引用数目标识单元,被配置为确定所述至少一个用户在所述第二站点中对所述第一站点中与所述至少一个用户相关的内容的引用数目;以及 引用数目特征标识单元,被配置为基于所述引用数目标识引用数目特征作为所述至少一个动作关联特征之一。`
14.根据权利要求10所述的系统,其中所述特征标识单元包括: 引用比率确定单元,被配置为确定所述至少一个用户在所述第二站点中对所述第一站点中与所述至少一个用户相关的内容的引用数目与所述第一站点中与所述至少一个用户相关的内容总数之间的比率;以及 引用比率特征标识单元,被配置为基于所述比率标识引用比率特征作为所述至少一个动作关联特征之一。
15.根据权利要求10所述的系统,其中所述特征标识单元包括: 相似度确定单元,被配置为确定所述第一站点中与所述至少一个用户相关的内容与所述第二站点中与所述至少一个用户相关的内容之间的相似度;以及 相似度特征标识单元,被配置为基于所述相似度标识内容相似度特征作为所述至少一个动作关联特征之一。
16.根据权利要求10所述的系统,其中所述初始用户集中的至少一个用户在所述第一站点和所述第二站点具有相同的用户名。
17.根据权利要求10所述的系统,进一步包括: 信息共享单元,被配置为在确定所述第一用户名和所述第二用户名属于同一用户的情况下,在所述第一站点与所述第二站点之间共享与所述用户相关的信息。
18.根据权利要求10-17任一项所述的系统,其中所述用户判别单元包括: 第一确定单元,被配置为在由所述第一用户名对应的用户在所述第一站点中执行的动作与由所述第二用户名对应的用户在所述第二站点中执行的动作具有所述至少一个动作关联特征中的一个或多个特征的情况下,确定所述第一用户名和所述第二用户名属于同一用户。
【文档编号】H04L29/08GK103793420SQ201210427841
【公开日】2014年5月14日 申请日期:2012年10月31日 优先权日:2012年10月31日
【发明者】包胜华, 郭宏蕾, 郭志立, 苏中 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1