数据分析方法及其系统的制作方法

文档序号:6489431阅读:246来源:国知局
数据分析方法及其系统的制作方法
【专利摘要】本发明的实施方式总体上涉及数据处理,进一步本发明的实施方式涉及数据分析及其系统。本发明用于提供一种个性化的数据分析方法从而找到目标分析项目中有区别度的特征。具体而言,本发明提供一种数据分析方法,包括:获取样本数据,选择所述样本数据的判别性特征;对至少一个目标分析项目,确定其是否具有至少一个所述判别性特征;以及响应于具有至少一个所述判别性特征,将所述至少一个目标分析项目与至少一个所述判别性特征相关联。
【专利说明】数据分析方法及其系统
【技术领域】
[0001]本发明的实施方式总体上涉及数据处理,进一步本发明的实施方式涉及数据分析及其系统。
【背景技术】
[0002]数据分析已经在很多重要领域发挥重要作用。很多网络应用都向用户推荐商品(包括图书、电影等各种商品)以及推荐好友。比如在在线书店中,当用户购买或浏览图书时,在线书店可能向用户推荐他/她可能感兴趣的图书。再比如在在线社交网络中,用户可能被推荐好友。在线应用往往根据用户的个人数据和之前的网络行为进行推荐。借助于所述推荐系统,用户能够容易的获得更多的信息。但是很多推荐算法过于复杂(比如矩阵分解模型Matrix Factorization,某些基于概率的模型,基于图的模型等)导致推荐应用本身都无法解释为何向用户推荐某个项目而不是其它项目。此外,有些推荐系统即便给出推荐的理由,但是所述理由也不是个性化的,而是使用通用的理由进行推荐,比如当用户浏览一个在线书店的书A时,该在线书店将书B推荐给用户,其理由是购买了书A的其它用户也购买了书B。

【发明内容】

[0003]为了提供一种个性化的数据分析方法从而找到目标分析项目中有区别度的特征,发明提供一种数据分析方案。
[0004]具体而言,本发明提供一种数据分析方法,包括:获取样本数据,其中所述样本数据包含正样本数据和负样本数据,所述正样本数据包括用户所偏好的项目,并且所述负样本数据包含用户非偏好的项目;选择所述样本数据的判别性特征,其中所述判别性特征包括对区分正样本数据和负样本数据中的项目具有区分度的特征;对至少一个目标分析项目,确定其是否具有至少一个所述判别性特征;以及响应于具有至少一个所述判别性特征,将所述至少一个目标分析项目与至少一个所述判别性特征相关联。
[0005]本发明还提供一种数据分析系统,包括:获取装置,被配置为获取样本数据,其中所述样本数据包含正样本数据和负样本数据,所述正样本数据包括用户所偏好的项目,并且所述负样本数据包含用户非偏好的项目;选择装置,被配置为选择所述样本数据的判别性特征,其中所述判别性特征包括对区分正样本数据和负样本数据中的项目具有区分度的特征;确定装置,被配置为对至少一个目标分析项目,确定其是否具有至少一个所述判别性特征;以及关联装置,被配置为响应于具有至少一个所述判别性特征,将所述至少一个目标分析项目与至少一个所述判别性特征相关联。
[0006]通过本发明的数据分析方案可以个性化的识别目标分析项目中有区分度的特征,从而使得数据分析结果更加详尽、充实。
【专利附图】

【附图说明】[0007]通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
[0008]图1示出了适于用来实现本发明实施方式的示例性计算系统100的框图。
[0009]图2示出了按照本发明的一个实施例的数据分析方法的流程图。
[0010]图3示出了按照本发明的一个实施例的选择判别性特征的流程图。
[0011]图4A示出了按照本发明的一个实施例的样本数据示意图。
[0012]图4B示出了按照本发明的另一个实施例的样本数据示意图。
[0013]图4C示出了按照本发明的又一个实施例的样本数据示意图。
[0014]图5示出了按照本发明的一个实施例的数据分析系统示意图。
[0015]图6示出了按照本发明的一个实施例的选择装置的示意图。
【具体实施方式】
[0016]下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整的传达给本领域的技术人员。通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
[0017]图1示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。
[0018]下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
[0019]所属【技术领域】的技术人员知道,本发明可以实现为系统、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等),还可以是硬件和软件结合的形式,本文一般称为“电路”、“模块”或“系统”。此外,在一些实施例中,本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。
[0020]可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是一但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(DPR0M或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
[0021]计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括一但不限于一电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
[0022]计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括一但不限于一无线、电线、光缆、RF等等,或者上述的任意合适的组合。
[0023]可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言-诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言-诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络一包括局域网(LAN)或广域网(WAN)-连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
[0024]下面将参照本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,这些计算机程序指令通过计算机或其它可编程数据处理装置执行,产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。
[0025]也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中,这样,存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置(instructionmDans)的制造品(manufacturD)。
[0026]也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。
[0027]图1示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。图1显示的计算机系统/服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
[0028]如图1所示,计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
[0029]总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VDSA)局域总线以及外围组件互连(PCI)总线。
[0030]计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
[0031]系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM) 30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图1未显示,通常称为“硬盘驱动器”)。尽管图1中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如⑶-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
[0032]具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
[0033]计算机系统/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信,和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口 22进行。并且,计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机系统/服务器12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机系统/服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
[0034]图2示出了按照本发明的一个实施例的数据分析方法的流程图。在步骤201,获取样本数据。在步骤203,选择所述样本数据的判别性特征(discriminative feature)。在步骤205,对至少一个目标分析项目,确定其是否具有至少一个所述判别性特征。在步骤207,响应于具有至少一个所述判别性特征,将所述至少一个目标分析项目与至少一个所述判别性特征相关联。在一个例子中,使用图2所示的方法可以向用户提供向其推荐电影的解释。下面对图2所示方法的各个步骤进行详细描述。
[0035]具体而言,在步骤201,获取样本数据,其中所述样本数据包含正样本数据和负样本数据,所述正样本数据包括用户所偏好的项目,并且所述负样本数据包含用户非偏好的项目。
[0036]按照本发明的一个实施例,所述用户可能是一个用户,从而使得本实施例可以为单一的用户挖掘个性化的判别性特征。按照本发明的另一个实施例,所述用户也可能是多个用户的集合(比如一个兴趣小组中的多个用户),这样使得本实施例可以根据用户群的行为为用户群挖掘个性化的判别性特征。
[0037]按照本发明的一个实施例,所述项目可以是下列各项中的至少一项:商品、其它用户。所述商品可以是有形商品,比如在线购物商店中所销售的商品,也可以是供下载的无形商品,比如电子图书、电子音乐、电影等。所述其它用户可以是用户的好友,所述用户的被关注者(followee),所述用户的关注者(follower),具有共同兴趣的其它用户,在同一分组内的其它用户等。下文中主要以电影为例进行说明,但本发明并不只限于对电影的数据进行分析。
[0038]样本数据中包含正样本数据和负样本数据可以使在后续步骤中选择出的判别性特征具有区别度。如果仅使用正样本数据,则只有正样本数据中的特征可能被选择,而实际上正样本数据中的特征实际上可能并非具有区别度。比如如果正样本数据中包含10部电影,负样本数据中也包含10部电影,正样本数据以及负样本数据中各有7部电影都是由主演Tom主演的,如果仅在样本数据中包含正样本数据,那么按照后续介绍的步骤“主演Tom”这个特征就被选择为判别性特征,但是实际上“主演Tom”并不具有区别度,因为“主演Tom”在正样本中出现的概率与在负样本中出现的概率相同。因此本实施例中的样本数据包含正样本数据和负样本数据从而使得后续选择出的判别性特征具有区别度。
[0039]按照本发明的一个实施例,所述正样本数据与负样本数据的数量相同。按照本发明的另一个实施例,所述正样本数据与负样本数据的数量不同。
[0040]按照本发明的一个实施例,所述步骤201获取样本数据进一步包括:根据下列各项中的至少一项获取样本数据:所述用户的操作历史、推荐系统为所述用户产生的推荐结
果O
[0041]本发明对推荐系统不做限定,其可以是利用任何推荐算法的任何推荐系统。按照本发明的一个实施例,如果对推荐系统所推荐的结果中的项目确定判别性特征,即所述目标分析项目来自所述推荐结果,则在样本数据中包括推荐系统对所述用户的推荐结果,对所述目标分析项目而言,可以进一步提高对目标分析项目确定判别性特征的命中率,因为所述判别性特征是基于包含所述目标分析项目的样本数据中获得的。更具体而言,如果在样本数据中包含推荐结果,则所述推荐结果中的至少一个目标分析项目包含判别性特征的概率就越大。
[0042]按照本发明的一个实施例所述推荐结果可能包含正面推荐结果和负面推荐结果。所述正面推荐结果比如可以是推荐用户观看的电影,所述负面推荐结果比如可以是不推荐用户观看的电影。在一般的网络应用中,虽然推荐系统只会展示正面推荐结果而不会展示负面推荐结果,但是推荐系统往往存储有正面推荐结果和负面推荐结果。
[0043]按照本发明的一个实施例,所述操作历史包括下列各项中的至少一项:所述用户对项目的打分、所述用户对项目的操作、所述用户对项目的评论。其中,所述用户对项目的打分可以采用任何度量方式,如是五分制、十分制、百分制等。以五分制为例,可以设定用户打分为4分或5分的项目为正样本数据,并且用户打分为I分、2分、3分的项目为负样本数据。
[0044]所述用户对项目的操作可以包括下列各项中的至少一项:用户对项目的点击、用户对项目的浏览超过预订时长、用户对项目的预订操作。如果用户对项目的操作包括用户对项目的点击,可以将用户点击的项目作为正样本数据,并且将用户所没有点击的项目作为负样本数据。如果用户对项目的操作包括用户对项目浏览超过预订时长,可以将用户浏览超过预订时长的项目作为正样本数据,并且将用户浏览短于预订时长的项目作为负样本数据。如果用户对项目的操作包括用户对项目的预订操作,例如购买操作,则可以将用户购买的项目作为正样本数据,并且将用户未购买的项目作为负样本数据;在另一个例子中,也可以将用户购买的项目作为正样本数据,并且将用户浏览但未购买的项目作为负样本数据,从而可以减少和精炼负样本数据中的数量。在其它例子中,用户对项目的预订操作也可以是跳过操作(skip)、删除操作等,这样可以将用户跳过或删除的项目作为负样本数据。
[0045]如果用户对项目的操作包括所述用户对项目的评论,则可以进一步借助语义分析技术和情感分析技术分析用户对项目的评论是正面评论还是负面评论,从而划分正样本数据和负样本数据。
[0046]可选的,如果负样本数据中的数据量过大,可以对负样本数据的容量增加一些限制,在一种实施例中,可以随机选取预订数量的项目作为负样本数据。在另一中实施例中,可以根据所述用户对项目的打分、所述用户对项目的操作、所述用户对项目的评论对负样本数据进行筛选,从而挑选用户最不偏好的项目作为负样本数据,从而使得负样本数据的数据量控制在预订阈值之内,比如如果用户打分为I分、2分、3分的项目数过多,可以仅将用户打分为I分的项目作为负样本数据。
[0047]在图2中的步骤203,选择所述样本数据的判别性特征,其中所述判别性特征包括对区分正样本数据和负样本数据中的项目具有区分度的特征。所述判别性特征相比于其它特征对于正负样本的划分起到了更加决定性的作用。比如一个用户非常喜欢由主演Tom主演的电影,并且对没有由主演Tom主演的电影都不喜欢,那么“主演Tom”就是一个判别性特征。
[0048]图3示出了按照本发明的一个实施例的选择判别性特征的流程图。按照图3所示的实施例,选择所述样本数据的判别性特征进一步包括:确定所述样本数据中的待选特征(步骤310),以及从所述待选特征中选择判别性特征(步骤320)。
[0049]按照本发明的一个实施例,所述待选特征进一步包括下列各项中的至少一项:结构化特征(structu red feature)、非结构化特征(non-structured feature),其中所述结构化特征包括下列各项中的至少一项:属性以及所述属性的值、属性,并且其中所述非结构化特征包括所述样本数据中的关键词。以电影为例,所述结构化特征例如可以是“主演Tom”(属性以及所述属性的值)或“主演”(属性);所述非结构化特征可以是影评或电影简介中的关键词,比如特定的地点等。可选的,如果待选特征包括非结构化特征,则需要对所述项目进行分析以确定其中的非结构化特征,比如通过命名实体识别技术识别电影简介或电影评论中的实体名称,比如地点、人名、单位名称等;再例如,还可以通过语义分析挖掘项目中的所有名词作为非结构化特征,或者通过语义分析挖掘项目中重复出现次数达到预订阈值的名词作为非结构化特征。
[0050]按照本发明的一个实施例,其中所述待选特征进一步包括下列各项中的至少一项:静态特征、动态特征。其中所述静态特征是所述项目所固有的特征,静态特征在一段时间内不算时间的变化而变化,比如一部电影的“主演”、“类型”等都属于静态特征。而所述动态特征是根据时间的不断变化而动态变化的特征,比如观看了同一部电影的其它用户还观看了其它电影的名单,购买了同一本图书的其它用户还购买了其它图书的名单,属于同一个用户的好友名单等。
[0051]按照本发明的一个实施例,其中所述待选特征进一步包括下列各项中的至少一项:原始特征、组合特征、概括特征。其中所述原始特征包括所述样本数据中项目原有的特征,仍然以电影为例,“主演”是每个电影项目都包含的特征,因此“主演=Tom”就是样本数据中的原有特征。所述组合特征包括多个所述原始特征的组合,比如“主演=Tom、类型=喜剧”是两个原始特征(“主演=Tom”以及“类型=喜剧”)的组合。所述概括特征包括对多个所述原始特征的进行概括所形成的特征,比如“主演”是“主演=Tom”、“主演=Jack’等的概括特征。在这个例子中,概括特征“主演”仅包含属性而不包含属性的值。
[0052]按照本发明的一个实施例,步骤320进一步包括:计算所述待选特征的区分度值(步骤321);以及根据所述区分度值从待选特征中筛选出判别性特征(步骤322)。可选的、步骤322可以将区分度值超过预订阈值的待选特征选出作为判别性特征。可选的、步骤203可以仅选择具有正面区分度的待选特征作为判别性特征,比如所有由主演Tom主演的电影都是用户所偏好的电影,而所有由主演Bob所主演的电影都是用户所非偏好的电影,因此特征“主演=Tom”与“主演=Bob”可能具有相同的区分度。但是特征“主演=Tom”出现在正样本数据中,而“主演=Bob”出现在负样本数据中,所以“主演=Tom”是具有正面区分度的判别性特征,而“主演=Bob”是具有负面区分度的判别性特征。在一个具体应用中,可能不会将用户所非偏好的项目作为目标分析项目(比如仅将推荐系统所做出的正面推荐结果作为目标分析项目),因此不需要将具有负面区分度的判别性特征“主演=Bob”作为判别性特征,这样可以进一步减少存储判别性特征所占用的存储空间。
[0053]按照本发明的另一个实施例,步骤320进一步包括:计算所述待选特征的区分度值;按照所述区分度值对所述待选特征进行排序;以及从排序的待选特征中筛选出判别性特征。本实施例可以更有利于控制判别性特征的数量,比如按照具体应用场景的规定,筛选出的判别性特征不能超过8个,则通过上述排序过程,可以更加清楚的了解有哪8个待选特征应当被筛选出来作为判别性特征。
[0054]下面按照图4A-4C对如何计算待选特征的区分度值以及筛选判别性特征进行示例性描述。
[0055]图4A示出了按照本发明的一个实施例的样本数据示意图。在图4A的例子中假设正样本数据和负样本数据各包含10部电影,每部电影都具有关于主演的原始特征,在主演为Tom的4部电影中,有I部电影是正样本数据,有3部是负样本数据,在主演为Jack的12部电影中,有9部是正样本数据,有3部是负样本数据,在主演为Bob的4部电影中,没有正样本数据,都是负样本数据。在本例子中,假设待选特征就是关于主演的原始特征“主演=Tom”、“主演=Jack” 以及“主演=Bob”。
[0056]按照本发明的一个实施例,所述计算所述待选特征的区分度值(图3步骤321)进一步包括:根据所述待选特征在所述正样本数据中出现的次数与所述待选特征在所述样本数据中出现的次数之比计算所述区分度值。
[0057]图4A中待选特征的区分度值可以用下述公式表示:
[0058]Di=N'/ (NVN:)公式 I
[0059]其中Di表示第i个待选特征的区分度值,K表示第i个待选特征在正样本数据中出现的数量,&表示第i个待选特征在负样本数据中出现的数量。在正样本数据和负样本数据数量相同的情况下,最没有区分度的待选特征的区分度值为0.5 ;区分度越大的待选特征,其区分度值偏离0.5的距离就越大。按照公式1,图4A中的各个待选特征的区分度值如下:
[0060]D ( “主演=Tom,,) =1/ (1+3) =0.25[0061 ] D ( “主演=Jack”) =9/ (9+3) =0.75
[0062]D ( “主演=Bob ”) =0/ (0+4) =0
[0063]按照本发明的一个实施例,可以根据所述区分度值从待选特征中筛选出判别性特征(图3中的步骤322),其中“主演=Bob”是区分度最大的判别性特征。如果仅设定将区分度值与0.5的距离高于0.3的待选特征筛选出来作为判别性特征,那么只有“主演=Bob”作为判别性特征,如果设定将区分度值与0.5的距离高于0.2的待选特征都筛选出来作为判别性特征,那么所有三个待选特征都可以作为判别性特征。
[0064]按照本发明的另一个实施例,可以区分具有正面区分度的判别性特征和具有负面区分度的判别性特征,其中具有正面区分度的判别性特征的区分度值高于0.5,而具有负面区分度的判别性特征的区分度值低于0.5。因此“主演=Tom”和“主演=Bob”属于具有负面区分度的判别性特征,也就是对于主演是Tom或Bob的电影,该用户一般都不太喜欢。而“主演=Jack”属于具有正面区分度的判别性特征,也就是对于主演是Jack的电影,该用户一般都比较喜欢。
[0065]按照本发明的另一个实施例,所述计算所述待选特征的区分度值(图3步骤321)进一步包括:根据所述待选特征在所述正样本数据和所述负样本数据中分布的熵以及所述待选特征在样本数据中出现的次数占总样本数据的比重计算所述区分度值。由于熵(Entropy)可以用来度量数据的不确定性,因此可以借助熵来计算区分度值。根据本实施例计算区分度值的公式如下所示:
[0066]
【权利要求】
1.一种数据分析方法,包括: 获取样本数据,其中所述样本数据包含正样本数据和负样本数据,所述正样本数据包括用户所偏好的项目,并且所述负样本数据包含用户非偏好的项目; 选择所述样本数据的判别性特征,其中所述判别性特征包括对区分正样本数据和负样本数据中的项目具有区分度的特征; 对至少一个目标分析项目,确定其是否具有至少一个所述判别性特征;以及响应于具有至少一个所述判别性特征,将所述至少一个目标分析项目与至少一个所述判别性特征相关联。
2.如权利要求1所述的方法,其中所述获取样本数据进一步包括: 根据下列各项中的至少一项获取样本数据:所述用户的操作历史、推荐系统为所述用户产生的推荐结果。
3.如权利要求2所述的方法,其中所述操作历史包括下列各项中的至少一项: 所述用户对项目的打分、所述用户对项目的操作、所述用户对项目的评论。
4.如权利要求1所述的方法,其中所述选择所述样本数据的判别性特征进一步包括: 确定所述样本数据中的待选特征,以及 从所述待选特征中选择判别性特征。
5.如权利要求4所述的方法,其中所述待选特征进一步包括下列各项中的至少一项:结构化特征、非结构化特征, 其中所述结构化特征包括下列各项中的至少一项:属性以及所述属性的值、属性,并且 其中所述非结构化特征包括所述样本数据中的关键词。
6.如权利要求4所述的方法,其中所述待选特征进一步包括下列各项中的至少一项: 原始特征,所述原始特征包括所述样本数据中项目原有的特征; 组合特征,所述组合特征包括多个所述原始特征的组合; 概括特征,所述概括特征包括对多个所述原始特征的进行概括所形成的特征。
7.如权利要求4-6中任意一个所述的方法,其中从所述待选特征中选择判别性特征进一步包括: 计算所述待选特征的区分度值; 根据所述区分度值从所述待选特征中筛选出判别性特征。
8.如权利要求7所述的方法,其中所述计算所述待选特征的区分度值进一步包括: 根据所述待选特征在所述正样本数据中出现的次数与所述待选特征在所述样本数据中出现的次数之比计算所述区分度值。
9.如权利要求7所述的方法,其中所述计算所述待选特征的区分度值进一步包括: 根据所述待选特征在所述正样本数据和所述负样本数据中分布的熵以及所述待选特征在样本数据中出现的次数占总样本数据的比重计算所述区分度值。
10.如权利要求1所述的方法,其中所述至少一个目标分析项目为至少一个推荐项目,所述选择所述样本数据的判别性特征进一步包括: 选择具有正面区分度的待选特征作为判别性特征。
11.一种数据分析系统,包括: 获取装置,被配置为获取样本数据,其中所述样本数据包含正样本数据和负样本数据,所述正样本数据包括用户所偏好的项目,并且所述负样本数据包含用户非偏好的项目;选择装置,被配置为选择所述样本数据的判别性特征,其中所述判别性特征包括对区分正样本数据和负样本数据中的项目具有区分度的特征; 确定装置,被配置为对至少一个目标分析项目,确定其是否具有至少一个所述判别性特征;以及 关联装置,被配置为响应于具有至少一个所述判别性特征,将所述至少一个目标分析项目与至少一个所述判别性特征相关联。
12.如权利要求11所述的系统,其中所述获取装置进一步被配置为: 根据下列各项中的至少一项获取样本数据:所述用户的操作历史、推荐系统为所述用户产生的推荐结果。
13.如权利要求12所述的系统,其中所述操作历史包括下列各项中的至少一项: 所述用户对项目的打分、所述用户对项目的操作、所述用户对项目的评论。
14.如权利要求11所述的系统,其中所述选择装置进一步包括: 确定子装置,被配置为确定所述样本数据中的待选特征,以及 选择子装置,被配置为从所述待选特征中选择判别性特征。
15.如权利要求14所述的系统,其中所述待选特征进一步包括下列各项中的至少一项:结构化特征、非结构化特征, 其中所述结构化特征包括下列各项中的至少一项:属性以及所述属性的值、属性,并且 其中所述非结构化特征包括所述样本数据中的关键词。
16.如权利要求14所述的系统,其中所述待选特征进一步包括下列各项中的至少一项: 原始特征,所述原始特征包括所述样本数据中项目原有的特征; 组合特征,所述组合特征包括多个所述原始特征的组合; 概括特征,所述概括特征包括对多个所述原始特征的进行概括所形成的特征。
17.如权利要求14-16中任意一个所述的系统,其中所述选择子装置进一步包括: 计算子装置,被配置为计算所述待选特征的区分度值; 筛选子装置,被配置为根据所述区分度值从待选特征中筛选出判别性特征。
18.如权利要求17所述的系统,其中所述计算子装置进一步被配置为: 根据所述待选特征在所述正样本数据中出现的次数与所述待选特征在所述样本数据中出现的次数之比计算所述区分度值。
19.如权利要求17所述的系统,其中所述计算子装置进一步被配置为: 根据所述待选特征在所述正样本数据和所述负样本数据中分布的熵以及所述待选特征在样本数据中出现的次数占总样本数据的比重计算所述区分度值
20.如权利要求17所述的系统,其中所述至少一个目标分析项目为至少一个推荐项目,所述选择装置进一步被配置为: 选择具有正面区分度的待选特征作为判别性特征。
【文档编号】G06F17/30GK103714063SQ201210371691
【公开日】2014年4月9日 申请日期:2012年9月28日 优先权日:2012年9月28日
【发明者】赵石顽, 吴贤, 袁泉 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1