用于统计目标观众的收视率的方法和装置的制作方法

文档序号:6356061阅读:284来源:国知局
专利名称:用于统计目标观众的收视率的方法和装置的制作方法
技术领域
本发明涉及收视率统计领域,更具体地涉及用于统计目标观众的收视率的方法和装置。
背景技术
收视率指在某一时段内收看某一电视节目的人数占电视观众总人数的百分比。以下均以电视节目为例。收视率是ー项用来统计观看特定电视节目的观众人数的指标。收视率是广告商给电视节目投资做广告的主要依据,也是判断电视节目播出效果和改进节目的重要依据。因此收视率调查对于传媒业有着很重要的意义。目前采用的收视数据采集方法包括两种方法,即日记法和人员测量仪法。日记法是指通过由样本户中的家庭成员,例如,所有4岁及以上家庭成员,填写日记卡来收集收视信息的方法。样本户中每一家庭成员都有各自的日记卡。要求每ー家庭成员把每天收看电视的情况(包括收看的频道和时间段)随时记录在自己的日记卡上。日记卡上所列的时间间隔为15分钟。每ー张日记卡可以记录一周的收视数据。人员测量仪法是指利用“人员测量仪”来收集收视信息的方法,并且是目前国际上最新的收视调查手段。样本家庭的每个成员在手控器上都有自己的按钮,而且还留有客人的按钮。当家庭成员开始看电视时,必须先按ー下手控器上代表自己的按钮,在不着电视时,再按ー下这个按钮。测量仪会把收看电视的所有信息以分钟为时间段(甚至可以精确到秒)存储下来,然后通过电话线传送到总部的中心计算机(或通过掌上电脑入户获取数据)。如果采用日记法,则由于需要对数据进行收集和分析,因而最快需要一周(一般需要两周)来提供收视数据。如果采用人员测量仪法,则由于电话线可以即时回传数据,因而能够做到隔一天就能提供收视数据。也有新的收视数据采集方法提出,如识别电视台台标,增加红外遥控信号识别装置等。在现有的方法中存在难以识别收视人群以及采样成本高的问题。比如人员测量法,在遥控器上指定不同的个人来操作不同的按钮,导致难以保证每个人都准确地操作其自己的按钮,而且用户体验也不好。另外ー个问题就是采样成本高。例如,央视-索福瑞媒介研究有限公司(CSM)拥有世界上最大的广播电视收视率调查网络。为了得到可信的收视调查数据,该公司建立了覆盖5. 6万余户样本家庭及超过18. 4万样本人ロ。CSM已建立起182个提供独立数据的收视率调查网络(I个全国网,25个省级网,以及包括香港特别行政区在内的156个城市网),以对1,278个电视频道的收视情况进行全天不间断调查。这导致调查成本非常高。在目前采用的方法中,由于成本的原因,导致只能覆盖ー小部分观众。此外,被调查观众的主观性也限制了真实数据的获得,从而导致目前的收视率采集方法普遍存在着样本取样来源少、数据准确性不足等问题。在目前数字电视、移动电视和网络电视日益普及的情况下,电视不再是传统的单向传播,普遍存在着上行通道。这就为采集大量的用户收视数据提供了基础。但随之而来、的问题是,虽然可以获得(比如通过机顶盒的附加功能模块)大量的用户收视数据,也能统计出很多收视率指标(比如毛评点、到达率等),但是其中ー种重要的指标“目标观众收视率”(某ー类特定观众的收视率)却无法获得。已知ー种通过在遥控器上添加输入装置来实现收视人群的识别的技术。相关专利文献有CN2694666、CN1386383、和CN2614403。该技术与传统的在遥控器上添加按钮的方法没有本质区別。此外,已知ー种通过获取收视场景,并对收视场景进行人像识别的方法来对收视人群进行性别、年龄和人数的识别的技术。相关专利文献有CN201349294和CN101588443。该技术无法对用户进行更为细致的划分,比如收入、受教育程度等。此外,已知ー种通过交互网络来获取收视率并通过用户主动注册并上传数据来获 得收视人群的识别的技术,相关专利文献有CN101207788。还已知一种通过硬件或网络的方法调查收视率的技术,其中收视人群的调查是通过用户主动配合提供的调查数据来获得的。相关专利文献有专利CN1536875。还已知一种通过收视仪和遥控器来获取收视数据的技术,其中,收视人群的识别通过遥控器上的指纹识别模块,相关专利文献有专利CN2741287。指纹识别收视人群的方法和现有的不同的家庭成员使用不同的遥控器识别按钮没有本质的区别,都存在样本少的问题。

发明内容
在下文中给出关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。本发明的ー个主要目的在于提供一种用于统计目标观众的收视率的方法和装置。根据本发明的ー个方面,提供了一种用于统计目标观众的收视率的方法,包括分类体系构建步骤,构建分类体系;知识库构建步骤,对分类体系进行组织以构建知识库;收视数据获取步骤,获取收视数据;收视数据表示步骤,按照包括在上述分类体系中的与目标观众相关联的分类体系,基于知识库将收视数据表示成相应特征空间中的点;分类器构造步骤,按照与目标观众相关联的分类体系,在特征空间中通过小样本学习来构造分类器;以及收视率统计步骤,利用所构造的分类器统计目标观众的收视率。根据本发明的另ー个方面,提供了一种用于统计目标观众的收视率的装置,包括分类体系构建部,用于构建分类体系;知识库构建部,用于对分类体系进行组织以构建知识库;收视数据获取部,用于获取收视数据;收视数据表示部,用于按照包括在上述分类体系中的与目标观众相关联的分类体系,基于知识库将收视数据表示成相应特征空间中的点;分类器构造部,用于按照与目标观众相关联的分类体系,在特征空间中通过小样本学习来构造分类器;以及收视率统计部,用于利用所构造的分类器统计目标观众的收视率。另外,本发明的实施例还提供了用于实现上述方法的计算机程序。此外,本发明的实施例还提供了至少计算机可读介质形式的计算机程序产品,其上记录有用于实现上述方法的计算机程序代码。通过本发明,可以提高收视率的准确性并可以统计针对目标观众的收视率。
通过以下结合附图对本发明的最佳实施例的详细说明,本发明的这些以及其他优点将更加明显。


參照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。图I示出了根据本发明的实施例的用于统计目标观众的收视率的方法的流程图;图2A-2J示出了根据本发明的实施例的构造分类器的过程的示例图;图3示出了根据本发明的实施例的用于统计目标观众的收视率的装置的框图;图4示出了根据本发明的另ー实施例的用于统计目标观众的收视率的装置的框图;图5示出了图3和图4中的分类器构造部的示例性配置的框图;以及图6示出了可以用于实施本发明的用于统计目标观众的收视率的方法和装置的计算设备的举例的结构图。
具体实施例方式下面參照附图来说明本发明的实施例。在本发明的一个附图或一种实施方式中描述的元素和特征可以与ー个或更多个其它附图或实施方式中示出的元素和特征相结合。应当注意,为了清楚的目的,附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。以下參照图I来描述根据本发明的实施例的用于统计目标观众的收视率的方法。图I示出了根据本发明的实施例的用于统计目标观众的收视率的方法的流程图。首先,在步骤102中,构建分类体系。具体地,可以自动或半自动地构建各种分类体系。分类体系例如可以包括节目分类体系、收视人群分类体系以及收视行为分类体系等。每个分类体系都可以包括多种不同分类体系。例如,节目分类体系可以由政治类、军事类、经济类、体育类、和娱乐类等组成,或者可以由电影、电视剧、互动类节目和语言类节目等组成。收视人群分类体系可以包括年龄分类体系、收入分类体系、性别分类体系、职业分类体系。收视行为分类体系可以是就收看时间而言的分类体系,例如,晚上8点到10点看电视、12点以后看电视等,或者可以是就收看节目的习惯而言的分类体系,例如,每天看固定的频道、每天看固定的频道组合等。值得注意的是,有一些分类体系是明确的,例如,性别分成男和女。而有些分类体系是不明确的,例如,对于收入来说,没有明确的标准说明哪些是高收入,哪些是低收入。此夕卜,有一些分类可能存在多个分类的标准。例如,在某些地区达到一定的收入可能被划为高收入,而在另外的地区,同样的收入可能不会被划为高收入。可选地,可以根据现有的知识体系,例如,某些国标、辞书等,构建ー个基本的分类体系。再对通过网络收集到的海量信息进行聚类。将经常出现在一起的类别聚合在一起。对于上下位的关系,可以通过对网络文本的深层次的挖掘而获得。比如进行句法分析得到“is”和“ a”的关系,从而确定上下位。
可选地,可以获取先验知识,以将其组织在后面将要描述的知识库中。其中,可以按各种方式来获取先验知识。例如,可以通过手动输入先验知识,或可以经由网络自动获取先验知识。这里,先验知识的获取可以是指获取不同的分类体系之间知识。例如,“退休的老年人通常18:30开始看电视”的先验知识,表达了收视人群的分类和收视行为之间的关系。这样的先验知识可以辅助初始分类器的构建。可选地,可以根据用户的需求来定制分类体系,例如,可以动态地调整分类体系。例如,如果某个用户认为金领等价于高收入,而认为白领等价于低收入,则根据本发明的实施例的方法可以根据用户的需求动态地调整分类体系使分类体系与用户的需求相适应。接下来,在步骤S104中,可以对分类体系进行组织以构建知识库。具体地,可以将各种分类体系的知识以不同的方式进行组织,并通过各种分类体系的之间的关系将分类体系关联起来。优选地,可以对通过构建分类体系得到的知识进行 归ー化,将各个分类体系中的公共的分类体系提取出来,并将提取出来的分类体系作为通用的知识存储起来。例如,在各个分类体系中,都将足球比赛作为体育分类的下位。这样的知识将被归ー化,作为通用的知识存储起来。此外,可以将不同分类体系之间的不兼容的知识分别表示。例如,在某个分类体系下,有“比赛”这一分类,而足球比赛作为该分类的下位,这样的特有的分类知识将作为该分类体系专有知识保存。此外,可以将先验知识和某些分类体系关联起来。例如,在某个分类体系下,70岁以上被标示为老年人,而在另一个分类体系下,60岁以上就被称之为老年人。在这种情况下,如果有某个先验知识表达“老年人喜欢看保健类的节目”,则需要对该先验知识所表示的“老年人”的概念进行消歧,以便和不同分类体系相对应。同样,可以将用户需求进行关联。将用户的特殊需求和所构建的知识库进行关联。例如,如果用户定义了“年轻的白领女性”,就需要将其中的分类概念“年轻”和“白领”与已有的分类体系和先验知识进行关联,从而保证在后续的收视率统计中准确的表达。接下来,在步骤S106中,可以获取收视数据。具体地,可以从各种收视设备收集收视数据,例如,收看电视节目信息和收视间隔。例如,可以通过上行通道收集从机顶盒传递来的频道切換信息。然后,可以对照电视节目表得到当前的收视节目和收看间隔。例如,这样的数据是以秒、分或小时为间隔。当然,收视数据不限于电视节目信息和收视间隔,也可以包括其他适当的数据。接下来,在步骤S108中,可以按照包括在步骤S102中构建的分类体系中的与目标观众相关联的分类体系,基于知识库将收视数据表示成相应特征空间中的点。具体地,可以将与目标观众相关联的分类体系表达出来。例如,可以用连续的数值区间来表达年龄,诸如老年人、中年人和青年人等。就受教育程度而言,可以用“本科”、“硕土”和“博士”等离散的数值来表示教育程度。这样经过归ー化的表达方式更易于后续的分类操作。接下来,在步骤SllO中,可以按照与目标观众相关联的分类体系,在特征空间中通过小样本学习来构造分类器。在步骤SllO中,可以按照与目标观众相关联的分类体系,针对特征空间中的点确定初始分类面,针对分类面附近的点获取学习样本,井根据学习样本调整分类面,以构造分类器。以下描述在不借助聚类和先验知识的情况下确定初始分类面的情况。初始分类面的确定可以有多重方式,而且初始分类面对后续的处理过程会有很大的影响。简单来说,可以不借助任何先验知识和聚类的结果,直接确定ー个初始的分类面。这样的初始分类面会对后续的迭代学习过程产生很大的影响。举例说来,如果在收视时间这个特征上将收视人群分成两类,如“老年人”和“青年人”,则可以不借助任何先验知识和聚类的結果,直接在收视时间特征上随机给出一个分类面。这样的分类面会有很多,将此分类面划在22:00和16:00有很大的区別。在后续进行样本学习的时候将会直接影响迭代的次数。在极端的情况下,初始分类面的设定会导致最終的迭代过程不收敛,而无法得到分类面的情況。以 下描述利用先验知识来确定初始分类面的情況。可选地,可以利用先验知识设定初始分类面。例如,可以通过先前系统的运行的结果作为先验知识,也可以使用在文献中得到的专家分析的知识,并将此类知识转化为初始的分类面。例如,如果有先验知识“退休的人多在18:00前开始看电视”,则这样的先验知识可以为初始分类面的划分提供帮助。以下描述如何根据学习样本调整分类面的情況。在确定初始分类面以后,可以收集分类面附近的特征空间中的样本。将该样本和真实样本(例如,通过人工调查、网络调查等方式获得真实样本)进行校对用获得的真实样本来对分类面进行修正。换句话说,这个修正的过程可以通过机器学习的方法,用真实的样本作为指导进行有监瞀的机器学习。其中,在确定初始分类面之前还可以对特征空间中的点进行聚类。可选地,可以重复地进行上述处理以优化分类器。在确定初始分类面时,可以按照与目标观众相关联的分类体系,利用先验知识针对特征空间中的点确定初始分类面。具体地,可以对收视人群和收视节目进行分类。在各种收视行为和收视节目组成的高维空间中构造分类器,可以将收视数据映射到收视人群上,从而得到特定收视人群的收视数据。在这个高维空间中,数据通常是纠缠在一起,很难用分类器精确地分开。可以在高维空间中,先选择区分比较明显的点,作为聚类中心进行聚类,并在聚类的过程中,通过控制聚类半径的大小来使不同的类别截然分开。优选地,采用谱聚类算法。谱聚类算法的思想来源于谱图划分理论。假定将每个数据样本看作图中的顶点V,并根据样本间的相似度将顶点间的边E赋权重值W,从而得到ー个基于样本相似度的无向加权图G= (V,E)。那么在图G中,就可以将聚类的问题转化为在图G上的图划分问题。基于图论的最优划分准则就是使划分成德两个子图内部相似度最大,子图之间的相似度最小。谱聚类算法包括以下步骤构造表示样本集的矩阵Z ;通过计算Z的前k个特征值与特征向量,构建特征向量空间;以及利用k-means或其他聚类算法对特征向量空间中的特征向量进行聚类。举例说来,考虑对如下的5个点聚类,目标聚类数目是2类。
'叫(\ I I 0 O、
Dl 1110 0£>3=00110 D4 0 0 0 11 kd5 Io 0 0 I I ノ可以得到其前两个特征向量,如下0.6983 0.7158 ヽ-0.6983 0.7158-0.9869 -0.1616 -0.6224 -0.7827
、一 0.6224 -0.7827ノ从特征向量可以看出,有很明显的两类{D1,D2}(特征值0.7158)和{D4,D5}(特征值-0. 7827),而D3从特征向量中很难区分出应属于哪个类(特征值-0. 1616)。通常在谱聚类中就会将其划分到{D4,D5}类中,但这样会带来风险。此处,可以通过使用聚类将容易区分的类聚在一起(如{D1,D2}和{D4,D5}),而使用小样本学习的方法来对不容易区分的类(如D3)进行进一歩分类。
如上所述,经过聚类以后,可以很容易地使用分类器将通过聚类得到的不同类别分开。但是通常这样的分类器会有多个。首先可以通过先验知识来进行初分类,这里就需要得到关于节目的知识和收视人群的知识。根据某个节目的先验知识得到的分类可能不准确,很多时候是该节目可能属于很多类。例如,某个电视剧可以属于娱乐类也可以属于情感类,也可能既属于娱乐类又属于情感类。这样之前用于娱乐类或是情感类的分类器或先验知识对该电视剧的分类效果可能不理想。这时需要对分类器边界(即,分类面)进行调整。我们通过小样本学习的方法获得分类器边界附近的样本点的正确分类,这样的分类信息被用来调整之前的分类器。同样,这样的数据也可以被用来调整之前确定的聚类中心,然后在重复之前的聚类、初分类和小样本学习调整的步骤,所得到的分类器被逐步优化。最終,优化后的分类器可被用于对收视人群进行分类。接下来,在步骤S112中,利用所构造的分类器统计目标观众的收视率。具体地,在得到优化的分类器后,可以利用该分类器对收视人群进行识别,从而得到目标观众的收视率。所得到的结果不限于此,还可以是其他收视率指标,比如毛评点、到
达率等。以下參照图2A-2J描述构造分类器的过程。在以下的描述中,为了清楚起见,在ニ维特征空间中给出以下描述。但实际上,根据具体情况,可以使用三维、四维等的特征空间。通过得到收视节目和收视人群的映射关系或通过在收视节目上对收视人群进行分类,来得到最終的特定收视人群的收视率数据(对某些节目的收视时间、间隔等信息)。一般而言,从收视设备得来的数据包含收视的时间、间隔、和/或收视的节目等信息。可以对这类的信息进行知识表示,以表达成收视人群分类空间中可以识别的信息。例如,某条收视数据是表示某台收视设备在某天22:00 24:00收看中央电视台5台。如果获知当天的22:00 24:00是足球比赛,则通过知识表达可以将这样的收视数据表达为“凌晨、体育、球赛”,也可以表达成具体的时间加上“体育、球赛”。这可以作为ー种收视特征,从不同角度的收视特征(时间、内容、收视间隔、地区)等构成收视人群识别的特征空间。可以在收视的特征空间中对收视人群进行分类。在图2A-2J的ニ维特征空间的例子中,收视特征I和收视特征2可以是例如收视时间和内容的组合,也可以是对收视内容的不同粒度的分类。收视节目的分类被简化成两类,一类是老年人,ー类是青年人。图中用圆点表示老年人,用三角表示青年人。
如图2A所示,数据通常是纠缠在一起的,不易分开。首先,我们选取距离较远的两个点,如图2B中所示的虚线圆圈里的点。通过控制聚类半径,初次聚类的结果如图2C所示。在这样聚类结果上的可以有很多分类器来将这两类分开,如图2D所示。可选地,通过先验知识来对分类器进行初选。这样,可以得到如图2E所示的分类器,这样的分类器在分类边界上有很多点纠缠在一起,而且没有被分开。例如,在边界上,很多三角被分到了圆点ー类。选取分类器边界的点,并对这些点进行人工校验,以得到其真实的分类信息。这样的信息被用来调整分类器和聚类中心点,结果如图2F所示。根据得到的新的聚类中心,如图2G所示。可选地,可以重复初分类(图2H)_小样本学习-调整分类器(图21)这样的步骤。直到得到如图2J所示的分类器。 以下參照图3来描述根据本发明的实施例的用于统计目标观众的收视率的装置300。图3示出了根据本发明的实施例的用于统计目标观众的收视率的装置300的框图。其中,为了简明起见仅仅示出了与本发明密切相关的部分。在装置300中,能够执行以上參考图I所描述的用于统计目标观众的收视率的方法。如图3所示,装置300包括分类体系构建部302、知识库构建部304、收视数据获取部306、收视数据表示部308、分类器构造部310和收视率统计部312。分类体系构建部302可以构建分类体系。知识库构建部304可以对分类体系进行组织以构建知识库。收视数据获取部306可以获取收视数据。收视数据表示部308可以按照与目标观众相关联的分类体系,基于知识库将收视数据表示成相应特征空间中的点。分类器构造部310可以按照分类体系构建部302所构建的分类系统中所包括的与目标观众相关联的分类体系,在特征空间中通过小样本学习来构造分类器。可选地,分类器构造部310可以包括初始分类面确定部3102、学习样本获取部3104、分类面调整部3106和聚类部3108,将稍后參照图5进行描述。收视率统计部312可以利用所构造的分类器统计目标观众的收视率。其中,聚类可以是谱聚类。分类体系可以包括节目分类体系、收视人群分类体系和收视行为分类体系中的ー种或多种。以下參照图4来描述根据本发明的另ー实施例的用于统计目标观众的收视率的装置400。图4示出了根据本发明的另ー实施例的用于统计目标观众的收视率的装置400的框图。如图4所示,装置400除了包括装置300的全部部件之外,还包括先验知识获取部314和分类体系定制部316。具体地,先验知识获取部314可以获取先验知识,并且知识库构建部304可以将所获取的先验知识组织在知识库中。分类体系定制部316可以根据用户的需求来定制分类体系,并且知识库构建部304可以将所定制的分类体系组织在知识库中。装置400的其他部件的功能类似于图300,在此省略其描述。图5示出了图3和图4中的分类器构造部310的示例性配置的框图。如图5所示,分类器构造部310可以包括初始分类面确定部3102,用于按照与目标观众相关联的分类体系,针对特征空间中的点确定初始分类面;学习样本获取部3104,用于针对分类面附近的点获取学习样本;以及分类面调整部3106,用于根据学习样本调整分类面,以构造分类器。可选地,初始分类面确定部3102可以按照与目标观众相关联的分类体系,利用先验知识来针对特征空间中的点确定初始分类面。可选地,分类器构造部310还可以包括聚类部3108,用于对特征空间中的点进行聚类。可选地,分类器构造部310还可以包括用于重复地使聚类部3108、初始分类面确定部3102、学习样本获取部3104和分类面调整部3106执行其处理以优化分类器的控制部(未示出)。通过阅读前面给出的相应处理的描述,装置300和400的各个组成単元的功能如 何实现就变得很清楚了,所以在此就不再赘述了。在此需要说明的是,图3-4所示的装置300和400及其组成单元的结构仅仅是示例性的,本领域技术人员可以根据需要对图3-4所示的结构框图进行修改。以上结合具体实施例描述了本发明的基本原理,但是,需要指出的是,对本领域的普通技术人员而言,能够理解本发明的方法和装置的全部或者任何步骤或者部件,可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中,以硬件、固件、软件或者它们的组合加以实现,这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。因此,本发明的目的还可以通过在任何计算装置上运行ー个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此,本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说,这样的程序产品也构成本发明,并且存储有这样的程序产品的存储介质也构成本发明。显然,所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。在通过软件和/或固件实现本发明的实施例的情况下,从存储介质或网络向具有专用硬件结构的计算机,例如图6所示的通用计算机600安装构成该软件的程序,该计算机在安装有各种程序吋,能够执行各种功能等等。在图6中,中央处理单元(CPU)601根据只读存储器(ROM)602中存储的程序或从存储部分608加载到随机存取存储器(RAM)603的程序执行各种处理。在RAM 603中,也根据需要存储当CPU 601执行各种处理等等时所需的数据。CPU 60UROM 602和RAM 603经由总线604彼此链路。输入/输出接ロ 605也链路到总线604。下述部件链路到输入/输出接ロ 605 :输入部分606 (包括键盘、鼠标等等)、输出部分607 (包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分608 (包括硬盘等)、通信部分609 (包括网络接ロ卡比如LAN卡、调制解调器等)。通信部分609经由网络比如因特网执行通信处理。根据需要,驱动器610也可链路到输入/输出接ロ 605。可拆卸介质611比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器610上,使得从中读出的计算机程序根据需要被安装到存储部分608中。在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质611安装构成软件的程序。本领域的技术人员应当理解,这种存储介质不局限于图6所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质611。可拆卸介质611的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(⑶-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 602、存储部分608中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。本发明还提出一种存储有机器可读取的指令代码的程序产品。指令代码由机器读取并执行时,可执行上述根据本发明实施例的方法。相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等。可以理解,在上述实施例中,通过使用少量的样本来获得收视人群的识别分类器,并用这样的分类器进而对收视数据进行分析,从而得到目标收视人群的收视统计数据。如前所说,在构建分类体系的过程中,会有很多种分类体系,也会有多个粒度级别的分类体系,根据本发明的实施例,很容易处理这样的多个分类体系,井能通过很少的样本迅速学习到分类器。在本发明的实施例中,通过小样本学习的方法,对通过双向通道采集到的收视信息进行统计、分析和预测,从而得到收视率数据,并实现了目标观众收视率的统计和预测。根据本发明的实施例的方法与传统的方法相比,由于传统的方法的收视率是在采样数据上统计得来的,导致采样数据量的大小限制了其准确率,而由于根据本发明的实施例的方法是在大規模的收视数据上、通过小样本的学习方法得来,因而在收视数据上有优势。在根据本发明的实施例中,由于收视数据是通过目前的数字电视、移动电视和网络电视等通过附加模块的方法得到的,因而收视率采样间隔可以很短,例如,秒。而传统的收视率调查方法,无论日记法还是观测仪的方法,都无法准确的秒、甚至到分。通常的间隔是以小时计。此外,在根据本发明的实施例中,由于采用了训练分类器的方法,因而一旦分类器确定,则再次确定收视率将会很快。换句话说,只需将收集上来的收视数据进行一次自动标注即可。而传统的方法则要至少一周的时间。此外,在根据本发明的实施例中,由于通过收视行为和分类体系之间的关系来制定分类器,因此当用户(例如,广告商)需要ー种特殊的目标观众的收视数据时,根据本发明的实施例的方法和装置可以迅速地通过学习的方法重新获得分类器,并使用该分类器获得收视率数据。传统的方法是无法实现这一点的。本领域的普通技术人员应理解,在此所例举的是示例性的,本发明并不局限于此。在本说明书中,“第一”、“第二”以及“第N个”等表述是为了将所描述的特征在文字上区分开,以清楚地描述本发明。因此,不应将其视为具有任何限定性的含义。作为ー个示例,上述方法的各个步骤以及上述设备的各个组成模块和/或単元可以实施为软件、固件、硬件或其组合,并作为相应设备中的一部分。上述装置中各个组成模块、単元通过软件、固件、硬件或其组合的方式进行配置时可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。作为ー个示例,在通过软件或固件实现的情况下,可以从存储介质或网络向具有、专用硬件结构的计算机(例如图6所示的通用计算机600)安装构成该软件的程序,该计算机在安装有各种程序吋,能够执行各种功能等。在上面对本发明具体实施例的描述中,针对ー种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其他实施方式中使用,与其他实施方式中的特征相组合,或替代其他实施方式中的特征。应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其他特征、要素、步骤或组件的存在或附加。此外,本发明的方法不限于按照说明书中描述的时间顺序来执行,也可以按照其他的时间顺序地、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。尽管上面已经通过对本发明的具体实施例的描述对本发明进行了披露,但是,应 该理解,本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本发明的保护范围内。关于包括以上实施例的实施方式,还公开下述附记附记I. 一种用于统计目标观众的收视率的方法,包括分类体系构建步骤,构建分类体系;知识库构建步骤,对所述分类体系进行组织以构建知识库;收视数据获取步骤,获取收视数据;收视数据表示步骤,按照所述分类体系中所包括的与所述目标观众相关联的分类体系,基于所述知识库将所述收视数据表示成相应特征空间中的点;分类器构造步骤,按照与所述目标观众相关联的分类体系,在所述特征空间中通过小样本学习来构造分类器;以及收视率统计步骤,利用所构造的分类器统计所述目标观众的所述收视率。附记2.根据附记I所述的方法,还包括先验知识获取步骤,获取先验知识,以将其组织在所述知识库中。附记3.根据附记I所述的方法,还包括分类体系定制步骤,根据用户需求来定制所述分类体系,以将其组织在所述知识库中。附记4.根据附记I所述的方法,其中,所述分类器构造步骤包括初始分类面确定步骤,按照与所述目标观众相关联的分类体系,针对所述特征空间中的所述点确定初始分类面;学习样本获取步骤,针对所述分类面附近的点获取学习样本;以及分类面调整步骤,根据所述学习样本调整所述分类面,以构造所述分类器。附记5.根据附记4所述的方法,还包括先验知识获取步骤,获取先验知识,以将其组织在所述知识库中,其中,所述初始分类面确定步骤包括按照与所述目标观众相关联的分类体系,利用所述先验知识针对所述特征空间中的所述点确定所述初始分类面。附记6.根据附记4所述的方法,其中,在所述初始分类面确定步骤之前还包括聚类步骤对所述特征空间中的所述点进行聚类。附记7.根据附记6所述的方法,其中,所述聚类为谱聚类。附记8.根据附记6所述的方法,其中,重复地进行所述聚类步骤、所述初始分类面确定步骤、所述学习样本获取步骤和所述分类面调整步骤以优化所述分类器。附记9.根据附记I至8中任一项所述的方法,其中,所述分类体系包括节目分类体系、收视人群分类体系和收视行为分类体系中的ー种或多种。附记10. —种用于统计目标观众的收视率的装置,包括 分类体系构建部,用于构建分类体系;知识库构建部,用于对所述分类体系进行组织以构建知识库;收视数据获取部,用于获取收视数据;收视数据表示部,用于按照所述分类体系中所包括的与所述目标观众相关联的分类体系,基于所述知识库将所述收视数据表示成相应特征空间中的点;分类器构造部,用于按照与所述目标观众相关联的分类体系,在所述特征空间中通过小样本学习来构造分类器;以及收视率统计部,用于利用所构造的分类器统计所述目标观众的所述收视率。附记11.根据附记10所述的装置,还包括先验知识获取部,用于获取先验知识,其中,所述知识库构建部将所述先验知识组织在所述知识库中。附记12.根据附记10所述的装置,还包括分类体系定制部,用于根据用户需求来定制所述分类体系,其中,所述知识库构建部将所定制的分类体系组织在所述知识库中。附记13.根据附记10所述的装置,其中,所述分类器构造部包括初始分类面确定部,用于按照与所述目标观众相关联的分类体系,针对所述特征空间中的所述点确定初始分类面;学习样本获取部,用于针对所述分类面附近的点获取学习样本;以及分类面调整部,用于根据所述学习样本调整所述分类面,以构造所述分类器。附记14.根据附记13所述的装置,还包括先验知识获取部,用于获取先验知识,其中,所述知识库构建部将所述先验知识组织在所述知识库中,以及其中,所述初始分类面确定部按照与所述目标观众相关联的分类体系,利用所述先验知识针对所述特征空间中的所述点确定所述初始分类面。附记15.根据附记13所述的装置,其中,所述分类器构造部还包括聚类部,用于对所述特征空间中的所述点进行聚类。附记16.根据附记15所述的装置,其中,所述聚类为谱聚类。附记17.根据附记15所述的装置,其中,所述分类器构造部还包括控制部,所述控制部用于重复地使所述聚类部、所述初始分类面确定部、所述学习样本获取部和所述分类面调整部执行其处理以优化所述分类器。附记18.根据附记10至17中任一项所述的装置,其中,所述分类体系包括节目分类体系、收视人群分类体系和收视行为分类体系中的ー种或多种
权利要求
1.一种用于统计目标观众的收视率的方法,包括 分类体系构建步骤,构建分类体系; 知识库构建步骤,对所述分类体系进行组织以构建知识库; 收视数据获取步骤,获取收视数据; 收视数据表示步骤,按照所述分类体系中所包括的与所述目标观众相关联的分类体系,基于所述知识库将所述收视数据表示成相应特征空间中的点; 分类器构造步骤,按照与所述目标观众相关联的分类体系,在所述特征空间中通过小样本学习来构造分类器;以及 收视率统计步骤,利用所构造的分类器统计所述目标观众的所述收视率。
2.根据权利要求I所述的方法,还包括 先验知识获取步骤,获取先验知识,以将其组织在所述知识库中。
3.根据权利要求I所述的方法,还包括 分类体系定制步骤,根据用户需求来定制所述分类体系,以将其组织在所述知识库中。
4.根据权利要求I所述的方法,其中,所述分类器构造步骤包括 初始分类面确定步骤,按照与所述目标观众相关联的分类体系,针对所述特征空间中的所述点确定初始分类面; 学习样本获取步骤,针对所述分类面附近的点获取学习样本;以及 分类面调整步骤,根据所述学习样本调整所述分类面,以构造所述分类器。
5.根据权利要求4所述的方法,还包括 先验知识获取步骤,获取先验知识,以将其组织在所述知识库中, 以及其中,所述初始分类面确定步骤包括 按照与所述目标观众相关联的分类体系,利用所述先验知识针对所述特征空间中的所述点确定所述初始分类面。
6.根据权利要求4所述的方法,其中,在所述初始分类面确定步骤之前还包括聚类步骤 对所述特征空间中的所述点进行聚类。
7.根据权利要求6所述的方法,其中,所述聚类为谱聚类。
8.根据权利要求6所述的方法,其中,重复地进行所述聚类步骤、所述初始分类面确定步骤、所述学习样本获取步骤和所述分类面调整步骤以优化所述分类器。
9.根据权利要求I至8中任一项所述的方法,其中,所述分类体系包括节目分类体系、收视人群分类体系和收视行为分类体系中的ー种或多种。
10.一种用于统计目标观众的收视率的装置,包括 分类体系构建部,用于构建分类体系; 知识库构建部,用于对所述分类体系进行组织以构建知识库; 收视数据获取部,用于获取收视数据; 收视数据表示部,用于按照所述分类体系中所包括的与所述目标观众相关联的分类体系,基于所述知识库将所述收视数据表示成相应特征空间中的点; 分类器构造部,用于按照与所述目标观众相关联的分类体系,在所述特征空间中通过小样本学习来构造分类器;以及收视率统计部,用于利用所构造的分类器 统计所述目标观众的所述收视率。
全文摘要
本发明涉及用于统计目标观众的收视率的方法和装置。用于统计目标观众的收视率的方法包括分类体系构建步骤,构建分类体系;知识库构建步骤,对分类体系进行组织以构建知识库;收视数据获取步骤,获取收视数据;收视数据表示步骤,按照所述分类体系中所包括的与目标观众相关联的分类体系,基于知识库将收视数据表示成相应特征空间中的点;分类器构造步骤,按照与目标观众相关联的分类体系,在特征空间中通过小样本学习来构造分类器;以及收视率统计步骤,利用所构造的分类器统计目标观众的收视率。通过本发明,可以提高收视率的准确性并可以统计针对目标观众的收视率。
文档编号G06F17/30GK102655607SQ20111006212
公开日2012年9月5日 申请日期2011年3月4日 优先权日2011年3月4日
发明者于浩, 付雷, 夏迎炬, 张姝, 葛付江 申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1