用于进行消费者调查的方法

文档序号:6359433阅读:861来源:国知局

专利名称::用于进行消费者调查的方法
技术领域
:本发明涉及用于进行消费者调查的计算方法。本发明尤其涉及用于通过利用贝叶斯统计来分析消费者调查数据而进行消费者调查的计算方法。
背景技术
:消费品的制造商、零售商和市场商寻求对消费者动机、行为和期望的更佳的领会。可借助产品和市场调查来收集消费者信息。分析调查数据以确定对特定的消费者动机、期望和行为的更佳的领会。由分析所得的知识可用于构建与特定产品或产品种类相关联的消费者行为模型。建模及预测人类行为的问题复杂性使得有可能由极小价值的数据构建错误模型。期望一种进行消费者调查的更稳健的方法,其包括分析降低错误模型风险的消费者调查数据。发明概述在一个方面,所述方法包括以下步骤准备数据;将数据导入软件中;准备建模;手工指定因子或自动发现因子;创建因子;建立因子模型;以及解析模型。在一个方面,所述方法包括以下步骤设计并执行有效的消费者研究以生成数据,并预清理数据;将数据导入贝叶斯统计软件中;使数据离散化;检验变量;处理缺失值;给因子手工指派属性变量,或者发现指派给因子的属性变量;限定关键测量;建立模型;识别并修正因子定义;创建因子节点;设定潜变量发现因子;发现用于因子变量的状态;确认潜变量;检查潜变量数值解析;建立因子模型;识别因子关系以加到基于专家知识的模型;识别目标因子节点的最强动因;以及通过论证方案来模拟消费者测试,或者通过指定变量的平均值和概率分布来模拟群体响应。在另一方面,所述方法可用于修正或替换现有的消费者行为模型。所述方法的步骤可作为利用计算系统的使用说明而被包含在电子可读媒介中。附图简述该图示出了映射到产品和消费者空间的消费者研究目的。发明详述该消费者调查方法适用于来自各种来源的各种各样形式的消费者数据-或者更一般来讲包含数据和领域知识的信息,包括但不限于以下消费者对调查问题的响应,消费者评论、意见和抱怨,其以任何形式进行,包括现场亲自、电话或视频形式,纸面或对纸面或计算机屏幕发送调查的远程响应,所有这些形式可能涉及分级、排序、多项选择、文字描述或图解或图示(例如,调查报告、联合实验、小组测试、日记和故事、图片等),它们体现了消费者本身(例如,人口统计、属性等)和浏览、挑选、选择、购买、使用/消费、经历、描述和处置产品、包装、器具、用具或与理解受关注产品的消费者行为相关的物品的消费者活动的特征;来自现实世界或虚拟状况和市场以及现实世界或虚拟实验的事务数据;视频、音频和/或计量生物学或生理学传感器数据或副语言观察和数据的记录,或者基于由消费者活动期间收集的消费者行为产生的先前记录的事后分析数据,所述消费者活动为浏览、挑选、选择、购买、使用/消费、经历、描述和处置产品、包装、器具、用具或与理解受关注产品的消费者行为相关的物品。在所有这些情况下,可在单个消费者或消费者群体或消费者与非消费者的组合(有生命的或无生命的;虚拟的或真实的)范围内收集数据。在所有这些情况下,数据可为连续或分散的数值和/或可由数字、符号或字母字符的任何组合组成,所述数据体现或代表文本段落、对象、概念、事件或数学函数(由数字/符号展示的维度空间内的曲线、表面、矢量、矩阵或高阶张量或几何多面体)的任何组合,每个数据在每个维度上可具有但不必具有相同数目的元素(即,可接受参差数组、以及缺失值还有截尾值)。所述方法也适用于混合以上方案的任何组合的结果以形成更综合、异质、多重学习的数据集或知识集(即,数据融合)。与特定的消费品、市场品类、或市场份额有关的专家知识可用于构建理论模型以解释并预测消费者对于产品或份额或品类内的行为。本发明的方法可用于创建基于专家知识的模型的供选择的模型或者强化基于专家知识的模型并且所述方法的结果可用于改进或替换基于专家知识的模型。至少部分利用计算机系统和包括贝叶斯分析的统计软件来执行所述方法的步骤。该类软件使得能够利用贝叶斯信度网络模型(BBN或贝叶斯网络模型)分析数据。购自BayesiaSA,LavalCedex,France的BayesiaLab为一种不例性贝叶斯统计软件程序。在一个方面,所述方法包括以下步骤设计消费者研究;实施消费者研究以生成数据,准备数据;将数据导入软件中;准备建模;手工指定因子或自动发现因子;创建因子;建立因子模型;解析模型;并且将模型应用于预测、模拟和优化。所述方法可用于创建或改进有关市场品类或特定产品或服务的消费者行为和偏好的模型。设计消费者研究:基于研究目的以及旨在收集数据后进行的建模来设计消费者研究。所述方法在提供最大信息量的意义上得出信息有效的设计,所述信息是有关用于测试中给定数目的产品和消费者的变量之间的关系。因此一般来讲体现针对分类中产品的消费者行为特征的研究以及由此所得数据可被认为作为两维空间内的点存在(I)产品维度和(2)消费者维度。因此研究目的范围产生这两个维度中的研究设计范围。资源限制(时间、金钱、物质、物流等)通常将决定导致属于下类研究目的的优先权。研究目的和类型典型的研究目的包括但不限于映射到图I中产品维度和消费者维度的以下内容I.侧重于少数具体产品以便评价每一个并与其它相比的初步研究,包括深入学习关于每种产品情况中异质消费者行为的知识。产品维度窄并且消费者维度深。2.DOX(实验设计)为试图学习关于产品属性和/或消费者属性对消费者行为的影响的尽可能明确的广泛知识用于产品改善的最优实验设计。产品维度由中至广并且消费者维度由浅至深。3.基准测试研究试图广泛学习关于市场代表性产品的知识,用于评价和比较。产品维度广并且消费者维度由中至深。4.基准测试+DOX研究用一组DOX选定的产品加强基准测试研究以得到市场相关性与产品/消费者属性对消费者行为的影响的明确知识的最优组合。产品维度广并且消费者维度由中至深。5.空间填充研究包括产品前景以得到广泛的空间覆盖百分比并且如消费者维度内可提供的一样深。产品维度深并且消费者维度深。研究目的对建模和推理的暗示研究目的具有分成两大类的建模和推理暗示I.主动的-因果推理其中意图为识别基本的产品概念、设计属性、和/或性能方面以及消费者人口统计、习惯、经验、态度和/或先验细分识别的具体操作或对其的干预将对基于响应及其联合概率分布的消费者响应和/或衍生的不可测量的因子有何影响。2.被动的-观察推理其中意图为识别基本的产品概念、设计属性、和/或性能方面以及消费者人口统计、习惯、经验、态度和/或先验细分识别与基于响应及其联合概率分布的消费者响应和/或衍生的不可测量的因子之间的关系。因此,与分类知识组合,意味着当变量的操作处理位于进行消费者测试的企业控制内时何种行为将在消费者群体内显示其本身。这两类目的不必相互排斥,因此将一些变量的主动研究与其它变量的被动研究组合的混合研究可由同一研究提供。贝叶斯(信度)网络(BBN)用于识别并量化消费者对调查问卷响应的联合概率分布(JPD)和/或衍生自这些响应的潜变量以及基于jro的所得推理。产品支路、消费者支路和基本规模在定义本研究时,设计的两个主要方面对应于产品维度和消费者维度(I)限定哪些产品将呈现给消费者和/或被消费者使用的产品支路的类型和数目,和(2)限定消费者的基本规模(测试对象数)和消费者的取样策略的消费者类型和数目。产品支路说明基于针对讨论中的变量子集的主动目的相对被动目的选择产品支路。这种子集指定最好与限定研究变量和所得数据集的问卷设计本身组合。对于主动研究,利用来自统计的最优实验设计(DOX)方法将产品支路选定为以正交或近正交图案置于可操纵变量空间内的一组产品,所述产品支路也可直接对应于广泛的市场产品“基准测试”覆盖百分比或者用明确地具有记住的可操纵变量的DOX选定的支路加强。对于被动研究,将产品支路选定为未明确考虑潜在的可操纵产品变量的选项不多的一组产品或者对于可操纵变量未遵守DOX原则(例如,正交性)的广泛的空间填充设计。消费者支路说明消费者支路基于在消费者维度内寻求深层知识的目的被驱动并且根据将先验消费者细分应用于消费者群体的可用性、适合性及可行性进行修正。基本规模说明随后通过限定产品支路和消费者支路(如果有的话)并确定每条支路的基本规模建立用于整个研究的基本规模。利用来自统计功效分析和计算学习理论的考虑来指定每条支路的基本规模。三个主要问题发挥作用(I)概率分布应如何巧妙地解决,例如,“两组对我们应能够解决的问题的消费者响应之间的最小规模差别是什么?”(2)要捕获的关系如何复杂,例如,“需要估计的用于在BBN中表示为母体(具有离开的弧线的节点)和子体(具有进入的弧线的节点)的每个变量子集的自由概率参数的最大数目是多少?”⑶“确凿”数据生成方法应如何严密地来描述,其在整个类别的消费者群体限制内为潜在的消费者行为和产生消费者调查数据的消费者调查测试行为,例如,“在估计消费者群体响应的理论限制联合概率分布至指定精度内时需要具有的指定成功概率的消费者数目是多少?”。严格地讲,问题I告知对问题2的选择,其继而告知对问题3的选择。该信息已经以启发式研究的形式被捕获以设定每个研究设计支路的基本规模。首先进行比例功效分析(其可在例如SASInstitute的JMP的典型商业统计软件中进行),以测定需要多少样本-其在该情况下为消费者响应(即,基本规模)-来估计两组样本比例中指定规模(例如5%)的差值,所述样本呈现两组样本的指定平均比例(例如60%)。该值N(样本/比例测试)将为BBN中每个参数的样本数上限估计,但是可分成两份以获得N(样本/参数)=N(样本/比例测试)/2,这是由于分布中并非所有比例为独立且需要测试的。第二确定需要在由BBN捕获的最复杂的关系中估计的自由参数的数目,其为在BBN的最大条件概率表(CPT)中用于受关注的每个支路的独立概率数N(参数/支路)且计算为N(参数/支路)=乘积(i=1,...,N(母体/子体);Ν(状态/母体」))Χ(Ν(状态/子体)_1)。注意该值在BBN模型中呈现一定的复杂度。如果最终总体基本规模相对于资源约束看似过量,则第三计算每条支路的样本数N(样本/支路)=N(样本/参数)XN(参数/支路)/2。第四计算研究的总基本规模N(基本规模)=N(样本/支路)XN(支路)。其中N(支路)为主要关注的支路数目(产品支路、消费者支路、或组合的DOX支路)。该所得N(基本规模)将为消费者研究设计基本规模的上限。消费者研究设计基本规模的下限可通过假定最大(或典型)CPT中并非所有的参数将为零并因此将忽略稀疏数据区域(尾区)中差分辨率的联合概率分布来发现。自由下限将假定在以锁步行进的母体中具有有序状态(用数字排序的状态)母体中的此类高度线性相关性,并且子体也为有序的并与母体以锁步行进在这种情况下,CPT将仅仅需要N(参数/支路)=N状态(子体)。基于研究的资源约束,选择在如上所示计算的下限和上限之间的范围内可提供的基本规模。注意N(参数/支路)的计算在BBN模型中呈现一定的复杂度。如果最终总体基本规模相对于资源约束看似过量,则可行的是在建模期间增强变量的离散和聚集以减少N(状态/母体_i)和N(状态/子体)并通过降低BBN的复杂度来限制N(母体/子体)。也接受的是功效分析中比例之间的较大偏差将减少N(样本/比例测试)且总体基本规模成比例减少。准备数据将由其建立模型的数据可在其导入统计软件中之前准备。可靠的建模需要可靠的信息作为输入。极度依赖数据的机器学习环境(例如BBN结构学习)中的数据尤其如此。数据可通过预清理来准备。预清理改变或清除数据以使得数据组被BBN软件接受并增加最终模型的准确性。预清理可包括明确指定模型期望解决的问题及回答该特定问题所需的变量。示例性问题包括预测产品性能的基准测试或者试图理解产品设计选择与消费者对产品的响应之间的关系。如有可能,具有多重响应编码的变量应还原为单响应变量。例如,起初具有包括未雇用、兼职和全职的响应的雇用状况变量可简单地记为雇用,使其为单响应变量。对于所有变量的响应可被记录,使得它们中的每一个均适形于一致的0-100标度,其中所有标度上升或下降。数据应通过受试者和问题来筛选以用于缺失的响应并用于过度一致的响应。对于具有超过约20%的总体响应缺失的问题的所有响应均应被舍弃。类似地,来自于具有超过约20%的缺失响应的特定受试者的所有响应均应被舍弃。来自于其回答的所有问题的相同(其中答案集的标准偏差等于O)受试者的所有问题也应被舍弃。其它缺失响应应利用远远位于正常响应范围之外的数字编码。例如,具有0-100标度的缺失响应可用数值9999编码。对于一些问题,由于值无意义而缺失。对于截尾的问题-一串问题中的从属问题-先前问题的答案可提出对从属问题的响应的需要。例如,主要问题可具有是/否的可能答案。次要或从属问题可仅仅在主要问题答案为是时具有合理的答案。对于其中主要问题答案为否时,缺失响应也可利用远远位于典型范围之外的一致答案编码-例如7777。一旦数据已被预清理,则可将其导入BBN软件套件中。导入数据可将一组或多组数据导入BBN软件中。一旦数据已被导入,则将变量的至少一部分离散化可为有利的。离散化是指减少具有连续的数值范围的变量的可能数值数目或者仅仅减少可能数值的原始数目。例如,具有步长为I的0-100数值范围的变量可被减少为具有3个可能的数值范围0-25、25-75和75-100的变量。类似地,具有5个原始数值的变量可通过聚集邻近或非邻近但类似的数值而减少为2或3个数值。该离散化可用少量(N<1000)数据集提供更准确的拟合并且可降低由于数据集中的噪音而过拟合模型的风险。准备津樽:导入数据之后,可将小但非零的概率值指派给每个可能的变量组合。应利用贝叶斯估计而非最大似然估计。这可改善建立的模型和模型诊断的总体稳健性以防止模型对数据的过拟合。应再检查数据以确保所有变量被正确编码。用于BBN的错误编码的变量有可能发现不可靠的关联。变量可用反比例错误编码或者使得缺失值或截尾值导致用于变量的不正确数目的数值量。已知为最大生成树的树结构的BBN可由数据学习以便识别变量之间的最强(高相关性;高交互信息)关系。未连接到网络上的节点应被检查以确保相关变量被正确编码。此时,具有缺失值的数据库可通过基于最大生成树代表的联合概率分布进行数据填补而填补有最概然值或最可能值。这种正式概率的缺失值填补通过利用处理缺失值的简化方法降低了改变(恶化)变量之间的相关性结构的风险。手工指定因子或自动发现因子诸如通常为用于消费者研究的购买意图的目标的一些变量比其它评级问题更受关注。这些变量通常排除于不可测量的因子(即,潜变量)将基于的变量组之外。网络中对应于调查响应的节点被认为是隐含的潜在因子的显示并被称作显节点。潜变量的发现通过建立BBN进行以捕获属性变量之中的关键关联,所述关联为定义新的因子变量的基础。如果该BBN过于复杂,则将捕获变量之中甚至更少的关联且所得因子将很少,其每个涉及许多属性,因此将难以解析。如果该BBN过于简单,则将捕获仅仅非常强的关联且结果将为更多因子,其每个涉及很少或者甚至单一属性,这导致解析的因子但基于这些因子的模型高度复杂且难以解析。不受理论的约束,据信具有约10%的含有2个母体的节点的BBN已被发现具有用于潜变量(因子)发现的合适的复杂度。通过每个节点的平均母体数(仅仅基于网络中相连的那些节点)测量的BBN的复杂度对于捕获变量之中最强的关系而未漏掉可能的重要关系的合适置信度应接近I.I。应当利用合适的BBN学习算法由数据学习BBN结构并随后检查平均母体数的迭代程序以得到令人满意的复杂程度。如果平均母体数小于I.05JUBBN应利用使得网络结构更简单的步骤再学习。如果平均母体数大于I.15,则BBN应利用使得网络结构更复杂的步骤再学习。在具有约I.I的平均母体数的BBN被发现后(如上所述),潜变量的发现进行确定哪些属性被指派给哪些因子的定义。利用迭代自动因子指派程序将BBN变量指派给因子。所述程序构建分类树状图,其为有可能非对称的图形树,具有作为树叶的节点(变量)和将树枝分裂成两个的结,所述树枝标记有用两个树枝的树叶代表的变量的联合概率分布·(JPD)与变量的联合概率估计之间的KLD,所述估计利用两个树枝的每一个中变量的两个联合概率分布的乘积。基于源自KLD的卡方检验统计的适于KLD或P值的判据用于通过成对的发生分枝的jro识别jro与其估计之间的单一因子内可忍受的最大偏差。以这种方式,树状图限定BBN中的变量划分成对应于因子的子集,所述子集将被指派给所述因子。这种自动因子指派程序可导致一些未最优地拟合建模意图的因子定义,这主要归因于模糊或混淆的因子解析。应用分类知识检查这些自动发现的因子并随后编辑因子指派可改善这种状况。创津因子:在识别哪种属性参与每个因子之后,潜变量的发现伴随潜变量本身的创建进行。迭代的自动因子创建程序获得以上因子指派步骤中识别的每组变量并在数据集(库)中进行集分析以识别用于新定义的离散因子的合适的状态(水平)数。该算法具有一组可显著改变结果的可靠性和有效性的重要参数。利用的设置改善所得模型的可靠性(趋于不过拟合同时保持合理的复杂度);允许关于每个属性对目标变量的影响的数值推理;并且允许数值方法用于虚拟消费者测试中。对于具有N1000或更少的基本规模的消费者调查数据,每个因子较少的“集”可为期望的。此外,随后的分析可需要数值因子,从而利用具有“有序数值状态”的因子。因子创建程序利用能够搜索聚类数空间并利用数据集的子集的聚类算法以决定最佳的聚类数。该空间限于2-4个聚类且整个数据集通常用于大约3000个案例或更少的数据集;否则利用大约该规模的子集。可进行多次测量以描述每个因子如何良好地汇总属性中限定其的信息且所述因子如何良好地在属性状态中区分开。纯度和相对重要度为启发式研究,其提供多重聚类报告中的度量必须超过的最小阈值以便对于每个因子认为是可靠的。列联表拟合(CTF,其为其中相关数据集中模型的平均负对数似然位于O和100之间的百分比,O对应于独立模型(完全未连接的网络),100对应于实际数据列联表(完全连接的网络))。如果限定相同因子的属性变量彼此负相关或不线性相关,则与新创建的因子状态相关的数值将不可靠。它们不会随着消费者对产品增加的正响应单调增加或者它们根本不会具有任何数值解析(在通常其中一些属性不分顺序的情况下)。重要的是确认每个因子的状态值。每个因子的状态值可由多种方式确认例如,给定由五个“显”(属性)变量确立的因子,则可进行以下任一项(I)在每个属性和因子之间生成五个2-维列联表并确认对应于低属性&低因子至高属性&高因子状态的对角元素比非对角元素具有更大的值。(2)利用五个2-维马赛克图的马赛克分析(马赛克显示)并与#1相同进行。(3)对应于每个属性概率分布绘制五组柱状图或条件概率图,将每个因子按顺序由低向高指派给每个其状态值并确认属性分布模式由其最低状态值(单调)移动至其最高状态值。马赛克分析(马赛克显示)为正规的图解统计方法,其使离散(分类)变量之间的关系显现-即,列联表-并报导关于那些关系的独立及条件独立假设的统计。所述方法描述于“Mosaicdisplaysforn-waycontingencytables,,,JournaloftheAmericanStatisticalAssociation,1994,89,190-200和“Mosaicdisplaysforlog-linearmodels”,AmericanStatisticalAssociation,ProceedingsoftheStatisticalGraphicsSection,1992,61-68中。此外,一项有用的检查为因子的最小状态值和最大状态值是否具有属性的最小值与最大值的相当比例(>50%)范围。如果不是的话,则因子会具有过于紧密聚集在属性的平均值周围的状态值,并且可表明一些属性彼此负相关。在这种情况下,属性值应被重新编码(即,反比例),使得相关性为正或者当将属性值平均到因子状态值中时应通过重新编码属性值而重新手动计算因子状态。律立闵子樽型给定可靠的数值因子变量,建立BBN以将这些因子与目标变量及其它关键测量相关联。为了识别在该BBN可能已漏掉并且可通过向BBN添加弧线补救的关系,检查变量与目标节点之间的相关性,如通过相比由数据直接计算的相同相关性的模型所估计的。如果变量在BBN中与目标仅为弱相关但在数据中强相关,则利用分类知识和条件独立假设检验以决定是否添加弧线并且如果添加的话,则将弧线加在何处以补救该状况。可分析具有弧线的模型相对不含弧线的模型之间的KulIback-Leible散度(KLD)。此外,连接网络中一对节点的每条弧线可就其针对数据的有效性进行评估,所述评估是通过将基于模型的成对节点之间的交互信息与直接基于数据的那对节点之间的交互信息进行比较。与所有变量相关的目标节点的模型强度可利用关于目标节点报告的分析-报告-目标分析-关联与实际数据关联相比。可将变量之间关系的专家知识合并到BBN中。BBN可调节专家知识范围由不存在到完整的专家知识。部分分类和/或专家知识可用于指定关系至已知的程度且剩余的关系可由数据学习。分类或专家知识可用于指定网络中所需的连接弧线,禁止特定的连接弧线,变量的因果排序,以及预权重由先验数据学习或由分类知识直接指定的结构。显节点或关键测量之间的弧线或将显节点指定为因子母体的弧线可被禁止以增强网络。变量排序可由直接体现消费品特征的功能属性,至来源于功能属性的较高顺序的有益效果,至基于有益效果的情感概念,至更高顺序的产品总体性能及适用性汇总,至购买意图。统计假设检验可用于确认或反驳变量和规格的排序或弧线的禁止。过拟合为与非参数建模相关联的风险之一,所述非参数建模例如由数据学习BBN结构。然而,其中模型被偏置或系统性缺乏对数据的拟合的欠拟合为要避免的另一个风险。在由评分优选法学习的BBN中,例如在BayesiaLab中,分数改善拟合度但惩罚复杂度以避免未学习噪音。BayesiaLab中的复杂度惩罚由已知为结构复杂度影响(SCI)参数的参数控制。当存在足够的数据(N>1000)时,利用来自学习数据集和留存测试数据集的负对数似然分布使得能够发现同时避免过拟合和欠拟合的SCI范围。当较少数据可利用(N<1000)时,利用交互效度并研究弧置信度度量体系常常更可靠。对于较少的数据集(N<1000),反复利用具有K=20或30的工具-交互效度-弧线置信度特征并增加SCI直至所得BBN结构中的变量可接受地低。BBN的强度为其基于一些变量中由数据学习或由知识指定的许多局部关系捕获数千种变量中的全局关系的能力。合并更正式的统计假设检验可降低采用可能不充分的模型的风险。G检验统计可用于评价变量之间的关系。BBN能够以有效方式将全局关系还原为许多局部关系,这是由于所述网络结构编码条件独立关系(不管是由知识学习还是由知识指定)。证实这些实际上与数据一致在BBN软件中尚不可能。尽管一些软件在由数据学习BBN结构中明确合并条件独立检验,但是BayesiaLab不会允许使用者以交互方式检验任意条件独立,并且也没有其它软件会允许。这在试图决定何时添加、重整或除去关系以更佳地符合分类(因果)知识时尤其有用。马赛克分析可用于测试条件独立关系。_3]解析模型当在结构方程模型(SEM)中进行动因分析时,许多推理分析例如“顶部动因”和“几率图”基于由模型计算的“总效应”。在结构方程模型中,这些总效应具有因果解释-但是限于线性的、连续改变的模型假设。在BBN中,此类量仅仅被定义用于因果BBN但是尚未定义用于由观测数据建立的BBN并且未作为因果模型解析。对于(观测)BBN(而非因果BBN),总效应的类似物为观测“总效应”,其更适当地称作“灵敏度”。数值目标变量针对另外数值变量的“总效应”为如果其它变量的平均值改变I单位时目标变量平均值的改变。这些总效应的标准化版本将该改变与其它变量与目标变量的标准偏差之比简单相乘。恰巧“标准化总效应”等于目标变量与其它变量之间的皮尔逊相关系数。利用部分因果知识,基于这些BBN敏感度的推理可针对涉及最可操作性因子的“顶部动因”和“几率图”得出。标准化值用于将目标节点的顶部动因排序并建立示出测试中每种产品的变量平均值相对变量的标准化敏感度的“几率图”。通过使分析者对描述方案的一组变量指定“论证”并随后计算所有其它变量的条件概率分布对BBN进行模拟(假设方案分析)。传统上,BBN仅仅接收“确凿”论证,意味着将变量设定为单一值,或“模糊”论证,意味着指定变量的概率分布。后者对于虚拟的消费者测试更合适。独立地固定证据变量的概率分布或指定证据变量的平均值并基于最小交叉熵(minxent)概率分布计算其可能性与消费者研究人员所具有的关于其希望模拟的目标群体的知识状态更一致。可进行目标灵敏度分析以有助于具体动因对特定目标影响的可视化。计算基于变量平均值的最小交叉熵概率分布能够产生BBN的目标节点平均值作为一个或多个变量的平均值的关系图,所述变量每个均沿着相应的范围改变。这些图使得分析者可视化作为目标节点动因的特定变量的相对强度。尽管BBN结构清楚显示了变量之间的关系,但是BBN未明确报导其为何在作出的论证方案的断言下得出推理(条件概率)。论证解析图表提供沟通BBN推理解析的有效方式。论证解析图表图示出了给定论证方案中断言的每条论证与同时两种其它事物之间的关系(1)关于目标变量的状态或平均值的一个或多个假设;(2)在同一论证方案或供选择的论证方案中的其它条论证(如果有的话)。所述图表使得能够在应用方案论证后识别针对假设概率的具体方案中的多条关键论证并且所述图表提供与论证总体相关的每条论证如何一致的指示。论证解析图表的题目描述了提及的假设并提供四个度量体系1.断言论证之前的假设的先验概率,P(H)。2.提供断言论证E的假设的后验概率,P(HlE)。3.该假设与论证的论证贝叶斯因子,BF=log2(P(H|E)/P(H))。4.该假设与论证的全局一致性测量,GC=log2(P(H,E)/(P(H)PiP(Xi))),其中PiP(Xi)表示每条论证Xi的先验概率的连续乘积。BF和GC具有比特单位并且可类似于模型贝叶斯因子进行解析。EIC方法适用于涉及一个以上的简单单一断言的复合假设。这使得P(H|E)的计算起初看似复杂,但实际上利用条件概率的定义可易于由联合概率P(H,E)和P(E)计算。例如,考虑法律中的法庭论证方案。假设多条论证为两个证人关于他们在犯罪现场于什么时间看到和听到什么的不同方面的声明。E={证人I-看到=J.Doe,证人2-时间=早晨,证人2-听到=枪声,证人2-起床=早晨}。假设可为一组复合的断言例如H={犯罪时间=早晨,犯罪者=J.Doe,动机=金钱}。条件概率P(H|E)可利用明确的公式P(H|E)=P(H,E)/P(E)计算。EIC方法用于在断言论证E的相同方案下支持或反驳多个假设H1,H2,...,Hn。给予每个假设的多条论证的叠加图可显示在相同的EIC上。在这种相同论证E的情况下,每条论证的X坐标将相同,与假设无关,但是I坐标将示出哪条论证支持一个假设而反驳另一个且反之亦然。我们可由该信息识别对不同假设具有显著的不同影响的多条关键论证。此夕卜,标题标签可分别由后验概率指示假设由最可能向最不可能的排序和由BF和GC指示哪些假设在真伪水平上具有最大改变以及与论证的最大一致或不一致性。所述方法用于对比多个论证方案El、E2.....En以及它们支持或反驳相同假设H的程度。给予每个方案的多条论证的叠加图可显示在相同的EIC上。在该方式中,我们可易于识别哪个论证方案最强烈地支持或反驳假设以及哪些最一致或不一致。论证假设方案在相同EIC上的叠加可导致易于识别每个方案中最关键的多条论证是什么。EIC方法也适用于“模糊”论证,其中多条论证并非称作“确凿”论证的具体状态的确凿无疑的断言,而是以下断言(I)变量状态的可能性,(2)变量状态的固定概率分布,或(3)如果变量连续则为变量的平均值和最小交叉熵(MinXEnt)分布。因此,EIC适用于确凿论证和/或模糊论证的任何混合。当节点Xi具有模糊论证时,则该条论证的x(Xi)和y(Xi)坐标值被计算为后验分布P(XiE\Xi,H)=P(Xi,E\Xi,H)/P(E\Xi,H)上的以上定义的期望值论证Xi与剩余论证E\Xi的一致性定义为x(Xi)=SjP(Xi=xj|E\Xi,H)log2(P(Xi=xjE\Xi)/P(Xi=xj))。论证Xi对论证E情况下的假设H的影响定义为y(Xi)=SjP(Xi=xj|E\Xi,H)log2(P(H|E\Xi,Xi=xj)/P(H|E\Xi)),其中E\Xi为不包括该条论证Xi的论证集。在模糊论证情况下,我们也通过观察每个Xj的对数项了解变量Xi的非零概率状态集的哪些状态Xj趋于支持或反驳假设并且趋于和剩余的论证一致或不一致。因此,我们可在图中用多条论证内颜色编码的状态标签标记每个点表明该信息,其中绿色表明支持假设而红色表明反驳假设。EIC方法可用作连续变量Y和Xi的均方差推理变体,其中假设为H=平均(Y)=y且论证为E={平均(Xi)=ix}。这通过用平均值之间的差值替代度量BF、x(Xi)和y(Xi)的对数比实现。(注意对数比为对数的差值。对于连续变量均方根推理,我们利用平均差取代对数。)a.用论证对假设D的总体影响y=平均(YIE)-平均(H)取代BF。b.论证Xi与剩余论证E\Xi的一致性用x(Xi)=平均(Xi|E\Xi)_平均(Xi)取代,其为由其先验平均给定E\Xi的Xi平均的改变。c.论证Xi对论证E情况下的假设H的影响定义为y(Xi)=平均(YIE)-平均(YIE\Xi),其为由其平均给定所有论证的Y平均的改变,假定论证不含对变量Xi所断言的。d.为了解释变量的不同变化,我们可选择以其标准化单元显示多条论证,所述单元为除以由其后验分布计算的变量标准偏差的以上给定的X和I坐标。EIC方法也具有适用于其中顺序(论证以所述顺序被断言)对于所得推理的解释很重要的状况的连续变体。这种实例为调查过程期间论证何时被引出,例如Bayesia的BayesiaLab中的“适应性问卷”特征的调查过程,或者何时作为最有效的断言序列,例如由Bayesialab的“目标动态轮廓”特征所返回的。在该情况下,以上所有度量体系的每个定义中的条件论证集具有取代E<=Xi的E和取代E<Xi的E\Xi;其中E<=Xi是指所有断言的论证在断言Xi之前并包括断言Xi,E<Xi是指所有断言的论证在断言Xi之前。在此类EIC中,用于多条论证的点上的标签将包括前缀,其指示其中该条论证被断言的顺序。例如,如果优选的颜色为首先断言的变量则I.优选颜色=白色。以下描述了论证解析图表的构建。假设节点Y可称作“目标节点”。首先,通过具有假设断言Y=Y的每个断言Xi=Xi的对数比对论证进行分类。如果其为确凿论证,则将其计算为I(Y,XiIE\{Xi,Y})=log2(P(Xi=xi|E\{Xi})/P(Xi=xi|E\{Xi,Y}));其中Y表示论证断言Y=y;E\{X}表示论证集E不包括断言X=x;并且E\{X,Y}表示论证集E不包括断言X=X和Y=y。如果其为模糊论证,贝U通过取得以上针对在后验?(乂丨旧\丨,¥})上取平均的每个确凿断言Xi=xij的对数项的期望值对其进行计算,其中xij为在后验分布P(Xi|E\{Xi,Y})中具有非零概率的Xi状态集的元素。注意哪些对数项为正的和负的,以规定用于所述点的标签中状态的颜色编码,其中绿色用于正且红色用于负。接下来,计算论证Xi=xi与所有其它论证E\{Xi,Y}的一致性。如果其为确凿论证,则将其计算为(丨旧\丨,¥}))=log2(P(Xi=xiE\{Xi,Y})/P(Xi=xi));并且包括分类表中C(Xi|E\{Xi,Y})))的这些值。如果其为模糊论证,则通过取得以上针对在后验P(Xi|E\{Xi,Y})上取平均的每个确凿断言Xi=xij的对数项的期望值对其进行计算,其中xij为在后验分布?》1旧\1,¥})中具有非零概率的Xi状态集的元素。最后,通过对用于目标Y=y的每个断言的I(Y,Xi|E\{Xi})作为y坐标相对C(Xi|E\{Xi,Y})作为X坐标的点具有的每个Xi叠加作图创建论证解析图表。由观测数据学习的BBN并非因果模型并且不提供因果推理,所述观测数据不是针对为通过条件独立检验识别因果关系而进行的正式实验的实验设计数据。因果关系重要的是能够可靠地干预变量并造成真实世界中目标变量的改变。决策依赖有效地指派给模型推理的某种程度的因果解析。BayesiaLab中建立的用于动因分析的BBN为捕获观测的变量分布及其关系的观测模型,但是这些关系可与因果关系不重合。换句话讲,BBN中的箭头方向不必指示因果关系。此外,在BBN软件中进行的推理为可观测的,这是由于可断言对于结果的论证并且所得原因状态可利用推理进行评价-即,针对因果关系回推。这是BBN的强大方面之一信息在网络内的所有方向上而非仅仅在箭头方向上流动。为了基于来自BBN的预测确信地驱动真实世界中的行为,必须对作用的变量将导致作为结果的目标变量的改变有某种程度的自信心。在来源于对BBN的动因分析的推理中必须存在至少局部意义的因果关系。为了最大化这些推理的有效性,可将较大程度的因果关系指派给BBN,使得其为因果BBN,并且可根据来源于UCLA的JudeaPearl教授和CarnegieMellonUniv的教授的理论进行因果推理。通过断言固定概率分布并进行目标灵敏度分析,有可能在头对头产品比较中把每种产品的购买意图差别定量地归因于每种产品的因子和关键测量中具体的定量差别。给定因果BBN,可进行因果推理,例如在消费者对两种不同产品的响应中什么差别最强烈地决定消费者对那两种产品的购买意图的差别。这类“头对头”比较使得能够更好地理解为何一种或两种产品在分类中获胜/失败以及如何用产品创新最佳地响应。本文所公开的量纲和值不应被理解为严格限于所引用的精确值。相反,除非另外指明,每个这样的量纲旨在表示所述值以及围绕该值功能上等同的范围。例如,所公开的量纲“40mm”旨在表示“约40mm”。除非明确地排除或换句话讲有所限制,本文所引用的每篇文献,包括任何交叉引用的或相关的专利或专利申请,均据此以引用方式全文并入本文。任何文献的引用不是对其作为本文所公开的或受权利要求书保护的任何发明的现有技术,或者其单独地或者与任何其它参考文献的任何组合,或者参考、提出、建议或公开任何此类发明的认可。此外,当本发明中术语的任何含义或定义与以引用方式并入的文件中术语的任何含义或定义矛盾时,应当服从在本发明中赋予该术语的含义或定义。尽管已用具体实施方案来说明和描述了本发明,但是对那些本领域的技术人员显而易见的是,在不背离本发明的精神和范围的情况下可作出许多其它的改变和变型。因此,随附权利要求书中旨在涵盖本发明范围内的所有这些改变和变型。权利要求1.一种用于进行消费者调查的方法,所述方法包括以下步骤a)设计有效的消费者研究以收集适于消费品类别中的消费者行为的可靠的数学建模的消费者调查响应;b)基于对所述调查的直接消费者响应,基于来源于所述消费者调查响应的不可测量的因子变量,以及基于有关所述产品类别和所述类别内的消费者行为来建立可靠的贝叶斯(信度)网络模型(BBN);c)利用所述BBN来识别并量化所述消费者调查响应内的关键响应的主要动因(例如但不限于等级、满意度、购买意图);以及d)利用所述BBN来识别并量化所述产品概念营销信息和/或产品设计的变化对消费者行为的影响。2.一种用于进行消费者调查的方法,所述方法包括以下步骤a)设计有效的消费者研究以收集适于消费品类别中的消费者行为的可靠的数学建模、计算机模拟和计算机优化的消费者调查响应;b)基于对所述调查的直接消费者响应,基于来源于所述消费者调查响应的不可测量的因子变量,以及基于有关所述产品类别和所述类别内的消费者行为来建立可靠的贝叶斯(信度)网络模型(BBN);c)利用所述BBN来识别并量化所述消费者调查响应内的关键响应的主要动因(例如但不限于等级、满意度、购买意图);d)利用所述BBN来识别并量化所述产品概念营销信息和/或产品设计的变化对消费者行为的影响;e)利用所述BBN来预测产品类别内的消费者群体的消费者响应并推理响应于在消费者人口统计、习惯、经验和态度方面的假设的产品改变的消费者行为;f)利用所述BBN来预测消费者响应并推理对于在具体的消费者人口统计、习惯、经验和态度方面的假设的产品改变的消费者行为;g)利用所述BBN来选择产品-消费者属性组合,所述组合有助于最大化对于在具体的消费者人口统计、习惯、经验和态度方面的假设的产品改变的预测的消费者响应;以及h)基于最优的产品-消费者属性组合来优化产品概念信息、产品设计和目标消费者。3.一种用于进行消费者调查的方法,所述方法包括以下步骤a)准备数据;b)将所述数据导入软件中;c)准备建模;d)手工指定因子或自动发现因子;e)创建因子;f)建立因子模型;以及g)解析所述模型。4.一种用于进行消费者调查的方法,所述方法包括以下步骤a)预清理所述数据;b)将所述数据导入贝叶斯分析软件中;c)检验所述变量;d)处理缺失值;e)给因子手工指派属性变量,或者发现指派给因子的属性变量;f)限定关键测量;g)建立模型;h)识别并修正因子定义;i)创建所述因子节点;j)设定潜变量发现因子;k)发现用于所述因子变量的状态;I)确认潜变量;m)检查潜变量数值解析;η)建立因子模型;ο)识别因子关系以加到所述基于专家知识的模型;P)识别目标因子节点的最强动因;以及q)通过论证方案来模拟消费者测试,或者通过指定变量的平均值和概率分布来模拟群体响应。5.如权利要求4所述的方法,所述方法包括将非零概率指派给零概率值集的其它步骤。6.如权利要求4所述的方法,所述方法包括学习初始BBN并调查未连接到所述网络的节点的其它步骤。7.如权利要求4所述的方法,所述方法包括禁止将显节点与彼此或者与关键测量的弧线连接的其它步骤。8.如权利要求4所述的方法,所述方法包括为所述BBN设定复杂度罚分值的其它步骤。9.如权利要求4所述的方法,所述方法包括进行马赛克分析的其它步骤。10.如权利要求4所述的方法,所述方法包括进行目标灵敏度分析的其它步骤。11.如权利要求4所述的方法,所述方法包括构建论证解析图表的其它步骤。12.如权利要求4所述的方法,所述方法包括利用目标灵敏度分析进行头对头比较的其它步骤。全文摘要本发明公开了一种用于进行消费者调查的方法,所述方法包括以下步骤设计有效的消费者研究以收集适于消费品类别中的消费者行为的可靠的数学建模的数据。基于对调查的直接消费者响应,基于来源于消费者调查响应的不可测量的因子变量,以及基于有关产品类别和所述类别内的消费者行为建立可靠的贝叶斯(信度)网络模型(BBN)。利用所述BBN来识别并量化消费者调查响应内的关键响应的主要动因(例如但不限于等级、满意度、购买意图),以及利用BBN来识别并量化产品概念营销信息和/或产品设计的变化对消费者行为的影响。文档编号G06Q30/02GK102792327SQ201180007963公开日2012年11月21日申请日期2011年2月3日优先权日2010年2月4日发明者D·D·法利斯,M·L·汤普森申请人:宝洁公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1