一种基于大数据的信息均值分析系统的制作方法

文档序号：13761037阅读：193来源：国知局

本发明涉及信息处理技术领域，尤其涉及一种基于大数据的信息均值分析系统。

背景技术：

大数据指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。对大量消费者提供产品或服务的企业可以利用大数据进行精准营销，做小而美模式的中长尾企业可以利用大数据做服务转型，面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值。

移动互联网时代的来临使得企业面临新的数据管理问题，例如对技术数据的管理、对公共资源数据的管理、对客户数据的管理、对企业内部数据的管理等。如何利用大数据来提升企业的资产价值是当下亟待解决的问题。另一方面，对大数据缺失定量分析理论一直是困扰企业发展的核心问题，现有技术中对于互联网大数据的应用研究大多还仅限于理论分析，并没有定量分析的方法和辅助工具。特别是在分析对某一行为或对象的接受、采纳程度，分析某一行为或对象对社会的价值、对企业价值、对公众的价值时，现有的大数据分析或者小样本分析方法中涉及的参数不够全面，所得到的结果不能准确的反应信息的各种特质。

技术实现要素：

为克服现有技术中存在的针对品牌特征缺少问题，本发明提供了一种基于大数据的信息均值分析系统。

一种基于大数据的信息均值分析系统，包括：指标数据分析计算模块，对数据获取的数据进行组合线型处理得到对应的指标数据；信息总量分析计算模块，将指标数据分析计算模块得到的数据进行分析和调整运算得到信息总量；平均信息量计算模块，用于计算信息总量的平均值；信息均值比计算模块，用于根据平均信息量计算模块计算得到数据进行计算信息均值比；信息均值比参比数据库，用于存放信息均值阀值区间数据。

进一步的，还包括数据获取模块，用于获取有效信息的数据；数据输入模块，用于输入相关的行为或者对象的信息数据；数据获取模块和数据输入模块获取的数据输出到指标数据分析计算模块。

进一步的，还包括信息均值比输出模块，将信息均值比计算模块计算得到的数据与信息均值比参比数据库内的数据进行比对；将比对得到的信息均值比参比数据比较区间的名称输出。

进一步的，信息均值比输出模块包括比对单元和输出单元，比对单元用于将信息均值比计算模块计算得到的数据与信息均值比参比数据库内的数据进行比对；输出单元用于将比对得到的信息均值比参比数据比较区间的名称输出。

进一步的，所述输出单元包括输出界面和决策建议匹配器，所述决策建议匹配器用于将输出结果与决策建议匹配并输出。

进一步的，还包括数据处理判断模块，根据平均信息量计算模块计算得到的数据进行判断信息特征。

进一步的，所述信息总量包括总范围信息总量和小范围信息总量。

进一步的，所述小范围信息总量的平均值与总范围信息总量的平均值的比值为小范围信息总量与总范围信息总量的均值比。

进一步的，还包括一数据存放模块，用于临时存放总范围信息总量的平均值和小范围信息总量的平均值。

进一步的，所述信息总量计算模块在计算信息总量之前，先对指标数据中的平均认知度、评价程度和调整系数指数函数中的底数进行运算得到比例因子，用于调整计算结果。

与现有技术相比，本发明的有益效果是：

本发明可基于大数据获取某一行为或者对象的与人的决策有关的数据，并对数据进行科学处理、结合信息理论将贡献度以信息均值比的直观定量的形式进行表现，以数值的大小具体表示该行为或者对象的特质，并通过信息均值比输出模块将分析的结果输出，实现了对某一行为或者对象的决策因素、自身特质的定量分析，通过对信息特质的分析定位，得出合理的结果，避免了因信息定位失误造成的资源浪费。

附图说明

图1是本发明的流程示意图；

具体实施方式

以下结合附图和实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

参看图1，本具体实施方式披露了一种基于大数据的信息均值分析系统，所述大数据的内容可以是技术信息、客户信息、品牌信息、以及一切与人的属性或行为有关的信息，这些数据可以是结构化的或者非结构化的。其包括：

数据获取模块，用于获取有效信息的数据；优选的，其用于获取网络数据库中的关于的数据，通过互联网将系统与网络上的数据库进行连接，从而获取关于信息的数据。其中，网络数据库是通过对网络用户发起问卷调查和对指定区域的信息收集而生成的数据库。更进一步，所述数据源可以是非结构化数据。所述数据可以是分布在网络上的跟某一技术主题有关的技术信息，例如“3D打印”，也可以是跟某一对象有关的数据，例如跟某一品牌有关的数据，也可以是跟人的行为有关的数据，例如，乘坐公共交通工具有关的数据。在本具体实施方式中，获取的数据以各个不同的范围进行划分，包括较大范围的总的数据，也包括较小的指定范围的小范围数据。例如全国范围的数据和某一指定人群或者的地区的数据。其分别用于计算全国范围的信息总量和信息平均值，以及指定人群或地区的信息总量和信息平均值。特别的，指定地区的信息总量和信息平均值用于和全国范围的信息总量和信息平均值进行比较判断该地区范围的信息是否具有地域特质。在本发明的另一可行的具体实施方式中，对于某个指定人群的信息总量和信息平均值与全国范围的信息总量和信息平均值进行比较判断则能够判断该信息是否具有某个人群的倾向特质。例如，对乘坐出租车的人群的信息统计分析中，通过对青年人乘坐出租车的信息总量和信息平均值与全国人乘坐出租车的信息总量与信息平均值进行比较，前者的信息平均值远远大于后者，则可说乘坐出租车的人群分布具有青年人偏向特质。

优选的，所述数据获取模块包括以下组成部分：

一参数获取模块，用于获取数据的指标及其数值范围，所述范围可以是一个时间段，例如早上八点到十点；一个具体的地区，例如北京市；一个特定的人群，例如学生；或者一个具体的行为，例如上车刷卡；或者一个具体的对象，例如一个或者几个品牌、一个或者几个企业。非限制性地，参数获取模块连接至移动互联网和/或因特网等网络，接收来自于网络的数据。例如，数据获取模块可连接到一具有调查反馈功能的在线网站，访问者通过该网站提交或者留下数据信息。例如，当需要获取于某一对象有关的人数统计时，例如需要获取某一时间段通过地铁进站口刷卡的人数、或者需要获取某一时间段在办公室登录电脑的特定人群、或者需要获取对某一家或者几家企业知晓的人数、对某一学校口碑的反馈、以及对某几个商标知晓的人数等等。该网站对受访者人数、受访者的反馈结果进行统计后发送至参数获取模块；另一方面，可选地，该网站可直接将受访者的反馈结果发送至参数获取模块，由参数获取模块进行访问人数的统计。此外，本领域的技术人员应当理解，所述网站的数量可以不止一个，同一网站所提供的数据的内容也可以不止一个，也就是说，参数获取模块可以与多个在线网站通过有线或无线的方式相连接，获取多个在线网站的反馈信息。优选的，对于调查某一行为或者对象而言，所述信息的数据包括指定区域内的人口总数、对该行为或者对象知晓的人数、访问人数、与该类似行为或者对象有关的其他行为或对象的数量、愿意作出该行为或者选择该对象的人数和不愿意作出该行为或者选择该对象的人数等。例如，调查获取的对象可以是选择高速铁路出行、到某企业就职、对某一个学校知名度的调查、对某一品牌知名度的调查等。

一数据输入模块，用于输入相关的行为或者对象的信息数据；优选的，数据获取模块还可以设置输入单元，通过人工输入的方式录入数据，可以通过键盘输入、语音输入等方式实现。一结构化分析模块，将参数获取模块的数据结果进行结构化分析。因为参数获取模块获取的数据可能不具有结构化特点，而要进行定量分析的前提是数据结构化，因此结构化分析模块对参数获取模块所提供的数据进行结构化。例如参数获取模块可能是基于摸一个关键词、一份调查问卷、一段采访内容进行搜集获取，其所反馈的可能是一段文字、一段文字和图片、一个没有表头的表格、一份调查问卷中的简要回答等。结构化分析模块首先建立一个结构化的表格，而后对参数获取模块的数据进行关键词抽取或者特定字符、字符串的匹配、简短语义的匹配，将抽取的结果或者匹配的结果插入到结构化表格中。另一方面，结构化分析模块也对参数获取模块的数据进行统计，将统计的结果插入到结构化表格中。例如，该结构化表格可以包括但不限于：访问某一网站的人数、时间段、倾向性意见等等。

在取得了必要的信息数据之后，通过计算机将获取的数据进行相应的组合线型处理得到相应的指标数据，所述指标数据包括但不限于：与某一个行为或者对象有关的总人数，例如乘坐高速列车的群体数量、使用3D打印技术的客户数量、某一个著名品牌消费者人群总数等；该行为或者对象的知晓程度，例如对高速列车了解程度、对3D打印设备性能了解的程度、对某一品牌知名度等；普通群体完全知道该行为或者对象所要传播的信息量的极值，例如普通乘客对高铁完全了解所需要传播的最大信息量、对普通技术人员3D打印完全技术了解所要传播的信息量的极值、某一个地区的家长要完全了解某一个学校所要传播的最大信息量、普通消费者对某一个品牌认知所要传播的信息量的极值；该行为或者对象当前平均认知度，例如当前对高速列车的平均认知度、对3D打印技术的平均认知度、对某一个学校的平均认知度、对某一个企业或者品牌的平均认知度。

具体的，其中对于某一行为或者对象的人群总数即以地域为划分的当地人口总数，即步骤一中指定区域内的人口总数。

优选地，在利用大数据进行分析某一行为或者对象时，可以定义对该行为或对象的知名度，知名度意指受众对某一行为或者对象知晓程度的度量指标，即有多少知晓该行为或对象。在分析计算时，知名度可以采用知晓该行为或者对象的人数与总人数的比值。

优选的，在求解上述极值Z值之前，还需要确定目标人群的总数，以及目标人群的结构。按照目标人群的结构进行分层取样，并按照其结构的比例安排调研的样本。此外，普通群体完全知道该行为或者对象所要传播的信息量的极值Z可以依据该行为或者对象的备选、替代的行为或者对象的数量而确定，例如可以根据普通群体选择其备选、替代的行为或者对象概率发生时的信息公式而定。例如普通乘客对高铁完全了解所需要传播的最大信息量可以由普通乘客对其他交通工具的种类数量而定、对普通技术人员3D打印完全技术了解所要传播的信息量的极值可以根据现有的型材成型工艺的规模数量而定、某一个地区的家长要完全了解某一个学校所要传播的最大信息量可以根据该地区内其他同性质的学校的数量确定、普通消费者对某一个品牌认知所要传播的信息量的极值可以依据行业内的备选品牌数目等概率发生时的信息公式而定。可以认为普通群体完全知道该行为或者对象所要传播的信息量的极值Z是认知度达到100％时的信息量。

正如前文所述，对于交通工具而言，存在高铁、飞机、汽车等多种选择，对于3D打印技术而言同样也存在其替代的技术，对于某一个学校、某一个品牌而言，在其所在的区域或者行业也存在其他的竞争性的学校或者品牌。也就是说，在一个特定的环境中，某一个行为或者对象存在至少一种或者多种备选或者替代的行为或者对象。经验表明，每个普通群体的对某一个行为或者对象认知度能够到达的最大值都是一个确定的值。一个普通群体完全知道一个技术、一个学校、一种新的出行方式、一个品牌所要传播的信息量，或者说一个消费者在一个具体的环境中，对其中一个行为或者对象掌握的所有信息的量是个确定的值，它依据其备选或者替代的行为或者对象的数量而定。

可以认为，某一个行为或者对象认知度能够到达的最大值是依据“在备选对象或者行为发生概率相等时该对象或行为信息量最大”的原则下，根据该行为或者对象所处的环境中的总体行为或者对象数目而确定的值。

本发明中，普通群体中的个体完全知道某一行为或者对象所要传播的信息量的极值通过如下技术公式计算得到：

$<mrow> <msub> <mi>R</mi> <mi>max</mi> </msub> <mo>=</mo> <mo>-</mo> <munderover> <mo>Σ</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <msub> <mi>log</mi> <mn>2</mn> </msub> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>;</mo> </mrow>$

式中，p(x_i)为某一个体对第i个行为或者对象选择的概率，n为一个特定环境中的该行为或对象的个数。

此外，对某个行为或者对象平均认知度是通过将一个普通个体完全知道一个该行为或者对象所要传播的信息量的极值与1的差值进行等分得到的。在一定知名度的情况下，每个个体知晓该行为或者对象的样本其信息量为1时，每个个体对该行为或者对象的认知程度有差异。R_max是满信息的情况，一个普通个体对该行为或者对象的所有信息都掌握，满信息对该个体来说就是100％有效到达。R_max到1就是认知深度，将R_max-1等分用来表示其中任一普通个体达到的有效认知程度，称为某一个体达到任意一个程度，表示为r＝X_ir％，并由此可以得到一个平均认知度的值。

此外，对某一行为或者对象可进一步分析其评价程度，通过如下公式计算得到：式中，α₁为评价程度，x为发生的真实采用或接受行为或者对象的普通群体样本中，采纳或者接受该行为或对象时与特定的行为提供者无关的个体数目；例如，对于选择高速列车出行的行为进行分析时，x表示作出该选择时不考虑特定的列车车型的个体数量，在对3D打印技术的选择行为进行分析时，x表示选择3D打印技术时不考虑特定的成型工艺(例如激光烧结、电子束烧结)的个体数量，在分析是否选择学校就读时，x表示不考虑该学校的名称的个体数量，同样，在分析某一品牌的选择时，x表示作出该选择时与具体厂家无关的个体数量。s_x为发生的真实采用或接受行为或者对象的普通群体样本的总数量；y为拒绝该行为或者对象的普通群体样本中，原因是与该行为或者对象直接有关的选项的消个体人数；例如，对于选择高速列车出行的行为进行分析时，x表示对高速列车本身不接纳的个体数量，在对3D打印技术的选择行为进行分析时，x表示对3D打印技术时不考虑的个体数量，在分析是否选择学校就读时，x表示因某一个学校本身而拒绝的个体数量，同样，在分析某一品牌的选择时，x表示因品牌原因拒绝的个体数量。s_y为选择该行为或者对象的替代行为或者对象的个体数量；例如，对于选择高速列车出行的行为进行分析时，y表示选择飞机、汽车等其他出行方式的个体数量，在对3D打印技术的选择行为进行分析时，y表示选择现有的成型工艺的个体数量，在分析是否选择某一学校就读时，y表示选择其他学校的个体数量，同样，在分析某一品牌的选择时，y表示同业竞争者品牌商品的消费者样本的消费者数目；η为变频系数。

上述评价程度是普通群体对一个行为或者对象的好感度。上述信息可以通过对非结构化数据中的关键词和主题进行抓取和分析得到，也可以通过简单的调研获取，然后汇总并求出平均数，是个百分比表达的度的指标。

科学统计表明，即使是再成熟的技术、再便捷的新科技、口碑再好的学校、医院、企业、品牌、或者某一个公众人物，也会有反感的人。也就是说，对一个行为或者对象并不能存在100％接受的现象，评价程度有好有坏。

本发明进一步将对行为或对象的评价程度分为正面评价程度、负面评价程度。有关正面评价程度的分析方法为：式中，有关负面评价程度的分析方法为：

因此，关于某一行为或者对象的评价程度的度量是将正负评价程度合计，而且负评价程度对普通个体的影响更大，因此，在合计的算式中需要对负评价程度进行加权，并且使用变频系数进行处理，最终评价程度通过如下计算公式得到：

变频系数η是普通个体对该行为或者对象所在的特定环境的关注度(例如行业关注度)和媒体对其的关注度有关的系数，该变频系数可以依赖于更大规模的数据进行计算得到，例如在分析对高速列车出行时，普通群体不限于经常出行的人群，而是可以将几乎不出行的群体也纳入进来；在分析3D打印时可以将整个装备制造领域的企业纳入进来，在分析学校或者品牌时，可以将能接触到更大地区的学校或者整个行业的品牌的群体也纳入进来。在具体计算式，可以将关注度从0至9分为10个等级，同样将媒体对其的关注度的关注度划分为10个等级，用1×2矩阵来表示，如：(1，2)，表示消费者对该品牌所在行业的关注度等级为1，媒体对企业的关注度等级为2；根据矩阵位置，即可建立相应的映射关系，通过该矩阵而获得相应的变频系数。本领域的技术人员应当理解，所述变频系数的具体计算方式可以有多样性，本发明中所提到的普通个体对该行为或者对象所在的特定环境的关注度(例如行业关注度)和媒体对其的关注度是可以量化的，期间之间的映射关系也是可以根据具体情况设定的，本发明不限于具体的映射方式和数据，例如变频系数η可以取值1、2、3、……，也可以是分数形式或者其他无理数。

此外，上述特定环境的平均评价程度通过如下公式计算得到：式中，Q为普通群体中的一类个体的数量，这类个体受其他个体的影响进行选择，也就是说该个体是由于收到他人的影响而做出的决策；S_Z为作出过该行为或者选择过该对象的消费者总数。例如在分析对高速列车出行时，Q为因受其他人影响而选择坐高铁的人数，S_z为已经乘坐过高铁的人数；在分析3D打印时，Q为因受其他人口碑影响而选择3D打印技术的人数，S_z为已经使用过3D打印的人数，在分析学校或者品牌时，Q为因受其他人的评价影响而选择该学校或者该品牌的人数，S_z为已经在该学校就读或者选择了该品牌的人数。

指标数据分析计算模块，用于将从数据获取模块和数据输入模块获取的数据进行组合线型处理得到对应的指标数据；该模块内存储有各个指标数据的计算公式和计算代码，通过计算代码将获取或输入的数据带入公式计算得到指标数据，所述指标数据包括普通群体的人数(也可以是使用某一个app的人数，或者接受调查反馈的人数)、某一行为或者对象的知名度、一个普通群体中的个体完全知道某一行为或者对象所要传播的信息量的极值、平均认知度、由知名度而来的基本信息量、评价程度、一个特定环境的平均评价程度和调整系数指数函数中的底数。得到的指标数据用于计算该行为或者对象的信息总量。

信息总量分析计算模块，用于将指标数据分析计算模块得到的数据进行分析和调整运算得到信息总量；该模块在计算信息总量之前，首先对指标数据中的平均认知度、评价程度和调整系数指数函数中的底数进行运算得到比例因子，用于调整计算结果。

某一行为或者对象的信息是对该某一行为或者对象事实的不确定性的消除；其信息量就是对这种不确定性的消除程度的度量。

将调整系数指数函数中的底数为底数，评价程度与一特定环境平均评价程度的差值与该平均评价程度的比值作为指数进行指数运算得到比例因子；将信息基本量与比例因子进行调整运算得到信息总量；信息总量通过如下计算公式计算得到：

$<mrow> <msub> <mi>Q</mi> <mi>E</mi> </msub> <mo>=</mo> <mo>[</mo> <mi>S</mi> <mo>×</mo> <mi>Z</mi> <mo>+</mo> <mrow> <mo>(</mo> <msub> <mi>R</mi> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> </msub> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>×</mo> <mi>r</mi> <mo>×</mo> <mi>m</mi> <mo>×</mo> <mi>s</mi> <mo>]</mo> <mo>×</mo> <msup> <msub> <mi>N</mi> <mi>Z</mi> </msub> <mfrac> <mrow> <mi>α</mi> <mo>-</mo> <mover> <mi>α</mi> <mo>&OverBar;</mo> </mover> </mrow> <mover> <mi>α</mi> <mo>&OverBar;</mo> </mover> </mfrac> </msup> </mrow>$

式中，S为特定群体人群总数；Z为某一行为或者对象的知名度；R_max一个普通群体中的个体完全知道某一行为或者对象所要传播的信息量的极值；r为某一行为或者对象的平均认知度；m为由知名度而来的某一行为或者对象的基本信息量；α为评价程度；为一特定环境的平均评价度；Nz为调整系数指数函数中的底数。

通过上述方法得到小范围信息总量和大范围的信息总量，并将数据传送给平均信息量计算模块进行计算小范围和大范围的信息量平均值。

平均信息量计算模块，用于计算指定范围的信息总量的平均值；其中包括多个组成单元，分别用于计算各个不同范围的信息总量的平均值。具体的，各个范围的信息总量与该范围的样本数的比值作为该范围的信息总量的平均值。可行的，其可以是某一地区或某一群体内的信息总量与该地区或群体的人数的比值。

由于信息总量的平均值计算与同一个模块内进行，而其包括多个范围的数据计算，为提高可行性，可行的，在本发明的一个具体实施方式中，通过设置一数据存放模块，用于临时存放各个范围的信息总量的平均值。存放的数据可用于信息均值比计算或者直接用于判断比较。

在本发明的另一具体实施例中，还可以通过一数据处理判断模块对信息的特质进行比较判断，具体是将小范围的信息总量的平均值与大范围的信息总量的平均值进行比较，若小范围的信息总量的平均值大于大范围的信息总量的平均值一定的倍数则判断该信息具有该小范围的特质。其中，该小范围可以是一个区域或者一个群体。特别的，当该小范围是一个区域时，则判断该信息具有该区域的地域特质。

此外，信息特质的判断还可以通过信息均值比计算模块进行计算出一个定量的数值与信息均值比参比数据库内的信息均值比参比数据进行比较，并得出其特质。优选的，信息均值比参比数据被分成若干个区间，当计算得到的信息均值比落在某一个区间内时，则该信息具有该区间的特质。优选的，将小范围的信息总量平均值与大范围的信息总量的平均值的比值作为该信息的均值比。

信息均值比输出模块，用于输出信息特质即是均值比计算模块计算的结果与信息均值比参比数据库比对的结果。优选的，信息均值比输出模块包括比对单元和输出单元，比对单元用于将信息均值与信息均值比参比数据库内的数据进行比对；输出单元用于将比对得到的信息特质的名称输出，输出的名称即是信息均值比在信息均值比参比数据库中所处的区间的名称。此外，输出单元还包括输出界面和决策建议匹配器，决策建议匹配器用于将输出结果与决策建议匹配并输出。输出界面可以是打印机、显示屏等输出设备。

上述说明示出并描述了本发明的优选实施例，如前所述，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：周云;
技术所有人：周云;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。