数据的生成方法及装置与流程

文档序号:14504780阅读:541来源:国知局

本发明涉及数据处理领域,尤其涉及一种数据的生成方法及装置。



背景技术:

数据分析是使用适当的统计分析方法对收集的大量数据进行分析,提取有用信息的过程,生成的结论便于技术人员对数据加以详细研究和概括总结。其中,关联分析是经常被使用的分析方法,而关键词的关联分析又是关联分析中一种重要的分析方法。

目前,用户通常借助于大型商用数据分析软件进行关键词的关联分析,但是,大部分的大型商用软件在安装时,均会安装附属功能的软件,造成资源浪费,且不同的商用软件会产生不同的使用说明和学习成本,使得技术人员的操作成本过大。



技术实现要素:

鉴于上述问题,提出了本发明以便提供一种数据的生成方法及装置,主要目的是解决在利用大部分商用软件进行关键词的关联分析时,操作成本过大的问题。

借由上述技术方案,本发明提供的一种数据的生成方法,包括:

获取关键词集合中的关键词及不同关键词之间的关联数据;

根据所述关键词集合中的关键词配置行标题和列标题;

根据所述行标题和列标题及所述关联数据生成关联关系数据。

借由上述技术方案,本发明提供的一种数据的生成装置,包括:

获取单元,用于获取关键词集合中的关键词及不同关键词之间的关联数据;

配置单元,用于根据所述关键词集合中的关键词配置行标题和列标题;

生成单元,用于根据所述行标题和列标题及所述关联数据生成关联关系数据。

借由上述技术方案,本发明实施例提供的技术方案至少具有下列优点:

本发明实施例提供的一种数据的生成方法及装置,首先获取关键词集合中的关键词及不同关键词之间的关联数据,然后根据所述关键词集合中的关键词配置行标题和列标题,再根据所述行标题和列标题及所述关联数据生成关联关系数据。对现有在利用大部分商用软件进行关键词的关联分析时,操作成本过大相比,本发明通过生成一个关键词为行、列标题,关联数据为内部数据的关联关系数据,减小商用软件进行关键词的关联分析的成本,实现直观的展示关键词的关联关系,从而提高关联关系的分析效率。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1示出了发明实施例提供的一种数据的生成方法的流程图;

图2示出了发明实施例提供的另一种数据的生成方法的流程图;

图3示出了发明实施例提供的一种关键词数据的示意图;

图4示出了发明实施例提供的一种生成关联关系数据的示意图;

图5示出了发明实施例提供的一种数据的生成装置的方框图;

图6示出了发明实施例提供的另一种数据的生成装置的方框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例提供一种数据的生成方法,如图1所示,所述方法包括:

101、获取关键词集合中的关键词及不同关键词之间的关联数据。

其中,所述关键词为待分析关联关系的关键词,所述关键词集合为保存有所有具有关联关系的关键词的集合,所述关联数据为不同关键词之间存在关联关系对应的数值,可以使用关键词之间的出现次数代表存在关系,本发明实施例不做具体限定。例如,获取到的关键词为“政府、增长、经济、环境、变化、抑制、增长、政府”,“政府”与“环境”的关联数据为234,“增长”与“经济”的关联数据为214,“环境”与“变化”的关联数据为332,“抑制”与“经济”的关联数据为112。

需要说明的是,获取关键词的方法可以为从一个数据列表中进行获取,数据列表中包含两列关键词,两列关键词之间存在关联关系,代表关联关系的数据存储在第三列中,数据列表可以以excel表格的形式进行存储。进一步地,本发明实施例中的关键词是对网站中的文档进程爬取得到的,关联关系可以体现于一句话或一篇文章中关键词之间的关联。另外,本发明实施例中所有的程序编译均可以使用vba(visualbasicforapplications)语言,它是微软公司开发出来,在应用程序中执行通用的自动化(ole)任务的编程语言。例如,步骤101具体可以利用程序实现为:定义字典d、临时变量temp、列名colname、列名colname1,再定义行号r和r1及数组arr和arr1,程序实现为:dimd,temp,colname,colname1;dimr,r1;dimarr,arr1,获取列a和列b的所有存在数据的行数的程序实现为:r=range("a65536").end(xlup).row;r1=range("b65536").end(xlup).row,给d设置为字典的程序实现为:setd=createobject("scripting.dictionary"),得到总行数的程序实现为:irows=activesheet.usedrange.rows.count,将a列和b列中的关键词分别存入数组arr和arr1的程序实现为:arr=range("a2:a"&r).value;arr1=range("b2:b"&r1).value,即得到获取的关键词。

102、根据所述关键词集合中的关键词配置行标题和列标题。

其中,所述行标题和列标题中包含所有关键词。

需要说明的是,配置的行标题和列标题存储在另一个存储位置中,可以为excel表格中的另一个sheet中,例如,将关键词作为key存入词典d并将value设置为1的程序实现为:foreachtempinarr;d(temp)=1;next;foreachtempinarr1;d(temp)=1;next,清空sheet2中内容的程序实现为:sheet2.usedrange.clear,将字典d中的内容分别填充a2开始的列及b1开始的行中,形成列与行标题的程序实现为:sheet2.range("a2").resize(d.count,1)=application.transpose(d.keys)sheet2.range("b1").resize(1,d.count)=application.transpose(application.transpose(d.keys)),获取sheet2中有数据的列数的程序实现为:cols=sheet2.usedrange.columns.count,得到列名的程序实现为:colname=col_letter(cols)。

103、根据所述行标题和列标题及所述关联数据生成关联关系数据。

其中,所述关联关系数据可以为矩阵形式,也可以为列表形式,本发明实施例不做具体限定。

需要说明的是,生成的关联关系数据中,若行标题与列标题对应的位置存在关联数据,则在对应的位置显示关联数据。例如,行标题为“政府、增长、经济”,列标题为“抑制、增长、政府”,关键词“政府”与关键词“经济”关联数据为234,则生成的关联关系数据为“0,0,0,;0,0,0;0,0,234”。

本发明实施例提供的一种数据的生成方法,首先获取关键词集合中的关键词及不同关键词之间的关联数据,然后根据所述关键词集合中的关键词配置行标题和列标题,再根据所述行标题和列标题及所述关联数据生成关联关系数据。对现有在利用大部分商用软件进行关键词的关联分析时,操作成本过大相比,本发明通过生成一个关键词为行、列标题,关联数据为内部数据的关联关系数据,减小商用软件进行关键词的关联分析的成本,实现直观的展示关键词的关联关系,从而提高关联关系的分析效率。

本发明实施例提供另一种数据的生成方法,如图2所示,所述方法包括:

201、接收生成数据指令。

其中,所述生成数据指令用于指示生成所述关联关系数据。

需要说明的是,生成数据指令可以利用vba程序配置在excel表格中,具体的生成数据触发事件的形式可以为一个按钮,也可以为一个快捷语句,本发明实施例不做具体限定。生成关联关系数据可以为生成表格、生成矩阵,数据可以为1与0的形式,也可以为null与关联频次的形式,本发明实施例不做具体限定。通过接收生成数据指令,实现自动生成关联关系数据,使得关键词的关联关系展示的更为直观。

202、获取关键词集合中的关键词及不同关键词之间的关联数据。

本步骤与图1所述步骤101所述的方法相同,这里不再赘述。

203、对所述关键词集合中的关键词进行去重操作,得到去重后的关键词。

其中,所述去重操作为若关键词中出现重复关键词,则只保留重复关键词中的一个关键词。例如,关键词为“政府、增长、经济、环境、变化、抑制、增长、政府”,进行去重后的关键词为“政府、增长、经济、环境、变化、抑制”。通过对所述关键词进行去重操作,得到去重后的关键词,实现以最优关键词的个数进行建立行与列的标题,避免关键词出现重复统计,从而提高数据的生成效率。

204、根据所述行标题和列标题建立数据列表。

其中,所述数据列表可以为矩阵形式、也可以为表格形式,若为矩阵形式行标题和列标题可以以向量形式出现,若为表格形式,行标题和列标题也直接建立在表格的表头位置,本发明实施例不做具体限定。通过根据所述行标题和列标题建立数据列表,实现数据可以以多种形式进行展示,从而提高分析关联数据的效率。

205、根据预设循环函数将关联数据添加在所述数据列表的预设位置中,得到关联关系数据。

其中,所述关联数据包括关联频次或关联关系数据值,所述关联频次为关键词之间出现的次数或频率,所述关联关系数据值为代表关键词之间是否存在关系的数值,若存在关系,则可以用1进行表示,本发明实施例不做具体限定。所述预设位置为行标题中的关键词与列标题中的关键词存在关联时对应的位置,所述预设循环函数为将每个关键词对应的位置中添加对应的关联数据,以便每个行标题与列标题中的关键词对应的位置中均存在对应的数据。

需要说明的是,若行标题中的关键词与列标题中的关键词不存在关联,则对应的位置可以添加一个数,代表不存在关联,也可以不添加,本发明实施例不做具体限定。例如,将sheet2的矩阵区域所有单元格设置为默认值0的程序实现为:sheet2.range("b2:"&colname&d.count+1)=0。通过根据预设循环函数将关联数据添加在所述数据列表的预设位置中,得到关联关系数据,提高了关联数据的直观性。

对于本发明实施例,步骤205具体可以为:判断行标题与列标题对应的关键词之间是否存在关联数据;若是,则为所述行标题与列标题对应的位置中添加关联数据;若否,则为所述行标题与列标题对应的位置中添加预设阈值。

其中,所述预设阈值用于表示关键词之间不存在关联,可以为0,也可以为null,本发明实施例不做具体限定。关联数据可以包括关联关系数据值或关联频次。需要说明的是,所述的判断步骤即为步骤205中预设循环函数的具体方法,具体的程序实现可以为:利用嵌套循环,读取sheet1中的关键词关联关系,并根据关系找到sheet2中的关联关系矩阵的行列位置,并将对应的单元格设置为1的程序实现为:fori=2toirows;w1=sheet1.cells(i,"a").value;w2=sheet1.cells(i,"b").value,得到和ea和eb关键词在sheet2的a列中的行号的程序实现为:foreachrnginsheet2.range("a2:a"&d.count+1);ifrng=w1then;r1=rng.row;endif;ifrng=w2then;r2=rng.row;endif;next;得到sheet2中的列数的程序实现为:col=sheet2.usedrange.columns.count;获取列名的程序实现为:colname1=col_letter(col);得到ea和eb关键词在sheet2中的第1行中出现的列号的程序实现为:foreachrng1insheet2.range("b1:"&colname1&"1");ifrng1=w2then;c1=rng1.column;endif;ifrng1=w1then;c2=rng1.column;endif;next;将sheet2中ea和eb对应的行列相交的单元格的值设置为1的程序实现为:sheet2.cells(r1,c1)=1;sheet2.cells(r2,c2)=1。通过判断行标题与列标题对应的关键词之间是否存在关联数据,在对应位置添加对应的数据,从而实现为每一个关键词配置与其对应的关联关键词的关联数据,从而提高数据的生成效率。

对于本发明实施例,具体的应用场景可以如下所示,但不限于此,包括:如图3所示,点击生成矩阵按钮,获取关键词集合中的所有关键词及关键词之间的关联频次,a列关键词为“政府、考虑、这种、经济、需要”、b列关键词为“监控、需要、严重、增长、考试”,频次为“123、563、514、315、421”对获取到的关键词进行去重处理,得到“政府、考虑、这种、经济、需要、监控、严重、增长、考试”,生成如图4所示的标题,将频次添加到与关键词对应的位置中,如图4所示,生成关联关系数据,其中行标题与列标题对应的位置存在关联数据,则在行标题与列标题对应的位置中添加关联数据,由于关联数据可以包括关联频次或关联关系数据值,图4中关联数据由关联关系数据值进行显示;其中,本图示例中关联关系数据值用数值1表示。

本发明实施例提供的另一种数据的生成方法,首先获取关键词集合中的关键词及不同关键词之间的关联数据,然后根据所述关键词集合中的关键词配置行标题和列标题,再根据所述行标题和列标题及所述关联数据生成关联关系数据。对现有在利用大部分商用软件进行关键词的关联分析时,操作成本过大相比,本发明通过生成一个关键词为行、列标题,关联数据为内部数据的关联关系数据,减小商用软件进行关键词的关联分析的成本,实现直观的展示关键词的关联关系,从而提高关联关系的分析效率。

该装置实施例与前述方法实施例对应,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。

进一步地,作为图1所示方法的具体实现,本发明实施例提供一种数据的生成装置,如图5所示,所述装置可以包括:获取单元31、配置单元32、生成单元33。

获取单元31,用于获取关键词集合中的关键词及不同关键词之间的关联数据;

其中,所述关键词为待分析关联关系的关键词,所述关键词集合为保存有所有具有关联关系的关键词的集合,所述关联数据为不同关键词之间存在关联关系对应的数值,可以使用关键词之间的出现次数代表存在关系,本发明实施例不做具体限定。

配置单元32,用于根据所述关键词集合中的关键词配置行标题和列标题;

其中,所述行标题和列标题中包含所有关键词。

生成单元33,用于根据所述行标题和列标题及所述关联数据生成关联关系数据。

其中,所述关联关系数据可以为矩阵形式,也可以为列表形式,本发明实施例不做具体限定。

本发明实施例提供的一种数据的生成装置,首先获取关键词集合中的关键词及不同关键词之间的关联数据,然后根据所述关键词集合中的关键词配置行标题和列标题,再根据所述行标题和列标题及所述关联数据生成关联关系数据。对现有在利用大部分商用软件进行关键词的关联分析时,操作成本过大相比,本发明通过生成一个关键词为行、列标题,关联数据为内部数据的关联关系数据,减小商用软件进行关键词的关联分析的成本,实现直观的展示关键词的关联关系,从而提高关联关系的分析效率。

该装置实施例与前述方法实施例对应,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。

进一步地,作为图2所示方法的具体实现,本发明实施例提供另一种数据的生成装置,如图6所示,所述装置可以包括:获取单元41、配置单元42、生成单元43、操作单元44、接收单元45。

获取单元41,用于获取关键词集合中的关键词及不同关键词之间的关联数据;

配置单元42,用于根据所述关键词集合中的关键词配置行标题和列标题;

生成单元43,用于根据所述行标题和列标题及所述关联数据生成关联关系数据。

进一步地,所述装置还包括:

操作单元44,用于对所述关键词集合中的关键词进行去重操作,得到去重后的关键词。

其中,所述去重操作为若关键词中出现重复关键词,则只保留重复关键词中的一个关键词。

进一步地,所述生成单元43包括:

建立模块4301,用于根据所述行标题和列标题建立数据列表;

其中,所述数据列表可以为矩阵形式、也可以为表格形式,若为矩阵形式行标题和列标题可以以向量形式出现,若为表格形式,行标题和列标题也直接建立在表格的表头位置,本发明实施例不做具体限定。

添加模块4302,用于根据预设循环函数将关联数据添加在所述数据列表的预设位置中,得到关联关系数据,所述关联数据包括关联频次或关联关系数据值。

其中,所述关联频次为关键词之间出现的次数或频率,所述关联关系为关键词之间是否存在关系,若存在,则可以用1进行表示,所述预设位置为行标题中的关键词与列标题中的关键词存在关联时对应的位置,所述预设循环函数为将每个关键词对应的位置中添加对应的关联数据,以便每个行标题与列标题中的关键词对应的位置中均存在对应的数据。

进一步地,所述添加模块4302包括:

判断子模块430201,用于判断行标题与列标题对应的关键词之间是否存在关联数据;

添加子模块430202,用于判断子模块430201若判断行标题与列标题对应的关键词之间存在关联数据,则为所述行标题与列标题对应的位置中添加关联数据;

添加子模块430202,还用于判断子模块430201若判断行标题与列标题对应的关键词之间不存在关联数据,则为所述行标题与列标题对应的位置中添加预设阈值。

其中,所述预设阈值用于表示关键词之间不存在关联,可以为0,也可以为null,本发明实施例不做具体限定。

进一步地,所述装置还包括:

接收单元45,用于接收生成数据指令,所述生成数据指令用于指示生成所述关联关系数据。

其中,所述生成数据指令用于指示生成所述关联关系数据。

本发明实施例提供的另一种数据的生成装置,首先获取关键词集合中的关键词及不同关键词之间的关联数据,然后根据所述关键词集合中的关键词配置行标题和列标题,再根据所述行标题和列标题及所述关联数据生成关联关系数据。对现有在利用大部分商用软件进行关键词的关联分析时,操作成本过大相比,本发明通过生成一个关键词为行、列标题,关联数据为内部数据的关联关系数据,减小商用软件进行关键词的关联分析的成本,实现直观的展示关键词的关联关系,从而提高关联关系的分析效率。

所述数据的生成装置包括处理器和存储器,上述获取单元、配置单元和生成单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来解决在利用大部分商用软件进行关键词的关联分析时,操作成本过大的问题。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram),存储器包括至少一个存储芯片。

本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:获取关键词集合中的关键词及不同关键词之间的关联数据;根据所述关键词集合中的关键词配置行标题和列标题;根据所述行标题和列标题及所述关联数据生成关联关系数据。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。

以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1