一种基于互联网数据采集的方法

文档序号:7938846阅读:204来源:国知局
专利名称:一种基于互联网数据采集的方法
技术领域
本发明属于一种信息管理技术领域,涉及一种基于互联网数据采集的方法。

背景技术
计算机网络技术和多媒体技术的快速发展,直接推动着现代教学朝网络化、数字化的方向不断转变,极大的丰富了我们的学习资源和学习手段。同时,这种转变所带来的机遇与挑战也吸引了国内外广大学者的关注,促成了互联网数字学习行为新概念的提出以及 OCff, OLI等学术或商业的教学产品的研制成功。目前,对互联网数字学习行为的研究大都集中在数字学习的相关理论研究,即对互联网数字学习环境下的参与者成员关系以及成员活动规律进行研究,从而为学习资源的有效利用提供理论依据;互联网数字学习平台的构建,即研究如何在相关理论的基础上,使用现有技术将学习资源进行整合,从而方便用户学习使用,并通常提供一定的反馈机制;数字学习与新领域的交叉结合,即研究如何将数字学习与其他领域的现有技术相结合,从而为数字学习平台系统的构建提供技术支持。由此可见,数字学习研究重点也逐渐从学习平台、资源的开发转向学习行为的信息采集、保存、分析上。尤其是互联网环境下学生的数字学习行为变得越来越个性化、虚拟化、协作化,呈现出与传统学习完全不同的特性。对学生学习行为进行深入全面地研究,有利于教育资源的开发;有利于教师对课程的组织;有利于对教与学做出有效的评价;有利于实验教学示范中心网络教育平台的开发。当前对于数字学习行为的研究要么是处于底层的、表象的、辅助性的研究,在数据的收集和分析方法上还存在着一定的不足之处,真正地对数字学习行为进行系统的研究则很少。在现有的研究中,国内外学者所采取的数据收集方式大致上可以分为两种途径调查问卷和日志获取。这两种数据收集途径的不足之处在于调查问卷方式由于其数据来源具有较大的主观性,因此数据的准确性与调查者的自身素质和被调查者的样本数量及分布规律有着很大的关系;日志获取方式虽然其数据来源具有客观性,但是由于只能将学习资源锁定在有限的资源平台中,且无法对用户的本机操作行为进行记录分析,因而研究结果往往与资源平台的性质相关,其结论很难具有通用性。而由于受其数据收集方式的限制,现有研究对高校学生在上机学习中的一些问题没有给出令人满意的研究结论,如学生在上机学习时的学习和娱乐情况如何?学生上机的行为都有哪些?学生上机学习的效率问题等。

发明内容
本发明的目的是提供一种基于互联网数据采集的方法,该方法以高校学生的行为科学和行为理论为基础,引入代理服务器(Agent)、对应分析法等关键技术,构建了采集和保存互联网数字学习行为信息平台,应用统计学的方法分析与评价高校学生互联网数字学习行为新特征,还可将本方法延伸到大型仪器设备在线绩效评价等。为实现上述目的,本发明的技术方案为提供一种基于互联网数据采集的方法,该方法基于TCP/IP的可编程系统,该系统开发出操作系统的代理程序,代理系统驻留在目标系统中,监视驻留系统中发生的各类事件,并对不同类型的数据进行采集;它还可修改代理服务器的配置,控制采集的数据类型;数据类型包括基于硬件网关型数据、基础资源型数据、数据库访问型数据、网站访问型数据;其特征在于代理服务器部署在各个子网上,按照统一的格式,实时或定时的进行“拉入”操作; 将采集到的行为数据封装、打包、存入数据仓库;在获得初始数据之后,还需要对数据进行关联处理和归一化处理,将采集到的数据转换为易于分析处理的数据形式;关联处理和归一化处理主要步骤分为去噪、关联、标记三个过程。较佳地,该数据采集方法包括客户端数据产生及代理服务器的数据采集处理;客户端数据产生包括以下步骤(1)客户端启动,运行程序;(2)与服务器端进行连接;(3)向服务器发送校验代码,在服务器端注册此客户端;(4)校验机器时间;(5)客户端向操作系统注册窗口监听器、进程活动监听器以及网络监听器;(6)运行监听器;(7) 一旦客户端得到指定类型的活动后,就按指定类型的活动方式采集用户数字学习行为的详细信息,并记录到客户端缓存,进入步骤(8);(8)如果监听器运行超过指定时间,则向服务器端发送用户活动记录,发送成功后,清空已发送信息的缓存记录;服务器端工作流程(1)服务器端程序启动;(2)程序初始化,包括校验时间、加载客户机身份校验数据、网络可用性校验;(3)启动服务,开启数据接收端口,准备接受客户端数据;(4)循环检验客户端发送数据请求,一旦检验到请求,则交付步骤( 处理;(5)检验客户端合法性,如果合法,交付步骤(6)处理;(6)服务器端接受数据;(7)服务器端获得数据之后,还需要对数据进行关联处理和归一化处理,将采集到的数据转换为易于分析处理的数据形式;关联处理和归一化处理的主要步骤分为去噪、关联、标记三个过程;(a)去噪RTs属于同一天且差值为15分钟的文件归为1组,统计出该组的文件数目和RTs最大的文件对应的Mtime,进而得到该组记录相对与接收端的开始时间MRTs = Mtime-OTH ;RTs, Ts, Te IfiE^ MRTs, MTs, MTe, Jt^ MTs = Ts+Δ T, MTe = Te+Δ Τ, ΔΤ = MRTs-RTs,将记录修正为 Record =〈Title,MTs, offset〉,其中 offset = MTe-MTs ;该组其他文件删除(去噪);(b)关联将SJ按照同一天同一时间段(上午或下午)和身份进行分组,成员数量超过班级总人数1/3的认为是课堂学习记录,并提取分类集合class = <username, identity, inTime, outTime, tName> ;对分类集合中的每条记录,如满足TName相同且inTimeOiTs<outTime的记录,作为该条记录所对应的行为记录集合Behavior =〈username,inTime, List<Record ;根据SJ和用户身份信息将行为记录集合、班级信息和课表信息进行关联;(c)标记对行为数据集中的所有记录进行分类,对每条记录按照既定类型进行划分并标记,即将记录修改为R<Title,MTs, offset, Type, Value〉。参照CNNIC的划分类型,共分为 11类资源下载、桌面、娱乐、邮箱、学习、搜索、即时通信、获取信息、购物、SNS、其他;标记的赋值,则根据此条记录是否与学习相关来进行,其中与学习相关记为1,无法判定记为0, 与娱乐相关记为-1。本发明一种基于互联网数据采集的方法,该方法以高校学生的行为科学和行为理论为基础,引入代理服务器(Agent)、对应分析法等关键技术,构建了采集和保存互联网数字学习行为信息平台,应用统计学的方法分析与评价高校学生互联网数字学习行为新特征,还可将本方法延伸到大型仪器设备在线绩效评价等。


图1为本发明基于互联网数据采集的方法的数据获取示意框图;图2为本发明基于互联网数据采集的方法的客户端数据采集流程示意图;图3为本发明基于互联网数据采集的方法的服务端数据采集流程示意具体实施例方式下面结合优选实施例对本发明作进一步说明,但本发明决不限于下述实施例。如图1、2、3所示,基于互联网数据采集的方法,该方法基于TCP/IP的可编程系统, 该系统开发出操作系统的代理程序,代理系统驻留在目标系统中,监视驻留系统中发生的各类事件,并对不同类型的数据进行采集;它还可修改代理服务器的配置,控制采集的数据类型;数据类型包括基于硬件网关型数据、基础资源型数据、数据库访问型数据、网站访问型数据;其中,代理服务器部署在各个子网上,按照统一的格式,实时或定时的进行“拉入”操作; 将采集到的行为数据封装、打包、存入数据仓库;在获得初始数据之后,还需要对数据进行关联处理和归一化处理,将采集到的数据转换为易于分析处理的数据形式;关联处理和归一化处理主要步骤分为去噪、关联、标记三个过程。该数据采集方法包括客户端数据产生及代理服务器的数据采集处理;客户端数据产生包括以下步骤(1)客户端启动,运行程序;(2)与服务器端进行连接;(3)向服务器发送校验代码,在服务器端注册此客户端;(4)校验机器时间;(5)客户端向操作系统注册窗口监听器、进程活动监听器以及网络监听器;
(6)运行监听器; (7) 一旦客户端得到指定类型的活动后,就按指定类型的活动方式采集用户数字学习行为的详细信息,并记录到客户端缓存,进入步骤(8);(8)如果监听器运行超过指定时间,则向服务器端发送用户活动记录,发送成功后,清空已发送信息的缓存记录;服务器端工作流程(1)服务器端程序启动;(2)程序初始化,包括校验时间、加载客户机身份校验数据、网络可用性校验;(3)启动服务,开启数据接收端口,准备接受客户端数据;(4)循环检验客户端发送数据请求,一旦检验到请求,则交付步骤(5)处理;(5)检验客户端合法性,如果合法,交付步骤(6)处理;(6)服务器端接受数据;(7)服务器端获得数据之后,还需要对数据进行关联处理和归一化处理,将采集到的数据转换为易于分析处理的数据形式;关联处理和归一化处理的主要步骤分为去噪、关联、标记三个过程;(a)去噪RTs属于同一天且差值为15分钟的文件归为1组,统计出该组的文件数目和RTs最大的文件对应的Mtime,进而得到该组记录相对与接收端的开始时间MRTs = Mtime-OTH ;RTs, Ts, Te jfiE^J MRTs, MTs, MTe, Jt ψ MTs = Ts+Δ Τ, MTe = Te+Δ Τ, ΔΤ = MRTs-RTs,将记录修正为 Record =〈Title,MTs, offset〉,其中 offset = MTe-MTs ;该组其他文件删除(去噪);(b)关联将SJ按照同一天同一时间段(上午或下午)和身份进行分组,成员数量超过班级总人数1/3的认为是课堂学习记录,并提取分类集合class = <username, identity, inTime, outTime, tName> ;对分类集合中的每条记录,如满足TName相同且inTime<MTs<outTime的记录,作为该条记录所对应的行为记录集合Behavior =〈username,inTime, List<Record ;根据SJ和用户身份信息将行为记录集合、班级信息和课表信息进行关联;(c)标记对行为数据集中的所有记录进行分类,对每条记录按照既定类型进行划分并标记,即将记录修改为R<Title,MTs, offset, Type, Value〉。参照CNNIC的划分类型,共分为 11类资源下载、桌面、娱乐、邮箱、学习、搜索、即时通信、获取信息、购物、SNS、其他。标记的赋值,则根据此条记录是否与学习相关来进行,其中与学习相关记为1,无法判定记为0, 与娱乐相关记为-1。术语说明AP :Access Point,无线接入点;C,Count,某组记录的文件数量;CNNIC, China Internet Network Information Center, ψHSKN^ff ΕΦ
ΔΤ :Delta Time,时间间隔,MRTs =Master Runner,s start Time —组记录相对与接收端的开始时间,MTe =Modified Time of client,修正后的客户端时间记录,Mtime =Master Server,s Time,主控服务器系统时间,MTs =Modified Time of server,修正后的系统时间记录,OCff =Open Course Ware,开放课件工具,OLI =Open Learning hitiative,开放学习倡议,offset :off set,偏置量,RTs =Runner' s Time,一组记录的开始记录时间,SJ =Student Journal,学生上机日志,SNS, Social Networking Services,社会网络服务,TName Target Client,s Name,客户端名称,Te :Time of client,客户端时间,TH =Time hit,设定的一组记录录制时间,Ts :Time of server 服务器时间。本方法采集的数据主要包括用户上机记录和用户操作记录。其中,用户上机记录通过该中心的机房管理系统获得,记为学生上机日志记录集SJ = <Username, Identity, InTime, OutTime, TName〉,其中Username学生学号,Identity身份(学生所在的班级名称),^iTime学生开始上机时间,OutTime学生下机时间,TName实验中心为每台设备(计算机)分配的客户端名称。用户操作记录通过客户端计算机机上安装的代理程序获得。基本原理是通过代理程序获得操作系统的窗口句柄,在每次窗口变化时触发事件,获得当前的窗口标题 (Windows Title)、时间(Time),以及其他相关信息,如进程状态、网络连接数据等,然后将信息发送至服务器端。以上所揭露的仅为本发明的较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属于本发明所涵盖的范围。
权利要求
1.一种基于互联网数据采集的方法,该方法基于TCP/IP的可编程系统,该系统开发出操作系统的代理程序,代理系统驻留在目标系统中,监视驻留系统中发生的各类事件,并对不同类型的数据进行采集;它还可修改代理服务器的配置,控制采集的数据类型;数据类型包括基于硬件网关型数据、基础资源型数据、数据库访问型数据、网站访问型数据;其特征在于代理服务器部署在各个子网上,按照统一的格式,实时或定时的进行“拉入”操作;将采集到的行为数据封装、打包、存入数据仓库;在获得初始数据之后,还需要对数据进行关联处理和归一化处理,将采集到的数据转换为易于分析处理的数据形式;关联处理和归一化处理主要步骤分为去噪、关联、标记三个过程。
2.根据权利要求1所述的基于互联网数据采集的方法,其特征在于该数据采集方法包括客户端数据产生及代理服务器的数据采集处理;客户端数据产生包括以下步骤(1)客户端启动,运行程序;(2)与服务器端进行连接;(3)向服务器发送校验代码,在服务器端注册此客户端;(4)校验机器时间;(5)客户端向操作系统注册窗口监听器、进程活动监听器以及网络监听器;(6)运行监听器;(7)一旦客户端得到指定类型的活动后,就按指定类型的活动方式采集用户数字学习行为的详细信息,并记录到客户端缓存,进入步骤(8);(8)如果监听器运行超过指定时间,则向服务器端发送用户活动记录,发送成功后,清空已发送信息的缓存记录;服务器端工作流程(1)服务器端程序启动;(2)程序初始化,包括校验时间、加载客户机身份校验数据、网络可用性校验;(3)启动服务,开启数据接收端口,准备接受客户端数据;(4)循环检验客户端发送数据请求,一旦检验到请求,则交付步骤( 处理;(5)检验客户端合法性,如果合法,交付步骤(6)处理;(6)服务器端接受数据;(7)服务器端获得数据之后,还需要对数据进行关联处理和归一化处理,将采集到的数据转换为易于分析处理的数据形式;关联处理和归一化处理的主要步骤分为去噪、关联、标记三个过程;(a)去噪RTs属于同一天且差值为15分钟的文件归为1组,统计出该组的文件数目和RTs最大的文件对应的Mtime,进而得到该组记录相对与接收端的开始时间MRTs = Mtime-OTH ;将 RTs, Ts、Te 修正为 MRTs, MTs, MTe,其中 MTs = Ts+ Δ Τ, MTe = Te+Δ Τ, Δ T = MRTs-RTs,将记录修正为 Record =〈Title,MTs, offset〉,其中 offset = MTe-MTs ;该组其他文件删除;(b)关联将SJ按照同一天同一时间段和身份进行分组,成员数量超过班级总人数1/3的认为是课堂学习记录,并提取分类集合 class =〈username, identity, inTime, outTime, tName> ; 对分类集合中的每条记录,如满足TName相同且inTime<MTs<outTime的记录,作为该条记录所对应的行为记录集合 Behavior =〈username, inTime, List<Record>> ; 根据SJ和用户身份信息将行为记录集合、班级信息和课表信息进行关联; (c)标记对行为数据集中的所有记录进行分类,对每条记录按照既定类型进行划分并标记,即将记录修改为R<Title,MTs, offset, Type, Value〉;参照CNNIC的划分类型,共分为11类: 资源下载、桌 面、娱乐、邮箱、学习、搜索、即时通信、获取信息、购物、SNS ;标记的赋值,则根据此条记录是否与学习相关来进行,其中与学习相关记为1,无法判定记为0,与娱乐相关记为-1。
全文摘要
本发明公开了一种基于互联网数据采集的方法,该方法代理服务器部署在各个子网上,按照统一的格式,实时或定时的进行“拉入”操作;将采集到的行为数据封装、打包、存入数据仓库;在获得初始数据之后,还需要对数据进行关联处理和归一化处理,将采集到的数据转换为易于分析处理的数据形式;关联处理和归一化处理主要步骤分为去噪、关联、标记三个过程。该方法以高校学生的行为科学和行为理论为基础,引入代理服务器(Agent)、对应分析法等关键技术,构建了采集和保存互联网数字学习行为信息平台。
文档编号H04L29/06GK102315991SQ201110311090
公开日2012年1月11日 申请日期2011年10月14日 优先权日2011年10月14日
发明者杜文才, 沈重, 程启凯 申请人:海南大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1