一种校园个性化掌上服务及用户行为习惯分析的实现方法

文档序号:8412630阅读:367来源:国知局
一种校园个性化掌上服务及用户行为习惯分析的实现方法
【技术领域】
[0001] 本发明属于Web数据采集和大数据分析领域,特别涉及一种校园个性化服务及 用户行为习惯分析的实现方法,可应用于指定校园课表、成绩信息的采集,考勤及用户行为 习惯的分析。
【背景技术】
[0002] 校园个性化掌上服务及用户行为习惯分析,是一种多平台系统构架。随着网络信 息和校园数字化管理需求的高速增长,校园数字化服务面临着网络信息更新速度快、管理 个性化需求增多等多方面问题。为了解决这些问题,一种校园个性化掌上服务及用户行为 习惯分析应运而生。传统的教务网信息数据的分析与采集主要采用代理形式,需要用户授 权并提供用户账号密码,存在用户账号信息泄露的安全隐患,本方法的爬虫只需一个拥有 查询权限账户便能完成全局信息的爬取。传统考勤方式主要使用固定的考勤设备,存在考 勤方式单一、身份识别方式单一、机动性差、数据同步性差、成本高等缺点,而本方法中的考 勤实现了多终端、多设备支持的考勤方法,弥补了上述缺陷。本方法采用多平台系统构架, 支持Web端、微信公众平台、App端的信息查询,结合用户行为分析模型,整体提高考勤系统 的便捷性和实用性,满足了校园数字化管理的需求。
[0003] 本方法中的爬虫程序使用Java进行爬虫的编写,使用多线程技术提高爬虫的性 能,并结合正则表达式的文本分析功能和CSS选择器的选取器功能实现爬虫中文本信息的 分析与抓取。
[0004] 正则表达式: 正则表达式(Regular Expression),通过使用单个字符串来描述、匹配一系列符合某 个句法规则的字符串。在很多文本编辑器里,正则表达式通常被用来检索、替换那些符合某 个模式的文本。特定字符的组合,组成一个"规则字符串",这个"规则字符串"用来表达对 字符串的一种过滤逻辑。给定一个正则表达式和另一个字符串,可以判断给定的字符串是 否符合正则表达式的过滤逻辑(称作"匹配"),并通过正则表达式,从字符串中获取我们想 要的特定部分。正则表达式灵活性、逻辑性和功能性强,可以迅速地用极简单的方式达到字 符串的复杂控制。
[0005] CSS 选择器: 层叠样式表(Cascading Style Sheets,简写CSS),又称串样式列表、层次结构式样式 表文件,一种用来为结构化文档(如HTML文档或XML应用)添加样式(字体、间距和颜色等) 的计算机语言,能够对网页中的对象的位置排版进行像素级的精确控制,支持几乎所有的 字体字号样式,拥有对网页对象和模型样式编辑的能力,并能够进行初步交互设计,是目前 基于文本展示最优秀的表现设计语言。通过类别,标签,ID等选择器,可以对页面元素进行 编辑。2010年至2012年,朱全银等给出了商品销售数据抽取与数据挖掘的方法(Quanyin Zhu j Yunyang Yanj Jin Ding and Jin Qian. The Case Study for Price Extracting of Mobile Phone Sell Online. IEEE 2nd International Conference on Software Engineering and Service Science, Beijing, Chian, July. 2011, pp. 281-295;Quanyin Zhu, Yunyang Yan, Jin Ding and Yu Zhang. The Commodities Price Extracting for Shop Online, 2010 International Conference on Future Information Technology and Management Engineering,Changzhou, Jiangsu, Chian, Dec.2010, Vol. 2, pp. 317-320)该 方法能同样运用于本方法中的教务网信息数据挖掘。
[0006] 多线程: 多线程是一种机制,它允许在程序中并发执行多个指令流,每个指令流都称为一个线 程,彼此间互相独立。线程又称为轻量级进程,它和进程一样拥有独立的执行控制,由操作 系统负责调度,区别在于线程没有独立的存储空间,而是和所属进程中的其他线程共享存 储空间,这使得线程间的通信较简单。多个线程的执行是并发的,即在逻辑上是"同时"的。 如果系统只有一个CPU,那么真正的"同时"是不可能的,但是由于CPU切换的速度非常快, 用户感觉不到其中的区别,因此用户感觉到线程是同时执行的。
[0007] 为了提升程序性能,本系统中的爬虫程序与数据分析程序采用多线程技术,这样 能极大地提尚程序运彳丁的效率。
[0008] NFC : 近距离无线通讯技术(Near Field Communication,简称NFC),该技术由免接触式射 频识别演变而来,由飞利浦半导体、诺基亚和索尼共同研制开发,其基础是RFID及互连技 术。近场通信是一种短距高频的无线电技术,在13. 56MHz频率运行于20厘米距离内。目 前该技术广泛应用于移动智能设备领域。
[0009] OTG : 一键拷贝(USB On-The-Go标准,简称0TG),采用USB2. 0的传输接口,是在没有Host 的情况下,实现设备间的数据传送。OTG标准支持电源管理(节省功耗)功能,允许设备既可 作为主机,也可作为外设操作,并支持主机通令协议(HNP)和对话请求协议(SRP)。OTG设备 主要应用于各种不同的设备或移动设备间的联接,进行数据交换。目前OTG外设广泛应用 于移动智能设备的功能拓展。
[0010] 本方法中的移动设备采用NFC手机和OTG外设进行手机App的RFID卡的物理卡 号识别,大大提高移动智能设备考勤操作的便携性。
[0011] 用户行为分析(Consumer Behavior): 用户行为分析主要是研宄对象用户的行为。数据来源包括用户的日志信息、用户主体 信息和外界环境信息。通过特定的工具对用户在互联网/移动互联网上的行为进行记录, 记录的信息通常称为用户日志。数据内容: (1) 网站日志:用户在访问某个目标网站时,网站记录的用户相关行为信息; (2) 搜索引擎日志:搜索引擎日志系统所记录的用户在搜索引擎上的相关行为信息; (3) 用户浏览日志:通过特定的工具和途径记录用户所记录的用户在该搜索引擎上的 相关行为信息; (4) 用户主体数据:如用户群的年龄、受教育程度、兴趣爱好等; (5) 外界环境数据:如移动互联网流量、手机上网用户增长、自费套餐等; 本方法中的用户行为主要指用户信息、考勤状况、浏览日志及学生成绩等信息。

【发明内容】

[0012] 本发明的目的是将数据挖掘方法、移动智能考勤方法与用户行为分析方法结合, 运用聚焦爬虫对某指定教务网网站进行信息数据的分析与采集,运用支持多种设备(NFC 移动设备、OTG设备、基于蓝牙的RFID/指纹识别装置)的移动设备App或PC端应用进行终 端考勤,运用预警预测、聚类方法对行为习惯日志进行数据分析、建模、预测,实现用户行为 分析,运用Web、微信、App实现系统的管理与查询。进而提高数据挖掘的安全性,改善校园 考勤和校园管理的便捷程度。
[0013] 本发明的技术方案: 数据挖掘方案:通过队列管理任务的先后顺序,在任务添加到队列后由线程池管理机 制来分配队列中的任务给子线程,当任务处理课程信息的页面,获取课程的参数信息以及 学生选课信息保存到数据库中,当任务处理成绩信息的页面,获取学生信息及成绩的参数 信息保存到数据库中,进而实现指定教务网网站的特定爬虫。
[0014] 移动设备App考勤方案:App同时支持NFC、OTG设备和蓝牙RFID/指纹设备。 使用NFC模块识别时,调用NFC模块NFCAdapter,使用读操作完成对RFID卡的识别。使 用OTG设备时,调用按键事件监听,实现对OTG设备传入物理卡号
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1