基于Android平台的智能备忘录策略审计系统的制作方法

文档序号:6525991阅读:275来源:国知局
基于Android平台的智能备忘录策略审计系统的制作方法
【专利摘要】本发明公开了基于Android平台的智能备忘录策略审计系统。该系统的方法包括:Android手机自动读取短信里的时间、地点、事件等关键字,并将提取出的关键字组织成一条备忘记录。在程序的编写上由于用到了训练集training,为了避免训练集最后得出的model的冗余和未对关键字进行标准化,按照一定的算法定义冗余和标准化的规则,最终通过策略审计训练出一个最有效的model和标准化的关键字。
【专利说明】基于Android平台的智能备忘录策略审计系统
【技术领域】
[0001]本发明涉及Android平台、智能备忘录策略审计技术,特别涉及基于训练集和关键字标准的审计和优化。
【背景技术】
[0002]Android是一种基于Linux的自由及开放源代码的操作系统,主要使用于移动设备,如智能手机和平板电脑,由Google公司和开放手机联盟领导及开发。当前基于Android系统的开发比较流行,而且Android系统就目前客户喜欢度和成熟度来说也是比较高的。随着目前人们生活节奏越来越快,日程提醒显得尤为重要。
[0003]本发明在一定程度是基于智能化的,故在此有用到隐马尔可夫模型(HiddenMarkov models,HMM),隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析,例如模式识别。
[0004]隐马尔可夫模型(Hidden Markov Model,HMM)作为一种统计分析模型,创立于20世纪70年代。80年代得到了传播和发展,成为信号处理的一个重要方向,现已成功地用于语音识别,行为识别,文字识别以及故障诊断等领域。在【专利附图】

【附图说明】中图6:
[0005]X-隐含状态
[0006]y_可观察的输出
[0007]a_ 转换概率(transition probabilities)
[0008]b_ 输出概率(output probabilities)
[0009]图6主要强调了 HMM的状态变迁。有时,明确的表示出模型的演化也是有用的,在图7中我们用X(tI)与x(t2)来表达不同时刻tl和t2的状态。在这个图中,每一个时间块(x(t),y(t))都可以向前或向后延伸。通常,时间的起点被设置为t=0或t=l。
【专利附图】
附图
【附图说明】
[0010]图1为系统总体架构图;
[0011]图2为关键字提取规范不例图;
[0012]图3为短信处理生成备忘录图;
[0013]图4推送给用户的提示框及用户需要做的操作图;
[0014]图5用户自己判断以及对备忘记录的完善图。
[0015]图6隐马尔可夫模型状态变迁图
[0016]图7状态转移图。
【权利要求】
1.一种基于Android平台的智能备忘录策略审计系统,其特征在于,该方法包括: 基于Android平台的开发,对相关短信里包含的时间、地点等关键字进行提取,并将提取出的关键字组织成一条备忘记录。上述系统是致力于在不改变训练集大小的前提下,训练集对100条备忘记录进行训练,从而得出model。为了能得到最优的model,通过策略审计得出的相似度最低的备忘记录,删减备忘记录中的冗余和非标准化的数据,从而减少训练集的训练代价和时间。 经过对短信和model进行运算,将关键字结构化后,经策略审计,规范出最优的标准化关键字,并将最优标准化后的关键字组织成备忘录。
2.如权利要求1所述的方法,其特征在于,对备忘记录进行到了相似度策略审计和关键字进行了最优结构标准化。 抓住备忘记录和关键字的全局特征和结构信息,采用句子相似度的文档复制策略审计算法,以句子为基本单兀对记录和结构化的关键字进行指纹提取,在统计句子相等的基础上,加入了句子相似计算,结合了基于词频统计的方法和基于字符串比较的方法的优点,提高了审计检测的准确率。
3.如权利要求2所述的方法,其特征在于,将备忘记录或结构化关键字分解成句子序列,然后统计两个备忘记录或结构化关键字中相同句子的数量,并将两个备忘记录或者结构化关键字中共有的句子数量的比值作为衡量两篇文档之间相似程度的依据。相似度计算公式如下所示:., Δ m IS( A) n S(B)1.JiH(AfB)-丨S(A) u S(B) I 其中,A, B分别表示待测文档和候选文档,S(A)和S(B)分别表示文档A,B的指纹集合。
4.如权利要求1所述的方法,其特征在于,训练集的大小是固定的只是对100条备忘记录进行训练,为了得出相似度最低的备忘记录以训练出最优的model。 一是策略审计时,当备忘记录数η > 100时,必须对新的备忘记录进行审计和比对,审计出相似度最低的新的100条备忘记录。二是对于结构化的关键字的审计,使各种类型的关键字采取同一种标准,例如举例说明,时间2013年9月13日,统一采用2013-09-13的形式。
5.如权利要求3所述的方法,其特征在于,文档指纹是用来准确指定拷贝的有效途径。 之前很多的检测算法都利用了一个观点,那就是k-gram,长度为k的连续子串。这些算法,首先将文档分成很多个k-grams,而这个k值是提前就定义好的。然后再哈希每一个k-gram,最后选出这些哈希值的一些子集,作为文档的指纹。这里需要注意的是,如果在实际过程中,一旦hash函数被选定的话,那么两个不同文档冲突的概率会非常小,这样也就大大降低了偶然性,反过来讲,一旦两个文档的文档指纹是一样的,那么非常可能这两个文档使用的是同一个k-gram。为了效率而言,并没有将所有的hash值作为文档的指纹,而是选取了其中的一部分来作为文档指纹。那么这里就会存在一个如何选择hash值的问题,这个问题也是本文的一个关键点,好的选择策略可以使得算法的效率高,可用性高,并且干扰噪声小。在选择策略中,有一种方法是之前被广泛使用的,那就是Omod P,而这个P值是被用户指定的。这样的方法是很容易实现,因为这使得所有的hash值中的I / P被保留下来作为文档指纹。而作为检测文档间是否存在雷同的方法,就是检测文档指纹相同指纹的个数。
【文档编号】G06F9/44GK103984535SQ201310736895
【公开日】2014年8月13日 申请日期:2013年12月25日 优先权日:2013年12月25日
【发明者】王立进, 徐勤, 李 荣, 朱燕涛, 冯桂勇, 周云龙 申请人:北京安码科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1