一种基于信息熵的出行周期检测方法与流程

文档序号：11216251阅读：705来源：国知局

本发明涉及智能交通控制领域，更具体地，涉及一种基于信息熵的出行周期检测方法。

背景技术：

在大数据时代，信息获取的手段非常多，信息的感知工具非常普及，这使得收集各式各样的数据变得可能。同时，由此带来的数据产品非常丰富，其中包括许多事件组成的序列。

日常生活中，许多出行的发生都是存在着周期的，例如一个公司职员小王每周(7天)的工作日(5天)都会在早上乘坐地铁前往公司上班，这是在时空两个维度上的周期行为；又例如，王阿姨每个周日都会去某个(也许不是同一个)超市购置生活用品，这是在时间维度上的周期行为。

检测某个事件的发生是否存在周期以及其周期模式是怎样的，对于这类事件的管理，有着重要的意义，对相应系统的改进、提升有着指导意义。例如，可以通过一个区域居民的通勤出行情况对城市交通出行进行预测，并且对城市交通系统提出有针对性的改进、完善。

在交通系统中，出行者被诸如卡口、线圈等固定的感知、检测设备所感知。而具体到公共交通系统，获取到的是出行者的各阶段出行的od点信息。

目前常见的出行轨迹时空分析方法是将空间区域进行编号，再在轨迹上依照一定的规则取点(事实上，常常先有点，后有轨迹)，按照所属的区域获得编号属性。通过上述步骤将一个时空出行轨迹转化成一个符号序列。最后通过符号序列来分析轨迹。

这种方法有如下缺点：首先过大、过小的空间区域划分容易使得信息存在丢失与冗余。同时，出行轨迹存在着一定的噪声，在该方法现有的框架下难以剔除噪声。一个个体的出行有着很多不同的出行目的、习惯，不加以区分而对所有的出行进行全局的周期检测、周期模式识别，大大增加了周期检测难度。

其次，过于关注轨迹的细节部分。从一个大范围、全局宏观的视角来看，一个城市的出行量十分巨大。先不说如此庞大的计算量，城市管理者、交通部门的决策者，往往更关心的是中观的指标，例如某个区域有多少通勤量发生、通勤的起讫点，而不是具体到地点的出行轨迹。

因此，本发明采用了基于中观层面，将一个出行者的出行轨迹序列在某个时间窗下抽象为01序列的检测方法。该方法是本发明提出的周期检测方法的基础。

首先将同一次出行目的的出行阶段进行合并(如换乘出行合并)，将个体出行信息转化为基于出行目的的个体出行链。对一个出行者的出行链进行模式聚类、划分(这里的模式可看做是一类目的的出行，例如小王上班，与具体聚类的划分的标准有关)。在观测时间窗内，某天，该模式的出行发生则标记为1，否则标记为0。这种方法从中观的角度出发，很好地满足了城市管理者、交通决策者的需求。

至此，得到了每个出行者的不同模式下的出行01序列。

在周期的检测上，目前国内外主要着重于检测时间序列、符号序列与交易序列的周期及周期模式，针对于01序列周期检测的方法还比较少。现介绍一下常用的适用于01序列的周期检测方法：

方法一：自相关函数与快速傅里叶变换。

先求出序列的自相关函数，基于“周期信号的自相关函数是周期函数，且周期与周期信号相同”这一原理，通过对序列的自相关函数进行快速傅里叶变换，得到主频率，而周期为求得的主频率的倒数。

方法二：在生物界中，生物学家认为基因在dna上的重复出现对遗传形状具有重要意义。因此，在基因领域，将基因在dna中的出现与否标记为1和0，提出了一种基于信息论的方法，去检测01序列的周期。特别的是，此类序列是异常稀疏的序列，0与1的比值在1000这个数量级。

方法一是目前对于01序列(信号)周期检测最常用到的方法，但是其并不能满足需求。这一方法在把序列看作一个不可分割的流动，使得无法获得序列的周期模式。再者，对于某些序列，自相关函数的主频与次主频间的区分并不是很明显，其适应性有待加强：考虑序列“0,0,1,0,0,0,1,0,0,1,0,0,0,1,0,0,1,0,0,0,1,0,0,1,0,0,0,1”，其周期为7，周期模式为0,0,1,0,0,0,1。而在该方法下，该序列的自相关函数与fft频谱图像如图1、2所示。

显然，在该方法的检测下，检测出的周期为3.5，与7不符。

方法二对于01序列的检测具有很强的鲁邦性，但是其关注点在于极度稀疏的序列，并且这也正是方法的适用的前提。

技术实现要素：

本发明为解决以上现有技术提供的周期检测方法无法有效及准确地检测出出行周期的缺陷，提供了一种基于信息熵的出行周期检测方法。

为实现以上发明目的，采用的技术方案是：

一种基于信息熵的出行周期检测方法，包括以下步骤：

s1.将出行的发生与否分别标记为1和0，对于给定长度为l的出行序列，设其可能的周期为p，将出行序列存储成一个的矩阵mp；

s2.对于矩阵mp的每一列c，为其定义一个概率：

其中m(c,j)表示矩阵mp中的第c行第j列的值；

s3.计算当前矩阵mp的信息熵为：

s4.取矩阵mp中概率大于设定的第一阈值的所有列进行饱和度fp的计算；

s5.p＝p+1，重复执行步骤s1～s5，直至p大于l/2；

s6.求得可能的周期集合p＝{p|在p处的信息熵不比在p+1和p-1处的信息熵高，并且p对应的饱和度fp>第二阈值}，其中集合p中最小的值为周期值。

与现有技术相比，本发明的有益效果是：

本发明从中观的视角，将出行信息转化成01序列。并且基于信息论的知识，提出一种基于信息熵的出行周期检测方法，该方法能够有效地检测出出行的周期以及周期模式，并且对随机噪声有较强的适应性。

附图说明

图1为序列的相关函数图。

图2为序列的fft频谱图。

图3为方法的流程图。

图4为序列s在p＝7时的矩阵化形式图。

图5为序列s在p＝8时的矩阵化形式图。

图6为序列s在p＝7时在纵向上的重合度示意图。

图7为序列s在p＝8时在纵向上的重合度示意图。

图8为矩阵每列的概率的示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

以下结合附图和实施例对本发明做进一步的阐述。

实施例1

图3为本发明提供的方法的流程示意图。如图3所示，给定长度为l的出行序列s，设s可能的周期为p，将序列存储成一个的矩阵mp，剩余的部分补0。例如，序列“0,0,1,0,0,0,1,0,0,1,0,0,0,1,0,0,1,0,0,0,1,0,0,1,0,0,0,1”在p＝7的矩阵化形式如图4所示，在p＝8的矩阵化形式如图5所示。

若p＝7为s的周期，如图6所示，其0/1分布在纵向上的重合度很高。若p＝8不为s的周期，如图7所示，其0/1分布在纵向上的重合度很差。

为了衡量这个“重合度”，本发明引入了信息熵判定这一步骤。

信息熵是用来量化不确定度、信息量大小的。信息熵就是平均而言，发生一个事件得到的信息量大小。所以数学上，信息熵其实是信息量的期望。

信息熵的定义为：

h＝-σp(x)logp(x)

例如，“明天99％会下雨”，和“明天几乎不会下雨”是比较确定的，其信息量是很低的。

h＝-(0.99log0.99+0.01log0.01)

＝0.024

而，“明天25％下雨，25％晴天，50％多云”的不确定性较大，具有较大的信息量。

h＝-(0.5log0.5+0.25log0.25+0.25log0.25)

＝0.45

因此给矩阵mp的每一列c定义一个概率

c＝1,2,……p，具体如图8所示。

当pc接近1或者接近0，该列的出行事件的发生与否的确定性高，信息量较低。只有p值为周期值或其整数倍时方才使然。因此，尝试用信息熵来衡量待检测序列s在当前的可能周期值下的确定性的高低。

定义矩阵mp的信息熵：

然后取矩阵mp中概率大于设定的第一阈值的所有列进行饱和度fp的计算；使每一个可能的周期值p重复执行上述过程，直至p大于l/2；求得可能的周期集合p＝{p|在p处的信息熵不比在p+1和p-1处的信息熵高，并且p对应的饱和度fp>第二阈值}，其中集合p中最小的值为周期值。

上述计算饱和度的具体过程如下：

fp＝出行事件数/提取的列包含的总的事件数

如图8所示，pm＝7的情况下，该矩阵的饱和度fp为0.875，周期模式为3、7。

实施例2

本实施例人工制造一些长度为112的周期序列对实施例1的方法进行了测试。其中m为原始序列的周期值，n为原始序列中一个周期中的出行事件发生的个数。

并添加随机噪声——01交换。定义噪声比η：

其中，l为序列的长度，noise为序列中发生0/1交换的个数，即添加的噪声的程度与原始序列中出行事件发生的个数有关。

实验结果如下所示：

通过上述结果可以看出，本发明提供的方法对噪声有一定的适应能力。在25％的噪声中仍然能有80％以上的表现；甚至一些测试样本在25％的噪声中仍保持着100％的正确率。其优势不言而喻。

同时，从结果可以得到启示：在一些周期为奇数的序列中，该方法表现得比周期为偶数的序列要好，这意味着该方法在检测特定周期时可以有更好的表现。

例如：尝试去检测一个序列的周期是否为6。鉴于奇数的适应度比偶数的高，可以在序列的每间隔6个位置插入0。如果该序列本身的周期为6，则检测出来的周期应为7。经过实验，噪声比为25％,m＝6,n＝4的序列经过上述引申方法处理后，检测的正确率由0.862提升到了0.996。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：何兆成;邓紫坤;余畅
技术所有人：中山大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。