基于交易数据的地铁站点识别方法、装置、设备及介质与流程

文档序号:17666163发布日期:2019-05-15 22:43阅读:174来源:国知局
基于交易数据的地铁站点识别方法、装置、设备及介质与流程
本发明涉及数据分析
技术领域
,尤其涉及一种基于交易数据的地铁站点识别方法、装置、设备及介质。
背景技术
:城市交通一卡通服务系统拥有了海量的地铁电子支付数据,每条交易数据中都包含有卡号、进站时间、进站终端编号、出站时间、出站终端、交易票价等准确信息,随着政府、行业及公众对交通管理优化、交通服务智能化的更高要求,交通一卡通运营企业开始对交易数据进行分析挖掘,为政府管理、行业发展和公众出行提供可参考的数据支持。但是,利用一卡通交易数据进行业务分析时往往缺少交易发生时的交易终端位置信息,使得很多需要位置信息的分析项目就无法开展,例如公共交通的搭乘质量效率的评估分析、客流时空特征分析、站点优化分析等等都需要交易发生时的交易终端位置信息。交易终端位置信息由各分散的交通运营企业维护,具体到地铁交易终端就是由地铁运营公司维护,一般来说交通运营企业在未有足够利益的情况下不会对外无偿提供,而且有的企业对终端信息的维护也难于及时准确,一卡通运营企业从交通运营企业获得位置信息需要较高的成本,而且还不一定完整、及时、准确。ic卡交易数据中包含有终端编号等信息,这里的终端编号作为结算依据只与交易相关,与物理地点相关的站点信息又不存在于交易数据中,现有技术中为了有效确定交易所在的位置,就需要进行全部站点内全部终端编号信息的人工采集。采集的过程是使用ic在在所有终端上进行交易,记录下交易的顺序、时间和站点,然后通过ic卡交易数据和记录数据进行匹配,获得终端与站点之间的关系。原来的人工采集方法,需要较高的人工成本、测试交易成本和数天的时间成本等采集成本,最主要的是,人工采集方法难于日常化,终端与站点的对应关系发生变化,难于及时变更。技术实现要素:为了克服现有技术的不足,本发明的目的之一在于提供一种基于交易数据的地铁站点识别方法,其只需采集关键站点内的部分终端数据,然后获取公开途径的站点票价数据,通过一系列的数据整理和匹配,找出所有终端所位于的站点情况,其基于极低的采集成本和公开的信息,高效、准确地找出终端与站点的对应关系。本发明的目的之二在于提供一种基于交易数据的地铁站点识别装置,其只需采集关键站点内的部分终端数据,然后获取公开途径的站点票价数据,通过一系列的数据整理和匹配,找出所有终端所位于的站点情况,其基于极低的采集成本和公开的信息,高效、准确地找出终端与站点的对应关系。本发明的目的之三在于提供一种实现上述基于交易数据的地铁站点识别方法的电子设备。本发明的目的之四在于提供一种存储上述基于交易数据的地铁站点识别方法的计算机可读存储介质。本发明的目的之一采用如下技术方案实现:一种基于交易数据的地铁站点识别方法,包括以下步骤:获取所有站点的站点编号,以及任意两个站点之间的票价信息,将所述站点编号和票价信息构建形成站点票价表;获取预设时间内所有乘坐地铁的ic卡的交易记录,根据每一条交易记录得到对应进站终端编号和出站终端编号,以及进站终端编号和出站终端编号之间对应的票价信息,构建终端票价表;提取所有终端票价表中的进站终端编号和出站终端编号,将所述进站终端编号和出站终端编号合称为终端编号,即得到终端编号表;从所有站点中选取一组站点,作为关键站点组,任意一个站点到所述关键站点组的票价组合不完全相同,根据站点票价表得到所有站点与关键站点组中每个关键站点之间的票价信息,得到关键站点票价表;获取关键站点组中每个关键站点内的一个或多个终端对应的终端编号,将每个关键站点以及其对应的终端编号组成关键站点终端对应表;根据所述终端票价表、关键站点终端对应表、关键站点票价表以及终端站点对应表对终端编号表内的每一个终端对应的站点进行匹配,得到终端站点对应关系表。进一步地,构建终端票价表时,对交易记录进行筛选,所述筛选包括以下的一种或多种:删除非cpu卡的ic卡交易记录;删除进站终端编号和出站终端编号相同的交易记录;删除进站终端编号为空或非法字符的交易记录;删除出站终端编号为空或非法字符的交易记录;删除交易金额为零的交易记录。进一步地,任意一个站点到所述关键站点组的票价组合不完全相同,包括:获取所有站点到所述关键站点组中每个关键站点的票价信息,每一个站点到所有关键站点的票价信息,形成一票价数组,其中,同一站点之间的票价记为零;任一个站点对应的票价数组与其他任意一个站点对应的票价数组中的数字不完全相同。进一步地,根据所述终端票价表、关键站点终端对应表、关键站点票价表以及终端站点对应表对终端编号表内的每一个终端对应的站点进行匹配,得到终端站点对应关系表,包括以下步骤:从终端编号表任意选取一个终端编号,称为目标终端编号;根据所述终端票价表和关键站点终端对应表获取目标终端到关键站点组内每个关键站点的票价信息,称为目标票价信息集合;将所述目标票价信息集合与所述关键站点票价表进行匹配,得到目标终端编号对应的站点,即目标终端编号与站点的对应关系;获取终端编号表内所有的终端编号与站点的对应关系,根据每个终端编号与站点的对应关系构建终端站点对应关系表。进一步地,根据所述终端票价表和关键站点终端对应表获取目标终端到关键站点组内每个关键站点的票价信息,称为目标票价信息集合,包括:从关键站点终端对应表中得到每个关键站点对应的任意一个终端编号,关键站点对应的任意一个终端编号称为关键站点终端编号;从终端票价表中查找所述目标终端编号到每个关键站点终端编号的票价信息,得到目标终端编号到达所有关键站点终端编号的票价信息,即目标票价信息集合。进一步地,如果从终端票价表中查找不到所述目标终端编号到其中一个或多个关键站点终端编号的票价信息,则获取所述一个或多个关键站点终端编号对应的关键站点的其他终端编号,再从终端票价表中进行查找。本发明的目的之二采用如下技术方案实现:一种基于交易数据的地铁站点识别装置,包括:第一获取模块,用于获取所有站点的站点编号,以及任意两个站点之间的票价信息,将所述站点编号和票价信息构建形成站点票价表;第二获取模块,用于获取预设时间内所有乘坐地铁的ic卡的交易记录,根据每一条交易记录得到对应进站终端编号和出站终端编号,以及进站终端编号和出站终端编号之间对应的票价信息,构建终端票价表;提取模块,用于提取所有终端票价表中的进站终端编号和出站终端编号,将所述进站终端编号和出站终端编号合称为终端编号,即得到终端编号表;选取模块,用于从所有站点中选取一组站点,作为关键站点组,任意一个站点到所述关键站点组的票价组合不完全相同,根据站点票价表得到所有站点与关键站点组中每个关键站点之间的票价信息,得到关键站点票价表;第三获取模块,用于获取关键站点组中每个关键站点内的一个或多个终端对应的终端编号,将每个关键站点以及其对应的终端编号组成关键站点终端对应表;匹配模块,用于根据所述终端票价表、关键站点终端对应表、关键站点票价表以及终端站点对应表对终端编号表内的每一个终端对应的站点进行匹配,得到终端站点对应关系表。本发明的目的之三采用如下技术方案实现:一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明目的之一的基于交易数据的地铁站点识别方法。本发明的目的之四采用如下技术方案实现:一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明目的之一的基于交易数据的地铁站点识别方法。相比现有技术,本发明的有益效果在于:本发明只需采集关键站点内的部分或全部终端编号数据,然后获取公开途径的站点票价数据,通过数据整理和匹配,找出所有终端所位于的站点情况,其基于极低的采集成本和公开的信息,高效、准确地找出终端与站点的对应关系。附图说明图1为本发明实施例一的基于交易数据的地铁站点识别方法的流程图;图2为本发明实施例二的基于交易数据的地铁站点识别装置的结构示意图;图3为本发明实施例三的电子设备的结构示意图。具体实施方式下面,结合附图以及具体实施方式,对本发明做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。实施例一本发明实施例一公开了一种基于交易数据的地铁站点识别方法,该方法可以由硬件或/和软件来执行,请参照图1所示,其包括以下步骤:110、获取所有站点的站点编号,以及任意两个站点之间的票价信息,将所述站点编号和票价信息构建形成站点票价表。在地铁运营商网站可以很容易获取当前地铁线路和站点信息,再通过线路和站点信息很容易查询到任两个站点之间的票价信息,将票价信息整理成站点票价表(sp表),如表1所示:表1、站点票价表(sp表)其中站点编号和站点名称一一对应。如果站点数量为n,则共有n2条站点票价表记录,因为互为起止站点的票价是一样的,故进一步整理,可删除一半的记录,即只需要保留两个站点(无论是进站还是出站)之间的票价表即可。120、获取预设时间内所有乘坐地铁的ic卡的交易记录,根据每一条交易记录得到对应进站终端编号和出站终端编号,以及进站终端编号和出站终端编号之间对应的票价信息,构建终端票价表。预设时间可以采用一天,一般情况下,一天时间内,所有的站点以及相应的站点终端都会被使用到。ic卡交易数据以一天的所有地铁交易为对象,交易记录主要内容如表2的ic卡交易记录表所示:表2、ic卡交易记录表因ic卡交易数据的记录(即交易记录)种类多、字段信息多,需进行一些筛选,筛选主要涉及到交易记录的清理工作,清理过程包括以下的一种或多种:1、删除非cpu卡的ic卡的交易记录,因部分非cpu卡交易的入闸终端编号不完整;2、删除进站终端编号与出站终端编号相等、或者进站终端编号为空或非法格式、或者进站终端编号为空或非法字符的交易记录;3、删除交易金额为0的交易记录;4、删除进站终端编号与上次出站终端编号不一致的记录;5、删除无用字段,对交易记录按进站终端编号、出站终端编号、票价3个字段分组,即仅保留进站终端编号、出站终端编号和票价信息;6、进站终端与出站终端一般不会是同一编号,为清除临时调整少量终端的影响,如果出现既是进站终端又是出站终端,记录终端编号,比较该终端编号作为进站终端和出站终端的交易记录数量,如作为进站终端的交易记录数大于作为出站终端的交易记录数,则删除所有出站终端编号为该终端编号的交易记录;7、理论上交易记录中只要进站终端编号、出站终端编号一致,票价也就应一致,但实际上有时也因数据错误,也存在进站终端编号、出站终端编号一致但交易票价不同的情况。这种情况下,应取信数量最大的分组,删除其他记录。经过上述清理过程,得到交易记录整理后形成终端票价表(tp表),如表3所示:表3、终端票价表(tp表)其中终端编号和终端一一对应。按上述数据整理知epid与opid的交集为空,如果epid数量为n,opid数量为m,则一般有m*n条终端票价表记录。130、提取所有终端票价表中的进站终端编号和出站终端编号,将所述进站终端编号和出站终端编号合称为终端编号,即得到终端编号表。终端票价表中的全部epid和opid,插入终端编号表(tl表),因此tl表保存了所有产生过交易的终端编号,一般情况下,预设时间内所有能够正常使用的终端编号均会产生过交易,如果部分终端编号未参与交易,可以适当延长预设时间。终端编号表内的每个终端编号均对应一个终端设备。表4示出了终端编号表:表4、终端编号表(tl表)140、从所有站点中选取一组站点,作为关键站点组,任意一个站点到所述关键站点组的票价组合不完全相同,根据站点票价表得到所有站点与关键站点组中每个关键站点之间的票价信息,得到关键站点票价表。140步骤和150步骤也可以在110步骤-130步骤之前、或之间任意位置进行。所谓关键站点组是指存在一组站点,任何站点(或绝大多数站点)到这组站点的票价组合都不完全相同,表5是一组关键站点的示例。表5、关键站点示例ks1ks2ks3ks4ks5。。。ksm001012033122233007关键站点组内站点的选择有几个要求,一是按地铁线网情况分出子组,部分城市的地铁线网可能分割成多于一个的互不相通的网络,因此站点组也需分出子组;二是组内站点要足够多,使得任何站点到组内站点的票价都不完全相同;三是组内站点是有效的,如果删除组内某个站点不影响票价组则删除该站点,使得站点足够少以提高后续的处理效率;四是标记特殊站点,如存在一对或多对站点到任何其他站点的票价都一样,这种情况下需将这类站点标记好,一对站点作为一个站点处理。然后依据票价表列出所有站点到关键站点的票价,形成表6关键票价表,按上述确定的关键站点的方法可知,不存在两行的值会完全相同。表6、关键站点票价表(ksp表)站点si(i从1到n,n为所有站点数量)到m个关键站点[ks1,ks2,…,ksm]的票价形成si到关键站点组的票价组如表6。按上述确定的关键站点的方法可知,不存在两行的值会完全相同的纪录,所有si到确定的关键站点组的票价组都不完全相同,这个票价组可以认为是si的指纹信息,也就是说,如果知道某个站点到关键站点组的票价信息,也就确定了这个站点的位置。150、获取关键站点组中每个关键站点内的一个或多个终端对应的终端编号,将每个关键站点以及其对应的终端编号组成关键站点终端对应表。确定关键站点内的终端编号,可以有多种方法,包括数据分析的方法和人工采集的方法,因关键站点数量占站点总数的比率很小,一般不到5%,进行人工采集工作量不大,这里就采用人工采集的方式,采集到关键站点内各终端的编号,形成关键站点终端对应表(ts表)的示例,如表7所示:表7、关键站点终端对应表(ts表)终端编号与站点编号的关系是多对一,一个终端一定属于也只能属于一个站点,一个站点可以包含多个终端,因此,对关键站点内的终端编号的采集过程,可以仅获取每个关键站点内的其中一个终端编号,当然,为了使得后续的匹配更加准确,可以获取每个关键站点内的多个终端编号,甚至所有的终端编号。160、根据所述终端票价表、关键站点终端对应表、关键站点票价表以及终端站点对应表对终端编号表内的每一个终端对应的站点进行匹配,得到终端站点对应关系表。具体地,其包括以下步骤:a、从终端编号表任意选取一个终端编号,将选取的终端编号称为目标终端编号;为了方便匹配,可以按照终端编号表内终端编号的顺序依次选取。b、根据所述终端票价表和关键站点终端对应表获取目标终端到关键站点组内每个关键站点的票价信息,称为目标票价信息集合。其过程是:首先从关键站点终端对应表中得到每个关键站点对应的任意一个终端编号,关键站点对应的任意一个终端编号称为关键站点终端编号;然后从终端票价表中查找所述目标终端编号到每个关键站点终端编号的票价信息(如果从终端票价表中查找不到所述目标终端编号到其中一个或多个关键站点终端编号的票价信息,则获取所述一个或多个关键站点终端编号对应的关键站点的其他终端编号,再从终端票价表中进行查找),得到目标终端编号到达所有关键站点终端编号的票价信息,即目标票价信息集合。c、将所述目标票价信息集合与所述关键站点票价表进行匹配,得到目标终端编号对应的站点,即目标终端编号与站点的对应关系,目标终端编号与站点的对应关系,即为目标终端编号对应的终端(称为目标终端)与站点的对应关系,该对应关系即是目标终端位于具体的哪个站点内,也就确定了目标终端的位置。d、按照上述过程,获取终端编号表内所有的终端编号与站点的对应关系,根据每个终端编号与站点的对应关系构建终端站点对应关系表。由以上步骤最终得到每个终端所在的站点,由于站点位置是固定的,也就得到了每个终端的位置,即可根据每个终端的终端编号获取其具体的位置信息,为很多需要位置信息的分析项目例如公共交通的搭乘质量效率的评估分析、客流时空特征分析、站点优化分析等等的开展提供了信息支持。实施例二实施例二公开了一种对应上述实施例的基于交易数据的地铁站点识别装置,请参照图2所示,其包括:第一获取模块210,用于获取所有站点的站点编号,以及任意两个站点之间的票价信息,将所述站点编号和票价信息构建形成站点票价表;第二获取模块220,用于获取预设时间内所有乘坐地铁的ic卡的交易记录,根据每一条交易记录得到对应进站终端编号和出站终端编号,以及进站终端编号和出站终端编号之间对应的票价信息,构建终端票价表;提取模块230,用于提取所有终端票价表中的进站终端编号和出站终端编号,将所述进站终端编号和出站终端编号合称为终端编号,即得到终端编号表;选取模块240,用于从所有站点中选取一组站点,作为关键站点组,任意一个站点到所述关键站点组的票价组合不完全相同,根据站点票价表得到关键站点组中每个关键站点的票价信息,得到关键站点票价表;第三获取模块250,用于获取关键站点组中每个关键站点内的一个或多个终端对应的终端编号,将每个关键站点以及其对应的终端编号组成关键站点终端对应表;匹配模块260,用于根据所述终端票价表、关键站点终端对应表、关键站点票价表以及终端站点对应表对终端编号表内的每一个终端对应的站点进行匹配,得到终端站点对应关系表。实施例三图3为本发明实施例三提供的一种电子设备的结构示意图,如图3所示,该电子设备包括处理器310、存储器320、输入装置330和输出装置340;计算机设备中处理器310的数量可以是一个或多个,图3中以一个处理器310为例;电子设备中的处理器310、存储器320、输入装置330和输出装置340可以通过总线或其他方式连接,图3中以通过总线连接为例。存储器320作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的基于交易数据的地铁站点识别方法对应的程序指令/模块(例如,基于交易数据的地铁站点识别装置中的第一获取模块210、第二获取模块220、提取模块230、选取模块240、第三获取模块250和匹配模块260)。处理器310通过运行存储在存储器320中的软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现上述的基于交易数据的地铁站点识别方法。存储器320可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器320可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器320可进一步包括相对于处理器310远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。输入装置330可用于接收输入的用户身份信息。输出装置340可包括显示屏等显示设备。实施例四本发明实施例四还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种基于交易数据的地铁站点识别方法,该方法包括:获取所有站点的站点编号,以及任意两个站点之间的票价信息,将所述站点编号和票价信息构建形成站点票价表;获取预设时间内所有乘坐地铁的ic卡的交易记录,根据每一条交易记录得到对应进站终端编号和出站终端编号,以及进站终端编号和出站终端编号之间对应的票价信息,构建终端票价表;提取所有终端票价表中的进站终端编号和出站终端编号,将所述进站终端编号和出站终端编号合称为终端编号,即得到终端编号表;从所有站点中选取一组站点,作为关键站点组,任意一个站点到所述关键站点组的票价组合不完全相同,根据站点票价表得到关键站点组中每个关键站点的票价信息,得到关键站点票价表;获取关键站点组中每个关键站点内的一个或多个终端对应的终端编号,将每个关键站点以及其对应的终端编号组成关键站点终端对应表;根据所述终端票价表、关键站点终端对应表、关键站点票价表以及终端站点对应表对终端编号表内的每一个终端对应的站点进行匹配,得到终端站点对应关系表。当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的基于交易数据的地铁站点识别方法中的相关操作。通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、闪存(flash)、硬盘或光盘等,包括若干指令用以使得一台电子设备(可以是手机,个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。值得注意的是,上述基于交易数据的地铁站点识别装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。上述实施方式仅为本发明的优选实施方式,不能以此来限定本发明保护的范围,本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1