公交刷卡数据处理之站点上客量统计
目前多数公交企业的刷卡数据包含的字段内容有限,在统计不同时间、不同线路的乘客量时尚可使用,但在统计站点上客量方面,由于字段的缺失,单从刷卡数据中是无法统计出结果的。本文将介绍如何利用刷卡数据、车辆GPS数据来实现对站点上客量的统计。
(1)数据准备
需要同时间段的刷卡数据及车辆GPS到离站数据。刷卡数据中必须包含日期、时间和车辆号。车辆GPS到离站数据中需包含车辆号、线路号、日期、时间、站点名称等字段。
(2)匹配原理
在实际运营中车辆会根据具体运营线路进行报站,因此车辆GPS数据中的站点名称、线路号相对是准确的。车辆在运营中停靠站点后,会返回具体停靠的站点名称、到站时间等信息,然后车门打开,乘客刷卡上车(此时,刷卡机中会记录/返回乘客卡号、刷卡时间等信息),待乘客全部上车后,车辆启动至下一站,在上一站与下一站之间刷卡的乘客即可默认为是上一站上车的乘客。
图1 公交刷卡数据中站点名称匹配原理
(3)具体操作
将刷卡数据与GPS数据上下融合,按照车辆号、时间排序(升序),将站点名称列中为空的行填充上一列不为空的数据即可,然后筛选出刷卡数据,此时刷卡数据中就匹配上了站点名称,通过站点名称统计就可以得出每个站点的上客量。
图2 具体操作方法示意图来源:济南市城市交通研究中心
来源:公共交通资讯