当前位置: 首页 > 科技观察

使用Python可视化图表分析旅行数据

时间:2023-03-13 01:56:38 科技观察

最近一直在思考如何分析个人旅行数据,看看可以从旅行数据中分析出什么。一开始我的期望还是挺高的,有以下几点期待:根据出差时间范围,基本可以确定他的生活节奏,通过出差时间范围可以猜出工作强度。可以根据出行耗时历史提示车尾号。如果时间能够分析得到这些信息,感觉还是挺有意思的,于是就开始自己动手了。第一个问题是数据来源。导航软件目前不提供行程数据的导出,所以我就拿了7-8月份两个月的行程。资料是按照导航行程一一整理出来的。一般数据还可以,但是有些数据做了额外的处理,比如时间处理,因为如果是7:15,那么按照数字显示就不可能是7.15,更合理的显示是7.4,还有同样是行程时间,比如1:30,需要按分钟和90分钟进行积分。排序后得到的数据如下:首先,我按照时间分析了行程时间,结果发现这个数据似乎不太理想。我预计它会比较稳定,我打算根据这些数据做一个预测。在这种情况下,你必须改变你的想法。我们先来看一下数据的整体分布。使用条形图其实并不容易反映数据的分布情况,因为有些行程没有直接关系,比如早上和晚上的行程,因为时间的不同,条形图的图案会有很大的抖动。以下是根据行程的耗时分布图:以下是行程出发时间的分布。发车时间基本在6:30-7:00之间,回程基本在晚上20:00左右。以下是周一到周日的行程耗时分布。可以明显看出,周二的行程分布比周六周日要少很多,所以从这一点可以猜到,很可能是人数限制的缘故。当然还有上面提到的两个指标,一个是行程时间,一个是出发时间,还有一个是距离,因为距离和时间有一定的关系,但是一个折中的指标就是平均值速度。因此,按照平均速度分布来看,周一和周五最拥堵,而周四和周六最顺畅。我们不同于一般的可视化,引入箱线图。我们可以看到平均行程时间在45分钟左右,间隔基本在30-60分钟之间。其实这里的数据分析还是有很大区别的。虽然对一些内容或多或少的进行了一些分析,但还是有一些指标没有被充分利用,显示的指标还不够清晰,所以打算用seaborn做的更进一步。调整。以下是出行距离、出行时间和周数的综合分布图。下面是周和出行时间的分布图,会比之前的分布图更清晰。我们继续引入平均速度,并将出发时间与周数相关联。我们可以看到整个行程会有一个明显的分水岭。早晚堵车基本是工作日,其他时间基本是周末。为了进一步探究这些数据指标之间的关系,需要引入一个稍微复杂的图PairGrid,它可以放入多个指标,生成多维度的分布图。接下来,我们需要进一步分析数据的指标,引入检测和预测的功能。本文转载自微信公众号《杨建荣的学习笔记》,可通过以下二维码关注。转载本文请联系杨建荣学习笔记公众号。