当前位置: 首页 > 后端技术 > Python

30+程序老手的转型之路--数据分析实战

时间:2023-03-25 21:24:42 Python

背景最近打算稍微学习一下数据分析。下图虽然广告很多,但是技巧不过关,据说程序员要有一点Productthinking和datasensitive。看了一些培训机构的介绍,涉及到的知识点还是蛮多的,有工具,有思维,有实操,有总结报告。果然一口吃不下一个胖子,慢慢学吧。数据分析框架下面是一套数据分析方案,分为5个步骤:厘清问题、获取数据、清洗数据、分析数据、最终呈现报告。明确问题,分析要解决的问题,定义一些数字指标。只有对这些指标进行对比分析,才能得出答案。最后,决策会转化为大小、高低、多与少的量化比较。数据,针对上述定义的数字指标,通过各种方式收集包含这些指标信息的数据,包括对外披露的数据、本单位(部门)的业务数据等。外数据经常使用爬虫获取一些公共数据数据清洗,对获取的数据中的非法值、空值、重复值、异常值进行清洗,获取高质量的数据用于后续的数据分析和报表分析测度与各维度的关系,分析多个指标之间的关系,形成回归或分类模型,并通过参数替换得到预测结果。上面的实际操作是一些理论知识,结合理论知识进行实际操作,我们先用爬虫从基金网站上获取一些基金数据存储在云数据库MemFireDB中,使用tableau进行数据清洗和可视化分析,发现出最有价值的股票来获取数据。本文分享如何获取公募基金数据https://juejin.cn/post/697093...,我们获取了部分基金数据如下图所示:我们使用tableau对数据进行清洗,Tableau完美嫁接数据计算有漂亮的图表。其易于使用的程序允许公司将大量数据拖放到数字“画布”上,以在眨眼间创建图表。该软件背后的理念是,在界面上操作数据越容易,公司就越能了解自己在业务领域的做法是对还是错。首先下载安装tableau,下载地址https://www.tableau.com/zh-cn...加载数据,Tableau需要通过odbc连接数据库,我们需要先配置odbc,有办法本文配置odbchttps://juejin.cn/post/697609...点击“连接”--“登录”,选择数据表,解释下几个字段的含义code:fundcode,name:name,净值日期:jzrq,单位净值:dwjz,估值:gsz,估值增长率:gszzl点击工作表,将posname(股名)拖到行(维度),选择counter到列(measure),然后选择右侧智能推荐中的气泡图,通过这张图可以看出买量最多的是贵州茅台,通过观察最大和最小的气泡可以看出数据是否异常。您还可以使用四分位数图(盒须图)来查找其中的异常数据。茅台挺变态的,不过好像才是真正的值钱!!!发现异常值后,可以使用过滤器清理异常值,然后对数据进行分析。您可以使用散点图观察预估增长率与总交易额之间的关系。我们还可以看到估计值和交易数量之间的关系。在日常交易中,我对每只股票的比例和具体时间仍然很困惑。为什么那么多人买茅台???保持学习!