当前位置: 首页 > 科技观察

这本书火了,弟弟开学后涨薪30W+_1

时间:2023-03-20 10:19:03 科技观察

数据科学怎么学?什么是必要的技能?近日,一本数据科学领域的学习书籍在推特上走红,获得了1k+的点赞。之所以能引起大家的关注,是因为本教程将数据科学广泛而复杂的知识内容梳理成了14个方面及其各自的重点,同时解答了很多学习中的常见问题。比如“用什么语言比较好”,“用什么工具最合适”。本学习指南由数据科学学习网站创始人MattDancho撰写。那么,这篇干货到底讲的是什么呢?真的有这么神奇吗?让我们来看看。比较推荐R语言入题,先说DataScience吧。数据科学是指通过挖掘数据、处理数据、分析数据,获取有用信息,然后将这些信息应用到不同领域各个方面的技术和研究。该学科融合了应用数学、统计学、模式识别、机器学习、数据可视化、数据仓库、高性能计算等多个领域的理论与技术,知识面广。作者表示,为了掌握这些技能,每周需要学习10个小时左右。那么在真正开始学习之前,我们先来看看最关键的问题——用什么语言?这里笔者认为可以选择R语言或者Python。从实际角度出发,他会考虑以下三个因素:编程语言对数据科学的影响有多大?就业市场的需求是什么?就业市场竞争有多激烈?在第一方面,作者直接将两者进行了比较。Python非常适合机器学习和深度学习。但在市场报告方面优势不大,可用于统计经济学等重要领域的库相对较少。R语言在商业分析和数据科学方面有完善的工具支持,但在深度学习方面的应用相对薄弱。不过笔者认为,深度学习在数据科学中的应用并不多,需要深度学习或其他API时,可以将R语言与Python结合使用。从就业市场的角度来看。笔者整理了美国招聘市场的数据。结果显示,Python的招聘岗位数量是R语言的2.4倍。但是了解和掌握Python的人比掌握R语言的人多。可能高达4-32次。最后,笔者认为选择R语言优势更大。那么其他一些基本技能呢?例如,是否推荐使用Excel?笔者认为,虽然Excel被商务人士广泛使用,深受商务人士喜爱,但在处理机器学习和大数据方面并不具备优势,单元格中的函数也容易出错。因此,建议您谨慎使用Excel。在选择什么样的开发工具方面,笔者展开了一个小调查。对于喜欢使用R语言的人来说,RStudio是大家最喜欢的开发工具。在Python方面,Jupyter和VSCode更受欢迎。这里笔者没有给出明确的推荐,大家可以根据自己的喜好选择。只需4个步骤即可开始数据科学。接下来,就是正式学习的时候了。大致可以分为4个步骤:掌握基本技能、学习建模、学习时间序列分析、将模型集成到应用中。一些具体的学习技巧。首先,学习基本技能。可能很多人一上来就想把机器学习搞定,但这可能会影响学习兴趣&效率。作者用R语言进行演示,列举了一些基本技巧:导入数据:使用数据库、连接SQL、readr包、readxl包;转换数据:处理异常值、缺失数据、重塑数据、聚合、过滤等;可视化数据:静态/交互式数据可视化,ggplot2和plotly;处理文本数据、函数式编程……如果你掌握了上面的基本技能,接下来就可以学习机器学习了。说到这里,可能有人会疑惑,难道我们不应该先学数学、统计和算法吗?对此,笔者认为,如果从头开始学习如何编写算法,对数据分析可能不是一个快速入门。因此,他建议从实战中学习这些技能。简单来说,可以分为三个步骤:将机器学习应用到实际问题中;尝试使用不同的算法;比较不同的应用结果。为此需要什么工具?Tidymodels和H2O是作者推荐的两个包。此外,Recipes中还有很多预处理工具可以转换数据和创建数据特征。接下来笔者推荐大家开始学习时间序列分析。因为这个技能意味着你可以预测一些未来的数据,掌握了这个技能也会让你成为大厂手中炙手可热的人才。在这方面,您需要掌握的技能如下:时间序列分析:处理日期/日期时间数据、聚合、转换、可视化时间序列、使用timetk进行预测:ARIMA、指数平滑、Prophet、机器学习(XGBoost、随机forest、GLMnet等)、深度学习(GluonTS)、集成、调整超参数、缩放预测、模型时间包。完成此步骤后,您可以尝试创建模型并投入使用。在这里,笔者推荐一款可以将模型集成到应用中的工具——Shiny。此包可用于创建交互式Web应用程序,代码可托管在本地或服务器上。看完OneMoreThing的技能树,也有网友提出疑问:为什么没看到深度学习?作者回答说,机器学习对于商业应用会更实用。笔者说,有个小弟在微软官网选了fast-track课程后,拿到了微软机器学习工程师的offer。当然,这份完整的学习计划是可以免费使用的(见文末链接)。学习清单:https://www.business-science.io/r-cheatsheet