当前位置: 首页 > 科技观察

如何自学成为数据科学家或AI工程师?这九点你需要克服

时间:2023-03-15 14:36:41 科技观察

不是每个人都有时间在课堂上学习数据科学、人工智能或机器学习,也不是每个人都能负担得起正式学习这些领域。那我们该怎么办呢?软件开发人员和机器学习工程师JerryBuaba提供了一条自学之路。人们在尝试学习数据科学、人工智能或机器学习时面临的最大障碍是时间和金钱。自学是一门艺术,需要足够的自律、努力和专注。如果使用得当,它可以让您灵活地将学习与工作结合起来。然而,自学数据科学、人工智能或机器学习的开始阶段可能很艰难,但相信我,这是值得的。自学取得良好进步的关键是按照自己的进度学习。本文将分享您在自学数据科学、人工智能和机器学习时可以遵循的路径,同时帮助您在学习新事物方面取得良好进展。StudyingMathematics学习数学可能听起来很烦人,但对于这个领域来说是绝对必要的。这篇文章的读者应该已经从高中学过一些初等和高等数学知识。这是一个很好的开始,但在数据科学、人工智能和机器学习领域,仅有这些知识是不够的。您需要更深入地学习一些统计学、代数和其他数学概念。有关基本数学知识资源的列表,请参阅:https://towardsdatascience.com/mathematics-for-data-science-e53939ee8306。作为初学者学习编程,不要只是开始学习编写机器学习代码,而是从学习一般编程的核心概念开始。首先了解什么是编程,现有的编程语言有哪些类型,如何正确编写代码等等,这些东西很重要,因为你会学到很多重要的概念,这些概念会一直伴随着你。所以这一步慢慢来,不要急于学习高级的东西,这个过程中对事物的理解深度,将决定你在这个行业的表现。该视频介绍了编程和计算机科学,可以帮助您了解计算机科学和编程中的重要概念:https://www.youtube.com/watch?v=zOjov-2OZ0E。精通一种编程语言数据科学家、人工智能和机器学习工程师使用多种语言,Python、R、Java、Julia和SQL是最常用的语言。当然还有很多其他可用的编程语言,这里列出了最常用的,原因如下:如果你投入足够的时间学习并坚持使用它们,你可以相对容易地掌握它们,并且它们发展很快。用更少的代码做更多的事情。社区和生态非常完善,遇到任何问题社区都能提供帮助和支持。几乎拥有数据科学家、人工智能或机器学习工程师需要的每个库和包。开源且免费使用。学习多种语言绝对没有错,事实上这是一件非常好的事情。然而,在学习每一种编程语言时,你需要慢慢来,尽量不要同时学习一种以上的语言,因为这可能会让你感到困惑,让你一时不知所措。慢慢来,一次学习一种语言,确保只学习职业所需的语言部分。我建议先学习Python,因为它比较容易理解。此外,我还建议您按顺序学习以下资源:https://www.youtube.com/watch?v=rfscVS0vtbw&t=5shttps://www.youtube.com/watch?v=r-uOLxNrNk8Learnhow获取数据数据通常不会直接提供给您,有时也没有现成可用的数据,但无论如何您都必须找到一种方法让数据发挥作用。你工作的地方可能有一个很好的数据收集系统,如果是这样,你就可以高枕无忧了。如果没有,您必须找到一种方法来获取数据,而不仅仅是任何数据,而是可以用来实现您的目标的有效数据。获取数据并不完全等同于数据挖掘,它是一个数据挖掘的过程。您可以在Internet上的许多地方获得免费和开源数据,有时您可能需要从网站上抓取数据。网络爬虫很重要,希望大家学习网络爬虫,因为在你的职业生涯中很可能会用到很多。网络爬虫教程:https://www.youtube.com/watch?v=0_VZ7NpVw1Y数据有时会存储在数据库中,所以作为数据科学家、人工智能或机器学习工程师,你也需要了解一些数据库管理知识为了在工作中直接连接和使用数据库。在这个阶段,SQL知识非常重要。SQL学习资源:https://www.youtube.com/watch?v=sTiWTx0ifaM&t=15s了解如何处理数据这通常被称为“DataWrangling”。该过程包括数据清理,这可以通过对数据执行一些探索性数据分析并删除数据中不需要的部分来完成。数据整理过程还包括将数据结构化为可用格式。在数据科学、人工智能或机器学习项目中,这个阶段是最累人的部分。在学习过程中,您将使用的大部分样本数据都经过了预处理,但真实世界的数据可能没有经过任何处理。作为一个渴望在这个领域做得很好的人,你应该寻找一些真实世界的数据并对其进行处理。几乎任何地方都可以找到真实世界的数据,但Kaggle仍然是从世界各地的公司获取真实数据的绝佳场所。数据整理或处理是一项非常累人的任务,但如果始终如一地投入精力和专注,也可以带来很多乐趣。Datawrangling相关课程:https://www.youtube.com/watch?v=sz_dsktIjt4学习如何可视化数据成为数据科学家、人工智能或机器学习工程师并不意味着你工作场所或团队中的每个人都能够了解您所在领域的技术细节,或者能够从原始数据中做出推断,我们需要可视化数据。数据可视化通常是指使用图形来呈现数据,以便任何不了解数据科学、人工智能或机器学习的人都可以理解。有很多方法可以可视化数据。作为程序员,编写代码来可视化数据应该是首选方法,因为它快速且免费。编写代码以可视化数据可以使用我们使用的编程语言提供的许多免费和开源库来完成。Matplotlib、Seaborn和Bokeh都是可用于可视化数据的Python库。Matplotlib数据可视化教程:https://www.youtube.com/watch?v=yZTBMMdPOww另一种可视化数据的方法是使用闭源工具,如Tableau。许多闭源工具可用于更优雅和复杂的可视化,但需要付费。Tableau是最常用的工具,也是我个人经常使用的工具。我推荐大家学习使用Tableau。Tableau使用教程:https://www.youtube.com/watch?v=aHaOIvR00所以人工智能和机器学习AI和机器学习更像是数据科学的子集,因为它们都是由数据驱动的。它们指的是通过向机器或其他无生命物体提供经过良好处理的数据来使其表现得像人类的过程。机器可以做很多人类可以做的事情,通过逐渐教导和引导它们。在这种情况下,我们可以把机器想象成一个完全无知的婴儿,逐渐学会识别物体、说话、从错误中学习并变得更好。我们可以教机器以同样的方式做这些事情。人工智能和机器学习通常使用各种数学算法来为机器赋能。人工智能和机器学习的全部潜力仍然未知,因为它是一个不断发展的领域。但人工智能和机器学习现在广泛应用于认知功能,例如对象检测和识别、面部识别、语音识别和自然语言处理、欺诈和垃圾邮件检测等。AI和ML的一般应用:https://www.youtube.com/watch?v=5hNK7-N23eU深入机器学习:https://www.youtube.com/watch?v=GwIo3gDZCVQ&t=5s通过以上视频,您应该能够对初学者和中级机器学习有一个总体了解,并了解许多可用的机器学习算法、它们的作用以及如何使用它们。现在,您应该准备好构建您的第一个简单的机器学习模型,您可以参考VictorRoman的这篇文章:https://towardsdatascience.com/machine-learning-general-process-8f1b510bd8af。了解如何在Internet上提供您自己的机器学习模型可以部署经过机器学习训练的模型并提供给Internet上的每个人。为此,您需要对Web开发有很好的了解,因为您必须创建一个网页或一组网页来发布模型。网站前端还需要与容纳模型的后端进行通信。为此,您还需要知道如何构建和集成API来处理网站前端和后端之间的通信。如果您打算通过管道或docker容器将机器学习模型部署到云服务器上,那么您可能需要对云计算和运维有深入的了解。部署机器学习模型的方法有很多种,但首先,我建议您学习如何使用pythonWeb框架Flask部署机器学习模型。教程:https://www.youtube.com/watch?v=UbCWoMf80PYGUARDLEADING自学成才很棒,但没有什么比直接向行业专家学习更好的了。有些知识可以通过学习现实生活中的概念来掌握,而有些知识则只能通过亲身体验来学习。有一个导师对各方面都有很大的帮助,但不是每个导师都能对你的事业或人生产生影响,所以有一个好的导师非常重要。NotitiaAI是一个很好的平台,可以培训从初学者到专家级别的数据科学、人工智能和机器学习。平台将为您分配专属导师,在您所选择的专业领域为您提供个性化的专业指导。请注意,仅仅参加课程和从在线资源中学习并不能使你成为真正的数据科学家、人工智能或机器学习工程师。你还必须有相关的证书,有些工作需要学位。花时间学习证书或学位,你最终会为这个行业做好准备。