当前位置: 首页 > 科技观察

这就是为什么Python优于R

时间:2023-03-18 18:47:53 科技观察

当然,出于各种原因,您可能会认为R比Python更有用。即使你反对我的说法,我仍然希望开始对话,让我们都能看到两种编程语言的好处。对于数据科学家,我相信Python比R有更多好处。我确实意识到R有一些独特而强大的统计库,很可能使Python相形见绌。借助使用Python与数据工程师、软件工程师和机器学习工程师进行扩展,整个数据科学过程可以带来更多积极的结果。下面,我将讨论我认为Python优于R的五个主要原因。这些原因包括:可扩展性、JupyterNotebooks、库包、集成以及成为跨职能团队一部分的能力。这就是为什么可伸缩性在数据科学中采用可伸缩性是一个巨大的好处。由于大多数数据科学家通常会与工程部门的其他员工一起工作,因此可以更轻松地部署模型的建模和整个流程。例如,典型的数据科学家可能只专注于执行建模,甚至可能是一次性输出。但是,在建模之前有一个步骤很可能需要在训练机器学习模型之前完成。这一步是数据工程部分。在这部分过程中,您可以自动从SQL数据库中读取新数据,以便模型在训练时始终是最新的。该过程的另一个方面是部署方面。第一次部署模型可能会让人望而生畏,尤其是因为模型在学校的教学不如建模过程那么多。感谢Python,软件工程师和机器学习工程师可以与您并肩工作。您可以创建有向无环气流图(DAG),它可以在特定时间范围内有新数据或满足特定参数时自动训练模型(例如,仅当我们获得100条传入数据的新记录时才训练模型)。模型训练好后,可以评估新数据,然后可以使用Python将这些数据输出到SQL表中。JupyterNotebook或其他类似的能够解释Python的数据科学可视化工具。您可以运行代码单元格、注释、创建标题和添加小部件以改进笔记本的功能。您在此处编写和共享的代码是Python。能够在JupyterNotebook中使用这种编程语言进行编码对您的数据科学家来说是一个巨大的胜利。第三方库有几个功能强大且常用的包可以使用Python访问。我想到的一些是sklearn(也称为sci-kit学习)和TensorFlow。Sklearn[2]是一个功能强大的数据科学库,具有打包的分类和回归模型,可随时与您的数据集一起使用。—ClassificationSklearn对分类的定义是:识别一个对象所属的类别。一些流行的算法包括支持向量机(SVM)、最近邻和随机森林。Sklearn还将垃圾邮件检测和图像回归列为其最流行的应用用例。—回归Sklearn将回归定义为:预测与对象关联的连续值属性。流行的回归算法包括支持向量回归(SVR)和最近邻算法,其应用包括药物反应和股票价格。TensorFlow[3]对于深度学习,这个库是我建模更复杂情况的首选工具。这个受欢迎且功能强大的库可以处理的一些主要项目是:神经网络、通用对抗网络和神经机器翻译。如何集成由于我在大部分数据科学项目中使用Python,因此我设法将model.py文件集成为面向对象的编程格式。这些文件以模块化方式有条不紊地开发。在Python中调用API有点简单,因为网站上有很多文档可以帮助获取网站/公司数据。跨功能这样做的原因在某种程度上是可伸缩性和集成的结合。如果您想在本地执行数据科学过程并将输出提供给利益相关者,那很好,但是使用Python您可以与其他工程专家一起做更多的事情。当我第一次开始编码时,它是在R中,当我向数据工程师和软件工程师展示我的流程和代码进行部署时,我花了一些时间来准确描述代码背后的数据科学。我还会发现,与我共事的大多数帮助我部署模型的工程师都已经在使用Python,因此即使他们不完全了解模型的工作原理,他们也可以轻松转换我的数据科学代码。.摘要>ChrisRied在Unsplash上拍摄的照片[4]。如您所见,选择使用Python的数据科学家有很多好处。虽然这两种编程语言都非常有用和成功,但从我个人的经验来看,Python优于R。这些主要原因包括但不限于:可扩展性、JupyterNotebooks、库包、集成和跨功能。最终,选择哪种语言取决于数据科学家,但你的目标是向我展示如何在数据科学家项目中使用Python,以及为什么用Python编程比R更好。