AI创业公司优秀开发工具指南火了,Jupyter“杀手”也被发现了AI创业公司最佳“开发工具”指南火了。在Reddit上,一份来自41家初创公司的调查回答达到了471个。除了比较流行的开发环境Jupyter,还有这样一个人物——Deepnote。由一个小团队出品,堪称Deepnote,可以挑战“JupyterNotebook”,目前只有少数公司在使用。网友纷纷表示想试试。于是进一步吸引了Deepnote开发者亲自前来答疑解惑。那么这是什么样的指南呢?还有哪些有趣的开发工具?调查结果调查来自轻量级工具集成网站neptune.ai,他们采访了41家AI创业公司。调查结果如下:软件开发设置IDE:JupyterLab+NB扩展(很少使用Deepnote)、Colab和PyCharm、VSCode(R用户更喜欢Rstudio)GithubPython(大部分)、R(部分)用于数据处理的机器学习框架和可视化:Pandas+Matplotlib+Plotly经典算法:Sklearn+XGBoost深度学习:Tensorflow+Keras或PytorchMLOps编排:Kubeflow、Airflow、AmazonSagemaker、Azure模型打包/服务:Kubeflow、MLflow、AmazonSagemaker从训练到模型分析和优化推理:pytest-benchmark、MLperf实验管理:MLflow、Comet、Neptune具体情况是这样的。为软件开发设置开发环境是每个团队工作流程的基础,对于IDE,许多团队喜欢JupyterNotebooks和JupyterLab及其NB扩展。一些团队使用标准的软件开发IDE,提到最多的是Pycharm和VSCode。Hotelmize是一家使用Pycharm的公司,它说它是最好的PythonIDE。使用VSCode的公司正名。VSCode很容易与Azure连接,并提供许多基于ML的扩展。对于使用R语言的团队来说,RStudio是他们最好的选择。还有一个工具——GitHub。我认为这对每个AI团队来说都是个好消息,甚至是初创公司。调查结果确实表明,GitHub因其免费、强大的版本控制系统和共享功能而对团队超级有用。在最流行的编程语言中,Python和R榜上有名,甚至还有Clojure。值得一提的是,一些团队给出了以下环境/基础设施设置的建议:AWS作为部署平台(简单报告)。Anaconda是我们运行ML实验的首选工具,因为它具有实时代码功能,可用于将软件代码、计算输出、解释性文本和多媒体资源组合在一个文档中。(Scanta)Redis存储为内存数据结构。由于它支持不同类型的抽象数据结构,例如字符串、列表、映射、集合、排序集合、HyperLogLogs、位图、流和空间索引,因此Redis被用作内存中的数据结构存储。(Scanta)Snowflake和AmazonS3用于数据存储。(Hypergiant)Spark-pyspark-用于大数据分发作业的非常简单的api。(Hotelmize)机器学习框架机器学习框架也是必不可少的。对于这部分,有很多工具可供选择。当谈到处理表格数据时,Pandas是被提及最多的。SigmaPolarisCEO表示,Pandas可以成为最有价值的工具之一,尤其是在与外部开发人员合作开展各种项目时。所有数据都以数据框的形式存在,让协作更顺畅,减少不必要的麻烦。在可视化方面,Matplotlib和Plotly是最受欢迎的选择。另一家公司推荐了Dash,这是一个基于Plotly图表的交互式仪表盘工具,更加人性化。对于标准的机器学习问题,大多数团队使用Scikit-Learn和XGBoost,尤其是Scikit-Learn。iSchoolConnect解释说:Scikit-Learn是机器学习研究人员、工程师和开发人员最常用的工具箱之一。您可以轻松获得想要的东西,真是太神奇了!深度学习框架方面,PyTorch、Tensorflow+Keras很受团队欢迎。在具体方向上,比如NLP、Huggingface、Spacy、Gensim都是常用的工具。就CV而言,OpenCV无疑是必不可少的。MLOps类似于DevOps。有人说MLOps是机器学习的DevOps。MLOps就是将模型集成和部署到生产系统中。这包括模型的部署位置、它如何到达那里、大型软件/应用程序如何访问它、如何跟踪ML模型的实际性能以及如何实时管理和测试模型。每个团队使用不同的工具来完成自己的不同任务。调查结果如下:Orchestration:Kubeflow、Airflow、AmazonSagemaker、Azure模型打包/服务:Kubeflow、MLflow、AmazonSagemaker从训练到推理的模型分析和优化:pytest-benchmark、MLperf实验管理:MLflow、Comet、Neptune一般来说,很多团队使用Jupyter进行探索,使用Pycharm/VSCode进行开发。他们都很喜欢GitHub,其中用得最多的是Python语言。对于深度学习框架,他们更喜欢使用Tensorflow、Keras和Pytorch。值得注意的是,越来越多的人在使用Lightning、Ignite、Catalyst、fastai和Skorch等高级PyTorch训练框架。对于视觉探索,人们使用matplotlib、plotly、altair和hiplot。对于实验跟踪,团队通常使用TensorBoard、MLflow和Sacred等开源包。要了解更多信息,门户网站位于:https://neptune.ai/blog/tools-libraries-frameworks-methodologies-ml-startups-roundup?utm_source=reddit&utm_medium=post&utm_campaign=blog-tools-libraries-frameworks-methodologies-ml-初创公司综述
