当前位置: 首页 > 科技观察

数据科学家最重要的算法和统计模型

时间:2023-03-18 20:08:03 科技观察

作为一个在这个行业做了几年的数据科学家,在LinkedIn和QuoLa上,经常接触一些学生或者想转行的人,帮助他们进行机器学习与职业建议或指导相关的课程选项。一些问题围绕着教育途径和项目选择,但许多问题集中在当今数据科学中常见的算法或模型。有这么多算法可供选择,可能很难知道从哪里开始。课程可能包括当今工业中使用的不是很典型的算法,课程可能不会涵盖今天不是很流行但特别有用的方法。基于软件的程序可以排除重要的统计概念,基于数学的程序可以跳过算法设计中的一些关键主题。我为有抱负的数据科学家整理了一份简短指南,特别关注统计模型和机器学习模型(监督和非监督学习);这些主题包括教科书、研究生水平的统计课程、数据科学训练营和其他培训资源。(其中一些包含在文章的参考部分中)。由于机器学习是统计学的一个分支,机器学习算法在技术上被归类为统计学知识,以及数据挖掘和更多基于计算机科学的方法。但是,由于某些算法与计算机科学课程内容重叠,并且由于许多人将传统统计方法与较新的统计方法区分开来,因此我也将列表中的两个分支分开。统计方法包括训练营和证书课程中概述的一些更常见的方法,以及研究生统计课程中经常教授的一些不太常见的方法(但在实践中可能具有很大优势)。所有建议的工具都是我经常使用的工具:1)广义线性模型,它构成了大多数监督机器学习方法的基础(包括逻辑回归和Tweedie回归,它们概括了大多数计数或连续结果......)2)时间序列方法(ARIMA、SSA、基于机器学习的方法)3)结构方程建模(模拟和测试中介途径)4)因子分析(调查设计和验证的探索和验证)5)功率分析/DOE(尤其是基于模拟的DOE,以免过度分析)6)非参数测试(从头开始推导,尤其是通过模拟)/MCMC7)K均值聚类8)贝叶斯方法(朴素贝叶斯、贝叶斯模型平均、贝叶斯自适应实验...)9)惩罚回归模型(弹性net,LASSO,LARS...),通常会在模型中加入惩罚因子(SVM,XGBoost...),这对于预测值超过观察值的数据集很有用(基因组学和社会科学研究中常见)arch)10)用于灵活性建模过程的样条模型(MARS...)11)马尔可夫链和随机过程(时间序列建模与预测建模的另一种方法)12)缺失数据插补方案及其假设(missForest、MICE...)13)生存分析(对制造建模和消费过程非常有帮助)14)混合建模15)统计推断和组测试(A/B测试和在许多交易活动中实施更复杂的设计)机器学习扩展了许多这些框架,特别是K-均值聚类和广义线性建模。一些在许多行业中有用的常用技术(以及一些在训练营或证书课程中非常有用但很少在学校教授的更晦涩的算法)包括:1)回归/分类树(用于高精度,可预测的广义线性的早期泛化具有良好解释性和低计算成本的模型)2)降维(PCA和多样化的学习方法,如MDS和tSNE)3)经典的前馈神经网络4)Bagging组合(由随机森林和KNN等算法组成的基础回归积分)7)加速积分(这是梯度提升和XGBoost算法的基础)8)参数优化或设计项目的优化算法(遗传算法,量子启发进化算法,模拟练习,粒子群优化)9)拓扑数据分析工具,特别适用于小样本量的无监督学习(persistenthomology,Morse-Smaleclustering,Mapper...)10)Deeplearningarchitecture(generaldeeparchitecture)11)KNNlocalmodelingmethods(Regression,classification)12)基于梯度的优化方法13)Networkmetricsandalgorithms(centralmetrics),betweenness,diversity,entropy,Laplacian,epidemicspread,spectralclustering)14)DeeparchitectureConvolutionandpoolinglayersin(特别适用于计算机视觉和图像分类模型)15)Hierarchicalclustering(聚类和拓扑数据分析工具相关)16)贝叶斯网络(路径挖掘)17)复杂性和动态系统(与微分方程相关,但通常用于模拟没有已知驱动程序的系统)根据所选行业,可能需要与自然语言处理(NLP)或计算机视觉相关的其他算法.然而,这些都是数据科学和机器学习的专门领域,进入这些领域的人通常已经是该特定领域的专家。在学术课程之外学习这些方法的一些资源包括:Christopher,M.B.(2016)。《模式识别与机器学习》,斯普林格出版社,纽约。Friedman,J.、Hastie,T.和Tibshirani,R.(2001)。《统计学习的要素》(第1卷,第337-387页)。纽约:Springer统计学系列。https://www.coursera.org/learn/machine-learninghttp://professional.mit.edu/programs/short-programs/machine-learning-big-datahttps://www.slideshare.net/ColleenFarrelly/类比机器学习59094152