将Bishop的PRML称为机器学习圣经一点也不为过。本书系统地介绍了模式识别和机器学习领域的详细概念和基础知识。本书包括概率论基础知识的介绍,以及高阶线性代数和多元微积分,适合高校研究生和人工智能相关从业人员阅读。知乎对《为什么说PRML是机器学习经典中的经典?》的高赞回答可能会给你一些启发:LuauLawrence的回答:https://www.zhihu.com/question/35992297/answer/67009652PRML对于新手来说确实很难。如果觉得有难度,可以先阅读知乎推荐的科普书籍,掌握机器学习的基本概念后再进行后续学习。知乎讨论地址:https://www.zhihu.com/question/35992297首先我们来看一下PRML的主要内容:第一章是介绍,利用曲线拟合让读者对机器有一个大概的了解学习。第二章主要介绍统计的基本知识,包括期望方差的计算、参数估计和高斯分布的理解、高斯分布的性质等。第三章和第四章主要讲最基本的线性模型,展示如何将其应用于分类和回归场景。贝叶斯方法是全书的核心。第五章介绍了神经网络,介绍了基于线性模型的多层感知器模型,也就是常说的BP网络。第6章是关于核方法的。核是两个样本的内积,也可以理解为内积在某个希尔伯特空间中定义的“距离”。主要讲了线性模型转化为核表达式的方式,核的构造和高斯过程。第七章是向量机,讲的是贝叶斯模型如何通过先验找到一个稀疏模型。第八章是图形模型,解释了变量的独立性,隐变量和参数的区别(这会在变分贝叶斯中体现)。第9章讲混合模型和EM算法,涉及隐变量和EM算法的概念。第10章讲到变分推理,解决了现有模型基于分布假设的参数难以推理的问题。第十一章讲抽样方法,介绍不同抽样方法的优缺点,重点介绍MCMC抽样。第十二章主成分分析是一种考察多个变量之间相关性的多元统计方法,研究如何通过少数几个主成分来揭示多个变量之间的内部结构。第十三章介绍序列数据、序列数据的特点和马尔可夫假设等。第十四章是关于Ensemble的,包括adaptiveboosting,最著名的AdaBoost,以及其他一些fusion方法。看着这些理论知识是很无聊的。很多初学者觉得很难学,甚至半途而废。如果你也有这些问题,那么下面提到的GitHub项目或许能帮你走出困境。在notebooks文件夹中实现了聚类方法、特征提取、线性模型、核方法、马尔可夫模型、概率分布模型、抽样方法、神经网络方法。可以将目录切换到notebooks,直接打开对应的。ipynb文件进行练习。本GitHub项目所需的编程语言为Python3,其他科学计算库还需要NumPy、SciPy、Matplotlib、Scikit-learn等。如果你是Python初学者,那么我们强烈建议你安装Annaconda,它集成了所有必需的计算库,您可以在jupyternotebook中交互式查看执行结果。学习这么好的资源!GitHub链接:https://github.com/ctgk/PRML
