第1章概率统计概述

1.1概率与统计的异同

概率（probabilty）和统计（statistics）看似两个相近的概念，其实研究的问题刚好相反。
概率研究的问题是，已知一个模型和参数，怎么去预测这个模型产生的结果的特性（例如均值、方差、协方差等）。
统计研究的问题则相反。统计是，有一堆数据，要利用这堆数据去预测模型和参数。
总之，概率是已知模型和参数，推数据。统计是已知数据，推模型和参数。
显然，本文解释的最大似然估计(Maximum likelihood estimation, 简称MLE)和最大后验概率(Maximum a posteriori estimation, 简称MAP)都是统计领域的问题。它们都是用来推测参数的方法。

1.2概率论的知识体系

图1-1 概率论的知识体系

1.3概率统计在机器学习中的应用

概率研究对象不是预先知道或确定的事情，而是预先不确定或随机的事件，研究这些不确定或随机事件背后的规律或规则。或许有人会说，这些不确定或随机事件有啥好研究？他们本来就不确定或随机的，飘忽不定、不可捉摸。表面上看似如此，有句话说得好：偶然中有必然，必然中有偶然。就拿我们比较熟悉微积分来说吧，如果单看有限的几步，很多问题都显得杂乱无章，毫无规律可言，而且还很难处理，但是一旦加上一个无穷大（∞）这个“照妖镜”，其背后规律立显，原来难处理的也好处理了。如大数定律、各种分布等带给我们这样的认识。
机器学习、深度学习与概率、信息论有哪些内在关联呢？
（1）被建模系统内在的随机性。例如一个假想的纸牌游戏，在这个游戏中我们假设纸牌被真正混洗成了随机顺序。
（2不完全观测。即使是确定的系统，当我们不能观测到所有驱动系统行为的所有变量或因素时，该系统也会呈现随机性。
（3）不完全建模。假设我们制作了一个机器人，它可以准确观察周围每一个对象的位置。在对这些对象将来的位置进行预测时，如果机器人采用的是离散化的空间，那么离散化的方法将使得机器人无法确定对象们的精确位置：因为每个对象都可能处于它被观测到的离散单元的任何一个角落。也就是说，当不完全建模时，我们不能明确的确定结果，这个时候的不确定，就需要借助概率来处理。
由此看来，概率、信息论很重要，机器学习、深度学习确实很需要它们。后续我们可以看到很多实例，见证概率、信息论在机器学习、深度学习中是如何发挥它们作用的。