概率与统计

https://zhuanlan.zhihu.com/p/35423404

https://zhuanlan.zhihu.com/p/149283275

参考: https://zhuanlan.zhihu.com/p/42859784

一、基本概念

1.1 基本概念

定义:

随机试验中出现的可能结果称为样本点,记作\omega

所有样本点组成的集合称为样本空间,记作\Omega=\left \{ \omega|\omega为样本点\right \}

当样本空间\Omega仅有有限个元素时,称其子集为一个事件,用大写字母表示,如A

若样本点\omega\in A,称事件A发生,否则称事件不发生。\overline{A}=\Omega-A称为事件A的对立事件。容易知道\omega\in A\Leftrightarrow \omega\not\in \overline{A},反之亦然。

特别地,A=\varnothing时,事件称为不可能事件。A=\Omega时,事件称为必然事件。

A,B为事件,之后用AB来表示A\cap B。特别地,当AB=\varnothing时,称这两个事件互斥(不相容)。对多于两个事件,称这些事件互斥当且仅当这些事件中的任意两个都互斥。记A\cup BA+B

给出几个很常用的事件之间的运算公式,读者容易自证:

A\cup B=A+\overline{A}B, \ A=AB+A\overline{B}

\overline{ \bigcup_{j=1}^n A_j }=\bigcap _{j=1}^n \overline{A_j},\overline{ \bigcap_{j=1}^n A_j }=\bigcup _{j=1}^n \overline{A_j}.(De-Morgan)

1.2 古典概型

对一个有限集合A,|A|表示其中的元素个数。

定义:试验的样本空间\Omega有限,A\subseteq \Omega,若\Omega中的每个样本点的发生的可能性相同,则称P(A)=\frac{|A|}{|\Omega|}为事件A发生的概率。由以上定义的概率模型便称为古典概型。

需要再一次强调的是:每个样本点的发生的可能性相同,这是前提条件,如果忽视条件直接套用古典概型就会犯错。

关于如此定义出的概率P的性质,列出以下几条,读者自证。

例:计算以下方法数:(假设不同排列均等可能)有n个不同的球,每次抽取抽取1个球

有放回地抽取,抽取m个排成一列,求不同排列总数。 乘法原理n^m

无放回地抽取,抽取m个排成一列,求不同排列总数。排列数P_n^m=\frac{n!}{(n-m)!}

无放回地抽取,抽取m个忽视次序地组成一组,求不同组合总数。组合数C_n^m=\frac{n!}{m!(n-m)!}

将所有球分成k个不同的组,忽视每一组中元素的次序,且每组恰好有n_1,n_2,...,n_k个球(n_1+n_2+...+n_k=n),求不同分组结果数。C_n^{n_1}C_{n-n_1}^{n_2}...C_{n-n_1-...-n_{k-1}}^{n_k}=\frac{n!}{n_1!n_2!...n_k!},将这个数记作\binom{n}{n_1,n_2,...,n_k},其为多项式(x_1+x_2+...+x_k)^nx_1^{n_1}x_2^{n_2}...x_k^{n_k}的展开系数,称为多项式系数。

方程x_1+x_2+...+x_n=m的非负整数解的个数。隔板法(C_{m+n-1}^{n-1})

方程x_1+x_2+...+x_n=m的正整数解的个数。插空法(C_{m-1}^{n-1})

1.3 几何概型

对于A\subseteq \mathbb{R}^r,设A的体积存在,记为m(A),后文可能也会称其为测度(不严格意义上)。

定义:试验的样本空间\Omega,m(\Omega)>0,A\subseteq \Omega,若每个样本点等可能地落在\Omega中,则称P(A)=\frac{m(A)}{m(\Omega)}为事件A发生的概率。由以上定义的概率模型便称为几何概型。

类似于古典概型,需要再一次强调的是:每个样本点等可能地落在\Omega

等待-相遇问题:两人某天1点到2点之间等可能地在随机时间到达某地点会面且两人的到达时间相互不影响,先到者等20min后离去,求两人能相遇的概率。

解:设x,y为两人分别到达的时间,样本空间\Omega=\left \{ (x,y)|0\leq x,y\leq 60 \right \},符合几何概型要求。

事件A:两人能够相遇A\subseteq \Omega,则A=\left \{ (x,y)||x-y|\leq 20\right \}

画图得:

m(A)即为围成的六边形面积=60^2-40^2,m(\Omega)=60^2,故P(A)=\frac{5}{9}

注意:概型的差别的根源是等可能假设之间的差别,为了进一步体会这一点,举有趣的Bertrand问题作为例子来说明这一点。

例(Bertrand):在半径为1的圆内任意取一条弦,求弦长度大于等于\sqrt{3}的概率。

解:这个问题乍看之下让人手足无措,其原因就在于题中完全没有说明弦要按照怎么样的方式来选取。我们可以通过确定弦的两个端点来确定弦,也可以通过确定弦的中点来确定弦。更深入地,在讨论关于弦的中点的问题时,我们既可以假设中点在圆中等可能分布,也可以假设弦在圆的直径上等可能分布。

下面我们举出三种常见的等可能假设并分别求概率。

设事件A:弦长度大于等于\sqrt{3}

情况1:弦的端点等可能地落在圆周上。

则我们可以假设一个端点固定,则另一个端点也等可能地落在圆周上。如图:

固定点C,假设|CB|=|CD|=\sqrt{3},则另一个端点只需要在B,D所夹劣弧之上都满足要求。则样本空间\Omega=\left \{ \theta|\theta\in [0,2\pi ) \right \},A=\left \{ \theta|\theta\in [\frac{2}{3}\pi ,\frac{4}{3}\pi ] \right \}。容易求出P(A)=\frac{1}{3}

情况2:弦的中点等可能地落在一个小圆内。

如图:

|BC|=|EF|=\sqrt{3},则这两条弦的中点在同一个小圆上,容易知道当弦的中点在小圆上或内时,弦长必定符合条件要求。利用几何概型,m(\Omega)=\pi ,m(A)=\frac{\pi}{4},P(A)=\frac{1}{4}

情况3:弦中点等可能地落在与之垂直的直径上。

如图:

|BC|=\sqrt{3},容易知道当弦中点在小圆之内时,满足条件要求。由于沿着直径等可能分布。故P(A)=\frac{1}{2}

可以看到不同的等可能假设导致了最后截然不同的结果。然而,这些结果之间并无对错之分,只是从不同角度看同一个问题得到了不同的结果。

1.4 概率空间

A,B为测度存在的事件,则\overline{A},A\cup B,A\cap B,A-B也都可测。故可测事件事件经过有限次集合运算后得到的事件也必定可测。

现在若有事件列A_1,A_2,...互斥且均可测,则由体积的性质,m(\bigcup _{j=1}^{\infty}A_j)=\sum_{j=1}^{\infty}m(A_j),故互斥的可测事件经过可列并后仍旧可测。

现在考虑,更广泛地,事件列B_1,B_2,...,均可测(不一定互斥)。进行变换A_1=B_1,A_2=B_2-B_1,...,A_j=B_j-B_{j-1}-...-B_1,则事件列A_1,A_2,...互斥且均可测,且有\bigcup_{j=1}^{\infty}A_j=\bigcup_{j=1}^{\infty}B_j,利用上述结论,可以得到\bigcup_{j=1}^{\infty}B_j可测。故可测事件经过可列并后仍旧可测。

自然地,我们引出如下定义:\Omega为样本空间,F\Omega的子集构成的集合,若F满足:

  1. \Omega\in F
  2. A\in F,\overline{A}\in F(对补集运算封闭)
  3. A_j\in F,\bigcup_{j=1}^{\infty}A_j\in F(对可列并运算封闭)

F\Omega的事件域/\sigma域,称(\Omega,F)为可测空间。

在可测空间上,我们得以严格定义概率,作为一种测度而存在。

定义:(\Omega,F)为可测空间,P为定义在F上的函数,若满足:

  1. \forall A\in F,P(A)\geq 0(非负性)
  2. P(\Omega)=1(完全性)
  3. A_1,A_2,...F中的互斥事件列,有P(\bigcup _{j=1}^{\infty}A_j)=\sum_{j=1}^{\infty}P(A_j)(可列可加性)

PF上的概率测度,简称概率,(\Omega,F,P)称为概率空间。

定义:A为事件,若P(A)=1,称A几乎必然发生,记作A \ a.s.。(almost surely)

1.5 概率的性质

关于概率的加法性质,给出以下性质:

  1. P(A\cup B)=P(A)+P(B)-P(AB)
  2. B\subseteq A,P(A-B)=P(A)-P(B),P(A)\geq P(B)
  3. (Jordan公式)P(\bigcup _{j=1}^nA_j)=\sum_{k=1}^n(-1)^{k-1}\sum_{1\leq j_1<j_2<...<j_k\leq n}P(A_{j_1}A_{j_2}...A_{j_k})

事实上,在对数学期望的性质有了解后,我们可以利用数学期望与概率之间的联系给出容易的证明。关于概率的连续性,可能是我们较为陌生的方面,但是十分重要。

定义:A_1\subseteq A_2\subseteq...,称此事件列单调递增。类似地,可以定义单调递减的事件列。

定理:(概率的连续性)

A_1,A_2,...为单调递增事件列,P(\bigcup_{j=1}^{\infty}A_j)=\lim_{n\rightarrow \infty}P(A_n).

B_1,B_2,...为单调递减事件列,P(\bigcap_{j=1}^{\infty}B_j)=\lim_{n\rightarrow \infty}P(B_n)

想法是利用上文提到的变换将事件列变为互斥事件列寻求简化。C_1=A_1,C_2=A_2-A_1,...,C_j=A_j-A_{j-1}-...-A_1,则C_1,C_2,...为互斥事件列,且\bigcup_{j=1}^{\infty}A_j=\bigcup_{j=1}^{\infty}C_j,故P(\bigcup_{j=1}^{\infty}A_j)=P(\bigcup_{j=1}^{\infty}C_j)=\sum_{j=1}^{\infty}P(C_j)=\lim _{n\rightarrow \infty}\sum_{j=1}^n[P(A_j)-P(A_{j-1})]=\lim_{n\rightarrow \infty}P(A_n)

之所以称为连续性是因为定理表达了如下含义:递增事件列的概率的极限等于事件列的极限(可列并)的概率,也就是说概率测度与极限是可交换的。

形象地理解,如果一个递减事件列,其中事件发生概率越来越小,那么所有事件同时发生的概率等于最小的那个事件发生的概率。如果一个递增事件列,其中事件发生概率越来越大,那么所有事件中至少有一个事件发生的概率等于最大的那个事件发生的概率。事实上,概率的连续性定理仅仅是将这样的想法严格化了而已。

1.6 条件概率、乘法公式

考虑如下问题:掷一次骰子,已知投掷出的点数为偶数,求投出2的概率。

我们注意到在附加了“投掷出的点数为偶数”的条件后,利用古典概型时,事件“投出2”并未改变。变化的是样本空间,它被缩小了。所以条件概率的本质其实是对样本空间的限制。

定义: A,B为事件,则P(B|A)指的是在条件AB发生的条件概率。

自然地,我们想建立条件概率与一般概率之间的联系。我们不妨设P(A)>0,否则条件概率必为0。

我们先考虑简单的情况:古典概型下的情况。此时P(B|A)=P(AB|A)=\frac{|AB|}{|A|}=\frac{\frac{|AB|}{|\Omega|}}{\frac{|A|}{|\Omega|}}=\frac{P(AB)}{P(A)},由此,我们得到了重要的乘法公式。

乘法公式: P(A)>0,P(B|A)=\frac{P(AB)}{P(A)}

模仿概率测度的定义,我们可以定义条件概率测度。(\Omega,F)为可测空间,A,B\in F,P(A)>0,P(A)为定义在F上的函数,P_A(B)=P(B|A),P_A满足概率测度的定义。所以事实上,对概率测度成立的性质对条件概率测度同样成立。

我们给出几条常用的性质:

  1. P(AB)>0,P_A(C|B)=P(C|AB)

  2. P(A_1A_2...A_{n-1})>0,有P(A_1A_2...A_n)=P(A_1)P(A_2|A_1)...P(A_n|A_1A_2...A_{n-1})

1.7 事件的独立性

独立性,顾名思义,指的是两个事件相互不产生影响。换句话说,可以理解为有无A事件发生作为条件都不影响B事件发生的概率。即P(B|A)=P(A),同乘P(A)得到P(AB)=P(A)P(B)。所以很自然地引出如下定义:

定义: 若事件A,B满足P(AB)=P(A)P(B),则AB独立。

在这里需要注意的是事件多于两个的情况。

定义: 若事件A_1,A_2,...,A_n满足P(A_1A_2...A_n)=P(A_1)P(A_2)...P(A_n),则称这些事件相互独立。

我们有必要区分两两独立和相互独立的概念。事实上,相互独立则必定两两独立,但是反之不成立。

反例: 考虑一个四面体,一面红色,一面黄色,一面蓝色,一面三种颜色都有。现在掷此四面体。

A:朝下面包含红色,B:朝下面包含黄色,C:朝下面包含蓝色。则容易得到P(A)=P(B)=P(C)=\frac{1}{2},P(AB)=P(AC)=P(BC)=\frac{1}{4},P(ABC)=\frac{1}{4}

P(AB)=P(A)P(B),同理另外两个式子成立,故这三个事件两两独立。但是P(ABC)\neq P(A)P(B)P(C),不相互独立。

1.8 全概公式,Bayes公式

定理(全概率公式): 事件A_1,A_2,...,A_n互斥,B\subseteq \bigcup _{j=1}^nA_j,则P(B)=\sum_{j=1}^nP(A_j)P(B|A_j)

证明:利用概率的有限可加性,逆用条件概率乘法公式。

P(B)=P(\bigcup _{j=1}^nBA_j)=\sum_{j=1}^nP(BA_j)=\sum_{j=1}^nP(A_j)P(B|A_j)

全概率公式也可以理解为A_1,A_2,...,A_n提供了事件B的一个两两不交的划分,所以B发生的概率就被拆成了n个小块的概率之和。全概公式看上去简单,实际非常常用。比如:抽签的公平性就可以用全概公式加以证明。

例:(抽签公平性) n个球,m个黑,剩下全为白,球除了颜色外没有任何差别。求证:无放回地依次抽取球,每一次抽中黑球的概率都是\frac{m}{n}

证明:利用数学归纳法,这里着重证明数学归纳法的第二步。事件A_j表示第j次抽到了黑球。

由归纳假设,对一切m\leq n,P(A_{j-1})=\frac{m}{n}。已知P(A_{1})=\frac{m}{n}, 由全概公式, P(A_j)=P(A_1)P(A_j|A_1)+P(\overline{A_1})P(A_j|\overline{A_1})=\frac{m}{n}\frac{m-1}{n-1}+\frac{n-m}{n}\frac{m}{n-1}=\frac{m}{n},故得证。

我们接着再来介绍全概公式一个有趣的应用:为何赌博者无限赌下去总是倾向于破产?在这个例子中,我们同时介绍一种在概率论中常用的方法:递推公式法。

例:(赌徒破产) 一个人有a的本金,打算再赢b元就停止赌博,设每局p=\frac{1}{2}概率赢,输赢对金钱影响都是1,输光后自然地停止赌博,求输光的概率q(a)

解: A:第一局赢,B_k:有本金k时最后输光, 则q(0)=1,q(a+b)=0

利用全概率公式,有q(k)=P(B_k)=P(A)P(B_k|A)+P(\overline{A})P(B_k|\overline{A})=\frac{q(k+1)+q(k-1)}{2}

q(k+1)-q(k)=q(k)-q(k-1)=...=q(1)-q(0)=q(1)-1,对上式进行累加,得到q(n)-1=n(q(1)-1)

n=a+b可求得q(1)-1=\frac{-1}{a+b}, 故q(a)=\frac{b}{a+b}

我们发现有趣的是\lim_{b\rightarrow \infty}q(a)=1。这说明,就算赌博在规则上完全公平,越贪心则越有可能会输光。在规则上公平的赌博中如果本金有限,一直赌下去,则必定输光。这是一个违反直觉却又无法辩驳的结论。

定理(Bayes公式): 事件A_1,A_2,...,A_n互斥,B\subseteq \bigcup _{j=1}^nA_j,若P(B)>0,P(A_j|B)=\frac{P(A_j)P(B|A_j)}{\sum_{j=1}^nP(A_j)P(B|A_j)}

证明:利用全概公式,逆用条件概率乘法公式即可。

P(A_j|B)=\frac{P(BA_j)}{P(B)}=\frac{P(A_j)P(B|A_j)}{\sum_{j=1}^nP(A_j)P(B|A_j)}

同样地,Bayes公式推导也很简单,但是却有着丰富的含义。

Bayes公式描述的是一个“学习”与“逆推”的过程, [公式] 可以看作是诱发了事件 [公式] 的原因, [公式] 就代表了每个原因可能发生的概率,是我们先天便已经具备的知识,称为先验概率。而当发生了事件 [公式] 后,我们对引发其的原因会产生新的认识,便就是 [公式] ,称为后验概率。我们拿着先天的经验或知识来进行实践,得到结果后又反过来用来更新那些我们本来具有的经验知识,重复这一过程我们就可以越来越靠近真理,这便是Bayes公式表现出的“学习性”的含义。

鉴于Bayes公式的重要性,我们给出例子体会其实际应用。

例:调查发现肺癌病人中吸烟人群占 [公式] %,无肺癌人群中有 [公式] %吸烟。若在所有人群中,肺癌的发病率都为 [公式] ,求吸烟人群发病率是不吸烟人群的多少倍?

解:

在做类似问题时应该先合理定义事件。

此处定义 [公式] :有肺癌 [公式] :吸烟

由Bayes公式, [公式]

[公式]

同理地, [公式]

故吸烟人群发病率是不吸烟人群的 [公式] 倍。

我们可能认为吸烟率所差无几,所以结果不应该有那么大的患病率差别。但是我们同时也应该注意到肺癌的自然发病率极其小,在这种情况下,吸烟率的差别被放大了。能够得到很多凭借直觉所得不到的结论也是学习概率论的乐趣之一。

1.9 事件列的上下极限,Borel-Cantelli引理

本章同样地基本不涉及应用方面,若对理论方面无兴趣可以跳过

我们在先前定义了单调集合列的极限(回忆在概率连续性处提到的内容)

现在我们来引入集合列的上、下极限的定义:

定义:

对事件列 [公式]

设 [公式] ,容易知道 [公式] 单调递减, [公式] 单调递增,则极限存在。

则 [公式] 为 [公式] 的上极限,记为 [公式] , [公式] 为 [公式] 的下极限,记为 [公式] 。

从定义之中,我们不难推出的是下极限是上极限的子集,即 [公式] 。

进一步地理解,可以发现[公式]发生当且仅当有无穷个 [公式] 发生;而[公式]发生当且仅当最多有限个[公式] 不发生。

由概率的连续性(根本上来说就是概率测度与极限可交换),我们容易得到以下结论:

[公式]

[公式]

特别地,由于[公式]发生当且仅当有无穷个 [公式] 发生,上极限符号常常被记作 [公式] ,即 [公式] ( [公式] 表示 [公式] )

定理(Borel-Cantelli):

对事件列[公式]

(1):若 [公式] , [公式]

(2):若事件列中事件相互独立, [公式] ,则 [公式]

证明:

(1):由[公式],且 [公式]

得到 [公式] 。

由级数收敛的Cauchy准则, [公式]

故得到 [公式] 。

(2):想方设法利用独立的条件,则需要事件之交的形式。

[公式] ,故可以先估计 [公式] 。

想到可以利用De-Morgan定律将并换为交,从而利用独立的条件。

[公式]

[公式]

当 [公式] 时,有 [公式] 。通过指数函数将连乘再转化回连加。

[公式]

由 [公式] 发散, [公式]

故可以得到 [公式]

则 [公式] 。

Borel-Cantelli是一个很抽象的定理。在这里,值得一提的是事件列中事件相互独立时, [公式] 的取值只能为 [公式] 或 [公式] 。即对相互独立的事件列,其中有无穷个事件发生的概率要么为 [公式] 要么为 [公式] 。这个结论被称为独立 [公式] 律。

我们可以先考虑简单一些的情况,对独立重复试验(每次发生的概率为常数 [公式] ,无限重复做下去),则 [公式] 当且仅当 [公式] 。这告诉我们在独立重复试验中,当事件每次几乎必然不发生(发生概率为0)时,无穷次地重复下去几乎必然不会有无穷次事件发生。相对地,在独立重复试验中,当事件每次发生的概率不为0(即使再小再趋向于0)时,无穷次地重复下去几乎必然会有无穷次事件发生。

接下来考虑独立的试验(第 [公式] 次发生的概率为会随 [公式] 变化的[公式] ,无限次地做下去)。这里不妨假设 [公式] ,则此定理告诉我们事件列中是否有无穷多个事件发生,只与 [公式] 充分大时 [公式] 的值有关。(这点是符合直觉的)然而,如果 [公式] ,事件列中会有无穷多个事件发生。而 [公式] 时,则不会有无穷多个事件发生。(这又是直觉所感受不到的)

Borel-Cantelli引理不仅仅为我们提供了有趣的结论,还是我们后文得到强大数律的理论基础,在理论工作上是很重要的。

二、概率

概率论是用于表示不确定性陈述的数学框架,即它是对事物不确定性的度量。

在人工智能领域,我们主要以两种方式来使用概率论。首先,概率法则告诉我们AI系统应该如何推理,所以我们设计一些算法来计算或者近似由概率论导出的表达式。其次,我们可以用概率和统计从理论上分析我们提出的AI系统的行为。

计算机科学的许多分支处理的对象都是完全确定的实体,但机器学习却大量使用概率论。实际上如果你了解机器学习的工作原理你就会觉得这个很正常。因为机器学习大部分时候处理的都是不确定量或随机量。

随机变量可以随机地取不同值的变量。我们通常用小写字母来表示随机变量本身,而用带数字下标的小写字母来表示随机变量能够取到的值。例如,x_{1}x_{2}都是随机变量X可能的取值。

对于向量值变量,我们会将随机变量写成X,它的一个值为x。就其本身而言,一个随机变量只是对可能的状态的描述;它必须伴随着一个概率分布来指定每个状态的可能性。

随机变量可以是离散的或者连续的。

给定某随机变量的取值范围,概率分布就是导致该随机事件出现的可能性。

从机器学习的角度来看,概率分布就是符合随机变量取值范围的某个对象属于某个类别或服从某种趋势的可能性。

很多情况下,我们感兴趣的是某个事件在给定其它事件发生时出现的概率,这种概率叫条件概率。

我们将给定X=xY=y发生的概率记为P\left( Y=y|X=x \right),这个概率可以通过下面的公式来计算:

P\left( Y=y|X=x \right) =\frac{P\left( Y=y,X=x \right) }{P\left( X=x \right) }

先看看什么是“先验概率”和“后验概率”,以一个例子来说明:

假设某种病在人群中的发病率是0.001,即1000人中大概会有1个人得病,则有:P(患病)=0.1%;即:在没有做检验之前,我们预计的患病率为P(患病)=0.1%,这个就叫作"先验概率"。

再假设现在有一种该病的检测方法,其检测的准确率为95%;即:如果真的得了这种病,该检测法有95%的概率会检测出阳性,但也有5%的概率检测出阴性;或者反过来说,但如果没有得病,采用该方法有95%的概率检测出阴性,但也有5%的概率检测为阳性。用概率条件概率表示即为:P(显示阳性|患病)=95%

现在我们想知道的是:在做完检测显示为阳性后,某人的患病率P(患病|显示阳性),这个其实就称为"后验概率"。

而这个叫贝叶斯的人其实就是为我们提供了一种可以利用先验概率计算后验概率的方法,我们将其称为“贝叶斯公式”。

这里先了解条件概率公式:

P\left( B|A \right)=\frac{P\left( AB \right)}{P\left( A \right)} , P\left( A|B \right)=\frac{P\left( AB \right)}{P\left( B \right)}

由条件概率可以得到乘法公式:

P\left( AB \right)=P\left( B|A \right)P\left( A \right)=P\left( A|B \right)P\left( B \right)

将条件概率公式和乘法公式结合可以得到:

P\left( B|A \right)=\frac{P\left( A|B \right)\cdot P\left( B \right)}{P\left( A \right)}

再由全概率公式:

P\left( A \right)=\sum_{i=1}^{N}{P\left( A|B_{i} \right) \cdot P\left( B_{i}\right)}

代入可以得到贝叶斯公式:

P\left( B_{i}|A \right)=\frac{P\left( A|B_{i} \right)\cdot P\left( B_{i} \right)}{\sum_{i=1}^{N}{P\left( A|B_{i} \right) \cdot P\left( B_{i}\right)} }

在这个例子里就是:

贝叶斯公式贯穿了机器学习中随机问题分析的全过程。从文本分类到概率图模型,其基本分类都是贝叶斯公式。

期望、方差、协方差等主要反映数据的统计特征,机器学习的一个很大应用就是数据挖掘等,因此这些基本的统计概念也是很有必要掌握。另外,像后面的EM算法中,就需要用到期望的相关概念和性质。

在概率论和统计学中,数学期望是试验中每次可能结果的概率乘以其结果的总和。它是最基本的数学特征之一,反映随机变量平均值的大小。

假设X是一个离散随机变量,其可能的取值有:\left\{ x_{1} ,x_{2} ,......,x_{n} \right\},各个取值对应的概率取值为:P\left(x_{k} \right),k=1,2,\dots,n,则其数学期望被定义为:

E\left(X \right) =\sum_{k=1}^{n}{x_{k} P\left( x_{k} \right) }

假设X是一个连续型随机变量,其概率密度函数为P\left( x \right) 则其数学期望被定义为:

E\left( x \right) =\int_{-\infty }^{+\infty } xf\left( x \right) dx

概率中,方差用来衡量随机变量与其数学期望之间的偏离程度;统计中的方差为样本方差,是各个样本数据分别与其平均数之差的平方和的平均数。数学表达式如下:

Var\left( x \right) =E\left\{ \left[ x-E\left( x \right) \right] ^{2} \right\} =E\left( x^{2} \right) -\left[ E\left( x \right) \right] ^{2}

在概率论和统计学中,协方差被用于衡量两个随机变量X和Y之间的总体误差。数学定义式为:

Cov\left( X,Y \right) =E\left[ \left( X-E\left[ X \right] \right) \left( Y-E\left[ Y \right] \right) \right] =E\left[ XY \right] -E\left[ X \right] E\left[ Y \right]

0-1分布是单个二值型离散随机变量的分布,其概率分布函数为:

P\left( X=1 \right) =p;P\left( X=0 \right) =1-p

几何分布是离散型概率分布,其定义为:在n次伯努利试验中,试验k次才得到第一次成功的机率。即:前k-1次皆失败,第k次成功的概率。其概率分布函数为:

P\left( X=k \right) =\left( 1-p \right) ^{k-1} p

性质: E\left( X \right) =\frac{1}{p}\quad Var\left( X \right) =\frac{1-p}{p^{2} }

二项分布即重复n次伯努利试验,各次试验之间都相互独立,并且每次试验中只有两种可能的结果,而且这两种结果发生与否相互对立。如果每次试验时,事件发生的概率为p,不发生的概率为1-p,则n次重复独立试验中发生k次的概率为:

P\left( X=k \right) =C_{n}^{k} p^{k} \left( 1-p \right) ^{n-k}

性质: E\left( X \right) =npVar\left( X \right) =np\left( 1-p \right)

高斯分布又叫正态分布,其曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,如下图所示:

若随机变量X服从一个数学期望为\mu,方差为\sigma ^{2}的正态分布,则我们将其记为:N\left( \mu ,\sigma^{2} \right) 。其期望值\mu决定了正态分布的位置,其标准差\sigma(方差的开方)决定了正态分布的幅度。

指数分布是事件的时间间隔的概率,它的一个重要特征是无记忆性。例如:如果某一元件的寿命的寿命为T,已知元件使用了t小时,它总共使用至少t+s小时的条件概率,与从开始使用时算起它使用至少s小时的概率相等。下面这些都属于指数分布:

婴儿出生的时间间隔

网站访问的时间间隔

奶粉销售的时间间隔

指数分布的公式可以从泊松分布推断出来。如果下一个婴儿要间隔时间t,就等同于t之内没有任何婴儿出生,即:

P\left( X\geq t \right) =P\left( N\left( t \right) =0 \right) =\frac{\left( \lambda t \right) ^{0}\cdot e^{-\lambda t} }{0!}=e^{-\lambda t}

则: P\left( X\leq t \right) =1-P\left( X\geq t \right) =1-e^{-\lambda t}

如:接下来15分钟,会有婴儿出生的概率为:

P\left( X\leq \frac{1}{4} \right) =1-e^{-3\cdot \frac{1}{4} } \approx 0.53

指数分布的图像如下:

日常生活中,大量事件是有固定频率的,比如:

某医院平均每小时出生3个婴儿

某网站平均每分钟有2次访问

某超市平均每小时销售4包奶粉

它们的特点就是,我们可以预估这些事件的总数,但是没法知道具体的发生时间。已知平均每小时出生3个婴儿,请问下一个小时,会出生几个?有可能一下子出生6个,也有可能一个都不出生,这是我们没法知道的。

泊松分布就是描述某段时间内,事件具体的发生概率。其概率函数为:P\left( N\left( t \right) =n \right) =\frac{\left( \lambda t \right) ^{n}e^{-\lambda t} }{n!}

其中:P表示概率,N表示某种函数关系,t表示时间,n表示数量,1小时内出生3个婴儿的概率,就表示为P(N(1) = 3);\lambda表示事件的频率。

还是以上面医院平均每小时出生3个婴儿为例,则\lambda =3;那么,接下来两个小时,一个婴儿都不出生的概率可以求得为:

P\left( N\left(2 \right) =0 \right) =\frac{\left( 3\cdot 2 \right) ^{o} \cdot e^{-3\cdot 2} }{0!} \approx 0.0025

同理,我们可以求接下来一个小时,至少出生两个婴儿的概率:

P\left( N\left( 1 \right) \geq 2 \right) =1-P\left( N\left( 1 \right)=0 \right) - P\left( N\left( 1 \right)=1 \right)\approx 0.8

对于一般的求极值问题我们都知道,求导等于0就可以了。但是如果我们不但要求极值,还要求一个满足一定约束条件的极值,那么此时就可以构造Lagrange函数,其实就是把约束项添加到原函数上,然后对构造的新函数求导。

对于一个要求极值的函数f\left( x,y \right),图上的蓝圈就是这个函数的等高图,就是说f\left( x,y \right) =c_{1} ,c_{2} ,...,c_{n}分别代表不同的数值(每个值代表一圈,等高图),我要找到一组\left( x,y \right) ,使它的c_{i}值越大越好,但是这点必须满足约束条件g\left( x,y \right)(在黄线上)。

也就是说f(x,y)g(x,y)相切,或者说它们的梯度▽f和▽g平行,因此它们的梯度(偏导)成倍数关系;那我么就假设为\lambda倍,然后把约束条件加到原函数后再对它求导,其实就等于满足了下图上的式子。

在支持向量机模型(SVM)的推导中一步很关键的就是利用拉格朗日对偶性将原问题转化为对偶问题。

最大似然也称为最大概似估计,即:在“模型已定,参数\theta未知”的情况下,通过观测数据估计未知参数\theta的一种思想或方法。

其基本思想是: 给定样本取值后,该样本最有可能来自参数\theta为何值的总体。即:寻找\tilde{\theta }_{ML}使得观测到样本数据的可能性最大。

举个例子,假设我们要统计全国人口的身高,首先假设这个身高服从服从正态分布,但是该分布的均值与方差未知。由于没有足够的人力和物力去统计全国每个人的身高,但是可以通过采样(所有的采样要求都是独立同分布的),获取部分人的身高,然后通过最大似然估计来获取上述假设中的正态分布的均值与方差。

求极大似然函数估计值的一般步骤:

  1. 写出似然函数;

  1. 对似然函数取对数;
  2. 两边同时求导数;
  3. 令导数为0解出似然方程。

在机器学习中也会经常见到极大似然的影子。比如后面的逻辑斯特回归模型(LR),其核心就是构造对数损失函数后运用极大似然估计。