跳转至

极限定理

说明

本章节内容参考中科大苏淳、冯群强老师的《概率论》一书的第六章整理而来

依概率收敛与平均收敛

依概率收敛

依概率收敛是随机变量序列 \(\left\{X_n,n\in N\right\}\) 与随机变量 \(X\) 之间的一种较为容易研究的收敛性,其定义如下:

如果对任何 \(\varepsilon>0\),都有 $$ \lim_{n\to \infty}P(|X_n-X|\geq \varepsilon)=0 $$ 就称随机变量序列 \(\left\{X_n,n\in N\right\}\) 依概率收敛到随机变量 \(X\),记为 \(X_n\overset{p}{\to}X\)

为了研究这种收敛性,我们就需要去估计概率 \(P(|X_n-x|\geq \varepsilon)\),首先我们引入 Chebyshev 不等式,在引入 Chebyshev 不等式前先引入示性函数的定义,我们以 \(I(A)\) 表示事件 \(A\) 的示性函数,即 $$ I(A)=\begin{cases} 1,&\omega \in A\ 0,&\omega \in A^c \end{cases} $$ 当 \(A \subset B\) 时,显然有 \(I(A)\leq I(B)\),且容易知道 \(P(A)=EI(A)\)

Chebyshev不等式\(g(x)\) 是定义在 \([0,\infty)\) 上的单调不减的非负值函数,如果对随机变量 \(Y\) ,有 \(Eg(|Y|)<\infty\),则对任何使得 \(g(a)>0\)\(a>0\),都有 $$ P(|Y|\geq a)\leq \frac{Eg(|Y|)}{g(a)} $$ 证明:首先,由 \(g(x)\) 的单调不减可以知道 $$ (|Y|\geq a)\subset(g(|Y|)\geq g(a)) $$ 所以有 $$ I(|Y|\geq a)\leq I(g(|Y|)\geq g(a)) $$ 又在事件 \(g(|Y|)\geq g(a)\) 上有 \(\frac{g(|Y|)}{g(a)}\geq 1\),所以可得 $$ I(|Y|\geq a)\leq I(g|Y|\geq g(a))\leq \frac{g(|Y|)}{g(a)}I(g(|Y|)\geq g(a)) $$ 反映在概率上就有 $$ P(I(|Y|\geq a))=EI(|Y|\geq a)\leq EI(g(|Y|)\geq g(a))\leq E\frac{g(|Y|)}{g(a)}I(g(|Y|)\geq g(a)) $$ 又 $$ E\frac{g(|Y|)}{g(a)}I(g(|Y|)\geq g(a))=\frac{1}{g(a)}E[g(|Y|)I(g(|Y|)\geq g(a))]\leq \frac{Eg(|Y|)}{g(a)} $$ 所以 Chebyshev 不等式得证

Tip

这里我们给出的是 Chebyshev 不等式最为广泛的形式,其中的 \(g(x)\) 可以根据实际情况加以选择,比如常见的有

若随机变量 \(Y\in L_r(r>0)\),就可以取 \(g(x)=x^r\),则可以得到 $$ P(|Y|\geq x)\leq \frac{E|Y|^r}{x^r},\qquad \forall x>0 $$ 特别地,在 \(r=2\) 时,可以通过选取 \(g(x)=x^2\),得到 $$ P(|Y-EY|\geq x)\leq \frac{Var Y}{x^2},\qquad \forall x>0 $$ 注意上述的 \(L_r\) 空间是指随机变量 \(Y\) 满足其 \(r\) 阶绝对矩有限的集合,也即若 \(Y\in L_r(r>0)\),那么它的 \(r\) 阶绝对矩 \(E[|Y|^r]<\infty\)

从形式上可以看出,Chebyshev 不等式能够给出一个概率的估计,但是需要指出的是,Chebyshev 不等式并不是在任何情况下都能给出概率的精确估计的,比如下面这个例子:

(1) 设 \(X\sim N(0,1)\),试估计概率 \(P(|X-0.5|>0.4)\)

(2) 设 \(X\sim N(\mu,\sigma^2)\),试估计概率 \(P(|X-\mu|>2\sigma)\)

对于问题(1),如果我们采用 Chebyshev 不等式,取 \(g(x)=x^2\),则有 $$ P(|X-0.5|>0.4)\leq \frac{E|X-0.5|^2}{0.16}=\frac{1.25}{0.16}\approx 8 $$ 这样的概率估计显然没啥用,事实上我们知道了 \(X\) 的概率分布,当然可以直接查正态分布表,就有 $$ P(|X-0.5|>0.4)=P(X-0.5>0.4)+P(X-0.5<-0.4)=1-\Phi(0.9)+\Phi(0.1)=0.7239 $$ 对于问题(2),如果我们采用 Chebyshev 不等式,取\(g(x)=x^2\),则有 $$ P(|x-\mu|>2\sigma )\leq \frac{E|x-\mu|^2}{4\sigma^2}=\frac{Var X}{4\sigma^2}=\frac{1}{4} $$ 但事实上有 $$ P(|X-\mu|>2\sigma)=P(|\frac{X-\mu}{\sigma}|>2)=2(1-\Phi(2))=0.0456 $$ 我们通过查正态分布表得出来的结果比用 Chebyshev 不等式精确得多。

但是当随机变量 \(X\) 的分布未知,只知道它的期望和方差的时候,Chebyshev 不等式的作用就比较大了,下面我们看一个例子:

已知某高校某门课程每年平均有70人选修,则

(1) 估计下次该课程至少有 80 人选修的概率

(2) 如果已知该课程各年选修人数的方差是8,再估计上述概率

解答: 我们用 \(X\) 表示选课人数,则 \(X\) 是非负整数值随机变量

(1) 由题意可以知道,\(EX=70\) ,所以由 Chebyshev 不等式(\(g(x)=x\) 的情形)有 $$ P(X\geq 80)\leq \frac{EX}{80}=\frac{7}{8} $$ 这样我们就得到了一个概率估计,下一次选修人数超过80人的概率不会超过 \(\frac{7}{8}\),但是具体小到何种程度我们无从估计。

(2) 在本文中我们除了均值外还知道了 \(Var X = 8\),所以由 Chebyshev 不等式(\(g(x)=x^2\))可以得到: $$ P(X\geq 80)=P(X-70\geq 10)\leq P(|X-70|\geq 10)\leq\frac{E|X-70|^2}{100}=0.08 $$ 所以我们知道下一次选修的人数超过80人的概率不超过\(8\%\)

由上面的例子我们知道,Chebyshev 不等式的一个好处就是在分布未知的情况下仅仅通过期望和方差就能给出概率上界的一个较好的估计。在概率论的研究中,人们往往是将 Chebyshev 不等式作为工具来讨论随机变量的性质和随机变量序列的依概率收敛性,包括弱大数定律。

下面我们举一个运用 Chebyshev 不等式讨论随机变量性质的一个例子:

证明:方差为0的随机变量是退化的随机变量,也即若 \(Var X=0\),则对于某个常数 \(c\),有 \(P(X=c)=1\)

证明: 由于 \(X\) 的方差存在,所以它的数学期望存在,记 \(EX=c\),则由 Chebyshev 不等式可以得到,对于任意的 \(\varepsilon >0\),有 $$ P(|X-c|> \varepsilon)\leq \frac{E|X-c|^2}{\varepsilon^2}=\frac{Var X}{\varepsilon^2}=0 $$ 所以对任意 \(\varepsilon >0\),都有 $$ P(|X-c|\leq \varepsilon)=1 $$ 在上式中令\(\varepsilon \to 0\),则由概率的上连续性可以得到 \(P(|X-c|=0)=1\),也即 \(P(X=c)=1\)

下面我们再举一个用 Chebyshev 不等式估计概率上界的例子:

证明若 \(X\) 是非负整数值随机变量,则有 $$ 1-EX\leq P(X=0)\leq \frac{Var X}{(EX)^2} $$ 证明:我们先证明RHS,有 $$ P(X=0)=P(X-EX=-EX)\leq P(|X-EX|\geq EX)\leq \frac{E|X-EX|^2}{(EX)^2} $$ 这就是我们所要证明的右边的部分,用这个不等式估计概率的方法我们称为二阶矩方法,尽管它看起来非常的粗糙;下面我们再证明 RHS,考虑 \(g(x)=x\) 的情形,则有 $$ P(X=0)=1-P(X\geq 1)\geq 1-\frac{EX}{1}=1-EX $$ 所以 RHS 得证,这个不等式估计概率的方法我们称为一阶矩方法。

下面我们讨论随机变量序列的弱大数定律,在这些讨论中,Chebyshev 不等式是一个非常重要的工具。

我们先给出随机变量序列服从弱大数定律的定义:

\(\left\{X_n,n\in N\right\}\) 为随机变量序列,\(S_n=\sum_{k=1}^nX_k\),如果存在实数序列 \(\left\{a_n,n\in N\right\}\) 和正数序列 \(\left\{b_n,n\in N\right\}\),使得 $$ \frac{S_n-a_n}{b_n}\overset{p}{\to}0\qquad\qquad (*) $$ 也即 $$ \lim_{n\to \infty}P(\big|\frac{S_n-a_n}{b_n}\big|\geq \varepsilon)=0,\qquad \forall \varepsilon >0 $$ 就说 \(\left\{X_n,n\in N\right\}\) 服从弱大数定律,其中 \(\left\{a_n,n\in N\right\}\) 称为中心化数列,\(\left\{b_n,n\in N\right\}\) 称为正则化数列。

研究弱大数定律,就是对随机变量序列 \(\left\{X_n,n\in N\right\}\) 寻找存在中心化数列 \(\left\{a_n,n\in N\right\}\) 和正则化数列 \(\left\{b_n,n\in N\right\}\),使得 \((*)\) 式成立的条件。如果 \(X_n\in L_1,n\in N\),那么我们一般就会取 \(a_n=ES_n,b_n=n,n\in N\),讨论使得 $$ \frac{S_n-ES_n}{n}\overset{p}{\to}0 \qquad \qquad (1) $$ 成立的条件。

下面我们给出一些弱大数定律的例子:


1. Markov 弱大数定律

若对随机变量序列 \(\left\{X_n,n\in N\right\}\),有 $$ \lim_{n\to \infty }\frac{Var S_n}{n^2}=0 $$ 则有如式 \((1)\) 的弱大数定律成立。

下面我们给出证明:在 Chebyshev 不等式中令 \(g(x)=x^2\) 则可以知道,对于任何 \(\varepsilon >0\),当 \(n\to \infty\) 时都有 $$ P(\big|\frac{S_n-ES_n}{n}\big|\geq \varepsilon)=P(|S_n-ES_n|\geq n\varepsilon)\leq \frac{E(S_n-ES_n)^2}{n^2\varepsilon^2}\to 0 $$ 所以有如式 \((1)\) 的弱大数定律成立。

Tip

值得一提的是 Markov 弱大数定律对于序列 \(\left\{X_n,n\in N\right\}\) 中的随机变量之间的相互关系并没有作任何假定,所以这是一个较为广泛的结论。


2. Chebyshev 弱大数定律:

如果序列 \(\left\{X_n,n\in N\right\}\) 中的随机变量两两不相关且存在常数 \(C>0\) ,使得 \(Var X_n\leq C,\forall n \in N\),那么就有如式 \((1)\) 的弱大数定律成立。

下面我们给出证明:由于 \(\left\{X_n,n\in N\right\}\) 中的随机变量两两不相关,所以有 $$ Var S_n=\sum_{k=1}^n Var X_k\leq nC $$ 所以由 Markov 大数定律可以知道 Chebyshev 大数定律成立


3. Bernoulli 弱大数定律:

如果以 \(Z_n\) 表示 \(n\) 重 Bernoulli 试验中成功的次数,则有 $$ \frac{Z_n}{n}\overset{p}{\to}p $$ 下面我们给出证明:有 $$ Z_n=\sum_{k=1}^n :=S_n $$ 其中 \(\left\{X_k\right\}\) 是一列相互独立的同服从参数为 \(p\) 的 Bernoulli 随机变量,并且 \(EX_k=p,Var X_k=pq\leq 1\),所以由 Chebyshev 弱大数定律可以知道有如式 \((1)\) 的弱大数定律成立,也即有 $$ \frac{Z_n}{n}\overset{p}{\to}p $$

下面我们再来看一个正则化常数 \(b_n\neq n\) 的例子

设有一列口袋,在第 \(k\) 个口袋中放有 \(1\) 个白球和 \(k-1\) 个黑球,自前 \(n\) 个口袋中各取 \(1\) 球,以 \(Z_n\) 表示所取出的 \(n\) 个球中的白球个数,则当 \(r>\frac{1}{2}\) 时,有 $$ \frac{Z_n-EZ_n}{\ln^rn}\overset{p}{\to}0 $$ 下面我们给出证明:我们定义随机变量 \(X_k\) 为:如果自第 \(k\) 个口袋中取出白球,就令 \(X_k=1\);如果取出黑球,就令 \(X_k=0\),于是 \(\left\{X_k\right\}\) 是一列相互独立的 Bernoulli 随机变量,并且 \(X_k\) 服从参数为 \(p_k=\frac{1}{k}\) 的 Bernoulli 分布,则显然有 \(Z_n=\sum_{k=1}^n X_k\),且 $$ EX_k=\frac{1}{k},\qquad Var X_k=\frac{1}{k}-\frac{1}{k^2}<\frac{1}{k},\qquad VarZ_n=\sum_{k=1}^nVarX_k<\sum_{k=1}^n \frac{1}{k}\leq C\ln n $$ 其中 \(C>0\) 为常数,从而由 Chebyshev 不等式我们可以知道,对于任何 \(\varepsilon >0\),当 \(n\to\infty\) 时,都有 $$ P(\big|\frac{Z_n-EZ_n}{\ln^r n}\big|\geq \varepsilon)=P(\big|Z_n-EZ_n\big|\geq \varepsilon \ln^r n)\leq \frac{VarZ_n}{\varepsilon^2\ln ^{2r}n}\leq \frac{C}{\varepsilon^2}\frac{1}{\ln^{2r-1}n}\to 0 $$ 所以结论成立

平均收敛

平均收敛是随机变量序列的另一种收敛性,下面我们给出其定义:

如果随机变量 \(X,X_n\in L_r\),其中 \(r>0\),并且 $$ E|X_n-X|^r\to 0 $$ 则称随机变量序列 \(\left\{X_n,n\in N\right\}\)\(r\) 阶平均收敛到随机变量 \(X\),或称为 \(L_r\) 收敛到随机变量 \(X\),记作 \(X_n\overset{L_r}{\to}X\),当 \(r=1\) 时,简称为依平均收敛,并记为 \(X_n\overset{L}{\to}X\)\(L_2\) 收敛有时候也称为均方收敛

事实上,任意 \(X\in L_r\),都存在 \(L_r\) 收敛到 \(X\) 的离散型随机变量序列,例如我们令 $$ X_n=\sum_{m=-\infty}^{\infty}\frac{m-1}{2^m}I(\frac{m-1}{2^m}\leq X\leq \frac{m}{2^n}),n\in N $$ 那么就有 $$ \big|X_n(\omega)-X(\omega)\big|^r\leq \frac{1}{2^{rn}},\forall \omega \in \Omega $$ 从而有 \(X_n\overset{L_r}{\to}X\)

下面我们给出依概率收敛和 \(L_r\) 收敛之间的关系:\(L_r\) 收敛 \(\Rightarrow\) 依概率收敛,反之不一定成立

我们首先说明 \(L_r\) 收敛能够推出以概率收敛,也即已知 \(E|X_n-X|^r\to 0\),证明 \(P(|X_n-X|\geq \varepsilon)=0\)

由 Chebyshev 不等式可以得到: $$ P(|X_n-X|\geq \varepsilon)\leq \frac{E|X_n-X|^r}{\varepsilon^r}\to 0 $$ 所以结论成立,下面我们给出以概率收敛但不 \(L_1\) 收敛的反例:

设概率空间 \((\Omega,\mathscr{F}, \mathrm{P})\) 为区间 \((0,1)\) 上的几何型概率空间,即有 $$ \Omega = (0,1),\ \mathscr{F}={B}_1\cap(0,1),\ P=L $$ 令 \(X(\omega)=0,\forall \omega \in(0,1)\),而 $$ X_n(\omega)=\begin{cases} n,&\omega \in(0,\frac{1}{n})\ 0,&\omega\in[\frac{1}{n},1) \end{cases} $$ 容易知道,对于任何 \(\varepsilon>0\),当 \(n\to\infty\) 时,都有 $$ P(|X_n-X|>\varepsilon)\leq P(X_n>0)=\frac{1}{n}\to0 $$ 所以 \(X_n\overset{p}{\to}X\),但是 $$ E|X_n-X|=EX_n\equiv1 $$ 所以 \(X_n\) 不依平均收敛到 \(X\)

注意

这个例子还启示我们,即使有 \(X_n\overset{p}{\to}X\),也不一定就有 \(EX_n\to EX\),事实上,在上面这个例子中有 \(EX_n\equiv1\),但是却有\(EX=0\)

下面我们讨论平均收敛的判别准则,但为了进行下一步的讨论,我们需要先引入如下概念和定理:

一致可积:称随机变量序列 \(\left\{X_n,n\in N\right\}\) 是一致可积的,如果 $$ \lim_{a\to \infty}\sup_{n\in N} E(|X_n|I(|X_n|\geq a))\to0 $$

Lebesgue 控制收敛定理:\(X_n\overset{p}{\to} X\),若存在随机变量 $ Y\in L_1\(,使得对一切 \(n\geq 1\),都有 \(|X_n|\leq |Y|\),\)a.s.$,则有 \(X,X_n\in L_1\),且 \(EX_n\to EX\)

单调收敛定理:\(X_n\geq 0\)\(X_n \uparrow X\)(即 \(X_n\) 单调递增并几乎处处收敛到 \(X\)) ,\(a.s.\),则必然有 \(EX_n\to EX\),故有

(1) 若 \(\lim_{n\to \infty} EX_n <\infty\),则 \(X\in L_1\)

(2) 反之,若 \(X\in L_1\),则对一切 \(n\geq 1\),都有 \(EX_n <\infty\)

Tip

上面出现了随机变量序列的 \(a.s.\) 收敛性,它相当于实变函数论中的几乎处处收敛,其含义是:使得关系式 $$ \lim_{n\to\infty}X_n(\omega)=X(\omega) $$ 不成立的 \(\omega\) 的集合是一个概率为0的事件,后面我们会详细讨论这种收敛性。

Fatou 引理:\(X_n\geq 0\)\(X_n \in L_1\),则有 $$ E(\lim_{n\to\infty}\inf X_n)\leq \lim_{n\to\infty}\inf EX_n $$ 故若 \(\lim_{n\to\infty}\inf EX_n<\infty\),则有 \(X_{\star}=:\lim_{n\to\infty}\inf X_n \in L_1\)

注意

需要注意的是,在学过 Fatou 引理之后,有人可能会想当然地认为会有: $$ E(\lim_{n\to\infty}\inf X_n)\leq \lim_{n\to \infty}\inf EX_n \leq \lim_{n\to\infty}\sup EX_n\leq E(\lim_{n\to\infty}\sup X_n) $$ 这是不对的,最右边一个不等号不一定成立。在前面为了说明依概率收敛不能推出 \(L_r\) 收敛所举的反例正好能说明这一点。我们容易证明对于任何的 \(\omega \in(0,1)\),都有 \(\lim_{n\to\infty}X_n(\omega)=0\),所以 \(\lim_{n\to\infty}\sup X_n\) 是一个恒等于0的退化随机变量,从而 \(E(\lim_{n\to \infty}\sup X_n)=0\),但是却有 \(EX_n\equiv 1\)\(\lim_{n\to\infty}\sup EX_n=1\),可见最右边的一个不等号是不一定成立的。

下面我们给出一致可积的充要条件:

随机变量序列 \(\left\{X_n,n\in N\right\}\) 一致可积的充分必要条件是:对任何给定的 \(\varepsilon >0\),都存在 \(\delta = \delta(\varepsilon)>0\),使得对任何满足条件 \(P(A)<\delta\) 的事件 \(A\),都有 $$ \sup_{n\in N}E(|X_n|I(A))<\varepsilon $$ 并且 $$ \sup_{n\in N}E|X_n|<\infty $$

平均收敛判别准则:如果对 \(r>0\),随机变量序列 \(\left\{|X_n|^r,n\in N\right\}\) 一致可积,并且 \(X_n\overset{p}{\to}X\),则 \(X\in L_r\),且 \(X_n\overset{L_r}{\to}X\)

反之,如果对 \(r>0\),有 \(X_n\in L_r\),且 \(X_n\overset{L_r}{\to} X\),则 \(X\in L_r\),且 \(X_n\overset{p}{\to}X\)

Tip

推论:如果 \(X\)\(\left\{X_n\right\}\) 均为非负随机变量,并且都存在一阶矩,则当 \(X_n\overset{p}{\to}X\) 时,如下三个命题相互等价:

(1) \(\left\{X_n\right\}\) 一致可积

(2) \(E|X_n-X|\to 0,n\to \infty\)

(3) \(EX_n\to EX,n\to \infty\)

依分布收敛

依分布收敛的概念

假设 \(X\)\(\left\{X_n\right\}\) 为一列随机变量,相应的分布函数为 \(F(x)\)\(\left\{F_n(x),n\in N\right\}\),我们先来建立对依分布收敛的直观认识。

先来看一个例子:

假设 $$ X(\omega)=0,\qquad X_n(\omega)=\frac{1}{n},\forall \omega \in \Omega $$ 那么显然有当 \(n\to\infty\) 时, $$ X_n(\omega)\to X(\omega),\forall \omega\in \Omega $$ 因此随机变量序列 \(\left\{X_n,n\in N\right\}\) 处处收敛到 \(X\),既然分布函数就是反映随机变量的取值规律的,所以 \(\left\{X_n,n\in N\right\}\) 就应当是依分布收敛到 \(X\) 的,或者说它们的分布函数列的极限就应当是 \(X\) 的分布函数,但是我们要注意的是

$$ F_n(x)=P(X_n\leq x)=\begin{cases} 0,&x<\frac{1}{n}\ 1,&x\geq \frac{1}{n} \end{cases} \ F(x)=P(X\leq x)=\begin{cases} 0,&x<0\ 1,&x\geq 0 \end{cases} $$ 所以有\(\lim_{n\to \infty}F_n(x)=F(x),\forall x\neq 0\),但是却有 $$ \lim_{n\to \infty }F_n(0)=0\neq 1=F(0) $$ 这说明在讨论分布函数列的收敛的时候,我们不能要求相应的分布函数列点点收敛到 \(F(x)\),注意到 \(x=0\)\(F(x)\) 的不连续点,这提醒我们需要在不连续点上放宽要求。

我们以 \(C(F)\) 表示函数 \(F(x)\) 的连续点集,给出如下定义:

\(\left\{F_n(x),n\in N\right\}\) 是一列定义在 \(R\) 上的有界非降的右连续函数,如果存在一个定义在 \(R\) 上的有界非降的右连续函数 \(F(x)\),使得 $$ \lim_{n\to \infty }F_n(x)=F(x),\forall x\in C(F) $$ 就称 \(F_{n}(x)\) 弱收敛到 \(F(x)\),记为 \(F_n(x)\overset{w}{\to} F(x)\),并称 \(F(x)\)\(\left\{F_n(x)\right\}\) 的弱极限。

注意

需要注意的是,我们这里并没有使用“分布函数”这个名词,这是因为分布函数列的弱极限并不一定是分布函数,如下面这个例子:

\(F(x)\equiv \frac{1}{2}\), $$ F_n(x)=\begin{cases} 0,&x <-n,\ \frac{x+n}{2n},&-n\leq x<n,\ 1,&x\geq n, \end{cases} \qquad n\in N $$ 显然有 \(\left\{F_n(x)\right\}\) 是分布函数序列,并且在每一点 \(x\in R\) 上,都有 \(F_n(x)\to F(x)\),故我们知道 \(F_n(x)\overset{w}{\to} F(x)\),但是 \(F(x)\) 却不是分布函数

下面我们给出依分布收敛的定义:

如果 \(\left\{F_n(x),n\in N\right\}\) 是一列分布函数,并且存在分布函数 \(F(x)\),使得 \(F_n(x)\overset{w}{\to}F(x)\),就称 \(\left\{F_n(x)\right\}\) 弱收敛到 \(F(x)\);如果 \(\left\{F_n(x),n\in N\right\}\) 是随机变量序列 \(\left\{X_n,n\in N\right\}\) 的分布函数序列,而 \(F(x)\) 是随机变量 \(X\) 的分布函数,则当 \(F_n(x)\overset{w}{\to} F(x)\) 时,称 \(\left\{X_n\right\}\) 依分布收敛到 \(X\) ,并记为 \(X_n\overset{d}{\to}X\)

下面我们举个例子:

设随机变量 \(X_1,X_2,\cdots\) 独立同分布,均服从 \(Exp(1)\) 分布,记 \(Y_n=\max \left\{X_1,X_2,\cdots,X_n\right\}\),则 \(Y_n-\ln n\) 依分布收敛

证明: 对任何 \(x\in R\),当 \(n\to \infty\) 时,都有 $$ P(Y_n-\ln n \leq x)=P(Y_n\leq x+\ln n)=(1-e^{-(x+\ln n)})^n\to e^{-e^{-x}} $$

Tip

这里忘记了的话可以去复习一下前面的内容,可以在笔记里搜索关键词:次序统计量的分布函数

这里 \(G(x)=e^{-e^{-x}}\) 是一个分布函数,叫做 Gumbel 分布,是著名的三大极值分布之一。

需要强调的是,依分布收敛只是随机变量的分布函数列之间的收敛关系,不能反映随机变量自身间的极限关系,有下面这个命题:

依分布收敛不能蕴含依概率收敛,依概率收敛蕴含依分布收敛,也即 \(X_n\overset{d}{\to}X \nRightarrow X_n\overset{p}{\to} X,\qquad X_n\overset{p}{\to}X\Rightarrow X_n\overset{d}{\to}X\),下面我们举个例子:

\(X,X_1,X_2,\cdots\) 是一列独立同分布的 Bernoulli 随机变量, 参数为 \(0<p<1\),由于它们的分布相同,即有 \(F_n(x)\equiv F(x)\),所以\(F_n(x)\overset{d}{\to} F(x)\),也即 \(X_n\overset{d}{\to} X\),但是对任何 \(0<\varepsilon <1\) 却有 $$ P(|X_n-X|>\varepsilon)=P(X_n=0,X=1)+P(X_n=1,X=0)=2p(1-p) $$ 为定值,也即 \(X_n\not\xrightarrow{P}{X}\),这个反例告诉我们依分布收敛不能蕴含依概率收敛

下面我们再说明依概率收敛蕴含依分布收敛

\(X_n\) 的分布函数为 \(F_n(x)\)\(X\) 的分布函数为 \(F(x)\),则容易知道,对于任何 \(y<x\),有 $$ (X\leq y)=(X\leq y,X_n\leq x)\cup(X\leq y,X_n\geq x)\subset (X_n\leq x)\cup(|X_n- x|\ge x-y) $$ 所以有 $$ F(y)\leq F_{n}(x)+P(|X_n-X|\geq x-y) $$ 从而由 \(X_n\overset{p}{\to} X\) 可以知道 $$ F(y)\leq \lim_{n\to \infty}\inf F_n(x) $$ 同理可以证得,对任何 \(z>x\),都有 $$ \lim_{n\to \infty}\sup F_n(x)\leq F(z) $$ 如果 \(x\in C(F)\),联立上述两式,并且令 \(y\uparrow x,z\downarrow x\),那么就有 $$ F(x)\leq \lim_{n\to \infty}\inf F_n(x)\leq \lim_{n\to \infty} \sup F_{n}(x)\leq F(x) $$ 所以有 $$ \lim_{n\to \infty}F_n(x)=F(x),\forall x\in C(F) $$ 即有\(X_n\overset{d}{\to}X\)

但是需要特殊的是,我们以 \(c\) 表示退化于 \(c\) 的随机变量,那么依分布收敛和依概率收敛之间有如下的特殊关系: $$ X_n\overset{d}{\to}c\iff X_n\overset{p}{\to}c $$ 下面我们给出证明:首先依概率收敛蕴含依分布收敛是恒成立的,下面我们说明 \(X_n\overset{d}{\to}c\Rightarrow X_n \overset{p}{\to}c\),注意退化于 \(c\) 的随机变量的分布函数为 $$ F(x)=I(x\geq c)=\begin{cases} 0,&x<c\ 1,&x\geq c \end{cases} $$ 它只有一个不连续点 \(x=c\),所以当 \(X_n\overset{d}{\to}c\) 时,有

\[ \lim_{n\to\infty}F_n(x)=\begin{cases} 0,&x<c\\ 1,&x>c \end{cases} \]

故而对于任何 \(\varepsilon >0\),当 \(n\to \infty\) 时有 $$ P(|X_n-c|\geq \varepsilon)=P(X_n\geq c+\varepsilon)+P(X_n\leq c-\varepsilon)=1-F_c(c+\varepsilon)+F(c-\varepsilon+0)\to0 $$ 所以\(X_n\overset{p}{\to}c\)

而在平均收敛依分布收敛之间有如下结论:

\(X\)\(\left\{X_n,n \in N\right\}\) 是随机变量序列,若 \(X_n\overset{d}{\to} X\),那么对 \(r>0,E|X_n|^r\to E|X|^r\) 的充分必要条件是 \(\left\{|X_n|^r\right\}\) 一致可积。特别地,对于非负随机变量序列 \(\left\{X,X_n,n\in N\right\}\),若 \(X_n\overset{d}{\to} X\),那么 \(EX_n\to EX\) 的充分必要条件是 \(\left\{X_n\right\}\) 一致可积

连续性定理及其应用

连续性定理在证明依分布收敛性的时候大有可为,这里我们先简单介绍一下应用的例子,后面弱大数定律和中心极限定理还会详细讨论。

连续性定理


1. 设 \(F(X)\)\(\left\{F_n(x),n\in N\right\}\) 都是分布函数,\(f(t)\)\(\left\{f_n(t),n\in N\right\}\) 是它们对应的特征函数,如果 \(F_n(x)\overset{w}{\to} F(x)\),则有 $$ \lim_{n\to \infty}f_n(t)=f(t),\forall t \in R\qquad (2) $$ 并且这种收敛性在任何有界闭区间上对 \(t\) 一致成立


2. 如果 \(\left\{f_n(t),n\in N\right\}\) 是一列特征函数,\(\left\{F_n(x),n\in N\right\}\) 是它们对应的分布函数,如果存在一个在 \(t=0\) 处连续的定义在 \(R\) 上的分布函数 \(f(t)\) 使得式 \((2)\) 成立,则 \(f(t)\) 是一个特征函数,并且对于它所对应的分布函数 \(F(x)\),有 $$ F_n(x)\overset{w}{\to}F(x) $$

注意

需要注意的时,在上面的第一条定理中,我们没有要求 \(f_n(t)\) 的极限函数 \(f(t)\)\(t=0\) 处连续,但是第二条定理却做了这样的一个要求。事实上,极限函数 \(f(t)\)\(t=0\) 处连续式不可或缺的一个条件,但是第一条定理中的这一条件已经被特征函数列的收敛性“在任何有界闭区间上对 \(t\) 一致成立”所保证,因此我们无需另外指出;但在第二条定理中我们需要单独支出,比如我们看下面这个例子:

\(\left\{X_n,n\in N\right\}\) 为随机变量序列,其中 \(X_n\) 服从正态分布 \(N(0,n)\),试讨论该序列的依分布收敛性

我们记 \(F_n(x)\)\(f_n(t)\) 分别为 \(X_n\) 的分布函数和特征函数,一方面有 $$ \lim_{n\to \infty}f_{n}(t)=\lim_{n\to \infty}e^{-\frac{nt^2}{2}}=\begin{cases} 1,&t=0\ 0,&t\neq 0 \end{cases} $$ 可见特征函数列 \(\left\{f_n(t)\right\}\) 处处收敛,但是极限函数在 \(t=0\) 处并不连续。

另一方面有 $$ F_n(x)=P(X_n\leq x)=P(\frac{X_n}{\sqrt{n}}\leq \frac{x}{\sqrt{n}})=\Phi(\frac{x}{\sqrt{n}}),\ x\in R $$ 所以我们知道对于任何 \(x\in R\) 都有 $$ \lim_{n\to \infty}F_n(x)=\lim_{n\to \infty}\Phi(\frac{x}{\sqrt{n}})=\Phi(0)=\frac{1}{2} $$ 可见分布函数列 \(\left\{F_n(t)\right\}\) 也处处收敛,但是极限函数却不是一个分布函数,所以 \(\left\{X_n\right\}\) 不依分布收敛

从上面的例子我们得知,特征函数列 \(\left\{f_n(t)\right\}\) 的极限函数在 \(t=0\) 处的连续性对于依分布收敛而言,是一个不可或缺的条件。

下面我们来看连续性定理的一些应用

例1\(\left\{X_n,n\in N\right\}\) 为随机变量序列,如果当 \(n\to \infty\) 时,\(X_n\overset{d}{\to} N(a,\sigma^2)\),则 \(\tau X_n+b\overset{d}{\to}N (\tau a+b,\tau^2\sigma^2)\)

证明:\(f_n(t)=Ee^{it X_n}\),则根据连续性定理可知,当 \(n\to \infty\) 时,\(f_n(t)\) 收敛到 \(N(a,\sigma^2)\) 的特征函数,也即有 $$ f_n(t)\to e^{ita -\frac{\sigma^2t^2}{2}},\forall t\in R $$ 因此对任意 \(t\in R\),当 \(n\to \infty\) 时,就有 $$ Ee^{it (\tau X_n+b)}=e^{it b}f_n(\tau t)\to e^{itb}e^{i\tau ta-\frac{\sigma^2\tau^2t^2}{2}}=e^{it(\tau a+b)-\frac{\sigma^2\tau^2t^2}{2}} $$ 也即收敛到 \(N(\tau a+b,\tau^2\sigma^2)\) 的特征函数,仍然由连续性定理可以知道, $$ \tau X_n+b \overset{d}{\to} N(\tau a+b,\tau^2\sigma^2) $$

例2 设随机变量 \(X_n\) 服从参数为 \(p_n>0\) 的几何分布,若 \(\lim_{n\to \infty} p_n=0\),则对任意常数 \(\lambda >0\),随机变量序列 \(\left\{\frac{p_nX_n}{\lambda},n=1,2,\cdots\right\}\) 依分布收敛到参数为 \(\lambda\) 的指数分布

证明\(q_n=1-p_n\),则当 \(n\to \infty\) 时,对 \(X_n\) 的特征函数,有

\[\begin{aligned} f_n(t)&=E e^{it\frac{p_nX_n}{\lambda}}=Ee^{i\frac{p_n t}{\lambda} X_n}=\frac{p_n e^{i\frac{p_n t}{\lambda}}}{1-q_ne^{i\frac{p_nt}{\lambda}}}=\frac{p_n(1+i\frac{p_n t}{\lambda}-\frac{p_n^2}{2\lambda^2}t^2+o(p_n^2t^2))}{1-q_n(1+i\frac{p_nt}{\lambda}-\frac{p_n^2}{2\lambda^2}t^2+o(p_n^2t^2))}\\&=\frac{1+i\frac{p_nt}{\lambda}-\frac{p_n^2}{2\lambda^2}t^2+o(p_n^2t^2)}{1-i\frac{q_nt}{\lambda}+\frac{p_nq_n}{2\lambda^2}t^2+o(p_nq_nt^2)}\to \frac{1}{1-\frac{it}{\lambda}} \end{aligned}\]

这里 \(\frac{1}{1-\frac{it}{\lambda}}\) 是参数为 \(\lambda\) 的指数分布的特征函数,所以根据连续性定理,随机变量序列 \(\left\{\frac{p_nX_n}{\lambda},n=1,2,\cdots\right\}\) 依分布收敛到参数为 \(\lambda\) 的指数分布

例3 (1) 设随机变量 \(X_n\sim B(n,p_n)\),证明:如果当 \(n\to \infty\) 时,有 \(np_n\to \lambda>0\),则 \(X_n\) 依分布收敛到参数为 \(\lambda\) 的泊松分布。

(2) 若 \(X_n\sim B(n,p)\),则有 \(\frac{X_n}{n}\overset{p}{\to}p\)

证明:记 \(q_n=1-p_n\),则有

\[\begin{aligned} f_n(t)=E\mathrm{e}^{\mathrm{i}tX_n}=(q_n+p_n\mathrm{e}^{\mathrm{i}t})^n=\left(1+p_n(\mathrm{e}^{\mathrm{i}t}-1)\right)^n=e^{n\ln (1+p_n(e^{it}-1))} \end{aligned}\]

利用 \(\operatorname*{lim}_{x\to0}\frac{\ln(1+x)}{x}\to1\)\(\operatorname*{lim}_{n\to\infty}np_{n}=\lambda>0\) 可知,对于任何固定的实数 \(t\),都有

\[ \operatorname*{lim}_{n\to\infty}\exp\left\{n\ln\left(1+p_{n}(\mathrm{e}^{\mathrm{i}t}-1)\right)\right\}=\operatorname*{lim}_{n\to\infty}\exp\left\{np_{n}(\mathrm{e}^{\mathrm{i}t}-1)\right\}=\mathrm{e}^{\lambda(\mathrm{e}^{\mathrm{i}t}-1)} \]

故由连续性定理可知,\(X_n\) 依分布收敛到参数为 \(\lambda\) 的泊松分布

(2) 由于 \(\frac{X_n}{n}\overset{p}{\to}p\) 等价于 \(\frac{X_n}{n}\overset{d}{\to}p\),所以只需证明 \(\frac{X_n}{n}\) 的特征函数收敛到 \(e^{ipt}\),我们有

\[ E\exp\left\{\mathrm{i}t\frac{X_n}{n}\right\}=\left(1+p(\mathrm{e}^{\frac{\mathrm{i}t}{n}}-1)\right)^n=\left(1+\frac{\mathrm{i}pt}{n}+O\left(\frac{pt^2}{n^2}\right)\right)^n \]

\(n\to \infty\),即知 \(Ee^{it \frac{X_n}{n}}\to e^{ipt}\)

Tip

事实上,这里的结论 (2) 是弱大数定律的一种特殊形式,\(X_n\)\(n\) 个相互独立的参数为 \(p\) 的 Bernoulli 变量的和同分布

例4 设随机变量 \(X_n\) 服从参数为 \(\lambda_n\) 的泊松分布,证明:若 \(\lambda_n \to \infty\),则 \(\frac{X_n-\lambda_n}{\sqrt{\lambda_n}}\) 依分布收敛到标准正态分布

undone

这里的解答先暂时搁着,敲公式有点费劲

弱大数律和中心极限定理

Tip

在这一节中我们仍然假定 \(\left\{X_n,n\in N\right\}\) 是定义在某个概率空间 \((\Omega,\mathscr{F},\mathbf{P})\) 上的随机变量序列,并记 \(S_n=\sum_{k=1}^n X_k\),以 i.i.d 表示独立同分布。

弱大数定律

在第一节讨论弱大数定律的时候,我们为了证明 \(\frac{S_n-a_n}{b_n}\overset{p}{\to}0\),都是通过方差来估计概率 $$ P(\big|\frac{S_n-a_n}{b_n}\big|\geq \varepsilon) $$ 的,这样就要求相应的随机变量存在二阶矩,我们现在以特征函数为工具,证明独立同分布情形下的弱大数定律。

由于 \(\frac{S_n-a_n}{b_n}\overset{p}{\to}0\) 等价于 \(\frac{S_n-a_n}{b_n}\overset{d}{\to}0\),而由连续性定理可以知道,后者等价于特征函数的如下收敛关系: $$ \lim_{n\to \infty} Ee^{it\frac{S_n-a_n}{b_n}}=1,\ \forall t\in R $$ 这就为降低独立同分布情形下弱大数定律成立所需的矩条件的阶数提供了有效的途径。

辛钦大数定律:\(\left\{X,X_n,n\in N\right\}\) 为 i.i.d. 随机变量序列,则当 $X\in L_1,EX =a $ 时,有 $$ \frac{S_n}{n}\overset{p}{\to} a $$ 证明 只需证明 $$ \frac{S_n-na}{n}\overset{p}{\to}0 $$ 我们记 \(f_n(t)=Ee^{it \frac{S_n-na}{n}}\),则有 $$ f_n(t)=\prod_{k=1}^n Ee^{it\frac{X_k-a}{n}}=(Ee^{it\frac{X-a}{n}})^n $$ 由于 \(X-a \in L_1,E(X-a)=0\),将特征函数在 \(t=0\) 处作 Taylor 展开可得,对任何 \(t\in R\),都有 $$ Ee^{it\frac{X-a}{n}}=1+o(\frac{t}{n}),\ n\to \infty $$ 从而我们可以得到 $$ f_n(t)= (1+o(\frac{t}{n})^n)\to1,\ n\to\infty $$ 因此辛钦大数定律成立

注意

需要指出的是,在独立同分布 (i.i.d) 的场合下,条件 \(X_1\in L_1\) 并不是存在数列 \(\left\{a_n,n\in N\right\}\) ,使得 \(\frac{S_n-a_n}{n}\overset{p}{\to} 0\) 成立的必要条件,但是辛钦大数定律以其简洁的形式仍然被大量使用

下面我们来看几个使用辛钦大数定律解题的例子:

例1\(f\) 为区间 \([0,1]\) 上的可测函数,且有 \(\int_0^1 |f(x)|dx<\infty\),而 \(\left\{U_n\right\}\) 是一列相互独立的 \(U[0,1]\) 随机变量,我们记 $$ I_n=\frac{1}{n}\sum_{k=1}^n f(U_k) $$ 证明:当 \(n\to \infty\) 时,有 \(I_n\overset{p}{\to} I =\int_0^1f(x)dx\)

证明 我们记 \(Y_i=f(U_i)\),则有 \(\left\{f(U_i)\right\}\) 是一列独立同分布的随机变量,且 \(E|Y_i|=\int_0^1 |f(x)|dx<\infty\),所以它们具有有限的数学期望 $$ EY_i=\int_0^1 f(x)dx=I $$ 则由辛钦大数定律,当 \(n\to\infty\) 时,有 $$ I_n=\frac{1}{n}\sum_{k=1}^n f(U_k)=\frac{1}{n}\sum_{k=1}^nY_k\overset{p}{\to}EY_1=\int_0^1f(x)dx $$

Tip

这是一种用概率方法近似计算积分的办法,我们通常称之为 Monte Carlo 方法,它是辛钦大数定律的一种应用,而在 \(\int_0^1 f^2(x)dx<\infty\) 的条件下,我们还可以用 Chebyshev 不等式来估计误差 $$ P(|I_n-I|>\frac{a}{\sqrt{n}}) $$

例2\(f(x)\)\([0,1]\) 上的连续函数,其对应的次数为 \(n\) 的 Bernstein 多项式是 $$ B_n(x)=\sum_{k=0}^n f(\frac{k}{n})C_n^k x^k(1-x)^{n-k},\qquad0\leq x\leq 1 $$ 试利用大数定律证明:对任意的 \(0\leq x\leq 1\),都有 \(\lim_{n\to \infty }B_n(x)=f(x)\)

证明 对于任意取定的 \(0\leq x\leq 1\),取一列相互独立且同以 \(x\) 为参数的 Bernoulli 随机变量 \(\left\{X_n\right\}\),则对每个 \(n\),都有 $$ B_n(x)=Ef(\frac{X_1+X_2+\cdots+X_n}{n}) $$ 一方面,根据 Bernoulli 弱大数定律,当 \(n\to \infty\) 时,有 \(\frac{X_1+X_2+\cdots+X_n}{n}\overset{p}{\to} EX_1=x\) ,另一方面,由 \(f(t)\)\([0,1]\) 上的连续函数知存在常数 \(C\),使得 \(\max_{0\leq t\leq 1}|f(t)|\leq C\),所以由控制收敛定理可以知道,对任意取定的 \(0\leq x\leq 1\),当 \(n\to\infty\) 时,都有 $$ B_n(x)=\sum_{k=0}^n f(\frac{k}{n})C_n^k x^k(1-x)^{n-k}=Ef(\frac{X_1+\cdots+X_n}{n})\to f(x) $$

Tip

事实上,由 \(\max_{0\leq t\leq 1}|f(t)|\leq C\),还可以进一步证明: $$ \sup_{0\leq x\leq 1}|B_n(x)-f(x)|\to0,\qquad 0\to \infty $$

Slutsky 引理

Slutsky 引理是研究依分布收敛的一个重要工具,其叙述如下:

如果 \(X_n\overset{d}{\to} X,Y_n\overset{p}{\to}0,W_n\overset{p}{\to}1\),则 \(W_nX_n+Y_n\overset{d}{\to}X\)

下面我们给出 Slutsky 引理的证明:

我们首先证明 \(W_nX_n\overset{d}{\to}X\),记 \(F(x)=P(X\leq x),T_n=W_nX_n\),任取 \(x\in C(F)\),对于任意给定的 \(\varepsilon >0\),取 \(0<\varepsilon_1<\varepsilon\),使 \((1\pm \varepsilon_1)x\in C(F)\),则容易得到 $$ P(T_n\leq x)\leq P(X_n\leq (1+\varepsilon_1)x)+P(|W_n-1|\geq \varepsilon_1)\ P(X_n\leq (1-\varepsilon_1)x)\leq P(T_n\leq x)+P(|W_n-1|\geq \varepsilon_1) $$ 则由上述两个式子,我们可以得到 $$ P(X_n\leq (1-\varepsilon_1)x)-P(|W_n-1|\geq \varepsilon_1)\leq P(T_n\leq x)\leq P(X_n\leq (1+\varepsilon_1)x)+P(|W_n-1|\geq \varepsilon_1) $$ 令 \(n\to \infty\),就可以得到 $$ F((1-\varepsilon_1)x)\leq \lim_{n\to\infty}\inf P(T_n\leq x)\leq \lim_{n\to\infty}\sup P(T_n\leq x)\leq F((1+\varepsilon_1)x) $$ 再令 \(\varepsilon \downarrow0\),就可以得到 $$ \lim_{n\to\infty}P(T_n\leq x)=F(x) $$

中心极限定理

中心极限定理针对的时依分布收敛到标准正态的问题,由于正态分布在概率论中的特殊地位,我们将这一类定理称为中心极限定理。

\(\left\{X_n,n\in N\right\}\) 为随机变量序列,\(S_n=\sum_{k=1}^n X_k\),如果存在中心化数列 \(\left\{a_n,n\in N\right\}\) 和正则化数列 \(\left\{b_n,n\in N\right\}\) 使得 $$ \frac{S_n-a_n}{b_n}\overset{d}{\to} N(0,1)\qquad (*) $$ 也即有 $$ \lim_{n\to \infty}P(\frac{S_n-a_n}{b_n}\leq x)=\Phi(x),\ \forall x\in R $$ 就称 \(\left\{X_n,n\in N\right\}\) 服从中心极限定理或称 \(S_n\) 具有渐进正态性

由连续性定理我们可以立即得到如下定理:

\((*)\) 式成立的充分必要条件是 $$ \lim_{n\to \infty}E e^{it\frac{S_n-a_n}{b_n}}=e^{-\frac{t^2}{2}},\ \forall t\in R $$

独立同分布场合下的经典的中心极限定理具有特别简单的形式

(Levy 中心极限定理)\(\left\{X,X_n,n\in N\right\}\) 为独立同分布的随机变量序列,则当 \(X\in L_2,EX=a,0< VarX =\sigma^2<\infty\) 时,有 $$ \frac{S_n-na}{\sqrt{n}\sigma}\overset{d}{\to}N(0,1) $$

a.s. 收敛

a.s. 收敛意指几乎必然收敛,a.s. 是英文词汇 almost sure 的缩写,我们先给出 a.s. 收敛的定义

设随机变量 \(X\) 和随机变量序列 \(\left\{X_n,n\in N\right\}\) 定义在同一个概率空间 \((\Omega,\mathscr{F},\mathbf{P})\) 上,如果

\[ P\left\{\omega|\lim_{n\to \infty}X_n(\omega)=X(\omega)\right\}=1 \]

就说 \(\left\{X_n\right\}\) a.s. 收敛到 \(X\),或者说 \(\left\{X_n\right\}\) 以概率1收敛到 \(X\),记为 \(X_n\to X, a.s.\) 或记为 \(P(X_n\to X)=1\)

对于 a.s. 收敛和依概率收敛,有以下结论:

如果 \(X_n\to X,a.s.\),则必有 \(X_n\overset{p}{\to} X\)

对于 \(L_r\) 收敛与 a.s. 收敛,有如下命题:

\(L_r\) 收敛与 a.s. 收敛互不蕴涵

于是我们总结一下可以知道,随机变量序列的四种收敛性之间有着如下关系:

  1. \(L_r\) 收敛与 a.s. 收敛互不蕴涵
  2. \(L_r\) 收敛与 a.s. 收敛都蕴涵依概率收敛;但是依概率收敛不蕴涵 \(L_r\) 收敛和 a.s. 收敛
  3. 依概率收敛蕴涵依分布收敛;但是依分布收敛不蕴涵依概率收敛
  4. 对于退化的随机变量 \(C\),有 \(X_n\overset{p}{\to}C\iff X_n\overset{d}{\to} C\)

强大数定律

前面我们已经讨论过弱大数定律,现在要来讨论强大数定律,我们首先给出强大数定律的定义:

\(\left\{X_n,n\in N\right\}\) 为随机变量序列,\(S_n=\sum_{k=1}^n X_k\),如果存在中心化数列 \(\left\{a_n,n\in N\right\}\) 和正则化数列 \(\left\{b_n,n\in N\right\}\),其中 \(0<b_n\uparrow \infty\),使得 $$ \frac{S_n-a_n}{b_n}\to 0,a.s. $$ 就说 \(\left\{X_n\right\}\) 服从强大数定律

与弱大数定律比较,强大数定律实际上只是将 \(\frac{S_n-a_n}{b_n}\overset{p}{\to}0\) 换成了 a.s. 收敛到0,但是 a.s. 收敛是一种比依概率收敛强得多的收敛性,它们在研究方向上有很多不同之处,我们需要从建立研究工具入手,首先来讨论独立随机变量级数的 a.s. 收敛性问题,该书只讨论独立随机变量序列的强大数定律。


评论