概率论与数理统计
introduction
本笔记是基于修佬笔记的补充(再次感谢修佬bushi)
补充介绍
- 测验:一共三次测验,取最好的两次成绩作为最终成绩(秋学期七周(到第二章)、冬学期第三周(到第四章)、冬学期第七周(到第七章))
每一次测验2个多选题,8个单选题(多选题选错和少选都不得分)
测验的地点不限,但是只能用电脑作答 - 期末范围到第八章
notes
chapter1-概率论的基本概念
样本空间与随机事件
期末补天记录
前记
概率论真门课自己确实没有认真好好学,很对不起老师喵,小测的成绩也不是很好,我要在期末力挽狂澜!这下面的记录主要是各章节比较重要的结论与自己的理解,完全面向考试。
Chapter2–随机变量及其概率分布
2.1 随机变量
2.2 离散型随机变量
- 三个比较重要的分布:
- 0-1分布
$P(X=k)=p^{k}(1-p)^{1-k},k=0,1$ - 二项分布
$P(X=k)=C_{n}^{k}p^{k}(1-p)^{n-k}$ - 泊松分布
$P(X=k)=\frac{e^{-\lambda}\lambda^{k}}{k!}$
2.3 随机变量的概率分布函数
- 分布函数的定义:$F(x)=P(X\leq x)$
- F(x)单调不减
- F(x+0)=F(x)
- F(x)-F(x-0)=P(X=x)
2.4 连续型随机变量
- 概率密度函数的定义:$F(x)=\int_{-\infty}^{x}f(t)dt$
- $f(x) \ge 0$
- $\int_{-\infty}^{\infty}f(x)dx=1$
- $P(x1 \lt X \leq x2)=F(x2)-F(x1)=\int_{x1}^{x2}f(t)dt$
- 几个较为重要的连续型变量分布
- 均匀分布:$f(x)=\frac{1}{b-a},x\in[a,b]$
- 正态分布:$f(x)=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)$
- 指数分布:$f(x)=\lambda e^{-\lambda x},x\ge 0$;注意指数分布还具有无记忆性:$P(X\gt t0+t|X \gt t0)=P(X\gt t)$
2.5 随机变量函数的分布
- 这个小节我们最主要解决的就是已知某个变量的分布(离散型对应概率分布律,连续型对应概率密度函数),算出另一个与原变量有关系的变量的分布
- 对于离散变量我们直接算出相对应的概率分布律就好,对于连续变量我们首先从我们想要求的变量Y的分布函数出发,转化为由原来的变量X表达的等价事件(要注意取值范围),从而得到Y的分布函数,求导得到概率密度函数。
- 有一个小结论,如果X为连续性随机变量,$y=g(x)$为处处可导的严格单调函数,记其反函数$x=h(y)$,$f_{Y}(y)=f_{X}(h(y))\left|\frac{d}{dy}h(y)\right|$
Chapter3–多维随机变量及其分布
3.1 二维离散型随机变量
- 二维离散型随机变量的联合概率分布律(可采用列表的方式表示)
- 二维离散型随机变量的边际分布:$P(X=x_{i})=\sum_{j=1}^{\infty}p_{ij}=p_{i.}$
- 二维离散型随机变量的条件分布:$P(X=x_{i}|Y=y_{j})=\frac{p_{ij}}{p_{.j}},i=1,2,…,n$
3.2 二维随机变量的分布函数
- 二维随机变量的联合分布函数:$F(x,y)=P(X\le x,Y\le y)$
- 二维随机变量的边际分布函数:二维随机变量的边际分布函数是联合分布函数当另一个变量趋于$\infty$时的极限函数。$F_{X}(x)=P(X\leq x)=P(X\leq x,Y \lt +\infty)$
- 条件分布函数:
- 对于二维离散型随机变量:$F_{Y|X}(y|x_{i})=P(Y \leq y|X=x_{i})$
- 对于二维连续型随机变量:$F_{Y|X}(y|x)=P(Y \leq y|x\lt X \leq x+\delta)$
3.3 二维连续型随机变量
- 二维连续型随机变量的联合概率密度函数:$f(u,v),F(x,y)=\int_{-\infty}^{x}\int_{-\infty}^{y}f(u,v)dudv$
- 二维连续型随机变量的边际分布:由于$F_{X}(x)=\int_{-\infty}^{x}\int_{-\infty}^{+\infty}f(x,y)dydx$则我们定义边际密度函数为$f_{X}(x)=\int_{-\infty}^{+\infty}f(x,y)dy$
- 二维连续型随机变量的条件分布:$f_{Y|X}(y|x)=\frac{f(x,y)}{f_{X}(x)}$
- 二元均匀分布(面积之比得概率)和二元正态分布(涉及期望,方差和相关系数第四章会提及)
3.4 随机变量的独立性
- 二维离散型随机变量:X与Y相互独立的定义等价于:$P(X=x_{i},Y=y_{j})=P(X=x_{i})P(Y=y_{j})$
- 二维连续型随机变量:其实根据随机变量独立性的定义,其实它是从随机变量的分布函数出发的,所以我们可以将它们转化为积分形式相等,但是被积函数不一定要处处相等,$f(x,y)=f_{X}(x)f_{Y}(y)$所以这个式子几乎处处相等
- 连续型随机变量的推论:X,Y相互独立的充要条件是联合密度函数几乎处处写成x的函数m(x)和y的函数n(y)的乘积(注意取值范围)即$f(x,y)=m(x)n(y),-\infty \lt x \lt +\infty,-\infty \lt y \lt +\infty$
3.5 多元随机变量函数的分布
- Z=X+Y的分布
- 离散型:直接写出联合分布律分析即可
- 连续型:当我们想要计算其分布函数时,我们可以采用我们前面第二章所介绍的方式,在这里我们相当于把积分区域约束在了$x+y \le z$,这里我们省略积分变换:$f_{Z}(z)=\int_{-\infty}^{+\infty}f(x,z-x)dx$,当X,Y相互独立时,$f_{Z}(Z)=\int_{-\infty}^{+\infty}f_{X}(x)f_{Y}(z-x)dx$
- 在具体对于连续型问题计算时,主要关注积分时的区域即可
- M=max(X,Y),N=min(X,Y)分布
- 我们直接推广到n个变量的情形:$F_{M}(t)=\prod_{i=1}^{n}F_{i}(t)$
- $F_{N}(t)=1-\prod_{i=1}^{n}[1-F_{i}(t)]$
- 注意以上的公式都基于我们的n个随机变量相互独立的情况
Chapter4–随机变量的数字特征
4.1 数学期望
- 离散型随机变量:$E(X)=\sum_{i=1}^{+\infty}x_{i}p_{i}$
- 连续型随机变量:$E(X)=\int_{-\infty}^{+\infty}xf(x)dx$
- 常见的一些分布的期望:
- 泊松分布($P(\lambda)$):$E(X)=\lambda$
- 指数分布$(E(\lambda)):E(X)=\frac{1}{\lambda}$
- 标准正态分布:$E(X)=0$
- 随机变量函数的期望(懒人公式的应用):
当X为连续型随机变量时,g(X)的期望为$E(g(X))=\int_{-\infty}^{+\infty}g(x)f(x)dx$,离散性随机变量同理,以上结论还可以推广到两个以上的随机变量函数。 - 随机变量期望的性质:
- 线性:$E(c_{0}+\sum_{i=1}^{n}c_{i}X_{i})=c_{0}+\sum_{i=1}^{n}c_{i}E(X_{i})$
- n个相互独立的随机变量乘积的数学期望等于它们的数学期望的乘积
4.2 方差
- 通常方差拿定义计算较少:$Var(X)=\int_{-\infty}^{+\infty}(x-E(x))^{2}f(x)dx$
- used:$Var(X)=E(X^{2})-E(X)^{2}$
- 常见一些分布的方差:
- 泊松分布:$Var(X)=\lambda$
- 指数分布:$Var(X)=\frac{1}{\lambda^{2}}$
- 标准正态分布:$Var(X)=1$
- 方差的性质:
- $Var(cX)=c^{2}Var(x)$
- $Var(X+c)=Var(X)$
- 若随机变量两两独立,$Var(\sum_{i=1}^{n}X_{i})=\sum_{i=1}^{n}Var(X_{i})$,否则就会有协方差来满足等式。
4.3 协方差
4.3.1 协方差
- 定义:$Cov(X,Y)=E[(X-E(X))(Y-E(Y))]$,但是我们利用期望的性质就可以转换:$Cov(X,Y)=E(XY)-E(X)E(Y)$
- 现在有了协方差的引入我们就可以再探究方差,不再局限于两两独立.$Var(\sum_{i=1}^{n}X_{i})=\sum_{i=1}^{n}Var(X_{i})+2\sum_{1\leq i \lt j\leq n}Cov(X_{i},X_{j})$
- 协方差的性质:
- 对称:$Cov(X,Y)=Cov(Y,X)$
- $Cov(X,X)=Var(X)$
- $Cov(aX,bY)=abCov(X,Y)$
- $Cov(X_{1}+X_{2},Y)=Cov(X_{1},Y)+Cov(X_{2},Y)$
- 若X,Y相互独立,则协方差为零,但反之则不然。
4.3.2 相关系数
- 定义:$\rho(X,Y)=\frac{Cov(X,Y)}{\sqrt{Var(X)Var(Y)}}$
- 性质:
- 若X和Y相互独立,则相关系数为零,但反之则不然。
- 相关系数为零定义为X和Y相关
- 对于两个相互独立的随机变量,若其方差存在,则一定不相关;但是如果它们不想关,则未必相互独立。反之若两随机变量相关,则一定不独立。
- 注:对于正态分布,不相关和相互独立是等价的。
4.4 多维正态变量
- 虽然考试范围里面没有协方差矩阵,但是多维正态变量在考察范围,应该就是利用我们前面介绍的三个数字特征的性质进行计算。
Chapter5–大数定律及中心极限定理
5.1 大数定律
- 依概率收敛:其实就是类似于数列极限的思想,n趋向无穷时概率十分接近某个值。其重要的一个性质是对两个变量如果分别依概率收敛到a和b,$g(X_{n},Y_{n})–>g(a,b)$
- 切比雪夫不等式:设随机变量X的数学期望和方差存在,对任意的epsilon大于0有:$P(|X-u|\geq \epsilon)\leq\frac{\sigma^{2}}{\epsilon^{2}}$
- 伯努利大数定律:设na为n重伯努利试验中事件A发生的次数,p为事件A在每次试验中发生的概率,$\lim_{n->+\infty}P(|\frac{na}{n}-p|\geq \epsilon)=0$,这说明当n在足够大时我们能用频率来估计概率。
- 辛钦大数定律的两种形式:首先设独立同分布的随机变量序列,且数学期望存在。
- $\lim_{n->+\infty}P(|\frac{1}{n}\sum_{i=1}^{n}X_{i}-u|\geq \epsilon)=0$
- 对于连续函数h(x),我们得到推论:$\lim_{n->+\infty}P(|\frac{1}{n}\sum_{i=1}^{n}h(X_{i})-E(h(X_{1}))|\geq \epsilon)=0$
5.2 中心极限定理
- 中心极限定理的本质就是将随机变量之和近似转换为正态分布进行估计。
- 林德伯格-莱维定理:对于独立且同分布的随机变量序列,且$E(X_{i})=\mu,Var(X_{i})=\sigma^{2}$,则我们有:$\lim_{n->+\infty}P(\frac{\sum_{i=1}^{n}X_{i}-n\mu}{\sigma\sqrt{n}}\leq x)=\Phi(x)$,也就是说当n充分大时,$\frac{\sum_{i=1}^{n}X_{i}-n\mu}{\sigma\sqrt{n}}$近似服从标准正态分布。
- 蒂莫夫-拉普拉斯定理:设na为n重伯努利试验中事件A发生的次数,p为事件A在每次试验中发生的概率,我们有$\lim_{n->+\infty}P(\frac{na-np}{\sqrt{np(1-p)}}\leq x)=\Phi(x)$,本质上是林德伯格定理的特殊情况。
Chapter6–统计量与抽样分布(进入数理统计部分)
6.1 随机样本与统计量
6.1.1 总体与样本
- 总体:研究对象的全体
- 样本:从总体中抽取的部分个体
6.1.2 统计量
- 样本均值
- 样本方差
- 样本标准差
- 样本k阶原点矩
- 样本k阶中心矩
6.2 三个有关标准正态的分布
- $\chi^{2}$分布
- 定义:$\chi^{2}(n)$分布是n个独立且同分布的$\mathcal{N}(0,1)$分布的平方和,其中n为自由度。
- 性质:
2.1 设$X\sim\chi^{2}(n)$,则$E(X)=n,Var(X)=2n$。
2.2 此分布具有可加性
2.3 $\alpha$分位数:$0 \lt \alpha \lt 1$,称满足条件的$P(\chi^{2} \gt \chi_{\alpha}^2(n))=\alpha$的点$\chi_{\alpha}^2(n)$为此分布的上$\alpha$分位数
- t分布
- 定义:设$X\sim N(0,1),Y\sim \chi^2(n)$,且两变量相互独立,则称随机变量$T=\frac{X}{\sqrt{Y/n}}$服从自由度为n的t分布
- 性质:
2.1 $T\sim t(n)$,当n大于等于2时,$E(T)=0$,当n大于等于3时,$Var(T)=\frac{n}{n-2}$
2.2 当n足够大时,t分布近似标准正态分布
2.3 $t_{1-\alpha}(n)=-t_{\alpha}(n)$,这里的分位数的定义与卡方分布相似
- F分布
- 定义:设 $( U \sim \chi^2(n_1))$ 和 $( V \sim \chi^2(n_2))$,且 $( U )$ 和 $( V )$ 相互独立,则称随机变量 $( F = \frac{U/n_1}{V/n_2} )$ 服从自由度为 $( (n_1, n_2) )$ 的 $( F )$ 分布,记 $( F \sim F(n_1, n_2) )$。
- 性质:
2.1 $F^{-1} \sim F(n_2,n_1)$
2.2 $X \sim t(n),X^2 \sim F(1,n)$
2.3 $F_{1-\alpha}(n_1,n_2)=\frac{1}{F_{\alpha}(n_2,n_1)}$
6.3 正态总体下的抽样分布
- 样本均值的分布:$\bar{X} \sim N(\mu, \frac{\sigma^2}{n})$
- 样本方差的分布(样本均值和样本方差是相互独立的):$\frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)$
- 我们再结合前面的这两个结论我们便可以进一步推导$\frac{\bar{X}-\mu}{S/\sqrt{n}} \sim t(n-1)$
- 我们再研究两个相互独立的正态总体的样本,看一下它们的分布有什么关系:
- $\frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2} \sim F(n_1-1,n_2-1)$(这一个证明直接利用样本方差的分布可以得到)
- 当两个样本方差相同的情况下:$\frac{(X-Y)-(\mu_1-\mu_2)}{S_w\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}} \sim t(n_1+n_2-2)$,其中,$S_w^2=\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2}$
- 这上面的五个公式在第七章的区间估计与第八章的假设检验发挥了重要作用。
Chapter7–参数估计
7.1 点估计
- 矩法
- 理论依据:当样本容量足够大的时候,$A_k–>\mu_k,B_k–>v_k$,其中$A_k$和$B_k$为样本的k阶原点矩和k阶中心矩,后两者则是总体的k阶原点矩和k阶中心矩。我们便能实现由样本来估计总体。
- 在通常因为我们想要通过计算$v,\mu$得到我们待估参数的函数表达式,所以矩估计其实是不唯一的,但是我们在考试时通常按照最简单的矩法往上写。
- 为了方便计算通常用样本2阶中心距估计总体方差
- 极大似然法
- 对于离散型总体:我们定义如下的似然函数:$L(\theta)=L(\theta;x_1,x_2…,x_n)=\prod_{i=1}^n p(x_i;\theta)$,基于极大似然法的基本思想,我们应该选取$\theta$的估计值$\hat{\theta}$,使得这个极大似然函数最大,从而我们获得的这个$\hat{\theta}$就是该参数的极大似然估计。
- 对于连续型总体:我们定义如下的似然函数:$L(\theta)=L(\theta;x_1,x_2…,x_n)=\prod_{i=1}^n f(x_i;\theta)$,基于极大似然法的基本思想,我们应该选取$\theta$的估计值$\hat{\theta}$,使得这个极大似然函数最大,从而我们获得的这个$\hat{\theta}$就是该参数的极大似然估计。
- 极大似然函数的不变性:我们得到了参数$\theta$的极大似然估计量,那么对于参数的函数形式$g(\theta)$,我们便能得到相应的极大似然估计量$g(\hat{\theta})$
7.2 估计量的评价准则
7.2.1 无偏性准则
- 若估计量$\hat{\theta}$的期望存在,且满足$E(\hat{\theta}) = \theta$,则称$\hat{\theta}$是无偏的。
- 若不等,则称$E(\hat{\theta})-\theta$为估计量偏差。
- 渐进无偏估计量:$\hat{\theta}_{n} \rightarrow \theta$
7.2.2 有效性准则
- 我们基于无偏估计量来分析,两个都是无偏估计量的前提下,$Var_{\theta}(\hat{\theta_1}) \leq Var_{\theta}(\hat{\theta_2})$且至少有一个theta使不等号成立的话,则称$\hat{\theta_1}$更有效
7.2.3 均方误差准则
- 定义:$E((\hat{\theta}-\theta)^2)$是估计量的均方误差,记为$Mse(\hat{\theta})$
- 若$Mse(\hat{\theta_1}) \leq Mse(\hat{\theta_2})$,则称在均方误差的考察范围下,$\hat{\theta_1}$更优。
- 由性质可以知道,对于无偏估计量,均方误差就为方差。
7.2.4 相合性准则
- 定义:当n趋于无穷时,$\hat{\theta_n}$依概率收敛到$\theta$,则称$\hat{\theta_n}$是相合的。
- 一般由矩法求得的参数估计量都满足相合性。(对于其他参数估计量,我们可以通过用切比雪夫不等式来证明相合性)。
7.3 区间估计
- 置信区间的定义:对于以下的两个统计量,给定的$\alpha$和任意的$\theta$,有$P(\hat{\theta_L} \lt \theta \lt \hat{\theta_U}) \ge 1- \alpha$则称随机区间$(\hat{\theta_L},\hat{\theta_U})$为参数的置信水平为$1-\alpha$的置信区间。$(\hat{\theta_L},\hat{\theta_U})$分别为参数的置信水平为$1-\alpha$的双侧置信下限和置信上限。并称区间的平均长度$E(\hat{\theta_U}-\hat{\theta_L})$为置信区间的精确度。
- 同样地,我们能够给出$P(\hat{\theta_L} \lt \theta ) \ge 1- \alpha,P(\hat{\theta_U} \gt \theta ) \ge 1- \alpha$为置信水平为$1-\alpha$的单侧置信下限和单侧置信上限。
- 置信区间的求解方法(枢轴量法)
- 构造一个分布已知的枢轴量(不依赖于任何未知参数)
- 通常我们都对连续型随机变量分析(如果是离散型随机变量,我们的概率是大于等于且尽可能接近置信水平),对给定的置信水平,根据枢轴量的分布,适当选取a和b,使得$P(a \lt G(X_1,X_2,…X_n;\theta) \lt b)=1-\alpha$
- 最终要转换成我们上面定义的形式,只需要变换不等式的形式,将待估参数从枢轴量中剥离出来即可。
- 注意:一般我们的a和b的解不是唯一的,我们习惯取$P_\theta(G(X_1,X_2,…X_n;\theta) \le a)=P_\theta(G(X_1,X_2,…X_n;\theta) \ge b)=\frac{\alpha}{2}$
7.4 正态总体参数的区间估计
- 其实这一个小节的内容就是把7.3小节的理论知识进行应用,而对于正态总体参数,因为我们在第六章分析了很多统计量的分布情况所以枢轴量比较方便寻找。
- 均值的置信区间
- $\sigma^2$已知:此时我们选取枢轴量$\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}$,由正态分布的对称性与不等式的变换,不难得到置信区间$(\bar{X}-\frac{\sigma}{\sqrt{n}}z_{\alpha/2},\bar{X}+\frac{\sigma}{\sqrt{n}}z_{\alpha/2})$
- $\sigma^2$未知:此时我们枢轴量不能含有未知参数,我们选取$\frac{\bar{X}-\mu}{S/\sqrt{n}}$,同样地因为t分布也是具有对称性,不难得到置信区间$(\bar{X}-\frac{S}{\sqrt{n}}t_{\alpha/2}(n-1),\bar{X}+\frac{S}{\sqrt{n}}t_{\alpha/2}(n-1))$
- 成对数据清形:我觉得这里一定要与后面将要提到的两个正态分布的情形区分,在这里的话,我们作差值转化为前面的两种情况即可。
- 方差的区间估计
我们直接取枢轴量$\frac{(n-1)S^2}{\sigma^2}$,需要注意的是卡方分布不是对称的虽然我们还是采取7.3中的选取a和b的方式但是最终形式与前两者存在一点差异,$(\frac{(n-1)S^2}{\chi_{\alpha/2}(n-1)},\frac{(n-1)S^2}{\chi_{1-\alpha/2}(n-1)})$ - 两个正态总体情形
- 均值差的区间估计
1.1 两个总体的方差均已知:此时我们最终的置信区间按照单个正态总体的推导可以得到$(\bar(X)-\bar(Y)\pm z_{\alpha/2}\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}})$
1.2 两个总体的方差未知但相等:我们就可以利用我们前面第六章的结论,得到置信区间为$\bar{X}-\bar{Y}\pm t_{\alpha/2}(n_1+n_2-2)S_w\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}$,其中,$S_w^2=\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2}$ - 方差比的区间估计:直接利用第六章的公式得到置信区间为$(\frac{S_1^2/S_2^2}{F_{\alpha/2}(n1-1,n2-1)},\frac{S_1^2/S_2^2}{F_{1-\alpha/2}(n1-1,n2-1)})$
- 均值差的区间估计
Chapter8–假设检验
8.1 假设检验的基本思想
- 问题的提出:一般我们提出两个完全相反的假设,把其中一个称为原假设或零假设,另一个称为备择假设或对立假设,一般地备择假设是我们通过资料想得到的支持的假设。关于总体参数的假设有以下三种情况:
- $H_0:\theta \ge \theta_0,H_1:\theta \lt \theta_0$
- $H_0:\theta \le \theta_0,H_1:\theta \gt \theta_0$
- $H_0:\theta = \theta_0,H_1:\theta \neq \theta_0$
- 检验统计量与拒绝域
- 检验统计量:寻找到某个统计量,其取值大小和原假设是否成立有密切关系。
- 拒绝域:拒绝原假设的样本值的范围。
- 两类错误
- 错误一:拒绝原假设,但原假设是正确的。
- 错误二:接受原假设,但原假设是错误的。
- 但是当我们对一个例子进行分析时会发现发生这两类错误的概率是相互制约的。鉴于这种情况,奈曼和皮尔逊提出首先控制犯第一类错误的概率,使得其概率不超过$\alpha$,我们也将$\alpha$称为显著性水平。然后在满足这个约束条件下再使得犯第二类错误的概率尽可能小。
- $P-$值与统计显著性
- $P-$值:当原假设$H_0$为真时,检验统计量取比观察到的结果更为极端的数值的概率。
8.2 有关正态总体的假设检验
- 所有的公式都罗列在了这里
8.3 拟合优度检验(对总体分布的估计)
- lz最开始概统没有好好学,对于拟合优度检验的题目,如果想要研究的估计无参数,那么我们直接得到实际频数与理论频数(概率估计与总的量的乘积)的表格,利用$\sum_{i=1}^{k} \frac{n_i^2}{np_i}$估计$\chi$,当$\chi \ge \chi{k-r-1}$拒绝
- 如果我们想要研究的估计有参数,则我们首先根据极大似然估计得到分布中的参数的估计值,然后再计算理论频数(使用我们刚刚估计得到的分布),再按照前面的思路进行比较,看一下是否做出拒绝。