简单随机抽样:设一个总体的个体数为
.如果通过逐个抽取的方法从中抽取一个样本,且每次抽取时各个个体被抽到的概率相等,就称这样的抽样为简单随机抽样.
总结:⑴一般地,用简单随机抽样从含有
个个体的总体中抽取一个容量为
的样本时,每次抽取一个个体时任一个体被抽到的概率为
;在整个抽样过程中各个个体被抽到的概率为
;
简单随机抽样的实施方法:
⑴抽签法:先将总体中的所有个体(共有
个)编号(号码可从
到
),并把号码写在形状、大小相同的号签上(号签可用小球、卡片、纸条等制作),然后将这些号签放在同一个箱子里,进行均匀搅拌,抽签时每次从中抽一个号签,连续抽取
次,就得到一个容量为
的样本
适用范围:总体的个体数不多时 优点:抽签法简便易行,当总体的个体数不太多时适宜采用抽签法.
⑵随机数表法:
制定随机数表;
给总体中各个个体编号;
按照一定的规则确定所要抽取的样本的号码
随机数表抽样“三步曲”:第一步,将总体中的个体编号;第二步,选定开始的数字;第三步,获取样本号码
简单随机抽样的特点:它是不放回抽样;它是逐个地进行抽取;它是一种等概率抽样,简单随机抽样方法,体现了抽样的客观性与公平性,是其他更复杂抽样方法的基础.
系统抽样:当总体中的个体数较多时,可将总体分成均衡的几个部分,然后按预先定出的规则,从每一部分抽取一个个体,得到需要的样本,这种抽样叫做系统抽样
系统抽样的步骤:
①采用随机的方式将总体中的个体编号
为简便起见,有时可直接采用个体所带有的号码,如考生的准考证号、街道上各户的门牌号,等等
②即确定分段间隔:为将整个的编号分段(即分成几个部分),要确定分段的间隔
当
(
为总体中的个体的个数,
为样本容量)是整数时,![]()
;当
不是整数时,通过从总体中剔除一些个体使剩下的总体中个体的个数
能被
整除,这时![]()
.
③在第一段用简单随机抽样确定起始的个体编号![]()
④按照事先确定的规则抽取样本(通常是将
加上间隔
,得到第
个编号
,第
个编号
,这样继续下去,直到获取整个样本)
说明:①系统抽样适用于总体中的个体数较多的情况,它与简单随机抽样的联系在于:将总体均分后的每一部分进行抽样时,采用的是简单随机抽样;
②与简单随机抽样一样,系统抽样是等概率抽样,它是客观的、公平的.
③总体中的个体数恰好能被样本容量整除时,可用它们的比值作为系统抽样的间隔;当总体中的个体数不能被样本容量整除时,可用简单随机抽样先从总体中剔除少量个体,使剩下的个体数能被样本容量整除在进行系统抽样
分层抽样: 当已知总体由差异明显的几部分组成时,为了使样本更充分地反映总体的情况,常将总体分成几部分,然后按照各部分所占的比例进行抽样,这种抽样叫做分层抽样,所分成的部分叫做层![]()
不放回抽样和放回抽样:在抽样中,如果每次抽出个体后不再将它放回总体,称这样的抽样为不放回抽样;如果每次抽出个体后再将它放回总体,称这样的抽样为放回抽样.
随机抽样、系统抽样、分层抽样都是不放回抽样
常用的抽样方法及它们之间的联系和区别:
|
类别 |
共同点 |
各自特点 |
相互联系 |
适用范围 |
|
简单随机 抽样 |
|
从总体中逐个抽取 |
|
总体中的个数比较少 |
|
系统抽样 |
将总体均匀分成几个部分,按照事先确定的规则在各部分抽取 |
在起始部分抽样时采用简单随机抽样 |
总体中的个数比较多 |
|
|
分层抽样 |
将总体分成几层,分层进行抽取 |
各层抽样时采用简单抽样或者相同抽样 |
总体由差异明显的几部分组成 |
总体:在数理统计中,通常把被研究的对象的全体叫做总体.
频率分布:用样本估计总体,是研究统计问题的基本思想方法,样本中所有数据(或数据组)的频数和样本容量的比,就是该数据的频率.所有数据(或数据组)的频率的分布变化规律叫做样本的频率分布.可以用样本频率表、样本频率分布条形图或频率分布直方图来表示.
总体分布:从总体中抽取一个个体,就是一次随机试验,从总体中抽取一个容量为
的样本,就是进行了
次试验,试验连同所出现的结果叫随机事件,所有这些事件的概率分布规律称为总体分布.
![]()
总体密度曲线:样本容量越大,所分组数越多,各组的频率就越接近于总体在相应各组取值的概率.设想样本容量无限增大,分组的组距无限缩小,那么频率分布直方图就会无限接近于一条光滑曲线,这条曲线叫做总体密度曲线.
![]()
总体分布密度密度曲线函数
的两条基本性质:
①
≥
(
);②由曲线
与
轴围成面积为
.
解决总体分布估计问题的一般程序如下:
先确定分组的组数(最大数据与最小数据之差除以组距得组数);
分别计算各组的频数及频率(频率![]()
);
画出频率分布直方图,并作出相应的估计.
条形图是用其高度表示取各值的频率;直方图是用图形面积的大小表示在各区间内取值的频率;累积频率分布图是一条折线,利用任意两端值的累积频率之差表示样本数据在这两点值之间的频率.
正态分布密度函数:
,(
)
其中
是圆周率;
是自然对数的底;
是随机变量的取值;
为正态分布的均值;
是正态分布的标准差.正态分布一般记为
。
即若
,则
,![]()
正态分布
是由均值
和标准差
唯一决定的分布
通过固定其中一个值,讨论均值与标准差对于正态曲线的影响 ,亦见课本
图![]()
![]()
![]()
![]()
通过对三组正态曲线分析,得出正态曲线具有的基本特征是两头底、中间高、左右对称.从形态上看,正态分布是一条单峰、对称呈钟形的曲线 .
正态曲线的性质:
曲线在
轴的上方,与
轴不相交
曲线关于直线
对称
当
时,曲线位于最高点
当
时,曲线上升(增函数);当
时,曲线下降(减函数).并且
当曲线向左、右两边无限延伸时,以
轴为渐近线,向它无限靠近
![]()
一定时,曲线的形状由
确定
越大,曲线越“矮胖”,总体分布越分散;
越小.曲线越“瘦高”.总体分布越集中
正态曲线下的总面积等于
.即![]()
标准正态曲线:当
、
时,正态总体称为标准正态总体,其相应的函数表示式是
,(
),其相应的曲线称为标准正态曲线
标准正态总体
在正态总体的研究中占有重要的地位
任何正态分布的概率问题均可转化成标准正态分布的概率问题
标准正态分布表及标准正态总体在任一区间
的概率问题:
标准正态总体
在正态总体的研究中有非常重要的地位,为此专门制作了“标准正态分布表”.在这个表中,对应于
的值
是指总体取值小于
的概率,即
,
.
对于标准正态总体
,
是总体取值小于
的概率,即![]()
其中
,图中阴影部分的面积表示为概率
只要有标准正态分布表即可查表解决.从图中不难发现:当
时,
;而当
时,
,利用标准正态分布表,可以求出标准正态总体在任意区间
内取值的概率,即直线
,
与正态曲线、
轴所围成的曲边梯形的面积
故:![]()
;![]()
;
若
,则![]()
任一的正态总体
均可化成标准正态总体
来进行研究,
对任一的正态总体
来说,取值小于
的概率![]()
对于正态总体
取值的概率:
![]()
![]()
![]()
在区间
、
、
内取值的概率分别为
、
、![]()
因此我们时常只在区间
内研究正态总体分布情况,而忽略其中很小的一部分 ![]()
小概率事件的含义
发生概率一般不超过
的事件,即事件在一次试验中几乎不可能发生
假设检验方法的基本思想:首先,假设总体应是或近似为正态总体,然后,依照小概率事件几乎不可能在一次试验中发生的原理对试验结果进行分析
假设检验方法的操作程序,即“三步曲”
提出统计假设,具体问题里的统计假设服从正态分布
是确定一次试验中的
值是否落入范围
;
是作出推断:若![]()
,接受统计假设;若![]()
,由于这是小概率事件,就拒绝统计假设,说明生产过程中出现了异常情况
相关关系的概念
当自变量一定时,因变量的取值带有一定的随机性的两个变量之间的关系称为相关关系
相关关系是非随机变量与随机变量之间的关系,函数关系是两个非随机变量之间的关系,是一种因果关系,而相关关系不一定是因果关系,所以相关关系与函数关系不同,其变量具有随机性,因此相关关系是一种非确定性关系
(有因果关系,也有伴随关系).因此,相关关系与函数关系的异同点如下:
相同点:均是指两个变量的关系.
不同点:函数关系是一种确定的关系;而相关关系是一种非确定关系;函数关系是自变量与因变量之间的关系,这种关系是两个非随机变量的关系;而相关关系是非随机变量与随机变量的关系.
回归分析: 对具有相关关系的两个变量进行统计分析的方法叫做回归分析
通俗地讲,回归分析是寻找相关关系中非确定性关系的某种确定性.
散点图:表示具有相关关系的两个变量的一组数据的图形叫做散点图.散点图形象地反映了各对数据的密切程度
粗略地看,散点分布具有一定的规律.
回归直线
设所求的直线方程为
,其中
、
是待定系数.
则
.于是得到各个偏差
.
显见,偏差
的符号有正有负,若将它们相加会造成相互抵消,所以它们的和不能代表几个点与相应直线在整体上的接近程度,故采用
个偏差的平方和.
![]()
表示
个点与相应直线在整体上的接近程度.
记
(说明
的意义).
上述式子展开后,是一个关于
、
的二次多项式,应用配方法,可求出使
为最小值时的
、
的值.即
,
,![]()
相应的直线叫做回归直线,对两个变量所进行的上述统计分析叫做回归分析.
特别指出:
对回归直线方程只要求会运用它进行具体计算
、
,求出回归直线方程即可.不要求掌握回归直线方程的推导过程.
求回归直线方程,首先应注意到,只有在散点图大致呈线性时,求出的回归直线方程才有实标意义.否则,求出的回归直线方程毫无意义.因此,对一组数据作线性回归分析时,应先看其散点图是否成线性.
求回归直线方程,关键在于正确地求出系数
、
,由于求
、
的计算量较大,计算时仔细谨慎、分层进行,避免因计算产生失误.
回归直线方程在现实生活与生产中有广泛的应用.应用回归直线方程可以把非确定性问题转化成确定性问题,把“无序”变为“有序”,并对情况进行估测、补充.因此,学过回归直线方程以后,应增强学生应用回归直线方程解决相关实际问题的意识.
相关系数:相关系数是因果统计学家皮尔逊提出的,对于变量
与
的一组观测值,把
=![]()
叫做变量
与
之间的样本相关系数,简称相关系数,用它来衡量两个变量之间的线性相关程度.
相关系数的性质:
≤
,且
越接近
,相关程度越大;且
越接近
,相关程度越小.
显著性水平:显著性水平是统计假设检验中的一个概念,它是公认的小概率事件的概率值
它必须在每一次统计检验之前确定
显著性检验:(相关系数检验的步骤):由显著性水平和自由度查表得出临界值,显著性水平一般取
和
,自由度为
,其中
是数据的个数
在“相关系数检验的临界值表”查出与显著性水平
或
及自由度
(
为观测值组数)相应的相关数临界值
或
;例如
时,
,
求得的相关系数
和临界值
比较,若![]()
,上面
与
是线性相关的,当
或
,认为线性关系不显著![]()
结论:讨论若干变量是否线性相关,必须先进行相关性检验,在确认线性相关后,再求回归直线;
通过两个变量是否线性相关的估计,实际上就是把非确定性问题转化成确定性问题来研究;
(
福建)一个均匀小正方体的
个面中,三个面上标以数
,两个面上标以数
,一
个面上标以数
.将这个小正方体抛掷
次,则向上的数之积的数学期望是
(
四川文)某商场买来一车苹果,从中随机抽取了
个苹果,其重量(单位:克)
分别为:
,
,
,
,
,
,
,
,
,
,由此估计这车苹果单个重量的期望值是
![]()
克 ![]()
克 ![]()
克 ![]()
克
(
湖南)某地区为下岗人员免费提供财会和计算机培训,以提高下岗人员的再就业能力,每名下岗人员可以选择参加一项培训、参加两项培训或不参加培训,已知参加过财会培训的有
,参加过计算机培训的有
,假设每个人对培训项目的选择是相互独立的,且各人的选择相互之间没有影响.
任选
名下岗人员,求该人参加过培训的概率;
任选
名下岗人员,记
为
人中参加过培训的人数,求
的分布列和期望.
(
四川)厂家在产品出厂前,需对产品做检验,厂家将一批产品发给商家时,商家按合同规定也需随机抽取一定数量的产品做检验,以决定是否接收这批产品.
若厂家库房中的每件产品合格的概率为
,从中任意取出
件进行检验.求至少有
件是合格品的概率;
若厂家发给商家
件产品,其中有
件不合格,按合同规定该商家从中任取
件,都进行检验,只有
件都合格时才接收这批产品,否则拒收.求该商家可能检验出不合格产品数
的分布列及期望
,并求该商家拒收这批产品的概率.
已知
的分布列为如右表:
则
,
抛掷一颗骰子,设所得点数为
,则
,
设服从二项分布
的随机变量
的期望和方差分别为
和
,则二项分布的参数
的值为 ![]()
,
![]()
,
![]()
,
![]()
,![]()
问题1.
(
浙江)随机变量
的分布列如右:
其中
成等差数列,若
,则
的值是
设
是一个离散型随机变量,其分布列如下表, 则
,则
(
重庆联考) 随机变量
的分布列如右:
那么
等于
![]()
![]()
![]()
![]()
![]()
(
黄岗调研)已知
,
,
,则
与
的值分别为
![]()
和
![]()
和
![]()
和
![]()
和![]()
(
天津十校联考)某一离散型随机变量
的概率分布如下表,且
,
则
的值为:![]()
![]()
![]()
![]()
![]()
(
四川) 设离散型随机变量
可能取的值为
,
(
),又
的数学期望
,则
|
|
|
|
|
… |
|
|
|
|
|
|
… |
|
问题2.设随机变量
的分布列如右表,求
和
.
问题3.有甲、乙两种建筑材料,从中各取等量的样品检验它们的抗拉强度指数如下:
其中
和
分别表示甲、乙两种材料的抗拉强度,在使用时要求抗拉强度不低于
的条件下,比较甲、乙两种材料哪一种稳定性好.
问题4.(
全国Ⅱ)某批产品成箱包装,每箱
件.一用户在购进该批产品前先取出
箱,再从每箱中任意抽取
件产品进行检验.设取出的第一、二、三箱中分别有
件、
件、
件二等品,其余为一等品.
用
表示抽检的
件产品中二等品的件数,求
的分布列及
的数学期望;
若抽检的
件产品中有
件或
件以上二等品,用户就拒绝购买这批产品,求这批产品级用户拒绝的概率.
问题5.(
辽宁)某企业准备投产一批特殊型号的产品,已知该种产品的成本
与产量
的函数关系式为:![]()
该种产品的市场前景无法确定,有三种可能出现的情况,各种情形发生的概率及产品价格
与产量
的函数关系式如下表所示:
|
市场情形 |
概率 |
价格 |
|
好 |
|
|
|
中 |
|
|
|
差 |
|
|
设
分别表示市场情形好、中差时的利润,随机变量
,表示当产量为
,而市场前景无法确定的利润.
分别求利润
与产量
的函数关系式;
当产量
确定时,求期望
;
试问产量
取何值时,
取得最大值.
数学期望: 一般地,若离散型随机变量ξ的概率分布为
|
|
x1 |
x2 |
… |
xn |
… |
|
P |
p1 |
p2 |
… |
pn |
… |
则称 ![]()
![]()
…
… 为ξ的数学期望,简称期望
数学期望是离散型随机变量的一个特征数,它反映了离散型随机变量取值的平均水平
平均数、均值:一般地,在有限取值离散型随机变量ξ的概率分布中,令![]()
…
,则有![]()
…
,![]()
![]()
…
,所以
的数学期望又称为平均数、均值 .
期望的一个性质:若
,则![]()
方差: 对于离散型随机变量
,如果它所有可能取的值是
,
,…,
,…,
且取这些值的概率分别是
,
,…,
,…,那么,
=
+
+…+
+…
称为随机变量
的均方差,简称为方差,式中的
是随机变量
的期望.
标准差:
的算术平方根
叫做随机变量ξ的标准差,记作![]()
方差的性质:
;
.
方差的意义:
随机变量
的方差的定义与一组数据的方差的定义式是相同的;
随机变量
的方差、标准差也是随机变量
的特征数,它们都反映了随机变量取值的稳定与波动、集中与离散的程度;
标准差与随机变量本身有相同的单位,所以在实际问题中应用更广泛.
二项分布的期望与方差:若
,则
,
几何分布的期望和方差:
若![]()
,其中
,…,
.则
,
.
(
重庆) 某大夏的一部电梯从底层出发后只能在第
、
、
层可以停靠。若该电梯在底层载有
位乘客,且每位乘客在这三层的每一层下电梯的概率均为
,用
表示这
位乘客在第
层下电梯的人数,求:
随机变量
的分布列;
略.
(
江西)某商场举行抽奖促销活动,抽奖规则是:从装有
个白球,
个红球的箱子中每次随机地摸出一个球,记下颜色后放回,摸出一个红球可获得奖金
元;摸出
个红球可获得奖金
元,现有甲,乙两位顾客,规定:甲摸一次,乙摸两次,令
表示甲,乙摸球后获得的奖金总额。求:![]()
的分布列
略.
设离散型随机变量
的分布列
,
.
求常数
的值;
求
;
求![]()
一袋中装有
只球,编号为
,在袋中同时取
只,以
表示取出的三只球中的最小号码,写出随机变量
的分布列![]()
某人参加射击,击中目标的概率是
.
设
为他射击
次击中目标的次数,求随机变量
的分布列;
设
为他第一次击中目标时所需要射击的次数,求
的分布列;
若他只有
颗子弹,若他击中目标,则不再射击,否则子弹打完,求他
射击次数
的分布列.
问题1.(
陕西)甲、乙、丙
人投篮,投进的概率分别是
、
、
.
略.
用
表示乙投篮
次的进球数,求随机变量
的概率分布及数学期望![]()
问题2.(
浙江)袋子
和
中装有若干个均匀的红球和白球,从
中摸出一个红球的概率是
,从
中摸出一个红球的概率为
. (Ⅰ) 从
中有放回地摸球,每次摸出一个,有
次摸到红球即停止.(ⅰ)求恰好摸
次停止的概率;(ⅱ)记
次之内(含
次)摸到红球的次数为
,求随机变量
的分布率及数学期望
.(Ⅱ)略.
问题3.某射手进行射击练习,每射击
发子弹算一组,一旦命中就停止射击,并进行下一组练习,否则一直打完
发子弹后才能进行下一组练习.若该射手的射击命中率为
,求它在一组练习中所用子弹数目
的分布列
问题4.从一批有
个合格品与
个次品的产品中,一件一件地抽取产品,设各个产品被抽到的可能性相同.在下列三种情况下,分别求出直到取出合格品为止时所需抽取次数
的分布列:
每次抽出的产品都不放回此批产品中;
每次抽出的产品都立即放回此批产品中,然后再取出一件产品;
每次取出一件产品后总把一件合格品放回此批产品中.
随机变量:如果随机试验的结果可以用一个变量来表示,那么这样的变量叫做随机变量随机变量常用希腊字母
、
等表示
离散型随机变量:对于随机变量可能取的值,可以按一定次序一一列出,这样的随机变量叫做离散型随机变量
若
是随机变量,
,其中
、
是常数,则
也是随机变量
连续型随机变量: 对于随机变量可能取的值,可以取某一区间内的一切值,这样的变量就叫做连续型随机变量
离散型随机变量与连续型随机变量的区别与联系: 离散型随机变量与连续型随机变量都是用变量表示随机试验的结果;但是离散型随机变量的结果可以按一定次序一一列出,而连续性随机变量的结果不可以一一列出
离散型随机变量的分布列:设离散型随机变量
可能取的值为
、
、…、
、…
取每一个值![]()
的概率为
,则称表
|
|
|
|
… |
|
… |
|
|
|
|
… |
|
… |
为随机变量
的概率分布,简称
的分布列
离散型随机变量分布列的两个性质:任何随机事件发生的概率都满足:
≤
≤
,并且不可能事件的概率为
,必然事件的概率为
.由此你可以得出离散型随机变量的分布列都具有下面两个性质:![]()
≥
,
…;![]()
…![]()
对于离散型随机变量在某一范围内取值的概率等于它取这个范围内各个值的概率的和.即
≥![]()
离散型随机变量的二项分布:在一次随机试验中,某事件可能发生也可能不发生,在
次独立重复试验中这个事件发生的次数
是一个随机变量.如果在一次试验中某事件发生的概率是
,那么在
次独立重复试验中这个事件恰好发生
次的概率是
,(
…,
)
于是得到随机变量
的概率分布如下:
|
|
|
|
… |
|
… |
|
|
|
|
|
… |
|
… |
|
由于
恰好是二项展开式
![]()
中的各项的值,所以称这样的随机变量
服从二项分布,
记作
,其中
,
为参数,并记
=
.…
离散型随机变量的几何分布:在独立重复试验中,某事件第一次发生时,所作试验的次数
也是一个正整数的离散型随机变量.“
”表示在第
次独立重复试验时事件第一次发生.如果把
次试验时事件
发生记为
、事件
不发生记为
,
,
,那么
![]()
…, ![]()
![]()
于是得到随机变量
的概率分布如下:
|
|
|
|
|
… |
|
… |
|
|
|
|
|
… |
|
… |
称这样的随机变量
服从几何分布,
记作
,其中
…,![]()
求离散型随机变量分布列的步骤:
要确定随机变量
的可能取值有哪些.明确取每个值所表示的意义;
分清概率类型,计算
取得每一个值时的概率(取球、抽取产品等问题还要注意是放回抽样还是不放回抽样;
列表对应,给出分布列,并用分布列的性质验证.
几种常见的分布列的求法:
取球、投骰子、抽取产品等问题的概率分布,关键是概率的计算.所用方法主要有划归法、数形结合法、对应法等对于取球、抽取产品等问题,还要注意是放回抽样还是不放回抽样.
射击问题:若是一人连续射击,且限制在
次射击中发生
次,则往往与二项分布联系起来;若是首次命中所需射击的次数,则它服从几何分布,若是多人射击问题,一般利用相互独立事件同时发生的概率进行计算.
对于有些问题,它的随机变量的选取与所问问题的关系不是很清楚,此时要仔细审题,明确题中的含义,恰当地选取随机变量,构造模型,进行求解.
(
浙江文)甲、乙两人进行乒乓球比赛,比赛规则为“
局
胜”,即以先赢
局者为胜,根据经验,每局比赛中甲获胜的概率为
,则本次比赛甲获胜的概率是 ![]()
![]()
![]()
![]()
![]()
(
辽宁)甲、乙两人独立地解同一问题,甲解决这个问题的概率是
,乙解决这个问题的概率是
,那么恰好有
人解决这个问题的概率是
![]()
![]()
![]()
![]()
![]()
![]()
(
湖北)某篮运动员在三分线投球的命中率是
,他投球
次,恰好投进
个球的概率
(用数值作答)
(
湖北文)接种某疫苗后,出现发热反应的概率为
,现有
人接种了该疫苗,至少有
人出现发热反应的概率为 (精确到
)
(
湖南文)某地区为下岗人员免费提供财会和计算机培训,以提高下岗人员的再就业能力,每名下岗人员可以选择参加一项培训、参加两项培训或不参加培训,已知参加过财会培训的有
,参加过计算机培训的有
,假设每个人对培训项目的选择是相互独立的,且各人的选择相互之间没有影响.
任选
名下岗人员,求该人参加过培训的概率;
任选
名下岗人员,求这
人中至少有
人参加过培养的概率.
(
重庆文)甲、乙、丙三人在同一办公室工作。办公室只有一部电话机,设经过该机打进的电话是打给甲、乙、丙的概率依次为
、
、
.若在一段时间内打进三个电话,且各个电话相互独立.求:
这三个电话是打给同一个人的概率;
这三个电话中恰有两个是打给甲的概率;
湖北省互联网违法和不良信息举报平台 | 网上有害信息举报专区 | 电信诈骗举报专区 | 涉历史虚无主义有害信息举报专区 | 涉企侵权举报专区
违法和不良信息举报电话:027-86699610 举报邮箱:58377363@163.com