0272《心理统计学》2018年6月期末考试指导
发布时间:2023-11-19 12:11:05浏览次数:440272《心理统计学》2018 年 6 月期末考试指导一、考试说明本课程闭卷考试,满分 100 分,考试时间 90 分钟。可能的考试题型包括:1、单项选择题2、判断题3、简答题4、计算题5、综合应用题二、重点复习内容(一) 绪论1、心理学统计学的内容:描述统计、推论统计、实验设计。其中,描述统计的指标包括数据的集中趋势,数据的离散趋势和数据间的相关2、数据的种类按照测量的水平,可以划分为称名变量、等级变量、等距变量和比率变量。(1)称名变量,是指根据事物的某一特征,用来划分、区别事物的不同种类所形成的变量。这类数码并无数量和序列的含义,不能进行数量化分析,不能做加减乘除的运算。(2)等级变量,在对事物进行分类过程中,依据事物某种属性程度的大小排列顺序形成的变量。等级变量既无相等单位,也无绝对零,不同组的等级变量间不能进行加减乘除的运算。(3)等距变量,是指在观测标识事物某一特定属性时,具有相对参照点、有相等单位的变量。可以进行加减运算,但是由于等距变量的参照点是相对的,即无绝对零点,因此不能进行乘除的运算。例如,测量温度的℃。(4)比率变量,是指既有相等单位又有绝对零参照点的变量,如身高、体重、反应时、各种感觉阈值的物理量等。这类变量可以进行加减乘除的运算。(二)统计图表1、次数分布表:各种次数分布的列表形式和图示形式。次数分布包括简单次数分布、分组次数分布、相对次数分布、累积次数分布等。2、编制次数分布表的步骤(1)求全距:从最大值的数据中减去最小值的数据,所得差数就是全距。用符号 R 表示(2)定组数(3)求组距:指每一组的间距,用符号 i 表示。(4)定组限:指各组数据在数值上的起点值和终点值。(5)求组中值:各组实际上限数值与实际下限数值的中点数值,即上、下限数值的平均值。(6)归类划记:将原始观测值按照一定的顺序逐一归组。(7)记录各组次数(f)。(8)核对,抄录新表。3、连续变量的单位是无限的,例如整数 180 的实上限和下限分别为 179.5 和 180.5,而测量数据 8.35 的下实限是 8.345。4、累加次数分布表:如果想知道某个数值以下或以上的数据的数目,就要用累加次数。5、次数分布图:编制次数分布表与绘制次数分布图,对于了解一组数据的分布情况,平1
(十) 检验和其他非参数检验1、参数检验和非参数检验参数检验法和非参数检验法是两类不同的统计推断方法。Z 检验、t 检验、F 检验等,是在假设总体正态分布的前提下,用样本中所含有的信息推断总体相应参数的特征,称之为参数检验法。在研究的总体分布非正态或分布形态不清时,通过样本信息去推断总体时,不能直接对总体参数进行检验,而是通过检验其分布情况实现的,称之为非参数检验法。2、 检验检验是一种非参数检验方法,它既适用于单样本,也可用于两样本,但样本数目不能太少。主要用来统计分析计数数据,即个数、次数等不连续变量。在单因素卡方检验中,样本 N,K 种实验处理,自由度为 K-1检验的假设:分类相互排斥,互不包容;观测值的相互独立;期望次数至少在 5 个以上。检验的基本公式: , 为实际观测次数, 为某理论次数。3、预研究 10 名被试实验前后的反应时是否存在显著差异,已知其分布为非正态,最恰当的统计方法是符号检验。(十一)线性回归1、线性回归:回归分析是探讨变量间数量关系的一种常用统计方法。它通过建立变量间的数学模型对变量进行预测和控制。2、相关系数和回归系数之间存在一定的关系,by . x=r⋅SySx,由此可以推断变量 x 和 y的关系,例如,从 X 推测 Y 的回归系数为-0.80,说明 X 和 Y 两变量是负相关。3、简单回归分析模型:在简单模型中, ,其中参数 a、b 分别表示截距与斜率,叫做因变量或被预测变量,X 叫做自变量或预测变量。因变量的观察值与预测值之间的差异叫做残差。4、线性回归分析的假设条件(1)特定自变量 X 对应的因变量 Y,应服从方差相等的正态分布;(2)不同观测误差项之间相互独立;(3)自变量和因变量之间具有线性关系。4、考察两个服从正态分布的连续变量之间的因果关系,可以采用线性回归。使用最小二乘法建立线性回归模型。如考察自我概念对学习成绩影响。建立回归方程的具体步骤为: 带入公式进行计算。进一步检验有效性:, ,10
,查 F 值表,进行检验。5、决定系数:决定系数是相关系数的平方例如,以学习成绩为效标,得到某一智力测验的效标关联效度为 0.80。将此测验用于预测时,其测验结果可解释学习成绩变异的 64%三、答题技巧1、单项选择题:根据题干描述,结合学过的知识点选出最符合的选项。2、判断题:一般是对学科中基本问题与概念的描述,结合学习的内容进行判断。3、简答题:是对于学科中基本问题或重点公式等的理解和识记;根据题干要求,回答要点。4、计算题:结合所学知识,根据相关公式和计算要求,进行计算。5、综合应用题:需要对课程内容有一个综合把握和理解,根据题目要求,对课程中涉及到的知识点进行提取,并结合公式进行计算或阐述。四、重点复习题(一)单项选择题1、甲和乙两名学生在数学和语文考试中的分数如下:平均分数 标准差 甲考生 乙考生语文70 8 70 57数学55 4 57 70则( )。(A) 甲考生与乙考生的成绩一样好 (B) 甲考生的成绩较好(C) 乙考生的成绩较好 (D) 无法比较2、有 8 个数据 80,90,82,85,91,88,84,92,则它们的中位数是( )。(A)85 (B)88 (C)86.5 (D)91 3、某班级一次英语考试成绩服从正态分布,全班平均成绩为 70 分,标准差为 10 分,一个学生成绩为 80 分,他在全班的名次为( )。(A) 前 10% (B)前 20% (C)后 10% (D) 后 20%4、下面是某校四个班级学生某次考试结果,计算全年级的平均成绩应采用的方法是( )。(A)计算算术平均数 (B)计算变异系数(C)计算加权平均数 (D)计算标准分数5、某种补脑药声称能让小孩聪明起来,研究人员将一个幼儿园的小孩随机分成两组,其中一组服用一个疗程的补脑药,而另一组则用糖水代替。对实验后的智力测验数据做 t 检验进行比较,看看补脑药是否有效。将服用补脑药作为第一组,服用糖水的作为第二组,该11
检验应该用( )。(A) 双侧检验 (B)左侧检验 (C)右侧检验 (D)以上都可以6、已知某小学一年级学生的平均体重为 25 千克,体重的标准差为 3.7 千克,平均身高 110厘米,标准差为 6.2 厘米,关于体重和身高离散程度的叙述,正确的是( )。(A)身高的离散程度较体重大 (B) 身高的离散程度较体重小(C) 一样大 (D)条件不够,无法比较7、已知智商测验的平均分为 100,标准差为 15,某人智商为 130,智商比他低的人约占()。(A)5% (B)50% (C)95% (D)98%8、对于一元线性回归方程有效性的 F 检验,总的变异可以被分解为( )。(A)误差平方和和区组平方和两部分;(B)残差平方和、组间平方和和区组平方和三部分;(C)总平方和、回归平方和和残差平方和三部分;(D)回归平方和和残差平方和两部分。9、已知某智力测验测试结果服从正态分布,总体方差未知,从中随机抽取 10 名被试,其平均值X =78,方差Sn2=82,则总体均值μ的 0.95 的置信区间为( )。(A)72. 77<μ<83. 23 (B)71. 97<μ<84 . 03(C)73 .57<μ<82. 41 (D)73 .21<μ<82 . 7910、对于样本平均数而言,总体服从正态分布且总体方差未知时,该统计量对应的标准误为( )。(A) σ√n (B) Snn−1 (C) sn−1√n (D) σ√n−1(二)判断题1、抽样分布是参数区间估计的基本原理。 ( )2、无论在何种条件下,我们均可用标准差来直接比较两组同质数据的离散程度。 ( )3、在统计推断中小概率事件一般被称为不可能发生的事件。 ( )(三)简答题1、什么是抽样分布,以样本平均数的抽样分布为例,说明总体参数区间估计的基本原理。2、举例说明计数数据分析的基本原理及主要功能(列举其中主要的两项即可)。3、什么是散点图,简单叙述散点图在实际研究中的用途。4、以样本均值与总体均值差异显著性检验为例,说明假设检验的基本原理与步骤。(四)计算题某 小 学 三 年 级 数 学 测 验 成 绩 呈 正 态 分 布 , 从 中 随 机 抽 取 17 名 学 生 成 绩 如 下 :80,69,82,75,92,99,67,78,83,100,82,75,69,83,78,88,95。12
(1)试估计三年级数学测验平均成绩的 0.95 和 0.99 的置信区间; (2)比较不同置信度下区间估计结果的差异,根据这一差异你可出得到什么结论。(五)综合应用题研究者预回答在四种不同处理条件下,被试的反应是否存在差异。随机抽取 5 名被试,分别接受四种不同的实验处理,结果如下表(假设测试结果服从正态分布,各处理组方差齐性)。实验处理被试A1 A2 A3 A41 2 3 4 52 3 5 5 63 3 4 6 74 4 6 7 85 4 5 6 6(1)该研究设计属于哪种设计,自变量和因变量分别是什么,应用什么方法分析数据?(2)对上表中的数据进行分析,回答四种处理下,被试反应是否存在差异?该实验设计是否成功?(α=0 . 05)五、参考答案(一)单项选择题CCBCC BDDAC(二)判断题T F T(三)简答题1、答案要点:统计量是样本的函数,它是一个随机变量。统计量的分布称为抽样分布。总体参数区间估计的基本原理是依据样本统计量的分布规律及样本分布的标准误总体参数区间估计:当总体方差已知时,样本平均数的分布为正态分布或渐近正态分布,此时 ,平均数分布的标准差 。根据正态分布,和标准分数 ,有 68.26%的 落在 μ上下一个 之间,有 95%的 落在 μ 上下 1.96 个 之间,有 99%的 落在 μ 上下 2.58个 之间.在实际研究中,只有一个 ,可看做无限多个 中的一个。即为有 68.26%的机会 μ 被包含在任何一个平均数 之间。犯错误的概率为(1-68.26%)。因为不能确定样本平均数 究竟落在 μ 的左侧还是右侧,所以用平均数加减一定数量的标准误计算置信区间。其他总体参数的估计原理与平均数的估计原理相同,但所依据的样本分布及标准误不同。13
2、答案要点:对于计数数据的统计分析,一般应使用属性统计方法,因为这类数据是按照事物的属性进行多项分类的。计数数据的分析在多数情况下不是对总体参数的检验,而是对总体分布的假设检验。它往往依据样本的频数分布,在一定的可靠性程度上推断样本所属的总体是否服从某种理论分布或某种假设分布,这样一种检验称为 检验。 检验的原理是检验样本观测次数(或百分比)与理论或总体次数(百分比)的差异性。比较观察值与理论值的差别,如果两者的差别越小,检验结果越不容易达到显著性水平;两者差异越大,检验结果越可能达到显著水平。基本公式如下:这里, 表示样本的实际频数 表示总体的理论频数值表示统计值与理论量的差异程度。一旦其大于某一临界值,即可获得显著的统计结论。它的主要功能有: 检验一个因素多项分类的实际观察数与某项理论次数是否接近。 检验两个或两个以上因素各种分类之间是否有关联或是否具有独立性。 检定不同人群母总体在某一个变量的反应是否具有显著差异。3、答案要点:散点图是用相同大小圆点的多少或疏密表示统计资料数量大小及变化趋势的图。通常以圆点分布的形态表示两种现象间相关程度。用途:在相关研究中,通常用散点图表示两个变量之间的关系。通过点的散布形状和疏密程度来显示两个变量的相关趋势和相关程度,能够对原始数据间的关系做出直观而有效的预测和解释。因此,散点图是确定变量之间是否存在相关关系及关系紧密程度的简单又直观的方法。4、答案要点:假设检验的基本思想是概率性质的反证法。首先虚无假设为样本均值与总体均值无差异,备则假设是两者有差异。第二步,要选择适当的检验统计量。如在总体正态分布,总体方差已知的情况下,就选择 Z 分数作为检验统计量,而总体正态分布,总体方差未知的条件下,选择 t 检验,总体非正态分布的条件下,使用近似 Z 检验。第三步要规定显著性水平 α,从而确定拒绝域。第四步是计算检验统计量的值。根据定义,计算 Z 值,t 值和 Z’的值。最后一步是根据显著性水平和统计量分布查相应的统计表。得到接受域和拒绝域的临界值,将计算出的统计量与之比较,做出接受或拒绝虚无假设的决策。(四)计算题答案要点:( 1 ) 首 先 计 算 出 =82.06 , s=10.053 。 总 体 方 差 未 知 ,10.053/4=2.51325当 n=17 时,df=16,查 t 值表得t0. 025(16 )=2 .120,82.06-2.51325*2.12<μ<82.06+2.51325*2.1276.73191<μ<87.3880914
同理, ,82.06-2.51325*2.921<μ<82.06+2.51325*2.92174.7188<μ<89.4012( 2 ) 在 0.95 置 信 区 间 下 , 76.73191<μ<87.38809 , 在 0.99 置 信 区 间 下 ,74.7188<μ<89.4012。可以看出 0.99 置信区间得到 μ 的范围比 0.95 置信区间的大。置信度越高,估计正确的概率越大,所估计出的 μ 可能的范围越大。(五)综合应用题设:(下标 1,2,3,4 代表四个不同的实验处理)=537=99=2593平方和: =537- =46.95=2593/5- =28.55=2023/4- =15.7=2.7自由度:193412均方:9.5166673.9250.225F 检验: 42.2963查 F 表,计算的值大于临界值,因此回答四种处理下,被试反应存在显著差异。15
被试效应: 17.44444查 F 表, 小于被试效应的 F 值,说明被试效应显著。该实验采用被试内设计是成功的。说明:本考试指导只适用于 201803 学期 6 月期末考试使用,包括正考和重修。指导中的章节知识点涵盖考试所有内容,给出的习题为考试类型题,习题答案要点只作为参考,详见课程讲义或课程 ppt。在复习中有任何问题请到课程答疑区咨询。祝大家考试顺利!16
均水平,差异情况等非常有用。由于数据的性质不同,有时实验结果的次数分布图上会出现双峰。(三)集中量数集中量数主要用来描述一组数据的集中趋势,常用的代表性的集中量数有算术平均数、中数、众数。1、算术平均数:又称平均数,是集中量数中性能最好的一个统计量,一般用 M 表示。平均数是一种受极端数据值影响的统计量。2、加权平均数加权算术平均数是指一组数据中每个数据与其权重乘积的总和除以权重总和所得的商。在心理与教育研究中,经常会遇到由各个平均数计算总平均数这类实际的统计计算问题。在这个问题中,可以把各小组的平均分数,视为该小组每个个体的分数,而把每个小组的人数,视为权数。3、次数分布表中算术平均数的计算对于已经列成次数分布表的数据,其算术平均数的计算公式为:¯X =∑fXCN式中,XC为各组的组中值,f为各组的次数,N 为总次数,即N=∑f。4、中数与众数中数:又称中点数,中位数,中值。符号为 Md 或 Mdn。中数是按一定顺序排列在一起的一组数据中居于中间位置的数。当数据的个数为偶数时,则取居中间两个数据的平均数为中位数。对于数据较多的资料,其算术平均数与中位数的值不会相差太大。众数:又称为密集数、范数等,常用符号 M0表示,众数是指在次数分布中出现次数最多的那个数的数值。5、平均数、中数与众数三者之间的关系在正态分布中三者相等,在正偏态分布中,平均数大于中数,中数大于众数。在负偏态分布中,平均数小于中数,中数小于众数。M<Md<Mo。对于数据较多的资料,其算术平均数与中位数的值不会相差太大。(四)差异量数差异量数是对一组数据的变异性,即离中趋势特点进行度量和描述的统计量,也称为离散量数。1、全距、百分位差和四分差全 距 又 称 两 极 差 , 用 符 号 R 表 示 , 用 最 大 值 减 去 最 小 值 就 是 全 距 。 例 如 ,4,4,5,3,5,5,2。这列数据的全距为 3百分位差是用百分位数之间的差值来表示离中趋势的一种差异量数。四分差,又称为四分位差,通常用符号 Q 来表示,指在一个次数分配中,中间 50%的次数的全距之半,也就是上四分点与下四分点之差的一半。例如,已知在甲分布中 P90-P10=38,在乙分布中 P90-P10=24,两个分布的分散程度,则甲>乙。2、标准差、方差(1)方差:也称变异数,均方。作为样本统计量,用符号 s2 表示,作为总体参数,用 σ2表示。它是每个数据与该组数据平均数之差乘方后的均值,即离均差平方后的平均数。2
标准差的计算公式为标准差是一组同质数据间变异度大小的量度指标,但是如果两组数据平均数相差较大时,不能采用标准差进行比较。标准差、方差是描述数据的离散趋势最好的统计值。(2)方差性质:可加性、可分解性标准差特性:每一个观察值都加一个相同常数 C 之后,计算得到的标准差等于原标准差。每一个观察值都乘一个相同常数 C,则所得到的标准差等于原标准差乘以常数 C。以上两点结合,每一个观察值都乘以一个常数 C(C 不等于 0),再加上一个常数 d,所得标准差等于原标准差乘以常数 C。(3)方差、标准差的意义:是表示一组数据离散程度的最好指标。其值越大,表示数据的离散程度越大,该组数据越分散;其值越小,表示次数分布的数据比较集中,数据的离散程度越小。3、分组资料标准差的计算方法对于次数分布表中的数据标准差计算公式为:S=√Σ fXC2N−(∑fXCN)24、差异系数:又称变异系数、相对标准差等,是一种相对差异量,用 CV 表示,为标准差对平均数的百分比,计算公式:CV=S/M×100%。差异系数的心理与教育研究中常用于:(1)同一团体不同观测值离散程度的比较,如身高和体重离散程度的比较;(2)对于水平相差较大,但进行的是同一种观测的各种团体,进行观测值离散程度的比较。5、标准分数:(1)又称基分数或 Z 分数,是以标准差为单位表示一个原始分数在团体中所处位置的相对位置量数。标准分数的计算公式:(2)标准分数在实际中的应用:① 用于比较几个分属性质不同的观测值在各自数据分布中相对位置的高低;② 计算不同值的观测值的总和或平均值,以表示在团体中的相对位置;③ 表示标准测验分数。(五)相关系数1、相关系数用于描述双变量数据相互之间的关系,是两列变量间相关程度的数字表示形式,或者说是用来表示相关强度的指标。样本相关系数用 r 表示,总体一般用 表示。相关系数的取值介于-1.00 至+1.00 之间,常用小数形式表示。相关系数的正负号,表示相关方向,取值的大小表示相关的程度。如果两个相关系数取值相同,正负号不同,则相关程度相同。当 XY 相关程度很小时,从 X 推测 Y 的可靠性就很小。2、散点图(1)散点图是用相同大小圆点的多少或疏密表示统计资料数量大小及变化趋势的图。通3
常以圆点分布的形态表示两种现象间相关程度。(2)在实际中的用途:在相关研究中,通常用散点图表示两个变量之间的关系。通过点的散布形状和疏密程度来显示两个变量的相关趋势和相关程度,能够对原始数据间的关系做出直观而有效的预测和解释。因此,散点图是确定变量之间是否存在相关关系及关系紧密程度的简单又直观的方法。3、积差相关适用的条件:(1)两列数据都是测量的数据,而且两列变量各自总体的分布都是正态的 ,即正态双变量。(2)两列变量之间的关系应是直线性的,非直线性的双列变量,不能计算线性相关。(3)两变量测量到的数据必须是成对的数据,对于不成对的数据无法计算相关,即使计算,得到的相关也没有意义。计算公式:r=∑xyNSxSy 式中 x=X −¯X,y=Y −¯Y,N 为成对数据的数目,Sx为 X 变量的标准差,Sy为 Y 变量的标准差。利用原始数据计算,公式可以转化为:r=∑XY −∑X∑YN√∑X2−(∑X )2N⋅√∑Y2−(∑Y )2N其计算步骤为:(1)计算X变量的∑X、∑X2和(∑X )2;(2)计算Y变量的∑Y、∑Y2和(∑Y )2;(3)计算XY,∑XY;(4)将有关数据代入公式,求得r。例如,计算 12 名学生两项心理测验的得分的相关系数,可以利用积差相关。4、等级相关(1)斯皮尔曼等级相关:适用于两变量的资料为等级测量数据,且具有线性关系;连续变量的测量数据,按其大小排成等级,也可以用等级相关法计算;不要求总体呈正态分布例如,想了解某一测验结果(测验结果服从正态分布)与文化程度是否有关联,可以采用等级相关。5、相关系数的选择:主要取决于要处理数据的性质类别以及某一相关系数需要满足的假设条件。6、点二列相关两列变量一列是正态连续性变量,另一列是二分变量,描述这两个变量之间的相关,称为点二列相关。7、肯德尔和谐系数一般常用来表示评分者信度。(六)概率分布1、概率的基本性质概率的公理系统:任何一个随机事件 A 的概率都是非负的;在一定条件下,必然发生的必4
然事件的概率为 1;在一定条件下必然不发生的事件,既不可能事件的概率为 0。任何一个随机事件的概率介于 0 和 1 之间。在统计推断中小概率事件一般被称为不可能发生的事件。事件的概率仅由事件本身决定,与我们用什么方法去求它无关。 2、正态分布(1)正态分布又叫常态分布,是连续随机变量概率分布的一种。自然界,人类社会,心理与教育中大量现象均按正态的形式分布。正态分布曲线函数又称密度函数,一般方程为:其中, 是圆周率 3.14159...e 是自然对数的底 2.71828...;X 为随机变量取值 ;为理论平均数, 为理论方差;y 为概率密度,即正态分布的纵坐标。(2)正态分布的特点① 正态分布的形式是对称的,它的对称轴是经过平均数点的垂线;②正态分布的中央点(即平均数点)最高,然后逐渐向两侧下降,曲线的形式是先向内弯,然后向外弯,拐点位于正负一个标准差处,曲线两端向靠近基线处无限延伸,但终不能与基线相交;③正态曲线下的面积为 1,过平均数点的垂线将其面积划分为相等的两部分;④正态分布是一族分布,它随随机变量的平均数,标准差的大小与单位不同而有不同的形态;⑤正态分布中各差异量数值相互间有固定的比例;⑥正态分布曲线下,标准差与概率(面积)有一定的数量关系。决定正态分布曲线的最高点在横轴上确切位置的是平均数(即 μ)。(3)在实际中的应用① 化等级评定为测量数据;② 确定测验题目的难易度③ 在能力分组或等级评定时确定人数④ 测验分布的正态化例如,某班级一次考试成绩服从正态分布,全班平均成绩为 70 分,标准差为 10 分,一个学生成绩为 80 分,他在全班的名次为前 20%又如,某班成绩服从正态分布,平均数为 80,标准差为 4 分,那么得 76 分至 80 分之间的学生比率为 0.343、样本分布:是样本统计量的分布,是统计推论的重要依据。常用的样本分布有平均数及方差的分布。当样本足够大时,样本分布与总体分布相同。(1)平均数的样本分布:所谓平均数的样本分布是指从随机变量为正态分布的总体中,采取有放回随机抽样方法,每次从这个总体中抽取大小为 n 的一个样本,计算出它的平均数,这样抽取无限多次就将获得无限多个平均数,这无限多个平均数构成的分布就是平均数的样本分布。正态分布以及渐进正态分布:① 样本平均数的分布:总体服从正态分布且总体方差已知, 该统计量对应的标准误SE¯X为:SE¯X=σ√n;总体服从正态分布且总体方差未知时,该统计量对应的标5
准误为sn−1√n ② 方差与标准差的分布:自正态总体中抽取容量为 n 的样本,当 n 足够大时(n≥30),样本方差及标准差的分布,渐趋于正态分布。(七)参数估计1、自由度自由度是指统计运算与推断中变量值独立自由变化的数目,用符号 df 表示。自由度与统计运算和统计推断中样本容量及限制因素的个数有关。2、参数和统计量参数又称为总体参数,是指描述一个总体情况的一些统计指标;统计量又称为样本统计量是用来描述样本情况的一些统计指标。3、点估计和区间估计点估计:是用样本统计量来估计总体参数。样本统计量为数轴上某一点值,估计的结果也以一个点的数值表示,所以成为点估计。区间估计:就是根据估计量以一定可靠程度推断总体参数所在的区间范围,它是用数轴上的一段距离表示未知参数可能落入的范围,它虽不具体指出总体参数等于什么,单能指出未知总体参数落入某一区间的概率有多大。3、抽样分布统计量是样本的函数,它是一个随机变量。统计量的分布称为抽样分布。4、置信区间置信区间或称置信间距,是指在某一置信度时,总体参数所在的区域距离或区域长度。置信度是指估计总体参数落在某一区间的可能性或概率,而落在区间外,或指估计总体参数落在某一区间时可能犯错误的概率也称为显著性水平,用符号 a 表示。例如置信度为 0.95 的置信区间是指总体参数落在该区间之内,估计正确的概率为 95%,而出现错误的概率为 5%。5、区间估计的基本原理总体参数区间估计的基本原理是依据样本统计量的分布规律及样本分布的标准误。(1)总体方差的区间估计:根据 分布: 自正态分布的总体中,随机抽取容量为 n 的样本,其样本方差与总体方差比值的分布为 分布,这样可以直接查表确定其比值的 0.95 和 0.99 置信区间。再进一步用下式确定总体方差的 0.95 和 0.99 置信区间。查 df=n-1 的 表确定 与 的值,代入不等式得到。(2)总体平均数的区间估计当总体方差已知时,样本平均数的分布为正态分布或渐近正态分布,此时 ,平均数6
分布的标准差 。根据正态分布,和标准分数 ,有 68.26%的 落在 μ上下一个 之间,有 95%的 落在 μ 上下 1.96 个 之间,有 99%的 落在 μ 上下 2.58个 之间。在实际研究中,只有一个 ,可看做无限多个 中的一个。即为有 68.26%的机会 μ 被包含在任何一个平均数 之间。犯错误的概率为(1-68.26%)。因为不能确定样本平均数 究竟落在 μ 的左侧还是右侧,所以用平均数加减一定数量的标准误计算置信区间。其他总体参数的估计原理与平均数的估计原理相同,但所依据的样本分布及标准误不同。6、平均数的标准误:是指样本平均数分布的标准差,为了与总体的标准差相区别,一般用标准误来命名。(八)假设检验1、假设检验在统计学中,通过样本统计量得出的差异作出一般性结论,判断总体参数之间是否存在差异的推论过程就叫做假设检验。(1)假设检验的基本思想是“反证法”式的推理,通过检验虚无假设 的真伪来反证研究真实假设 的真伪,若 为真,则 为假,而 为假, 为真,而且无论作出是真还是假,其结论都带有概率性质。(2)拒绝 H0假设时所犯统计错误的概率为<α,在假设检验中,通常用 1-β 来表示统计检验力(3)假设检中的两类错误:α 型错误(I 类错误)和 β 型错误(II 类错误)。当两总体确实存在差异,应该推翻虚无假设,但统计的结果是不能推翻虚无假设时,就发生了 II 类错误。(4)双侧检验和单侧检验如果要检验一个平均数大于另一个平均数是否达到显著水平需用单侧检验。即检验两组的差异显著性时,只考虑 A>B 之意义,不考虑 A<B 之可能性者,为单侧检验(若上述 A 与B 之间的关系全部相反,亦为单侧检验);同时考虑包含 A>B 和 A<B 两种可能性者,为双侧检验。2、假设检验的一般步骤:(1)首先虚无假设为样本均值与总体均值无差异,备则假设是两者有差异。(2)第二步,要选择适当的检验统计量。如在总体正态分布,总体方差已知的情况下,就选择 Z 分数作为检验统计量,而总体正态分布,总体方差未知的条件下,选择 t 检验,总体非正态分布的条件下,使用近似 Z 检验。(3)第三步要规定显著性水平 α,从而确定拒绝域。(4)第四步是计算检验统计量的值。根据定义,计算 Z 值,t 值和 Z’的值。(5)最后一步是根据显著性水平和统计量分布,查相应的统计表。得到接受域和拒绝域的临界值,将计算出的统计量与之比较,做出接受或拒绝虚无假设的决策。3、总体平均数的显著性检验(1)总体正态分布,总体标准差未知7
小样本(n<30)时当总体标准差未知时检验样本平均数与总体平均数间的差异,其标准误中的总体标准差要用样本标准差代替。当小样本(n<30)时,标准误为SE¯X=Sn−1√n=Sn√n−1。大样本(n>30)时当总体分布正态,总体标准差未知时,只要是大样本,检验样本平均数与总体平均数间的差异时可用Z检验。因为大样本(n>30)时,用样本标准差Sn代替总体标准差σ,样本平均数的分布近似地服从正态,其标准误为SE¯X=Sn√n4、两个独立样本平均数的差异检验(1)总体方差已知,两独立样本平均数间差异的检验当总体正态分布,总体方差已知时,无论样本大小,均可采用Z检验,检验公式为:Z =¯X1−¯X2√σ12n1+σ22n2 其中¯X1,¯X2分别为两样本平均数;σ12, σ22分别为两样本对应的总体的方差,n1, n2分别为两样本容量。(2)总体方差未知,独立大样本平均数间差异的检验Z =¯X1−¯X2√S12n1+S22n2,其中¯X1,¯X2分别为两样本平均数;S12, S22分别为两样本对应的方差,n1, n2分别为两样本容量,分母√S12n1+S22n2是¯X1−¯X2的标准误。(3)总体方差未知,独立小样本平均数间差异的检验t=¯X1−¯X2√∑x12+∑x22n1+n2−2⋅√1n1+1n2 (df =n1+n2− 2)其中¯X1,¯X2分别为两样本平均数;n1, n2分别为两样本容量,∑x2=∑( Xi−¯X )2=nSn2=(n−1)Sn−12。8
当样本容量相等(即n1=n2)时,上述公式可简写为:t=¯X1−¯X2√S12+S22n−1例如,为了了解男女被试走迷宫所用时间是否有显著差异,随即抽取男女各 26 名,知道男女两组的平均数和标准差,总体方差未知,可采用上述公式。4、平均数差异的显著性检验,是对两个样本平均数之间差异的检验,目的在于由样本平均数之间的差异来检验各自代表的总体之间的差异。(九)方差分析1、方差分析(1)方差分析的目的是通过 F 检验讨论组间变异在总变异中的作用,借以对两组以上的平均数进行差异检验,得到一个整体性的检验结果。如果 F 检验的结果差异不显著,说明实验中的自变量对因变量没有显著影响,检验就此结束。如果 F 检验的结果差异显著,因为它只表明几个实验处理组的两两比较中至少有一对平均数间的差异达到了显著水平,至于是哪一对却没有回答。此时需要进行事后检验。方差分析不能同时检验任意两个平均数之间的差异。(2)方差分析的基本假定变异的可加性;总体服从正态分布;方差齐性2、对于一元线性回归方程有效性的 F 检验,总的变异可以被分解为回归平方和和残差平方和两部分3、方差分析的一般步骤(1)建立假设方差分析的实质是假设各样本来自同一个正态总体,然后用 F 检验来判断这一假设是否成立。建立的假设具体写为:H0: μ1=μ2=⋯=μk,H1:至少有两个平均数不相等(2)求平方和和自由度即分别求出总体、组间、组内的平方和SSt, SSb, SSw及相应自由度dft, dfb, dfw。(3)求均方MSb和MSw。(4)进行 F 检验首先求 F 值,然后查 F 分布表找到临界值,F0 . 05(dfb, dfw)和F0 . 01( dfb,dfw),并进行比较。如果计算的F>Fα值,则推翻原假设,认为至少有两个平均数间差异显著;如果F<Fα,则认为各样本来自同一个正态总体。(5)列方差分析表将方差分析的过程和结果列在一个表中,在实际统计研究报告中,并不详细描述计算过程,而只将分析的过程和结果列在如下形式的表中。4、单因素方差分析在实验中如果仅有一个实验因素,这个因素又分成 k 种不同水平(k>2)或 k 种不同处理;将 N 名被试随机分成 k 个实验组,每个实验组又被随机指定接收一种实验处理,这种实验设计就叫做单因素完全随机化设计。依据原始数据进行方差分析的步骤,与上述一般步骤一致,包括建立假设、求平方和与自由度、求均方、进行 F 检验、列方差分析表。9