0272《心理统计学》2020年12月期末在线考试指导
发布时间:2023-08-28 20:08:05浏览次数:510272《心理统计学》2020 年 12 月期末在线考试指导一、考试说明本课程闭卷考试,满分 100 分,考试时间 90 分钟。考试包括以下六种题型:1、单选题(每题 2 分,共 30 分)2、多选题(每题 2 分,共 10 分)3、判断题(每题 2 分,共 10 分)4、简答题(每题 5 分,共 10 分)5、计算题(每题 15 分,共 15 分)6、综合分析题(每题 25 分,共 25 分)二、重点复习内容(一) 绪论1、心理学统计学的内容:描述统计、推论统计、实验设计。依照统计方法的功能进行划分,教育统计学可以划分为描述统计和推论统计。其中,描述统计的指标包括数据的集中趋势,数据的离散趋势和数据间的相关。(二)统计图表1、次数分布表:各种次数分布的列表形式和图示形式。次数分布包括简单次数分布、分组次数分布、相对次数分布、累积次数分布等。2、次数多边形图的横坐标代表各组数据的组中值3、对数据进行分组时,一定要按各组的精确下限和精确上限(左闭右开),例如 157.5 这个数的上限是 157.554、若描述统计事项随时间的变化其总体指标的变化趋势,应该使用动态曲线图5、按照测量的水平,数据的种类和特点按照测量的水平,可以划分为称名变量、等级变量、等距变量和比率变量。(1)称名变量,是指根据事物的某一特征,用来划分、区别事物的不同种类所形成的变量。这类数据并无数量和序列的含义,不能进行数量化分析,不能做加减乘除的运算。 (2)等级变量,在对事物进行分类过程中,依据事物某种属性程度的大小排列顺序形成的变量。等级变量既无相等单位,也无绝对零,不同组的等级变量间不能进行加减乘除的运算。(3)等距变量,是指在观测标识事物某一特定属性时,具有相对参照点、有相等单位的变量。可以进行加减运算,但是由于等距变量的参照点是相对的,即无绝对零点,因此不能进行乘除的运算。 (4)比率变量,是指既有相等单位又有绝对零参照点的变量,如身高、体重、反应时、各种感觉阈值的物理量等。这类变量可以进行加减乘除的运算。6、根据数据的分布形式,可以将数据分为离散变量和连续变量连续变量的单位是无限的,可以细微到只可想象而不能看见的程度。例如,研究者想要研究概念形成能力随着年龄的发展特点,在其研究中,研究者记录了每个测查者的年龄,则在此研究中年龄是连续变量。离散变量的数字形式一般是整数,两个单位之间不能再划分细小单位。(三)集中量数集中量数主要用来描述一组数据的集中趋势,常用的代表性的集中量数有算术平均数、中1
时并不需要去检验总体分布的正态性。(3)方差齐性:在方差分析中用 MSw作为总体组内方差的估计值,求组内均方 MSw时,各实验处理内的方差彼此也应无显著差异,这是方差分析中最为重要的基本假定。3、对于一元线性回归方程有效性的 F 检验,总的变异可以被分解为回归平方和和残差平方和两部分4、方差分析的一般步骤(1)建立假设方差分析的实质是假设各样本来自同一个正态总体,然后用 F 检验来判断这一假设是否成立。建立的假设具体写为:, 至少有两个平均数不相等(2)求平方和和自由度即分别求出总体、组间、组内的平方和 及相应自由度 。(3)求均方 和 。(4)进行 F 检验首先求 F 值,然后查 F 分布表找到临界值, 和 ,并进行比较。如果计算的 值,则推翻原假设,认为至少有两个平均数间差异显著;如果 ,则认为各样本来自同一个正态总体。(5)列方差分析表将方差分析的过程和结果列在一个表中,在实际统计研究报告中,并不详细描述计算过程,而只将分析的过程和结果列在如下形式的表中。5、单因素方差分析在实验中如果仅有一个实验因素,这个因素又分成 k 种不同水平(k>2)或 k 种不同处理;将 N 名被试随机分成 k 个实验组,每个实验组又被随机指定接收一种实验处理,这种实验设计就叫做单因素完全随机化设计。例如,从三所学校各抽取 5 名学生参加考试,问三所学校学生的考试成绩是否有显著差异?依据原始数据进行方差分析的步骤与上述一般步骤一致,包括建立假设、求平方和与自由度、求均方、进行 F 检验、列方差分析表。(十) 检验和其他非参数检验1、参数检验和非参数检验参数检验法和非参数检验法是两类不同的统计推断方法。Z 检验、t 检验、F 检验等,是在假设总体正态分布的前提下,用样本中所含有的信息推断总体相应参数的特征,称之为参数检验法。在研究的总体分布非正态或分布形态不清时,通过样本信息去推断总体时,不能直接对总体参数进行检验,而是通过检验其分布情况实现的,称之为非参数检验法。2、 检验检验是一种非参数检验方法,它既适用于单样本,也可用于两样本,但样本数目不能太少。主要用来统计分析计数数据,即个数、次数等不连续变量。在单因素卡方检验中,样本 N,K 种实验处理,自由度为 K-1检验的假设:分类相互排斥,互不包容;观测值的相互独立;期望次数至少在 5 个以上。检验的基本公式: , 为实际观测次数, 为某理论次数。3、预研究 10 名被试实验前后的反应时是否存在显著差异,已知其分布为非正态,最恰当10
的统计方法是符号检验。(十一)线性回归1、线性回归:回归分析是探讨变量间数量关系的一种常用统计方法。它通过建立变量间的数学模型对变量进行预测和控制。对于一元线性回归方程有效性的 F 检验,总的变异可以被分解为,回归平方和和残差平方和两部分2、相关系数和回归系数之间存在一定的关系, ,由此可以推断变量 x 和 y 的关系,例如,从 X 推测 Y 的回归系数为-0.80,说明 X 和 Y 两变量是负相关。3、简单回归分析模型:在简单模型中, ,其中参数 a、b 分别表示截距与斜率,叫做因变量或被预测变量,X 叫做自变量或预测变量。因变量的观察值与预测值之间的差异叫做残差。4、线性回归分析的假设条件(1)特定自变量 X 对应的因变量 Y,应服从方差相等的正态分布;(2)不同观测误差项之间相互独立;(3)自变量和因变量之间具有线性关系。5、考察两个服从正态分布的连续变量之间的因果关系,可以采用线性回归。使用最小二乘法建立线性回归模型。如考察自我概念对学习成绩影响。建立回归方程的具体步骤为: 带入公式进行计算。进一步检验有效性:, ,,查 F 值表,进行检验。6、决定系数:决定系数是相关系数的平方例如,以学习成绩为效标,得到某一智力测验的效标关联效度为 0.80。将此测验用于预测时,其测验结果可解释学习成绩变异的 64%三、答题技巧1、单选题和多选题:能够根据题干描述,从备选项中再认出正确答案,单选题只能选择一个答案,多选题需要选择 2 个及以上正确答案,考查对基本知识点的理解和记忆。可以采用直接选择法、排除法等方法进行选择。2、判断题:一般是对学科中基本问题与概念的描述,结合学习的内容进行正误判断。3、简答题:问答题是对学科中的基本问题与概念的记忆和理解,需要根据题干要求,回答要点即可。11
4、计算题:结合所学知识,根据相关公式和计算要求,进行计算。5、综合分析题:需要对课程内容有一个综合把握和理解,根据题目要求,对课程中涉及到的知识点进行提取,并结合公式进行计算或阐述。四、重点复习题(一)单选题1.次数多边形图的横坐标代表各组数据的( )A.上限B.下限C.组中值D.平均值2.测量数据 8.35 的下实限是( )A.8.35B.8.345C.8.34D.8.3543.已知一组数据的平均数为 4.0,标准差为 1.2,如果其中某个数据 X=6.4,那么其相应的标准分数为( )A.2.4B.2.0 C.5.2D.1.34.已知某小学一年级学生的平均体重为 25 千克,体重的标准差为 3.7 千克,平均身高 110厘米,标准差为 6.2 厘米,关于体重和身高离散程度的叙述,正确的是( )A.身高的离散程度较体重大B.身高的离散程度较体重小C.一样大D.条件不够,无法比较5.在心理实验中,有时安排同一组被试在不同的条件下做实验,获得的两组数据是( )A.相关的B.不相关的C.不一定D.一半相关,一半不相关6.下列四个直线相关系数中哪个表示最强的相关程度?( )A.-0.77B.+0.09C.+0.64D.+0.17.有相等单位但无绝对零点的数据是( )A.称名数据B.顺序数据C.等距数据D.比率数据12
8.一个满分为 20 分,且测试结果服从正态分布的测验,想了解该测验结果与性别是否有关联,则最恰当的方法是( )A.等级相关B.二列相关C.点二列相关D.卡方检验9.采用单侧或双侧检验是( )A.事先确定的B.事后确定的 C.无所谓的 D.计算后确定的10.某班成绩服从正态分布,平均数为 80,标准差为 4 分,那么得 76 分至 80 分之间的学生比率为( )A.-0.34 B.0.34C.0.24D.-1.0011.已知某年级 200 名学生考试成绩呈正态分布,平均分为 85 分,标准差为 10 分,学生甲的成绩为 70 分,全年级成绩比甲低的学生人数是( )A.14 B.20C.13D.1212.在大多数情况下,真值的最好的估计值是( )A.几何平均数B.中位数C.算术平均数D.众位数13.若描述统计事项随时间的变化其总体指标的变化趋势,应该使用( )A.次数分布多边图 B.动态曲线图C.依存关系曲线图D.次数分布直方图14.在推论统计中,尤其是进行方差分析时,常用来表示数据的离散程度的是( )A.差异系数B.标准差C.方差D.四分差15.温度有相同的单位,但没有绝对零点,属于( )A.称名变量B.等距变量C.等级变量D.比率变量16.一个小组共有 6 人,在一次测验中他们的成绩都是 80 分,则该组成绩的标准差是( )13
A.0B.1C.6D.8017.将一个均值为 38,标准差为 4 的正态分布通过线性变换转换为均值为 100,标准差为 10的正态分布,则原始分数 40 在转换后的分布中对应的标准分数为( )A.-6B.6C.0.5D.-0.518.某种补脑药声称能让小孩聪明起来,研究人员将一个幼儿园的小孩随机分成两组,其中一组服用一个疗程的补脑药,而另一组则用糖水代替。对实验后的智力测验数据做 t 检验进行比较,看看补脑药是否有效。将服用补脑药作为第一组,服用糖水的作为第二组,该检验应该用( )A.双侧检验B.左侧检验 C.右侧检验D.以上都可以19.数列 11,11,12,12,13,13,13,17,17,18 对应的中数是( )A.12.66B.13.33C.12.8D.12.520.已知智商测验的平均分为 100,标准差为 15,某人智商为 130,智商比他低的人约占()A.5%B.50%C.95%D.98%21.P55=65 表示( )A.低于 55 分的人数占总人数的 65%B.高于 55 分的人数占总人数的 65%C.高于 65 分的人数占总人数的 55%D.低于 65 分的人数占总人数的 55%22.肯德尔和谐系数一般常用来表示( )A.评分者信度B.题目一致性C.题目难度D.测验效度23.某测验测试总分为连续变量,且服从正态分布,为了描述某一选择题的区分度,应采用( )A.积差相关B.等级相关C.点二列相关14
D.品质相关24.拒绝 H1 假设时所犯统计错误的概率为( )A.<αB.>α C.<β D.>β25.已知在甲分布中 P90-P10=38,在乙分布中 P90-P10=24,两个分布的分散程度( )A.甲>乙 B.甲=乙C.甲<乙D.无法比较26.对于一元线性回归方程有效性的 F 检验,总的变异可以被分解为( )A.误差平方和和区组平方和两部分B.残差平方和、组间平方和和区组平方和三部分C.总平方和、回归平方和和残差平方和三部分D.回归平方和和残差平方和两部分27.抽样的基本原则是( )A.随机化原则 B.标准化原则C.概括化原则D.等距化原则28.下面关于线性回归分析假设条件的叙述不正确的是( )A.回归分析中的自变量 X 和因变量 Y 应服从正态分布 B.特定自变量 X 对应的因变量 Y,应服从方差相等的正态分布C.不同观测误差项之间相互独立D.自变量和因变量之间具有线性关系29.某班语文期末考试,语文平均成绩为 82 分,标准差为 6.5 分;数学平均成绩为 75 分,标准差为 5.9 分;外语成绩为 66 分,标准差为 8 分,问哪一科成绩的离散程度最大?( )A.语文B.数学C.外语D.无法比较30.已知相关系数 A 为-0.40,相关系数 B 为+0.40,说明两者的相关程度( )A.前者比后者大B.前者比后者小一倍C.前者比后者小 0.80D.相等(二)多选题1.以下哪些可以用来表示数据集中的情况( ) A.算术平均数B.中数C.众数D.标准差15
2.某校四年级举行数学竞赛,一班、二班分别派九名选手参加,一班的平均分为 73,标准差为 14.09;二班的平均分为 73,标准差为 25.71。则( )A.两班的平均水平相同B.两班的差异水平很不同C.一班的差异程度较大D.二班的差异程度较大 3.以下说法正确的是( ) A.任何随机事件的频率介于 0 和 1 之间 B.概率论研究的都是随机事件 C.经验概率是在事件之前利用有关事实确定的 D.先验概率是由计算事件发生的频率而得4.三种性质不同的分布是( )A.总体分布 B.样本分布 C.抽样分布 D.常模分布5.统计推断时,对总体参数的估计分为( )A.无偏估计 B.点估计 C.一致估计 D.区间估计6.依照统计方法的功能进行划分,教育统计学可以划分为( )A.回归分析B.描述统计C.多元统计D.推论统计7.下述说法正确的有( )A.正态分布是二项分布的极限B.概率是频率的极限C.用频率可以准确地计算出概率D.在正态分布中如果标准差增大,正态分布曲线会变陡峭 8.t 分布的特点有( ) A. t 分布侧 t 为正值 B. t 分布的平均值为 0 C. t 变量取值在负无穷大至正无穷大之间 D. t 分布右侧 t 为负值9.关于正态分布、t 分布、F 分布说法正确的是( )A.都是对称的分布B.正态分布、t 分布为对称的分布 C.都不是对称分布 D. F 分布不对称10.概率的两个基本法则是( )A.概率的加法定理 B.概率的减法定理 16
C.概率的乘法定理 D.概率的除法定理(三)判断题1.在统计推断中小概率事件一般被称为不可能发生的事件。2.标准差越大说明离散程度越小。3.将一组数据中的每个数值都加上 10,则所得标准差与原来的标准差相同。4.身高是等距变量。5.抽样分布是参数区间估计的基本原理。6.利用次数分布表求出的算术平均数是一个近似值。7.百分等级越低,个体在团体中所处的位置越高。8.点二列相关是积差相关的特例。9.相关系数达到 0.4,即为高度相关。10.无论单尾检验还是双尾检验,若在 a=0.05 情况下拒绝原假设,都说明两个量之间在 0.05水平上差异显著。(四)简答题1.什么是概率?概率具有哪些性质?2.什么是标准分数?简单叙述标准分数在实际中的应用。(五)计算题1.某市中考,数学的平均成绩为 102 分,标准差为 20 分;语文的平均成绩为 98 分,标准差为 18 分;一考生的数学成绩为 140 分,语文成绩为 135 分。该生中考哪科考得好些?2.从某校随机抽取 15 名学生,分别对其学习动机和学业成绩进行测试,测试结果如下:学习动机分数:22,23,22,38,21,21,24,26,25,32,30,35,38,39,39学业成绩分数:62,65,73,81,78,89,78,84,86,85,92,97,91,90,94假设其学习动机和学业成绩均服从正态分布,分别求这 15 名学生学习动机和学业成绩的平均值和标准差,计算学习动机与学业成绩之间的相关系数。(六)综合分析题1.案例 1:某校初三数学期中考试,平均成绩为 83 分,标准差为 8 分,一班参加考试 25 人,平均成绩 86 分,问该班成绩与全校成绩是否一致?已知全校学生成绩服从正态分布。案例 2:某县初一学生数学统考成绩服从正态分布,其平均成绩为 70 分。某校有 26 名学生参加考试,成绩如下,问该校成绩是否与全县一致?案例 3:甲、乙两校联合举行高一数学考试,参加人数分别为 85 人和 96 人,数学平均成绩分别为 78 分和 81 分,标准差分别为 9.4 分和 7.2 分,试问两校数学考试成绩是否有显著差异?请结合所学知识思考上述三个例子均需采用哪种检验方法,并说明原因。2.从甲乙两校随机抽取 10 份数学竞赛试卷,其卷面上的分数如下:甲校(X): 64,68,58,60,80,76,84,54,50,60乙校(Y): 60,71,60,56,68,78,90,42,48,63请思考采用哪种方法检验甲乙两校此次数学竞赛成绩是否一样(α=0.05)?请写出具体步骤,无需计算。五、参考答案(一)单选题17
1-5 CBBBA 6-10 ACCAB 11-15 CCBCB 16-20 ACCCD 21-25 DACCA 26-30 DAACD(二)多选题1-5 ABC、ABD、AB、ABC、BD 6-10 BD、AB、BC、BD、AC(三)判断题1-5 正确、错误、正确、错误、正确 6-10 正确、错误、正确、错误、正确(四)简答题1.[答案]:(1)通俗地说,概率就是描述随机事件发生可能性大小的数。(2)概率的性质:任何一个随机事件 A 的概率都是非负的。 必然事件的概率为 1,必然事件是指在一定条件下必然发生的事件。 不可能事件的概率为 0,不可能事件是指在一定条件下必然不发生的事件。2. [答案]:标准分数是以标准差为单位表示一个原始分数在团体中所处位置的相对位置量数。实际中的应用有:1)用于比较几个分属性质不同的观测值在各自数据分布中相对位置的高低2)计算不同质的观测值的总和或平均值,以表示在团体中的相对位置3)表示标准测验分数(五)计算题1. [答案]:由于各科考内容难度等不同,数学的“1 分”与语文的“1 分”并不等价,即数学、语文成绩具有不同的单位,不具有可比性。所以根据数学成绩为 140 分,语文成绩为 135 分而得出数学比语文考得好的结论。若比较该生两科成绩的高低,必须将原始分数转化为标准分数。根据所给的条件,求得该生两科成绩的标准分数分别为:2.06 , 1.9。说明该生的语文成绩好于数学成绩。2. [答案]:(1)15 名学生的学习动机的平均值为 29,标准差为 6.93。15 名学生的学业成绩的平均值为 83,标准差为 9.93。(2)根据题意,学习动机和学业成绩均服从正态分布,则二者之间的相关可以通过计算它们的积差相关系数来表示:学习动机和学业成绩之间的相关系数为 0.639。(六)综合分析题1.[答案]:案例 1 中,总体服从正态分布,总体标准差已知,无论样本大小,均采用 Z 检验法;案例 2 中,总体正态分布,总体标准差未知,小样本 n 小于 30,采用 t 检验法案例 3 中,两个总体均值是否存在差异的检验。大样本,总体方差未知,用近似 Z 检验。2. [答案]:根据题目判断,此题属于两独立总体均呈正态分布,总体方差未知,独立小样本的平均数差异检验。首先进行方差齐性检验。分别求出两个样本的方差,根据公式计算 F,然后根据分子分母自由度查表,判断两个方差的差异是否显著。若两个方差差异不显著,则采用 t 检验,采用公式计算 t 值。根据题意,进行双侧检验,查 t值表,然后得出甲乙两校此次数学竞赛成绩在 0.05 水平是否差异显著。18
说明:本考试指导适用于 2 02009 学期期末考试使用,包括正考和重修。指导中的章节知识点涵盖考试所有内容,给出的习题为考试类型题,习题答案要点只作为参考,详见课程讲义或课程 PPT。在复习中有任何问题请到课程答疑区咨询。祝大家考试顺利!19
数、众数。1、算术平均数:又称平均数,是集中量数中性能最好的一个统计量,一般用 M 表示。算术平均数反应灵敏,计算简单;但易受极端数据的影响。平均数的计算公式为:加权平均数:指一组数据中每个数据与其权重乘积的总和除以权重总和所得的商。几何平均数应用时机:求一组等比或近似等比数据的平均数时;一组数据中有少数偏大或偏小的数据,数据分布呈偏态时;教育上,关于平均发展速度或者是对某项目标进行预估。2、中数与众数中数:又称中点数,中位数,中值。符号为 Md 或 Mdn。中数是按一定顺序排列在一起的一组 数 据 中 居 于 中 间 位 置 的 数 。 例 如 , 数 列11,11,12,12,13,13,13,17,17,18 对应的中数是 12.83。在一般情况下,中数不被普遍应用。但在以下特殊情况下,它的应用受到重视:当一组数据有极端值出现时;当一组有序数据两端有个别数据模糊不清或分组资料有不确定组限时;当需要快速估计一组数据的代表值时。众数:又称为密集数、范数等,常用符号 M0表示,众数是指在次数分布中出现次数最多的那个数的数值。3、平均数、中数与众数三者之间的关系在正态分布中三者相等,在正偏态分布中,平均数大于中数,中数大于众数。在负偏态分布中,平均数小于中数,中数小于众数。M<Md<Mo。对于数据较多的资料,其算术平均数与中位数的值不会相差太大。(四)差异量数差异量数是对一组数据的变异性,即离中趋势特点进行度量和描述的统计量,也称为离散量数。差异量数分为:绝对差异量数和相对差异量数;绝对差异量数:标准差,方差,四分差相对差异量数:差异系数1、全距、百分位差和四分差(1)全距又称两极差,用符号 R 表示,用最大值减去最小值就是全距。(2)如果将一组数据从小到大排序,并计算相应的累计百分位,则某一百分位所对应数据的值就称为这一百分位的百分位数。例如,P55=65,则表示低于 65 分的人数占总人数的 55%。百分位差是用百分位数之间的差值来表示离中趋势的一种差异量数。(3)四分差,又称为四分位差,四分位差也可视为百分位差的一种,通常用符号 Q 来表示,指在一个次数分配中,中间 50%的次数的全距的一半。例如,已知在甲分布中 P90-P10=38,在乙分布中 P90-P10=24,两个分布的分散程度,则甲>乙。2、标准差、方差(1)方差:也称变异数,均方。作为样本统计量,用符号 s2 表示,作为总体参数,用 σ2表示。它是每个数据与该组数据平均数之差乘方后的均值,即离均差平方后的平均数。方差差的计算公式为2
标准差是一组同质数据间变异度大小的量度指标,但是如果两组数据平均数相差较大时,不能采用标准差进行比较。标准差、方差是描述数据的离散趋势最好的统计值。(2)方差性质:可加性、可分解性标准差特性:每一个观察值都加一个相同常数 C 之后,计算得到的标准差等于原标准差。每一个观察值都乘一个相同常数 C,则所得到的标准差等于原标准差乘以常数 C。以上两点结合,每一个观察值都乘以一个常数 C(C 不等于 0),再加上一个常数 d,所得标准差等于原标准差乘以常数 C。(3)方差、标准差的意义:是表示一组数据离散程度的最好指标。其值越大,表示数据的离散程度越大,该组数据越分散;其值越小,表示次数分布的数据比较集中,数据的离散程度越小。3、差异系数:又称变异系数、相对标准差等,是一种相对差异量,用 CV 表示,为标准差对平均数的百分比,计算公式:CV=S/M×100%。差异系数的心理与教育研究中常用于:(1)同一团体不同观测值离散程度的比较,如身高和体重离散程度的比较;(2)对于水平相差较大,但进行的是同一种观测的各种团体,进行观测值离散程度的比较。4、标准分数:(1)又称基分数或 Z 分数,是以标准差为单位表示一个原始分数在团体中所处位置的相对位置量数。标准分数的计算公式:例如,将一个均值为 38,标准差为 4 的正态分布通过线性变换转换为均值为 100,标准差为 10 的正态分布,则原始分数 40 在转换后的分布中对应的标准分数为 0.5。(2)标准分数在实际中的应用:① 用于比较几个分属性质不同的观测值在各自数据分布中相对位置的高低;② 计算不同值的观测值的总和或平均值,以表示在团体中的相对位置;例如,某班语文平均成绩为 70,标准差为 8,数学平均成绩为 55,标准差为 4,A 考生语文成绩为 70 分,数学成绩为 57 分,B 考生语文成绩为 57 分,数学为 70 分,考察 A和 B 谁的成绩更好,则需要根据公式首先计算 A 考生语文、数学的 z 分数,以及 B 考生语文和数学的 z 分数,然后根据 z 分数比较 A 和 B 谁的成绩更好,计算可知 B 考生的成绩更好。③ 表示标准测验分数。(五)相关系数1、相关系数用于描述双变量数据相互之间的关系,是两列变量间相关程度的数字表示形式,或者说是用来表示相关强度的指标。样本相关系数用 r 表示,总体一般用 表示。相关系数的取值介于-1.00 至+1.00 之间,常用小数形式表示。相关系数的正负号,表示相关方向,取值的大小表示相关的程度。如果两个相关系数取值相同,正负号不同,则相关程度相同。当 XY 相关程度很小时,从 X 推测 Y 的可靠性就很小。2、散点图(1)散点图是用相同大小圆点的多少或疏密表示统计资料数量大小及变化趋势的图。通常以圆点分布的形态表示两种现象间相关程度。3
(2)在实际中的用途:在相关研究中,通常用散点图表示两个变量之间的关系。通过点的散布形状和疏密程度来显示两个变量的相关趋势和相关程度,能够对原始数据间的关系做出直观而有效的预测和解释。因此,散点图是确定变量之间是否存在相关关系及关系紧密程度的简单又直观的方法。3、积差相关的适用条件:(1)两列数据都是测量的数据,而且两列变量各自总体的分布都是正态的,即正态双变量。(2)两列变量之间的关系应是直线性的,非直线性的双列变量,不能计算线性相关。(3)两变量测量到的数据必须是成对的数据,对于不成对的数据无法计算相关,即使计算,得到的相关也没有意义。计算公式: , ,N 为成对数据的数目,为 X 变量的标准差,Sy为 Y 变量的标准差。利用原始数据计算,公式可以转化为:其计算步骤为:(1)计算 变量的 、 和 ;(2)计算 变量的 、 和 ;(3)计算 , ;(4)将有关数据代入公式,求得 。例如,计算 12 名学生两项心理测验的得分的相关系数,可以利用积差相关。4、等级相关(1)斯皮尔曼等级相关:① 两变量的资料为等级测量数据,且具有线性关系;②连续变量的测量数据,按其大小排成等级,也可以用等级相关法计算;③不要求总体呈正态分布。例如,想了解某一测验结果(测验结果服从正态分布)与文化程度是否有关联,可以采用等级相关。(2)肯德尔等级相关的适用条件:两列以上的,等级变量之间的相关关系,一般常用来表示评分者信度。5、点二列相关两列变量一列是正态连续性变量,另一列是二分变量,描述这两个变量之间的相关,称为点二列相关。例如,某测验测试总分为连续变量,且服从正态分布,为了描述某一选择题的区分度,应采用点二列相关。6、质量相关的适用条件:处理的变量中有类别数据。7、相关系数的选择:主要取决于要处理数据的性质类别以及某一相关系数需要满足的假设条件。4
(六)概率分布1、概率(1)通俗地说,概率就是描述随机事件发生可能性大小的数。(2)概率的性质任何一个随机事件 A 的概率都是非负的。 必然事件的概率为 1,必然事件是指在一定条件下必然发生的事件。 不可能事件的概率为 0,不可能事件是指在一定条件下必然不发生的事件。在统计推断中小概率事件一般被称为不可能发生的事件。2、二项分布二项分布是指试验仅有两种不同性质结果的概率分布。二项分布的具体定义为:假设有 n 次试验,各次试验是彼此独立的,每次试验某事件出现的 概率都是 p , 某 事 件 不 出现的概率都是 q (等于 1-p ) , 则对于某事件出现 X 次(0,1,2,3…,n)的概率分布为:b(x.n.P)= 。例如,两道四选一的选择题,一考生全凭猜测,猜对一道题的概率是 。二项分布的特点:(1)二项分布是离散型分布,概率直方图是跃阶式。(2)当 p=q 时,图形是对称的。(3)当 p 不等于 q 时,图形呈偏态。(4)如果二项分布满足 p<q,np>5(或 p>q,nq>5)时,二项分布接近正态分布,此时具有如下性质:例如,有 10 道正误题,问答题者答对几道题才能认为他是真会,或则说对几题,才能认为不是出于猜测因素?解:已知猜对与猜错的概率 p=q=1/2 时,np=5,此二项分布接近正态分布,故:根据正态分布概率,当 Z=1.645 时,该点以下包含了全体的 95%。如果用原始分数表示,则为它的意义是完全凭猜测,10 道题猜中 8 道题以下的可能性为 95%,猜对 8,9,10 道题的概率只有 5%。因此可以推论说,答对 8 道题以上者不是凭猜测,表明答题者真的会答。3、正态分布(1)正态分布又叫常态分布,是连续随机变量概率分布的一种。一个标准正态分布的平均数为 0正态分布曲线函数又称密度函数,一般方程为:其中, 是圆周率 3.14159...e 是自然对数的底 2.71828...;X 为随机变量取值 ;5
为理论平均数, 为理论方差;y 为概率密度,即正态分布的纵坐标。(2)正态分布的特点① 正态分布的形式是对称的,它的对称轴是经过平均数点的垂线;②正态分布的中央点(即平均数点)最高,然后逐渐向两侧下降,曲线的形式是先向内弯,然后向外弯,拐点位于正负一个标准差处,曲线两端向靠近基线处无限延伸,但终不能与基线相交;③正态曲线下的面积为 1,过平均数点的垂线将其面积划分为相等的两部分;④正态分布是一族分布,它随随机变量的平均数,标准差的大小与单位不同而有不同的形态;⑤正态分布中各差异量数值相互间有固定的比例;⑥正态分布曲线下,标准差与概率(面积)有一定的数量关系。例如,已知智商测验的平均分为 100,标准差为 15,某人智商为 130,智商比他低的人约占 98%。决定正态分布曲线的最高点在横轴上确切位置的是平均数(即 μ)。(3)在实际中的应用① 化等级评定为测量数据;② 确定测验题目的难易度③ 在能力分组或等级评定时确定人数④ 测验分布的正态化4、t 分布特点(1)t 分布的平均值为 0;(2)t 分布是对于平均值 0 对称的分布,分布左侧 t 为负值,分布右侧 t 为正值;(3)变量取值在负无穷大至正无穷大之间;(4)t 分布的分布形状随样本容量的变化而变化。5、样本分布:三种性质不同的分布:总体分布,是指总体内个体数据的频数分布;样本分布,是指样本内个体数据的频数分布;抽样分布,指某种样本统计量的所有可能值构成的分布。是样本统计量的分布,是统计推论的重要依据。常用的样本分布有平均数及方差的分布。当样本足够大时,样本分布与总体分布相同。(1)平均数的样本分布:所谓平均数的样本分布是指从随机变量为正态分布的总体中,采取有放回随机抽样方法,每次从这个总体中抽取大小为 n 的一个样本,计算出它的平均数,这样抽取无限多次就将获得无限多个平均数,这无限多个平均数构成的分布就是平均数的样本分布。正态分布以及渐进正态分布:1 样本平均数的分布:总体服从正态分布且总体方差已知,该统计量对应的标准误为: ;总体服从正态分布且总体方差未知时,该统计量对应的标准误为 ② 方差与标准差的分布:自正态总体中抽取容量为 n 的样本,当 n 足够大时(n≥30),样本方差及标准差的分布,渐趋于正态分布。(七)参数估计1、自由度自由度是指统计运算与推断中变量值独立自由变化的数目,用符号 df 表示。自由度与统计运算和统计推断中样本容量及限制因素的个数有关。2、参数和统计量6
参数又称为总体参数,是指描述一个总体情况的一些统计指标;统计量又称为样本统计量是用来描述样本情况的一些统计指标。3、点估计和区间估计(1)点估计:是用样本统计量来估计总体参数。样本统计量为数轴上某一点值,估计的结果也以一个点的数值表示,所以成为点估计。(2)区间估计:区间估计就是根据估计量以一定可靠程度推断总体参数所在的区间范围。它是用数轴上的一段距离表示未知参数可能落入的范围,它虽不具体指出总体参数等于什么,但能指出未知总体参数落入某一区间的概率有多大。4、抽样分布统计量是样本的函数,它是一个随机变量。统计量的分布称为抽样分布。抽样的基本原则是随机化原则。5、置信区间置信区间或称置信间距,是指在某一置信度时,总体参数所在的区域距离或区域长度。置信度是指估计总体参数落在某一区间的可能性或概率,而落在区间外,或指估计总体参数落在某一区间时可能犯错误的概率也称为显著性水平,用符号 a 表示。例如置信度为 0.95 的置信区间是指总体参数落在该区间之内,估计正确的概率为 95%,而出现错误的概率为 5%。6、区间估计的基本原理总体参数区间估计的基本原理是依据样本统计量的分布规律及样本分布的标准误,即抽样分布。(1)总体方差的区间估计:根据 分布: 自正态分布的总体中,随机抽取容量为 n 的样本,其样本方差与总体方差比值的分布为 分布,这样可以直接查表确定其比值的 0.95 和 0.99 置信区间。再进一步用下式确定总体方差的 0.95 和 0.99 置信区间。查 df=n-1 的 表确定 与 的值,代入不等式得到。(2)总体平均数的区间估计当总体方差已知时,样本平均数的分布为正态分布或渐近正态分布,此时 ,平均数分布的标准差 。根据正态分布,和标准分数 ,有 68.26%的 落在 μ 上下一个 之间,有 95%的 落在 μ 上下 1.96 个 之间,有 99%的 落在 μ 上下 2.58 个之间。在实际研究中,只有一个 ,可看做无限多个 中的一个。即为有 68.26%的机会μ 被包含在任何一个平均数 之间。犯错误的概率为(1-68.26%)。因为不能确定样本平均数 究竟落在 μ 的左侧还是右侧,所以用平均数加减一定数量的标准误计算置信区7
间。其他总体参数的估计原理与平均数的估计原理相同,但所依据的样本分布及标准误不同。7、平均数的标准误:是指样本平均数分布的标准差,为了与总体的标准差相区别,一般用标准误来命名。(八)假设检验1、假设检验在统计学中,通过样本统计量得出的差异作出一般性结论,判断总体参数之间是否存在差异的推论过程就叫做假设检验。(1)假设检验的基本思想是“反证法”式的推理,通过检验虚无假设 的真伪来反证研究真实假设 的真伪,若 为真,则 为假,而 为假, 为真,而且无论作出是真还是假,其结论都带有概率性质。(2)拒绝 H0假设时所犯统计错误的概率为<α,在假设检验中,通常用 1-β 来表示统计检验力(3)假设检中的两类错误:α 型错误(I 类错误)和 β 型错误(II 类错误)。当两总体确实存在差异,应该推翻虚无假设,但统计的结果是不能推翻虚无假设时,就发生了 II 类错误。(4)双侧检验和单侧检验采用单侧或双侧检验是事先确定的。如果要检验一个平均数大于另一个平均数是否达到显著水平需用单侧检验。即检验两组的差异显著性时,只考虑 A>B 之意义,不考虑 A<B 之可能性者,为单侧检验(若上述 A 与B 之间的关系全部相反,亦为单侧检验);同时考虑包含 A>B 和 A<B 两种可能性者,为双侧检验。2、假设检验的一般步骤:(1)建立假设;(2)选择和计算统计量;(3)选取显著性水平并查表去确定临界值;(4)判断结果并解释 3、总体平均数的显著性检验,当总体服从正态分布,总体标准差已知时无论样本大小,均用 Z 检验。公式为 式中: 为样本平均数; 为已知的总体平均数; 为已知总体的标准差; 为样本容量。4、两个独立样本平均数的差异检验(1)总体方差已知,两独立样本平均数间差异的检验当总体正态分布,总体方差已知时,无论样本大小,均可采用 检验,检验公式为: 其中 分别为两样本平均数; 分别为两样本对应的总体8
的方差, 分别为两样本容量。(2)总体方差未知,独立大样本平均数间差异的检验,其中 分别为两样本平均数; 分别为两样本对应的方差,分别为两样本容量,分母 是 的标准误。(3)总体方差未知,独立小样本平均数间差异的检验 ( )其中 分别为两样本平均数; 分别为两样本容量,。当样本容量相等(即 )时,上述公式可简写为:例如,为了了解男女被试走迷宫所用时间是否有显著差异,随即抽取男女各 26 名,知道男女两组的平均数和标准差,总体方差未知,可采用上述公式。5、相关样本相关样本是指两样本数据间存在一一对应的关系。主要有两种情况:一是同一组被试在不同条件下(两种实验方法或实验前后)形成的两组样本间存在相关;二是在成堆匹配的条件下两组杯时形成的样本存在相关。(九)方差分析1、方差分析方差分析是探讨一个因变量和一个或多个自变量之间关系的一种统计方法。其功能在于分析实验数据中不同来源的变异对总变异的贡献大小,从而确定实验中的自变量是否对因变量有重要影响。2、方差分析的前提条件(1)变异的可加性:确切地说,应该是变异的可分解性,总变异可以分解成几个不同来源的部分,这几个部分变异的来源在意义上必须明确,而且彼此要相互独立。(2)总体服从正态分布:方差分析要求样本必须来自正态分布的总体。但是在心理与教育研究领域中,大多数变量是可以假定其总体是服从于正态分布的,因此一般进行方差分析9