0276《心理测量学》2018年6月期末考试指导
发布时间:2023-11-19 12:11:08浏览次数:380276《心理测量学》2018 年 6 月期末考试指导一、考试说明本课程闭卷考试,满分 100 分,考试时间 90 分钟。考试包括以下三种题型:1、单项选择题2、多项选择题3、名词解释2、 简答题3、 论述题二、重点复习内容第一章 心理测量的发展史一、心理测验的先驱是高尔顿,第一次对个体差异进行测量的人。首创 “心理测验”一词的是卡特尔。二、世界上第一个智力量表:比内-西蒙量表1905 年,他在《心理学年报》上发表了文章《诊断异常儿童的新方法》,介绍了该量表。也是最早使用智力年龄概念的量表。三、在心理的发展中,一开始是引进并修订国外测验,近些年来,我国的心理学家正在致力于心理测验的本土化研究。第二章 心理测量的基本概念一、心理测验:心理测验指的是依据一定的心理学理论,使用一定的操作程序,通过观察人的少数有代表性的行为,对于贯穿在人为全部行为活动中的心理特点作出推论和数量化分析的一种科学手段。它所测的是人的心理现象的外显行为。二、测验量表:用于测量的标尺,它是由具有单位和参照点的连续体,将被测量的事物置于该连续位置,看它离参照点多少单位的计数,可以得到测量值。三、测量的要素是:参照点和单位。 四、量表的种类有:命名量表、顺序量表、等距量表和等比量表。 1、命名量表:只是用数字来代表事物或对事物进行分类。命名量表中的数字没有任何数值意义,不能作量化分析。无大小意义,只表明类别。无参照点和单位。无法比较大小或进行任何数学运算。 2、顺序量表:表明类别的大小或某种属性的多少。主要用于分等论级和分类。数字仅表示等级并不表示某种属性的真正量或绝对值。无参照点(没有绝对零度)和单位。无法进行数学运算。 3、等距量表:对事物性质的划分是等距离的,即单位是等值的,没有绝对零点。参照点是人为制定的,只有相对性,如摄氏度;等距变量除能表明量的相对大小外,还具有相等的单位。例如 0ºC 并不意味着没有温度。一般来说,心理测验的分数属于等距量表。4、等比量表:是最精确的测量。可以知道事物之间的某种特点上相差多少及它们之间的倍数关系。有相等单位和绝对零点。又称比率量表,是理想的,最高等级的量表。不仅可以进行数学加减运算,还可以进行乘除运算。大多是物理量表,而心理量表一般只能达到等距量表水平。1
证、改进和提高,这才是目的。(2) 测验作为一个研究手段和测量工具尚不完善。测验发展之今,在理论和方法上都存在不少问题。其精确度同物理测量相比远远不够 ,这是由于心理测验的对象的复杂性、主观性所决定的。同时,心理学本身在理论体系上的薄弱也是原因。作为测验的使用者应当看到这一点,不能认为心理测验的分数绝对可靠,它只是对一般水平的最佳估计而已。我们不能应为测验的不完善而否定测验的功用。作为一种工具,测验能够提供很多用用的信息。因此,当取其精华,取其糟粕,不断完善和发展心理测验,使其发挥更大的作用。四、测量误差:应用测量工具进行心理测量所造成的误差,又称观测误差,随机误差,偶然误差。五、心理测验的功能基本功能:了解个体差异;衍生功能:(1)理论研究功能,收集研究资料;建立和检验理论假设,如斯皮尔曼的智力二因素和瑟斯顿的智力三维结构;实验分组,如内外向的场独立性研究;(2)实际应用功能人员选拔;人员安置;心理诊断;描述评价;心理咨询。第九章 智力测验 一、心理测量学历史上第一个正式的智力测验是比奈-西蒙智力测验。 二、韦克斯勒智力量表。韦氏测验作为智力测验领域的重要代表,得到的分数是离差智商,具有非常鲜明的特色:(1)10~12 个分测验:使用多个分测验,不仅可以得到总 IQ,还可以分析个体在智力上的强项和弱点;(2)言语量表和操作量表各由 5~6 个分测验组成,可以单独评价言语或操作的各项智力成分,体现了左右脑功能的整合,而且可以显示个体的职业能力倾向。(3)共同的 IQ 计分系统:对所有测验和所有年龄组,IQ 平均为 100,标准差为 15。而且每个分测验的平均分为 10,标准差接近 3 分。这样就可以比较被试的各项分测验分数,了解其相对强弱。某人的韦氏智力测查结果提示智商为 130,这意味着其成绩高于平均值 2个标准差。(4)不同年龄组有相同的分测验:例如,WAIS-R,WISC-R,WPPSI-R 有相同的 8 个核心分测验。这不仅方便施测者,而且有助于测验之间的相互比较。三、吉尔福特的智力结构是指操作、产品、内容,不包括发散性,其发散思维测验的理论基础是智力的三维结构模型。四、瑞文测验是一种非文字测验,一种跨文化的智力测验工具,一种非语言智力测验,既可以团体施测,也可以单独施测。五、智商离差智商是用标准分数来表示的智商,即让每一个被试和他同年龄的人相比。从不同测验获得的离差智商只有当标准差相同时或接近时,才可以比较。表示的是个体智力在年龄组中所处的位置;建立在统计学基础之上;表示的是智力高低的一种理想指标。比率智商:由于个体智力增长是一个由快到慢再到停止的过程,即心理年龄与实足年10
龄不同步增长,因此比率智商不适合于年龄较大的被试。六、能力倾向测验与特殊能力测验能力倾向测验可以从不同的能力因素上来评估个体,但如果只用于评估某一种特殊的能力成套的能力测验就显得过于繁杂,而且不够充分。特殊能力测验是针对一种特殊的能力所包含的各个方面进行测量,其性质介于成就测验和能力测验之间,测量的目的既是为了了解个体在此专业领域的既有水平,又想预测今后个体在此专业领域的成功可能性。七、传统智力测验仍在应用的原因(1) 智力虽然具有可变性,但从另一个角度来说,它也具有稳定性。其稳定性主要体现在:个体智力在其相应群体中的相对位置可以长时间保持稳定。这种相对位置的稳定首先归因于遗传素质。个体智力的相对稳定性为智力测验具有一定预测效度提供了可能性。并且,个体的智力水平发展到一定年龄之后会越来越慢,最终达到顶峰并在此后长时间保持不变,所以智力测验的预测效度会出现随着受测者年龄递增的趋势。(2) 智力测验用于选拔和安置人员时,往往被实践证明其对学生和职业等校标的预测具有良好的效度,因而可以有效的帮助决策者提高决策效率。(3) 由于智力测验对于不同的群体存在可能的不公平性,人们已经试图从改善智力测验本身来缓解这一问题,当智力测验被用于人员选拔时,更应看重其预测效度而不是公平性。(4) 虽然人们指出传统智力测验的种种不是和局限,并且从各种角度提出了更为完善更全面的评估手段的设想,也有初步的尝试和实践,但目前为止仍未出现成熟的,超越了传统智力测验的智力评估工具。 因此,传统智力测验工具在智力评估中仍然占据了主流和主导的位置,目前仍是不可替代的。八、 “智力测验面前并非人人平等”因为智力测验存在性别差异、职业差异和教育差异。1) 研究表明男性和女性在不同的能力因素上存在差异,而一般的智力测验都包括多种性质的题目,有些可能更适合男性,有些则相反。因此,智力测验本身的内容和结构对男女两性未必公平。2) 不同职业的人在智商上存在明显的差异,可能导致传统的智力测验并不能全面反映个体各方面能力的原因,而仅仅依靠智商高低来判断智愚也是不充分的。3) 智力测验的结果表现出了城乡和种族差异,并不能就此认为城乡或种族本身由遗传引起的差异,事实上文化和教育差异可能在此起了主导作用。第十章 人格测验 一、自陈量表(自陈测验):又称自陈问卷,是由被试本人对自己的人格特质,按照自己的意见进行评定的一种方法。比如 EPQ。适宜团体施测,当被试人数很多,测验经费和时间又较为有限时,最好选用团体施测。1、自陈测验存在的问题:(1)测量对象人格特质复杂多样;对人格的定义、结构、分类等问题存在争论,不同人格测验之间难以进行比较。对人格的动态性质难以准确描述。(2)信度和效度影响测验分数稳定性的因素复杂;缺乏可靠的效标(专家评定的可靠性不高);人格测验的信度、效度比智力测验要低。(3)测验的题目题目范围难以界定;措辞的细微差别会导致反应的巨大差异;题目含义笼统;在自陈量表11
选项中,经常、有时、很少,每个人的理解也不一样。(4)分数解释用同样的标准对不同的人的行为进行解释存在疑问;用统计标准评价个体的行为容易导致从众行为,限制个人发展。(5)对于伪装和社会称许性的问题没有很好解决,导致测量误差。2、直陈人格量表的编制、注意事项及其特点直陈量表的编制: 编制直陈人格量表的第一个步骤就是确定所要测量的人格特质,并明确给出该特质的操作性定义,然后围绕着该特质选择能够表现该特质的行为情境和反应。可以用是否式、是否折中式、文字等级式和数字等级式等形式来编制题目。在编制量表的过程中,要注意:1) 避免带有明显社会评价色彩的问题,代之以中性的陈述;2) 对于量表中必须涉及的个人私生活问题,应当采用适当隐蔽的措辞加以陈述。3) 所提供的选项最好排列成若干个等级,以便受测者选择更接近他实际情况的答案。直陈量表的特点1) 题量较大,多数用于测量人格的多种特质2) 直陈量表多数采用纸笔形式作答,可以同时对大样本人群施测,效率较高;3) 直陈量表的记分规则简单而客观,施测便捷,测量分数容易获得解释,是人格测验中使用最为广泛的形式。二、因素分析量表的典型代表:卡特尔 16 种人格因素问卷:16PF 适用于 16 岁以上的青年及成人。EPQ-艾森克人格问卷:其中的 L 量表是效度量表。MMPI:10 个临床量表 ;3 个效度量表 ;采用 T 分数计分;可以根据廓图进行分析。三、投射测验1、投射测验是指向受测者提供一些意义比较含糊的刺激情境,让他在不受限制的情境下,自由表现出他的反应,分析反应的结果,便可推断他的人格结构,受应试者动机影响不太大。主要用于决定情绪和动机功能。比如,主题统觉测验(TAT),投射测验属于非文字测验。与自陈量表相比,投射测验具有以下特点:(1)投射测验的刺激材料没有明确的结构和意义,反应不受限制;(2)投射测验施测较难,难以进行定量分析;(3)投射测验着眼于人格特征的整体性了解,而不是对某一个或几个特质的关注;(4)投射测验的内容多为无明确意义的图片,不受语言文字的限制,多用于跨文化人格研究。2、投射测验在现代测验中的意义:1) 鉴于心理学家和临床工作者对人格的深层结构或无意识仍保持相当的兴趣,投射测验作为一种较为有效的工具仍有其地位和价值。因为其他类型的人格测验是不能将无意识内容作为测量对象的。2) 投射测验作为一种心理测验工具,在其评分、解释的客观性上,以及信度、效度等测量学指标上有待于进一步提高。3)目前能够科学、有效使用投射测验的专业人员不多,要有力加强对相关人员的培训,12
使得投射测验的使用走在一条正确的发展方向上四、情境测验人格测验的一种,是指把受测者置于特定的情境中,由主试人员观察其在此情境下的行为反应,从而判断其人格特征。五、自陈量表和投射测验的不同点。(1)自陈量表采用客观测验的形式,刺激材料文字描述,明确清晰;投射测验的刺激材料没有明确的结构和意义,反应不受限制;(2)自陈量表施测简单,分数解释较为容易;投射测验施测较难,难以进行定量分析;(3)自陈量表多数用于测量人格的若干特质,投射测验着眼于人格特征的整体性了解,而不是对某一个或几个特质的关注。(4)自陈测验多为纸笔测验,投射测验的内容多为无明确意义的图片,不受语言文字的限制,多用于跨文化人格研究。第十一章 成就测验 能力倾向测验可以从不同的能力因素上来评估个体,但如果只用于评估某一种特殊的能力成套的能力测验就显得过于繁杂,而且不够充分。特殊能力测验是针对一种特殊的能力所包含的各个方面进行测量,其性质介于成就测验和能力测验之间,测量的目的既是为了了解个体在此专业领域的既有水平,又想预测今后个体在此专业领域的成功可能性。第十二章 其他测验爱德华个人偏好测验更容易受到社会称许性的影响。 职业兴趣调查量表有库德调查表、斯特朗问卷和霍兰德问卷。其中霍兰德问卷最为有名,霍兰德认为理想的职业选择是使人格类型和职业类型之间适应。三、 重点复习题(一) 单项选择题1、下列导出分数类型中,不属于标准分数的是( ) a Z 分数 b 百分等级 c 离差智商 d T 分数 2、下列描述中符合等距量表的是:( )a 没有绝对零点,可以进行加减和乘除运算 b 没有绝对零点,不可以进行加减和乘除运算c 没有绝对零点,可以进行加减但不可以进行乘除运算d 没有绝对零点,可以进行加减但不可以进行乘除运算3、关于区分度,下列哪一项描述不正确:( )a 不同的计算方法,所得区分值不同b 样本容量大小影响相关法区分度值的大小c 分组标准不会影响鉴别指数d 被试样本的同质性程度影响区分度值的大小随机误差 4、衡量测验内部一致性的的指标是( )。a、重测信度 b、肯德尔和谐系数 c、α 系数 d、复本信度5、通过韦氏儿童智力测验得到的分数是:( )a 智龄 b 比率智商 c 年级当量 d 离差智商13
6、当其他条件相同,样本的同质性越高,分数分布范围越小,测验效度就( )。a、高 b、低 c、大 d、接近 17、内容效度适合作为下列哪种测验类型的指标:( )a 成就测验 b 人格测验 c 智力测验 d 心理健康测验8、在一次物理考试中,小王的得分为 80 分,在 30 名同学中排名第五,则其百分等级为()。a、 65 b、75 c、85 d、95(二) 多项选择题1、测验信度是指( )。A、可靠性 B、有效性 C、特殊性 D、一致性 E、代表性2、对测验进行解释时,仅有常模是不够的,还必须依据从( )获得的资料。A、最准确的描述 B、最大量的人群 C、最匹配的情境 D、最相近的人群 E、上述都不对3、下列哪几项符合 MMPI 的情况?( )A、10 个临床量表 B、3 个效度量表 C、采用 T 分数计分D、有严格的时间限制 E、可以根据廓图进行分析(三)名词解释1、测量误差2、百分等级3、区分度4、测验量表(四)简答题1、效标具有哪些特性?2、某工厂 用某一测验评估了 100 名候选人,经过一段时间工作检验后,厂方发现,其中42 人属于正确接受的,34 人是被正确拒绝的,而被错误接受的人数是 10,被错误拒绝的人数为 14 人。请算出本次选拔的总命中率、准确命中率及取舍的正确性。3、韦氏智力测验具有哪些特点?(五)论述题请阐述可能影响测验效度的因素。四、习题答案(一)选择题bcccdbac(二)多项选择题1、AD 2、CD 3、ABCE(三)名词解释1、测量误差:应用测量工具进行心理测量所造成的误差,又称观测误差,随机误差,偶然14
误差。2、百分等级:某个分数的百分等级就是得分低于这个分数的人数的百分比。百分等级指示个体在常模团体中的相对位置。百分等级越低,个体所处的地位越低。3、区分度:是指测验项目对被试心理品质水平差异的区分能力或鉴别能力。4、测验量表:用于测量的标尺,它是由 具有单位和参照点的连续体,将被测量的事物置于该连续位置,看它离参照点多少单位的计数,可以得到测量值。(四)简答题1、答案要点:(1)多样性:一个测验可能有不同的观念效标,同一个观念效标又可能有不同的效标测量。(2)复杂性:几乎每一种效标行为都由多种特质构成,包含复杂的成分。(3)特殊性:即使一个普通的效标,在应用时也有特殊性。(4)时间性:近期效标与最后效标。2、答案要点:总命中率=(42+34)/(42+34+10+14)*100%=76%准确命中率=42/(42+34)*100%=55%取舍的正确性=42/(42+14)*100%=75%。3、答案要点:(1)10~12 个分测验:使用多个分测验,不仅可以得到总 IQ,还可以分析个体在智力上的强项和弱点;(2)言语量表和操作量表各由 5~6 个分测验组成,可以单独评价言语或操作的各项智力成分,体现了左右脑功能的整合,而且可以显示个体的职业能力倾向。(3)共同的 IQ 计分系统:对所有测验和所有年龄组,IQ 平均为 100,标准差为 15。而且每个分测验的平均分为 10,标准差接近 3 分。这样就可以比较被试的各项分测验分数,了解其相对强弱。(4)不同年龄组有相同的分测验:例如,WAIS-R,WISC-R,WPPSI-R 有相同的 8 个核心分测验。这不仅方便施测者,而且有助于测验之间的相互比较。(五)论述参考答案:考生可以从下列方面进行分析、阐述(1) 测验本身的因素 题目中的词、句不能过难;试题的意思应该清楚;测题应该适合所要测量的学习结果;测题不能提供额外的线索;测题编排要合理(由易到难);测题数目(考虑效度和信度的关系); 测题的难度得当;测验长度要合适。(2) 施测和记分 测验环境是否会干扰被试,施测过程是否标准化;记分过程是否按照程序或标准化构成的误差也会对效度有影响。(3) 被试方面 被试个人的动机、焦虑水平、生理状态、情绪状态等;被试团体的性质;样本团体的异质性,在其他条件相同时,同质性越高,效度越低。(4) 所选择的效标 测量行为与所选效标的相似性越高,效度越高。(5) 测验信度15
信度不高的测验不可能有高的效度。说明:本考试指导只适用于 201803 学期期末考试使用,包括正考和重修内容。指导中的章节知识点涵盖考试所有内容,给出的习题为考试类型题,习题答案要点只作为参考,详见课程讲义或笔记。如果在复习中有疑难问题请到课程答疑区提问。最后祝大家考试顺利!16
第三章 信度 (公式不要求记忆)信度概述:测量结果的可靠性,指同一群人在同一个测验上多次测量结果的一致性。代表测验量表的稳定性和一致性,只受随机误差的影响,随机误差控制得越好,测验信度越高信度在解释个人分数时估计真实分数的范围和了解实得分数再测时可能的变化情形。1、信度的操作化定义: 误差理论认为:一个人的测验分数 X 是由真实分数(T)和误差(E)两部分构成的, X = T + E误差理论假设:①测量的平均误差为 0;②真分数和误差不相关;③不同测量的误差之间不相关。确定可接受的信度水平的一般原则是,当 rxx<0.70 时,测验不能用于对个人做出评价或预测,而且不能进行团体比较。2、根据统计学理论,真实方差与实得方差的比是一个相关系数的平方,所以我们把这种相关系数的平方叫做信度系数。因此信度就被定义为:一组测量分数的真实方差与实得方差的比,或者是指真实方差占总方差的百分比。3、不同信度指标的变异来源。信度系数类型 误差方差再测信度 时间取样复本信度(即时) 内容取样复本信度(延迟) 时间取样和内容取样分半信度(比较测验奇数项目与偶数项目的得分)内容取样库-理信度和 α 系数(内部一致性指标)内容取样和内容异质性评分者信度 评分者之间差异4、复本信度:指的是对两个假定相等的复本测验之间的一致性,也就是两个平行测验分数的相关。5、在考察评分者信度时,如果三人以上评阅数份试卷,则需计算肯德尔和谐系数。6、以再测法或副本法求信度,两次测验间隔的时间越短,则信度系数越大。7、测验信度的影响因素,如何提高测验信度能够影响测验信度的因素包括:1) 参加测验者的个人特征:身心健康状况、应试动机、注意力、耐心、求胜心、作答态度等;2) 被试群体特征:群体内部在所测特征上的离散程度和平均水平都会影响到信度,离散程度越大,全距越大,相关系数越大,而信度计算是以相关为基础的,这样就容易因高异质性导致虚假的高信度;3) 主试方面:施测的标准化,评分的标准化都会有影响,如不按规定施测、主观评分、制造紧张气氛等。4) 施测的环境:安静程度、光线、设备等,因此应该将施测环境按要求标准化,干扰少;5) 测验的特征:项目间的相关,项目的数量,测验的难度:其实质在于测验分数的变化范围。6) 估计信度使用的方法:一般而言,内部一致性>复本信度>重测信度>稳定性-一致性信2
度系数。提高信度的常用方法:1)适当增加测验的长度:在保证新增题目与原项目同质的前提下,适当增加新项目有助于提高信度指标。2)将测验中的试题难度接近正态分布,并控制在中等水平;3)提高测验的区分度4)选择恰当的被试团体,提高测验在各同质性较强的亚团体上的信度。5)施测过程、评分过程和场地等严格遵循标准化的要求。8、根据测验类型选择信度的估计方法。 测验信度是测验在测量它所测特质时所得分数的稳定性。反映了测验工具对随机误差的控制程度,是测验性能的重要质量指标。由于真分数无法直接获得,通常采用重测法、复本法、分半法和内部一致性系数等方法来估计信度。但每种方法都特别强调了对某方面误差的控制,因此,它们并适用于所有类型的测验。一般来说,重测法多用于所测特质相对稳定的测验,如智力测验、能力测验和人格测验等;复本法和分半法多用学绩测验和智力测验。内部一致性系数多用于智力测验、能力测验、个性测验,但所测特质包含性质不同的方面时,不能使用内部一致性系数。在实践中,可根据测验目的/性质采用多种估计方法。第四章 效度 一、效度:即准确性,指一个测验能测量到它所要测量的心理特质的程度。简单的说就是指一个测验的准确性。可分为内容效度、结构效度和实证效度。在测验理论中,效度被定义为在一组测验中,与测量目标有关的真实方差(或称有效方差)与总体方差的比率。二、表面效度:一个测验在被试或参与者看来, 直觉地认为它在测量什么,是否测到了所要测量的东西。是被试的一种主观认识,并不是真正意义上的效度。三、内容效度:测验题目对有关内容或行为总体取样的适当性程度,即一个测验实际测量的内容与要测量的内容温和的程度。主要考查成就测验。 四、结构效度:也称构想效度,即一个测验测量到它要测量的某一理论概念或特质的程度人格测验适合以结构效度为测量学指标。一个新测验与现存的经常使用的同类测验的相关是构想效度的证据。1、构想:心理学中提出的人假定具有的属性或特质,如智力,动机,兴趣,创造性等。2、确定构想效度的方法:测验内部的方法、测验间的方法、效标效度的研究、实验和观察法验证。 3、结构效度的特点(1)结构效度大小取决于事先假定的心理特质理论。具有不同理论构思的测验,其结构效度是无法进行比较的;(2)结构效度有时很难获得,也就是说没有得到实际测量的资料证实并不意味着理论一定不成立(实验设计不当也可能有影响);(3)结构效度没有单一的指标,是由各方面的证据累积起来进行评价的。一般来说,内容效度主要用于学科测验,而结构效度主要用于心理测验。五、区分效度:新老测验之间的相关(两测验测的不是同一心理特质),若相关低,则说明新测验可能有较高的效度。六、实证效度:即一个测验对于特定情境中的个体行为进行预测或诊断时的有效程度。一个测验是否有效,应该以实践的效果来作为检验标准。实证效度关注的是那些与测验独立的效标行为,并不关注测验内容或结构,也被称为效标关联效度。3
1、实证效度的类型 根据效标资料收集的时间差异,实证效度可以分为同时效度和预测效度。同时效度主要用于诊断现状,在于用更简单、更省时、更廉价和更有效的测验分数来取代不易收集的效标资料。预测效度的作用在于用来预测某个体的将来的行为。它们两种效度都可以被称为预测效度,而测验本身可以作为预测源。2、效标:本测验要诊断或预测的行为。 3、效标的特性。(1)多样性:一个测验可能有不同的观念效标,同一个观念效标又可能有不同的效标测量。(2)复杂性:几乎每一种效标行为都由多种特质构成,包含复杂的成分。(3)特殊性:即使一个普通的效标,在应用时也有特殊性。(4)时间性:近期效标与最后效标。4、效标污染:是指评定者知道被试的测验分数,因而影响到对效标的客观评定。5、要确保效标测量的客观性测验的客观性包括测验的刺激、对反应的量化和对结果的推论。要确保效标测量的客观性应该做到:(1)避免偏见影响效标测量,特别是以等级评定作为效标测量时,评分者的主观偏见会有很大影响,应该加以注意。(2)防止效标污染,即指个人的效标应评定者知道个体的测验分数(预测源分数)而受到影响。(3)效标测量要较好的反映观念效标,那么就要保证效标测量本身就必须是有效的,可靠的,而且应该实用。 6、实例分析(1)如果研究表明,高考成绩与大学学习成绩有高度的正相关,那么可以认为,对于大学学习而言,高考分数具有较高的预测效度。(2)如果一个测验的效标资料是经过一段时间后获得的,这样所得的效度指标称为预测效度。(3)作为某重点中学校长,你有 500 名最有才华的学生,当他们毕业时,你发现他们高考的数学成绩和在校的各门功课总的平均成绩(GPA)只有 0.13 的相关,解释这个现象最好的理由是预测源的全距限制(这个样本的可靠分数很高)(4)当其他条件相同,样本的同质性越高,分数分布范围越小,测验效度就低。七、信度与效度的关系1、测验的效度受它的信度制约:根据效度的数学定义效度 = Sco2/ St2,信度的数学定义S∞2/St2以及 St2= S∞2+ Se2,推出效度=信度—Se2/ St2一个测验的信度必然比效度高,至少相等。假如要测一个儿童的智力水平,你对其眼眉以上头的周长进行了测量,并测了 5 次,得到一个平均值,然后将平均值乘以 7 得到该儿童的 IQ,这种测量 IQ 的程序不可信,但有效。2、要使测验具有较高的信度和效度,需要对测验进行标准化,主要包括测验内容标准化、测验过程标准化、测验评分标准化、解释测验分数标准化。八、正确理解效度。心理测量中有两个重要问题:测验是否测量了它应该测量的特质,测量的精确程度如何(能否根据测量结果进行决策)。例如:一个阅读理解测验,能够预测被试在大学中的成功,是否有效需要数据的支持,与大学成绩的相关,与其他已被肯定的阅读测验的相关4
提供了测量阅读理解的一个有代表性的任务样本。效度正是说明这一问题的重要指标,它是指测验的准确性,即测验能够测出他们所欲测的特质的程度。对效度的理解应该包括以下方面:(1)效度是针对测验结果的,测验的有效性是指测验结果的有效性。(2)效度是一个相对的概念:每个测量工具都有自己的目的,对 A 目的有效不意味着对 B目的有效;内隐特质是通过外显行为间接测得的,不可能百分之百准确,对于一个有目的的测验其效度不会为零,如数学测验的文字即使很难,也总是能够测到一些数学能力;效度只有程度上的差别,而不是“全或无”的差别,对效度进行评价时,要考虑到其用途的基础,由于宣布优秀学生有效的测验,对于诊断差生就不一定有效。(3)判断一个测量是否有效要从多方面收集证据 表面看获取效度的办法就是拿实测结果和心理特性作比较,但心理特性本身就是要测量的,未知的,无法直接比较。因此,要从多角度对特性进行描述,这些角度途径是丰富的,因此获取效度指标的手段也是多样的九、影响测验效度的因素(1) 测验本身的因素 题目中的词、句不能过难;试题的意思应该清楚;测题应该适合所要测量的学习结果;测题不能提供额外的线索;测题编排要合理(由易到难);测题数目(考虑效度和信度的关系); 测题的难度得当;测验长度要合适。(2) 施测和记分 测验环境是否会干扰被试,施测过程是否标准化;记分过程是否按照程序或标准化构成的误差也会对效度有影响。(3) 被试方面 被试个人的动机、焦虑水平、生理状态、情绪状态等;被试团体的性质;样本团体的异质性,在其他条件相同时,同质性越高,效度越低。(4) 所选择的效标 测量行为与所选效标的相似性越高,效度越高。(5) 测验信度信度不高的测验不可能有高的效度。第五章 项目分析 一、难度 ① 不分组的计算方法:题目以 0、1 计分,难度值 P= R/ N(P 为通过率,R 为答对人数,N 为参考总人数) 题目不以 0、1 计分,难度值 P= X′/Xmax (X′为所有人在此题上得分的平均数,Xmax为该题满分,如果平均分为 16,满分为 20,则 P 为 0.8) ② 分组的计算方法:(被试人数较多时可使用) 分组:将试卷按测验总分由高到低排列,最高分往下取全部试卷的 27%作为高分组,从最低分往上取全部试卷的 27%作为低分组。 题目以 0、1 计分:P=(RH+RL)/2nRH 为高分组答对人数RL为低分组答对人数N 为一个组(高分组或低分组)的人数 题目不以 0、1 计分:5
P=(XH+XL-2nL)/2n(H-L)XH为高分组得分总和H 为该题最高分L 为该题最低分 注意:难度值 P 大,表明通过率越高,即难度越小。如果难度越低,会出现天花板效应、得分聚在高分段、分数分布狭窄。测验的难度过高时,测验分数的分布聚集在低分段分数分布狭窄。二、区分度:测验项目对被试心理品质水平差异的区分能力或鉴别能力。区分法是检验测验分数能否有效地区分由效标所定义的团体的一种方法。受试者越同质,区分度越小。大多数适合普通人的测验如果要求有较大的区分能力,其题目的难度应该 0.5。 1、区分度分析的一般方法:鉴别力指数、项目-总分相关、项目间相关。 比如,一份语文卷子的满分为 150 分,现在要分析试卷中作文题(满分为 50)的区分度,应该采用等级相关法。2、鉴别力指数:运用极端组计算项目鉴别力的一种简单方法。公式为:D = PH-PL 是高分组在项目上的通过率,而是低分组在项目上的通过率。 当 D<0.19 是,项目差,必须淘汰;但 D 在 0.20 ~ 0.29 之间时,项目尚可,但必须修改;当 D 在 0.30 ~0 .39 之间时,项目良好,但还是最好稍做修改; 而当 D>0.40 时,项目完全可以被接受,但一般测验,D>0.30,项目就可以接受了。 D 值的取值范围为-1—1。3、区分度是评估一个测验项目有效与否的重要指标,但是不能将其作用过于绝对化:(1) 对于区分度而言,存在不同的计算方式,而不同的计算方法下所得区分值是不同的,有时甚至差异较大。(2) 计算区分度时,测验样本容量大小影响相关法区分度值的大小。(3) 进行区分度计算时,高分组和低分组的分组标准也会影响鉴别指数。(4) 被试样本的同质性程度影响区分度值的大小,高度同质的被试样本也会导致区分度下降。因此,在评价项目有效性时,要考虑测验的目的,功能,对象,不能将区分度值绝对化。三、命中率计算公式总命中率=(正确接受+正确拒绝)/(正确接受+正确拒绝+错误接受+错误拒绝)x100%准确命中率=正确接受/(正确接受+正确拒绝)x100%取舍的正确性=正确接受/(正确接受+错误拒绝)x100%四、测验进行项目分析的作用项目分析是指一组分析被试对测验项目的反应的统计方法。在试测的基础上对各个项目进行分析是编制和修订测验的重要环节。一般来说,测验项目分析包括定性分析和定量分析两个方面,定性分析主要依托测验编制者丰富的经验和所受的训练,对项目的内容和形式是否恰当进行分析,提出其中不恰当的项目;定量分析主要是指对项目难度和区分度等量化指标进行分析,对其中不符合测量学要求的项目进行修改或删除,从而提高测验的总体可靠性和有效性。五、测验难度对测验的影响(1) 测验难度影响测验分数的分布形态如果测验项目的难度普遍较大,被试的得分会普遍较低,使得测验分数集中在低分端,其分数分布呈现正偏态;如果难度普遍较小,被试的得分普遍较高,测验分数集中在高分端,会呈现出负偏态,而对取样有代表性,难度中等的测验,分数呈现正态分布。(2) 测验难度影响分数的离散程度6
过难或过易的测验会使得测验分数相对集中在低分端或高分端,从而使得分数的全距缩小。第六章 测验的常模和分数的解释一、常模:以标准化的考生团体在测验上的平均分为参照点,以适当的分数距离为单位建立起来的数量连续体。常模分数构成的分布,就是通常所说的常模,它是解释心理测验分数的基础。二、常模团体:构成参照标准的被试团体,就叫常模团体,也叫参照团体。常模团体是由具有某些共同特征的人所组成的一个群体,或者是该群体的一个样本。 对一个测验而言,通常有数个常模团体。构成常模团体的条件主要有:(1) 群体构成的界限必须明确应该对每个常模团体的性质和特征的给予简短且明确的描述。(2) 常模团体必须是所测群体的代表性样本克服取样偏差,采用正确的取样方法:随机取样,系统抽样,分层取样。(3) 取样的过程必须明确且有详尽的描述在测验手册中,有关取样的大小、取样方法、取样时间等的说明和描述,越明确、越详尽越好。(4) 样本大小要适当从统计学原理上说,样本是越大越好,但考虑到经济、实用,样本数量也不能无限扩大。总体性质。总体性质越复杂,样本容量就越大。经过无数次测量得到的平均值即为真分数。测验结果的精确度。精确度要求越高,样本量就越大。(5) 常模团体必须是近时的。三、常模样本:找一个有代表性的样本来代表目标总体,也代表常模总体,这个用来代表常模总体的样本,就是常模样本。常模样本必须具备常模总体的基本特征。 行为样组:从总体行为中抽取出来的、能够反映个人特定心理特质的一组行为,作为直接的测量对象。四、年级当量:即年级常模,用年级代替年龄,指把学生的测验成绩与各年级学生的平均成绩比较,看他相当于几年级的水平。常模样本中 6 年级的算术平均分为 35,某儿童的算术测验得分为 35,那就是说,该儿童的算术年级当量为 6 年级水平。五、常模样本的容量:总体的数目。一般情况,最小样本为 30 ~ 100 个。要是全国性的常模,一般地要求有 2000 ~ 3000 人为宜,一般不少于 800 到 1000。 六、Z 分数:指的是以一批分数的平均数为参照点,以标准差为单位的等距量表,不仅具有可比性,而且具有可加性。导出分数:按照一定的规则,针对原始分进行统计处理后获得的分数。导出分数具有一定参照点和单位,可以相互比较。标准分数:是以标准差为度量单位原始分数离开其平均数的分数之上多少个标准差,是一个抽象值,不受原始测量单位影响,不仅具有可比性,还具有可加性,是等距量表。当原始分数不是正态分布时,也可以使之正态化,这一转换过程是非线性的。T 分数:由标准分数(Z 分数)线性转换而得,T=10*Z+50,经过这种转换弥补了 Z 分数存在负数和小数的缺陷,最早使用 T 分数者是推孟,T 是为了纪念推孟和桑戴克的意思。离差智商也是标准分数的一种。标准九分是一种标准分系统,其量表是个 9 级的分数量表。它是以 5 为平均数,以 2 为标准差。7
标准分数变式的评价:优点:具有相等单位,便于进一步统计应用。正态分布下,可以将各种导出分数与百分等级换算,便于理解。正态分布下,可以将不同测验的分数直接比较(注意常模团体应该是一致的)。缺陷:过于抽象,不易理解非正态分布下,形态不同的变式分数不能互相比较,不能加和。七、在对测验结果进行解释时,仅有常模是不够的,还必须依据从最匹配的环境、最相近的人群获得的资料。应该遵循下列原则:(1)主试应充分把握有关测验的性质和功能。(2)对于导致测验结果的可能原因的解释必须非常慎重,警惕片面极端的错误。(3)必须充分考虑到常模和效度存在的局限性。(4)在解释过程中必须充分参考其他有关资料。(5)将测验分数视作“一段分数”来解释,而不是“特定的分数点”。(6) 对于来自不同测验的分数不能直接加以比较。八、百分等级与百分位数百分位数:如果一个被试在某心理测验中的得分处于第 94 个百分位,指的是该被试的得分超过了 94%的标准化样本。百分等级:某个分数的百分等级就是得分低于这个分数的人数的百分比。百分等级指示个体在常模团体中的相对位置。百分等级越低,个体所处的地位越低。比如,一次物理考试中,小王的得分为 80 分,在 30 名同学中排名第五,则其百分等级为 85。第七章 测验的编制一、测验的标准化: 指测验的一致性;包括:编制、实施、计分及解释程序;上述过程都会对测验的准确性产生影响。编制:行为的代表性;实施:考试环境不同等等。编制测验应带避免直接翻译国外测验的题目。二、测验编制过程中如何做到标准化。要做到测验编制过程中的标准化,就要做的遵循以下程序:确定测验的目的1. 明确测量用途,首先确定将要编制的测验是用于测量哪一种心理特质或心理结构,其理论基础是什么;其次确定将要编制的测验是标准参照测验还是常模参照测压;2. 明确测量对象,每一个测验都有其针对性的测量对象群体。要考虑到年龄、教育水平和文化背景的差异。3. 明确测量目标,确定能表现将测量的心理特质的行为(确定有代表性的行为样组);确定项目比例,考虑到每一类行为在所测心理特质中的比重。产生测量题目1.测题形式与目的匹配。利用不同测题形式的优点和使用范围,将其与测验目的相结合。2. 初步形成测题,由于经济和实践上的考虑,我们不可能收集能够说明某一行为的所有测题,因此必须确保测题的代表性。可供考虑的测题来源:( 1)已有的优秀的相关测验;(2)修改前人测验中的有关测题:(3)自己编写。初选题库项目数量是计划题数的 2-3倍。3. 测题检查及修改,包括:(1)测题编制的技术性问题,如:措辞,语法,歧义,文化偏8
见问题等;(2)初步确定测题的可靠性和可信度。4. 预测验及分析,在此过程中注意满足下列要求:(1)预测样本和测验对象必须来自同一全域,即预测样本的代表性; (2)人数不必太多,但也不能太少,教育测验一般 370 人,智力测验至少 30 人,同时要考虑到预测题目的数量,题多则要求人数也高。 (3)按照正式测验的过程实施; (4)时间要充分,便于收集充分的反应资料; (5)随时记录预测过程中的反应情况,如时间,题意不清的问题,误解,停顿等。预测结果分析:难度、鉴别力。5.测题选择,编排和确定(1)选择标准:鉴别力高,难度介于 0.35-0.65 之间,并补充部分极易和极难的题目,形成正态分布。选择题目后必须对照项目说明书检定测题所代表的行为类别之间比例是否失调,必要时进行调整。测验时间最好不超过 1 小时。(2)编排时遵循并列直进式、螺旋式、混合式的原则,不是随意编排,减少反应定式。应该排除难度逐步上升,先易后难。(3)测题确定,将上述步骤得到的测验在全域中的另一个样本中进行验证,甚至复核,修改多次,才能最终确定正式题本。第八章 测验的实施一、在实际测量工作中,选择测验应该注意的问题有:1、选择与测验活动目的相符的测验;2、考虑测试对象的受测条件;3、分析所选测验的特点;(了解测验的概况,适用范围,考察测量学指标;)实际工作中要同时对上述三个方面加以考虑。二、在测验实施中,主试应该注意哪些问题?(1)施测前做好准备工作;(2)指导语不应该暗示受测者应该如何反应;(3)测验过程中要不受外界和参测者的干扰;(4)评分要客观公正。无论哪种测验,为使评分尽可能客观应该准确无误地记分、合分。三、正确认识“心理测验”心理测验自问世以来,得到评价褒贬不一,存在两种极端的看法:即测验完美论者和测验无用论者。前者高估了测验的效能,单纯依据测验做出决策,忽略了其他信息,过于夸大了分数的意义,认为分数能说明一切。这种观点曾风行一时,但由于结果往往与预测大相径庭,导致了另一种观点的出现:测验无用,完全否定测验的功效,认为测验对实践工作完全没有帮助。这两种观点都过于极端,是错误的,对心理测验应从下面的角度理解:(1)测验是心理学研究的一种重要方法和进行决策的辅助工具。测验法是继观察法之后,在心理学研究中得到广泛应用的方法,但它和其他的许多方法一样存在各自的优点和缺陷。心理测验采用客观的量化技术将心理现象量化,这无疑是有一定科学性的,但不是在任何场合心理测验都是最有效的。因此,使用测验时,应将其看作一种工具,同时还要考虑其他方法的可行性,不要盲目崇拜。另外,在实际应用中,许多人往往将测验的结束视作研究的结束,忽略了测验的工具性。测验本身只是一种手段,不是目的。如在智力测验后,发现了学生的优点和弱势,使得人们了解了学生,这不意味着结束。测验应该是一个起点,应该在此基础之上进一步验9