心理测量学实验手册-09年级心理专业
发布时间:2025-07-22 07:07:42浏览次数:3心 理 测 量 学实 验 手 册(内 部 资 料)温 州 医 学 院 心 理 系心 理 实 验 中 心 编 制二 00 八 年 十二 月目 录实验一 心理测验的设计与编制…………………………………3实验二 测验的施测与计分………………………………………7实验三 项目分析…………………………………………………9实验四 信度与效度………………………………………………11实验五 标准化成就测验…………………………………………14实验六 智力测验…………………………………………………15实验七 核查表与评定量表………………………………………16实验八 人格调查表………………………………………………17实验九 投射技术…………………………………………………18附录一 概化理论…………………………………………………19 附录二 项目反应理论……………………………………………28实验一 心理测验的设计与编制一、目的和要求(一)掌握测验目的和行为样本的关系。掌握难度、区分度的计算及使用条件。(二)了解测验的形式与素材。二、教学内容(一)详细讲解:质量分析(二)重点讲解:常模与标准化(三)一般介绍:测验手册三、实验内容1、以下数据为使用某量表测试 10 人的原始数据,其中第 8 题和第 13 题为反向记分项目(计算总分时需要反过来计算,被试选 1 则转换为 5 计算总分、2 转换为 4、3v 换为 3、4 转换为 2、5 转换为1),其中前 10 题为量表的第一分量表包含的题目,后 8 题为第二分量表包含的题目。试计算分量表 1和 2 的总分均值与标准差。NUM 1 2 3 4 5 6 7 8 91011121314151617181 4 3 1 4 4 2 1 3 5 4 1 4 5 5 5 3 4 52 4 3 3 4 3 3 2 3 5 3 2 5 5 5 5 3 5 53 1 3 1 5 5 1 1 1 1 5 5 1 5 5 5 1 3 54 4 3 2 4 4 1 1 2 1 1 1 1 1 5 5 5 5 55 4 2 3 4 3 5 4 2 5 1 1 3 3 3 3 3 2 16 1 5 5 1 3 3 2 1 3 2 1 1 4 3 4 4 5 57 5 3 1 3 5 1 5 1 4 4 1 4 5 5 4 3 3 58 3 1 1 2 5 3 4 1 3 4 2 5 1 3 2 5 4 49 4 3 1 4 5 4 5 3 4 1 2 3 5 3 2 1 4 4105 3 3 3 3 1 3 3 5 3 1 5 1 5 5 5 3 52、某研究者编制了一份小学学习经验问卷,问卷包含了 3 个部分(A-数学焦虑量表,27 个项目;B-数学态度量表,30 个项目;C-数学投入动机量表,14 个项目),采用里克特 5 点量表填答方式。数学焦虑量表中的第 24、25、26 题为反向记分的项目,数学态度量表中的第3、8、11、14、15、16、19、24、27、30 题也为反向记分项目。3 个分量表的层面名称、代号与题项如表 1。调查了 300 多名被试,下面表 2 为其中的 10 名被试的数据,性别 1 代表男,2 代表女。家庭 1
(一)掌握成就测验、调查测验。(二)了解诊断与预测测验、能力倾向测验。二、教学内容(一)详细讲解:成就测验(二)重点讲解:调查测验(三)一般介绍:能力倾向测验三、实验内容1、实验分组按照相邻的学号每两人为一组。2、实验安排每组的两人轮流充当主试与被试,按照指导手册的要求进行成就能力测验的模拟练习,记录测量的原始数据。3、测验结果根据所得的原始数据,进行相应的转换。参考指导手册撰写本人做为主试时收集到数据的评估报告。实验六 智力测验一、目的和要求(一)掌握智力的概念。(二)了解比奈智力测验、韦克斯勒智力测验、考夫曼评价测验。二、教学内容(一)详细讲解:智力的概念(二)重点讲解:韦克斯勒智力测验(三)一般介绍:比奈智力测验三、实验内容1、实验分组按照相邻的学号每两人为一组。2、实验安排每组的两人轮流充当主试与被试,按照指导手册的要求进行智力测验的模拟练习,记录测量的原始数据。3、测验结果根据所得的原始数据,进行相应的转换。参考指导手册撰写本人做为主试时收集到数据的评估报告。实验七 核查表与评定量表一、目的和要求(一)掌握常用症状评定量表。(二)了解症状评定量表的分类。二、教学内容(一)详细讲解:焦虑自评量表(SAS)(二)重点讲解:症状自评量表(SCL-90)(三)一般介绍:抑郁自评量表(SDS)三、实验内容1、实验分组按照相邻的学号每两人为一组。2、实验安排每组的两人轮流充当主试与被试,按照指导手册的要求进行症状评定量表的模拟练习,记录测量的原始数据。3、测验结果根据所得的原始数据,进行相应的转换。参考指导手册撰写本人做为主试时收集到数据的评估报告。
实验八 人格调查表一、目的和要求(一)掌握明尼苏达多项人格测验、卡特尔人格测验。(二)了解艾森克人格问卷。二、教学内容(一)详细讲解:明尼苏达多项人格测验(MMPI)(二)重点讲解:艾森克人格问卷(EPQ)(三)一般介绍:卡特尔人格测验(16PF)三、实验内容1、实验分组按照相邻的学号每两人为一组。2、实验安排每组的两人轮流充当主试与被试,按照指导手册的要求进行人格测验的模拟练习,记录测量的原始数据。3、测验结果根据所得的原始数据,进行相应的转换。参考指导手册撰写本人做为主试时收集到数据的评估报告。实验九 投射技术一、目的和要求(一)掌握罗夏墨迹测验技术。(二)了解。二、教学内容(一)详细讲解:罗夏墨迹测验技术(二)重点讲解:主题统觉测验(三)一般介绍:笔迹分析三、实验内容1、实验分组按照相邻的学号每两人为一组。2、实验安排每组的两人轮流充当主试与被试,按照指导手册的要求进行人格测验的模拟练习,记录测量的原始数据。3、测验结果根据所得的原始数据,进行相应的转换。参考指导手册撰写本人做为主试时收集到数据的评估报告。
附录一概 化 理 论概括力理论(generalizability theory),又称概化理论,也有人称之为拓广理论。概括力理论将因素试验设计及其分析、方差分量模型等统计工具应用到教育与心理测量学,对经典测验理论(CTT)中的一个重要概念――信度进行推广,即结合测量的情境关系对 CTT 给出的笼统的误差进行探查和分解,辨明误差的不同来源,并且在一定范围内变动测量的情境关系,考察这种变动引起的误差的相对变化,从而达到对误差方差进行控制,提高测验“信度”的目的。第一节 概括力理论产生的背景及概念框架一、产生背景与其他的测量一样,心理与教育测量中形成误差的原因是多种多样的。比如,同一被试接受了同一批试题的两次测试成绩不完全一样,这是由于测试环境与被试心理不稳而引起的误差;不同阅卷者对同一试卷评分,所得结果不同,这是评分员标准不一致造成的误差;对同一批被试测试不同的试题,所测成绩不完全一样,这是由于试题性质不一造成的误差……形成误差的原因不同、误差性质不同,误差大小也不同;相同性质的误差,在不同条件下,其大小也可能不同,要想使测量可靠,必须控制和缩小误差。因此,必须对各种误差的来源、大小、控制手段都要深入了解。CTT 对测验误差的研究做出了重大贡献,给出了测验原始分数(X)等于真分数(T)与测验误差(E)之和的线性模型:X=T+E,还给出了测验信度的概念,即测验信度系数等于真分数方差在观察分数(总分)方差中所占的比例,于是,测验信度系数成了测验误差的另一种度量形式。然而,CTT 给出的线性模型是粗糙的,对测验误差的形成没有进行更深入的研究,故不可能区分如上所述的各种各样不同的误差;有时,只能撇开其他误差而只考虑其中一种误差;这是 CTT 误差估计的薄弱之处。为弥补这一弱点,CTT 强调固定影响测量目标的因素,比如为了消除评分员之间的差异,便采用流水作业法,让同一评分员评判所有被试的某一题目。这种补救措施适用范围受到限制,比如,评分员在限定时间内无法对太多被试完成评定任务。20 世纪 60 年代中后期,以克隆巴赫(Cronbach)等人的系列论文和专著的问世为标志,正式诞生了概括力理论(generalizability theory,GT)。GT 在测量误差研究方面比 CTT 更深入、更细致。GT 是 CTT 的拓广,并且受到方差分析法(ANOVA)将误差进行分解的启发。所以有人认为 CTT 和ANOVA 是 GT 的双亲。当然,GT 与 CTT 看问题的角度不同。比如,CTT 只给出了 X=T+E 这一模型,GT 便认为可以根据引起误差的原因将 E 进行分解;CTT 中有平行测验的概念,且信度是建立在平行测验观念基础之上的,而 GT 则将平行测验推广为操作十分方便的随机平行测验,即凡是从同一题库中随机抽取的几份试卷都认为是随机平行的;CTT 只考虑单一的笼统的误差,虽然设计了多种估计测验信度的方法,而实际上各种不同方法所估计的是在不同测量条件下所形成的性质并不相同的测验误差。即各种方法所估计的都只是测验误差中的一种或几种,仍只是整个测验误差中的一部分,而不能将多种测试条件引起的信度变化反映出来。GT 则将误差依据测试条件进行分解,将总误差的构成剖析清楚,并且可以给出多种信度。CTT 中rxx(信度)是真分数方差对观察分数方差的比值,GT 中也有类似的方差比,即 GT 中定义了一种“类信度系数”(reliability-like coefficient)即 G 系数。所谓 G 系数,一般统计书中称之为组内相关系数(intraclass correlation coefficient)。在教育测量中,它实际上是两个长度相同的随机平行测验相关的期望值的近似。同样,GT 与 ANOVA 也有很多差别,这些差别产生的原因主要有两点。第一是数据采集的方式不一样,第二是各自要解决的问题不一样。为了说清楚第一点,我们首先谈一谈通常的 ANOVA 对试验数据收集的基本原则之一:重复。在试验设计中,将一次试验中所指定的试验条件称为处理。如果一处理在试验中出现一次以上,则称这一处理进行了重复。重复的主要作用是估计方差,提高试验精度和增强统计推断能力。在试验中,将同一试验在多次重复中反映出的差异称为误差。通常,误差的大小用重复试验数据的标准差来度量,它描述了一个试验的精度。重复是费舍(Fisher)试验三原则(重复、随机化、局部控制)之一。ANOVA中强调了重复原则,它才能将随机误差进行分离,即在进行平方和分解时分离出效应带来的误差和随机带来的误差。一般 ANOVA 要进行析因研究,即要将变异来源剖析清楚,并且寻找出度量变异的准则(F 值),即将各因素平方和与误差平方和逐一进行比较,以判定各因子效应是否存在。而在通常的教育与心理测验中,一般不能对被试进行重复试验。这是客观形势所不允许所致。例如,我们不能为了
查清高校入学考试的误差,而要考生参加两次入学考试。所以,在只进行一次测试的情况下,各因素效应与其他残差效应就会分辨不清。因此,GT 中剩余平方和就分解不出来,也就不能作 F 检验。这样,在统计模型的假设中,由于不要作 F 检验,所以对各效应分布的要求就比 ANOVA 中的要求稍弱。以下谈第二点,在 ANOVA 中,对固定效应模型(即各个因素的所有参加试验的水平都由试验者主观确定的模型)来讲,是要分清各因素效应是否存在,同一因素各水平之间是否存在差异;但 GT 中,若各因素都固定了,测验结果就无意义了,所以不采用固定模型。GT 这时也就不分析同一因素各水平的差异了。对于随机效应模型(即各因素的所有参加试验的水平都由相应因素的水平集合中随机选取的模型),由于各水平是随机选取,故检验因素各水平之间是否有显著差异已无意义,转而考虑同一因素的全部水平之间是否有显著差异,并且对各个方差分量的估计更感兴趣。在 GT 中,我们只研究所谓真方差与相对方差或绝对方差之比(这些概念参见后面内容)。以确定测验的信度,故 GT 只对方差分量感兴趣,从而也只研究随机效应模型或混合模型(所谓混合模型,即考察的因素中有些因素其水平是主观选定的,另外一些因素的水平是随机选取的)。GT 认为,对于按试验者主观选定的因素水平,即具有固定效应的因素,它的方差统统可以看成是真方差的一部分。至于方差分量的估计方法,GT 基本上只采用方差分析法。而在 ANOVA 中,对方差似然估计、贝叶斯估计以及 MINQUE 等。由于 GT 要通过研究真方差与相对误差方差或绝对误差方差之比考察测验的信度或效度(但这里我们只讲信度),故 GT 还想应用已得到的数据,通过增减侧面的水平数或各侧面之间的相互搭配形式,进一步找到提高信度的设计,即进行所谓的 D 研究。在经典的 ANOVA 中,则没有程序以保证有进一步的考察过程(在可计算性项目的三次设计有相应的内容,但这不属于经典 ANOVA)。GT 中既要考察真方差与相对误差方差或绝对误差方差之比,而且又不能分解出误差方差,故 GT 中至少要考察两个因素(尽管 GT 中采用总体与全域等术语,但它们都对应着 ANOVA 中的因素),这与ANOVA 有时要考察单因素的情形不同。当然,GT 由于专门为解决教育与心理测量问题而产生,而发展,所以它有一套相应的术语和方法,这些术语、方法与 ANOVA 有所不同,比如 ANOVA 中称之为试验设计,在 GT 中便称之为研究设计,这些差别我们留在以后讨论。至于 GT 和 ANOVA 中相类似的地方,主要是在模型上都有随机效应模型和混合效应模型;在设计上都讨论交叉设计、嵌套设计和混合设计;这些设计相对应的数据都要进行平方和分解,而且方差分量等都可采用方差分析法估计。GT 要解决的问题是控制和减少测试误差。粗略地说,GT 的内容是:设计一个收集数据的方案,对这些数据进行统计分析,然后根据分析结果对已实施的方案进行修改,以期得到更好的方案。为了将这些内容说清楚,我们先介绍 GT 的常用概念。二、GT 中的主要概念GT 认识到影响测量结果的误差来源是多方面的,故致力于使建立的理论模型能更好地反映客观事实。GT 模型的建立依赖于对测验情境关系的详细调查。简而言之,测验情境关系指的是“测什么(或测谁)”以及“怎么测”的总和。“测什么(或测谁)”是指测量目标,严格地说,测量目标是测验编制者希望通过测量情境用数字加以描述的实体属性。在大多数心理与教育测量中,一般通过“测量谁”(学生、教师、被评定者、评定者等)和“测量什么”(学业成绩、一般能力、人格特质、评分倾向性等)来具体定义测量目标。“怎么测”的问题涉及范围更宽,包括测量工具、测量操作、测验环境以及测验过程设计等。纵使是用直尺测量桌子长度这样一个简单的问题,也要问问测量工具(直尺)是否准确?施测者的读书是否准确?甚至还要问问测量的条件如何。比如温度对测量目标(桌子长度)和测量工具都有影响,测量时的光照条件对读数有影响等等。除此之外,我们还要问,是用同一把直尺测量几次取平均还是用不同直尺测几次取平均更准?是请一位施测者测量几次取平均还是请几位施测者施测再去平均更准?等等这些,都是“怎么测”的问题。这个简单的例子说明“怎么测”的问题至少包括测量的工具(含施测者)以及测量的设计等问题。对于更复杂的教育与心理测量,“怎么测”的问题也就可能更复杂,比如通过考试测量学生的数学水平。测量工具当然是数学试题,然而,施测时的周边环境(含被试心情、试场内外情况等),对评分员的选取,以及评分员如何分配试卷。比如一位评分员评判所有试卷,还是每位评分员评判所有被试的某一试题,还是将评分员分成若干组,每组只评其中某一题,等等,这些都对测试成绩(观察分数)有影响。因此,“怎么测”的问题既要考虑哪些主要因素对测量目标有影响,又要考虑这些因素之间的相
互关系对测量目标的影响。对前者的考虑可以说是对“测量工具”的考虑,对后者的考虑则是对试验如何设计考虑,亦即试验设计问题,也就是各种“工具”如何搭配以及各种“工具”与测量目标如何搭配的问题。所以,通俗地说“怎么测”的问题是测量“工具”的确定以及各种测量“工具”如何使用的问题。测量情境是“测什么”和“怎么测”的总和。测量情境关系一旦确定,便确定了测量目标的观察值和影响这一观察值的各种效应之间的关系,从而便可以用数学关系式(一般是线性模型)来表达这种关系。影响测量目标的主要因素在 GT 中称为测量侧面(简称侧面),而侧面的不同条件和状态称为该侧面的不同水平。一般在心理与教育测量中,常把测验题目(即项目)、评分员等作为测量侧面,而不同的试题和不同的评分员则对应于相应侧面的不同水平。侧面水平的全体称为观察全域(有人又将所有侧面的全体称为观察全域,即观察全域实际上是指所有处理的全体)。由于侧面水平的全体事实上又可称为水平总体(母体),但 GT 约定,总体对测量目标而言,全域对侧面而言。注意,在不同的测验研究中,测量目标、侧面以及它们之间的关系可以不同,比如收集了五位教师共同评定一个班的四篇作文试卷,当我们研究学生作文水平高低时,学生水平就是测量目标,教师评卷能力就是测量侧面;当我们研究教师评分一致性时,教师评分能力就是测量目标,而学生作文水平就是测量侧面了。但对同一确定的测量研究来说,其测量目标、测量侧面也就确定下来了,各侧面与测量目标之间的关系也确定下来了。影响测量目标的侧面有多寡,比如上例中若学生的四篇作文分别为记叙、说明、议论和诗歌四种类型,那么,当研究学生作文水平时,侧面就包括评分教师与作文体裁两个侧面了。在 GT 的设计工作中,将单侧面对应的设计称为单侧面设计,多侧面(二个或二个以上的侧面)对应的设计称为多侧面设计。在 GT 中,根据侧面间、或侧面与被试间的关系,研究设计分为交叉型(crossed)和嵌套型(nested)以及混合型,而所谓混合型,就是既有交叉型又有嵌套型的设计。交叉设计--某一侧面(被试)的所有水平必须在另一侧面的所有水平下被观察。嵌套设计--某一侧面(被试)的不同水平可以在另一侧面的不同水平下被观察。 例如,同一批被试(p)考相同的一批题目(I),被试与试题是交叉型的,记为 pxi。这里,同一试题测试了全部被试,而同一被试,接受了全部试题的测试,试题与全部被试发生了交叉关系。但不同的试题(I),一般不可能都来自同一章节(h),即不同章节含有不同的试题,且我们假设同一试题不可能来自两个章节(即没有综合题),则称试题嵌套在章节之内。这时,试题与章节的关系就是嵌套关系,嵌套关系可以记为 i:h。如果有三位评分员(r)6 个被试(p),所有被试考三个作文试题(I),且被试平均分成三组,每组由一个评分员评定,则这时被试 p 嵌套在评分员 r 侧面中,而 p与试题 i 的关系为交叉的。上述三个例子示意图如下测验的各个侧面按是否随机选取某水平而分为随机侧面与固定侧面。如上所述,评分员从某一地区中学教师中随机抽取三名,则评分员这一侧面为随机侧面;如果指定某三名特级教师做评分员,则这一侧面为固定侧面。GT 认为,侧面一经固定,其本身便成了测量目标的一部分。如前所述,评分员一旦固定为某三位
特级教师,测量目标便成了三名特级教师评定下的学生作文水平。类似地,如果作文试题固定为特定的作文,测量目标就成了指定作文上的学生作文水平。GT 证明了每多固定一侧面,测量的精度就会有更多的提高。标准化测验就是把某些侧面(如试题)加以固定的测验,其目的就在于提高测量精度。但固定测量侧面,会使测量目标所受的限制也随之增加,测验分数的使用价值也随之下降。比如上例中,当固定作文试题后,学生作文水平就是某些作文题目上的水平了。总之,CTT 提出了测量标准化,主要内容就是稳定测量条件,其实质是固定一些测量侧面,以降低测量误差,但标准化测验的分数只限于在标准化测验条件下解释和应用。GT 认为各测量侧面效应、测量目标效应、测量侧面和测量目标的交互效应的方差可以分为三类:第一类-真方差,体现和刻划特定测量目标(一般与人有关)的分数方差,记为 σ2(p)。即反映测量目标个体间变异性的那部分方差,如学生作文水平的方差。第二类-相对误差方差,所有含有测量目标的交互效应的方差除以各自水平数之后的和,记为σ2(δ)。如在 p×i 设计中,被试(测量目标)与项目的交互效应方差为σ2(pi)。第三类-绝对误差方差,除真方差以外所有方差除以各自水平数后的和,记为σ2(Δ)。如在 p×i 设计中,除真方差(σ2(p))外所有方差为 2 个:即项目效应方差(σ2(i))和交互效应方差(σ2(pi))。与经典理论中考察测验信度首先就要求取信度系数相似,GT 对测验误差问题的研究,首先就要求取一定测验情况条件下的类信度系数或称概括力系数即 G 系数。G 系数有时又记为E ρ2,定义为:E ρ2=σ2( p )/(σ2( p )+σ2(δ ))对测量误差的研究并不是求出 G 系数便结束了,它 还要研究在一定范围内变动测验情境关系,比如增加试题数,或增加评分员数时,可能引起测量误差的变化。GT 中有两个重要的概念用来概括这些内容,这两个概念即 G 研究和 D 研究。粗略地讲,G 研究包含确定测量目标及测量侧面,进行初始测验研究设计,根据这个设计收集测验数据,应用 ANOVA 等技术进行方差分量估计,至此,G 研究完成。D 研究为决策研究(decision study),它是根据 G 研究的结果,在 G 研究的测量情境关系范围内,分析比较可能的测验方案(即试验设计),以得到最佳的方案,这便是作为判决的基本含义。注意,在 D 研究中,也有 D 研究设计的概念,但 D 研究设计仅仅是对设计方案进行修改(如变动侧面水平数,变交叉设计为嵌套设计等),而不象 G 研究设计那样,除了设计试验方案外,还必须去采取数据。GT 对测验的测量误差研究的全过程,可用下图表示:
三、GT 的误差方差分析法在 G 研究中,根据测量情境关系,由数学模型,可将总体方差分解为测量目标的主效应方差,测量侧面主效应方差以及各级交互效应方差。由此还可以计算出各种方差的自由度。方差除以相应的自由度即得到均方。一般来讲,D 研究根据 G 研究的结果,修改设计方案,其修改包括三个方面。(1)把一个或几个随机侧面改为固定侧面,但至少保留一个随机侧面。(2)对一个或几个侧面的水平数作调整。(3)将交叉设计改为嵌套设计。这些修改都将引起测量精度的变化。D 研究提供了对各种误差进行估计的方法及评价各种方案优劣的指标。GT 把新设计方案称为概化领域或拓广领域,其含意是 D 研究的对象已经不是原来 G 研究的观察全域,D 研究已经把 G 研究的结果拓广到新领域了。当然,D 研究中对原来 G 研究的初始设计方案的修改可以减少误差方差,但是还是要为此付出代价的,故研究者要权衡利弊,统筹兼顾,优选设计方案。D 研究中为了比较常模参照性测验的优劣,给出了 G 系数作为比较指标,G 系数为真方差(σ2( p))除以真方差与相对误差方差σ2(δ )之和,即G=E ρ 2=σ2( p )/(σ2( p )+σ2(δ ))为了比较标准参照性测验的优劣,给出了依存性指标,即 φ 系数,它等于真方差除以真方差与绝对误差之和的值,即ϕ=σ2( p )/(σ2( p)+σ2( Δ))这两个系数类似于 CTT 中的信度系数:G 系数是对常模参照性测验分数稳定性的度量,φ 系数是对标准参照性测验分数稳定性和一致性这两种性能程度的测量。注意,对于不同的 D 研究设计,G 系数、φ 系数也不同。第二节 概括力理论的分析方法一、G 研究与 D 研究中的方差分析概括力分析的全部工作,包括依次进行的 G 研究与 D 研究两步。G 研究就是在一定的测量情境条件下进行收集资料的设计,并实际进行试验性测试,以获得实测数据,求出各种方差分量的阶段。资料收集设计,可以是单侧面的或多侧面的,可以是交叉的或嵌套的;有了资料,就要计算属于测量目标、不同测量侧面、测量目标与测量侧面的交互作用的方差分量的大小。当然,首先还要对总平方和加以划分,求出分属各主效应和交互作用的平方和 SS,同时再确定恰当的相应自由度 df。然后根据平方和与自由度求出各主效应及交互作用的均方 MS。这里所私用的就是通常的方差分析方法。D 研究就是在改变测量情境关系的某些方面的情况下,利用 G 研究所获得的结论,去考察如何提高测量信度,改进测量效度工作。或者说,它是推广 G 研究成果,不必等到以后正式进行的测量工作,就可以做出优化决策,实现预控调节的工作阶段。二、单侧面交叉设计在 G 研究测量设计中,最简单的是单侧面交叉设计。1、单侧面 G 研究 p×i 设计与 D 研究 p×I 设计计算公式效应 自由度(df)平方和(SS)均方(MS)G 研究方差分量估计D 研究设计方差分量估计被试(p)np-1SS(p)MS(p)= SS(p)/df(p)σ2( p)σ2(p)项目(i)ni-1SS(i)MS(i)= σ2(i)σ2(I)= σ2(i)/n i'
SS(i)/df(i)交互效应(pxi)(np-1)(ni-1)SS(pi)MS(pi)= SS(pi)/df(pi)σ2( pi)σ2(pI)=σ2(pi)/ni'σ2(p)=[MS ( p )−MS( pi)]/n iσ2(i)=[MS(i )−MS ( pi )]/n pσ2(pi)=MS( pi)这里不是写成 p×i,而是写成 p×I,在 D 研究阶段,凡是要重新取一个随机平行样本的随机侧面都应将代表随机侧面的字母改成大写,随机平行样本的容量为n'。相对误差方差计算公式:σ2(δ)=σ2(pI)=σ2(pi)/n i'绝对误差方差计算公式:σ2(Δ)= σ2(I)+σ2(pI)=σ2(i)/ni'+σ2(pi)/ni'G 系数计算公式:Eρ2=σ2( p )/[ σ2( p )+σ2(δ )]φ 系数计算公式:ϕ=σ2( p )/[ σ2( p )+σ2( Δ)]2、单侧面交叉设计的人造数据例子在一次施测中,从总体中随机抽取 10 名学生,从试题全域中随机抽取 12 道 0-1 记分题,其得分情况如下表表 1 10 名学生在 12 道题上得分情况学生编号试 题 号1 2 3 4 5 6 7 8 9 10 11 121 1 0 1 0 0 0 0 0 0 0 0 02 1 1 1 0 0 1 0 0 0 0 0 03 1 1 1 1 1 0 0 0 0 0 0 04 1 1 0 1 1 0 0 1 0 0 0 05 1 1 1 1 1 0 1 0 0 0 0 06 1 1 1 0 1 1 1 0 0 0 0 07 1 1 1 1 1 1 1 0 0 0 0 08 1 1 1 1 0 1 1 1 1 1 0 09 1 1 1 1 1 1 1 1 1 1 1 010 1 1 1 1 1 1 1 1 1 1 1 1表 2 方差分析结果变异来源 SS df MSP 7.342 9 0.816I 9.692 11 0.881P * I12.558 99 0.127
在 D 研究中取ni'=12,即假定把项目侧面的水平变为 12,求ni'=12的 D 研究计算结果。单侧面 G 研究 p×i 设计与 D 研究 p×I 设计计算公式及结果效应 自由度(df)平方和(SS)均方(MS)G 研究方差分量估计D 研究设计方差分量估计被试(p)np-1=9SS(p)=7.342MS(p)= SS(p)/df(p)=0.816σ2( p)=σ2(p)项目(i)ni-1=11SS(i)=9.692MS(i)= SS(i)/df(i)=0.881σ2(i)=σ2(I)= σ2(i)/n i'=交互效应(pxi)(np-1)(ni-1)=99SS(pi)=12.558MS(pi)= SS(pi)/df(pi)=0.127σ2( pi)=σ2(pI)=σ2(pi)/ni'σ2(p)=[MS ( p )−MS( pi)]/n iσ2(i)=[MS(i )−MS ( pi )]/n pσ2(pi)=MS( pi)σ2(p)=[MS( p )−MS( pi)]/n i=[0 . 816 −0 .127]/12=0 .689 /12 =0 .0574σ2(i)=[MS (i )−MS( pi )]/n p=[0 . 881−0 . 127]/10=0. 754 /10 =0 . 0754σ2(pi)=MS( pi)=0. 127σ2(I)= σ2(i)/n i'= 0 . 0754 /12=0 .006283σ2(pI)=σ2(pi)/ni'=0 .127 /12=0 . 010583σ2(δ)=σ2(pI)=σ2(pi)/n i'=0. 010583σ2(Δ)=σ2(I)+σ2(pI)=σ2(i)/ni'+σ2(pi)/ni'=0 .006283+0. 010583=0 .016886Eρ2=σ2( p )/[ σ2( p )+σ2(δ )]=0. 0574 /(0 . 0574+0 . 010583)=0 .0574 /0 . 067983=0 . 844329ϕ=σ2( p )/[ σ2( p )+σ2( Δ)]=0. 0574 /(0 . 0574+0 . 016886 )=0 . 0574/0 . 074266=0 . 772897由 G 系数和 φ 系数可知,这一测验无论作为常模参照性测验还是作为标准参照性测验,其稳定程
度都比较高。
表示农村,2 代表城市。请根据表 1 和表 2 的资料计算各层面的信度、量表常模的数据如均数、标准差、Z 分数(或 T 分数)等,尝试编制使用手册。表 1 3 个分量表的层面名称、代号与题项量表/层面名称 代号包含的题项 题项数一、数学焦虑分量表1.压力惧怕层面 feaA14+A15+A19+A21+A22+A23 62.情绪担忧层面 worA2+A3+A4+A7+A10+A11+A12+A16 83.考试焦虑层面 exaA1+A5+A6+A8+A9+A13+A17+A18 84.课堂焦虑层面 claA20+A24+A25+A26+A27 5数学焦虑分量表总分anxfea + wor + exa + cla 27二、数学态度分量表1.学习信心层面 conB1+B2+B5+B6+B7+B8+B10+B18+B24+B29102.有用性层面 useB9+B12+B13+B15+B17+B19+B20 73.成功态度层面 sucB21+B22+B23+B25+B26+B27+B28 74.探究动机层面 motB3+B4+B6+B11+B14+B30 6数学态度分量表总分attcon + use + suc + mot 30三、数学投入动机分量表1.工作投入层面 tinC1+C2+C3+C4+C5+C6+C9 72.自我投入层面 einC7+C8+C10+C11+C12+C13+C14 7投入动机分量表总分invtin + ein 14表 2 10 名被试的数据编号数学成绩性别家庭A1A2A3A4A5A6A7A8A9A10A11A12A13A14A151141 2 4 5 5 4 5 5 5 4 5 5 5 5 5 4 52442 1 3 1 3 2 3 2 1 2 1 2 2 1 1 2 13262 1 3 4 5 1 5 5 5 1 5 5 5 1 1 1 14 2 1 2 1 1 1 5 3 5 5 5 1 2 5 5 4 5 3
附录二项 目 反 应 理 论一、经典测验理论的局限性1、抽样变动大项目统计量(项目难度和项目鉴别力)依赖于测验所实施的被试样组。例如,正答率 P=R/N,如果样本中包含能力高的被试越多,则 P 值越高,相反则低,鉴别力也一样。2、能力难比较被试测验分数依赖于所施测项目的难度。不同测验测量同一种心理特质时,会得到不同的测验分数。项目难度高,被试测验分数低。这样,被试在不同测验上的得分难比较。3、复本难实施经典测验理论是建立在平行测验(即复本)假设下估计测验信度和测量标准误,以及达到与其信度所需的测验长度的。事实上,平行测验是不可能实现的,所以由此而进行的各种估计就不会非常精确。另外,信度系数的计算与被试样组有关,同一测验施测不同被试组时,它的信度是变化的。测量学专家们认为,经典测量理论中最基本的四个概念是项目难度、区分度、信度和测验分数,前三个都依赖于被试样本能力水平分布,而测验分数又依赖于测验难度,概念之间相互依赖。4、缺乏预测力CTT 不能提供不同能力水平的被试如何对项目做出反应的信息,而实际工作中却往往要对被试答对各个项目的概率进行估计。5、等测量标准误差CTT 假设对所有被试测量误差的方差都相等,这是难以满足的。让较低能力的被试参加较难的测验,则测量误差大。同样,有些被试在完成某个任务比另一些被试更具有一致性。另外在实际应用中,CTT 还无法提供各项目及测验在它们的分数量表上具有最大鉴别力的位置(例如,高考录取分数线);由于无法确切掌握不同团体被试真实能力之间的差异,CTT 无法对项目偏差进行研究,也无法将分数等值。二、项目反应理论的诞生标志为:美国测量专家洛德(Lord)于 1952 年在他的博士论文中首次提出了项目反应模型,即双参数正态卵形模型,并提出了与此相关的参数估计方法,使得 IRT 可被用来解决实际的二值计分的测验问题。这是 IRT 发展史上重要的里程碑,标志这一理论的诞生。所谓双参数正态卵形模型,实际上是一条累积正态曲线,对于用 Z 分数表示的标准正态分布,它的函数值就是正态曲线下从负无穷到某个 Z 值处的面积。三、IRT 的特点IRT 又称题目反应理论、潜在特质理论1、基本思想和心理学中关于潜在特质的一般理论有关。假设被试对测验的反应是受某种心理特质的支配,那么我们首先就要对这种特质进行界定,然后估计出该被试这种特质的分数,并根据该分数的高低来预测和解释被试对于项目或测验的反应。因为这种特质无法直接测量,所以称为潜在特质。2、基本思路确定被试的心理特质值和他们对项目的反应之间的关系,这种关系的数学形式就是“项目反应模型”。这是一个概率型模型,因为被试对于测验项目的反应除了受到某种特定“特质”的支配外,还受到许多随机因素的影响。从某种意义上讲,IRT 的核心就是数学模型的建立和对模型中各个参数的估计。四、IRT 的基本假设1、潜在特质空间的单维性假设(unidimensionality)潜在特质空间是指由潜在特质组成的抽象空间。对于人的某一种任务行为起制约作用的若干潜在特质的集合称为潜在特质空间。在潜在特质空间中,相互独立的潜在特质的个数称作这个潜在特质空间的维度。该假设指出:如果被试对一个测验的项目的反应是由他的 K 种潜在特质所决定的,那么这些潜在特质就构成了一个 K 维潜在空间,被试的各个潜在特质分数综合起来,就决定了该被试在这一潜在特质空间的位置。当且仅当这个空间的全部特质都被确定以后,这个空间才是完全的。大多数项目反应模型都假设完全潜在特质空间是单维的,即只有一种潜在特质决定了被试对项目的
反应。换句话说,组成某个测验的所有项目都是测量同一个心理变量的,例如,知识、能力、态度等。但是别的影响因素无法排除。因此在 IRT 中,只要所测量的心理特质是影响被试对项目作反应的主要因素,就认为这组测验数据满足单维性假设。有些学者还提出过非速度限制假设,指测验的实施是在不受速度限制的条件下进行。即如果被试答错了某个项目,那么,并不是由于他没有时间做这个项目,而是他能力不够。事实上,如果速度对测验结果有影响,那么就有两种心理特质――被试的反应速度和所欲测量的潜在特质影响被试反应。所以非速度限制假设应包含在单维性假设中。2、局部独立性假设指同一特质水平的被试对不同测验的反应在统计上是独立的。即被试对一个测验项目的反应不受他们对其他测验项目反应情况的影响。用统计的术语来说,对于具有相同特质水平的被试,测验中的各项目是不相关的。这是针对特定能力值(θ 值或潜在特质值)的被试而言的,不是对不同的能力值的被试总体来说的,所以称为 “局部”。3、项目特征曲线假设以认知领域的测量为例。我们都有这样的经验:一道编制较好的题目,被试在此题上正确作答的概率会随着被试的测验总分的增大而提高。即被试总分高,在试题上正确作答的概率也高,反之则低。试题正确作答与被试总分之间呈正相关。因此,按照被试总分由低到高,对试题正确作答的概率形成一条不降曲线(或单调上升曲线),这就是试题正确作答率(Y)对测验总分(X)的回归曲线。但是,我们应该注意到,被试测验总分是一种随测验特性而变的分数量表,同时也很容易受到抽样的影响,是一个不稳定的被试水平描写量。所以,根据被试卷面总分求得的这一条回归曲线不稳定,不能对测验项目特性进行良好刻画。若能用稳定反应被试水平的潜在特质量表分数代替卷面总分作为回归曲线的自变量,就可以求得被试在试题上正确作答概率对潜在特质分数的回归曲线,这条曲线称为项目特征曲线。项目特征曲线(ICC)是项目特征函数(ICF)或项目反应函数(IRF)的图像形式。ICF 是项目分数关于所测特质的非线性回归函数,如果我们知道了某一总体被试的能力分数和他们的项目分数,计算出对于每一固定能力水平被试组的项目分数均值,连结这些条件分布均数的曲线就是项目分数对于能力的回归线――ICC。即 ICC 反应了被试对某一测验项目的正确反应概率与该项目所对应的能力或特质水平之间的一种函数关系。我们来分析一下项目特征曲线的形态特点。首先,人的潜在特质量表应该定义在正负无穷的区域内。尽管特质处于极端水平的被试极少,但理论上还是存在的。第二,被试在试题上正确作答的概率,记为 P(θ),无论被试处于什么特质水平上,取值都在[0, 1]区间内。第三,如果试题的质量较好,那么被试正确作答概率应随着被试特质水平的提高而提高。所以,曲线的图像不可能水一条直线,而只能是一条从负无穷到正无穷的递增曲线。S 形曲线是最常见的项目特征曲线形态,项目反应理论中一些基础反应模型都采用 S 形曲线。五、项目反应模型常说的项目反应模型通常指项目特征函数。项目反应理论研究中的一项重要工作就是确定项目特征曲线的形态,然后写出这条特征曲线的解析式,即项目特征函数。项目反应模型按照它所处理的测验数据类型(即计分方式的不同)可分为三类:1、二级评分 IRT 模型适用于对测验项目采用二级评分的测验。如正态卵形模型(normal ogive model)、逻辑斯蒂模型(logistic model)2、多级评分的 IRT 模型适用于对测验项目采用多级评分的测验。如等级模型(graded response model)3、连续性 IRT 模型用于测验项目的评分为连续变量的测验。六、二级评分 IRT 模型中的逻辑斯蒂模型(logistic model)。我们着重介绍二级评分 IRT 模型中的逻辑斯蒂模型(logistic model)。该模型由伯恩鲍姆(Birnbaum)于 1957 年提出,他将洛德的双参数正态卵形曲线模型改成了逻辑
斯蒂模型。有单参数、双参数、三参数之分,分别为:单参数:P i(θ )=11+e−1 .7 (θ−bi)双参数:P i(θ )=11+e−1 .7 ai(θ−bi)三参数:P i(θ )=ci+1−ci1+e−1. 7ai(θ−bi )其中参数ai:为项目区分度,和对应于 bi 点的项目特征曲线(ICC)斜率成正比。它表示曲线的陡峭程度。a 参数越大,ICC 越陡,a 参数越小,ICC 越平。它一般在 0.8 至 1.25 之间最有效。 参数bi:为项目难度,ICC 上斜率最大处在能力量表上对应点的值。项目越难,所需的能力越高,ICC 越偏右,一般能力被试答对该项目的概率会较低。反之,项目越容易,所需能力越低,ICC 越偏左,一般能力被试答对该项目的概率也会较高。
参数ci:为猜测参数,又叫“伪机遇水平”。通常被定义为被试中能力水平低于项目难度2ai个单位的那些人在该项目实际猜测作答获得成功的概率,因此,实际估计结果各项目的ci值是不同的。与经典测量理论中依据随机概率估计为常数值不同。但仍然可以理解为被试纯凭机遇作答而成功的概率。 θ 为潜在特质的值,Pi(θ)表示潜在特质值为 θ 的被试在该试题上正确作答的概率。例如,在认知测量领域,把潜在特质 θ 称为能力。Pi(θ)表示能力为 θ 的被试在项目 i 上正确作答的概率。理论上bi取值与 θ 一样在正负无穷之间。习惯上,θ 取标准 Z 分数表示,所以绝大多数的 bi 取值和 θ 取值都应该在正负 4 之间。单参数(a=1,c=0)逻辑斯蒂模型又称为 Rasch 模型,是由 Rasch 于 1966 年提出的,只考虑项目难度,而认为区分度一致。在西欧等地得到更多推崇。双参数(c=0)逻辑斯蒂模型考虑了项目不同的区分度,适用于问答题、论文形式的测量。三参数模型考虑了被试的猜测可能性,适用于多项选择、成就测验。例如,三参数模型图示
参数 c 为伪机遇水平参数,相当于经典测量理论中的猜测参数。C 值是实际测验中被试纯凭机遇作答而成功的概率。直线 P(θ)=C 是项目特征曲线的下渐近线。即题目的伪机遇水平为 C,意味着潜在特质水平为-∞的被试在该题上正确作答的概率也为 C。高质量的题目应有较小的 C 值,这与经典测量理论的观点一致。参数 b 被称为题目难度。难度为 b 的题目,若排除 c 的影响,潜在特质 θ 值恰等于 b 的被试在该题目正确作答的概率为 0.5。若不排除 C 的影响,则同样条件下被试在该题目上正确作答的概率为(1+C)/2。横坐标 θ=b,纵坐标 P(θ)=(1+C)/2 的点是项目特征曲线的拐点,曲线递增的速率在此点由快转慢。此拐点也是曲线的中心对称点,因此题目难度参数也是项目特征曲线的定位参数。b值确定,项目特征曲线在横轴上的位置也就确定了。说 b 是题目难度参数是因为,随着题目 b 值的升高特征曲线在横轴方向上向右平移,这时只有潜在特质 θ 高的人才可能在新的题目上获得相同的正确作答概率。参数 a 为项目区分度,它刻画测验题目对被试水平区分能力的高低。在 ICC 中,a 值是曲线拐点处切线斜率的函数值。若过拐点的切线夹角为 A,则a=√2 π ×tgA。因此,把 a 称为陡峭参数。曲线在拐点处越陡峭,a 值越大,意味着潜在特质 θ 在 b 值附近稍有变化,则在该题上正确作答的概率差值就很大。说明该题起到了把 b 值附近的被试精细区分的作用。例题,假定项目 1 和项目 2 的参数分别为:a1=a2=0.90,b1=b2=-0.08,c1=0.1,c2=0.3。请计算 θ 值分别为-2,-1,0,1,2 的各类被试,他们对于这两个项目的 P(θ)分别为多少?P1(θ )=c1+1−c11+e−1 .7 a1(θ−b1)=0 . 1+1−0 .11+e−1 . 7×(0 . 9)(θ−(−0 .08 ))=0 . 1+0 . 901+e−1 .53 (θ+0 . 08)P2(θ )=c2+1−c21+e−1 .7 a2(θ−b2)=0 .3+1−0 .31+e−1 . 7 (0 .9 )( θ−(−0 . 08))=0 .3+0 . 71+e−1 .53( θ+0 . 08 )七、项目反应理论的优良性质(一)题目参数的跨群体不变性统计学上已经证明回归曲线是因变量与自变量之间本质关系的描写,在许多情况下不受样本分布的影响。我们看一下项目特征函数,Pi(θ)是具有潜在特质 θ 的被试对测验题目正确作答的概率,这个概率值的大小仅仅依赖于被试的潜在特质 c,与具有这种特质值的人数多少没有任何关系,更不依赖于具有其他特质水平值的人数多少。所以,一道试题无论施测哪种分布群体,Pi(θ)是由潜在特质 θ唯一决定的。因此,在求 ICC 曲线的各种参数时,题目参数 a、b、c 是不变的。(二)能力参数与项目难度参数定义在同一个量表上。这样对于一个能力参数已知的被试,配给一个项目参数已知的试题,就可以通过模型预测被试正确作答的概率。特别是,如果估计被试的能力,就可以从题库中选取难度与其能力相当的项目进行新一轮的测验,使能力估计更精确。(三)信息函数概念的引入与信息函数的可加性
项目反应理论引进了一个全新的概念:测验题目信息函数。项目反应理论定义测验试题的信息函数为:I i(θ )=[ P'i(θ )]2P i(θ )×[ 1−P i (θ )]P'i (θ )为Pi(θ )对 θ 的一阶导数。Ii(θ)是项目 i 上的信息。I (θ)=∑i=1nI i(θ )n 个项目对能力为 θ 的被试施测的测量标准误差为:SE(θ )=[ I (θ )]−12八、IRT 常用分析软件BILOG-MG、MULTILOG、PARSCALE、TESTFACT
65231 1 3 2 3 1 1 5 5 4 5 4 1 1 2 2 46162 1 1 3 5 1 5 1 4 5 5 4 5 3 2 1 17241 2 5 3 4 5 1 1 2 3 4 4 4 5 5 1 38 7 2 1 4 1 2 3 5 2 1 4 3 5 4 2 5 3 19121 2 1 3 2 4 1 1 2 3 5 4 3 2 1 4 310172 2 5 5 5 5 5 1 3 5 5 5 5 3 3 3 1(续上表)A16A17A18A19A20A21A22A23A24A25A26A27B1B2B3B4B5B6B74 4 5 4 1 4 5 5 2 3 4 2 2 3 3 4 3 3 31 1 2 1 3 1 1 2 4 3 2 1 1 3 2 3 3 3 31 1 1 1 5 5 1 5 1 1 1 1 5 5 1 5 5 5 51 1 1 2 2 1 1 1 1 1 1 3 5 2 2 2 1 1 41 4 5 3 3 4 2 5 1 1 1 2 1 1 5 4 2 2 34 3 2 1 4 3 2 1 5 5 1 1 5 3 2 1 4 3 23 5 2 5 1 1 1 2 5 5 4 3 5 1 1 4 3 5 52 1 3 5 4 1 5 3 4 2 4 5 4 5 1 2 3 4 53 1 4 4 5 4 3 3 2 1 4 3 2 4 3 1 4 3 11 1 3 4 1 3 4 1 4 3 1 1 3 1 3 3 3 3 3(续上表)B8B9B10B11B12B13B14B15B16B17B18B19B20B21B22B23B24B25B264 4 3 1 4 4 2 1 3 5 4 1 4 5 5 5 3 4 52 4 3 3 4 3 3 2 3 5 3 2 5 5 5 5 3 5 55 1 3 1 5 5 1 1 1 1 5 5 1 5 5 5 1 3 52 4 3 2 4 4 1 1 2 1 1 1 1 1 5 5 5 5 53 4 2 3 4 3 5 4 2 5 1 1 3 3 3 3 3 2 11 1 5 5 1 3 3 2 1 3 2 1 1 4 3 4 4 5 51 5 3 1 3 5 1 5 1 4 4 1 4 5 5 4 3 3 52 3 1 1 2 5 3 4 1 3 4 2 5 1 3 2 5 4 44 4 3 1 4 5 4 5 3 4 1 2 3 5 3 2 1 4 45 5 3 3 3 3 1 3 3 5 3 1 5 1 5 5 5 3 5(续上表)B27B28B29B30C1C2C3C4C5C6C7C8C9C10C11C12C13C141 4 5 1 5 4 4 5 5 3 4 3 5 3 3 3 3 31 5 3 1 3 3 3 4 4 3 3 3 4 3 3 2 4 31 5 5 1 5 5 5 5 5 5 5 5 5 1 1 1 1 11 5 1 2 3 3 3 3 3 3 3 3 3 3 3 3 3 35 1 3 3 2 1 1 5 3 2 3 3 3 1 4 3 1 11 2 3 5 3 2 1 4 3 1 1 1 1 5 1 1 1 1
1 5 3 1 5 3 3 5 5 4 3 3 5 1 1 2 1 11 2 5 3 1 3 2 4 5 4 5 3 2 1 3 4 1 34 3 1 3 4 3 1 1 3 4 4 5 1 3 5 4 3 25 1 5 1 5 3 3 5 5 3 5 3 5 2 5 4 1 13、某研究者编制了一份工作倦怠感问卷,问卷包含了 22 个项目,采用里克特 4 点量表填答方式。问卷中的第 9-16 为反向记分的项目。调查了 100 名被试,下表为其中的 10 名被试的数据,性别 1 代表男,2 代表女。请根据表 1 和表 2 的资料计算各层面的信度、常模的数据如均数、标准差、Z 分数(或 T 分数)等,尝试编制使用手册。例题如下:从未如此很少如此有时如此经常如此1.我的工作让我的情绪疲惫 1 2 3 4表 1 量表的层面名称与题项量表/层面名称 包含的题项1.第一层面 A1+A2+A3+A4+A5+A6+A7+A82.第二层面 A10+A11+A12+A13+A14+A153.第三层面 A16+A18+A19+A20+A21+A224.第四层面 A9+A17(题项较少,考虑删除)表 2 10 名被试的数据编号性别工龄A1A2A3A4A5A6A7A8A9A10A11A12A13A14A15A16A17A18A19A20A21A221 2 3 3 2 3 3 3 2 2 2 4 4 4 4 4 3 4 2 2 2 2 3 2 32 1 1 3 2 2 2 2 2 2 3 3 3 3 3 3 3 4 3 2 2 2 2 4 43 2 3 3 3 3 3 3 2 2 3 2 2 2 2 3 3 3 3 3 2 3 3 3 34 2 2 3 3 3 3 3 2 2 3 3 3 3 3 3 3 4 3 2 2 2 2 2 25 1 2 3 3 3 3 3 2 3 3 3 3 3 3 3 3 3 3 2 1 2 2 3 26 2 2 4 4 4 3 4 3 3 3 3 3 3 2 3 4 4 3 1 2 1 3 3 37 1 2 4 4 4 3 4 4 4 4 2 2 2 1 3 2 2 4 4 3 3 4 3 48 2 1 3 2 3 3 3 2 3 3 3 3 2 2 4 3 3 3 2 3 2 4 3 39 1 1 2 2 2 2 2 1 1 1 4 4 4 4 4 4 4 4 1 2 2 2 2 310 1 3 3 3 3 2 2 3 2 4 3 2 2 2 2 3 3 3 2 3 3 3 2 2实验二 测验的施测与计分一、目的和要求(一)掌握项目反应理论的模型、IRT 软件的使用。(二)了解项目反应理论的图形。二、教学内容(一)详细讲解:项目反应理论的模型(二)重点讲解:IRT 软件的使用(三)一般介绍:项目反应理论的图形。三、实验内容1、研究者使用某一 20 题组成的测验对 25 名学生进行测试,每名被试在每道题的得分情况如下,0为答错,1 为答对。试对该测验各项目进行分析。ID 1 2 3 4 5 6 7 8 910111213141516171819201 1 1 1 1 1 1 0 1 0 1 1 1 1 1 1 1 1 1 1 12 0 1 1 1 1 1 0 0 1 1 1 1 1 1 1 1 1 1 1 1
3 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 14 1 1 1 0 1 1 1 0 0 1 1 1 1 1 1 0 1 1 1 15 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 16 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 17 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 18 1 1 0 1 1 1 0 0 1 1 1 1 1 1 1 0 1 1 1 19 0 1 1 0 1 1 1 0 0 0 1 1 1 1 1 0 1 1 1 110 0 0 1 1 1 0 1 0 0 1 1 1 1 1 1 1 1 1 1 111 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 112 0 1 1 1 1 1 1 1 0 1 1 0 1 1 1 1 1 1 1 113 1 1 1 1 0 1 0 0 1 1 1 1 1 1 1 0 1 1 1 114 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 115 0 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 116 0 1 1 1 1 1 1 0 0 1 1 1 1 1 1 1 1 1 1 117 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 118 1 0 1 1 1 1 0 0 1 1 1 1 1 1 1 1 1 1 1 119 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 120 1 1 0 0 0 0 1 0 1 1 1 1 1 1 1 1 1 1 1 121 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 122 1 1 0 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 123 1 1 1 1 1 1 1 0 0 1 1 1 1 1 1 1 1 1 1 124 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 125 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 12、研究者使用某一 30 题组成的测验对 25 名学生进行测试,每名被试在每道题的得分情况如下,0为答错,1 为答对。试对该测验各项目进行分析。ID 1 2 3 4 5 6 7 8 91011121314151617181920212223242526272829301 1 1 1 1 1 1 1 0 1 1 1 0 1 1 1 1 1 1 0 0 1 1 1 1 0 0 1 1 1 12 0 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 0 1 1 1 13 1 1 1 0 1 1 1 0 0 1 1 0 1 0 0 1 1 1 1 1 1 1 1 0 1 1 1 1 1 14 0 1 1 0 1 1 1 0 1 1 1 1 1 1 1 1 1 0 1 1 0 1 1 0 1 0 1 1 1 15 1 1 1 0 1 1 1 1 1 1 0 1 1 0 1 1 1 0 1 1 1 1 1 1 1 0 0 1 1 1
6 1 1 1 1 1 1 1 0 0 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 17 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 18 1 1 0 1 1 1 1 1 1 1 1 1 0 1 1 1 0 1 0 1 1 1 1 1 0 1 1 1 1 19 0 1 1 0 1 1 0 0 1 1 0 1 0 0 0 1 0 1 0 1 0 1 1 1 1 0 0 1 1 110 1 1 1 1 1 1 0 1 1 1 0 1 1 1 1 0 1 1 0 1 0 1 1 1 0 1 0 1 1 111 0 1 1 0 1 0 1 1 1 1 1 1 1 0 1 1 0 1 1 0 1 1 0 1 1 0 1 1 1 112 0 1 1 0 1 0 1 1 1 1 1 1 0 1 1 1 0 1 0 1 1 1 0 1 1 1 1 1 1 113 1 1 1 0 1 1 0 1 1 1 1 1 1 1 1 0 1 0 1 0 0 1 1 1 0 1 0 1 1 114 1 1 1 1 1 0 0 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 0 1 0 1 1 1 115 0 1 1 1 1 1 1 0 0 1 1 1 1 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 116 1 1 1 0 1 1 1 0 0 1 1 1 1 1 1 1 0 1 1 1 1 1 0 1 1 1 0 1 1 117 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 1 0 1 1 1 1 1 1 0 1 1 1 1 118 1 1 1 1 1 1 1 0 0 1 1 1 1 1 1 1 0 1 1 1 0 1 1 1 1 1 1 1 1 119 0 1 1 0 1 1 1 1 0 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 0 1 1 1 120 0 1 0 1 1 1 1 1 1 1 0 1 1 1 0 0 1 0 1 0 1 1 1 0 1 0 1 1 1 021 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 122 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 1 1 1 123 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 0 1 1 1 124 1 1 1 1 1 1 1 0 0 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 125 0 1 1 0 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 13、根据项目反应理论模型,假定项目 1 和项目 2 的参数分别为:a1=a2=0.6,b1=b2=0.05,c1=0.1,c2=0.3。请计算 θ 值分别为-2,-1,0,1,2 的各类被试,他们对于这两个项目的 P(θ)分别为多少?实验三 项目分析一、目的和要求(一)掌握难度、区分度的概念。难度、区分度的计算及使用条件。(二)了解项目分析的特殊问题。二、教学内容(一)详细讲解:难度(二)重点讲解:区分度的计算(三)一般介绍:项目分析的特殊问题
三、实验内容1、某研究选取 370 名被试进行施测,把 370 份试卷按测验总分的高低次序排列,然后从最高分数的人开始向下取 27%(100 人)为高分组,再从最低分数开始向上取 27%(100 人)为低分组,各选项的选答人数统计结果如下表,请你根据所学的知识分析题目的难度与鉴别力。组别 选答人数 正确答案A B C D 未答 B高分组5 92 1 2 0低分组22 50 12 16 02、题目要求同第 1 题。组别 选答人数 正确答案A B C D 未答 A高分组58 10 15 16 1低分组26 21 15 36 23、题目要求同第 1 题。组别 选答人数 正确答案A B C D 未答 D高分组17 15 28 28 12低分组25 11 19 34 114、题目要求同第 1 题,并对 1-4 题进行评价。组别 选答人数 正确答案A B C D 未答 C高分组1 44 14 36 5低分组1 56 10 28 55、某次测试,28 名被试在某题的得分情况与相应的总分结果如下表,请你根据所学的知识分析该题目的难度与鉴别力。题目得分 0 0 1 0 0 1 1 1 0 1 0 1 1 0总分8786 8785 8493 95 80657985788289题目得分 1 1 1 1 0 0 0 0 0 1 1 0 1 1总分8779 9287 8171 91 90898988858990实验四 信度与效度一、目的和要求(一)掌握信度、效度的概念。重测信度、复本信度、分半信度、克伦巴赫 α 系数、评分者信度的的计算及使用条件。表面效度、内容效度、标准关联效度、结构效度的计算及使用条件。
(二)了解影响信度与效度的关系、影响信度的因素。二、教学内容(一)详细讲解:复本信度、分半信度的计算、内容效度、标准关联效度(二)重点讲解:重测信度、克伦巴赫 系数、评分者信度的计算(三)一般介绍:影响信度的因素三、实验内容1、采用某心理量表对 30 名被试进行测试的结果如下表,试对该量表的信度进行分析。被试编号合群性决断性自律性情绪稳定风险处理成就愿望1 56 47 51 42 46 522 45 51 47 45 44 473 52 52 54 50 53 494 51 49 48 47 47 535 51 53 58 55 44 496 47 52 47 41 47 477 53 53 54 54 46 518 50 51 50 48 47 449 56 54 55 52 42 5110 45 57 51 45 47 5311 58 52 56 52 39 5012 52 47 51 43 40 4913 48 52 54 48 37 5314 48 50 43 45 49 4215 43 46 43 45 49 4516 44 47 50 47 51 4917 34 55 53 47 37 5118 48 46 46 45 43 4419 46 49 47 50 51 5120 53 44 55 44 50 4821 51 51 51 42 45 4822 47 44 42 45 43 4223 51 40 49 40 40 4824 54 50 59 43 39 5025 49 46 42 43 36 4126 39 46 53 46 44 4827 56 53 57 48 46 4928 55 52 52 43 51 4829 42 47 51 43 35 4630 44 57 54 48 47 482、两周后采用采用与第一题相同的心理量表对第一题中的 30 名被试进行再次测试的结果如下表,试对该量表的信度进行分析。被试编号合群性决断性自律性情绪稳定风险处理成就愿望1 55 49 50 45 47 502 40 55 47 45 44 473 53 54 50 50 53 494 50 50 47 47 48 535 47 50 42 55 44 49
6 40 50 50 40 44 497 52 53 55 54 45 518 50 57 51 45 49 449 55 55 56 40 43 5410 45 55 51 55 47 5311 57 55 57 55 40 5512 52 47 51 40 41 4913 49 51 54 47 28 5114 47 50 44 40 50 4215 42 45 45 47 49 4216 40 42 51 49 51 4717 30 55 57 48 35 5118 40 46 47 45 43 5019 44 49 47 52 55 5120 58 41 57 50 50 5021 55 50 50 42 50 4822 45 41 40 45 47 4723 50 47 45 40 40 4524 55 57 60 46 37 5025 50 47 50 43 36 4226 50 44 57 47 45 4827 55 57 51 48 47 4928 57 55 52 44 51 4829 40 40 55 40 35 4630 42 55 54 48 47 483、已知 16 人参加一次测验后在奇数题和偶数题上的得分情况,试用两种以上方法估计测量信度。被试1 2 3 4 5 6 7 8 9 10111213141516奇数题32404228353041283234263436254041偶数题313945304029393032303040362640424、假设有 10 名男性经职业兴趣测验而被选定作为推销员,其测验分数见下表第一行,第二行是经过若干年后他们在某段时间内销售金额总量(以万元为单位)。现问该测验的预测效度如何?被试1 2 3 4 5 6 7 8 910测验分数 X30343247202427252216销售额Y3 4 3.55 1 2 2.32.51.80.85、为了进行一项智力测验的编制,某研究者聘请专家对测验题目进行鉴定,对于其中的第一题,有 5 人认为题目反映了测定的内容,3 人认为该题目应去除;第二题 7 人认为题目反映了测定的内容,1 人认为该题目应去除。请计算题目 1 和 2 的内容效度比。(CVR=n−N /2N /2)实验五 标准化成就测验一、目的和要求