0903《社会统计学》2018年6月期末考试指导

发布时间:2023-11-23 22:11:16浏览次数:38
0903《社会统计学》2018 年 6 月期末考试指导一、考试说明本课程为开卷考试,考试时可携带相关资料,考试题型包括以下几种:1、单选题(每小题 3 分,共 30 分)2、填空题(每小题 3 分,共 15 分)3、简答题(每小题 10 分,共 20 分)4、计算题(共 35 分)二、章节重点内容第一章 绪论第一节 社会研究的四种方式一、描述性研究与解释性研究(一)描述性研究 (二)解释性研究二、横向研究与纵向研究从调查研究的时间点上,可以分为横向研究和纵向研究两种类型。三、普查、典型调查、抽样调查、个案调查(一)普查1、普查的定义普查即普遍调查,又称全面调查,指为了全面准确地掌握较大范围的地区或部门的总体状况,对所有被研究对象毫无遗漏地逐个进行调查的一种调查方法。2、普查的特点它的一个最重要的特点就是把所有的调查对象都调查一个遍。 普查,就调查总体范围内的调查单位而言,必须是一个不漏地逐一进行调查。(二)典型调查1、典型调查的定义典型调查法是指在对调查对象进行初步分析的基础上,根据调查目的和要求,有意识地选取若干具有代表性的对象作典型,进行全面、系统、周密细致的调查,借以认识同类社会现象的本质及其发展规律的方法。2、典型调查的特点⑴ 典型调查有意识地选择调查单位⑵ 典型调查属于定性研究深度调查⑶ 典型调查方便灵活,成本低廉(三)抽样调查1、抽样调查的定义抽样调查,又叫统计调查,就是从全体被研究对象中,按照一定的方法抽取一部分调查单位作为样本进行调查,并以样本资料推论总体状况的一种调查方式。广义的抽样调查包括随机抽样与非随机抽样两大类。2、抽样调查的特点 药对总体患者的效果,从而决定是否生产。3、参数估计的分类第一,点估计:用样本计算出来的一个数来估计未知参数第二,区间估计:通过样本计算出一个范围来对未知参数进行估计,确定位置参数的范围二、总体参数的点估计1、均值:用样本的均值作为总体均值的点估计值2、方差:用样本方差作为总体方差的点估计值对于二分变量,理论上是不能求均值的,但是在实际中,通过赋值 0 和 1,也可以求出均值。该均值其实是赋值为 1 的事件的概率,通过该百分比也可以作总体的一个估计。这也是一种点估计。参数估计有点估计和区间估计两种。所谓点估计就是用一个数来推断总体的特征,用以进行点估计的统计量主要有均值和标准差。不同的抽样得出的统计量可能会有偏差。3、评价估计值的标准(1)无偏性:当我们用样本均值对总体均值进行点估计时,如果不是进行一次抽样,而是进行多次抽样,我们就会得出多个样本均值。他们不是完全相同的。我们把这多次抽样得到的均值进行一个分布,如果样本均值分布的均值恰好是总体均(2)有效性:如果根据无偏性来选择总体参数的估计值,往往可以找到不止一个满足要求。例如可以用随机抽取一个个体。作为总体均值的估计值。因为它也满足期望 E=μ 的无偏性要求。这时候我们还要用别的标准来选择估计值,那就是有效性。三、抽样分布定义 样本均值和样本方差都是统计量,统计量是随机变量,统计量的分布就称为统计分布。样本均值的分布(1)总体分布为正态分布,且总体方差已知时,样本均值的分布满足正态分布。(2)总体分布为正态分布,但总体方差未知时,样本均值的分布满足 t 分布(3)任意大样本总体如果我们对总体知之甚少,甚至对它是什么类型也不清楚,这时前面两种讨论将不适用。但是根据中心极限定理,只要样本容量足够大(样本大于等于 50 的情况下),即在大样本情况下,样本均值的分布将接近正态分布。样本方差的分布一般情况下,方差的分布很复杂,它的精确分布不一定能求出来。但如果想知道大致形状可以从总体中抽出相当数目的样本,用计算机模拟,做出样本方差频率直方图。第三节 区间估计一、正态总体的区间估计(一)有关区间估计的几个概念1、名词解释前面介绍的都是点估计,但是点估计有缺陷,因为我们无法知道点估计的精度如何。因此我们想到用一个范围来对未知参数进行估计,这样估准的可能性显然大得多。这就是区间 估计。区间估计在给出区间的同时,还要给出包含未知参数的概率。例如全村 90%的人的收入在 800—1000 的范围内。区间越大,估计正确的可能性越大;反之,区间越小,估计正确的可能性越小。但是区间越大,估计的精度越小。我们所给定的概率,比如前面说到的 90%的可能性落入 800—1000,这里的 90%就是置信度、置信概率或者置信系数。我们把 1 减去置信概率的结果用 α 表示, α 称作显著性水平,它表示用置信区间估计的不可靠的概率。显然,置信度与显著性水平的和为 1。2、置信区间与置信度之间的关系为什么置信区间会与置信度之间产生联系呢?我们知道区间范围是由样本值确定的统计量,未知参数对于确定的总体来说,是唯一确定的。统计量是随样本变化的随机量,所以置信区间也是随机区间,那么它是否包含唯一确定的总体未知参数也是一个随机事件,这个随机事件必然有一个概率,它就是置信度 1-α。样本容量一定的情况下,置信区间和置信度是相互制约的,置信度越大,即估计的可靠性越大,则相应的置信区间也越宽,即估计越不精确。例:某班的考试成绩,如果估计区间为 0-100 分,显然这样的估计永远可靠,但是也是毫无价值的。3、区间估计与抽样分布通过上例,我们可以知道:置信度减小,估计的区间就会变窄,估计的精确度就增加。在样本容量一定的情况下,置信度与精度是相互制约的。给定了置信度,那么置信区间是确定的,可以根据置信度求解置信区间,也可以根据置信区间求置信度。(二)正态总体均值的区间估计根据总体方差是否已知,分两种情况进行讨论1、总体方差已知此时统计量 Z 符合标准正态分布估计总体均值的置信区间有两种,一种是双侧置信区间,一种是单侧置信区间。2、总体方差未知在现实中,我们往往不知道总体的方差,而只能通过抽样来估计总体的均值和方差,在这种情况下,以下统计量符合自由度为 n-1 的 t 分布,而通过 t 分布来计算总体的置信区间我们在求总体均值的置信区间时,首先要判断总体是否符合正态分布,第二要判断总体方差是否已知。(3)正态总体方差的区间估计根据前面对抽样分布的讨论,对于正态总体,以下统计量满足自由度为 k=n-1 的二、大样本区间估计根据中心极限定理,对于随机变量分布的任何形式,只要样本容量足够大,n 个相互独立的随机变量之和或均值分布都将近似服从正态分布。即大样本服从正态分布。(一)大样本总体均值 μ 的区间估计(二)总体成数(二项总体参数 p)的估计1、总体成数的点估计2、大样本总体成数的区间估计 (三)大样本二总体均值差的区间估计有时我们还要对两个总体的均值差或者两个总体的成数差进行估计。(四)大样本二总体成数差的区间估计如果有两个总体,他们都属于定类变量,则可以通过样本对总体间成数差进行点估计和区间估计第六章 假设检验第一节 假设检验的基本概念一、什么是统计假设?假设在社会科学研究中可以用于不同的层次。最高层次是理论假设。它是由若干抽象概念所组成的命题。而其中的抽象概念又往往是用其他有关的抽象概念加以定义的。二、原假设和备择假设在统计假设里,假设一般包括两部分:原假设和备择假设。1、原假设 H0 又称虚无假设或者解消假设,常常是根据已有的资料或者根据周密考虑后确定的。2、备择假设 H1又称为研究假设,是原假设的逻辑对立面形成的假设。三、假设检验的基本原理四、统计检验中的名词1、统计检验中的假定,即被确认和接受的事实,是进行检验的前提或者要求。2、统计检验中的统计量前面已经讲过,假设检验是通过样本计算的某个统计量进行的。而所谓小概率事件,就是指所用统计量,在原假设情况下,是否是小概率事件。因此,确定统计量非常重要。3、显著性水平:指在原假设成立条件下,统计检验中所规定的小概率的标准,即小概率的数量界限。4、临界值、接受域和拒绝域5、双边检验和单边检验根据拒绝域的位置的不同,检验可以分为双边检验和单边检验。(1)双边检验(2)单边检验五、假设检验的步骤与两类错误1、假设检验的步骤2、两类错误(1)弃真的错误(2)纳伪的错,也叫第二类错误(3)弃真与纳伪错误的关系第二节 单总体假设检验一、大样本假设检验(一)大样本总体均值检验(二)大样本总体成数检验二、小样本假设检验(一)单正态总体的均值检验(二)单正态总体方差检验 第三节 二总体假设检验一、引言:到目前为止,我们研究的统计方法都属于单变量的统计方法。即把总体看作是一维随机变量。二、大样本二总体假设检验(1)大样本总体均值差检验(2)大样本总体成数差检验步骤三、小样本正态分布二总体假设检验四、配对样本的比较配对样本是非独立样本,实际上是一个样本,只不过观测两次。第七章 列联与等级相关第一节 什么是列联表一、列联表处于最低层次的变量就是定类变量。二、列联表中变量的分布1、联合分布2、边缘分布3、条件分布三、列联表中变量的相互独立性通过列联表研究定类变量之间的关系,实际上就是通过条件分布的比较进行的。第二节 等级相关(定序变量-定序变量)一、斯皮尔曼等级相关系数1、完全正等级相关2、完全负等级相关二、斯皮尔曼等级相关系数的统计检验三、Gamma 等级相关(一)三个重要概念:1、同序对2、异序对3、同分对(二) Gamma 系数通过以上对同序对、异序对的分析,可以看出,如果在单元对中是以同序对为主,则表示变量 x 和变量 y 呈正相关;反之,如果是以异序对为主,则变量 x 和 y 呈负相关。而同序对和异序对数量之差,则反应了等级相关的程度。(三)Gamma 系数的检验为了能够把样本计算的所得之 G 值,推论到总体,还必须进行如下统计检验。第八章 相关、回归和方差分析第一节 相关关系由于变量定义在定距层次上,因此我们不仅要研究是否存在相关关系,而且要研究相关关系的形式(线性或非线性关系)。相关性越高,则相关强度越大。以水平轴代表 x 值,竖直轴代表 y 值,依 x,y 取值为坐标取点,即得散点图。 相关方向:正相关和负相关。薪水和身高其实没有关系,而是都受到了性别的影响。在剔除性别因素,身高其实与薪水没有相关关系。偏相关系数:剔除第三方因素之后的变量之间的相关系数。偏相关系数可能大于、等于、小于相关系数。剔除第三方因素之后,相关系数可能等于原相关系数、小于原相关系数但相关方向不变、改变了相关系数的方向。通过计算机软件计算的相关系数只是一个简单相关系数,必须通过比较分析,确定偏相关系数,从而避免得出错误结论。因为这中间有一个重要第三方变量单身男性家庭比例。偏相关系数能够检验简单相关系数,帮助我们剔除虚假相关。相关系数的检验:为了使抽样结果能够推论到总体,必须进行检验。相关系数的应用要求:1、线性相关2、定距数据3、随机抽样4、正态分布(或者大样本)第二节 一元线性回归分析回归研究的对象:变量之间确定的函数关系,是指由一个变量完全可以确定另一个变量。但回归所研究的变量之间的关系,却不是确定的函数关系。这种变量既存在关系,但又不能完全确定的关系就称作相关关系。回归研究的就是这类相关关系中的因果关系。非确定性关系在自然中是广泛存在的。这是因为任何一个现象的产生,都是由多方面的原因导致的。散布图(散点图):散布图是相关关系的图形表示。以 xi 表示第 i 次观察的 x 值,以 yi 表示第 i 次观察的 y 变量值。把数据对(xi,yi)用直角坐标表示,其中 x 为横轴,y 为纵轴,就可以得到了散布图,又称散点图。一元线性回归模型的基本假定:1)自变量可以是随机变量,也可以是非随机变量,自变量的测量可以认为是没有误差的或者误差可以忽略不计的。2)由于 x 和 y 之间存在非确定性的相关关系,因此对于所有的 x 值,y 是随机变量,或称作是 y 的子总体,要求 y 的所有子总体的方差都相等;3)如果 y 的所有子总体均值都在一条直线上,则称做线性假设;4)要求随机变量 y 是统计独立的,即 y 的数值不相互影响;5)要求 y 的每一个子总体都满足正态分布。2、剩余平方和 RSS——也叫残差平方和,反映了观测值 yi 偏离回归直线的程度。3、回归平方和 RSSRTSS 表示的是原有估计误差,RSS 是通过回归直线进行估计的误差,因此两者之差 TSS-RSS 表示了通过回归直线被解释掉的误差 RSSR因果关系中两个变量有自变量和因变量之分:(1)两个变量有共变关系;(2)因变量的变化是由自变量的变化引起的(3)两个变量的产生和变化有明确的时间顺序,前者称为自变量,后者称为因变量。相关是共存关系,不需要确定因果。表现为对称关系的相关关系,互为根据,不能区分自变量和因变量,或者说自变量和 因变量。如何确定观测值与回归直线的分散程度?利用相关来解决。如果相关系数较大,则分散程度较小,如果相关系数较小,则分散程度较大。在研究变量的回归方程之前,一般需要先求其相关系数。如果相关系数比较大,那么观测值比较集中于回归直线,这时候利用最小二乘法求回归常数和回归系数是合适的。如果相关强度很弱,相关系数很小,这时候散点图上的点分散在四个象限。此时虽然也能求出一条回归直线,求出回归系数,但是此时回归方程没有实际意义。相关是对称性关系,没有因果意义,回归是非对称性的,需要区分因果。标准化回归方程适合于 X 和 Y 都是随机变量的情况。此时如果相关系数为 r,那么 x 变动一个标准差 σ,则 y 变动 rσ。第三节 方差分析本章讨论定类—定距的研究方法,其中定类变量将看作原因(自变量),而定距变量看作结果(因变量)。定类—定距变量的研究,采用方差分析。方差分析实际上是分析或检验总体间的均值是否有所不同。但其检验所用的手段则是通过方差来进行的。方差分析分为一元方差分析、二元方差分析、和多元方差分析。分别指自变量中有一个、二个或者多个定类变量。方差分析的假定:第一,等方差性,要求总体中自变量的每一个取值对应因变量的分布都具有相同的方差;第二,y 的子总体满足正态分布有关概念:观测总数 n——各类定类变量抽样次数的和第 i 组组平均值第 i 组观测值和除以观测数总平均值所有观测值的和除以观测总数总平方和 TSS——全体观测值对总平均值的离差平方和组内平方和 RSS——各观测值对本组平均值的离差平方和组间平方和 BSS——观测值的组平均值对总平均值的离差平方和三个平方和之间有关系是:TSS=BSS+RSS三、练习题(一)单选题1、概率的取值范围是_____。A、0 到无穷 B、0 到 1.0 C、1.0 到 100.0 D、-1.0 到+1.02、下面关于正态曲线的描述哪个不正确?_____A、它是有偏的 B、它是一个概率分布 C、它的总面积包含 100%的案例 D、众数、中位数和均值相等3、收入在 4000 元和 5000 元之间概率 P=0.33 代表的是_____。A、百分数 B、表示为比例的概率 C、发生的频数 D、Z 分数4、在相关与回归的比较中哪个说法是正确的?_____A、回归是因果关系,需要确定原因和结果;相关是共存关系,不需要确定因果 B、相关是对称性关系,回归是非对称性 C、回归系数表示回归直线的陡度,相关系数反映了真实数据与回归直线靠拢的程度 D、以上都是 5、等级相关是用来分析_____之间的关系。A、定类定类变量 B、定类定距变量 C、定序定序变量 D、定距定距变量参考答案:1B 2A 3B 4D 5C (二)填空题1、概率分布是基于______。2、变量的层次主要有定类变量、__________、定距变量和定比变量。参考答案:1、概率理论 2、定序变量 (三)简答题1、社会调查研究的四种主要方式及其主要特点。答题要点:(1)普查的定义(2)典型调查1、典型调查的定义2、典型调查的特点(3)抽样调查1、抽样调查的定义2、抽样调查的特点3、局限性 (4)个案调查1、个案调查的定义2、个案调查的特点(四)计算题1、以下是 500 名文化程度代际流动的抽样调查,求 G 系数。(α=0.05) 子辈文化 父辈文化 大学 中学 小学 大学 118 37 15 中学 18 130 32 小学 9 43 98 参考答案:Ns=118×(130+32+43+98)+37×(32+98)+18×(43+98)+130×98=55842 Nd=15×(18+130+9+43)+37×(18+9)+32×(9+43)+130×9=6833 G=(Ns-Nd)/(Ns+Nd)=0.78 Z= 14.05 Z0.05/2=1.96 Z> Z0.05/2 所以 G 系数具有推论总体的价值。说明:本考试指导只适用于 201803 学期 6 月期末考试使用,包括正考和重修。指导中的章节知识点涵盖考试所有内容,给出的习题为考试类型题,习题答案要点只作为参考详见课程讲义或课程 ppt。在复习中有任何问题请到课程答疑区咨询。祝大家考试顺利! (1)按随机原则抽样(2)样本推论总体(3)抽样误差可以控制(4)节省人力财力和时间3、抽样调查的作用与适用范围抽样调查目的不在于说明样本本身的情况,而是要从数量上推断总体,说明总体。抽样调查的作用也是主要从样本来推论总体。适用范围:(1)有些现象不可能进行全面调查,但又需要了解全面情况时,可采用抽样调查。(2)有些现象可以但没必要进行全面调查时,可采用抽样调查。(3)需要对普查统计资料的质量进行检验或修正时,可采用抽样调查。4、局限性:⑴ 抽样调查适用定量调查,不大适用定性调查;⑵由于抽样调查主要适合大范围的定量调查,所以其深度和广度有限,难以深入细致研究。⑶抽样需要较多的数学知识专业性比较强,对调查者的要求比较高。所以,抽样调查和典型调查、普查相比,在广度上,抽样调查比普查要小,但是比典型调查要广一些,但是在深度上抽样调查没有典型调查深入细致,但是比普查收集到的资料详细的多。(四)个案调查1、个案调查的定义是对特定的个别研究对象进行详尽的、深入细致的调查研究的一种调查方法。2、个案调查的特点⑴ 对特定对象的研究比典型调查更为具体,深入细致 ⑵ 个调查的目的在于认识个案本身,并不要求推及同类事物⑶ 方法灵活多样,在调查时间和活动安排上有一定弹性四、定性研究方法与定量研究方法(一)定义1、定量研究定量研究是一种对事物可以量化的部分进行测量和分析,以检验研究者自己关于该事物的某些理论假设的研究。定量研究有一套完整的操作技术,包括抽样方法(如随机抽样分层抽样、系统抽样、整群抽样等)、资料收集方法(如问卷法、实验法)、数字统计方法(如描述性统计、推断性统计等)。2、定性研究定性研究是对观察资料进行归纳、分类、比较,进而对某个或者某类现象的性质或者特征做出概括的方法。第一,研究环境:自然环境;第二,研究者的角色:研究者本人是研究的工具;第三,收集资料的方法:采用多种方法;第四,结论的形成方式:归纳法;第五,理解的视角:主体见性的角度;第六,研究者与被研究者的关系:互动的关系。(二)定量研究和定性研究的优缺点1、定量研究的优点:第一,定量研究的标准化和精确化程度较高。第二,定量研究的逻辑推理比较严谨,因而得出的结论更加客观,更科学。第三,定量研究方法还能够大大推进理论的抽象化和概括性,促进对现象之间普遍的因果关系的精确分析。2、定量研究的缺陷:第一,由于定量研究是对大量样本的少数特征作精确的计量,因而,定量研究很难获得比 较深入、比较广泛的信息,容易忽略深层动机和具体的社会过程;第二,由于社会现象错综复杂,影响因素众多而且很难对这些影响因素进行控制,因此,要想确立两个变量之间的因果关系并非易事。3、定性研究的优点:第一,定性研究是在自然的情景下进行的,能够对自然情境下的个人或者社会组织进行全面的了解,同时,经过长期的研究,可以了解事件发生发展的全过程。第二,定性研究能够深入把握被研究者的个人经验和意义建构。第三,定性研究是一个动态的研究过程。第四,定性研究的理论建构使用的是归纳法,从资料中产生理论假设,然后通过相关检验和不断比较逐步得到充实和系统化。第五,定性研究方法非常重视研究者和被研究者之间的关系。4、定性研究的缺点第一,定性分析是依据典型的或者少量的个案的资料得出结论,这种结论不一定具有普遍性;第二,由于定性研究使用的是主观洞察性的分析,这种分析方法即有可能获得真知灼见,但是也有可能得出荒谬的结论,所以,需要研究者具有较高的素质。第三,由于对这种主观性的分析或者结论缺乏客观的评价标准,因此人们也无法对不同的研究结论进行检验。5、定量与定性研究的结合:第一,结合价值有涉和价值无涉。第二,根据修改后的研究框架设计问卷,进行较大规模的调查,使用统计分析的方法得出结论。第二节 社会统计学与统计分析方法一、社会统计学的特点:首先社会研究的内容往往是一些抽象概念,比如社会制度、风俗习惯等等,这种抽象的概念只有经过操作化定义,形成了一系列明确的问题,从而能够收集资料。其次,社会统计分析中资料收集的对象是人而不是物。二、统计分析的前提及主要内容1、统计分析的前提第一,资料的信度和效度。第二,资料收集的科学性。第三,样本要是随机抽样而来的。此外,统计结果并不一定意味着因果关系。2、统计分析的内容统计分析的内容主要分为两部分,统计描述和统计推论。统计描述主要介绍资料的整理、分类和简化研究。统计推论则主要介绍参数估计、假设检验、回归、列联、方差、等级相关等统计技术。三、统计分析方法1、普查与抽样调查2、单变量与多变量3、变量的层次四、变量的层次(一)定类尺度(二)定序尺度 (三)定距尺度(四)定比尺度统计分析方法的选择1、普查与抽样调查 2、单变量与多变量 3、变量的层次第二章 单变量统计描述分析第一节 分布、统计表、统计图一、分布1、定义:社会统计学的分布指的是一个概念或者变量,它的各种情况出现的次数或者频次,所以社会统计学的分布又称为频次分布。2、注意:第一,变量的取值必须完备;第二,变量的取值必须是互斥的。二、统计表统计表就是用表格形式来表示前面所说的用频次或者百分比、概率等来说明变量的分布。三、统计图所谓统计图就是用图形的形式来表示变量的分布。定类变量:圆瓣图、条形图;定序变量条形图;定距变量:直方图、折线图四、分布图的分析如果把条形图组距取的无限小,就得到了平滑的曲线图。1、峰点研究:单峰图形和多峰图形2、对称研究:正态图形和偏态图形:左偏态图形、右偏态图形第二节 集中趋势测量法集中趋势是指统计数据的一个集中的数值或者比较密集的范围。比如统计结婚年龄那 26 岁左右就是一个集中趋势(集中值)。关注集中趋势有利于研究,但是同时也不可避免的忽略了其他一些次要信息。一、 众值用具有频数最多的变量值来表示变量的集中值就是众值。二、中位值中位值是数据序列中中央位置的值。三、平均值只适用于定距变量。均值同时与所有统计数据相关,所以反映的信息最充分。四、众值、中位值和平均值的比较相同点:使用目的相同,都是希望通过一个数据来反映总体特征。反映的都是变量的集中趋势。不同点:(一)使用范围(二)使用数据信息(三)平均值的缺点(四)偏态和众值、中位值、平均值的关系第三节 离散趋势测量法我们经常用集中趋势来描述统计样本的特征,而用离散趋势来表征样本的偏差,已达到对总体的更好的把握。所谓离散趋势就是统计数据偏离集中趋势的程度。 一、异众比例:非众数在总数中所占的比例当异众比例为 0 时,说明变量取值只有一个,就是众值,这时众值可以完全代表变量;当异众比例越大,趋向于 1 时,表示资料十分分散,不等于众值的变量很多,这时众值的代表性就不高了,异众比率越大,众值的代表性越差。二、极差定义:极差是对定序变量层次以上变量分散程度的度量极差的计算方法:极差=观察的最大值-观察的最小值,也就是你所调查的所有被调查者在这个问题上的最大的数值和最小数值的差极差小表示资料比较集中,数据之间的差别较小;极差大则表示资料分散。三、四分互差四分互差是定序尺度以上变量度量分散程度的另一种方法。它的优点是可以克服极差中的最大值和最小值这样的极值对分散度量的干扰。计算方法:四分互差=排序在 75%的数值-排序在 25%的数值根据频次分布计算四分互差:四、方差和标准差对于定距变量,可以使用方差和标准差来度量资料的分散程度方差是将观察值与均值之差的平方和除以全部观察总数方差的平方根就是标准差五、异众比例、极差、四分互差、方差和标准差的比较1、异众比例作为资料离散程度的度量只考虑频次,最适用于定类变量极差和四分互差还考虑了变量的次序或大小,适用于定序和定距变量方差和标准差适用于定距变量第三章 概率分布第一节 基础概率抽样调查的目的是通过抽样的研究对全体做出判断或推论。它属于归纳法的范畴。归纳法的结论不可能百分之百的准确,除了推理所预言的结果外,还可能存在别的结果。概率论正是研究各种可能出现的结果及其所出现的概率的工具。一、 随机现象随机现象对应必然现象,例如,在一个标准大气压下,温度达到 100 摄氏度,水必然沸腾。这就是必然现象。例如,我们不知道某一个孕妇生孩子的时候,是生男孩还是女孩,但是通过大量统计我们知道,男女性别比例保持在 22/43:21/43。二、概率的概念随机现象的结果以及这些结果的集合称作随机事件,简称事件。1、概念:概率指的是随机事件发生可能性大小的数量表示。2、概率为 0,不可能发生的事件概率为 1,必然事件(一定发生的事件)概率在 0 和 1 之间,随机事件例 3-1:某企业有青工 100 名,其中有 20 名为已婚者,今任抽 25 名,那么,其中含有5 名已婚者的事件则为随机事件。因为任抽 25 名可能恰有 5 名已婚,也可能已婚人数不是5 名。学习概率就是要研究随机现象有多少种结果,每种结果的可能性有多少,即概率大小。 第二节 概率分布、均值与方差一、 概率分布 1、 概率与概率分布概率指的是随机现象中某一局部的结果或者叫做随机事件及其概率的大小。概率分布指的是随机现象一共有多少种结果,以及每种结果所伴随的概率是多少。2、 概率分布与频率分布频率分布是实验值,是可以变化的;概率分布是理论值,是唯一的。二、离散型随机变量及其概率分布1、变量测量尺度:定类、定序、定距、定比2、概率分布表与概率分布图3、离散型变量的概率分布的性质第一,任一取值的概率都是非负的;第二,随机变量取遍所有取值,其相应的概率总和为 1。例:两名孕妇同时生女孩的概率一个男孩一个女孩的概率为 22/43x21/43x2两个女孩的概率为 21/43x21/43两个男孩的概率是 22/43x22/43三、连续型随机变量及其概率分布连续型变量的取值是连续的充满某个区间,讨论某个单个的取值点的概率没有意义,概率趋近于 0,要讨论某个区间的概率与区间的比值。频率密度与概率密度(概率与区间的比值)概率密度的性质:概率密度都大于等于零,不能是负数。如果变量的取值遍布正无穷到负无穷,概率密度对取值范围的积分就等于 1。四、数学期望(总体均值)1、定义:数学期望是我们期望出现的均值,是一个理论值,也就是说这个均值出现的可能性较大,概率较大。2、性质:常数的期望等于该常数。随机变量与常数之和的期望,等于随机变量的期望与这个常数的和。常数与随机变量乘积的数学期望等于这个常数与随机变量期望的乘积。两个随机变量之和的期望等于它们期望之和:有限个随机变量之和的期望,也等于它们期望之和。两个独立随机变量乘积的期望,等于它们期望的乘积:有限个独立随机变量之积的期望,也等于它们期望之积。五、方差与标准差方差的定义:方差是将观察值与均值之差的平方和除以全部观察总数。标准差的定义:方差的平方根就是标准差。根据定义可知,方差和标准差永远是正值。方差是度量分布离散程度的重要指标,具有以下性质:1、 常数的方差永远为 02、 随机变量与常数之和的方差等于随机变量的方差3、 常数和随机变量乘积的方差等于该常数的平方与随机变量方差的乘积。4、两个独立随机变量之和的方差等于他们方差的和。第四章 二项分布与正态分布第一节 二点分布与二项分布 一、二点分布1、定义:二分随机变量只进行一次随机试验的概率分布称为二点分布。二点分布就是变量的取值只有两类,例如是与非;男与女、赞成与不赞成等。一般用 0 和 1 来表示,此时即成为 0-1 分布。注意:0 和 1 只是一个变量的编号,或者说是代码,而没有数量大小的意义,不能加减乘除或者比较。2、二点分布的性质二点分布的两种分布概率大于零二点分布的两种分布之和等于 1二点分布的数学期望等于取值为 1 的概率二点分布的方差为两种分布取值为 0 和取值为 1 的概率的乘积3、注意:二分变量中的取值 0 和 1 只表示定类变量的编码二、二项分布1、定义:如果在相同条件下进行 n 次相互独立的试验,每次试验只有两种可能的结果,这样形成的概率分布叫做二项分布。二点分布是二项分布只做一次观察的概率分布例:我们把一个硬币连续扔掷四次,那么各次扔掷结果就满足相互独立的要求,因为每次扔掷结果都不受前面扔掷结果的影响。现在要问,在四次扔掷中,出现正面次数的概率分布如何?2、二项分布的性质(1)二项分布是一种离散型分布(2)n 和 p 是二项分布的两个参数,只需要这两个参数,我们就可以求出二项分布的概率分布。(3)二项分布的图形当 p=0.5 时是对称的,当 p 不等于 0.5 时,n 越大非对称性越不明显(4)二项分布的数学期望等于 np(5)二项分布的方差等于 npq第二节 正态分布在自然、经济、社会领域,如人的身高、体重等随机变量,都服从一类确定的分布规律,叫做正态分布。正态分布,(又叫常态分布或高斯分布),是最初由德国数学家高斯在研究误差理论时发现的。一、正态分布的特征:1、一个高峰:曲线是单峰的,只有一个最高点,中间高,两边低。2、一条对称轴:曲线在高峰处有一个垂直的对称轴,在轴的左右两边是对称的3、一条渐近线:曲线无论是向左还是向右延伸,都越来越接近横轴,但不会和横轴相交 ,以横轴为渐近线。二、正态曲线的参数根据实践的经验和理论分析,正态分布的概率密度表达公式为:从正态分布的数学表达式,可以看出,当 μ 和 σ 确定后,正态分布的图形也就被唯一的确定了。 μ 和 σ 称作正态分布曲线的两个参数。1、曲线在 x=μ 处达到峰值,在 x=μ+σ 处有拐点,且以 x=μ 为对称2、当 μ 不变的情况下,σ 越小,对应的图形越尖,峰值越高,反之 σ 越大,图形峰值越低μ 影响的是图形的位置,决定图形离纵轴有多远, σ 影响的是图形的形状,决定图形陡峭程度和峰值高低。 三、正态曲线下的面积(正态分布表)1、意义:每一小块面积根据直方图的定义,代表随机变量在某个范围出现的概率。面积越大,落在该区间的概率越大。2、应用比较多的概率面积范围变量取值在〔μ-σ,μ+σ〕区间的概率是 68.27%变量取值在〔μ-2σ,μ+2σ〕区间的概率是 95.45%变量取值在〔μ-3σ,μ+3σ〕区间的概率是 99.73%概率的计算:四、标准正态分布1、标准分任意两点间的概率都可以通过前面所列的 φ(x)表达式积分得出,但计算太麻烦,因此我们必须计算出现成的表格供查询。但由于分布随 μ 和 σ 不同而变化,为此要先将变量值标准化:Z=(x-μ)/σ,Z 值即为随机变量 X 的标准分,根据 Z 值所得的分布即为标准正态分布。2、正态分布和标准正态分布面积之间的对应关系当 x=μ+σ 时,Z=1当 x=μ-σ 时,Z=-1当 x=μ+2σ 时,Z=2当 x=μ-2σ 时,Z=-2……依次类推,就可以建立标准正态分布和正态分布之间的对应关系3、标准分的实际意义:个体在总体中排序的位置例:研究一个全国连锁快餐店的收银员的平均收入,如果均值为 14000 元,标准差为1500 元,收入符合正态分布,如果我们知道一个人的收入为 16000 元,我们就可以求出她的收入在全部收银员中的位置。首先求出 Z=1.33,查表可得其概率约为 91%,即可知大约有 91%的收银员工资比她低。利用标准正态分布,除了可以知道个体在总体中的位置,还可以用来进行个体比较。例:有两个同学,分别来自两个班,他们的成绩都是 80 分,而两个班的平均成绩都是 70分,那么是否表明这两个同学在各自的班级名次一样?在这里,我们要求两个班成绩分布的标准差,假定 1 班的标准差比 2 班小,那么我们可以知道,来自标准差较小的 1 班的同学名次比标准差大的 2 班的同学名次靠前。我们还可以比较两个不同科目的成绩。例:有两个考生,甲政治 70 分,物理 60 分,乙政治 60 分,物理 70 分,如果简单的按照总分排名,那么两学生排名是并列的。但是如果同时考虑单科分数排名的话,则不同。如果政治比较难,物理比较容易,那么政治拿 70 排名就很靠前,而物理拿 70,排名不那么靠前。也就是说政治的 70 分含金量较大。这样的话,那么总分排名甲就应该比乙靠前。基于这个道理,我国有些省份,调整了高考录取工作,采用标准分制度。录取分数不再以原始的单科分数简单相加,二是对单科分数按照排名进行调整、转换,然后进行相加。这也就是标准分的由来。第五章 参数估计第一节 统计推论一、统计推论 1、统计推论的定义统计推论是根据局部资料(样本资料)对总体的性质进行推断。统计推论适用于抽样调查资料的处理。抽样调查研究的是样本数据,而我们真正要的是总体的数据。样本来源于整体,这就是我们能够通过样本统计推论总体的原因所在。例:总体中女性比例较高,那么抽的样本中女性比例较高的可能性也比较大。如果 100 个人中,女性 80 人,男性 20 人,如果我们从中随机抽取 30 人,那么 30 人里头女性比例高的可能性非常大。但是抽取又具有偶然性,如果只抽一次的话,那么男女比例有可能是 1:2,而不是 1:4,那么很可能不能满足总体的特征。在上面的例子里,我们调查的是工厂工人的信息,因为工人总体的信息我们知道,样本统计的结果是否满足总体特征,答案非常明确。2、统计推论的内容一是通过样本对总体的未知参数进行估计,简称参数估计二是通过样本对总体的某种假设,利用参数或分布情况进行检验,简称假设检验例:根据市场消费情况,我们发现人民消费水平很高,这说明人们的购买力很高,那么我们就可以假设人们收入水平很高,不妨假设人均收入在 2000 元以上,那么这个假设是否符合实际情况呢?这时就要进行一个调查,来检验前面的假设是否正确。如果总体很大,难以进行全部调查那就有必要进行抽样调查。二、主要概念1、总体:简单说就是研究对象的全体。例如调查一个贫困地区儿童营养状况,总体不仅包括每一个该地区的儿童,而且包括每一个儿童的身高、体重、肺活量等等与营养有关的信息。从总体中任抽一个个体,它的数量指标具有随机性,其数量指标的概率分布与总体的分布相同。总体所要研究的每一个数量指标都可以看做一个随机变量,如身高、体重等每一个指标都可以看做是总体的一个随机变量。在实际中,也可以将若干个指标综合起来看做一个随机变量。例如身高、体重、肺活量、体育技能等综合起来可以看做一个营养状况变量。2、样本与简单随机样本(1)样本:从总体中按一定方式抽出的一部分称做样本。(2)简单随机样本:如果抽样的数据不但是随机变量,而且相互独立,遵从同一分布(即样本遵从的分布同总体所遵从的分布相同),那么这样的样本就称做简单随机样本。无限总体:无法知道或不知道总体的数量。有限总体:可以知道总体的数量。(3)回置抽样:每次抽样经观测后将抽到的个体放回允许再次被抽到的抽样叫做回置抽样。在无限总体中的随机抽样或者在有限总体中的重复随机抽样所得到的样本都是简单随机样本。第二节 参数估计一、参数估计1、定义:参数估计就是根据抽样结果来合理地、科学地猜测总体的参数大概是什么?或者在什么范围?2、举例:我们要举行一次春游活动,必须对天气进行估计。一种新药是不是批量生产,需要先通过活体实验,以此为样本进行统计调查,从而估计该
文档格式: docx,价格: 5下载文档
返回顶部