第八章 数据录入与整理
1. 数据的录入
1)SPSS的界面
变量窗口:
数据窗口
2)SPSS数据录入文件(sav)的建立
问卷例子:
A1. 你的性别:
(1)男 (2)女
A2. 请问你的年龄:_________岁。 A3. 你的文化程度:
(1)小学 (2)初中 (3)高中 (4)大专 (5)本科及以上
A4. 你信仰宗教吗?
(1)信基督教 (2)信佛教 (3)信伊斯兰教 (4)信其他宗教 (5)不信任何教 A5. 你的婚姻状况:
(1)未婚 (2)已婚 (3)离异 (4)其他 A6. 你在厦门市的户口类别是:
(1)市区常住(2)郊县常住 (3)本市暂住 (4)其他 A7. 你是本地出生的吗?
(1)是(跳过第A8题) (2)否
A8. 如果你是外地出生的,请问你来厦门 年了? A9. 你的职业状况:
(1)在职 (2)下岗(失业) (3)离、退休 (4)在校学生 (5)其他
A10. 你的职业:
A11. 您家拥有耐用消费品的情况
序号 A B C D E F G
3)数据录入
4)数据校对
通过频数分析找出错误的数据。以“农民工调查(未校对).sav”为例。
耐用消费品 家用轿车 电脑 空调 电冰箱 洗衣机 钢琴 移动电话 数量 2. 简化资料的基本统计方法
统计分组法就是调查任务和社会现象的性质,按照一定的标志把被调查事物分为不同
的组或类。
统计分组的主要形式:
1) 单项式分组:即在分组时只采用一个分组标志进行,如把调查对象
按性别分类,或按年龄分组。
2) 复合式分组:即在分类时同时使用两个或两个以上的标志。如先按
性别将受访者分类,再按教育程度进行分类。
次数分配
1)什么是次数分配:也称次数分布,它是按照某种标志把总体(或样
本)的单位加以分配,以显示总体(或样本)单位在某一类别中出现的次数(或频率),次数通常用符号f表示。次数分配以及在此基础上形成的次数分配表,是整理、简化资料的一个重要内容。
定类资料的次数分配表:
定序资料的次数分配表:
定距资料的次数分配表:
组距、组中值
对于定距的变量统计分组有单值分组与组距分组两种类型,但大多数情况下都有一
定的组距。组距,即每一组区间的距离;在组距两端的数值称为组限,每组的起点数值称为下限,其终点数称为上限。所以,组距就是上限与下限之差:组距=上限-下限。
上限和下限之间的中点数值称为组中组。通常计算方式 是上限加下限除2.
单值分组:
组距分组:
整理:计算产生新的变量、变量的重新赋值
例如:导报数据:家庭人均收入=家庭年收入除以家庭人口
重新赋值:把文化程度(A3)9类重新赋值为RA3,只有5类。
3. 统计图
1.条形图
折线图
M3002001000家庭收入分组
上以元0100000010101-0元000070701-0元000050501-0元000040401-0元000030301-0元000020201-00下10以0元00ng1i0sisCount
第九章 描述统计
1. 单变量
集中趋势:众数、中位数、平均数;(定义及例子)
众数:用Mo表示,英文为mode,指一组数据中出现次数最多的指标值。适用于定类以上测量层次的变量。
中位数:用Md表示,英文为median,是指在一组按数值大小排列的数据中,处于中央位置的数值。
算术平均数:用表示,英文为mean,适用于定距以上数据。指以总体各单位
之和除以总体单位总数的商。即
简单算术平均数:直接以原始数据计算算术平均数的做法。例如,有5个家庭,人数分别为8人、5人、
加权算术平均数:
单项分组资料
组距分组资料
离散趋势:异众比率、标准差、全距、四分位差
描述数据离散程度的量数就是离散趋势。
2)标准差
适用于定距、定类变量。
分组资料求标准差的公式:
2. 双变量
双变量:交互分类、比较平均数例子:GSS1991
例如:导报数据,性别*宗教信仰,教育程度(重新赋值)*宗教信仰,
教育程度*家庭收入分组
比较平均数例子:教育程度*个人月收入,
性别*个人月收入, 性别+教育程度*个人月收入
第十章 相关与回归
1. 相关的概念
简捷公式:
2.一元回归
散点图例子:GSS1991,教育程度与职业声望
20040608010051015highest year of school completed20 10020040608051015highest year of school completeFitted values20rs occupational prestige score
一元回归模型:
Y = a + b X
职业声望 = 13.079 + 2.295*最高教育年限
第十一章 多元回归
1. 多元回归
多元回归的思想。先看一个例子:2008年农民工调查数据:
例子:穆勒关于GDP与民主的关系
在只有一个自变量的情况下,LNGDP的回归系数是20.605。
02040608010067Democracy score 1980lngdp8lowess score80 lngdp9 10002040608067lngdp8Fitted values9Democracy score 1980
因变量:80年民主分数,自变量:LNGDP、65年民主分数
多元回归可以用以下模型表示:
Y = a + b1 X1 + b2 X2 +b3 X3 + „„ bn Xn
Socre80 = -84.021 + 13.954*LNGDP + 0.494*socre60
在增加了一个控制变量(Democracy score 1965)的情况下,LNGDP的回归
系数降为13.954。
自变量再加入GINI系数:
2.虚拟变量
虚拟变量的定义:
虚拟变量又称虚设变量、名义变量或哑变量,用以反映质的属性的一个人工变量,是量化了的质变量,通常取值为0或1。引入哑变量可使线形回归模型变得更复杂,但对问题描述更简明,一个方程能达到俩个方程的作用,而且接近现实。
例子:海峡导报数据,因变量为“社团参与因子1”(fac1_2),自变量为“年龄”,加 入虚拟变量“性别”。
10000204060802040A2年龄60Fitted values80转换后的社团参与值Fitted values
再加入教育程度作为虚拟变量。教育程度重新赋值后形成4个新的虚拟变量。调整后的R平方29.9%.
3. 如何在文章中展示回归模型分析结果:
例1:胡荣《妇女在村级选举中的政治参与》
表3 影响男性在村级选举中参与的诸因素的回归分析
预测变量 性别
选举是否符合规范 选举竞争程度
选举拉票因子 选举承诺因子 村庄离县城距离 是否党员 是否当过村组干部 是否参军 年龄 年龄的平方 上学年限 常数 N
Adjusted R Square F
模型I 4.667(0.153)**** 0.818(0.145)****
3.058(0.204)**** -1.384(-0.092)**
模型II
4.246(0.139)**** 0.859(0.152)****
2.617(0.175)**** -1.150(-0.076)**
-0.179(-0.152)**** -0.217(-0.183)****
4.944****
710 11.9% 20.098
6.040(0.141)**** 6.759(0.161)**** 2.264(0.038) 0.343(0.314) -4.279E-03(-0.371)* 5.014E-02(0.012)
-2.622 694 18.3% 15.090
例2: 胡荣《城市居民信任的构成及影响因素》
表4 回归分析模型(括号内为标准回归系数) 性别a 年龄 年龄平方 文化程度 个人月收入 社交团体参与因子 社区团体参与因子 常数 N Adjusted R Square F 模型I: 普遍信任 8.502(0.245)**** -1.020(-0.743)** 1.093E-02(0.693)** 0.479(0.030) 4.030E-04(0.121)* 4.029(0.216)*** 3.777(0.226)**** 55.751 206 15.9% 6.542 模型II: 一般信任 0.626(0.023) 0.165(0.151)* -0.317(-0.025) -7.24E-05(-0.027) 1.367(0.092) 0.941(0.132)* 54.585 206 1.6% 1.571 模型III: 特殊信任 -1.307(-0.109) -1.87E-02(-0.040) 0.677(0.123) 1.718E-04(0.150)** -0.178(-0.028) -0.240(-0.042) 28.849 206 2.7% 1.947 说明:*P0.1, **P0.05, ***P0.01, **** P0.001
a 参考类别为“女”
例3: 胡荣:《经济发展与竞争性的村委会选举》
表5:影响选举竞争程度及选举规范性的回归分析(括号内为标准回归系数) 解释变量 人均集体收入 村民相对生活水平 人均家庭收入 受教育年限 离县城距离 外出村民比例 村民参与程度
选举竞争程度 N Constant Adjusted R2
564 0.787* 4.8%
564
2.76**** 13.9%
模型1: 村民参与程度 -1.24E-04 (-0.041) 0.292
(0.146)*** -1.52E-05 (-0.42) 3.794E-02 (0.084)* -1.81E-02 (-0.143)*** 1.876 (0.105)**
模型2: 选举竞争程度 2.963E-04 (0.23)**** 6.275E-02 (0.074)! -2.98E-07 (-0.002) 2.905E-04 (0.002) -2.09E-03 (-0.039) 2.523
(0.328)**** 3.046E-02 (0.071)!
模型3: 选举规范程度 4.660E-04 (0.105)** 0.55
(0.186)**** 3.666E-05 (0.069)! -5.23E-02 (-0.079)* -9.10E-03 (-0.049) 0.776 (0.029) 0.181 (0.123)** 1.097
(0.32)**** 564
-2.061**** 21.3%
说明:!P≤0.1 *P≤0.05, **P≤0.01, ***P≤0.001 **** P≤0.0005
例4:胡荣《社会资本与村民在村级选举中的地域性自主参与》
表 6 影响村民在村级选举中参与程度的因素(回归分析)
预测变量
性别a 年龄
年龄的平方 上学年限 是否党员b
是否当过村组干部c 村庄离县城距离 选举规范实施程度 社会资本:
信任因子 社会交往因子 社区安全因子 亲属联系因子 社区归属感因子 社团因子 竞选激烈程度:
竞选承诺因子 关系拉票因子 常数
N
Adjusted R Square F检定值
回归系数 3.374 0.364 -0.004 0.033 3.580 4.061 -0.130 1.419
-0.636 0.230 0.261 -0.362 1.274 1.513
1.954 -0.573 -7.194 698 17.2% 10.072
标准回归系
0.128 0.388 -0.424 0.010 0.097 0.113 -0.128 0.154
-0.048 0.017 0.020 -0.027 0.097 0.117
0.151 -0.044
显著性水平
0.001 0.055 0.031 0.829 0.011 0.002 0.000 0.000
0.173 0.627 0.578 0.446 0.007 0.001
0.000 0.230 0.148
0.000
a 参考类别为“女性”; b 参考类别为“非党员”; c 参考类别为“未当过村组干部”
例5:《农民上访与政治任任的流失》
表6 影响农民政治信任因素的多元回归分析
性别a 年龄 上学年限 是否党员b 是否当过村干部或小组长c 家庭经济情况与五年前比的变化 历次政治运动中是否受过不公待遇e 政治效能感 是否上访过d 到乡镇上访过 到县里上访过 到市里上访过 到省里上访过 到中央上访过 Constant N Adjusted R square F a参考变量为“女性” b参考变量为“非党员”
c参考变量为“未当过村干部或小组长” d参考变量为“未上访过” e参考变量为“未受过不公待遇”
模型I: 基层政府信任因子 B Beta Sig. 模型II: 高层政府信任因子 B Beta Sig. .059 .323 .191 .164 .293 .776 .532 .214 .545 .985 .520 .002 .058 -3.180 -.074 .078 2.603 .090 2.879E-02 .017 .703 5.685E-02 .050 -.368 -.056 .173 -2.505 -.049 .275 2.189 .042 .358 1.810 .085 .033 -3.173 -.050 .195 3.137 .147 .000 -.270 -.061 -2.434 -.071 1.908 .054 .183 .013 1.167 .027 .765 .053 -8.526 -.061 .106 2.434 .026 -17.282 -.191 .000 -5.090E-02 -.001 -22.414 -.244 .000 -22.996 -.230 .000 -28.866 -.215 .000 54.877 563 23.5% 14.312 .000 -1.776 -.029 -9.113 -.136 -7.459 -.082 76.842 563 2% 1.903 .000 0.000 0.027
第11周,11月25日:
1. 讲述《社会资本与农村居民的地域性自主参与》。
a) 提请注意:文献回顾、只需要少数变量、数据呈现、讨论与发现的不同
2. 学生问卷点评。
3. 前面已经讲过内容的练习:
a) 比较平均数:2005海峡导报数据,因变量为“社团参与”,自变量为“性
别”;再加上另一个自变量“文化程度”。 b) 重新赋值: i.
把“宗教信仰”由原来的7类重新分3类:1)信佛教,2)信其他教,3)不信任何宗教。 ii.
把“户口”由原来的的4种类型重新分为2类:1)市区常住,2)非市区常住
c) 作图:用excel 把上图比较平均数的结果画出来。 d) 多元回归: i.
分别以“社团参与”、“个人月收入”、“家庭每月支出”等为因变量建立回归模型。比较不同模型的判定系数、各自变量的显著性水平以及回归系数。
e) 虚拟变量:把“性别”变为虚拟变量、把“宗教信仰”变为虚拟变量、
把“教育程度”变为虚拟变量、把“户口”变为虚拟变量。
第十二章 因子分析
(12月2日,第12周)
1. 什么是因子分析
把一些具有错综复杂关系的多个变量归结为少数几个综合因子的一种多元统
计分析方法。
每个原始变量分解成两部分因素,一部分是由所有变量菜同具有的少数几个公共因子组织的,另一部分是每个变量独自具有的因素,即特殊因子。
因子分析的目的之一,简化变量维数。即要使因素结构简单化,希望以最少共同因素(公共因子),能对总变异量作最大解释,因而抽取的因子愈少愈好,但抽取因子的累拖解释的变异量(方差)愈大愈好。
在因子分析的公共因子抽取中,应最先抽取特征值最大的公共因子,其次是次大者,最后抽取公共因子的特征值最小(通常只保留特征值大于1的公共因子),通常会接近0.
因子分析的两个作用。一是简化资料,二是了解变量之间的内部结构。
因子分析的变量必须是定序以上的。
2. 因子分析模型中几个重要统计量的意义:
1)因子负荷量(或称因子载荷,loadings):是指因子结构中原始变量与因子分析时抽取出的公共因子的相关程度。
在各公共因子不相关的提提下,ɑij (载荷矩阵中第i行,第j列的元素)是随机变量Xi与公共因子Fj的相关系数,表示Xi信赖于Fj的程度。反映了第i个原始变量在第j个公共的相对重要性。因此ɑij 绝对值越大,则公共因子Fj与原有变量Xi的关系越强。
2)共同度(共量)——又称公共因子方差或公因子方差(communality或common variance),就是变量与每个公共因子之负荷时的平方总和(一行中所有因素负荷量的平方和)。从共同度的大小可以判断这个原始实测变量与公共因子之间之关系程度。
3)特征值——是第j个公共因子Fj对于X的每一分量Xi所提取的方差的总和。又称第j个公共因子的方差贡献。即每个变量与某一共同因素之因素负荷量的平方总和(因子负载矩阵中某一公共因子列所有因子负荷量的平方和)。
4)方差贡献率——指公共因子对实测变量的贡献,又称变异量。
方差贡献率=特征值G/实测变量数P
演示下例子之一:导报数据,城市居民大宗耐用消费品因子分析
演示例子之二 :导报数据,城市居民信任
课堂练习:
因子分析:海峡导报数据,变量C11a-C13c
1) 先进行因子分析,提取三个因子,并分别给三个因子命名. 2) 分别以三个因子作为因变量,建立多元回归模型。 3) 对结果进行解释。
因子分析:城市居民的政治参与,海峡导报数据
第十三章 多项式回归与曲线估计
(12月9日,第13周)
这是25个国家的GNP(单位为$1000)与妇女预期寿命(年)的散点图:
AustraliaUKCanadaGermanyUSAFranceDenmarkJapan80SpainCubaIsraelArgentinaRussiaMexicoMalaysia70lifexpectChinaBrazilPhilippinesAlgeriaIraqSouthAfricaEgyptPakistan60IndiaNigeria50010GNP2030
妇女预期寿命随着GNP的增长而增长:
GNP增长一个单位($1000),相应地妇女的平均寿命增加0.63年。调整后的R平方也高达59.62%,说明这是一个很不错的模型。
但是,进一步对散点图的观察表明,这个模型并不是十分理想:
90CubaSpainIsraelRussiaAustraliaCanadaFranceUKGermanyUSADenmark80JapanArgentinaMexicoMalaysia70ChinaBrazilPhilippinesAlgeriaIraqSouthAfricaEgyptPakistanIndia6050Nigeria010lifexpectGNP20Fitted values30
在GNP值较低的区段,大部分个案的殘差是负的;在中段,残差是正的;在GNP值较高的区段,残差大部分又是负的。 这表示自变量与因变量的关系不是一条直线。
80SpainCubaIsraelArgentinaRussiaAustraliaUKCanadaGermanyUSAFranceDenmarkJapanMexicoMalaysia70ChinaBrazilPhilippinesAlgeriaIraqSouthAfricaEgyptPakistan60IndiaNigeria50010lifexpectGNP2030lowess lifexpect GNP
迄今为止,我们学的是直线回归模型。如何处理这种非直线的情形呢?
通常解决这种问题的方法是引进多项式回归。
多项式回归是“维尔斯特拉斯定理”的运用:
多项式方程的曲线更接近数据的分布趋势。
如果我们在方程中加入一个解释变量的二次项(X2),我们就不再用一条直线拟合数据,而是抛物线中的一段。
之所以是抛物线中的“一段”,是因为我们观察到的数据X通常只是抛物
线的一部分。
抛物线可能是倒U型的:
上图抛物线中的“一段”(两条垂直红线之间的部分)看来可以很好拟合GNP-预期寿命数据。在这一段中,Y随着X的增加而增加,但增加的幅度是减少的,最后变平并开始下降。
在靠近左边垂直线的左端,增幅较大;在靠近右垂直线的右端,Y开始随着X的增长而下降,并且其下降速度随着X的增加而加大。 抛物线也可以是开口向上的:
在左边,Y随着X的增加而减少,减幅渐渐减缓,最后拉平;在右端,Y随着
X的增加而增大,而增幅逐渐加大。
用抛物线拟合现有的数据,我们建立一个新的“二次方项”:
GNP2=GNP*GNP
“二次方项”并不一个新的变量,它只是一个允许我们能更好描述现有的自变量与因变量之间关系的一个设置。(注意,如果X变化了,X2“被控制”或保持不变) 这是新的回归模型:
对模型的解释: 新的回归方程为:
象前面一样,截距(A)是当X为0时所预测的Y值。在这里,就是64.9岁的预期寿命。
那么,如何解释回归系数呢?
可以将此一回归模型与前面的简单直线回归模型进行比较:
当加入二次方项后,GNP自身的回归系数增加了一倍。
但是,这里的情形有点复杂。我们不能把这里的回归系数与其他多元回归系数等同看待,因为我们不能在保持GNP2不变的情况下(
)增加一个单位的GNP。
就像我们用多个项目表示一个分类的预测变量(虚拟变量)的情况一样,最好是同时解释多项式的回归系数。
在典型多元回归中,一个净回归系数BK可以理解为与一个XK相对应的Y的变化:
当Y是X的二次函数时,与X相对应的Y的变化是:
也就是说,Y的变化幅度会因为X的不同而不同。
因此,在本例中,当GNP为0时,随着GNP增加一个单位($1000),预期寿命增加1.67年/$1000。
B2的符号是负的,这表明GNP的进一步增长因变量的增加幅度“减弱”。当GNP=10($10,000)的时候,预期寿命的增加幅度是:1.671569+2(-0.0432525)*10, 或为0.81年/$1000,这只是当GNP为0时的增速的一半。
我们把当X为不同的值时Y的增速计算如下:
B2被解释为“加速”参数,因为它表明随着X的变化Y是更大(B>0)或更小(B<0)。
显然,当X不同时,Y的变化幅度是不一样的。
抛物线的形状取决于B2,当B2是负值时,抛物线开口向上;当B2是正值时,抛物线开口向下。
那么,B1又起何种作用呢?它与B2一起决定沿X轴的Y的最大值/最小值,即决定抛物线在X轴上的“焦点”。
在哪一点上Y达到最大值/最小值?
换言之,当X=-B/(2B2)时,Y值最大/最小。
在本例中,这一点的值是:
-1.671569/(2*-.043)=19.32
因为B2是负的,这一点的X值对应的Y值是最大的。
AustraliaUKCanadaGermanyUSAFranceDenmarkJapan80SpainCubaIsraelArgentinaRussiaMexicoMalaysia70ChinaBrazilPhilippinesAlgeriaIraqSouthAfricaEgyptPakistan60IndiaNigeria50010GNPFitted values20lifexpect30 通过上图我们也可以清楚看到这一点正好位于澳大利亚和加拿大之间,是德国的位置(GNP=19.8)。
曲线估计
LIFEXPEC90807060Observed50-10Cubic0102030GNP
第十四章 逻辑斯蒂回归
(12月16日,第14周)
所谓Logistic回归,是指应变量为二级计分或二类评定的回归分析,这在医学研究中经常遇到,如:死亡与否(即生、死二类评定)的概率跟病人自身生理状况和所患疾病的严重程度有关;对某种疾病的易感性的概率(患病、不患病二类评定)与个体性别、年龄、免疫水平等有关。此类问题的解决均可借助逻辑回归来完成。
在一般的多元回归中,若以P(概率)为应变量,则方程为P=b0+b1X1+b2X2+„
+bkXk, 但用该方程计算时,常会出现P>1或P<0的不合理情形。为此,对P作对数单位转换,即logitP=ln(P/1-P),于是,可得到Logistic回归方程为:
海峡导报数据:是否参与上次人大投票 eb0+b1X1+b2X2+„+bkXk P = ——————————— 1+ eb0+b1X1+b2X2+„+bkXk
12月23日,第15周,复习
12月30日,第16周,学生研究小组报告
因篇幅问题不能全部显示,请点此查看更多更全内容