您好,欢迎来到尚佳旅游分享网。
搜索
您的当前位置:首页多元统计分析实例剖析

多元统计分析实例剖析

来源:尚佳旅游分享网
交通学院小组作业

从《2010年统计摘要》上获得了民航客运量和它的影响因素的数据。若以Y表示民航客运量(万人),X1表示国民收入总值(亿元),X2表示消费金额(亿元),X3表示铁路承载量(万人)X4 表示民航航线距离(万公里),X5表示境外旅客人数(万人),则可以得到下表:

年份 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 Y 277 358 412 481 534 469 665 3 1196 1572 1730 10 1992 2614 3463 4060 X1 3162 4020 4426 4729 5110 5683 6782 8424 9431 11176 14086 15811 17261 19868 24268 29858 X2 2266 2634 3037 3359 3665 4030 4686 5855 6662 7663 96 10806 11596 13163 15582 19139 X3 977 103667 1105 114360 119906 127253 132424 134532 130295 134915 147174 136568 1148 114097 119632 126550 X4 18 19 23 26 28 27 31 33 39 47 45 57 61 67 100 115 X5 217 504 684 932 951 1137 12 2140 2738 3228 3803 2940 3295 4003 3974 4983

参数估计

通过SPSS软件的处理可以得到以下的结果

Coefficients Standardized Unstandardized Coefficients Model 1 (Constant) x1 x2 x3 x4 x5 a. Dependent Variable: y B 714.040 .396 -.618 -.008 19.729 .429 Std. Error 213.378 .097 .141 .002 4.1 .0 Coefficients Beta t 3.346 2.751 -2.735 -.094 .485 .556 4.106 -4.391 -4.028 4.345 7.968 Sig. .007 .002 .001 .002 .001 .000 a

由以上的表格可以行到各个参数的估计值,从而可以得到:

回归系数的解释

1、常系数0表示,当X1X2…Xp0时Y的值。 2、回归系数j有两种解释。

一种是,当Xj变化一个单位而其他预测变量固定取常数时,Y的该变量,这个该变量与其他预测变量固定取什么常数无关。在实际中,预测变量间往往是有关联的,可能无法做到固定某些预测变量的值而改变其他变量的值。这是这种解释的弱点。

另一种表示,经过其他预测变量的“调整”后,Xj对响应变量Y的贡献。现以回归系数1的估算为例来说明这种解释。

1)拟合Y对X2,…,X5的回归模型。记此回归的残差为eY(X,,X5),拟合的回

2归方程为

Y826.0350.052X20.012X332.256X40.391X5

2)拟合X1对X2,…,X5的回归模型。记此回归的残差为eX(X12~,,X5),拟合的回

归方程为

X1282.5911.429X20.009X331.610X40.097X5

残差eY(X2~,,X5)和

eX(X,,X)的值见下表。

125偏残差表

3)拟合残差eY(X2行号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 eX(X,,X) 125eY(X2,,X5) -62.663 316.506 97.961 -97.800 -167.503 -2.953 116.312 101.261 -212.794 -63.323 238.516 -247.931 -205.675 35.246 -18.576 173.416 37.211 60.955 17.347 -47.3 13.5 12.229 14.762 29.346 -102.436 -70.707 171.781 -130.822 -157.696 66.206 51.486 34.391 ,,X5)对Y(X2,,X5)的简单回归模型的回归方程为

eeY(X

在此回归方程中eX(X1~2,,X5)00.396eX1(X2,,X5)

,X5)2,的系数与全模型拟合的方程中X1的系数是一样

的,都是0.396。由上述计算过程可以看出这种解释比第一种解释统计意义更深

刻一些。

中心化和规范化

中心化: 年份 1995 1996 1997 y -1114 -1033 -979 X1 X2 X3 X4 X5 -8343.94 -70.81 -25002.31 -7485.94 -5102.81 -19124.31 -7079.94 -4699.81 -12146.31 -28 -27 -23 -2099.94 -1812.94 -1632.94 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 单位化:

-910 -857 -922 -726 -498 -195 181 339 149 601 1223 2072 2669 -6776.94 -6395.94 -5822.94 -4723.94 -3081.94 -2074.94 -329.94 2580.06 4305.06 5755.06 8362.06 12762.06 18352.06 -4377.81 -4071.81 -3706.81 -3050.81 -1881.81 -1074.81 -73.81 1909.19 3069.19 3859.19 26.19 7845.19 11402.19 -8431.31 -2885.31 4461.69 9632.69 11740.69 7503.69 12123.69 24382.69 13776.69 -7937.31 -8694.31 -3159.31 3758.69 -20 -18 -19 -15 -13 -7 1 -1 11 15 21 69 -1384.94 -1365.94 -1179.94 -774.94 -176.94 421.06 911.06 1486.06 623.06 978.06 1686.06 1657.06 2666.06 年份 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 y -0.2495 -0.2314 -0.2193 -0.2038 -0.1919 -0.2065 -0.1626 -0.1115 -0.0437 0.0406 0.0759 0.0334 0.1346 0.2739 0.41 0.5978 X1 X2 X3 X4 X5 -0.2692 -0.2415 -0.2284 -0.2186 -0.20 -0.1879 -0.1524 -0.0994 -0.0669 -0.0107 0.0832 0.13 0.1857 0.2698 0.4118 0.5921 -0.2768 -0.2582 -0.2378 -0.2215 -0.2060 -0.1876 -0.14 -0.0952 -0.04 -0.0037 0.0966 0.1553 0.19529 0.2746 0.3970 0.5770 -0.4886 -0.3737 -0.2374 -0.18 -0.05 0.0872 0.1882 0.2294 0.1466 0.2370 0.4765 0.2692 -0.1551 -0.1699 -0.0617 0.0735 -0.2552 -0.2461 -0.2096 -0.1823 -0.11 -0.1732 -0.1367 -0.1185 -0.0638 0.0091 -0.009 0.1003 0.1361 0.1914 0.4922 0.62 -0.3632 -0.3136 -0.2824 -0.2395 -0.2363 -0.2041 -0.1340 -0.0306 0.0728 0.1576 0.2570 0.1078 0.1691 0.2916 0.2866 0.4611 对经过中心化和单位化后的数据进行回归分析,得到下面的结果

系数a 模型 非标准化系数 B 1 (常量) X1 X2 X3 X4 X5 a. 因变量: y 4.017E-5 2.736 -2.722 -.094 .487 .556 标准 误差 .003 .671 .624 .023 .112 .070 标准系数 试用版 t .012 4.075 -4.362 -4.039 4.360 7.965 Sig. .991 .002 .001 .002 .001 .000 2.736 -2.722 -.094 .487 .556 ˆ002.736x12.722x20.094x30.487x40.556x5 y复相关系数

由SPSS运行数据得: ANOVA Model 1 Regression Residual Total Sum of Squares 1969.912 38832.088 19935822.000 df 5 10 15 Mean Square 3979397.982 3883.209 F 1024.771 Sig. .000 ab a. Predictors: (Constant), x5, x3, x4, x2, x1 b. Dependent Variable: y Model Summary Adjusted R Model 1 R .999 abStd. Error of the Estimate 62.315 R Square .998 Square .997 a. Predictors: (Constant), x5, x3, x4, x2, x1 b. Dependent Variable: y 则复相关系数:RR21SSESSE0.999 SST修正的R2:Rα21n1(np1)1(1R2)0.997

SSTnp1(n1)由以上结果可以看出,R=0.998,表示民航客运量中的99.8%的变差可有5个变量解释。

2同时可以看出R的值接近1,此时观测值和预测值离得很近,模型较好地所合了数据。

2单个回归系数的推断

(1)假设H0:j0(自变量xj与因变量y没有线性关系)

备择假设H1:j0(j0,1,2,3,4,5)(自变量xj与因变量y有线性关系) 计算检验的统计量tj

tjˆjˆ)s.e.(j

利用SPSS软件对数据进行多元回归分析,得到的结果如下:

系数 非标准化系数 模型 1 (常量) X1 X2 X3 X4 X5 a. 因变量: y B 714.040 .396 -.618 -.008 19.729 .429 标准误差 213.378 .097 .141 .002 4.1 .0 标准系数 试用版 t 3.346 4.106 -4.391 -4.028 4.345 7.968 Sig. .007 .002 .001 .002 .001 .000 B 的 95.0% 置信区间 下限 238.604 .181 -.931 -.013 9.611 .309 上限 11.477 .611 -.304 -.004 29.847 .550 a 2.751 -2.735 -.094 .485 .556 临界值查表得t(10,0.025)2.23

我们知道当|tj|t(10,0.025)时,则表示在显著性水平0.05下拒绝H0,接受H1。

观察t检验的统计表,发现x1(国民收入总值)、x2(消费金额)、x3(铁路承载量)、x4(民航航线距离)、x5(境外旅客人数)的回归系数是显著不为0的(拒绝H0,接受H1),即说明x1、x2、x3、x4、x5对经过其他预测变量调整后的响应变量y的预测效果在统计上是显著的。

ˆtˆ(2)区间估计,其95% 的置信区间为j(10,0.025)s.e.(j),计算得到单个参数的置信

区间:

0(238.604,11.477)

1(0.181,0.611) 2(0.931,0.304) 3(0.013,0.004)

4(9.611,29.847) 5(0.309,0.550)

检验某些回归系数相等

(1)在假设错误!未找到引用源。的情况下检验假设错误!未找到引用源。 根据单个系数的t检验,错误!未找到引用源。和错误!未找到引用源。是显著的,因此原假设为

因此全模型为:

错误!未找到引用源。。

根据软件输出结果为:

系数表 模型 (常量) 1 X1 X5 非标准化系数 B -253.01 0.14 0.013 标准 误差 85.156 0.016 0.086 t -2.971 8.743 0.1 0.979 a. 因变量: Y

在原假设下,设错误!未找到引用源。,则简化模型为: 错误!未找到引用源。,

令变量错误!未找到引用源。,则简化模型为:

根据软件输出结果为:

系数表 模型 (常量) W 非标准化系数 B -282.323 0.121 标准 误差 83.569 0.005 t -3.378 23.981 0.976 1 a. 因变量: Y

F统计量为错误!未找到引用源。

查表得错误!未找到引用源。;错误!未找到引用源。,

易见F<4.67<9.07,因此结果是不显著的,所以不能拒绝原假设。 假设检验的结果告诉我们,方程

ˆ0.121 Y(X1X5)282.32,与数据并未出现不一致。所以我们得出结论,在确定民航客运量时,X1和X5有相同的正影响。

预测

ˆ0714.040.396x010.618x020.008x0319.729x040.429x05 y查询《2011年全国统计年鉴》可得到2011年国民生产总值x01为4715亿元,消费金额x02为37532亿元,铁路承载量x03为186000万人,民航航线距离x04为339.06万公里,境外旅客人数x05为132万人。 (1)即给定x0(4715,37532,186000,339.06,132)

ˆ0714.040.39647150.618375320.00818600019.729339.060.429132yˆ0174638y在本文中取0.05,因为=0.05这个精度已经可以满足本文的研究。

ˆ0的ˆt(np1./2)s.e.(y0yˆ0) y1-的置信限为:yTˆ0)ˆ1x0(XTX)1x0 t(10,0.025)2.23,s.e.(y0yn11ˆˆˆ62.32(yy)38832.088iinp1i116512ˆ

用Excel计算得到

Tx0(XTX)1x0396660.9122

Tˆ0)ˆ1x0(XTX)1x039249.82234 计算可得:s.e.(y0yˆ0的95%的置信区间为:( y87110.62,262165.1038)(2)即给定x0(4715,37532,186000,339.06,132)

ˆ0即为: 设其响应均值为0,其估计值ˆ0714.040.39647150.618375320.00818600019.729339.060.429132ˆ0174638ˆ0的ˆ0t(np1./2)s.e.(ˆ0) 1-的置信限为:Tˆ0)ˆx0s.e.((XTX)1x039249.77286,t(10,0.025)2.23

ˆ0的95%的置信区间为:( y87111.0065,2621.9935)

意义

本文分析了国民生产总值、国民消费金额、铁路承载量、民航航线距离、境外游客人数五个影响因素对民航客运量的影响。通过软件分析可得R2=0.998,即民航客运量与几个影响因素之间的线性关系非常强,通过分析每个影响因素与民航客运量的关系,可得以下结论:

(1)民航客运量与国民生产总值成正相关,随着国民生产总值增加,民航客运量也随之增加,因为随着国民经济能力的增强,出行、旅游的也增多了,而经济能力的增强也使得人们出行更偏好选择舒适快捷的飞机作为出行工具, (2)民航客运量与铁路承载量呈负相关,这是因为,铁路与航空存在着竞争,尤其是近些年高铁的发展,使得铁路与航空在中长途旅客运输方面的竞争更加激烈,因此,随着铁路承载量的增加民航客运量会出现减少趋势。

(3)民航客运量与民航航线距离呈正相关,这是因为,随着民航航线距离的增加,民航覆盖面积的增加,不但为很多以前不通民航地区的人们多提供了一种出行方式,更会因为它的完整性而吸引跟多乘客。

(4)民航客运量与境外旅客人数呈正相关,这是因为,境外游客一般生活条件较好,且由于出境旅游一般路途较远,因此大多数境外游客会选择飞机作为交通工具入境。

本文研究的意义在于通过研究这些因素与民航客运量的关系,从而预测以后的民航客运量,为航空公司制定当年的运输计划,编排航班提供一个有力依据。

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- shangjiatang.cn 版权所有 湘ICP备2022005869号-4

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务