多元统计分析优秀课程设计.docx
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 统计分析 优秀 课程设计
- 资源描述:
-
多元统计分析课程设计 题目:《因子分析在环境污染方面应用》 姓名:王厅厅 专业班级:统计学级2班 学院:数学和系统科学学院 时间:1月 3 日 目录 1.摘要: 1 2.引言: 1 2.1背景 1 2.2问题的研究意义 1 2.3方法介绍 2 3.实证分析 10 3.1指标 10 3.2原始数据 10 3.3数据来源 13 3.4分析过程: 13 4.结论及建议 25 5.参考文献 26 1.摘要: 中国环境问题,因为中国政府对环境问题关注,环境法律日趋完善,执法力度加大,对环境污染治理投人逐年有较大幅度增加,中国环境问题已朝着好方面发展。不过,仍存在着环境问题,关键表现在环境污染问题,其中关键为水污染和大气污染。 关键词:环境污染 水污染 大气污染 因子分析 2.引言: 2.1背景: 中国环境保护取得了显著成就,部分地域环境质量有所改善。不过,从整体上看,中国环境污染仍在加剧,环境质量还在恶化。大气二氧化硫含量居高不下,境质量呈恶化趋势,固体废弃物污染量大面广,噪声扰民严重,环境污染事故时有发生。据中国社会科学院公布一项汇报表明:中国环境污染规模居世界前列。 2.2问题研究意义: 为分析比较各地环境污染特点,利用因子分析对环境污染各个指标进行降维处理并得到影响环境内在原因,深入对环境污染原因及治理方法进行分析,让更多人认识到环境关键性,正确把握各地域环境治理方法和针对不一样地域制订不一样政策改善环境问题,这对综合治理环境问题含相关键意义。 2.3方法介绍 因子分析意义:变量间信息高度重合和高度相关会给统计方法应用设置很多障碍。为处理此问题,最简单和最直接处理方案是削减变量个数,但这肯定会造成信息丢失和 信息不完全等问题产生。为此大家期望探索一个更有效地处理方法,它既能大幅降低参与数据建模变量个数,同时也不会造成信息大量丢失。因子分析正是这么一个能够有效降低变量维数分析方法。 因子分析步骤: ·因子分析前提条件:要求原有变量之间存在较强相关关系。 ·因子提取:将原有变量综合成少数多个因子是因子分析关键内容。 若存在随机向量及,使 简记为,且 (1)(标准化); (2)(中心化); (3)(不相关)。 那么,称指标向量含有正交因子结构(全部因子相互正交,即);称此模型为正交因子模型;称为公共因子(对整个有影响公共原因);称为特殊因子(只正确各对应分量有影响特殊原因);称为因子载荷矩阵,为第个指标在第个公共因子上载荷。 因子载荷矩阵建立 因子分析最基础任务之一就是建立因子载荷矩阵。 对于正交因子模型,有 若已标准化,则 在绝大多数实际问题中,往往全部是未知,由此求出是不可能,这时能够经过主成份分析给出一组公共因子及其因子载荷矩阵。 具体方法以下: (1)求出特征根,和对应单位特征向量。 (2)建立主成份。 是正交矩阵。 (3)结构公共因子,并建立因子载荷矩阵。 (逆问题) 令 轻易验证: 含有以下正交因子结构: (?) 完全忽略了特殊因子影响。 若只取前个主成份,且令 ,, 则有 其中。 忽略了不关键公共因子,由特殊因子解析。 换句话说,用主成份法取得了正交因子分解(近似)中。 这里关键问题是怎样确定因子数k 方法一:依据特征值确定因子数。 观察各个特征值,通常取特征值大于1。 方法二:依据因子累计方差贡献率确定因子数。 通常选择累计方差贡献率大于0.85时特征值个数为因子个数k。 ·使因子含有命名解释性 实际分析工作中大家总是期望对因子实际含义有比较清楚认识。未处理这个问题,可经过因子旋转方法使一个变量只在尽可能少多个因子上有比较高载荷。最理想状态下,使某个变量在某个因子上载荷趋于1,在其它因子上载荷趋于0。这么,一个因子就能够成为某个变量经典代表,于是因子实际含义也就清楚了。 因子正交旋转 当指标向量含有正交因子结构时,其公共因子向量、因子载荷矩阵及正交因子分解均不唯一确定。 对任一阶正交矩阵,有 令 则 利用正交因子分解这一性质,在因子分析(正交因子模型)中,常常在建立了初始因子载荷矩阵以后,再对其作合适正交变换(几何解释:因子轴旋转),以使得因子载荷矩阵含有更简练、更理想(近乎分块对角矩阵形式)结构,公共因子向量含有更显著、更直观实际意义,正交因子分解更合理、更能反应客观实际。 现在,已经提出了多种因子旋转方法。比较常见一个是方差极大因子轴正交旋转法,简称方差极大法。 先考虑两个公共因子平面正交旋转。 含有更理想、更简化结构,即使其各列因子载荷值尽可能地两极分化,大者尽可能大,小者尽可能小。 各载荷值可正可负,依靠程度也不一样,消除其影响: (规格化) 正交旋转目标就是要使新因子载荷矩阵各列方差之和(总方差) 达成最大。 记 则可由下式确定: tg 且符号可由符号确定: 当公共因子数时,需要对因子载荷矩阵中列因子载荷向量配两两对旋转,共旋转次。 列。先确定,后旋转。 仅列元素改变。 全部列两两配对旋转完成后,就完成了第一轮旋转。假如因子载荷矩阵还不能达成要求,那么进行第二轮旋转,如此进行下去,直到满足要求为止。 每经一轮旋转,全部可算出因子载荷矩阵总方差。 是一非降序列,且有上界(为),故必收敛于某一极限值,即为最大总方差。 实际中,通常旋转到总方差改善不大,即 (给定精度) 时,旋转停止。 最终,取作为最终因子载荷矩阵。 ·计算因子得分 因子得分是因子分析最终表现。在因子分析实际应用中,当因子确定以后,便可计算各因子在每个样本观察上具体数值,这些数值称为因子得分,形成变量称为因子得分变量。于是,在以后分析中就能够因子得分变量替换原有变量进行数据建模,或利用因子得分变量对样本进行分类或评价等研究,进而实现降维和简化问题目标。 ,,, , 3.实证分析 3.1指标: 废水排放总量、需氧量排放总量、氨氮排放总量、二氧化硫排放总量、氮氧化物排放总量、烟尘灰尘排放总量 3.2原始数据: 地域 废水排放总量 化学需氧量排放总量 氨氮排放总量 二氧化硫排放总量 氮氧化物排放总量 烟尘灰尘排放总量 北京 15.07 16.88 1.9 7.89 15.1 5.74 天津 8.94 21.43 2.45 20.92 28.23 13.95 河北 30.98 126.85 10.27 118.99 151.25 179.77 山西 14.5 44.13 5.37 120.82 106.99 150.68 内蒙古 11.19 84.77 4.93 131.24 125.83 102.15 辽宁 26.29 121.7 10.01 99.46 90.2 112.07 吉林 12.22 74.3 5.31 37.23 54.92 47.51 黑龙江 14.96 142.39 8.49 47.22 73.06 79.35 上海 22.12 22.44 4.46 18.81 33.28 14.17 江苏 60.12 110 14.25 90.47 123.26 76.37 浙江 41.83 72.54 10.32 57.4 68.79 37.97 安徽 27.23 88.56 10.05 49.3 80.73 65.28 福建 26.06 62.98 8.93 35.6 41.17 36.79 江西 20.83 72.01 8.6 53.44 54.01 46.23 山东 51.44 178.04 15.5 159.02 159.33 120.81 河南 42.28 131.87 13.9 119.82 142.2 88.21 湖北 30.17 103.31 12.04 58.38 58.02 50.4 湖南 31 122.9 15.44 62.37 55.28 49.62 广东 90.51 167.06 20.82 73.01 112.21 44.95 广西 21.93 74.4 7.93 46.66 44.24 40.29 海南 3.94 19.6 2.29 3.26 9.5 2.32 重庆 14.58 38.64 5.13 52.69 35.5 22.61 四川 33.13 121.63 13.47 79.64 58.54 42.86 贵州 11.09 32.67 3.8 92.58 49.11 37.79 云南 15.75 53.38 5.65 63.67 49.89 36.68 西藏 0.54 2.79 0.34 0.42 4.83 1.39 陕西 14.58 50.49 5.82 78.1 70.58 70.91 甘肃 6.6 37.32 3.81 57.56 41.84 34.58 青海 2.3 10.5 0.98 15.43 13.45 23.99 宁夏 3.73 21.98 1.66 37.71 40.4 23.92 新疆 10.27 67.02 4.59 85.3 86.28 81.39 3.3数据起源:《中国环境年鉴》 3.4分析过程: 利用SPSS软件进行分析,首先录入数据,然后一次进行以下处理: 一、考察原有变量是否适合进行因子分析 首先考察搜集到原有变量之间是否存在一定线性关系,是否适合采取因子分析。这里借助变量相关系数矩阵进行分析。表一是原有变量相关系数矩阵。能够看到:大部分相关系数全部较高,各变量呈较强线性关系,能够从中提取公共因子,适合进行因子分析。 表一 相關性矩陣 废水排放总量 单位:亿吨 化学需氧量排放总量 单位:万吨 氨氮排放总量 单位:万吨 二氧化硫排放总量 单位:万吨 氮氧化物排放总量 单位:万吨 烟尘灰尘排放总量 单位:万吨 相關 废水排放总量 单位:亿吨 1.000 .762 .913 .424 .612 .277 化学需氧量排放总量 单位:万吨 .762 1.000 .906 .647 .773 .592 氨氮排放总量 单位:万吨 .913 .906 1.000 .519 .650 .394 二氧化硫排放总量 单位:万吨 .424 .647 .519 1.000 .903 .842 氮氧化物排放总量 单位:万吨 .612 .773 .650 .903 1.000 .864 烟尘灰尘排放总量 单位:万吨 .277 .592 .394 .842 .864 1.000 二、提取因子 这里首优异行尝试性分析:依据原有变量相关系数矩阵,采取主成份分析提取因子并选择大于1特征值,分析结果如表2所表示。 表二 Communalities 起始 擷取 废水排放总量 单位:亿吨 1.000 .923 化学需氧量排放总量 单位:万吨 1.000 .892 氨氮排放总量 单位:万吨 1.000 .971 二氧化硫排放总量 单位:万吨 1.000 .908 氮氧化物排放总量 单位:万吨 1.000 .953 烟尘灰尘排放总量 单位:万吨 1.000 .931 擷取方法:主體元件分析。 表二显示了在指定提取2个变量共同度数据。第一列数据是因子分析初始解下变量共同度,它表明:假如对原有7个变量采取主成份分析方法提取全部特征值,那么原有变量全部方差全部可被解释,变量共同度均1.实际上,因子个数小于原有变量个数才是因子分析目标,所以不可能提取全部特征值。第二列数据是在按指定提取条件提取特征值时变量共同度。能够看到全部变量绝大部分信息可被因子解释,信息丢失少。所以,此次因子提取总体效果比较理想。 表三 說明變異數總計 元件 起始特徵值 擷取平方和載入 循環平方和載入 總計 變異 % 累加 % 總計 變異 % 累加 % 總計 變異 % 累加 % 1 4.382 73.040 73.040 4.382 73.040 73.040 2.810 46.831 46.831 2 1.196 19.932 92.972 1.196 19.932 92.972 2.768 46.141 92.972 3 .207 3.444 96.416 4 .134 2.241 98.656 5 .062 1.037 99.694 6 .018 .306 100.000 擷取方法:主體元件分析。 表三中,第一列是因子编号,以后三列组成一组,每组中数据项含义依次是特征值、方差贡献率和累计方差贡献率。 前两个因子解释原有变量总方差93%,总体上,原有变量信息丢失较少,因子分析效果较理想。 表四 表四中,横坐标为因子数目,纵坐标是特征值。能够看到:第一个因子特征值很高,对解释原有变量贡献最大;第二个以后因子特征值全部较小,对解释原有变量贡献很小,所以提取两个因子是适宜。 表五 元件矩陣a 元件 1 2 氮氧化物排放总量 单位:万吨 .939 -.266 化学需氧量排放总量 单位:万吨 .917 .226 氨氮排放总量 单位:万吨 .856 .487 二氧化硫排放总量 单位:万吨 .848 -.434 废水排放总量 单位:亿吨 .778 .564 烟尘灰尘排放总量 单位:万吨 .775 -.575 擷取方法:主體元件分析。 a. 擷取 2 個元件。 表五显示了因子载荷矩阵,是因子分析关键内容。依据该表能够写出因子分析模型: 氮氧化物排放总量=0.939*-0.266* 化学需氧量排放总量=0.917*+0.226* 氨氮排放总量=0.856*+0.487* 二氧化硫排放总量=0.848*-0.434* 废水排放总量=0.778*+0.564* 烟尘灰尘排放总量=0.775*-0.575* 由表五可知,六个变量在第一个因子上载荷全部很高,意味着她们和第一个因子相关程度高,第一个因子很关键。 第二个因子和原有变量相关性均较小,它对原有不安量解释不显著。 三、 因子命名解释 采取方差极大法对因子载荷矩阵进行正交旋转以使因子含有命名解释性。得到旋转后因子载荷矩阵图六所表示。 图六 旋轉元件矩陣a 元件 1 2 烟尘灰尘排放总量 单位:万吨 .955 .136 二氧化硫排放总量 单位:万吨 .909 .287 氮氧化物排放总量 单位:万吨 .855 .471 氨氮排放总量 单位:万吨 .268 .948 废水排放总量 单位:亿吨 .157 .948 化学需氧量排放总量 单位:万吨 .494 .805 擷取方法:主體元件分析。 轉軸方法:含有 Kaiser 正規化最大變異法。 a. 在 3 疊代中收斂循環。 由表六可知,烟尘灰尘排放总量、二氧化硫排放总量、氮氧化物排放总量在第一个因子上有较高载荷,第一个因子能够解释为大气污染物排放总量。氨氮排放总量、废水排放总量、化学需氧量排放总量在第二个因子上有较高载荷,第二个因子能够解释为水污染物排放总量。和旋转前相比,因子含义较清楚。 表七 元件評分共變異數矩陣 元件 1 2 1 1.000 .000 2 .000 1.000 擷取方法:主體元件分析。 轉軸方法:含有 Kaiser 正規化最大變異法。 元件評分。 表七显示了两因子协方差矩阵。两因子没有线性相关关系,实现了因子分析设计目标。 四、 计算因子得分 采取回归法估量因子得分系数,并输出因子得分系数。 表八 元件評分係數矩陣 元件 1 2 废水排放总量 单位:亿吨 -.205 .461 化学需氧量排放总量 单位:万吨 .016 .282 氨氮排放总量 单位:万吨 -.147 .427 二氧化硫排放总量 单位:万吨 .393 -.122 氮氧化物排放总量 单位:万吨 .309 -.007 烟尘灰尘排放总量 单位:万吨 .463 -.218 擷取方法:主體元件分析。 轉軸 方法:含有 Kaiser 正規化最大變異法。 元件評分。 依据表八可写出以下因子得分函数: =-0.205*废水排放总量+0.016*化学需氧量排放总量-0.147*氨氮排放总量+0.393*二氧化硫排放总量+0.309*氮氧化物排放总量+0.463*烟尘灰尘排放总量 =0.461*废水排放总量+0.282*化学需氧量排放总量0.427*氨氮排放总量-0.122*二氧化硫排放总量-0.007*氮氧化物排放总量-0.218*烟尘灰尘排放总量 另外,因子得分均值为0,标准差为1。正值表示高于平均水平,负值表示低于平均水平。 地域 因子得分1 因子得分2 地域 因子得分1 因子得分2 北京 -1.24699 -0.57979 河南 1.08955 0.97693 天津 -0.88044 -0.73934 湖北 -0.37443 0.75745 河北 2.36983 -0.09971 湖南 -0.46494 1.17204 山西 2.03859 -1.24591 广东 -0.77494 3.30542 内蒙古 1.81446 -0.91302 广西 -0.50304 0.13154 辽宁 1.04718 0.15182 海南 -1.26173 -0.76721 吉林 -0.25843 -0.33525 重庆 -0.55114 -0.41907 黑龙江 0.22097 0.2 四川 -0.30947 1.03004 上海 -1.06205 -0.24016 贵州 0.18358 -0.85403 江苏 0.32092 1.46441 云南 -0.20629 -0.36888 浙江 -0.52602 0.77841 西藏 -1.24652 -1.09844 安徽 -0.05073 0.37961 陕西 0.46793 -0.62279 福建 -0.7507 0.30179 甘肃 -0.3 -0.80876 江西 -0.30784 0.09465 青海 -0.82359 -1.11995 山东 1.8286 1.31332 宁夏 -0.43681 -1.03388 新疆 0.85653 -0.81297 五、 各地域综合评价 可利用因子得分变量对地域进行对比研究。 首先,绘制两因子得分变量散点图,图九所表示。 图九 首先,能够观察到广东第二因子得分很高,说明了广东水污染比较严重。河北大气污染很严重,总污染程度更是居全国之首。 其次,对各地域污染物排放总量进行综合评价。采取计算因子加权总分方法,计算公式为: F=(0.73/0.93)*+(0.2/0.93)* 得到各地域污染物排放总量,并按其进行降序排序。 地域 污染物排放总量 河北 1.86 湖南 -0.13 山东 1.72 湖北 -0.14 山西 1.36 江西 -0.22 内蒙古 1.25 云南 -0.24 河南 1.07 浙江 -0.26 辽宁 0.86 吉林 -0.27 江苏 0.56 甘肃 -0.33 新疆 0.51 广西 -0.37 陕西 0.24 重庆 -0.52 黑龙江 0.22 福建 -0.53 广东 0.07 宁夏 -0.56 安徽 0.04 天津 -0.85 贵州 -0.03 青海 -0.88 四川 -0.03 上海 -0.89 北京 -1.11 污染物排放总量较高地域有河北、山东、山西、内蒙古、河南、辽宁等;污染物排放总量较低地域有西藏、海南、北京、上海、青海、天津等。 4.结论及提议 4.1结论 各地域污染情况根据大气污染和水污染程度进行分类,能够分为三类。 第一类为严重大气污染型地域,有河北、山西、内蒙古。 第二类为较严重污染型地域,有山东、河南。 第三类为较轻污染型地域,有北京、天津等地域。 第四类为严重水污染地域,有广东地域。 4.2提议 对于大气污染比较严重地域如河北,山东,山西,内蒙古等,大气污染综合整改计划是依据城市大气质量现实状况和发展趋势进行功效区划并按确定环境目标计算各功效区最大许可排放量和削减量,从而制订污染治理方案。大气污染治理应依据城市能源结构和交通情况确定首要污染物即浓度高、范围广、危害大污染物,便于治理时有放矢、对症下药。目前中国大部分城市大气污染关键是由燃煤和汽车尾气引发。经过技术和行政手段降低汽车尾气污染;提升城市绿化率、选择抗污染性好树种,大力发展植物净化。调整工业布局,强化污染源治理,降低污染物排放量。 对于水污染比较严重地域如广东、江苏、山东、四川等,在发展工业,建设城市同时,就要注意到水资源保护。因为一旦水资源受到污染,将严重制约工业、农业发展。要处理水污染问题根本路径还是在于要发动全球人民,增强保护水资源、节省用水意识。同时大力研制循环用水技术、海水淡化技术、污水净化技术等,并对排放污水或污染物质严重企业、生活区进行合理管制和必需处罚,以增强保护水资源意识。 除此之外,因为中国各地域污染程度各有不一样,又有相同之处,可对全国污染问题进行大致分类,联络各地域水流流向和各个季节风向分析污染源头,进而全方面系统化分析,对其进行优化以降低污染排放,制订对应方法,在根本上处理全国污染问题。 5.参考文件 《中国环境年鉴》展开阅读全文
咨信网温馨提示:1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。




多元统计分析优秀课程设计.docx



实名认证













自信AI助手
















微信客服
客服QQ
发送邮件
意见反馈



链接地址:https://www.zixin.com.cn/doc/2864295.html