第36卷 第l2期 2016正 高师理科学刊 Journal of Science of Teachers College and University V01.36 No.12 Dec 2016 l2月 文章编号:1007—9831(2016)12—0012—05 城市空气污染数据的分析与研究 杨小雷,汤凤香 (佳木斯大学理学院,黑龙江佳木斯154007) 摘要:针对日益严重的大气污染问题,基于现有数据与相关研究,采用相关分析法,对AQI指标 之间的相关性进行了定量分析.利用主成分分析,确定PM.。为被解释变量,其它4种污染物为解 释变量,应用逐步回归分析方法及多元回归分析,通过逐层分析比较得到了PM 。与PM ,CO, S0 ,N0 的最优二次回归模型. 关键词:空气污染;相关分析;主成分分析;逐步回归分析 中图分类号:O213.1 文献标识码:A 6oi:10.3969 ̄.issn.1007—9831.2016.12.003 Analysis and study of urban air pollution data YANG Xiao—lei,TANG Feng-xiang (School ofScience,Jianmsi University,Jiamusi 154007,China) Abstract:Aiming at increasingly serious air pollution problems,use correlation analysis to make an quantitative analysis for the correlation between the AQI indicators based on existing data and the related research,and principal component analysis is used to determine that PM1l】is the explained variable.the other four kinds of pollutants are explained variable.Using stepwise regression analysis method and multiple regression analysis,through analysis step by step and comparison get the optimal quadratic regression model between PM10 and PM2 5,CO,SO2,NO2. Key words:air pollution;correlation analysis;principal component analysis;stepwise regression analysis 1 问题背景 1.1问题的提出 近年来,随着城市空气污染的加剧以及广大民众对生活环境与质量要求的日益提高,空气质量(AQI) 越来越受到广大民众与政府相关部门的重视.AQI主要指标有PMl(),PM ,CO,NO:,SO:,探究这些污染 物之间关系对空气污染的治理具有一定的现实意义. 1.2模型假设 假设1 监测数据是用统一的设备配置与标准获得的; 假设2所有空气质量数据的误差均相互独立,并且服从正态分布Nf 0,O- 1; 假设3空气质量的5个指标,其监测是相互独立的. 1.3符号说明 本文中 为方差; 为显著性水平,一般设为0.05或更小,本文设为O.01; 表示PM。。的值;X,表 收稿日期: 2016-07-30 基金项目: 佳木斯大学科研项目(13Z1201585) 作者简介: 杨小雷(1991-),男,安徽宿州人,在读本科生.E-mail:577560628@qq.corn 通信作者: 汤凤香(1978一),女,黑龙江安达人,讲师,硕士,从事应用数理统计研究.E-mail:54993661@qq.COB 第l2期 杨小雷,等:城市空气污染数据的分析与研究 示PM:s的值;x2表示CO的值;x3表示NOz的值;X4表示S02的值. 2模型求解 2.1 预备知识 2.1.1相关分析在直线相关条件下,相关系数是2个变量 和Y之间相关关系的方向和密切程度的综合 性指标 ,记为 ,则有 驯一 y =1——:—=√ ∑ =皇-一 专 皇 ——=— (∑x) .√ ∑ 一(∑ ) 一其中: 为样本容量;,.取正值或负值决定于分子协方差;r的绝对值在0与1之间,其绝对值大小可说 明现象之间相关关系的紧密程度,具体标准为:当 <0-3时,变量 和Y没有关系;当0-3 2.1.2主成分分析<0.5时, 变量 和Y低程度相关;当o.5 <0.8时,变量 和Y呈显著相关;当},1 0.8时,变量 和Y呈高度相关. 主成分分析也称主分量分析皿 ,旨在利用降维的思想(本文利用其性质即贡献率)把 多指标转化为少数几个综合指标. 具体分析步骤为: Step1把原始数据标准化,即膏 ,= 6 j ,其中: ,和 分别为第 个指标所对应数据的均值及 标准差.记 /为第i个指标与第 个指标的相关系数,从而形成样本相关矩阵 :( ). Step2求 的特征根 ≥ … ≥0及相应的标准正交化特征向量 , 2,…, ,可得主成 分为 : ( 1,2,…,m),称 L为主成分 =∑ ( 1,2,…, )的贡献率,∑ /∑ 为主 卢 ¨ j=l 成分Y ,Y ,…,Y 的累计贡献率. Step3对m个主成分进行综合评价.对m个主成分进行加权求和,即得最终评价值,权数为每个主 成分的方差贡献率. Step4求KMO测度. 该方法是SPSS提供的判断原始变量是否适合作主成分分析的统计检验方法之一,它比较了观测到的 原始变量间的相关系数和偏相关系数的大小.一般而言,KMO测度大于0.5意味着因子分析可以进行,当 KMO的测度大于0.7时,则其是令人满意的值. 2.1.3 一元线性回归分析 一般地,称由Y:Po+ + 确定的模型为一元线性回归模型 ,记为 {Ey =:lf0o+.lf。,占x:+ ̄仃 ,固定的未知参数 , 称为回归系数,占与 分别为误差项与误差项的方差,自变 量 也称为回归变量. 对于 组独立观测值( ,Y。),…, i=1,2,…, ,其中: 一,oen 相互独立.设Q:o(/ ̄0,届):∑n :: ( 一 一届 ) ,最小二乘法就是选择 和 的估计 和 ,使 得Q( , ):m i,n Q(lfo, ),而此时 所对应的值称为回归值,记为 . 残差的样本方差为MsE= 善( 一 ) ,一个好的拟合方程,其残差总和应越小越好.残差越小, 拟合值与观测值越接近,各观测点在拟合直线周围聚集的紧密程度越高. 回归直线与各观测点的接近程度称为回归直线对数据的拟合优度.为了说明直线的拟合优度,引进判 14 高师理科学刊 第36卷 ∑( 一 ) 定系数R。: ——一i=1 ∑( 一 ) . :1一 ——一l ∑( 一 ) (1)0 R ≤l: ∑( -x) 从判定系数的定义看,R 有以下简单性质: (2)当R =1时,原始数据的总变异完全可以由拟合值的变异来解释,并且残差为零,即拟合点与原 始数据完全吻合; (3)当R =0时,回归方程完全不能解释原始数据的总变异. 判定系数,一方面反映了解释的变异占总变异的百分比,从而说明回归直线拟合的优良程度;另一方 面,它从相关性的角度,说明原因变量Y与拟合变量 的相关程度,从这个角度看,拟合变量 与原变量 Y的相关度越大,拟合直线的优良度就越高. 2.1.4 多元回归分析多元回归分析可以看成是一元线性回归分析的扩展 .多重判定系数 是多元回归 中回归平方和占总平方和的比例,它是度量多元回归方程拟合程度的一个统计量,反映在因变量Y的变差 中被估计的回归方程所解释的比例. 对于多重判定系数有一点需要注意:给模型增加自变量时,多重判定系数也随之增大,然而多重判定 系数的代价是残差自南度的减少,因为残差自由度等于样本个数与自变量个数之差.自由度小意味着估计 和预测的可靠性低.这表明,当一个回归方程涉及的自变量很多时,回归模型的拟合从表面上看是良好的, 而区间预测和区间估计的幅度却变大,以致失去实际意义.为此,利用样本量,z和自变量的个数k去调整 / 1 、 R ,计算出调整的多重判定系数,记为 ,其计算公式为群=1一l—R2)。5\} |一K—l 1. 注 R 的解释与R 类似,不同的是R 同时考虑了样本量,2和模型中自变量个数k的影响.在一个实 际问题的回归建模中,调整多重判定系数 越大,所对应的回归方程越好.从拟合优度的角度追求最优, 则所有回归子集中 最大者对应的回归方程就是最优方程. 2.2数据的预处理与被解释变量的确定 2.2.1 数据的处理与相关分析模型的求解本文采用广东省东莞、深圳和广州3个地区从2014—06—0I一 2015—05—3 1的空气质量监测数据.由于收集的数据有缺漏,存在一些缺省值,所以在分析时首先利用SPSS 对其缺省值进行了直接剔除,得到可用于统计分析的数据集(见表1)(由于篇幅限制,仅示意陛列出最前 2次与最后1次观测值).3个城市的空气质量数据经预处理后,由SPSS Pearson J求得AQI的5种指标之 间的相关矩阵表(见表2). 表1 广东省东莞、深圳和广州3个地区空气污染数据 第l2期 杨小雷,等:城市空气污染数据的分析与研究 15 由表2可以看出,联系最为紧密的监测指标组依次为:(PM: ,PM o),(PM o,NO:),(PMto,CO),(PM2 s, NO ),且PM。。与PMz s间相关系数为0.929,呈高度正相关,且相关系数相对较大;PM o与CO,NO2,S02 间相关系数分别为0.683,0.706,0.572,呈显著正相关,且除了sO:与CO之间的相关系数低于O.572以外, 其余各指标之间相关系数均超过O.572,且均在 =0.01水平上显著,因此各指标之间显著相关. 2.2.2运用主成分分析求解AQI的被解释变量利用主成分分析法对AQI中5项监测指标求解KMO,进 行Bartlett的检验,并求取解释的总方差(见表3~4). 表3 KMO和Bartlett的检验 取样足够度的 iser-Meyer-Olkin度量— 竺 由表3可以看出,KMO测度为0.805>0.7,表示变量之间的相关性很好;而Bartlett球形度检验中的显 著性水平值为0,达到了极其显著水平,这表明原变量之间具有明显的结构性和相关性,可以进行主成分 分析. 由表4可以看出,PM。。的特征值为3.476,方差贡献率为69.523%,是方差贡献率最大的一个主成分. 因此,可以确定PM 。为被解释变量,PM: ,NO ,CO,SO:为解释变量. 2.3求解PM o最优回归模型 2.3.1 PM 。与PM: ,CO,NO ,SO。多元一次及二次线性回归模型求解由于PM-o与PM2 s,CO,NO2, s0:等指标之间具有一定的相关性和独立性,应用Matlab的regress(Y,X, )函数 ,对多个候选回归 模型进行逐步回归,分别求得多元一次回归方程 1=一4.030 5+1.059 OxI+10.781 2x2+0.101 3X3+0.380 lx4 (1) 与多元二次方程 Y2=一0.743 9+1.134x1—1.939 lx2+0.132 3X3+0.626 2X4一 0.000 7 +3.792 3 一0.000 1 一0.004 3 r1、 、 同时求得回归方程(1)的调整多重判定系数为Ra =0.889 5, =196.937,表明该多元一次方程的 拟合的效果比较好;求得回归方程(2)的调整多重判定系数为兄 =0.912 8,其判定系数比多元一次模型 的判定系数提高了2.33%,且方差 =193.070 1也减少了.显著性检验的_P值为0,低于0.O1,因此该模 型比多元一次回归模型拟合的效果好. 2.3.2 PM 。与PM: ,CO,NO ,SO 多元二阶多项式回归模型求解应用Matlab对PM 。的多元二阶多项式回归模型进行求解,得 考虑到两两因素之间的交互关系, Y3=一1.867 3+0.897 2xl+4.646 2X2+0.211 1 +0.682 lx4+ 0.289 7X12—0.006 7x13+0.007 9X14—0.042 5x23—0.355 6x24+ (3) 0.001 4x34+0.000 6 一1.565 7《+0.002 4g一0.008 8 回归模型(3)的调整多重判定系数为Ra =0.938 5,表明因变量PM o的93.85%可由模型确定, F=181.973 3远远超过了F检验的临界值,P=0,远远小于显著性水平0.O1.因此回归方程(3)是显著 的.其判定系数比多元二次模型的判定系数大,方差( =177.501 3)比多元二次模型的方差小.因此, 通过逐层分析比较可以确定方程(3)的模型是逐步回归所确定的最佳回归模型. l6 高师理科学刊 第36卷 3模型评价 3.1模型的优点 (1)通过逐层比较,建立了相对优化的多元二阶多项式回归模型,得出了令人满意的结果; (2)通过所求多元二阶多项式回归模型的置信区间可以用来判断一些数据的真实性; (3)利用多元二阶多项式回归模型可以通过控制变量来预测某一数据或数据走势; (4)可以做出关于PM 。的多元二阶非线性回归模型(3)的残差分析图,直观感受模型的拟合程度; (5)所有样本信息结合在一起分析,增加了分析的可靠性. 3-2模型的缺点 (1)通过网络搜集到的数据本身可能存在不真实性,从而导致建立的模型不能准确地辨别出不真实 的数据; (2)由于地域差异性的存在,使得建立的模型不能适应所有地区的空气质量数据; (3)PM 。与PM: ,CO,NO ,SO:的多元高阶回归模型可能效果更佳,因此还可以继续探究PM 与 PM ,CO,NO ,SO 的多元高阶关系. 参考文献: …1 贾俊平,何晓群,金勇进.统计学[M].北京:中同人民大学出版社,2012:30—31 I21 张志涌.MATLAB教程[MI.北京:北京航空航天大学出版社,2010:20—25 [3】 杜强,贾丽艳.SPSS统计分析从AI'IN精通【M1.北京:人民邮电H1版社,201 1:18—20 l4] 何晓群,刘文卿.应用同归分析[M].北京:中同人民大学出版社,2015:48—55 5 何晓群.多元统计分析【M].北京:中国人民大学出版社,2004:21—23 l6 谢志英,刘浩,唐新明.北京市近16I2年空气污染变化特征及其与气象要素的相关性分析IJl_环境T程学报,2015, 9(9):4471—4478 l7l 邓霞君,廖良清,胡桂萍.近10年中国主要城市空气API及与气象因子相关性分析lJl_环境科学与技术,2013,36(9) 70-75 【8] 杨光霞,谢华.SPSS数据统计与分析fM].北京:清华大学 版社,2014:54—60 『91 司守奎,孙玺菁.数学建模算法与应用[M].北京:国防T业出版社,2012:45—50 优先数字出版声明 为了提高学术成果传播和利用价值,对具有创新性的科研成果争取首发权,《高师理科学 刊》已成为“中国知网”、“万方数据”优先数字出版期刊. 优先数字出版平台是快速实现各学术期刊论文按篇即时在线出版的平台,其功能是切实 提高学术期刊文献出版的时效性和影响力.该平台以印刷版期刊录用的稿件为内容,本刊编 辑部在得到作者授权后,将对国家自然科学基金项目,省、部级自然基金项目及教学研究项 目等符合优先数字出版条件的优质稿件进行优先处理,快速实现单篇即时在线出版(等同纸 质出版).自数字出版之日起,登录中国知网(CNKI)全文数据库和万方数据库可全文检索 和下载优先出版的稿件. 《高师理科学刊》编辑部