基于Apriori算法的大气污染物关联性分析研究.pdf
《基于Apriori算法的大气污染物关联性分析研究.pdf》由会员分享,可在线阅读,更多相关《基于Apriori算法的大气污染物关联性分析研究.pdf(5页珍藏版)》请在咨信网上搜索。
1、第26卷第9期2023年9月软件工程 S O F T W A R E E N G I N E E R I N GVol.26 No.9Sep.2023文章编号:2096-1472(2023)09-0008-04DOI:10.19644/ki.issn2096-1472.2023.009.002收稿日期:2 0 2 3-0 2-1 5基金项目:山西省软科学研究计划(2 0 1 9 0 4 1 0 2 3-5)基于A p r i o r i算法的大气污染物关联性分析研究郭艳萍,高 云,景 雯(山西大同大学计算机与网络工程学院,山西 大同 037009);摘 要:常用的空气质量等级分析方法由于没有考
2、虑大气污染物之间的关联性,导致在治理空气质量时可能存在单一性和片面性。文章提出了基于A p r i o r i算法(关联规则算法)对各项大气污染物之间的关联性进行分析研究。该方法对获取的原始样本集进行了属性规约、数据离散化等预处理,将处理后的样本数据集输入模型,设置并调整了模型的最小支持度和最小置信度,直至输出符合现实意义的关联规则集合。根据实验得出的关联规则,证明空气污染问题通常是多种污染物共同作用的结果。关键词:A p r i o r i;大气污染物;支持度;置信度中图分类号:T P 1 8 1 文献标志码:AR e s e a r c h o n C o r r e l a t i o
3、n A n a l y s i s o f A i r P o l l u t a n t s B a s e d o n A p r i o r i A l g o r i t h mGUO Yanping,GAO Yun,JING Wen(School of Computer and Network Engineering,Shanxi Datong University,Datong 037009,China);A b s t r a c t:Commonly used air quality grade analysis methods do not take into account
4、 the correlation between atmospheric pollutants,resulting in a potentially one-dimensional and one-sided approach to air quality control.The paper proposes to analyze and study the correlation analysis between various air pollutants based on Apriori algorithm(association rules algorithm).With the pr
5、oposed method,the obtained original sample set is preprocessed by attribute specification and data discretization,and then,the processed sample data set is input into the model.The minimum support degree and minimum confidence degree of the model are set and adjusted until the output conforms to the
6、 association rule set of practical significance.The association rules obtained from experiments prove that air pollution problems are usually the result of a combination of pollutants.K e y w o r d s:Apriori;air pollutants;support degree;confidence degree 0引言(I n t r o d u c t i o n)在我国工业快速发展的背景下,随之
7、而来的环境污染问题日益严重。根据产生环境污染原因的不同,引起的污染问题也不同,可分为水源污染、土壤污染、大气污染等。因此,在对待污染问题时不能一概而论,要针对不同类型的污染采用不同的治理措施。此外,由于各地出现的环境污染问题的污染物特点不尽相同,所以通过对污染物进行分类和按照污染物不同的特点,采取不同的措施治理环境污染问题已经成为当今环保工作者重点研究的问题。山西省大同市属于能源产出城市,大气污染是引起该市环境污染的主要原因之一1。目前,我国治理空气污染的主要指标依据是空气质量指数(A i r Q u a l i t y I n d e x,A Q I),A Q I值为空气质量分指数(I n
8、d i v i d u a l A i r Q u a l i t y I n d e x,I A Q I)的最大值,I A Q I值最大的污染物即为首要大气污染物1-4。第 26卷第 9期郭艳萍等:基于 Apriori 算法的大气污染物关联性分析研究A p r i o r i算法通过对频繁项集进行挖掘,在大数据集上实现了提取关联规则,其主要思想为通过连接的方式生成候选项,计算其支持度,根据支持度进行剪枝,实现频繁项集的生成。空气质量虽然是由I A Q I值最高的污染物决定其等级,但是多数情况下并不是由单一的污染物作用的。本文使用A p r i o r i算法分析引起空气质量变化的多种大气污染
9、物之间的关联性,为针对性地治理大气污染提出了新的思路。1A p r i o r i算法(A p r i o r i a l g o r i t h m)A p r i o r i算法主要是找出事务集中存在的最大频繁k-项集,并获得最大频繁k-项集,将其与最小置信度比较后生成强关联规则,即所求关联关系5。1.1支持度与置信度关联规则的相对支持度的公式:S u p p o r t(AB)=P(AB)(1)即,事务A和事务B同时发生在事务集中的概率。置信度公式:C o n f i d e n c e(AB)=P(A|B)(2)其中,条件概率P(A|B)=P(A B)P(A),即,如果事务A发生,则一
10、定发生事务B的概率。放在事务集中进行研究,事务集中包含事务A的个数为事务A的支持度计数,也称为事务的计数或频率,从支持度计数推出规则AB的支持度公式:S u p p o r t(AB)=A,B同时发生的事务个数所有事务个数=S u p p o r t_c o u n t(AB)T o t a l_c o u n t(A)(3)从支持度计数推出置信度公式:C o n f i d e n c e(AB)=P(A|B)=S u p p o r t(AB)S u p p o r t(A)=S u p p o r t_c o u n t(AB)S u p p o r t_c o u n t(A)(4)1
11、.2关联规则A p r i o r i算法分两个步骤实现。1.2.1步骤一:寻找最大频繁k-项集(1)对所有事务进行扫描,扫描得到的每一项组成候选1-项集C1,并计算每项成员的支持度。(2)C1中各项集的支持度与最小支持度进行比较,将小于等于该阈值的项集剔除后得到频繁1-项集,记为L1。(3)L1与L1连接得到候选2-项集C2,进行剪枝,保留C2中满足约束条件的项集得到频繁2-项集,记为L2。(4)L2与L1连接得到候选3-项集C3,并计算每一项的支持度,进行剪枝,保留C2中满足约束条件的项集得到频繁3-项集,记为L3。(5)循环以上步骤,得到频繁k-项集Lk。1.2.2步骤二:由频繁集产生关
12、联规则步骤一中已经剔除了最小支持度小于等于预设阈值的项集,如果剩下的最小置信度满足预设阈值的规则,那么这些规则就是挖掘到的强关联规则。2大气污染物关联模型构建过程(C o n s t r u c t i o n p r o c e s s o f a i r p o l l u t a n t s c o r r e l a t i o n m o d e l)大气污染物关联性分析模型构建过程如图1所示。图1 大气污染物关联性分析模型构建过程F i g.1 C o n s t r u c t i o n p r o c e s s o f a i r p o l l u t a n t s c
13、 o r r e l a t i o n a n a l y s i s m o d e l大气污染物关联性分析主要包括以下步骤。(1)从相关站点获得大气污染物浓度日报表数据,并将其整理成原始数据。(2)对大气污染物浓度数据集进行数据预处理,包括数据清洗、属性规约和数据变换等操作。(3)经过“步骤(2)”形成建模数据,采用A p r i o r i算法,设置模型输入参数,获取各大气污染物与空气质量等级之间的关系。(4)结合实际空气质量划分结果,对模型关联规则结果进行分析,并且将模型挖掘结果应用到实际大气污染物研究中,最后输出获得的关联规则结果。3实验过程(E x p e r i m e n t
14、 a t i o n)3.1实验数据准备本次实验使用的数据集为山西省大同市2 0 1 7年、2 0 1 8年和2 0 2 1年三年的空气中各污染物浓度日均值报表数据,共计1 0 9 5条记录,每条记录包括P M2.5、P M1 0、N O2、S O2、C O、O3-8 h共6种污染物的浓度及其对应的A Q I和空气质量等级,部分原始数据集及格式如表1所示。表 1 部分原始数据集及格式表Tab.1 Part of the original data set and format table日期A Q I质量等级 P M2.5P M1 0N O2S O2C OO3-8 h2 0 2 1-0 1-0
15、 11 1 1轻度污染1 0 4 1 1 1.0 7 8.7 5 6 7.0 1 0 0.082 0 2 1-0 1-0 21 2 0轻度污染1 1 9 1 2 0.0 8 7.5 0 6 4.0 1 0 0.092 0 2 1-0 1-0 31 1 6轻度污染1 1 3 1 1 6.0 8 7.5 0 6 6.5 9 0.092 0 2 1-0 1-0 4 9 2良9 29 0.0 8 3.7 5 5 1.0 7 0.02 32 0 2 1-0 1-0 51 1 4轻度污染1 1 4 1 1 1.0 8 3.7 5 5 2.5 9 0.01 02 0 2 1-0 1-0 6 6 2良6 25
16、 9.0 4 5.0 0 2 7.0 3 5.03 72 0 2 1-0 1-0 7 3 4优2 83 4.0 3 3.7 5 2 1.0 3 0.03 12 0 2 1-0 1-0 8 9 5良9 58 5.0 7 2.5 0 5 7.0 8 2.51 92 0 2 1-0 1-0 91 2 2轻度污染1 2 29 7.5 8 6.2 5 5 8.0 8 2.51 72 0 2 1-0 1-1 01 0 0良1 0 08 1.5 7 2.5 0 5 0.5 5 5.02 1 注:P M2.5、P M1 0、N O2、S O2、O3-8 h的浓度单位为g/m3,C O的浓度单位为m g/m3。
17、3.2数据预处理本实验中数据预处理过程包括数据清洗、属性规约和数据变换。数据来源于站点数据(在观测站点实测到的数据),针对原始大气污染物浓度数据集,经过数据预处理,形成建模数据集。9软件工程2023年9月3.2.1数据清洗在站点收集的数据中,存在无效的数据,即数据集中存在某一项或某几项大气污染物浓度为0的记录,如表2所示。表 2 无效的数据示例表Tab.2 Invalid data sample table日期A Q I质量等级 P M2.5P M1 0N O2S O2C OO3-8 h2 0 1 8-0 3-1 6 1 6 5中度污染005 11 4 03.45 62 0 1 8-0 3-1
18、 7 6 4良003 98 61.87 92 0 1 8-0 3-1 8 9 2良6 81 1 34 81 3 23.54 72 0 1 8-0 3-2 6 1 2 2轻度污染002 96 01.59 72 0 1 8-0 3-2 7 7 0良003 59 81.56 12 0 1 8-0 3-2 8 4 9 6严重污染004 82 3 63.27 3 注:P M2.5、P M1 0、N O2、S O2、O3-8 h的浓度单位为g/m3,C O的浓度单位为m g/m3。大同市的实际空气质量情况是大气污染物浓度长期可能较低,但基本不存在污染物浓度都为0的情况,为了提高模型分析的准确性,需要对其进
19、行处理,在原始数据集中将大气污染物浓度为0的记录直接删除,获得有效数据集。本次实验的原始数据集包含1 0 9 5条记录,删除3 1条无效数据后,有效数据集包含1 0 6 4条记录,数据有效率约为9 7%。由此可见,原始数据集的数据可靠性较高。3.2.2属性规约从表 1 可知,原始样本集数据共有9个属性,为了更有效地分析大气污染物之间的关联性,将其中与实验任务无关的属性剔除。经过分析可得,属性“日期”与“A Q I”与本次关联分析无关,因此选取其余7个属性值构成数据集进行分析,属性规约后的数据集如表3所示。表 3 属性规约后的部分数据Tab.3 Partial data after attrib
20、ute specification质量等级P M2.5P M1 0N O2S O2C OO3-8 h7 81 7 26 38 44.01 69 01 9 07 07 84.01 78 51 8 27 08 33.61 76 81 3 06 75 22.84 68 61 7 26 75 53.62 04 46 83 62 71.47 31 93 42 72 11.26 17 11 2 05 86 43.33 79 21 4 56 96 63.33 47 01 2 74 55 83.13 8 注:P M2.5、P M1 0、N O2、S O2、O3-8 h的浓度单位为g/m3,C O的浓度单位为m
21、 g/m3。3.2.3数据变换本实验主要采用属性构造和数据离散化两种方法进行数据变换。首先进行属性构造,获得各项大气污染物的I A Q I值,然后离散化处理数据集,得到建模数据,该操作使用聚类算法完成。(1)属性构造。原始样本集中的各种大气污染物的属性值描述的是污染物浓度,但是每种污染物浓度的量纲不同,所以只看污染物浓度值是没有意义的,空气质量等级依赖每种污染物的I A Q I值,因此需要将污染物浓度转换为其对应的I A Q I值。计算污染物项目P的I A Q I值公式如下:I A Q IP=I A Q IH I-I A Q IL OB PH I-B PL O(CP-B PL O)+I A Q
22、 IL O(5)其中,I A Q IP为污染物项目P的I A Q I值;CP为污染物项目P的浓度值;B PH I与B PL O分别为污染物项目P与CP相近的污染物浓度高位限值与低位限值;I A Q IH I与I A Q IL O分别为污染物项目P与B PH I、B PL O对应的高位值与低位值。针对表1中各污染物浓度进行属性构造转化为I A Q I值后的数据集如表4所示。表 4 属性构造后的数据集Tab.4 Data set after attribute construction质量等级P M2.5P M1 0N O2S O2C OO3-8 h5 81 3 25 87 73.51 17 01
23、 5 06 57 13.51 26 51 4 26 57 63.11 24 89 06 24 52.34 16 61 3 26 24 83.11 52 42 83 12 00.96 81 01 62 21 40.75 65 18 05 35 72.83 27 21 0 56 45 92.82 95 81 3 25 87 73.51 1-(2)数据离散化。由于A p r i o r i算法只适用于离散数据,无法对连续数值进行处理,即处理数据为A、B、C的类别值,而不是数字,因此为了将I A Q I数据值转换为适合A p r i o r i建模的格式,需要将数据进行离散化。本实验采用聚类算法对各污
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 Apriori 算法 大气 污染物 关联性 分析研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。