一种适用于卷积结构的非图像数据预处理方法_黄涛.pdf
《一种适用于卷积结构的非图像数据预处理方法_黄涛.pdf》由会员分享,可在线阅读,更多相关《一种适用于卷积结构的非图像数据预处理方法_黄涛.pdf(7页珍藏版)》请在咨信网上搜索。
1、第4 7卷/第3期/2 0 2 3年5月河北师范大学学报/自然科学版/J O U R N A LO FH E B E IN O R M A LU N I V E R S I T Y(N a t u r a lS c i e n c e)V o l.4 7N o.3M a y.2 0 2 3文章编号:1 0 0 0-5 8 5 4(2 0 2 3)0 3-0 2 3 2-0 7收稿日期:2 0 2 2-0 9-2 2;修回日期:2 0 2 2-1 0-2 7基金项目:国家自然科学基金项目(6 1 9 7 6 1 8 3);厦门市科技计划项目(3 5 0 2 Z 2 0 1 9 3 0 6 9)作
2、者简介:黄 涛(1 9 9 6),男,河南三门峡人,硕士研究生,研究方向为机器学习、大数据、粒计算.通信作者:陈颖悦(1 9 8 1),男,正高级实验师,硕士生导师,研究方向为大数据、机器学习、信息系统及电子商务等.E-m a i l:c h e n y i n g y u e x m u t.e d u.c n一种适用于卷积结构的非图像数据预处理方法黄 涛1,陈颖悦1,陈玉明1,曾念峰2(1.厦门理工学院 计算机与信息工程学院,福建 厦门 3 6 1 0 2 4;2.易成功(厦门)信息科技有限公司,福建 厦门 3 6 1 0 2 4)摘要:卷积神经网络凭借局部相关和权值共享等优良特性而广泛应
3、用于图像处理领域,成为最受欢迎的神经网络架构之一.然而,对于基因组、语音和金融等非图像形式的数据,传统的卷积网络可能无法完全适用.为了摆脱这一困境,科研人员不断尝试研发诸如循环神经网络以及注意力机制网络等可用于解析非图像数据的网络结构,拓展神经网络的应用范围.新型网络架构的研发无疑是困难且耗费巨大的,从另一个角度出发,提出一种适用于卷积网络结构的数据预处理方法.通过处理源数据,将其转换为特定的一维特征向量或二维图像矩阵,接着送入自定义卷积结构中观察其算法表现.实验采用U C I和K a g g l e平台上的经典数据集进行测试并使用了S VM、决策树、随机森林等传统机器学习模型来对比该方法的可
4、行性和有效性.关键词:非图像数据;卷积神经网络;深度学习;数据预处理;机器学习中图分类号:T P1 8 3 文献标志码:A d o i:1 0.1 3 7 6 3/j.c n k i.j h e b n u.n s e.2 0 2 3 0 1 0 0 9AN o n-i m a g eD a t aP r e p r o c e s s i n gM e t h o df o rC o n v o l u t i o nS t r u c t u r eHUANGT a o1,CHE NY i n g y u e1,CHE NY u m i n g1,Z E NGN i a n f e n g
5、2(1.C o l l e g eo fC o m p u t e ra n dI n f o r m a t i o nE n g i n e e r i n g,X i a m e nU n i v e r s i t yo fT e c h n o l o g y,F u j i a nX i a m e n 3 6 1 0 2 4C h i n a;2.E a s yS u c c e s s(X i a m e n)I n f o r m a t i o nT e c h n o l o g yL i m i t e dC o m p a n y,F u j i a nX i a m
6、 e n 3 6 1 0 2 4C h i n a)A b s t r a c t:C o n v o l u t i o n a ln e u r a ln e t w o r k sa r ew i d e l yu s e di nt h ef i e l do f i m a g ep r o c e s s i n gd u et ot h e i re x c e l l e n tp r o p e r t i e ss u c ha s l o c a l c o r r e l a t i o na n dw e i g h t s h a r i n g,a n dh a
7、v eb e c o m eo n eo f t h em o s tp o p u l a rn e u r a ln e t w o r k a r c h i t e c t u r e s.H o w e v e r,f o r n o n-i m a g ef o r m s o f d a t a s u c h a s g e n o m i c s,v o i c e,a n df i n a n c e,t r a d i t i o n a lc o n v o l u t i o n a ln e t w o r k s m a y n o tb ef u l l y a
8、 p p l i c a b l e.I n o r d e rt o g e tr i d o ft h i sd i l e mm a,r e s e a r c h e r sh a v eb e e n t r y i n g t od e v e l o pn e t w o r ks t r u c t u r e s s u c ha s r e c u r r e n t n e u r a l n e t w o r k s a n da t t e n t i o nm e c h a n i s mn e t w o r k s t h a t c a nb eu s e
9、 d t oa n a l y z en o n-i m a g ed a t a,a n de x p a n d t h e a p p l i c a t i o ns c o p eo fn e u r a l n e t w o r k s.T h e r e s e a r c ha n dd e v e l o p m e n t o fn e wn e t w o r ka r c h i t e c t u r e i su n d o u b t e d l yd i f f i c u l t a n dc o s t l y.F r o ma n o t h e rp
10、e r s p e c t i v e,w ep r o p o s ead a t ap r e p r o c e s s i n gm e t h o d f o r c o n v o l u t i o n a l n e t w o r ks t r u c-t u r e.B yp r o c e s s i n gt h es o u r c ed a t a,i t i sc o n v e r t e d i n t oas p e c i f i co n e-d i m e n s i o n a l f e a t u r ev e c t o ro r t w o-
11、d i-m e n s i o n a l i m a g em a t r i x,a n d t h e ns e n t t oa c u s t o mc o n v o l u t i o ns t r u c t u r e t oo b s e r v e i t s a l g o r i t h mp e r f o r m-a n c e.I nt h ee x p e r i m e n t,t h ec l a s s i c a l d a t as e t so nU C I a n dK a g g l ep l a t f o r m sa r eu s e d
12、 f o r t e s t i n g,a n dt r a d i-t i o n a lm a c h i n e l e a r n i n gm o d e l s s u c ha sS VM,d e c i s i o nt r e e,a n dr a n d o mf o r e s t a r eu s e d t oc o m p a r e t h e f e a-s i b i l i t ya n de f f e c t i v e n e s so f t h em e t h o d.K e yw o r d s:n o n-i m a g e d a t a
13、;c o n v o l u t i o n a l n e u r a l n e t w o r k s;d e e p l e a r n i n g;d a t a p r e p r o c e s s i n g;m a c h i n e l e a r n i n g0 引 言近年来,以深度神经网络(d e e pn e u r a ln e t w o r k s,D NN)为代表的机器学习方法逐渐兴起1,在其内部可以自动实现对数据的特征学习,提高工作效率.卷积神经网络模型(c o n v o l u t i o n a ln e u r a ln e t w o r k s
14、,C NN)作为D NN的代表性架构,更是在机器视觉2和图像处理3等领域大放异彩.然而,实际生活场景中的基因组4、转录组5、和金融分析等数据都是非图像形式的;传统机器学习技术(M a c h i n eL e a r n i n g,ML)可以在这些领域取得广泛应用,C NN却因其输入受限而无法适用.幸运的是,国内外的科研人员们从未停止过对这一研究邻域的尝试.S c h m i d h u b e r于1 9 9 7年研究出了L S TM网络6,它较好的克服了R NN不擅长处理长序列的问题,在自然语言处理7领域得到广泛应用;Y o s h u a等提出擅长处理序列信号的循环神经网络(r e-c
15、 u r e n tn e u r a ln e t w o r k,R NN)8;2 0 1 7年,G o o g l e推出了基于纯注意力机制9实现的T r a n s f o r m e r网络模型1 0.随后,一系列诸如G P T1 1,B E R T1 2等用于机器翻译的注意力机制的网络模型层出不穷.除了提出新型算法,能否通过其他手段使得卷积结构也能具有处理部分非图像数据的能力.带着这样的问题,从另一个角度出发,从非图像数据的源数据入手,试图改变源数据的格式使其满足卷积结构的输入要求.鉴于此,本文中,笔者在实验中将选自U C I和K a g g l e平台的连续型数据分别处理为一维和
16、二维卷积网络能够识别的特征向量以及图像矩阵,结合自定义的卷积网络结构,寻求更加简洁高效的非图像数据处理方法.经过与ML中经典模型的比较,证明了所提出的适用于卷积结构的非图像数据预处理方法能够有效的解决部分非图像数据无法使用卷积网络结构的困境,并能够在分类性能上取得一定的突破.1 非图像数据的归一化归一化处理在模式识别1 3中应用广泛,其用途主要分为2类:一类作为特征提取前的预处理技术;另一类是对特征提取后的特征向量进行特征转换.当其作为预处理技术时,可以消除不同特征间的量纲差异,从而获得更好的分类效果.不同的归一化方法适用于不同的数据分布模型.针对一维卷积的数据预处理方法中,选择表现效果较优的
17、标准归一化.1)标准归一化(Z-s c o r en o r m a l i z a t i o n)x=x-x-,(1)其中,是样本的标准差,x-代表样本的均值.该方法假设观测数据具有良好均值并且符合标准的高斯分布.经过标准归一化运算后特征值将会被缩放到0,1 区间.鉴于图像中相邻元素共享相似信息的特点,在处理面向二维卷积结构的数据时采用了对数归一化方法,该方法能够在一定程度上保持原始特征间的关系.2)对数归一化(L o gn o r m a l i z a t i o n)XM i nf=m i nXt r a i n(f,:)(2)Xt r a i n(f,:)l o g(Xt r a
18、i n(f,:)+XM i n f+1)(3)XM a xf=m a x(Xt r a i n)(4)Xt r a i n(f,:)Xt r a i n(f,:)XM a x f(5)其中,M i nf取自所有训练样本中的最小值,以便使用训练极值对测试集进行归一化操作.如果按最小值调整后,测试集中有特征小于0会被钳制为0;相应的,测试集中大于1的特征钳制为1.此时的数据同样分布在0,1 之间.2 非图像数据降维与可视化为满足卷积网络结构低维和图像数据局部相关的需求,使用经典的T-S N E非线性降维算法对源数据进行特征提取以及可视化操作.2.1 T-S N E算法T-S N E主要用于将高维数
19、据降低维度到二维或三维进行可视化展示1 4.实验中将数据降到二维以方便在平面中展示数据信息.T-S N E算法的实现分为2个主要步骤:第一步在高维空间中将样本间欧式距离转换为样本的概率分布,以表达点与点之间的相似度;第二步在二维平面中重构这些点的概率分布,使用梯度332下降法优化2个分布之间的KL散度.条件概率pji(x)是样本xi选择xj作为邻居的主要依据.pji(x)=e x p(-xi-xj22i2)kie x p(xi-xj22i2),(6)其中xRRd,i是以样本xi为中心的高斯方差.与其类似,定义出低维映射样本yi和yj之间的条件概率qj|i.qj|i(x)=e x p(-yi-y
20、j222)kie x p(-yi-yj22yi2).(7)此处的方差被设为1 2,yi和yj模拟了高维样本xi和xj的分布,qj|i(x)与pj|i(x)的接近程度可以用来衡量降维效果的好坏.KL散度是用来衡量2种概率分布之间差异的度量方式,计算方式如(8)所示,Pi和Qi分别代表所给样本和映射样本的条件概率,优化二者间的损失可以得到高维数据在低维空间中的相似映射C.DKL(pq)=El bp(x)-l bq(x),(8)C=iKL(PiQi)=ijpj|il o gpj|iqj|i.(9)2.2 非图像数据的可视化图像由若干个相关像素组成,像素的位置会对C NN的特征提取精度产生一定的影响.
21、实验中通过余弦距离衡量样本之间的相似度并按照相似度大小排列,将相似样本以样本簇的形式插入到图像中,便于有效特征的提取.将包含d个的特征向量(样本)x通过转置变换可以转换为特征矩阵,利用T-S N E的可视化方法,可以将经过处理的向量放置到二维笛卡尔坐标系中.结合样本之间的相似度,遵循“相似近邻,迥异疏远”的原则确定特征矩阵的位置.此后,每个特征向量都可以在坐标系中确定自己的位置.坐标以(xj,yj)的形式存在,xj,yj分别代表原始特征向量和其在二维平面上的相似映射.确定位置之后将特征值映射到坐标系中,形成每个样本对应的灰度特征图.图1是使用U C I中的C a r g o数据集(它有39 4
22、 2个样本和9 7维特征)进行处理后生成的图片样例.图1 分类标签为1,2,3的样本F i g.1 S a m p l e I m a g e sw i t hC l a s s i f i c a t i o nL a b e l s1,2a n d3通过以上图像可以发现,特征值会对灰度图的颜色产生一定影响,这也是卷积神经网络判别不同类别样本的主要依据.3 自定义卷积神经网络模型随着深度学习的兴盛,卷积神经网络在计算机视觉和图像处理中的表现大大超越了其他算法模型,呈现统治之势.组合经典的卷积结构组件搭建自定义神经网络模型,用于分析经过预处理的非图像数据,探索卷积结构对连续型数据的适用性.以下
23、详细介绍自定义一维和二维卷积神经网络的构建过程.4323.1 自定义一维卷积网络模型传统一维C NN多用于处理时序数据,它的输入是一个特征向量和一个卷积核,输出也是一个特征向量.实验中的自定义一维卷积网络模型基于S e q u e n t i a l容器构建,其内部添加由C o n v 1 D层、B a t c h N o r m a l i-z a t i o n层以及D r o p O u t层组合形成的一维卷积块.卷积得到的相关特征展平后被接着放入全连接层,在输出层中调用S o f t m a x函数进行概率判定,最终得到理想的函数模型.搭建简捷高效的网络模型一直是科研工作者的追求,为了
24、降低网络规模加快模型的收敛速率,采用了1*1卷积核和表现效果较优的L e a k y R e L u激活函数.紧接着,在模型装配阶段设置了A d a m优化器并指定适用于多分类任务的交叉熵损失函数进行参数优化.最后,对封装好的模型进行训练,在其内部启用E a r l y S t o p p i n g机制以保证获得最佳的模型参数,避免过拟合现象的发生.自定义一维卷积网络模型如图2所示.3.2 自定义二维卷积网络模型二维卷积神经网络是整个卷积神经网络体系的典型代表,它是图像处理任务的不二选择.自定义二维卷积网络模型由经典的”C o n v-B N-R e L u-P o o l i n g”标配
25、单元块以及2个全连接层堆叠而成.不同于自定义一维卷积网络模型,二维卷积模型的卷积层内部分别使用了3*3和5*5卷积核,以便于提取更多有益信息.此外,为了缩减特征图的尺寸,降低网络的参数量,模型中加入了可用于信息聚合的最大池化层.具体的自定义二维卷积网络模型如图3所示.图2 自定义一维卷积网络模型架构图3 自定义二维卷积网络模型架构F i g.2 C u s t o m1 DC o n v o l u t i o n a lN e t w o r kM o d e lF i g.3 N C N NN e t w o r kA r c h i t e c t u r eD i a g r a m3
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一种 适用于 卷积 结构 图像 数据 预处理 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。