1、第43卷第3期2023年5月DOI:10.13954/ki.hdu.2023.03.005杭州电子科技大学学报(自然科学版)Journal of Hangzhou Dianzi University(Natural Sciences)Vol.43 No.3May 2023一种自适应多任务学习方法张传刚,杨冰(杭州电子科技大学计算机学院,浙江杭州310 0 18)摘要:传统多任务学习在网络模型和任务权重方面灵活性偏低,不足以应对复杂场景。为此,提出一种自适应网络模型和任务权重的多任务学习方法。首先,运用决策方法学习多任务网络模型结构;其次,利用多任务损失函数动态调整任务权重;最后,在学习到的网络
2、模型和任务权重下训练网络权重,达到特征共享和任务权重之间的权衡。实验结果表明,相比于固定的网络模型和任务权重,提出方法提高了语义分割和表面法线预测性能。关键词:神经网络;多任务学习;特征共享;任务权重中图分类号:TP389.1文献标志码:A文章编号:10 0 1-9 146(2 0 2 3)0 3-0 0 30-0 70引言多任务学习(Multi-task Learning,M T L)1是一种基于共享表示,把多个相关任务放在一起学习以改善学习效果的机器学习方法。广泛应用于自然语言处理 2 、计算机视觉 3 和机器人 4等领域。与传统的单任务学习不同,,MTL能同时学习多个相关任务,利用它们的
3、共有特征提升模型的性能。MTL面临2 个巨大挑战,一是如何实现特征的共享,二是如何权衡多任务之间的权重。已有的大多数研究中,一般通过软硬参数共享机制 51实现特征共享,或是采用加权线性损失来权衡多个任务,每个任务的损失函数权重均由人工设置 。但是,随着任务不断复杂,通过人工调整去寻找合适的网络模型和损失权重,不仅代价高昂,效果也不尽如人意。不同学习任务需要不同的共享模式和损失权重,不恰当的共享模式可能导致“负迁移”,不恰当的权重也可能导致不同任务学习效果的悬殊。为此,本文提出一种自适应网络模型和任务权重的多任务学习方法,在自适应学习网络模型过程中,通过动态调整权重,学习到与目标任务更加匹配的模
4、型和权重,获得更好的性能。1多任务模型多任务学习分为硬参数共享和软参数共享2 种实现方式。硬参数共享中,所有任务共用一个低层次网络学习共享特征,在高层产生特定分支学习特定任务的特征 8 。这种共享模式中,只有部分方法采用多分支结构,很难保证模型适用多个任务。软参数共享中,通常为每个任务单独分配一个网络,再附加某些约束以实现网络之间的共享,如十字绣网络 9 提出了共享单元,用于在2 个任务相邻层之间实现特征共享;闸网络 10 1通过允许学习分层、子空间和跳过连接的选择性实现共享;神经判别降维(NeuralDiscriminative Dimensionality Reduction,ND D R
5、)11在十字绣网络的基础上,引人降维技术;多任务注意力网络(Multi-TaskAttentionNetwork,M T A N)12 在单任务网络中加人注意力机制,用于学习特定任务的特征。这些网络模型虽然解决了一些多任务学习的问题,但当任务数量增加时,产生的庞大参数数量是一个巨大的挑战。为此,Sun等 6 提出一种自适应网络模型,在只有1个网络的基础上,寻找与任务较匹配的模型,很好地解决了网络参数随着任务数线性增加的问题;Liu等 13 提出任务自适应激收稿日期:2 0 2 2-0 5-12作者简介:张传刚(19 9 9 一),男,研究方向:多任务学习。E-mail:cg_。通信作者:杨冰,
6、副教授。研究方向:计算机视觉、模式识别。E-mail:。第3期活网络(TaskAdaptiveActivationNetwork,T A A N),自动学习MTL的最优网络结构;Yang等 14 提出一种基于拉格朗日乘子策略的多重损失函数权重自适应多任务学习方法,提高了艺术分类和跨模态艺术检索性能;刑新颖等 15 提出一种基于自适应多任务卷积神经网络的脑网络分类方法,通过添加辅助任务和自适应权重提高了脑网络分类效果。随着多任务模型的不断成熟,多任务学习已广泛应用于计算机视觉。AdaShare作为一种新模型,同时学习了语义分割、深度估计和表面法线预测等任务,遗憾的是,在权衡任务方面,AdaSha
7、re采用的是传统方法,即加权线性损失,通过人工来设置损失权重。为解决此问题,本文尝试利用同方差任务不确定性结合多个损失函数来同时学习多个目标,对其进行改进。2自适应学习方法本文提出的自适应多任务学习方法包括3个步骤,首先,提出一种决策方法,通过优化决策参数从而学习到较优的网络结构;其次,设计了一种新的多任务损失函数,学习网络模型的同时动态调整任务权重,最后,在学习到的网络模型和任务权重下训练网络权重。2.1决策方法给定一组相关的任务,假设其集合为T=(T I,T,T),对于任务T模型中的某一层I,本文决策方法的目的在于寻找1个决策变量ul.k。当ul.=0时,任务k跳过第l层;当ul.k=1时
8、,任务k选择第1层,每个任务的决策由一组决策变量组成,从而构成任务集合T的决策分布。本文的多任务模型决策方法如图1所示。对于ResNet中的L个残差块中的某一块,当有多个任务选择它时为共享层,否则为特定任务层,以一推之,最终所有任务的决策分布为U=(u l.)L,K,其中ul.表示任务k关于第1个残差块的决策,共有选择或跳过2 种决策,显然其数量级为2 LxK,当残差块和任务数线性增长时,内部的参数数量呈现为指数分布,若想人工设计网络结构,难度极大。因此本文采用Gumbel Softmax采样 16 方法实现这个决策,并通过反向传播方法对其进行优化,寻找效果较优的决策分布。多任务模型决策A快策
9、B由于决策变量ul,是离散的,因此本文通过Gumbel Softmax采样使其连续化。假设任务k选择第1个残差块的概率为l,则每个残差块的决策分布为元.=1一l.k,.,得到的决策为:(1)jE1o,1)式中,Gl,=一lg(一lgU),U l,采样于标准(O,1)均匀分布。显然argmax函数不可微,因此GumbelSoftmax采样利用重参数化技巧消除式(1)中的argmax操作:张传刚,等:一种自适应多任务学习方法图1多任务模型决策方法ul.=argmax(1g元l.(j)+Gl.(j)31A前向传播B反向传播任务A任务B共享块B跳过块32式中,iE(0,1)对应跳过和选择决策,为一个大
10、于零的参数,它决定函数Ul.的平滑程度。当趋近于0时,Ul.无限接近于元l.k,当大于0 时,Ul.是一个平滑的曲线,可以通过梯度下降法对其进行优化。实验中,本文将t初始化为5,然后不断衰减至0,预训练结束后,得到所有任务的决策分布。图2 给出本文预训练学习到的多任务网络模型。语义分割杭州电子科技大学学报(自然科学版)exp(1g l.k(j)+Gl.(j)/t)Ut.k2,exp(1g.(i)+G(.)/)iE(o,1)2023年(2)表面法线预测图2 多任务网络模型从图2 可以看出,对于语义分割任务,多任务网络模型为其分配了较多的残差块,且更倾向于选择后面几层,而对于表面法线任务这类困难任
11、务,却选择了较少的残差块,除此之外,这2 个任务更倾向于学习特定任务的知识,且分布较稀疏。2.2损失函数传统方法中,通常采用人工设置任务权重来权衡所有任务,即:CML=ZoLk式中,w和L分别为任务k的权重和损失。但固定权重显然不够灵活,不足以应付某些复杂任务,如场景理解任务。基于此,本文设计了一种新的用于深度回归和分类的多任务损失函数。给定一组输人数据,同一模型对于不同的学习任务往往有不同的输出,任务的选取对模型的性能有着很重要的影响。这种问题被定义为任务依赖或同方差不确定性,与数据依赖不同,它不受输入数据影响,而是随着不同的任务变化而变化,属于贝叶斯模型中不确定性类型的一种,在多任务学习条
12、件下,则反映为回归与分类任务存在的不确定性。因此,本文尝试依据同方差不确定性推导具有高斯似然最大化的多任务损失函数。给定输人数据,网络权重为W,模型输出为W()。针对回归任务,本文将其概率模型定义为高斯分布,模型输出作为均值,即:(4)式中,为回归任务的观测噪声标量,可通过训练获得。在极大化似然中,通常最大化其对数形式,对式(4)两边取对数可得:(5)因此,将回归类任务的损失写为:L(W,o)=-lgp(y/fw()y-fW()+Igo式中,y为数据的真实标签,显然(y一fw()表示一种回归任务的损失,令Li(W)=((3)p(y/fw(c)=N(fw(),o)lgp(y/fw()8一1go(
13、6)(y一fW()第3期则此类任务的损失可写为:而在分类任务中,通常采用Softmax函数获取模型的输出概率,在此基础上,本文对输出以比例放缩,得到输出为:(8)式中,6 2 为一个正的标量,可解释为玻尔兹曼分布,被称为温度,可通过学习获得,它决定玻尔兹曼分布的平滑程度,其对数形式可写为:Igp(y=c/fw(a),o)=f(a)-lgexp(f(a)式中,fw()为模型输出向量fw()中的元素。综上分析,假设y1,2 为回归和分类任务的原始标签值,那么联合损失即为:L(W,o1,o2)=-lgp(y1,y2=c/fw()=-IgN(y1;fw(),oi)Softmax(y2=c;f(),o2
14、)(y1-f(a)+Igo1 lgp(y2=c/w(),o2)1Cr(W)+Igol-r(a)+Igexp(62张传刚,等:一种自适应多任务学习方法L(W,o)=-lgp(y/fw()Li(W)+1gop(y I fw(),o)=Softmax(6233(7)(9)exp1Li(W)+lgo1+1Ci(W)+1goi+1i式中,La(W)=-lgSoftmax(y2,f(c)2Zexp(f.(a),为便于计算,本文将分式替换为6 2。在实际训练中,6 1和2 统一被初始化为1,为避免出现负权重和方差为0 的情况,实验采用1g作为方差,e作为任务的权重,当。增加时,对应任务的权重降低,6 2 同
15、理,实现了动态调整任务权重。除此之外,为了同时提高效率和精度,额外加人2 种损失,即稀疏损失和共享损失。稀疏损失通过最小化某个残差块被选择的概率的对数,使任务选择更少的残差块,以减少模型参数量,稀疏损失为:(11)L.kK式中,l,为任务k选择第1个残差块的概率。共享损失最小化多个任务选择某个残差块的概率的相对差值,鼓励任务在底层网络进行更多的共享,共享损失为:(12)ki.k2KKL式中,L为残差块总数,l为当前残差块的序号,l.k,和.k分别为任务ki和k2选择第/块的概率,l越小,概率相对差值的权重越大。L2(W)+lg21 L2(W)+Igo2为分类任务的交叉熵损失,当2 趋近于1时,
16、expCsparsity=(Zexp(f.(a)(10)34最终得到多任务损失函数为:Litoal=(e e L+w)+wsp Lsparity+wsh Lsharing式中,W=lgo,w s p 和sh分别为稀疏损失和共享损失对应的权重,为一组常量,保证模型学习在提高精度的同时考虑到资源效率。3多任务模型实验与分析3.1实验环境本实验选取Pytorch作为深度学习框架,环境参数如下:CPU主频为3.50 GHz,G PU 型号为NVIDIA TITAN RTX,显存为 2 4 GIB。3.2数据集和任务NYUv217是由室内场景RGB图像构成的数据集,本文在这个数据集上学习语义分割和表面法
17、线预测任务,其中语义分割共有40 类,表面法线任务选用文献 11提供的数据集,分割数据集后,训练集共7 9 5张图像,验证集共6 54张图像。实验中,将输入图像大小调整为2 2 42 2 4,并在2 56 512 分辨率上进行测试。3.3实验设置本文选取ResNet-18(8个残差块)作为网络模型,其中主干网络由Deeplab-ResNet181和atrous卷积组成,特定任务层由空洞空间金字塔池化层(Atrous Spatial Pyramid Pooling,A SPP)18 组成。预训练过程中,首先通过硬参数共享来“预热”网络权重和任务权重,然后进行决策参数训练,共进行2 0 0 0 0
18、次迭代,其中预热40 0 0 次送代,再训练过程中,在预训练学习到的网络模型上调整网络权重,共进行20000次选代。实验通过自适应动量(Adaptivemomentum,A d a m)方法优化决策分布参数,使用随机梯度下降(StochasticGradientDescent,SG D)方法调整网络权重和任务权重。语义分割任务选取交叉熵损失,表面法线预测任务采用平均绝对误差(Mean Absolute Error,M A E)作为损失。预训练时,在单独分割的训练集上交替优化网络权重和决策分布参数,全程优化任务权重参数。为了更好地学习决策分布,按照文献 19 提出的课程学习方法,逐步扩大决策空间
19、,得到整个网络的决策分布。再训练时,先对预训练得到的决策分布进行采样,构造一个新的多任务网络模型,再选取预训练中效果最优的任务权重,在完整数据集上进行再训练。3.4参数选取实验中,参数设置如下:决策参数学习率为0.0 1,网络权重学习率为0.0 0 1,任务权重参数学习率为0.0003,随机梯度下降动量为0.9,稀疏损失权重为0.0 5,共享损失权重为0.0 5。3.5评价指标针对语义分割任务,选取所有类别交集和并集之比的平均值(MeanIntersectionoverUnion,MIoU)和像素精度(PixelAccuracy,PA)作为评价指标;针对表面法线预测任务,选取所有像素的预测值与
20、真实值之间角间距的平均值(Mean)和中间值(Median)作为评价指标,并计算预测值与真实值在角度0 11.2 5,0 2 2.50 和0 30.0 0 范围内的像素百分比。3.6实验结果与分析在NYUv2数据集上,分别采用7 种学习方法进行实验。单任务网络每次只学习1个任务;多任务模型和十字绣网络 9 均采用固定的网络模型和任务权重,同时学习多个任务;GeoNet201使用一种几何神经网络来预测表面法线;文献2 1使用单一的多尺度卷积网络架构(Multi-ScaleConvolutionalArchitecture,M SC A)学习表面法线任务;AdaShare使用自适应的网络模型,采用
21、人工进行权重的设置;本文采用自适应的网络模型和任务权重。其中单任务、多任务和AdaShare均采用ResNet-18模型。7 种学习方法的性能指标如表1所示。杭州电子科技大学学报(自然科学版)2023年(13)第3期方法类别单任务多任务十字绣9GeoNetL20MSCAC21AdaShare本文从表1可以看出,相比传统的单任务模型,GeoNet和MSCA模型虽然提升了表面法线预测的性能,但整体效果低于本文方法,说明多任务模型能够利用任务之间的关联性,提高模型的整体性能;相比于多任务和十字绣这类固定网络模型,AdaShare在7 个指标中5个指标达到了更优,总体性能更好,表明自适应学习方法能够获
22、得共享知识和任务特定知识的更佳组合;与AdaShare自适应模型方法相比,本文方法通过自适应学习任务权重,使得模型总体性能更优,表明本文方法能够有效平衡多个任务。表2 给出多任务方法、十字绣模型、AdaShare和本文方法选取的任务权重。方法类别多任务十字绣 9 AdaShare本文从表2 可以看出,本文方法的任务权重选取更精确。在训练期间,本文方法动态调整权重,通过网格搜索找到较优的权重组合,避免了过拟合某个单一任务,做到多个任务之间的平衡;同时,本文选取预训练效果最优的权重使得训练误差最小,且训练样本来自官方数据集,数据量充足,泛化误差较低。4结束语本文提出一种自适应网络模型和任务权重方法
23、,通过动态调整网络结构和任务权重,找到与任务更为匹配的模型和任务权重,提高了语义分割和表面法线预测性能。但是,优化决策参数时,网络模型是不断变化的,无法实时更新网络权重,不利于模型的训练,下一步将重点研究网络模型和网络权重的同步优化,进一步提高模型的性能。参考文献1J CARUANA R.Multitask learningJ.Machine learning,1997,28(1):41-75.2J LI J Q,LIU X K,YIN W P,et al.Empirical evaluation of multi-task learning in deep neural networks f
24、or naturallanguage processingLJJ.Neural Computing and Applications,2021,33(9):4417-4428.3J ALAM F,ALAM T,HASAN M A,et al.Medic:A multi-task learning dataset for disaster image classificationJJ.Neural Computing and Applications,2023,35(3):2609-2632.4J WULFMEIER M,ABDOLMALEKI A,HAFNER R,et al.Regulari
25、zed hierarchical policies for compositionaltransfer in roboticsJJ.arXiv preprint arXiv,2019:1906.11228.5 JOU B,CHANG S F.Deep cross residual learning for multitask visual recognitionCJ/Proceedings of the 24thACM international conference on Multimedia,New York,NY:ACM,2016:998-1007.6J SUN X M,PANDA R,
26、FERIS R,et al.Adashare:learning what to share for efficient deep multi-task learningCJ.Advances in Neural Information Processing Systems,New York,NY,USA:Curran Associates,Inc,2020,33:8728-8740.张传刚,等:一种自适应多任务学习方法表1NYUv2数据集上,不同学习方法的性能指标语义分割表面法线预测角间距不同角度的像素百分比/%MIoUPA15.151.522.655.019.347.2一26.758.026
27、.358.3表2 预训练后,不同学习方法的任务权重语义分割1.001.001.000.7335MeanMedian31.825.516.913.734.118.219.011.820.913.216.913.416.813.211.2522.141.039.048.444.443.043.622.5045.373.154.4.71.567.271.671.8表面法线预测20.001.0020.0017.1630.0057.184.360.279.575.983.283.2367J STANDLEY T,ZAMIR A,CHEN D,et al.Which tasks should be lea
28、rned together in multi-task learning?CJ/International Conference on Machine Learning.Vienna,AUSTRIA PMLR,2020:9120-9132.8 ZHANG Y,YANG Q.An overview of multi-task learningJJ.National Science Review,2018,5(1):30-43.9 MISRA I,SHRIVASTAVA A,GUPTA A,et al.Cross-stitch networks for multi-task learningC/P
29、roceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition,Las Vegas,NV,USA:IEEE.2016:3994-4003.1oJ RUDER S,BINGEL J,AUGENSTEIN I,et al.Latent multi-task architecture learningCJ/Proceedings of theAAAIConference on Artificial Intelligence,Honolulu,Hawai,USA:AAAIPress,2019,33(1):4822-
30、4829.11J GAO Y,MA J Y,ZHAO M B,et al.Nddr-cnn:layerwise feature fusing in multi-task cnns by neural discriminativedimensionality reduction CJ/Proceedings of the IEEE/CVF Conference on Computer Vision and PatternRecognition,Long Beach,CA,USA:IEEE,2019:3205-3214.12J LIU S K,JOHNS E,DAVISON A J.End-to-
31、end multi-task learning with attentionCJ/Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,Long Beach,CA,USA:IEEE,2019:1871-1880.13J LIU Y R,YANG X W,XIE D L,et al.Adaptive activation network and functional regularization for efficient andflexible deep multi-task lear
32、ningJJ.AAAI Technical Track:Machine Leaening,2020,34(4):4924-4931.14J YANG B,XIANG X Q,KONG W Z,et al.Adaptive multi-task learning using lagrange multiplier for automaticart analysisJ.Multimedia Tools and Applications,2022,81(3):3715-3733.15邢新颖,冀俊忠,姚圭.基于自适应多任务卷积神经网络的脑网络分类方法 J.计算机研究与发展,2 0 2 0,57(7):
33、1449-1459.16 JANG E,GU S X,POOLE B.Categorical reparameterization with gumbel-softmaxJ.arXiv preprint arXiv,2016:1611.01144.17J SILBERMAN N,HOIEM D,KOHLI P,et al.Indoor segmentation and support inference from rgbd imagesCJ/European Conference on Computer Vision.Berlin,Heidelberg,Springer,2012:746-76
34、0.18J CHEN L C,PAPANDREOU G,KOKKINOS I,et al.Deeplab:semantic image segmentation with deep convolutionalnets,atrous convolution,and fully connected crfs JJ.IEEE Transactions on Pattern Analysis and MachineIntelligence,2017,40(4):834-848.19 BENGIO Y,LOURADOUR J,COLLOBERT R,et al.Curriculum learningCJ
35、/Proceedings of the 26th AnnualInternational Conference on Machine Learning,Montreal,Quebec,Canada:ACM,2009:41-48.2oJ QI X J,LIAO R J,LIU Z Z,et al.Geonet:geometric neural network for joint depth and surface normal estimationC/Proceedings of the IEEE Conference on Computer Vision and Pattern Recogni
36、tion,Salt Lake City,UT,USA:IEEE,2018:283-291.21J EIGEN D,FERGUS R.Predicting depth,surface normals and semantic labels with a common multi-scale convolutionalarchitectureCJ/Proceedings of the IEEE International Conference on Computer Vision,Santiago,Chile:IEEE,2015:2650-2658.杭州电子科技大学学报(自然科学版)2023年An
37、 adaptive multi-task learning methodZHANG Chuangang,YANG Bing(School of Computer,Hangzhou Dianzi University,Hangzhou Zhejiang 310018,China)Abstract:Traditional multi-task learning is less flexible in terms of network model and task weight,which is not enough to deal with complex scenarios.Therefore,
38、a multi-task learning method withadaptive network model and task weights is proposed.Firstly,the multi-task network model structureis learned using the decision-making method;secondly,the task weights are dynamically adjustedusing the multi-task loss function;finally,the network weights are trained
39、under the learningnetwork model and task weights to achieve a trade-off between feature sharing and task weights.Experimental results show that the proposed method improves the performance of semanticsegmentation and surface normal prediction compared to fixed network models and task weights.Key words:neural network;multi-task learning;feature sharing;task weights