基于深度学习的农村电商多源多模态数据融合.pdf
《基于深度学习的农村电商多源多模态数据融合.pdf》由会员分享,可在线阅读,更多相关《基于深度学习的农村电商多源多模态数据融合.pdf(10页珍藏版)》请在咨信网上搜索。
1、 第2 5卷 第2期 2 0 2 3年4月滁 州 学 院 学 报J OURNA LO FC HU Z HOUUN I V E R S I T YV o l.2 5N o.2 A p r.2 0 2 3 基于深度学习的农村电商多源多模态数据融合孟凡会,王玉亮,汪 雷摘 要:本文利用深度学习算法D B N(D e e pB e l i e fN e t w o r k)实现农村电商跨平台、多模态数据的有效融合;建立多源电商平台的异构数据的采集、整合、识别、清洗、特征提取、分类和分析等信息处理过程;构建农村电商产品类型、品牌、产地、溯源等特征库,实现农村电商多平台异构数据的特征提取、实时处理和监测分
2、析;形成较高精度无损异构数据融合、信息分析与可视化、管理与决策一体化系统。研究改善了大数据背景下跨平台农村电商数据收集和信息处理的能力,提升了政府对农村电商发展现状和趋势的实时感知能力,为政府对农村电商的管理和政策决策提供可靠的信息保障。关键词:农村电商;深度学习;异构数据;多模态数据融合中图分类号:C 9 3 5;N 9 9 文献标识码:A 文章编号:1 6 7 3-1 7 9 4(2 0 2 3)0 2-0 0 5 2-1 0作者简介:孟凡会,滁州学院经济与管理学院副教授,研究方向:市场营销、消费者行为等;王玉亮,滁州学院计算机与信息工程学院副教授,博士(安徽 滁州2 3 9 0 0 0)
3、;汪雷,安徽财经大学农村经济社会发展研究院教授(安徽 蚌埠2 3 3 0 3 0)。基金项目:安徽省高校人文社会科学重点项目“江淮分水岭特色农产品推广策略研究”(S K 2 0 2 0 A 0 5 1 7);2 0 2 1年度安徽省社会科学创新发展研究项目“乡村振兴背景下安徽特色农产品推广研究”(2 0 2 1 C X 5 2 1)收稿日期:2 0 2 2-0 7-2 2 乡村振兴战略是新时代农业农村工作的总抓手,是建设现代化经济体系和健全社会治理格局的有效途径。数字乡村建设是乡村振兴战略的重要内容和战略方向,是带动和提升农业农村现代化发展,实现农业农村数字经济新业态和数字乡村可持续发展的总动
4、力1。农村电子商务(简称农村电商)是实现数字乡村战略中“互联网+农业”的具体体现。农村电商的快速发展促进了农产品在生产、流通和销售等产业链和供应链方面的构建,形成了农产品供销大数据2-3。2 0 1 9年全国农村电商合作社数量突破2 0 0 0个,全国农村电商网络零售额高达2 6 9 3.1亿元,较2 0 1 8年同比增长2 8.5%;其中,8 2 3个国家级贫困县农村电商网络零售额达到1 0 7 6.1亿元,同比增长了3 1.2%。电商销售的农产品涵盖了植物大类农产品(如粮油、酒、茶、植物类生鲜等)、动物大类农产品(如动物类生鲜、动物类中药材、动物类加工食品等)和农资大类产品(如农药、化肥、
5、种子、饲料等)4,形成知名农产品品牌多达5 9个,涵盖了生鲜食品、休闲食品和粮油调味等。农村电商发展模式逐步形成为“农户+合作社+电商平台”模式,并在数字乡村建设过程中规模不断扩大,结构不断得到优化5。全国有1 1 0个县组织开展“互联网+”农产品出村进城工程试点,众多电商平台快速布局农村地区,构建了多板块电商服务模式,如阿里巴巴集团将淘宝、天猫、菜鸟物流、淘宝直播、蚂蚁金服和聚划算等业务模块下沉到农村电商,开展了“基地直采”模式。其他知名电商企业也实施了农村电商服务模式,包括京东的“3 F战略”模式,拼多多的“拼模式”模式,美团的“生鲜电商”模式,饿了么的“社区化服务”模式,乐村淘、本来生活
6、、美菜网等的“源头直采”模式等。众多电商的参与,加快了农村电商的服务质量、农产品流和数据流的提升,农村电商大数据时代扑面而来。但由于众多电商采用的电商平台异构且发展不平衡,导致电商平台数据多源、多模态、跨平台,这为对农村电商发展现状的实时把握构成了挑战,对获取全面的农村电商数据和现状分析造成了困难,最终将直接影响政府的决策和农村数字化进程。本文以农村电商数据为数据源,以及时准确地把握农村电商发展状态和趋势信息为目标,利用 深 度 压 缩 算 法 和 深 度 学 习 算 法D B N(D e e pB e l i e fN e t w o r k)实现农村电商跨平台异构、多模态数据的有效融合;构
7、建农村电商产品类型、品牌、产地、溯源等特征库,实现多源电商平台异构数据的采集、整合、识别、清洗、特征提取、分类和分析等信息处理过程;改善了大数据背景下跨平台农村电商数据收集和信息处理的能力,提升了政府对农村电商发展现状和趋势的实时感知能力和情报收集能力,为政务对农村电商的管理和政策决策提供可靠的信息保障。1 相关研究1.1 概念界定1.1.1 农村电商大数据大数据(B i gD a t a)具有海量的数据存储规模,快速的数据流通,多元的数据类型及低价值密度的数据挖掘等特点,起源于分布式文件系统,分布式计算框架和数据库系统6。大数据技术为用户在数据管理、交互处理、特征提取和应用可视化分析等方面提
8、供了不可缺少的工具。按照大数据应用场景将数据进行分类管理,构建以需求为导向的大数据挖掘,满足现实场景应用的数据获取、清洗、特征提取和分析,及时把握应用场景的现状和趋势。农村电商大数据是随着农村电商快速发展而构建的以农产品产业链良性循环为背景的大数据应用新场景。农村电商大数据的应用可提升农产品精准生产和营销的产业水平,改善农产品产业链结构,提高农民增收,实现精准扶贫。当前 农 村 电 商 大 数 据 发 展 状 况 呈 现 以 下特点:(1)农村数字化进程推动了农村电商规模快速增长。随着乡村信息基础设施建设的不断完善,农村光纤和4 G覆盖率超过9 8%,提高了“三区三州”等深度贫困地区的网络覆盖
9、率,2 0 2 0年农村宽带接入户数达到1.3 9亿户,比2 0 1 9年增加了4 8 8万户,同比增加了8%;乡村智慧物流实施不断加强,2 0 2 0年全国开展了江苏、安徽、河北等6个省1 5个市(州)“快递进村”全国试点,乡镇快递网点覆盖率超过9 7%。农村数字化进程大力推进了农村电商的快速发展,初步形成了农业农村电商大数据,涵盖了农产品单品种全产业链大数据,为农村电商状态数据的有效挖掘和掌握构成了挑战。(2)多平台、数据多元化和异构性。农村电商平台经过近几年的快速发展,根据中国电商平台监测数据和国家统计局、农业农村部及商务部发布数据显示,当前主流的农村电商平台有4 0多家,涵盖了天猫、淘
10、宝、京东、苏宁和拼多多等大企业平台4,除此之外,农业合作社、个体农户利用融媒体开展多种渠道的电子商务,增加了农村电商的多元性发展。2 0 1 9年我国农产品电商销售平台已经突破了5 0 0 0家,不同的电商平台在数据结构、数据类型和数据接口等存在差异,数据组织形式的差异导致数据冗余度增大7;并且各平台发展不平衡,增加了数据不真实不全面的风险。多平台的农村电商数据构成了在信息空间和物理空间的数据异同7,对有效数据的收集、抽取、清洗、融合、建模和分析构成了挑战。(3)农村电商数据多属性、多形态,同步融合困难。农村电商不仅采用了传统电商的网络营销和经营方式,而且采用了多形态的经营方式,数据形式多样化
11、,主要的数据类型包括文本、图片、影音、混合数据等。新的农村电商营销模式(如直播带货)推动了农村电商大数据的多属性、多形态,增加了数据收集和处理的难度,对准确把握农村电商发展状况构成了挑战。1.1.2 多源农村电商数据多源农村电商数据是指电商数据的来源并非来自同一个农村电商信息平台,由于各电商平台在构建过程中存在技术差异和业务范围的差距,导致各电商平台产生的业务数据在存储方式、数据类型、数据管理系统等方面存在差异,这就构成了农村电商多源异构数据。农村电商的多源异构数据是农村电商平台呈多元化和发展不平衡的必然结果。多源数据产生来自对现实物理世界感知描述,按照一定的数字逻辑结构和存储方式构成的物理世
12、界的数字表达,将这些数据通过各自数据传输途径进行收集和数据整理,建立数据抽取和整合,利用多源数据融合技术达到数据的信息化处理和分析8。多源农村电商数据是农村电子商务运行状况在数字空间的集中表达,为农村电商大数 据 的 进 一 步 信 息 化 分 析 提 供 了 基 础 数据源。1.1.3 多模态农村电商数据多模态(M u l t i m o d a l d a t a)指人类通过感官所感知的多种模态形式,如听觉感知到的听模态,视觉感知看模态,触觉感知模态等,多个模态相互组合构成了人的多模态感知。将多模态概念引入到数据领域中是指从不同领域或视角获取同一对象的数据,这些数据具有不同表现形式或数据格
13、式。将不同领域或视角的数据通过数据融合技术得到描述对象的全面信息,多模态农村电商数据主要表现形式有文本、音频、图片、视频和混合数据等,按照数据属性标记建立数据联系,提取数据特征,35孟凡会,等:基于深度学习的农村电商多源多模态数据融合最终实现多模态数据的集成描述和融合表达9。多模态农村电商数据主要的获取渠道是各平台后台数据,这些数据由于平台技术发展不平衡、平台数据破碎化严重,将多源分布式多模态农村电商破碎化数据进行整合、建模、分析,可克服单一来源单模态数据的片面性和不准确性。1.2 数据融合技术数据融合技术是将来自单一或多源的数据或信息建立联系达到对数据或信息的重新认知、特征提取和判断,实现基
14、于多源数据为基础的信息综合感知描述和决策分析1 0。数据融合技术可将多源、异质、不完整数据或信息建立综合的数据属性,实现跨平台多源数据的互补性,提高数据或信息的完整度和准确性,为精准决策分析提供依据。多源数据融合技术在解决实际应用问题过程中提出了多种数据融合功能模型,实现对多源数据的分级处理,这些模型主要包括:J D L模型,UK情报环模型,B o y d模型以及混合模型1 1。多源数据融合算法按照算法属性可以分为基于估算理论的融合算法,基于不确定推理的融合算法和基于人工智能的融合算法1 2。其中基于估算的融合算法主要包括加权平均数法、最小二乘法、卡尔曼滤波法(包括适用于线性和非线性随机系统的
15、卡尔曼滤波器)、最大似然估计法1 3;基于不确定性推理融合算法将多源数据源的不确定、不完整、模糊信息建立识别、加工、推理达到关切信息识别和属性信息融合的目的,主要包括经典推理、主观贝叶斯推理、支持向量机理论(S VM)、D-S证据推理、D S MT方法、模糊数学理论及可能性推理1 4;基于人工智能的算法是建立在模拟人对自然信息获取和加工处理方式基础上,建立样本空间,通过大量样本训练、学习建立信息识别和提取,主要算法包括粗糙集理论、遗传算法、人工神经网络、知识系统等1 5。基于人工智能的融合算法利用先验知识的学习,达到信息和知识简约,从海量数据中检索属于关切内容的基本规则,建立最小规则解决方案。
16、基于人工智能融合算法具有较高的算法精度、良好的鲁棒性、快速的并行运算能力,尤其在多源数据融合中表现的优势越来越受到广大学者的关注。随着深度学习算法应用领域的拓展,深度学习算法在多源异构数据融合应用中得到业界偏好1 6。1.3 基于深度学习算法的多模态数据融合基于深度学习算法的多模态数据融合与传统深度学习数据融合机制相同,都是通过样本库构建、特征学习和训练、特征提取等过程,但面向的数据集对象不同。前者处理的对象是多源多模态数据集(跨平台、多种数据类型)或多模态交叉数据集。如J.N g i a m利用一种深度自动编码算法实现了两种模态(音频和视频)特征表示。基于深度学习算法的多模态数据融合模式可分
17、为基于规则的方法和基于分类的方法1 7。基于规则的方法是按照不同模态分类器中的权重得分、投票、先验知识自定义规则执行决策层的数据融合;基于分类器方法的融合是利用特征向量构建分类器,一般分类器由多模态特征向量组成,采用常用的分类算法(如支持向量机或神经网络)构建分类器,如贝叶斯网络按照多位特征向量学习。分类器可以根据需要构建多层分类器,将不同模态数据融合到异构向量中,实现多模态数据的融合。基于深度学习算法的多模态数据融合性能受到模型的选择和参数配置等因素的影响。多源数据融合技术可对用户产生的多渠道、多方位的数据建立多种感知方法,通过对数据的收集,多元交叉互补,有效消除噪声信息,减少信息冗余,达到
18、对数据把握的系统性、准确性和完整性,为数据的分析和进一步处理奠定了质量基础,为准确的信 息产生、分析 和决策提供 可靠的依据1 0。基于深度学习的多源数据融合技术通过算法的改进和升级可实现多源多模态农村电商数据的融合。本文在深度信任网络算法D B N(D e e pB e l i e fN e t w o r k s)基础上,引入深度数 据压缩算法,建立共享数据权重,实现多源多模态数据的无损压缩和冗余清洗;根据农村电商数据特点和类型,构建农村电商产品类型、品牌、产地、溯源等特征库,实现多源多模态异构电商数据的特征提取、分类和分析,实现了全面掌握农村电商发展现状,为政府的政策决策提供技术支持。2
19、 农村电商多源多模态数据融合2.1 多源多模态数据融合机制多源多模态数据融合机制主要包括五个层次(如图1所示):多源多模态数据源、数据的收集与分类、数据清洗与特征提取、数据融合过程以及信息处理和输出。其中,多源多模态数据为数据源,特点表现为跨平台、异构性、混合性、冗余度高、多数据类型和多种数据格式,有些数据不能直接作为统计数据使用,需要数据格式转变和特征提取。由于农村电商平台发展不平衡,且电商存在多样性和复杂性,导致收集的数据混淆度较大,存在部45滁州学院学报 2 0 2 3年第2期分平台数据的缺失,对全面了解电商的发展详情构成了挑战。但多源多模态数据从不同角度刻画了电商现状,克服了单一来源数
20、据、单模态数据的局限性,提高了数据的全面性和准度。数据收集和分类是将多平台多模态的数据建立多渠道收集方式,并将收集的数据按照数据类型和电商信息特征进行分类;数据清洗与特征提取主要完成分类后数据的冗余压缩和低价值数据的清洗,通过不同类型的数据建立样本数据,为特征学习和训练提供基础;数据融合层根据数据的特征,建立特征库,将属性相同的特征划分为同一类,按照分类器阈值,提取满足要求的特征值,实现多源多模态数据中共同特征的有效提取和表达;信息处理和结果输出层是根据决策需求,建立按需求的信息分析,分析结果为决策提供可靠的依据。图1 多源多模态数据融合过程(图中不同形状的符号代表不同类型的数据)2.2 农村
21、电商数据深度压缩和权重共享深度压缩(D e e pc o m p r e s s i o n)算法1 8是对大量数据或网络的一种优化方法,以达到降低数据冗余和数据或网络复杂度,从而降低存储和能量消耗,提高数据的运算效率。深度压缩算法通过三个步骤达到数据压缩的目的:(1)网络修剪(N e t w o r kp r u n i n g),将收集的多源多模态数据建立训练网络,对网络中各数据节点连接按照数据的类型和重要性赋予不同初始权值,建立网络修剪阈值,将权重小的连接(一般是权值为0的连接)按照阈值进行修剪,通过训练将修剪后的网络建立稀疏连接和索引,将权重按照索引进行存储。(2)权 重 共 享 和
22、量 化(W e i g h ts h a r e da n dq u a n t i z a t i o n),将上述网络中具有共同特点的权重建立共享权值,减少数据和权值存储量。采用K-m e a n s聚类算法,建立类内索引元素到聚类中心距离的优化确定聚类结果。定义网络存在m权重连接Wd=wd1,wd2,wdm,将这些连接划分为各聚类中心,这些聚类中心集合可表达为:=p1,p2,p(m),其中p是个聚类中心,则聚类的最小平方和可表达为:a r g m i n(i=1)(wdipi)|wdi-pi|2a r g m i ni=1wdipi|wdi-pi|2(1)通过聚类算法的前向反馈和后向传播
23、将权值利用聚类中心代替,利用类内的权值梯度降低更新聚类权重,实现权重的共享和更新。其中,聚类需要=l o g2 b i t作为索引编码,聚类中有m个网络节点连接权重共享一个权值,每一个连接权值在编码中占nb i t,则原有网络经过权重共享和量化后的压缩率为:Cc r=m nm+n(m)(2)其中,Cc r为压缩率,用于表示共享权重对网络连接压缩的性能。权重共享和量化过程将有效压缩网络连接数量,优化存储和检索速度。55孟凡会,等:基于深度学习的农村电商多源多模态数据融合(3)哈夫曼编码(H u f f m a nC o d i n g),利用哈夫曼编码解决编码长度不一带来的冗余问题。通常在卷积层
24、采用8 b i t编码,全连接层采用5 b i t编码。通过统一的熵编码减少数据的冗余。深度压缩三个步骤完成了数据存储量的压缩和运算复杂度的降低。图2 深度压缩过程(a)(e)为深度压缩的修剪、权重共享与量化以及哈夫曼编码过程)2.3 深度信任网络D B N(D e e pb e l i e fn e t w o r k s)D B N是一个建立在观察资料和标签之间的联合分布概率生成模型1 9。该模型由多层的受限玻尔 兹 曼 机R BM s(R e s t r i c t e d B o l t z m a n n M a-c h i n e s)构 成 的 神 经 网 络,包 括 显 示 层
25、(V i s i b l el a y e r)和隐藏层(H i d d e nl a y e r)两个单元,其中显示层为数据的输入端和数据训练,隐藏层为数据的特征检测单元。数据的训练和特征检测过程是逐层递进,隐藏层和显示层通过不同的权重连接,可实现双向连接,构成了权重矩阵。当显示层活动数据后,R BM按照权重优先级决定隐藏层的开或关,采用S形函数将每个隐藏单元的激励值计算出来,S形函数采用了L o g i s t i c函数:f(x)=11+e-x(3)R BM训练是求解一个训练样本的概率分布,产生训练样本的概率最大,而显示层和隐藏层的连接权重直接影响R BM的训练结果。D BM是由多层的R
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 深度 学习 农村 电商多源多模态 数据 融合
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。