地理标志农产品品牌管理政策注意力分析模型构建及应用.pdf
《地理标志农产品品牌管理政策注意力分析模型构建及应用.pdf》由会员分享,可在线阅读,更多相关《地理标志农产品品牌管理政策注意力分析模型构建及应用.pdf(11页珍藏版)》请在咨信网上搜索。
1、2023 年第 35 卷第 7 期地理标志农产品品牌管理政策注意力分析模型构建及应用霍梦佳1袁 刘娟1袁2*袁 黄杰1(1.中国农业科学院农业信息研究所,北京 100080;2.农业农村部 农业大数据重点实验室,北京 100080)摘要院 目的/意义地理标志是中国地方政府开展品牌建设的重要抓手,政府在地理标志农产品品牌管理领域的政策注意力问题值得深入探究。论文旨在构建地理标志品牌分析模型,以支持分析品牌发展现状、探究政策注意力分布、提出优化策略。方法/过程论文首先采集数据构建语料库,采用 UIE 通用信息抽取框架抽取文本,采用基于 Transformer 模型的品牌管理措施分类模型,开展管理措
2、施分类,最终完成构建品牌分析模型,支持政策注意力分析,找到瓶颈问题,进行措施优化等应用。结果/结论论文以烟台苹果为例进行模型验证,对大量语料进行抽取、分类,发现烟台苹果政策注意力较集中、措施雷同性高,收集文本中的 41.1%集中在品牌定位与规划部分,31.7%集中在品牌核心能力提升部分,涉及品牌营销及保护的不到 10%,未利用好地理标志品牌的品牌效应。关键词院 农产品地理标志;自然语言处理;政策注意力;信息抽取;文本分类中图分类号院F303.3文献标识码院A文章编号院1002-1248渊2023冤07-0094-11引用本文院 霍梦佳,刘娟,黄杰.地理标志农产品品牌管理政策注意力分析模型构建及
3、应用J.农业图书情报学报,2023,35(7):94-104.收稿日期:2023-05-18基金项目:中国农业科学院基本科研业务费项目“基于文本挖掘的地理标志农产品品牌管理模式识别技术研究与应用”(JBYW-AII-2022-33;Y2023XK13);现代农业产业技术体系北京市创新团队建设项目“现代农业产业技术体系北京市创新团队建设”(BAIC10-2023-E10)作者简介:霍梦佳(1997-),女,研究生,研究方向为农业数据分析挖掘。黄杰(1997-),男,博士研究生,研究方向为自然语言处理*通信作者:刘娟(1978-),女,博士,副研究员,研究方向为农业数据挖掘。Email:DOI院1
4、0.13998/ki.issn1002-1248.23-03121 引言2022年农业农村部办公厅关于印发 叶农业品牌精品培育计划 渊2022要2025年冤 曳 渊农市发 也2022页8号冤袁启动2022年农业品牌精品培育工作袁 提出加快促进区域农业品牌在品牌基础尧 营销推广尧 管理服务尧 市场消费等方面全面提升1遥 农产品地理标志是农业品牌重要组成部分袁 标识农产品来源于特定地域袁 用以传递产品质量等属性方面的 野信号冶袁 灵活应用原产地效应袁 对国家和农产品原产地的经济发展而言袁 有着积极的意义2遥 自中国农业部2008年正式启动农产品地理标志等级保护工作起袁 至2022年4月底中国已登记
5、农产品地理标志品牌3 510个袁 地理标志农产品品牌注应用实践942023 年第 35 卷第 7 期霍梦佳,刘娟,黄杰地理标志农产品品牌管理政策注意力分析模型构建及应用册登记工作取得了巨大成就袁 但中国地理标志农产品品牌建设经营还比较弱遥2022年中国农业品牌研究中心发布首个农业品牌行业标准 叶农产品区域公用品牌建设指南曳渊下称 叶指南曳冤3袁 提出农产品区域公用品牌建设五大关键步骤遥 各地政府重视品牌建设但政策如何高效发力问题有待深入探讨遥 基于品牌注意力研究分析区域农产品品牌管理中政策偏向性尧 全面性袁确定品牌优化方向袁 对于各地政府优化农产品地理标志品牌管理至关重要遥2 文献综述学术界关
6、于地理标志农产品的研究主要是依据理论研究尧 空间计量分析尧 立法研究尧 案例探究等方法袁从品牌发展尧 品牌保护尧 品牌困境等角度入手袁 探究制约农产品地理标志发展的因素袁 并提出相应的对策袁但缺少从大数据角度研究袁 对现有政策资源的整合尧分析尧 利用不足遥 随着互联网海量数据的增加袁 在政策注意力研究领域的大数据分析应用逐渐增多袁 但大多分为以下3类院 一是基于现有的文本分析工具对主题网络进行分析4,5袁 只能对热点词进行分析袁 不能体现热点词间的关系曰 二是基于扎根理论对文本进行编码进而分析政策注意力6,7袁 然而对大量文本进行编码耗时耗力曰 三是基于内容分析法对具体的政策内容进行分析8,9
7、袁 单个的政策研究不能展示所有政策范围及注意力分布遥 此外袁 当前研究也面临在海量的互联网信息中收集高度相关的文本构建语料库袁 以及训练适用于地理标农产品品牌领域的文本研究模型的新挑战遥因此袁 本研究将领域知识与现有的文本挖掘技术相结合袁 融合领域知识构建了一套基于文本挖掘技术的地理标志农产品品牌管理政策注意力分析模型曰 并以烟台苹果为例袁 从定量角度分析该产业目前的政策注意力分布袁 发现品牌发展瓶颈袁 并提出相对应的优化策略遥3 研究方法本研究主要分为两个处理过程院 信息抽取部分和注意力分析部分遥其中信息抽取部分为命名实体识别和文本抽取两部分袁 其中命名实体识别部分采用基于字典匹配的方式抽取
8、文本中包含的地标品牌袁 如 野烟台苹果冶曰 信息抽取部分抽取文本语料中包含的管理措施类信息袁 基于以上两部分信息抽取结果袁 构建农产品地理标志品牌管理措施库遥3.1 命名实体识别技术由于本研究具有完整的农产品地理标志名称目录袁能够构建完整有限的词典袁 且该类实体没有简写尧 组合尧 歧义等特殊情况袁 所以采用基于词典的命名实体识别方法能够获得较高的准确率袁 提升识别效率遥 基于词典的实体识别方法是指词典中的每个词与被处理文档之间逐一匹配的过程袁 在不需要发现未知词的命名实体识别任务中袁 基于词典的匹配方式具有较高的优越性遥3.2 文本抽取技术本研究的抽取目标是抽取品牌的相关管理措施袁如 野依托灌
9、云杨集豆丹养殖协会建设600亩核心养殖基地冶 等遥 由于措施文本长短不一袁 为优化抽取效果袁采用更加灵活的基于中文通用信息抽取框架的方式遥中文通用信息抽取框架UIE是基于ERNIE 3.0增强预训练模型训练的袁 支持下游任务训练微调 渊图1冤遥渊1冤ERINE3.0模型遥ERNIE3.010基于Transformer-XL11设计了一种新的持续多范式统一的预训练框架袁解决了普通Transformer无法建立超过固定长度文本的长依赖和上下文碎片化问题袁 使预测的效率也大幅提升遥 经验证袁 模型在20多个不同类型的自然语言处理任务上取得了3%以上的显著提升遥渊2冤 通用信息抽取框架 渊Univer
10、sal InformationExtraction袁UIE冤遥 基于所有的信息抽取任务都可以建模为在文本中寻找目标信息片段和确定目标信息片段之间的关系两个子过程12,13袁UIE将所有信息抽取任务通过结构化模式提示器 渊Structural Schema Instructor袁SSI冤 生成特定抽取任务的Schema袁 再通过结构化抽取语言 渊Structured Extraction Language袁SEL冤 把不同952023 年第 35 卷第 7 期图1 UIE通用信息抽取框架示意图Fig.1 Diagram of UIE general information extraction
11、framework任务的抽取结果统一用一种语言表示遥基于ERNIE 3.0知识增强预训练模型训练的中文通用信息抽取模型UIE可以支持不限定行业领域和抽取目标的关键信息抽取袁 并提供基于小样本微调功能袁大幅降低标注数据的依赖袁 降低成本袁 提升效果遥3.3 文本分类技术政策注意力分析部分的主要目标是将已抽取出来的措施文本分类袁 得到政府的政策注意力分布遥 本研究采用基于Transformer的文本多分类模型袁Trans-former14完全采用自注意力机制袁 利用自注意力机制实现了并行计算袁 大大提高了模型的运行效率遥Trans-former本质是一个Encoder-Decoder结构袁 编码端
12、和解码端均由6层组成袁Transformer的输入为单词的Em-bedding和单词位置的Embedding相加的结果袁 经过6个Encoder层后得到句子的所有单词的编码矩阵曰 再将编码矩阵信息输入进Decoder中袁 经过处理后输出结果遥 由于Transformer本身不利用单词的顺序信息袁因此需要再输入中加入位置信息袁 加之自注意力机制袁可以捕获单词之间多种维度上的相关系数15遥4 品牌管理政策注意力分析模型构建本研究基于文本挖掘技术并结合领域知识构建了一套地理标志农产品品牌管理措施研究模型袁 模型最初始输入为品牌政策文本袁 通过两个模块获得最终输出为政策注意力分析结果图袁 两个模块主要
13、流程如下院一是信息抽取模块袁 输入为已构建的语料库袁 此模块输出的结果为各地理标志农产品品牌的管理措施库曰二是文本分类模块袁 此部分将抽取出的结果作为输入袁输出政策注意力分布图袁 模型结构如图2所示遥4.1 数据集4.1.1数据源选择互联网信息资源丰富袁 经过调研多个农业类网站图2地理标志农产品品牌管理政策注意力分析模型框架Fig.2 Attention analysis modeling framework for the brandmanagement policy of agricul-tural products withgeographical indicationsSSI+Text
14、SELDOI院10.13998/ki.issn1002-1248.23-0312应用实践962023 年第 35 卷第 7 期图3农产品地理标志品牌库Fig.3 Basic information database of agricultural products with geographical indications后发现大部分农业网站包含相关内容较少尧 分布较散且网页结构化程度较低袁 若全文爬取将会出现极大的噪音数据袁 这将极大的增加筛选工作的工作量袁 并影响后续的文本抽取准确率袁 因此本研究将爬取源定为少部分专业类网站及各省的政府门户网站袁 以提升语料采集质量遥渊1冤 全国农产品地理
15、标志查询系统遥 全国农产品地理标志查询系统 渊http:/ 是在农业农村部积极推进地理标志农产品登记尧 追溯尧 管理的背景下建设的地理标志农产品追溯平台遥 平台以野互联网+农业冶 为手段基于物联网尧 云计算尧 地理信息GIS等现代信息技术使系统内部信息能够达到全面准确尧 更新及时袁 可以实现追溯数据共享袁 互联互通袁全面提升了农产品质量追溯信息化管理工作水平遥 本研究为保证品牌信息涵盖范围的全面性尧 准确性尧 零滞后性袁 选定全国农产品地理标志品牌查询系统作为品牌基本信息的来源遥渊2冤 中国农业品牌公共服务平台遥 中国农业品牌公共服务平台 渊http:/ 由农业农村部信息中心主办袁 平台以农产
16、品区域公用品牌尧 企业品牌尧产品品牌为核心袁 围绕供应链尧 产业链尧 数据链袁 提供丰富详实尧 权威及时尧 实用有效的信息遥 平台设立野品牌资讯冶 模块袁 提供各地农产品品牌管理发展的相关新闻报道袁 数据真实权威尧 更新及时尧 覆盖面广袁符合农产品地理标志品牌管理措施语料库的构建标准遥渊3冤 各省的政府门户网站遥 各省政府网站是了解各地政府政务的最直接平台遥 经过调研各地政府网均包含地理标志相关报道袁 且内容权威有效尧 实时性强袁并且各地政府网站提供信息检索功能尧 支持互联网文本爬取技术袁 因此本研究在各地政府网站中以 野农产品地理标志冶 为检索词的检索结果作为品牌管理措施库的来源遥4.1.2
17、数据集构建基于以上网上数据爬取结果共构建两个数据库遥渊1冤 农产品地理标志品牌库遥 此步共搜集3510个品牌名称袁 支持后续构建领域词典袁 数据展示如图3所示遥渊2冤 农产品地理标志措施库遥 基于以上数据源袁利用Python语言中获取网络资源的框架Scrapy获取结霍梦佳,刘娟,黄杰地理标志农产品品牌管理政策注意力分析模型构建及应用972023 年第 35 卷第 7 期果袁 主要使用Scrapy框架的爬虫 渊Spider冤 组件设置爬取策略遥Spider是Scrapy用户编写用于分析Response并提取Item或额外跟进的URL的类袁 具有高效快捷获取网络资源的特点遥经过初步的去掉空文本和重
18、复文本的预处理过程袁最终获取共包括相关文本共8 415条语料数据袁 数据库如图4所示遥4.2 文本抽取模型构建本研究将非结构化文本的抽取分为命名实体识别和信息抽取两部分袁 其中命名实体识别部分抽取文本中包含的品牌名称袁 如 野烟台苹果冶 等曰 文本信息抽取部分抽取文本语料中包含的管理措施类信息袁 如野依托灌云杨集豆丹养殖协会建设600亩核心养殖基地冶野组织参加农博会尧 绿展会尧 农洽会等国内外大型农产品展销活动冶 等袁 抽取框架如图5所示袁 包含两个部分院 命名实体识别和信息抽取袁 两部分的输入均为文本语料袁 分别输出文本包含的实体名称及措施遥4.2.1命名实体识别模型地理标志农产品品牌领域的
19、文本与普通领域的文本有些区别袁 主要体现在该领域有完整的品牌名称词典袁 因此基于领域词典来构建命名实体识别模型会大图4农产品地理标志品牌管理措施语料库Fig.4 Corpus of brand management measures of agricultural products with geographical indications图5抽取模型技术路线图Fig.5 Technology roadmap of the extraction modelDOI院10.13998/ki.issn1002-1248.23-0312应用实践982023 年第 35 卷第 7 期大提高命名实体识别准
20、确率遥 领域词典来源主要是全国农产品地理标志查询系统袁 通过爬虫技术获得完整的地理标志品牌名录袁 共包括3 510个名称类实体袁 词典如表1所示遥4.2.2措施文本信息抽取模型渊1冤 语料标注遥 语料标注是文本信息抽取的基础性工作袁 只有高质量的标注语料才能更好地训练出符合要求的模型遥 在以往的文本信息抽取工作中袁 语料标注是极耗费人力尧 时间的一项工作袁 然而由于本研究使用的模型支持小样本训练袁 只需要标注少数语料即可到达较好的抽取效果遥 本次抽取任务的目标为抽取各地具体的管理措施袁 故本次抽取任务仅需抽取野action冶 这一个标签袁 代表措施遥 我们仅需对文本语料中的措施内容进行标注袁
21、语料标注样例如下袁 在样例段落中袁野建立健全地理标志产品保护机制和监督管理办法冶野完善地理标志产品技术标准尧 检验检测和质量保证 耶三大体系爷冶 等均为具体的措施袁 由于计算机识别长句子的效果较差袁 故本次标注按逗号切割遥最后将语料标注为以下格式袁 包括语料id尧 文本内容text尧 标签label尧 起始位置尧 终止位置袁 标注语料文件最后以json格式存储 渊图6冤遥渊2冤 实验设置遥 实验前需对输入数据进行数据转换袁 转换成模型适用的格式袁 并将数据集按8:1:1划分为训练集尧 验证集和测试集遥 数据准备工作完成后袁将实验训练参数设置如表2所示遥其中袁learning_rate代表学习率
22、袁 默认为1e-5曰batch_size代表批处理大小袁 设置为16曰max_seq_len代表文本最大切分长度袁 输入超过最大长度时会对输入文本进行自动切分袁 设置为512曰num_epochs代表训练轮数袁 设置为100曰seed代表随机种子袁 设置为1 000曰valid_steps代表评估的间隔steps数袁 设置100曰Optimizer代表实验选用的优化器袁 默认为Adam曰device代表选用训练的设备袁 设置为GPU设备遥渊3冤 模型评估遥 参数的选取会对抽取的结果产生一些影响袁 为了使训练的模型获得最佳的抽取效果袁本研究基于已构建语料选取不同的实验参数进行比较品牌名称 品牌名
23、称 品牌名称 品牌名称 黎城核桃 天山大明绿豆 丹东杜鹃 洮南辣椒 芮城花椒 乌兰察布马铃薯 小梁山西瓜 巴彦猪肉 红山荞麦 交城骏枣 彰武黑豆 岫岩滑子蘑 长子大青椒 乌珠穆沁羊肉 集安五味子 阿城大蒜 鄂尔多斯细毛羊 莎车巴旦姆 安和香芋 表1农产品地理标志品牌词典Table 1 Dictionary of geographical indication brands for agricultural products图6语料标注样例Fig.6 Sample of corpus annotationid:1,text:建立健全地理标志产品保护机制和监督管理办法,完善地理标志产品技术标准、检
24、验检测和质量保证“三大体系”;开展日常监管和年度专项监督检查,严厉查处地理标志违法行为,保护社会公共品牌,维护地理标志产品形象和声誉。,label:0,21,action,22,51,action,52,67,action,68,80,action,81,89,action,90,103,action参数名称 参数值 learning_rate 1e-5 batch_size 16 max_seq_len 512 num_epochs 100 seed 1 000 valid_steps 100 Optimizer Adam device GPU 表2实验训练参数Table 2 Experim
25、ental training parameters霍梦佳,刘娟,黄杰地理标志农产品品牌管理政策注意力分析模型构建及应用992023 年第 35 卷第 7 期图8文本示例Fig.8 Text sample图7信息抽取训练结果图Fig.7 Information extraction training effect训练遥 学习率对于深度学习来说尤为重要袁 一个合适的学习率不仅能加速训练的拟合袁 还能更好地逼近最优解袁 本研究针对不同的学习率进行对比实验遥在其他参数均为默认值的前提下袁 设置不同的学习率进行实验袁 在学习率为1e-6到5e-4的范围内进行训练袁 得到结果如图7所示袁 横坐标为学习率的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 地理 标志 农产品 品牌 管理 政策 注意力 分析 模型 构建 应用
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。