基于HIVE配置化自助稽核工具研究.pdf
《基于HIVE配置化自助稽核工具研究.pdf》由会员分享,可在线阅读,更多相关《基于HIVE配置化自助稽核工具研究.pdf(3页珍藏版)》请在咨信网上搜索。
1、C o m m u n i c a t i o n&I n f o r m a t i o n T e c h n o l o g y N o.4.2 0 2 3通信与信息技术2 0 2 3 年第4 期(总第2 6 4 期)基于H I V E 配置化自助稽核工具研究肖逸枫,董晓勇,杨名,杜敏,杨莉中国移动通信集团四川有限公司,四川成都6 1 0 0 8 4摘 要:提出一种基于J a v a 后台的自助自动化工具,该工具提供的可配置字段模型更多、更丰富,配置轻量化,模型结果更加准确,计算速度也得到提升。在新上线营销活动或存量营销活动重点稽核时,通过可视化操作界面,支持业务编码、受理时间、受理范围
2、等条件,配置基础数据字段和个性化扩展字段构建成专属的个性化数据模型,具有操作便捷,灵活应对市场变化的特点,解决了高峰期人员不够,稽核处理不到位的痛点,从而有效提升营销活动专项稽核提数效率。关键词:H I V E 配置化自助;A I 工业革命;字段数据采集;H D F S 采集中图分类号:T N 9 1文献标识码:B文章编号:1 6 7 2-0 1 6 4(2 0 2 3)0 4-0 0 9 6-0 31 引言在运营商自动化智能化的不断探索中,大数据技术被广泛应用,大数据时代数据成为一种资产,目前大数据研究领域主要在大数据隐私保护和大数据访问控制、大数据自动处理分析等方面叫。大数据面临的挑战主要
3、体现在大数据中的用户隐私保护、大数据的可信性、如何实现大数据自动化收集、自动化分析、访问控制几个方面 2 。在各公司营销案活动内控管理过程中,利用大数据分析技术为运营商进行专线业务稽核成为迫切需求。但目前各分公司面临着专项稽核未实现自动化,稽核及时性低,数据稳定性不好,消耗的人工较多等问题。通过该成果,在稽核过程中,面对海量数据,不同维度数据信息,复杂数据表结构,进行颗粒化扩展字段模型封装,由系统输出逻辑结果。降低了对稽核人员的要求,避免了稽核人员对后台数据库、存储格式、分区分表、关联关系不了解导致的人为误差导致工单错误。从而有效提升稽核效率,减少数据结构分析过程中带来人为误差的可能性。该成果
4、在专项稽核过程中,稽核数据提取环节,运用了配置化自助取数的解决方案,配合H I V E 等方面的相关技术进行实现。同时综合运用了颗粒化扩展字段分析模型、O r a c l e 数据到H D F S 数据采集组件和H S Q L 执行组件等手段进行配合使用。在后台多线程数据分析模型中,一方面提高了业务数据采集分析过程中的稳定性;另一方面提高了业务数据采集的完整性、一致性,减少人为误差,提高了专项稽核工作的整体效率和准确性。2 配置化自助稽核流程在新上线营销活动或存量营销活动重点稽核时,可通过可视化操作界面,支持业务编码、受理时间、受理范围等条件,配置基础数据字段和个性化扩展字段构建成专属的个性化
5、数据模型。具有操作便捷,灵活应对市场变化的特点。解决了每到春旺促销、校园迎新等活动高峰期人员不够,稽核处理不到位的痛点。从而有效提升营销活动专项稽核提数效率,减少手工提数带来人为错误的可能性。前台操作后台周用时间范国确定取操作人员提数范数的区通过前地市区县要求微兴作四围确定本条件页面白行填写活动编码地产针子理客户I D确定基操作人员其础字础数据通过页面容户号码条数进行勾选段客户入网时间体量目工和扩四字段是否指走主资费是否对应目标春户群是否绑定2 0 9账户确定每通过封装条用户的和化数据的扩展字段细节进行勾选、观则指定组装生成冀表政第图1 配置化自助稽核流程图在提取符合稽核人员配置的数据过程中,
6、依据运营商海量的数据信息,对数据进行采集,通过得到海量数据,对基础字段与扩展字段数据提取模型进行开发,对数据分析模型收稿日期:2 0 2 3 年4 月1 3 日;修回日期:2 0 2 3 年6 月1 4 日9 6人工智能基于H I V E 配置化自助稽核工具研究进行开发,得到基础字段与扩展字段数据提取模型及数据分析模型,为后续业务提供算法模型。在营销案活动专项稽核过程中,如图1 所示,首先对数据提取的范围进行配置并校验,通过系统提供的已发布的基础和扩展字段模型进行选择,并对相关元素进行设置,可选配置各字段筛选条件;保存后未发布之前,可对已配置的自助提数任务进行调整,确定自助提数任务信息配置无误
7、后,对自助提数任务进行发布,发布后系统后台即刻进行基础数据采集模型调用、基础字段数据提取模型调用、扩展字段数据提取模型调用、数据分析模型调用,最终系统对数据进行组装生成宽表数据;在系统后台执行模型的过程中,稽核人员可查询自助提数后台日志,观察执行进度;模型执行完成后将生成数据文件,提供稽核人员下载数据结果。3 配置化自助稽核采用的技术手段3.1 基于H I V E 脚本扩展字段数据提取研究方法,实现扩展字段数据采集的模型H I V E 脚本数据仓库可以管理数据量巨大的结构化、半结构化数据3 ,该技术实现过程主主要包括第三方数据采集并进行预处理、数据分析模型构建、数据分析模型参数调优三个步骤。通
8、过分析扩展字段处理结果,例如正确率及完整率,判断数据分析模型是否收敛,正确率是否提高,从而得到扩展字段数据提取模型。模型训练过程中,如图2 所示,首先,对底层生产库数据进行加载或采集生成O D S 层数据。然后,对O D S 层数据进行清洗加工,使数据结构化、标准化。其次,构建D W D 底层模型,实现对业务逻辑的简单加工。再次,对H I V E 各项参数根据实际情况进行调优,根据业务需求,组装h q I 对D W D 底层模型进行更深层次的业务关联,合成D W 中间层模型。最后,根据D W 中间层模型的正确率及损失值,判断业务关联是否正确,底层数据是否完整,最终调整业务规则,获得A P P
9、展示层模型。3.2 o r a c l e 数据到H D F S 采集组件方法,实现采集o r a c l e数据到H D F S该技术实现过程主要包括前台页面模块开发(增加表数量)、支持替换批量表名(主要针对1 0 0 张表的情况)、多线A P P数据产品层H i v e、S p a r kM RD W数据仓库层H i v e、p a r k、M RS p a r k S t r e a m i n g、S t o m、F l i n kO D S数据运营层S q o o p、F l u m e、S p a r k、S t o r m业务库理点其它据来源展图2 H I V E 架构图程s q
10、 l 执行功能开发、结果数据写成临时文件、临时文件上传H D F S 功能等关键步骤。同时通过数据写入时间删除临时文件s h e l l 脚本编写,数据执行直接到H D F S 功能,H D F S 最终得到采集的o r a c l e 数据。首先,对源数据表结构构建分析模型。然后,对源数据表创建对应数据采集任务。其次,构建表整合模型,实现对批量、分库等表进行汇总,生成后台数据输入、输出脚本。再次,对数据一致性、完整性进行自动检测,训练自检模型。最后,根据数据补全方法的保障正确率及损失值,判断缺失数据查漏补缺,获得数据对账模型。3.3 基于J a v a 的H I V E S q l 执行组件
11、方法通过前台页面配置化自助稽核执行管理模块触发,执行S Q L 时间校验,如达到当晚7-1 0 点,则新建定时延后执行之后流程,操作人员权限控制(稽核员只能查询当前地市),H I V E s q l 解析功能(加载参数、解析参数成完整可执行s q l),H I V E s q l 执行流程功能,结果数据生成e x c l e 文件,并支持下载。基于J a v a 的H I V E S q l 执行组件方法,首先获取配置参数元素,采用解析参数元素生成完整可执行H s q l 方法,计算各项配置参数元素值。设置对应扩展字段筛选条件,判断动态业务逻辑走向,如果存在依赖数据的等待前置数据执行完成后,再
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 HIVE 配置 自助 稽核 工具 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。