高校图书馆数据中台建构研究——以中国矿业大学图书馆为例.pdf
《高校图书馆数据中台建构研究——以中国矿业大学图书馆为例.pdf》由会员分享,可在线阅读,更多相关《高校图书馆数据中台建构研究——以中国矿业大学图书馆为例.pdf(5页珍藏版)》请在咨信网上搜索。
1、34信息组织2023年第8 期图书馆学刊TUSHUGUANXUEKANNO.8,2023高校图书馆数据中台建构研究以中国矿业大学图书馆为例鲍李不仕尹良伟王静(中国矿业大学图书馆,江苏徐州2 2 1 1 1 6)摘要 为解决高校图书馆资源分散、数据缺乏治理、业务系统孤立等问题,借鉴数据中台这一新的架构理念,研究高校图书馆数据中台建设的技术框架和关键技术。以中国矿业大学图书馆为例,构建高校图书馆数据中台的功能架构,以期实现资源统一管理、数据集中治理、业务系统高效交互,为智慧图书馆建设赋能,提升图书馆精准化服务水平、优化资源建设和实现科学管理关键词 大数据数据中台高校图书馆数据治理分类号 G258.
2、62020年4月,中共中央、国务院在关于构建更加完善的要素市场化配置体制机制的意见中提出,把数据作为与土地、劳动力、资本和技术并列的五大生产要素之一。2022年1 2 月,中共中央、国务院印发关于构建数据基础制度更好发挥数据要素作用的意见,指出数据作为新型生产要素,是数字化、网络化、智能化的基础。2 0 2 3年2 月,中共中央、国务院印发数字中国建设整体布局规划,标志着数据已成为社会和经济发展的驱动力。以上政策表明数字中国全面建设时代的来临,数据要素的作用越来越大,要充分激活数据要素的潜能,为经济发展赋能。高校图书馆的数据作为我国海量数据的重要组成部分,为高校教学科研、科技创新提供强有力的支
3、撑保障,充分发挥这些海量数据规模和丰富应用场景的优势,是图书馆当下的重要任务。资源系统分散孤立、数据缺乏治理,业务系统孤立是高校图书馆普遍存在的问题。数据中台提供了一种新的架构理念,实现数据的高效应用、共享和价值最大化,以及各业务系统的连接和交互。笔者以中国矿业大学图书馆为例,探讨高校图书馆数据中台建设,以期实现资源统一管理、数据集中治理、业务系统高效交互,为高校图书馆建设赋能,推进高校图书馆智慧化发展。1数据中台内涵及图书馆数据中台研究现状1.1数据中台内涵数据中台最早起源于芬兰的世界知名游戏公司Super-cell,通过数据中台架构投人很少人力开发出全球热门的游戏2。2 0 1 5 年,阿
4、里提出数据中台战略,对标国外“DataLake构建“大中台、小前台 组织机制和业务机制3。2 0 1 8年,京东、百度、腾讯等公司陆续推出以“数据中台”为核心的组织架构,随之引发“数据中台”的研究热潮 2 。但是,目前对数据中台尚无统一定义,以下是几种有代表性的定义。定义1:数据中台是在政企数字化转型过程中,对各业务单元业务与数据的沉淀,构建包括数据技术、数据治理、数据应用等数据建设、管理、使用体系,实现数据赋能4。定义2:数据中台是主要为获取、分析、处理、存储、检索和传播一种或多种类型的数据而建立的组织 5-6 。定义3:数据中台是方法论+组织+工具的解决方案。其中方法论是OnelID+On
5、eModel+OneService;组织为从IT支撑到业务赋能的数据、技术、产品相匹配的人才结构,包含数据产品经理、数据研发、数据科学家等多角色;工具为采集、构建、管理、服务等 1 7。定义4:数据中台是可复用的数据资产中心与数据服务中心,提供清洁、透明、智慧的数据资产与高效的数据能力,使业务数字化运营8。依据上述定义,笔者认为高校图书馆数据中台更趋近于一种基于全周期的数据处理中心,包括数据采集、存储、治理、挖掘、分析全流程,用数据实现用户服务,让数据应用到业务场景。1.2图书馆数据中台研究现状通过网络和学术会议调研了解,宁波图书馆联合阿里云、袋鼠云打造一体化智慧服务平台9,采集馆内业务和用户
6、对象等数据信息,打通所有业务的数据孤岛;上海图书*本文系国家社会科学基金项目“基于数字李生的高校智慧图书馆数据治理模式及机理研究(22BTQ023)的研究成果之一35TUSHUGUANXUEKANNO.8,2023信息组织2023年第8 期图书馆学刊馆携手中国知网建立数据中台,实现数据统一管理;复旦大学图书馆与阿法迪公司联合打造数据中台,建立数据基座,实现“数入一库,数出一库”。通过梳理中国知网数据库相关文献,截至2 0 2 3年4月,以“数据中台”为检索词进行检索,得到相关文献1 7 5 2篇;以“数据中台”+“图书馆”为检索词进行检索,得到相关文献2 4篇。分析发现,数据中台领域的研究文献
7、自2 0 1 8年以来直线上升,但有关图书馆数据中台的相关研究成果较少,主要集中在:从中台思维出发,探索释放海量数据资源更大价值、降低维护成本和提升快速创新能力的信息化解决方案;中台在图书馆领域的应用场景与建设方式,提出图书馆中台建设方法论;数据中台建设,根据服务对象的不同要求,支撑微服务程序的数据调用;通过支持向量回归(SVR)算法建立模型,并基于实验模型利用实际数据分析和预测验证中台架构的可行性2;提出基于数据中台理念的高校图书馆数据服务模式1 1 3。可见,围绕图书馆数据中台建构,还缺乏相关技术框架及关键技术的研究。2图书馆数据中台的技术架构及关键技术2.1图书馆数据中台的技术架构数据中
8、台的目标是实现数据共享和数据价值最大化,其核心功能包括:对数据资产的高效管理,提高数据质量;对异构数据源进行标准化处理,提高数据共享交换性;让数据快速应用到各业务场景,提高数据价值;信息安全贯穿整个流程,保证中台数据和应用的安全。根据图书馆的实际情况和功能需求,充分考虑图书馆数据中台的存储能力、计算能力、数据交换能力、服务能力、扩展能力,采用主流的大数据技术框架,设计图书馆数据中台的技术架构(见图1)。终端APIWeb客户端离线开发标签和用户商像可视化分析知识服务数据服务在线开发Spring CloudSpring BootSpring Security数据存储HiveHDFS分布式文件存储数
9、据安全MapfeduceSparkSparkMLlib数据处理任务调度FlinkTensor-FlowPyTorch集群管理数据采集SaOOP(数据ETL)KafkaFiumeDatax结构化数据非结构化数据文本教据数据源肥虫数据Binloz日志数据ot数据图1图书馆数据中台的技术架构图书馆数据中台技术框架设计包括6 层架构,分别是:数据源、数据采集层、数据处理层、数据存储层、数据服务层以及终端。图书馆数据种类较多,主要包含关系型数据、非关系型数据、文本数据、爬虫数据、Binlog日志数据、还有部分物联网Iot数据。数据采集层按数据的实时性,分为离线采集和实时采集。离线采集使用Sqoop和Da
10、taX相结合,结构化数据且数据量较大场景采用Sqoop,如馆藏数据、读者数据等;非结构化数据且数据量较小场景采用DataX。实时采集使用Flume或Kafka,如日志数据、系统监控数据、网站跟踪数据等。数据处理层,当数据量较大时采用大数据计算框架MapReduce进行计算;当数据要批处理时选择Spark,且适合离线处理;实时数据计算处理时则选择Flink。机器学习一般采用SparkMLlib,其内置的算法包如随机森林、逻辑回归、决策树等,可以实现智能应用场景。TensorFlow和PyTorch属于AI平台,可以实现人脸识别、智能搜索、智能客服等。数据存储层,其存储引擎基于Hadoop的HDF
11、S分布式存储,达到数据多份穴余和充分利用物理层多磁盘的I/O性能。Hive是大数据广泛使用的离线数据存储平台,用于存储数据中台的全量数据,在建模阶段可以使用HiveSQL,SparkSQL进行数据处理和建模。数据服务层的技术类似业务应用,主要基于开源Spring Cloud,Spring Boot,Spring Security等构建,使用标签构建、人物画像、可视化分析、知识服务等。终端层主要提供API接口与实现,使用Web客户端进行交互。2.2图书馆数据中台建设的关键技术2.2.1面向图书馆的大数据分布式处理技术图书馆数据结构多样,分别有结构化数据、半结构化数据、时序数据、其他非结构化数据等
12、,为解决数据的差异性,同时考虑图书馆高并发、高可用、稀疏性等大数据特征的技术要求,使用大数据分布式处理技术,分布式文件存储、计算资源管理调度、分布式运算框架,以支持图书馆数据的统一存储和处理。搭建数据仓库对结构化数据进行存储处理,可将SQL语句转换为MapReduce任务运行,方便利用熟悉的类SQL语言进行数据查询、汇总和分析;搭建列式数据库系统,对时序、非结构化、半结构化数据进行存储处理。通过数据按位存储、数据分块及多节点跨机架备份提高数据处理的可靠性;在集群节点间分配数据,支持就近数据节点计算;计算引擎基于数据块MapReduce计算,算36TUSHUGUANXUEKANNO.8,2023
13、信息组织图书馆学刊2023年第8 期力可以横向扩展,提高集群系统扩展性。同时,存储系统要支持数据多个副本,并自动完成备份及补充备份。2.2.2基于流计算的数据采集技术数据中台建设的首要任务是数据采集,面对海量的离线和实时数据,面对Hadoop,O r a c l e,M y SQ L,文件以及消息等多种数据源,需要ETL技术、分布式流数据处理技术和消息中间件技术相融合的基于流计算的数据采集技术。数据采集方式分为全量采集和增量采集。全量采集,即每一次采集所有数据,可以通过常见SQL语句导出,根据实际应用采集所需的数据。增量采集,即在全量采集的基础上,后续只采集修改、增加的数据,重点是要区分哪些是
14、存量数据,哪些是增量数据。数据采集方式和方法描述见表1。表1数据采集方法描述采集对象方法描述支持全量采集,按照制定的周期进行采集数据库ETL技术,包括Hadoop平台的Sqoop、开源的kettle、talend、D a t a X、St r e a m Se t s;支持多数据库数据导出支持增量采集日志/消息消息中间件,包括日志、消息数据通过Flume,Stream-Sets等采集支持增量采集Iot以流式数据通过Kafka采集支持文件全量采集文件FTP,WebDAV,ETL工具(如StreamSets)采集后数据需要通过数据校验手段来保障采集数据质量,应及时处理接口的变更和异常;对比、分析数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 高校 图书馆 数据 建构 研究 中国矿业 大学图书馆
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。