云原生核心技术与最佳实战.pdf
《云原生核心技术与最佳实战.pdf》由会员分享,可在线阅读,更多相关《云原生核心技术与最佳实战.pdf(1233页珍藏版)》请在咨信网上搜索。
1、扫码关注阿里云云原生公众号回复 2023云栖大会 即可下载电子书!Contents目录通过 ACK 智能化运维体系获得集群自动化诊断和自愈能力-5303基于 ACK One 实现简单的跨云协同让业务管理更高效-7904基于 ACK One 和 ACR 构建 CI/CD 流水线最佳实践-112ACK 集群类型选择最佳实践-0701ACK 云原生弹性方案,云原生时代的加速器-310205机密容器探索与AI场景应用-15908云原生场景下,AIGC 模型服务的工程挑战和应对-19009基于容器服务 ACK 与 ACR 构建企业级端到端DevSecOps 流程五分钟微调“漫画风”Stable Diff
2、usion-12706容器计算服务 ACS 快速动手实践-1400710-214Contents目录ACK 云上大规模 Kubernetes 集群高可靠性保障实战-29913ACK 云原生 FinOps 方案助力企业优化阿里云上成本治理14如何为乾象节省月10W+云成本ACK FinOps套件-344两全其美:Sidecarless 与 Sidecar 模式融合的服务网格新形态11智算时代,基于 ACK 落地云原生 AI-2691215容器计算服务 ACS-40518容器服务 ACK 智算时代的现代化应用平台-42819开源混部系统 Koordinator 助力云原生应用性能提升小红书实践经验
3、分享网易游戏机器学习云平台助力 AI 应用落地实践-36816美年大健康基于云原生快速进行业务拓展-3901720-457-240-326Contents目录阿里云消息队列的 Serverless 架构演进-49601畅捷通的 Serverless 探索实践之路-50802函数计算让 AIGC 应用开发更简单-52403极氪大数据 Serverless 应用实践实现企业级商业智能的全新范式04美景触手可及 Rokid 的 Serverless 实践之路-56705杭州铭师堂的云原生演进之路-58606-547All in Serverless 阿里云核心产品全面升级-66509SAE2.0 让
4、容器化应用开发更简单-69410释放算力潜能,加速 AI 应用构建-60707AIGC 浪潮之上森马的 Serverless 实践之旅-63508Contents目录Serverless 引领云上研发新范式-72111Serverless开发平台:让研发效能再提升-75212极简微服务模式消除微服务复杂度的最佳实践-77501铭师堂的云原生演进之路-80902青团社云原生架构实践亿级灵活用工平台的架构实践-83403云原生网关的演进之路-86704云原生中间件重磅发布全面迎接 Serverless 时代-90005作业帮云原生实践之路-92406Contents目录Apache RocketM
5、Q 云原生统一消息引擎-94201ApsaraMQ Serverless 演进之路,助力客户降本-96602构建观测数据全景,打造端到端可观测体系-98101性能测试 PTS3.0,可观测加持的下一代性能压测服务-101402云原生可观测 Prometheus:构建开放的全栈可观测能力-105003智能驱动的云原生可观测平台-106904Contents目录茶百道微服务架构升级及运维实践-1098 01下一代软件架构如何构建微服务核心能力-111702云原生助力开发者高效用-114403大模型 On Serverless 助力因果推断-1190 01新一代 AIGC 图像应用在零售行业的实践成
6、果-121402ACK集群类型选择最佳实践陈晓斌阿里云 Best practices for choosing a Alibaba Cloud Container service01容器&云原生化02容器服务 ACK 主要集群类型03典型场景分析Contents目录微服务容器化云原生复杂度+规模 驱动变化异构计算能力ECS,EBM,GPU,FPGA,ECI高性能网络VPC,ENI,RDMA,SLB,DNS高性能存储EBS,NAS,CPFS,OSSPublic CloudEdge ComputingPrivate CloudKubernetesWeb/mobile applications-St
7、ateless-Idempotent-Horizontal scalableMysqlKafkaTIDBElastic SearchTensorFlowSparkFlinkRedisZookeeper从无状态应用,到企业核心应用,到数据智能应用Kubernetes成为云原生时代基础设施01容器&云原生化02容器服务 ACK 主要集群类型03典型场景分析Contents目录容器服务助力企业数字化创新ACK-Kubernetes ServiceACK Serverless-Serverless KubernetesACK One多集群、多环境管理统一集群管理统一资源调度统一数据容灾统一应用交付边缘
8、容器-ACK Edge 专有云企业版 ACKACK Distro飞天技术底座与基础云服务客户 IaaS中心云本地云/专属云公共云边缘云专有云ASM统一应用通信ACR统一应用资产管理Enable Innovations for Everyone with Alibaba Cloud Container Services容器服务 ACK 架构 计算ECS,EBM,GPU,FPGA,ECI网络VPC,ENI,SLB,DNS,RDMA存储EBS,NAS,CPFS,OSSKubernetes Service(ACK)镜像服务ACR容器应用市场服务网格 ASM安全治理可观测性(日志、监控、追踪、告警)多云
9、/混合云异构算力调度自动化、智能化运维体系弹性/成本优化微服务有状态应用大数据、智能应用创新应用Spring CloudApache DubboApache FlinkTensorflow区块链IoTMySQLRocketMQ安全RAM,云安全中心New Future on Cloud企业云原生化的强大技术底座 基于飞天操作系统,软硬一体协同优化;经过大规模生产实践沉淀的智能化运维能力大规模高效调度安全可信无损性能弹性智能运维国内首个通过信通院大规模测试-卓越级支持单集群上万节点,相比开源提升100%通过混部,典型场景资源利用率相比开源提升100%Al推理场景GPU利用率比开源提升100%云原
10、生安全成熟度国内唯一全域最高级认证,可信云安全能力认证先进级安全沙箱:强隔离场景性能基本持平Linux。原生容器,优于开源10%计算密集型应用,相比开源性能提升20%容器网络小包场景,相比开源延迟下降30%弹性容器实例30s扩容3000 Pod,与友商相比,扩容效率提升100%ECS节点1分钟千节点扩容独有全场景AI增强的200+诊断能力,提升系统稳定性自动运维和分钟级自愈能力ACK Kubernetes集群托管控制面一致性 Kubernetes认证,无lock-inACK托管集群架构拓扑ACK集群架构拓扑Koordinator调度器任务队列数据集加速AI作业管理弹性训练Serverless推
11、理Cloud-Native AI Suite Boosts Efficiency in Large Model EngineeringGPU利用率提升100%数据访问效率提升30%AI训练速度提升20%基础资源层云原生AI基础设施层GPUshareGangTopology-awareCapacityKube-queueFluidKubeflowArenaET-operator机器学习平台PAIAI平台/服务Kserve灵骏集群CPU/GPU/NPUOSS/CPFSVPC/RDMA智能计算灵骏AIACC通义大模型开源AI能力阿里云提供和支撑的AI平台与服务ACK云原生AI套件:助力大模型工程提效
12、ACK Kubernetes 集群+云原生AI套件OpenKruiseGameOKG:游戏云原生化的最佳路线GameserverSetGameServer-0GameServer-1完全免费开源OpenkruiseGame是CNCF开源云原生负载openkruise在游戏领域下的最佳实践抽象,项目由多家一线游戏公司共同贡献维护面向多云/边缘/多集群场景内置多云/混合云场景的适配,推出了cloudProvider的模型,便于开发者在多种不同云环境下实现游戏的一致性交付内置游戏云原生化运维管理最佳实践将游戏场最下的版本热更新、网络IP端口固定、区服管理、自动伸缩等通用能力进行抽象,井通过语义化的配
13、置进行透出,降低学习和二次开发的成本云原生能力无感打通通过无侵入式的声明方与云上能力,例如透明无损网络、弹性、低成本资源供给、全生命周期可观测性等能力无感打通全游戏类型覆盖覆盖PVP/PVE/MMORPG 等多种常见的游戏类型的差异化容器需求,白屏化支持复杂游戏架构的游戏服编排能力小鹏自动驾驶模型训练速度170XGPU利用率3X某互联网搜索排布 推理加速30%训练加速40%某互联网百亿GPT2模型 单机加速82%集群加速70%某元宇宙70亿NLP模型单机加130%集群加速7X基于云原生架构的智能计算基础设施:端到端软硬件协同设计,发挥系统的最佳性能智能计算工程平台PAI灵骏智算AIGC智算场景
14、容器服务-ACK灵骏集群高性能计算节点高性能网络高性能存储自动驾驶科研智算金融量化智能计算基础设施智能计算资产管理智能计算运维系统模型管理代码管理数据集管理镜像管理资源组管理数据标注交互式开发分布式训练模型推理科学计算大数据计算安全资源告警任务告警集群管理资源监控灵骏节点池托管与自动化运维GPU共享调度与拓扑感知调度Fluid数据集编排与访问加速批量任务调度与任务队列标准Kubernetes集群服务(包括集群巡检,GPU监控、告警等)容器服务ACK提供标准Kubernetes集群服务,高效管理异构资源、调度异构任务,作为支撑AI平台的云原生底座,并提供AI、HPC等高性能计算场景下的云原生增强
15、能力ACK灵骏集群:智能计算基础设施ACKEdge (powered by OpenYurt)非侵入能力边缘计算和阿里云生态融合轻量化接入增强型网络边缘节点池:基于 SD-WAN 方案,提供安全、快速的云边协同内网通路,并已正式商业化发布轻量化接入:支持十万规模端节点/设备轻量化接入,资源消耗持续降低。支持边缘侧 Pod 启停、OTA 升级功能OpenYurt:ACKEdge 产品核心能力开源,正式进入 CNCF 孵化阶段(推进中,待确认)Device EdgeE.g.工厂、园区、楼宇、机场、设备网关VSAGInfrastructure EdgeE.g.CDN,ENSNear EdgeE.g.
16、交通、工厂制造、桥梁、车载NewNew增强型网络边缘节点池ACK Edge:云边端一体化解决方案在线音视频直播云游戏在线教育物流零售IoT异构资源支持边缘区域化管理运维协同网络协同ENSPrometheus边缘自治日志服务云边混合弹性云监控CEN+CCNEdge Tunnel-Agent Edge Tunnel-Server MQTTACK One:分布式云容器管理平台云上弹性多集群应用分发备份容灾统一运维与安全统一资源调度统一应用分发备份容灾Open Cluster ManagementACK One3rd K8s connector公有云边缘本地数据中心K8s 集群K8s 集群K8s 集群
17、三方公有云K8s 集群多集群运维管理使用ACK One统一管理多个K8s集群,减少25%的资源用量,提升安全水位,业务连续性和数据安全性,运维效率提高80%混合云多调度器支持IDC负载感知和云端弹性,5分钟实现招聘业务3000+实例数万核扩容,支持多域名服务器的的自定义DNS解析。云上云下一致体验Contents目录01容器&云原生化02容器服务主要集群类型03典型场景分析场景一:在线业务稳定性保障代表案例:云快充 基于 ACK 实现 70%系统稳定性提升高稳定性的托管版 K8s 集群底座一键开启应用诊断能力无侵入式微服务治理增强eBPF 应用诊断技术,应用无侵入提供全局视角的应用拓扑请求数、
18、错误数、延误三大黄金指标出发,发现异常服务个体基于 Java-Agent 实现无侵入式 微服务治理增强无损上下线和全链路灰度能力最小化版本发布对业务运行的影响生产事故70%研发效率75%完全兼容开源 Kubernetesmaster 节点托管、智能巡检诊断、跨可用区高可用大规模场景验证的稳定性保障能力业务痛点自建 K8s 集群维护复杂度高业务频繁变更带来稳定性风险节点异常、Pod异常、网络不通、etcd性能瓶颈80%以上的线上业务故障都与版本发布有关缺少微服务精细化治理和灰度策略解决方案:容器服务 ACK+监控服务 Prometheus+服务治理 MSE 生产事故率显著降低 业务高峰期系统稳定
19、运行 研发效率提升单点击成本30%全球快速开服解决方案:容器服务 ACK+抢占实例场景二:增效降本与全球化代表案例:汇量 基于 ACK 降低 30%单点击成本 实现全球开服业务痛点业务访问量波动大,资源成本高全球业务发布复杂度高每天百亿级别广告交易,潮汐现象明显,资源浪费严重需要全球化开发、部署、运维,运维复杂度高高稳定性的托管版 K8s 集群底座全栈弹性能力全球化部署HPA,CronHPA,AHPA,VPA等多种弹性需求场景支持资源层与应用调度层弹性联动打通支持丰富的云上计算资源ACK全球26个Region开服完全兼容开源 Kubernetesmaster 节点托管、智能巡检诊断、跨可用区高
20、可用大规模场景验证的稳定性保障能力业务系统容器化改造后,在降低单点击成本的同时还保障了业务高峰期的快速弹性,单点击成本降低30%,同时弹性按需扩缩的敏捷架构帮助业务在全球快速开服快速扩容,帮助客户增效降本。业务高峰期系统稳定运行解决方案:容器服务 ACK+AI套件资源成本50%研发效率25倍运维成本50%业务痛点业务迭代速度慢运维工作重复大量时间花费在 底层基础资源准备,集成,监控等AI工程化能力上日常驱动,cuda,数据等人力投入大,运维效率低资源性价比低环境准备,弹性能力不足,资源浪费情况严重场景三:AI基础设施云原生化代表案例:任意门 基于ACK云原生 AI 套件打造人工智能的社交平台A
21、I PaaS 平台管理了从初期的数十张 GPU 卡到近千张的超大规模,日承载 AI 业务发布数百次,很好地支撑了业务的高速发展一站式AI应用生命周期管理异构资源统一管理高效资源利用率自动化管理GPU节点算法代码与标准镜像解耦自动弹性推理,节省一倍运维成本GPU共享调度支持Fluid数据加速能力数据管理大规模场景验证的稳定性保障能力解决方案:容器服务 ACK+ECI+Spark on ACK业务痛点业务稳定性方面资源利用率低资源缺乏弹性,运维复杂新游上线、版本更新、活动等场景时,流量与负载激增业务有潮汐现象,资源利用率低成本高存储与计算资源池固定,运维复杂,缺乏弹性场景四:大数据应用云原生化代表
22、案例:米哈游 云原生大数据实践极致弹性与成本易维护稳定性高架构简洁、易维护存算分离ECI提供更加严格的资源隔离稳定性好Driver on ECS节点,Executor on ECI实现极致弹性-几千pod/30s常规抢占式ECI+普通ECI兜底实现极致降本效果节约 50%,报表展示速度提高30%,支撑单日任务数量10W+成本50%任务数支撑到10w+展示速度30%解决方案:容器服务 ACK+OKG成本可以节约30%网络减少一跳精准缩容闲置POD,有效节约成本业务痛点有状态应用缩容支持不完善有状态应用IP保持能力缺失K8S原生对有状态支持不够完善,无法对每个pod做精细化的管理K8S原生的Sta
23、tefulSet无法固定Ip场景五:游戏应用云原生化代表案例:尚游网络 基于 OpenKruiseGame 云原生化游戏服成本30%网络连接提速游戏服通过采用OKG改造后,从网络适配层,精准定向缩容层面让成本下降了30%+,网络直连速度更快精准定向缩容游戏网络直连成本固定IP,减少中间层,提速降本精准缩容,精准运维,降低成本解决方案:容器服务 ACKEdge部署时间87.5%升级时间97%业务痛点边缘环境运维效率低异构环境稳定性问题突出车场分散,网络彼此隔离,车场计算资源无法直接被公网访问,运维挑战大大部分车场为window服务器,车场间部 署环境差异大,需要屏蔽底层环境差异,确保平稳运行应用
24、发布效率低停车场运营主题不同,需求变化频繁,需要按需分批与灰度发布,当前发布效率低场景六:边缘应用场景代表案例:龙湖千丁 基于ACK Edge 高效落地云边端一体化智慧停车业务弱网环境运行更稳定易维护发布效率高云端管控,可对不同地域进行统一应用分发与管理可借助ACKEdge云端远程运维与调试可按业务分节点池,单元化发布基于节点池可实现分批与灰度发布边缘自治,断网情况下能正常运行边缘部署时间从一天缩短到了三小时手动升级迭代为OTA升级,时间从3天缩短到5分钟有效降低故障率,提升稳定性解决方案:容器服务ACK+ACK One资源供给时间月-分钟TCO降低业务痛点资源交付周期长需要更高性能的基础设施
25、自建机房,新增资源的采购流程复杂,周期长AI 计算平台对网络、存储有更高的性能要求,在私有 IDC 里落地需要很高的时间和金钱成本场景七:混合云场景代表案例:vivo AI 计算平台的 ACK One 混合云实践弱实施简单,成本低一致性的体验按需可得的弹性资源内部资源供给界面不变随时可得的按需资源供给稳定可靠的云上资源客户原有K8S集群无需改动按需可得的分钟级别资源供给能力更少的资源拥有成本更加稳定的云上基础设施计算无界,承载无限阿里云容器服务助力企业精益用云THANKS ACK 云原生弹性方案赫曦阿里云高级技术专家云原生时代的加速器Contents目录01云原生技术助力企业降本增效02阿里云
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 原生 核心技术 最佳 实战
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。