大规模复杂终端网络的云原生强化设计.pdf
《大规模复杂终端网络的云原生强化设计.pdf》由会员分享,可在线阅读,更多相关《大规模复杂终端网络的云原生强化设计.pdf(18页珍藏版)》请在咨信网上搜索。
1、 大规模复杂终端网络的云原生强化设计李振华王泓懿李洋林灏杨昕磊(清华大学软件学院北京100084)()Cloud Native Reinforced Design for Large-Scale Complex Terminal NetworksLi Zhenhua,Wang Hongyi,Li Yang,Lin Hao,and Yang Xinlei(School of Software,Tsinghua University,Beijing 100084)AbstractAs the“last mile”of Internet content delivery,terminal netwo
2、rks seem rather simple but in fact constitute99%of the performance bottlenecks.Classic design is usually oriented to typical devices and regular environments,thus making it difficult to accommodate and reproduce diversified scenarios and resulting in severe performancedegradation.By comprehensively
3、gathering and deeply diagnosing the anomalies of large-scale complex terminalnetworks at the cloud,we have revealed several important defects of the classic design for terminal networks in threekey dimensionsavailability,reliability and credibility.In order to fix these defects effectively and effic
4、iently,thecross-layer and cross-technology collaboratively reinforced design methodology is adopted (e.g.,the time-inhomogeneous 4G/5G dual connectivity management method is utilized to minimize the probability of networkdisconnection),so as to fulfill self-regulation mechanism design for ubiquitous
5、 scenarios.The research achievementshave been applied to the high-speed network of the Ministry of Public Security,17 million UUSpeedTest App users,70 million Xiaomi mobile phones,100 million Baidu PhoneGuard users,and 900 million WiFi devices.In recentyears,we have also conducted forward-looking ne
6、twork design based on cloud-hosted emulators to discover and fixpotential defects without real-world user engagement,thus making the design of terminal networks“born in the cloudand grow in the cloud”.The research achievements have been applied to Huawei DevEco Studio IDE(IntegratedDevelopment Envir
7、onment),Tencent App Market,Google Android Emulator,and multiple popular Apps(like Douyinand Toutiao)of ByteDance.Key words terminal network;network measurement;network design;cloud native;network emulation摘要作为互联网数据传输的“最后一公里”,终端网络看似简单却构成 99%的性能瓶颈.经典设计面向典型设备常规环境,难以兼顾多样化场景,导致严重性能落差.通过云端汇聚并深度诊断大规模终端网络异常
8、,在可用、可靠、可信 3 个关键维度揭示经典设计多处重要缺陷,采用跨层跨代的协同强化方法针对性修复(如时变非齐次 4G/5G 双连接管理方法最小化断网概率),实现无场景预设的自调控机制设计.应用于公安部高速网络、1 700 万“测网速”app 用户、七千万小米手机、一亿百度手机卫士用户以及九亿WiFi 设备.近年来进一步开展基于云端模拟器的前瞻网络设计,无需真实用户设备参与即可发现并修复潜在缺陷,让终端网络设计“生于云、长于云”.研究成果应用于华为 DevEco Studio 集成开发环境、腾讯应 收稿日期:2023-09-11;修回日期:2023-10-07基金项目:国 家 重 点 研 发
9、计 划 项 目(2022YFB4500703);国 家 自 然 科 学 基 金 项 目(61902211,62202266);微 软 亚 洲 研 究 院 合 作 研 究 项 目(100336949)This work was supported by the National Key Research and Development Program of China(2022YFB4500703),the National Natural ScienceFoundation of China(61902211,62202266),and the Microsoft Research Asia
10、Collaborative Research Project(100336949).通信作者:李振华()计 算 机 研 究 与 发 展DOI:10.7544/issn1000-1239.202330726Journal of Computer Research and Development61(1):219,2024用市场、谷歌安卓模拟器及字节跳动多款流行应用(如抖音和今日头条).关键词终端网络;网络测量;网络设计;云原生;网络模拟中图法分类号TP391自 1969 年诞生以来,互联网数据传输的基本结构一直由风格迥异的两部分组成:骨干网络和终端网络.前者包含数千万路由中继节点,由专业人员实时
11、维护,通常能保持高速稳定;后者作为数据传输的“最后一公里”,服务于多样化动态接入场景,如ADSL 有线电缆、WiFi 4/5/6 热点和蜂窝 2G/3G/4G/5G,对用户体验的影响最为直接,但由于规模巨大(近千亿节点)并且缺乏专业维护,很容易出现各种问题,看似简单却构成绝大多数(99%以上)数据传输过程的性能瓶颈1-3.长期以来,终端网络设计一直遵循“实验研究原型测试规模部署用户报修”的经典模式.随着现代互联网愈发庞大繁杂、多源异构,经典模式拖沓沉重、弊端重重实验研究与原型测试往往面向典型设备和常规环境,难以复现与兼顾终端复杂性,造成严重性能落差4,带给用户 4 个方面的困惑:1)网速困惑.
12、5G 和 WiFi 6 接入网络都宣称高达10 Gbps 的带宽和低至数毫秒的时延,然而用户实际体验到的却相去甚远5,甚至连我们日常拨打微信语音电话至今都经常卡顿.2)断连困惑.作为国家重点投资、市场热点宣传的 5G 接入网络,虽然峰值带宽很高,但信号覆盖半径小、穿透能力弱、运营成本高(不少 5G 基站夜间会自动关闭),连接中断的概率显著增加.3)安全困惑.用户身边通常遍布蜂窝基站和看似免费的 WiFi 热点,但很多都存在风险,比如央视315 晚会就多次报道犯罪分子利用蜂窝伪基站和WiFi 伪热点实施电信诈骗的猖獗现象.4)代际困惑.5G 手机和流量套餐通常都比 4G 要贵,但与之匹配的应用,
13、如自动驾驶和虚拟现实并不成熟,并且 5G 基站的总体覆盖范围小于 4G,导致很多用户对是否要升级 5G 存在疑惑.更糟糕的是,这些困惑往往长期存在、得不到及时解决,用户怨声载道却又不明就里.形象地说,终端网络设备一旦离开生产厂家,就像一个离家流浪闯荡的孩子,无时无刻不在面对各种未知、异常和风险.为此,本文作者(以下简称“我们”)多年来一直致力于终端网络基础设计模式的反思与革新.我们同终端设备制造商、网络运营商、操作系统和应用软件开发商广泛交流合作,发现想要解决大规模复杂终端网络的性能落差问题“知易而行难”.举一个典型案例,如图 1 所示是安卓 11/12/13 操作系统(分别发布于 2020/
14、2021/2022 年)共用的一段源代码,虽只有 10 行但意义重大,它控制着安卓设备对蜂窝网络的优先连接模式.不难看出,当一台安卓 11/12/13设备附近既有 5G 基站又有 4G 基站时,这段代码的处理方式非常简单:能连 5G 就连 5G,不能才降到 4G,而不考虑具体环境因素,比如信号强度或资源竞争.private int getPreferredNetworkMode()int networkMode=MobileNetworkUtils.getNetworkTypeFromRaf(int)mTelephonyManager.getAllowedNetworkTypesForReas
15、on(TelephonyManager.ALLOWED_NETWORK_TYPES_REASON_USER);if(!showNrList()Log.d(LOG_TAG,Network mode:+networkMode+reduce NR);networkMode=reduceNrToLteNetworkType(networkMode);Log.d(LOG_TAG,getPreferredNetworkMode:+networkMode);return networkMode;缩写 Raf=Radio access family,Nr=New radio=5G(目前阶段)Fig.1Cont
16、roller code for cellular network priority connected mode in Android 11/12/13 operating systems图 1安卓 11/12/13 操作系统对蜂窝网络优先连接模式的控制代码 如果一部安卓 5G 手机当前被很弱的 5G 信号和很强的 4G 信号同时覆盖,常识告诉我们:此时应该选择 4G 连接更为合理,不幸的是,基于图 1 中的代码,安卓会直接选择信号很弱的 5G 连接.更糟糕的是,由于 5G 基站附近的安卓手机通常都会优先连接到它,将导致该 5G 基站网络资源被多部手机激烈竞李振华等:大规模复杂终端网络的云原生
17、强化设计3争,而附近广泛存在的 4G 基站却由于无人问津而长期空闲、浪费充裕的网络资源,我们称这一现象为“饱和饥饿”6:明明服务方的总体资源是充足的,但客户方却得不到或者所得资源太少.更进一步,我们反思安卓操作系统蜂窝网络管理模块的设计者是否知道上述问题?基于常识推断,他(她)很可能是知道的.如果确实知道,那他(她)为什么不改进呢?仔细思考这个看似矛盾的状况,我们发现:即使设计者知道,也很难修改,因为这涉及到动机、平台、资源与知识层面的四道鸿沟:1)动机鸿沟.终端网络的软硬件设计者很多时候并非用户咨询和投诉压力的直接承担者,没有足够强烈的动机来解决问题.典型案例是安卓操作系统中多个网络模块的设
18、计所导致的问题几乎都被投诉到安卓手机制造商.2)平台鸿沟.即使设计者有动机解决性能落差问题,也经常因为缺乏平台支持,无法了解丰富场景下大量终端设备的实际使用情况.没有手机制造商的许可和帮助,即便安卓网络模块的设计者也很难洞悉用户在非预设场景下的真实体验.3)资源鸿沟.假设动机和平台兼备,大规模复杂终端网络的设计者还需要承担十分可观且不确定的后端资源开销来进行长期细致的数据采集和分析.值得注意的是,即便在利益相关的大公司内部,所需后端资源也不容易(充分)审批.4)知识鸿沟.即使动机、平台、资源方面都得到支持,想要妥善解决大规模复杂终端网络的性能落差问题,设计者还需要具备硬件、信号、频谱、网络、用
19、户心理等多维度全栈知识,这通常是最深也最隐蔽的科研鸿沟.针对用户的四重困惑和研发的四道鸿沟,我们多年来一直和终端网络用户投诉压力的直接承担者(如小米手机研发团队、“测网速”App 研发团队以及 WiFi 万能钥匙研发团队)紧密合作,以克服动机鸿沟.同时,这给予我们贴近数亿终端网络设备所处丰富场景的机会,具备细致识别用户真正痛点问题的客观条件,从而克服平台鸿沟.然而,对于剩下的资源鸿沟和知识鸿沟,工业界合作方通常并不能够提供充分的支持.因此,我们的科研工作聚焦于大规模复杂终端网络的低开销测量分析与自调控机制设计.一方面,针对终端网络设备规模性带来的调研成本挑战用户上报网络异常的常规和峰值负载可能
20、相差上万倍,利用服务器无感知的云原生基础设施,毫秒级精细取用云端资源,最小化测量分析开销,在可用、可靠、可信 3 个关键维度揭示终端网络经典设计的多处重要缺陷.具体来说,面对数量可观而时空不确定的终端网络异常数据,利用云原生的微服务核心技术以及轻量级容器/沙盒载体,能够细粒度按需灵活部署及快速回收后端资源,避免传统云计算平台中频繁发生的、由于虚拟机服务器绝大部分时间“空转”所导致的资源浪费.在云端为终端网络营造一个牢固而集约的家,让终端设备一个都不掉队.另一方面,针对终端网络场景复杂性带来的定制优化挑战非典型场景和非主流用户普适存在,采用跨层跨代的协同强化方法,整合多层次各方面知识,实现无场景
21、预设的自调控机制设计.尤其要避免经典设计和理论文献中看似合理的“震荡型”片面设计(牺牲较为隐蔽的“长尾”用户性能,成全更为显著的典型用户性能),网络整体性能提升的同时,不损害非主流长尾用户的局部性能.研究成果应用于公安部高速网络、三百万小米移动(虚拟运营商)用户、1 700 万友声科技“测网速”App 用户、七千万小米手机、一亿百度手机卫士用户以及九亿 WiFi 终端设备.1主要研究内容和创新点如图 2 所示,我们的研究立足终端网络的 3 个关 模糊拒绝采样应用效果亚秒网速测量核心思想云原生+可用可靠可信缓慢昂贵展示迟钝强化设计受限随机短暂表面被动等待市场垄断累积反馈调度快速网页加载时变马尔可
22、夫最短断网时间移动虚拟运营生态优化净化多源关联审查普适识别定位跨层诱捕检测溯源黑产链条研究维度设计缺陷关键技术跨层跨代协同工业系统高速传输稳定连通持久安全Fig.2Cloud native reinforced design for large-scale complex terminal networks:main research contents and innovations图 2大规模复杂终端网络的云原生强化设计:主要研究内容和创新点4计算机研究与发展2024,61(1)键维度:可用(高速传输)、可靠(稳定连通)和可信(持久安全),揭示经典设计的多处重要设计缺陷:1)可用性方面,终端
23、网络测速过程缓慢昂贵,网页展示过程迟钝拖沓;2)可靠性方面,断网修复机制被动等待、无法及时连通,网络运营市场长期垄断、阻碍技术创新;3)可信性方面,危险网络接入点的检测方式受限随机、检测结果很不理想,并且即使检测成功、防御或反击策略的效果也往往短暂而表面.针对这 3 个缺陷,我们面向大规模复杂终端网络,运用云原生强化设计的核心思想,结合(全协议栈)跨层跨代协同强化的关键理念,从广大用户体验痛点出发,以点带面渐进修复设计缺陷,最终突破网络整体性能边界,并在多个代表性工业系统中部署应用.研究创新性主要体现在 3 个方面:1)软硬件及人类行为因素的综合考量.不同于一般的强化学习过程,终端网络的设计不
24、是一个简单抽象的数学模型(往往很难以公式来形式化),涉及复杂的软硬件及人类行为因素,很多时候还要考虑工业界接受程度和对互联网整体生态系统的影响,因此需要大规模用户配合众包测量、大数据关联分析以及网络跨层协同设计.2)云原生微服务技术的双重有效支撑.大规模复杂终端网络的测量分析往往涉及数量可观而时空不确定的后端存储和计算资源开销,作为云原生的核心技术,微服务构建于轻量级容器或沙盒之上,如果设计合理、部署得当能够精细粒度按需灵活部署及快速回收,从而大幅度降低调研成本;同时,通过服务器无感知的开发模式,有效降低网络研究者利用云计算技术的知识门槛7.3)面向长尾用户体验的普适性能改进.终端网络的经典设
25、计面向主体用户、主流环境,其优化升级通常能够提升网络主体性能,但同时不可避免地损害部分用户局部性能,这种“牺牲小我、成全大我”的方式对现代互联网产业而言并不可取.与此相反,我们的研究注重细致周全的终端网络设计,从长尾用户的体验痛点出发,以点带面,最终促成网络整体的完善和进化.基于上述云原生强化设计新模式,我们对多个大规模复杂终端网络工业系统开展全面测量、深度分析和谨慎改造.在可用、可靠、可信 3 个关键维度所研发的 6 项代表性关键技术及其应用效果简介如下:1)提出模糊拒绝采样理论,首次实现亚秒级网速测量.网络带宽(即网速)的准确测量是保障诸多网络应用服务质量的重要前提,而影响准确性的关键因素
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大规模 复杂 终端 网络 原生 强化 设计
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。