分享
分销 收藏 举报 申诉 / 15
播放页_导航下方通栏广告

类型大数据处理平台构架设计项目新版说明书.docx

  • 上传人:w****g
  • 文档编号:2657132
  • 上传时间:2024-06-03
  • 格式:DOCX
  • 页数:15
  • 大小:713.07KB
  • 下载积分:8 金币
  • 播放页_非在线预览资源立即下载上方广告
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    数据处理 平台 构架 设计 项目 新版 说明书
    资源描述:
    大数据处理平台及可视化架构设计说明书 版本:1.0 变更统计 序号 版本 变更说明 修改人/日期 审批人/日期 1 1.0 创建 李万鸿 -3-18 目录 1 1. 文档介绍 3 1.1 文档目标 3 1.2 文档范围 3 1.3 读者对象 3 1.4 参考文件 3 1.5 术语和缩写解释 3 2 系统概述 4 3 设计约束 5 4 设计策略 6 5 系统总体结构 7 5.1 大数据集成份析平台系统架构设计 7 5.2 可视化平台系统架构设计 11 6 其它 14 6.1 数据库设计 14 6.2 系统管理 14 6.3 日志管理 14 1 1. 文档介绍 1.1 文档目标   设计大数据集成份析平台,关键功效是多个数据库及文件数据;访问;采集;解析,清洗,ETL,同时能够编写模型支持后台统计分析算法。 设计数据可视化平台 ,应用于大数据可视化和互动操作。 为此,依据“优异实用、稳定可靠”标准设计本大数据处理平台及可视化平台。 1.2 文档范围 大数据处理,包含ETL、分析、可视化、使用。 1.3 读者对象 管理人员、开发人员 1.4 参考文件 1.5 术语和缩写解释 缩写、术语 解 释 BD Big data SD 系统设计,System Design … 2 系统概述   大数据集成份析平台,分为9个层次,关键功效是对多个数据库及网页等数据进行访采集、解析,清洗,整合、ETL,同时编写模型支持后台统计分析算法,提供可信数据。      设计数据可视化平台 ,分为3个层次,在大数据集成份析平台基础上实现大实现数据可视化和互动操作。 3 设计约束 1.系统必需遵照国家软件开发标准。 2.系统用java开发,采取开源中间件。 3.系统必需稳定可靠,性能高,满足天天千万次访问。 4.确保数据成功抽取、转换、分析,实现高可信和高可用。 4 设计策略 1. 系统高可用、高性能、易扩展,安全稳定,实用可靠,满足用户需要。 2. 系统能够进行扩展,增加数据种类和数量。 3. 系统能够复用别软件和算法。 5 系统总体结构 5.1 大数据集成份析平台系统架构设计 1.逻辑架构 2架构说明 系统分为9个层次: 1)数据源:CSMAR数据库、高频系列数据库、 量化因子仓库、风险控制模型数据库、量化舆情数据库、互联网网页。 2)数据获取层:接收数据源数据和抓取网页,建立知识图谱将网页数据结构化,为人工和机器决议提供依据。 3)数据导入层:经过sqoop把数据库数据导入hbase,用flume、kafka把网页导入hbase。 4)数据加工层:对导入数据进行清洗、抽取、整合,并存入数据关键存放层。 5)数据关键存放层:采取hbase、关系数据库保留加工后数据。 6)数据分析处理层:经过统计分析、数据挖掘、机器学习、风控模型等对大数据进行分析处理。 7)数据服务存放层:存放分析结果,包含Elastic search分布式搜索,redis分布式缓存。 8)应用层:包含报表引擎、规则引擎、风控搜索引擎、用户认证系统、统计分析接口等。 9)服务层:对内应用服务和对外应用服务,为用户提供系统功效。 系统采取一系列优异开源技术框架,实现大数据抽取、ETL转换、清洗、整合、汇总、统计分析,得出可信度高结果,高速稳定地响应用户请求,可对企业宽系列产品提供高质量支持。还可建立企业云,把大数据平台放到云上。 系统从CSMAR数据库、高频系列数据库、 量化因子仓库、风险控制模型数据库、量化舆情数据库抽取数据,还用机器爬虫从互联网上抓取和金融相关网页,对这些结构化和非结构化数据进行抽取、清洗、整合、转换,存入hbase数据库。 统计分析程序采取一定算法和模型经过spark、hadoopyarn、hive、pig等读取处理数据,结果保留在服务层数据库,为用户提供可信数据,还可经过可视化以多种统计图展现出来,经过pc、手机能够看到结果。 系统提供可视化操作界面,用户可自己定义统计统计和参数,系统计算分析后给出对应图表。 3.系统特点 1、 高负载和海量数据处理能力 以云存放或当地存放为基石,以云计算或企业服务器为处理关键,建立了海量数据业务支撑大数据平台。天天能够承受千万级PV访 问压力,支撑亿级用户及P级各类数据存放如金融数据、网页、日志文件、图片、文档、影音等。基于此大数据支撑平台,不仅能够处理日以继夜增加TB级数据增量,更能满足各类实时业务需求 2、 业界领先实时性 在实时处理领域实现秒级突破,能够对各项业务数据惊醒实时查看和统计,方便用户快速做出决议和即时响应,适应该今快节奏发展趋势。如传统监控对年、月、周、日频次统计,能够实现二十四小时内实时监控,和管理目前实时改变统计仪表盘数据,更能实现7*24用户实时行为监测及秒级分析。 3、 全方面运行监控指标体系 不仅拥有常见接入站点运行监控流量指标如UV、PV、IP、新旧访客数,还建立了行为质量指标如用户请求,统计分析正确度 ,并可在此基础之上加入用户行为分析、统计模型调优、算法调优、网站访客背景分析、鼠标点击行为等高智能分析功效,从而为业务发展及运行策略提供了有力数据支撑。 4、 对用户起源和数据深入挖掘和分析 经过该平台不仅能够看到接入网站用户基础信息(跳出率、回访次数、回访频率、国家分析、省份分析、城市分析、网络位置、浏览器、移动终端等),还能够了解到用户起源(如起源页面、网站、搜索引擎、关键字等)。而且在此基础上能够了解到用户访问路径,对数据进行多维钻取,进而对网站用户数据信息采集、挖掘愈加深入。对大数据进行深入分析,为提升网站流量、提供科学推荐依据、实现高质量用户差异化服务给出有力数据支撑。 5、 对用户行为进行实时跟踪、立体分析及即时沟通和个性推荐服务 能够针对实时在线个体用户进行WEB IM即时沟通,提供即时一对一服务。并能够结合业务需求,在实现客服人员和用户一对一同时,展现该用户历史业务操作行为及个性化信息,如用户消费历史统计统计、行为习惯及喜好等。 6、 统一数据接入平台 数据接入层采取sqoop、flume、分布式日志系统,实现推拉模式多种主流方法,并可按需升级为统一数据接入平台,不仅支持日志及页面源码数据,还能够实现各类接口数据无缝可视化接入,如关系型和非关系型数据、多种主流非结构化数据等。 7、 立体推荐及算法可替换平台 能够对数据进行多个分析算法和模型处理,采取mahout、mlib二元分类、线性回归、聚类、协同过滤、卷积神经网络(CNN)进行机器学习,采取RF(随机森林)、SVM(支持向量机)、半监督学习,经过训练达成权重等参数最好化,优化样本空间,并实现完全自动化调参和学习。 还可结适用户群体特征、个性行为历史及多种显式、隐式反馈进行人脑分析,实现个体用户和群体用户立体化推荐和全过程人工干预。以算法平台为支撑,建立了可视化算法训练和推荐结构过滤植入,以增强用户个性化服务配置。实现了多种算法替换、组合和深度学习,如传统UCF、ICF及业务创新二度人脉剪枝算法等,以尽符合人脑思维习惯。 8、 多个风格统计分析数据展现方法 对数据统计分析实现人性化多种浏览器体验,传统风格如线性、柱形、饼状分析图为企业对不一样时段网站访问量、网站不一样模块访问量、针对访客不一样分类进行愈加直观分析。创新风格如热力图,更形象、视觉化表现网站页面不一样位置用户点击密度,实时反应出群体用户爱好特征,增强运行。用户能够自定义条件,得到可视化结果。 9、 主流用户端全端统计 该方案不仅能够统计WINDOWS/MAC/LINUX各类PC用户主流浏览器用户端(如IE、360、Chrome、Firefox等)数据,还能针对移动互联网用户统计主流移动用户端(如iphone,ipad,Android手机等)各类数据,并能依据RESTful接口开发各类所需各端统计,如WAP手机端,嵌入设备端等。 10、 操作体验简练方便 该方案秉承了人性化设计理念。在确保正确、高效基础上简化了操作过程,数据检索分析一键处理,极大方便了用户使用。各类所需统计数据一目了然,并能针对关键数据如用户信息、用户行为等进行一键化深度分析或即时服务操作。 11、 可靠性强 以云平台作为支撑。该平台有极强可靠性,能够确保该软件更稳定、有效、安全运行。 12、 可扩展性强 以云平台作为支撑,能够实现各类平台组件按需横向扩展,如存放扩容、计算增强等。 13、 集成性强 丰富接口含有极强集成性。能够实现和企业内部业务系统高密度集成,依据不一样业务部门需求调取数据和数据分析结果。 14、 可视化强 统计分析数据以图表,热图等方法表现,方便用户对比判定,在使用时更舒适、方便,提供用户体验度。多种操作过程如算法训练、人工干预、数据ETL等均实现可视化,根本性处理了手工代码操作问题。 15、 提供定制服务 能够依据用户特定需求进行更丰富功效扩展,量身打造适宜实时运行分析及服务平台。 5.2 可视化平台系统架构设计   数据可视化平台,实现 大数据可视化和互动操作。 1.逻辑架构 2. 架构说明 系统分为3个层次: 1)应用系统:提供可视化操作界面和显示结果,还包含决议支持、业务分析等。 2)大数据平台: 包含分布式数据库hbase,对大数据ETL和分析使用。 3).数据源:包含集成平台全部数据。 能够使用baidu开源软件echarts实现多种统计图表生成。 可视化效果以下: 6 其它 6.1 数据库设计 依据数据源进行科学数据库设计,对habse列族进行合理划分,对关键库和存放库区分设计。 6.2 系统管理 对系统、用户、数据库等进行管理。 6.3 日志管理 系统用kafka保留日志。
    展开阅读全文
    提示  咨信网温馨提示:
    1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
    2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
    3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
    4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
    5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
    6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

    开通VIP折扣优惠下载文档

    自信AI创作助手
    关于本文
    本文标题:大数据处理平台构架设计项目新版说明书.docx
    链接地址:https://www.zixin.com.cn/doc/2657132.html
    页脚通栏广告

    Copyright ©2010-2025   All Rights Reserved  宁波自信网络信息技术有限公司 版权所有   |  客服电话:0574-28810668    微信客服:咨信网客服    投诉电话:18658249818   

    违法和不良信息举报邮箱:help@zixin.com.cn    文档合作和网站合作邮箱:fuwu@zixin.com.cn    意见反馈和侵权处理邮箱:1219186828@qq.com   | 证照中心

    12321jubao.png12321网络举报中心 电话:010-12321  jubao.png中国互联网举报中心 电话:12377   gongan.png浙公网安备33021202000488号  icp.png浙ICP备2021020529号-1 浙B2-20240490   


    关注我们 :微信公众号  抖音  微博  LOFTER               

    自信网络  |  ZixinNetwork