计算机软件技术在大数据时代应用探究.pdf
《计算机软件技术在大数据时代应用探究.pdf》由会员分享,可在线阅读,更多相关《计算机软件技术在大数据时代应用探究.pdf(4页珍藏版)》请在咨信网上搜索。
1、信息记录材料 2023 年 7 月 第 24 卷第 7 期计算机软件技术在大数据时代应用探究江诗敏(湖北闪云信息科技有限公司 湖北 武汉 430070)【摘摘要要】大数据技术的出现改变了当前计算机软件技术的应用水平,扩大了应用范围,提高了应用质量,大数据正逐步成为一种高价值的资源。对大数据进行深度挖掘,不仅能够有效地提升社会服务水平,还能够为一些政策的制定提供一定依据。为厘清大数据技术对计算机软件技术应用的价值,进一步促进信息技术的发展,通过文献查阅、实地调研并结合相关研究对计算机软件中的数据挖掘技术进行探究,为计算机软件在大数据背景下更好地应用提供一些方向。【关关键键词词】计计算算机机软软件
2、件技技术术;大大数数据据时时代代;数数据据挖挖掘掘【中中图图分分类类号号】TP39 【文文献献标标识识码码】A 【文文章章编编号号】1009-5624(2023)07-0191-040 引言大数据时代,互联网已经进入了以光网为载体的“宽带视频”时代,在 4G 及 5G 的支持下,移动互联网及物联网等应用正蓬勃发展。数据互动已从小范围文本和图片简单的传输发展为照片、音乐和视频等信息共享,而且视频的内容也在以几何倍数增长。将其中某些数据整合分析,产生出有价值的数据,对海量数据进行存储和传输,都会产生大量的数据挖掘、智能计算等方面的需求。尤其是在数据挖掘技术方面,被广泛地运用于计算机软件工程,并且取
3、得了良好成果。本文在此基础上,阐述了数据挖掘技术的内涵及其在软件工程中的重要作用。1 数据挖掘概念数据挖掘是一种新兴的技术,其最大的作用在于数据分析,能够通过处理海量的数据并获取有用的信息,提高数据的利用率。因此,将数据挖掘技术应用于软件工程,能够保证数据的质量与效率,更好地发挥数据的价值。因此,越来越多行业将数据挖掘技术应用于后端数据的处理过程,分析出供需关系,更好地服务社会。2 数据挖掘的目标数据挖掘工作主要包括:分类、预测、关联、聚类、回归、智能推荐等几方面。企业、政府等组织与实际需求以及业务内容相结合,运用挖掘技术从现有的数据中提取有价值的信息,为自身的发展带来竞争力。数据挖掘的任务如
4、图 1 所示。图 1 数据挖掘的目标3 数据挖掘的方法目前,国内外对数据挖掘的研究主要集中在五个方面,即分类和预测、聚类、关联规则、时序模式、离群点检测。3.1 分类和预测针对已知类型的数据集构建模型,然后用该模型对其他的样本进行再分类,此模型具有监督学习、精度较高的特点。预测指的是利用已有数据集训练模型,通过模型预测未知样本的数据性能,它是探索 2 个或 2 个以上变量之间相互依赖的模型。贝叶斯网络、回归分析、人工神经网络、决策树和支持向量等常用的分类预测方法1。详见表 1。表 1 分类算法介绍算法名称算法介绍回归分析回归分析是研究 2 个或多个变量之间的关联性和关联性,利用变量数据构建模型
5、来预测其他的变量。回归分析包括了线性回归,非线性回归,逻辑回归等几个方面人工神经网络人工神经网络是一种模仿大脑的神经网络机理,用来构建一种抽象的输入输出关系的模型贝叶斯网络贝叶斯网络,也叫信心网络,也叫因果网络,是用来刻画变量间相互依存关系的图样决策树决策树利用构建的模型中的每一个叶子节点对应的属性,经过反复的判断,得出最终的决策支持向量机支持向量机是一种有监督学习算法,对数据进行二分类的模型3.2 聚类聚类是将相似的对象划分到不同的组别或集合中,形成组内的相似性较高,组间的差异较大特征。常用的聚类方法包括 K-Means 算法、K-中心点法和系统聚类算法2。详见表 2 所示。3.3 关联规则
6、关联规则分析又被称为购物篮分析,主要是对两个或多个变量之间的相关性以及相关性强度进行评估,最早被运用在销售数据的分析中对不同商品之间的相关性进行分析,从而达到提高销售量的目的。常用的关联规则算法包括 Apriori 算法、TP-Tree 算法、Eclat 算法、灰关联法等。表 3 中对常用的关联规则算法进行了详细叙述。191信息记录材料 2023 年 7 月 第 24 卷第 7 期表 2 聚类算法介绍算法名称算法介绍K-MeansK-Means 算法是一种迭代求解的聚类分析算法,指定好 K 的值,将数据聚类成 K 个簇K-中心点K-中心点算法不采用簇对象的均值作为中心,而是采用簇中离平均值最近
7、的对象作为簇中心层次聚类层次聚类系统聚类,通过计算不同类别之前的相似程度来建立一颗有层次的树形结构表 3 关联规则算法介绍算法名称算法介绍AprioriApriori 是数据挖掘中的经典算法,是一种找出频繁项集的高效算法FP-TreeFP-Tree 可以建立一个精简的数据结构,从这种数据结构中提取频繁集项EclatEclat 与 Apriori 和 FP-Tree 算 法 不 同 的 是,Eclat 采用垂直数据结构筛选出频繁集项3.4 时序模式时序模式是用来刻画时间或其他序列出现的规律和趋势,同时也可以用已知数值去预测未来的数值。在时序模式中,常见的算法有平滑法、趋势拟合法、组合模型等。表
8、4 列出了常用的时序模式算法。表 4 时序算法介绍算法名称算法介绍平滑法平滑法常被用于趋势分析和预测中,它通过计算指数平均值与一定的时间序列相结合对未来的趋势进行预测的趋势拟合法趋势拟合法指的是以时间为自变量,以观察值为因变量,构建观察值随时间变化的回归模型3.5 离群点检测离群点检测用于发现与数据集中区特征不同的其他对象,常见的离群点检测方法包括:基于统计学的离群点检测、基于邻近度的离群点检测、基于密度的离群点检测、基于聚类的离群点检测。详细介绍见表 5。表 5 离群点检测算法介绍算法名称算法介绍基于统计的以统计为基础的离群点检测就是建立一个概率分布模型,并计算出对象在该模型中的概率,将小概
9、率的点视为离群点基于邻近度的以接近度为基础的离群点检测是计算两个数据之间的邻近度,把邻近度较小的对象视为离群点基于密度的基于密度的离群点检测是考虑到某些数据集可能存在不同密度区域,将数据对象处于低密度范围时视为离群点基于聚类的以聚类为基础的离群检测就是把数据对象聚集在一起,将远离集群的点作为离群点4 数据挖掘过程数据挖掘技术是一种从数据采集、评价、到对数据进行处理的方法。其目标是针对具体行业的数据对象挖掘来获得有价值的结果。已经被嵌入在各个领域,结合分析的结果并结合实际情况制定相应的方案。数据挖掘的主要步骤分别是制定挖掘目标、数据收集、数据探索与预处理、模型建立、模型评估、结果分析,数据挖掘的
10、过程示意图见图 2。图 2 数据挖掘过程示意图目标设定是指在进行数据挖掘时,首先要结合数据背景设定目标。在采集数据阶段,可以采取抽样的方式对集数进行收集。数据探索性分析可分为质量分析与数量特性分析3。质量分析的主要目的是找出原始数据中是否有脏数据,比如有缺失值、离群值、不一致的值、重复数据以及特殊符号等。探索性分析是对数据中某些特征指标进行探索性分析,并以图表的方式将其表现出来。数据预处理阶段主要是对数据进行数据清洗、属性规约、数据变换等工作,目的是将数据整理成符合数据挖掘操作的形式,方便后续工作的进行。在数据建模过程中,根据企业的实际情况选用合适的建模方法开展建模,也可以构建多种模式,比较不
11、同模式之间的优劣。通过建模结果反馈再对模型进行优化,最后确定模型,为数据挖掘分析铺垫基础。5 数据挖掘技术的应用5.1 应用与信息挖掘在软件工程领域,采用数据挖掘技术可以实现对数据的全方位和多角度的控制。计算机软件工程的应用非常广泛,包含了非常复杂的数据信息,但通过运用数据挖掘技术能够实现对相关信息数据统一管理和集中化管理。在具体项目开发过程中,利用相关软件就能够及时地更新和处理数据资源,从而最大限度地提高项目的开发质量,达到预定的目标。此外,数据挖掘中包含了很多的数据信息,为确保技术人员能够对软件的内部结构进行科学分析和正确识别,需要将数据挖掘技术的优势发挥到最大,为后期运行人员提供快速分析
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算机软件 技术 数据 时代 应用 探究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。