特征选择技术在大数据背景下的挑战教学内容.docx
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 特征 选择 技术 数据 背景 挑战 教学内容
- 资源描述:
-
特征选择技术在大数据背景下的挑战 精品文档 特征选择技术在大数据背景下的挑战 1 介绍 在一个增长的时代数据复杂性和体积和大数据的出现,特征选择扮演一个关键的角色在帮助降低高维机器学习问题。我们讨论最近的起源和特征选择的重要性和轮廓的贡献在一系列应用程序中,从DNA微阵列分析人脸识别。近年来大量数据集的创建,显然,这些只会继续增长的规模和数量。这个新的大数据场景特征选择的研究人员提供了机遇和挑战,随着越来越多的需要还可伸缩的有效的特征选择方法,考虑到现有的方法可能不够充分。 “大数据”现象展现在我们面前,其转型自然是毫无疑问的。黎明之间的时间总共2003人类生成5艾字节的数据,到2008年这一数字已经增加了两倍,至14.7艾字节。现在5 eb的数据产生每2相互产量持续上升的步伐。因为体积、速度数据的多样性和复杂性不断增加,机器学习技术已经成为不可或缺的为了从大量的否则无意义的数据中提取有用的信息。特征选择是一个机器学习的技巧(FS),即属性,允许一个问题是明确的选择,虽然无关紧要或冗余数据将被忽略。特征选择方法传统上被归类为过滤方法,包装方法或嵌入的方法[1],尽管新方法,结合现有的方法或基于其他机器学习技术处理不断出现的挑战今天的数据集。在过去的几年里,特征选择已成功应用在不同的场景中涉及大量的数据,如DNA微阵列分析、图像分类、人脸识别、文本分类。但是,大数据的出现为研究者提出了前所未有的挑战。本文概述了特征选择研究的热点,旨在鼓励科学界寻求和接受最近出现的新机遇和挑战。 本文的其余部分组织如下。第二部分解释了为什么特征选择最重要的现在,第三节简要描述了特征选择的历史和评论最先进的方法,第四部分回顾最近的应用,第五节描述了特征选择的研究人员需要满足新兴挑战在未来几年,最后,第六节总结了纸。 2 特征选择的必要性 近年来,大多数企业和组织以一种系统化的方式存储大量的数据,但没有明确其潜在有用性的想法。此外,互联网的日益普及产生了许多不同的格式的数据(文本、多媒体等)和许多不同的来源(系统、传感器、移动设备等)。能够从这些数据中提取有用的信息,我们需要新的分析和处理工具。这些数据已经生成最后几来我们继续每天生成的字节结构[2]。大的大数据量和超高维度现在各种机器学习应用领域的循环特性,文本挖掘、信息检索等[3]。温伯格et al。[4],例如,协作的垃圾邮件过滤任务进行了一项研究有16万亿独特的特性,而谭et al .[3]的研究是基于广泛的合成和数以百万的真实数据集的数据点Oð1014Þ特性。大型的数据集提出了一个有趣的挑战为研究社区;引用Donoho等。[5]“我们的任务是找到一个海里捞针,梳理相关信息大量堆过剩”。 超高维度意味着巨大的内存需求和培训的高计算成本。泛化能力也被称为“维度”的诅咒。根据Donoho et al .[5],贝尔曼在1957年创造了这个五彩缤纷的词来形容的困难优化通过详尽的列举产品空间[6]。这个术语是指时出现的各种现象分析和组织数据在高维空间中(与成百上千的维度)不发生在低维的设置。数据集通常是由一个矩阵的行记录实例(或样品)和列的属性(或特性)代表手边的问题。为了解决维数问题,找到“窄”的数据集可以概括矩阵在某种意义上接近于原始。因为这些窄矩阵有一个小数量的样品和/或特性,它们可以更有效的利用比原来的矩阵。找到这些狭窄的矩阵的过程称为降维。 超高维度不仅带来难以忍受的内存需求和高计算成本的培训,而且恶化的泛化能力,因为“诅咒维度”的问题。根据[5],1957年贝尔曼[6]创造了丰富多彩的项维度的诅咒,在优化的难度通过详尽的列举产品的空间。这种现象出现在分析和组织不发生在低维的数据在高维空间的设置。任何数据集通常是由一个矩阵的行记录的实例或样本和列的属性/功能要求代表手边的问题。因此,解决维数问题的诅咒,数据集可以总结为发现“窄”矩阵,在某种意义上接近于原始。这些狭窄的矩阵只有少量的样品和/或少量的属性,因此可以更有效地比原来的大矩阵。找到这些狭窄的矩阵的过程称为降维。 特征提取是一种降维技术,解决了问题,找到最紧凑和丰富的功能对于一个给定的问题,提高数据存储和处理效率。特征提取的步骤分解为建设和选择。功能施工方法补充人类专家在“原始”数据转换成一组有用的功能使用预处理变换过程如标准化、规范化,离散化,信号增强,局部特征提取。一些施工方法不改变空间维度,而其他扩大,减少或两者兼而有之。不丢失信息是至关重要的在施工阶段的特征;第二,Elisseeff[7]建议最好总是宁可过于包容而不是丢弃有用的信息的风险。增加功能看似合理但这是要付出代价的:模式的维度的增加带来损失的风险相关信息的可能无关紧要,嘈杂的或冗余的特性。特征选择方法的目标是减少数量的初始特征,选择一个子集保留足够的信息来获得令人满意的结果。 在一个社会,需要处理大量的数据和特性在各种各样的学科,目前迫切需要解决必不可少的特征选择问题。要理解,研究人员所面临的挑战,下一节将简要描述特征选择的起源和最近的贡献。 3一个简短的历史 特征选择的过程被定义为检测相关特性和丢弃不相关和冗余特性获取的目标特性的一个子集,准确地描述一个给定的最低性能退化的问题[1]。从理论上讲,有大量的输入特性似乎是可取的,但维度不仅是一种内在的诅咒的高维数据的问题,但更多的联合数据和算法的应用问题。出于这个原因,研究人员开始在预处理阶段选择特性,试图将他们的数据转换成一个低维的形式。 第一个特征选择的研究可以追溯到1960年代[8]。休斯[9]使用一种通用的参数模型来研究贝叶斯分类器的精度的函数特性,得出结论如下:“测量选择,不像发达技术。提出了减少和组合相反,它们是说明了一个框架,用于进一步的调查”。此后,特征选择的研究提出了许多挑战,一些研究者高度怀疑进展;在“米勒博士的论文讨论”[10],例如,RL的管理者说:“如果没有解决变量消除高速计算的帮助下经过两年的工作,那么也许是时候将焦点转移到其他问题”。在1990年代,著名的进步是在特征选择用来解决机器学习问题(11 - 13)。如今,特征选择是承认起到至关重要的作用在减少实际问题的维数,可以在越来越多的出版物在这个问题(1、7、14、15)。 开发的新的特征选择方法在过去几个decades-classified过滤器、包装或嵌入方法是基于特征选择算法之间的关系和归纳学习方法用来推断模型[1]。特征选择方法也可以根据个人评价和子集分类评价方法[16];former-also称为特性排名评估的特征通过分配权重根据相关性,而后者产生候选特征子集基于一个特定的搜索策略随后评估的一些措施。 鉴于其能力提高学习算法的性能,特征选择吸引了机器学习领域的兴趣越来越浓,在集群等过程(17、18),回归(19、20)和分类(12、21),是否监督或无监督。 可用的众多特征选择算法,一些已成为研究人员中非常流行。表1简要列出了最常用的特征选择方法,表明他们是否单变量或多变量,是否返回一个排名或子集,原出版参考和计算复杂性(其中n是样本的数量和m是功能)的数量。 这些广泛使用的方法是特征选择的艺术的状态。多元方法通常比单变量方法来获得更好的结果,但在更大的计算成本。没有统一的方法,因为每个更适合特定类型的问题。以前的工作[32],我们回顾了一些先进的算法的性能在一个人工控制的情况下,检查他们的效率在处理等问题之间的冗余特性,非线性、噪声的输入和输出和更多的功能比样品(如发生在DNA微阵列分类)。表2总结了我们的结论(星号意味着更好的适合一个给定的问题)。注意,版本的SVM-RFE线性和非线性内核进行了测试,但后者(SVM-RFE-nl) 不是申请计算与成千上万的理由一个场景功能。 ReliefF,一个很好的选择独立问题的特殊性,著称的健壮和能够处理不完整和嘈杂的数据。它可以被应用在大多数情况下,较低的偏见,包括之间的交互特性,可以捕捉当地依赖其他方法可能小姐SVM-RFE也表现良好,虽然其计算复杂度可以防止使用非常高维数据集,特别是当使用非线性的内核。mRMR也表现可接受除了与大量数据集的特性。尽管该产品的研发得到了去除冗余的概念,mRMR无法丢弃冗余特性实验的人造DNA微阵列数据集,冗余是一个承认的问题。最后,可怜的相关性和冗余的结果得到与慢性疲劳综合症、一致性、互动与流行的畜栏InfoGain评估数据集,它有四个二进制值预测和类,所需的额外特性相关的类标签75%。这四个方法选择相关功能但丢弃的四个真正相关的特性。然而,它们非常有效地不选择冗余特征与成千上万的面对场景特性[32]。 可以看到,现有特征选择方法有其优缺点。请注意,计算时间不是我们之前考虑的分析[32]。然而,如今这个因素起着至关重要的作用在大数据问题。一般来说,单变量方法有一个重要的可伸缩性优势,但代价忽视功能依赖和有辱人格的分类性能。相比之下,多元技术提高分类性能,但其计算负担往往意味着他们不能被应用到大数据。很明显,特征选择研究人员需要适应现有的方法或提出新的为了应对大数据的爆炸带来的挑战(第5部分中讨论)。 4最近的贡献 人们不断地开发出新的特征选择方法有广泛的套件提供给研究人员。下面我们评估最近的事态发展在解决高维问题等领域的集群(33、34),回归第35 - 37()和分类(38、39)。 使用不同的功能类型和组合成为今天的许多真实的应用程序的标准,导致爆炸一个名副其实的特性给出计算和信息技术的飞速发展[2]。传统上,由于处理非常高维数据的必要性,大多数新特征选择方法过滤方法。尽管如此,嵌入的方法增加了流行在过去的几年里,因为它们允许同时特征选择和分类(40-42)。至于包装方法,这些得到的关注更少,由于沉重的计算负担和过度拟合的高风险样本的数量是不够的。还有一个趋势结合算法,以混合的形式方法[43-46]或合奏[47-51]。 除了我们自己的审查[32],说在前面的小节中,其他作品回顾了使用最广泛的特征选择方法,过去的几年里。莫利纳等。[52]评估基本特征选择算法的性能在控制的情况下,考虑到数据集的相关性,无关和冗余。Saeys等。[53]创造了一个经典的基本分类特征选择技术,讨论他们在生物信息学的应用程序使用。华等。[54]在设置一些基本的特征选择方法相比涉及成千上万的特性,使用基于模型的合成数据和实际数据。布朗et al。[55]提供了一个统一框架理论特征选择的信息,带来了近二十年的研究启发式过滤标准在一个单一的理论的保护伞之下。最后,加西亚et al。[56]专用的数据预处理的书一章讨论特征选择和分析其主要方面和方法。 另一个观点是专注于特定的问题时,获得与研究人员应用不同的特征选择技术,以提高性能。在这种情况下,方法是高度依赖于手头的问题。最具代表性的应用程序下面讨论。 4.1。应用程序 特征选择方法目前被应用于不同领域的问题。下面我们描述的一些最受欢迎的应用推广这些方法的使用。 4.1.1。微阵列分析 DNA微阵列基因表达差异的用于收集信息组织和细胞样本,可以用于疾病诊断或区分特定类型的肿瘤。样本容量通常是小(通常少于100名患者)但原始数据测量基因表达集体的特性可能从6000年到60000年。在这种情况下,特征选择不可避免地成为一个必不可少的预处理步骤。 最早的在这一领域的研究工作,在2000年代[53],主要是单变量范式(57-59),这是快速和可伸缩的,但忽略了特征依赖性。然而,一些与多元方法也尝试,因为这些可以依赖模型特性,尽管他们是慢,可伸缩低于一元技术[32]。多变量筛选方法(60 - 63)和使用更复杂的技术,如包装和嵌入式方法[64 - 67]。一个完整的回顾最新的特征选择方法用于微阵列数据可以在[68],这表明自2008年以来许多贡献属于过滤器一类,主要是基于信息理论(见图1)。包装器方法在很大程度上避免了由于沉重的计算资源的消费和过度拟合的高风险。尽管嵌入式方法没有收到关注婴儿的微阵列数据分类,近年来出现了几点建议。最后,值得注意的是,最近的文献揭示了倾向于结合算法混合或合奏方法(图1中表示为“其他”)。 4.1.2。图像分类 影像分类已成为一个热门研究领域,鉴于需求有效的方法对图像分类进行分类。图像特征的数值属性通常是分析来确定自己属于哪一类。与最近图像捕获和储存和互联网技术的进步,大量的图像数据已成为向公众开放,从智能手机照片收藏网站甚至视频数据库。自图像处理通常需要大量的计算机内存和权力,特征选择所需的功能可以帮助减少为了能够正确分类的图像。 尽管数据证明的爆炸特征选择适当的技术来处理数以百万计的图像,需要清楚地知道哪些特性提取每个像素出现几十年前。这个领域的一个常见问题是,文学是指许多模型从一个给定的图像,提取纹理特征,如马尔可夫随机域和同现的特性。 然而,随着Ohanian杜布指出[69],没有普遍的最佳特征子集。出于这个原因,特征选择的任务必须是特定于每个问题,以决定使用哪种类型的特性。Jain和Zongker[70]随后也试图确定合成孔径雷达图像的分类错误率可以减少通过特征选择一组18特性来自四个不同的纹理模型为每个像素。最近,几个过滤器被应用于特征提取与五种不同的纹理分析技术[71],尽管如此,在这种情况下,作者并没有那么多感兴趣使用哪个纹理特征,而是在减少计算时间必要提取特征。当特征提取和加工的数量降低,所需的时间也减少了在一致,这通常可以实现用最小的性能下降。 特征选择也适用于自动图像标注。提出了两种加权特征选择算法(72、73)帮助聚类算法处理大量数据的维度和实现扩展到大量的关键词。高et al。[74]杨和金[75]引入了一个解决方案基于分层特征选择算法解决问题的自动特征提取和图像分类器训练和特征子集的选择,使用多分辨率网格框架和增强算法支持向量机在高维特征空间中,分别。陆等。[76]后提出了一个遗传算法包装器方法来选择MPEG-7特征描述符。与此同时,小和鲁格[77]提出了一种非参数密度估计算法评估方法的特征子集。最近,马云等。[78]提出了一种新颖的方法,基于sparsity-based模型,共同选择最相关的特征从所有数据点同时发现共享子空间的原始特性(有利于多标记学习)。 4.1.3。人脸识别 识别人脸是一个复杂的视觉识别的问题。在过去的几十年里,人脸识别已成为最活跃的研究领域之一,由于其众多的商业和法律应用程序。一个常见的应用程序是确定或验证一个人从数字图像或video-sourced框架通过比较选定的面部特征的图像与面部特征数据库。在这个领域一个重要的问题是确定哪些图像特性最信息用于识别目的。不幸的是,这不是简单的任务,因为存在冗余对象图像;此外,面部数据库包含大量特性但减少数量的样本。特征选择算法对人脸识别最近被建议作为一种方法来解决这些问题。 特征选择的过滤方法是一种常见的选择,主要是由于其低计算成本与包装或嵌入方法。杨et al。[79]提出的方法基于物理意义的广义费舍尔则为了选择最歧视特性识别。陆等。[76]提出了一个新颖的方法来选择一个子集包含最基本的原始特性的信息;叫主特征分析(PFA),它类似于主成分分析(PCA)方法。德·马托斯et al。[80]介绍了人脸识别的方法基于离散余弦变换(DCT)系数的选择。最近,李et al。[81]引入了一个新的彩色人脸识别方法,使用顺序向前浮动搜索(设定触发器)获得一组最优颜色组件用于识别目的。同样值得注意的是,一些提出的方法基于进化计算技术被证明是成功的在这个领域(82 - 85)。 4.1.4。文本分类 文本分类的目标是对文档进行分类为固定数量的预定义的类别或标签。这个问题已经成为垃圾邮件检测特别相关的互联网应用和购物和拍卖网站。每一个独特的词在文档中被认为是一个特性。然而,因为这意味着输入特性远比示例(通常超过一个数量级),有必要选择词汇的一小部分,所以允许学习算法减少计算,存储和/或带宽需求。 预处理阶段通常是应用特征选择之前消除难得单词和单词形式,如复数和动词结合合并到相同的术语。有几种方法可以表示特性值,例如,一个布尔值来指示如果存在一个词或缺失或包括词的出现次数计数。即使这个预处理步骤中,在文档中可能的单词数量,可能仍然很高,所以特征选择是至关重要的。许多技术已经开发和应用于近年来这个问题。福尔曼[86]提出了一种新颖的特征选择度量,叫做bi-normal分离(bn),它是一个有用的启发式增加使用时可伸缩性与包装技术的文本分类。金等。[87]几种新颖的特征选择方法应用于集群数据,而Dasgupta et al。[88]提出了一种无监督特征选择策略,从理论上保证了泛化能力的分类函数的分类函数基于的所有特性。福尔曼[89]进行一系列的过滤器应用于二进制、多级和分层的文本分类问题,尤其关注可伸缩性。Ug˘是乌斯[43]随后提出一个两阶段的文本分类特征选择方法使用InfoGain,PCA和遗传算法,获得较高的分类效果有两个经典的基准数据集。商等。[90]最近提出了一个新颖的指标称为全球信息增益(演出),避免了冗余自然,还介绍了一种有效的全球信息增益特征选择方法称为最大化(MGIG),已被证明是有效的特征选择的文本域。最近,Baccianella等。[91]提出了六个小说专门为顺序设计的文本分类特征选择方法。 可以看到,大多数机器学习方法可以利用的特征选择预处理的目的,因为它通常提高模式识别的精度,降低了计算成本。我们的简短回顾了特征选择的应用程序更受欢迎,但文学作品描述了许多更多的应用领域,包括入侵检测[92][93]和机械故障诊断。 5 热点:特征选择下一个什么? 这篇文章开始提到的,计算机技术的不断进步使研究人员和工程师收集数据速度越来越快。解决的挑战,分析这些数据,特征选择成为一个必要的预处理步骤,需要适应和改进能够处理高维数据。我们已经强调了需要特征选择和讨论最近的贡献在几个不同的应用领域。然而,在新的大数据的场景中,一个重要的挑战正在崛起,代表当前特征选择研究的热点。 5.1。数以百万计的尺寸 在新的大数据的时代,机器学习方法需要能够处理数据的空前的规模。类似于大数据,“大维度”一词被创造是指到达空前数量的功能水平呈现现有机器学习方法[2]不足。 广泛使用UCI机器学习库[94]表明,在1980年代,的最大维度数据仅为100。到了1990年代,这一数字已经增加到超过1500,到2009年,超过300万人。如果我们关注UCI数据集的属性的数量,13多5000的特性和大多数有一个样本/特性比低于0 a水平,可能阻碍任何学习过程。记忆,图2显示了数量的特征维数最高的数据集包含在UCI机器学习库在过去的七年。流行LIBSVM数据库中的[95]的最大数据维数约为62000在1990年代,增加到大约1600万在2000年代和超过29个百万在2010年代;类似地,现有的92数据集有超过5000的特性和11比样本数据集有很多更多的功能。7的数据集包含在这两个存储库在过去的9年数百万的维数的顺序。除了这些通用存储库,还有其他与特定的高维度问题,如上述DNA微阵列分类[68]和图像分析(96、97)。 在这种情况下,现有先进的特征选择方法是面对关键的挑战可能对性能产生负面的影响。作为一个例子,翟等。[2]指出,超过一天的计算工作先进的SVM-RFE和牛皮癣mRMR功能选择器来处理数据单核苷酸多态性(SNP)一百万特性组成的数据集。 此外,许多先进的特征选择方法是基于算法设计计算两两相关。的影响在处理一百万特性计算机需要处理一万亿的相关性。这种问题带来了机器学习的研究人员面临的一个巨大挑战,仍然需要解决。 5.2。可伸缩性 大多数现有的学习算法是数据集的大小是小得多,但现在不同的解决方案所需的小规模和大规模学习问题。小规模的学习问题受到通常的approximation-estimation权衡,但这代价是更复杂的大规模学习问题,不仅因为精度也将学习算法的计算复杂度。此外,由于大多数算法被设计根据假设数据集将被表示成一个驻留内存表,这些算法是无用的整个数据集时并不适合在主内存。数据集大小因此扩大机器学习算法的一个原因。然而,还有其他的设置,研究人员能找到机器学习任务的规模令人生畏的[98],例如: 1模型和算法复杂性:高精度的学习算法要么依赖于复杂的,非线性的模型,或采用计算昂贵的子例程。 2推理时间限制:应用程序涉及传感、机器人导航、语音识别等,需要在实时预测。 3预测瀑布:应用程序需要顺序、相互依存的预测有一个高度复杂的联合输出空间。 4模型选择和参数扫描:优化学习算法hyper-parameters和评估统计学意义需要多个学习处决。 鉴于所有这些原因,扩大学习算法是一个热门问题。情况下在点车间“帕斯卡大规模学习挑战”25日举行的国际会议上机器学习(ICML08)和“大学习”研讨会举行的2011年会议的神经信息处理鉴于所有这些原因,扩大学习算法是一个热门问题。情况下在点车间“帕斯卡大规模学习挑战”25日举行的国际会议上机器学习(ICML08)和“大学习”研讨会举行的2011年会议(NIPS2011)神经信息处理系统的基础。扩大是可取的,因为增加了训练集的大小通常增加算法[99]的准确性。扩大学习算法的问题与其说是一个加速的一个缓慢的算法之一,将一个行不通的算法转化为实用的一个。今天,有一个共识在机器学习和数据挖掘社区数据量提供了一个直接的挑战与可伸缩性问题[2]。关键的一点是很少有多快可以运行在一个特定的问题,而是大问题你可以如何处理[100]。 可伸缩性的影响被定义为训练集的大小增加算法的计算性能的准确性,训练时间和分配的内存。这样的挑战是要找到一个平衡在这些标准——换句话说,获得“足够好”的解决方案尽可能“快速”和“有效”。如上所述,这个问题变得非常关键的情况下有时间和空间约束作为发生在实时应用程序处理大型数据集,无与伦比的计算问题需要学习和初始原型需要迅速实现的解决方案。 类似于实例的选择,其目的是在丢弃多余的,即[101],冗余的或无关紧要的,样本,特征选择可以扩展机器学习算法通过减少输入维数,因此算法运行时。然而,当处理一个数据集包含大量特性和样本,特征选择方法的可伸缩性也假设至关重要。因为大多数现有特征选择技术是为了处理小规模的数据,他们的效率可能会降低,如果不是完全下降,高维数据。图3显示了运行时响应修改特性和样本的数量为四个著名的特征选择士兵方法应用于SD1数据集,一个模拟DNA微阵列数据的合成数据集[102]。 在这种情况下,特征选择的研究人员需要关注不仅在选择的准确性,而且在其他方面。其中一个因素是稳定,定义为结果的敏感性训练集的变化。其他重要的因素,可伸缩性,指的是特征选择应对越来越大训练集。一些研究已发表关于过滤器的行为在小训练集与大量的特性(55103 - 105)和更少的问题上可伸缩性[106]。什么研究主要集中在可伸缩性存在于特定的应用程序[107],修改现有的方法[108],实例的组合和特征选择策略[109]和在线[110]和[111]平行方法。最近的一篇论文谭等。[3]描述了一种新的自适应特性的扩展方法合成和真正的大数据集,基于组特征选择和多个内核的学习,它能使可伸缩性大数据场景。 一般来说,尽管大多数经典的单变量特征选择方法(每个特性单独考虑)有一个重要的优势的可伸缩性,他们忽视功能依赖性,因此可能比其他表现较差的特征选择技术。多元技术,相比之下,可能会提高性能,但降低成本的可伸缩性[112]。特征选择方法的可伸缩性是如此关键,从科学界更值得关注。之一,通常采用处理可伸缩性问题的解决方案是将数据分发到多个处理器,在下一节中讨论。 5.3。分布式特征选择 传统上,特征选择是应用于一个集中的方式,即。,一个单一的学习模型用于解决一个给定的问题。然而,由于现在数据可能分布,特征选择可以利用并发处理多个子集序列或。有几种方法可以分配一个特征选择的任务[113](注:实时处理将在5.4节讨论): (1) 是在一个非常大的数据集的数据。数据可以分布在多个处理器,一个相同的特征选择算法可以在每个运行和结果的总和。(2)不同数据集的数据可能在不同的位置(例如的不同部分,在一个公司,甚至在不同的合作组织)。至于前面的情况下,一个相同的特征选择算法可以运行在每个结果的总和。(3)大量数据可能抵达一个连续的无限流。如果数据流到一个处理器,可以由不同的处理器处理不同部分并行代理。如果数据流到不同的处理器,他们可以处理如上所述。(4)数据集不是特别大,但不同的特征选择方法需要应用学习看不见的实例并结合结果(通过某种投票系统)。整个数据集可以在一个处理器,通过相同或不同的特征选择方法,访问数据的全部或部分。 最后一个方法,称为整体学习,最近收到很大的关注[114]。这种方法的兴趣是由于这一事实,因为高方差是特征选择方法的问题,一个可能的解决方案是使用一个方法基于组合方法(115年,51)。 个人选择器选择器在一个被称为基地。如果基本选择器都是一样的,整体的称为均匀。整体特征选择是在两个步骤来完成的。首先,一组选择器是应用不同的特性,没有普遍的原则优化技术,可能有多个类似的特性,区分数据的子集。第二,每个特性选择器产生的输出是排名随后通过共识聚合特性,选择最常见的特征选择,等[116]。 如前所述,大多数现有的特征选择方法是不会规模有效地处理数以百万计的功能;事实上,他们甚至可能变得不适用。一个可能的解决方案可能是分发数据,在每个分区上运行特征选择,然后合并结果。分区数据分布的两种主要方法是由样本特性(垂直)或(水平)。分布式学习已经被用于扩大规模数据集太大的批量学习样本(117 - 119)。虽然分布式学习是不常见的,有一些发展关于数据分布特性[120121]。一个提议是一个分布式的方法,数据分区既垂直和水平[122]。另一个是分布式并行特征选择方法,该方法可以在分布式形式和执行并行读取数据特征选择在对称多处理模式通过多线程和大规模并行处理[111]。然而,当处理大维度的数据集时,研究人员必须分区的必要性的特性。在DNA微阵列数据的情况下,小样本大小结合大维度防止水平分区的使用。然而,前面提到的垂直分区方法不考虑一些这些数据集的特性,如高之间的冗余特性,所描述的方法完成Sharma等。[123]和Bolon-Canedo et al。[124],后者计算成本要低得多。 几个范例进行分布式学习在过去的十年里出现了。MapReduce[125]就是这样一种流行的编程模型有一个关联的实现与并行处理和生成大型数据集,在集群的分布式算法。Hadoop开发的切割和Cafarella[126]2005年,是一组算法的分布式存储和分布式处理非常大的数据集在计算机集群;这是由商品硬件和基于MapReduce处理部分。最近开发Apache火花[127],一种快速、通用发动机对于大规模数据处理,在机器学习研究人员由于迭代过程的适用性。 发达在Apache火花范式MLib[128],创建一个可扩展的机器学习库包含算法。虽然它已经包含许多学习算法支持向量机和朴素贝叶斯分类和k - means聚类等,到目前为止,它不包括特征选择算法。这对机器学习的研究人员提出了挑战,也提供了一个机会来启动研究的一个新行。 另一个开放的研究是使用图形处理单元(gpu)分发,从而加速计算的特征选择算法。与许多应用物理模拟、信号处理、金融模型,神经网络,和无数的其他领域一样,通常运行在gpu并行算法实现了在类似CPU 100 *加速算法。现在的挑战是利用GPU的能力适应现有最先进的特征选择方法能够有效、准确地处理数以百万计的特性。 5.4。实时处理 数据被收集在一个前所未有的快节奏,相应地,需要迅速处理。社交媒体网络和便携设备主导我们的日常和我们需要复杂的方法,能够实时处理大量的数据,例如:垃圾邮件检测和视频/图像检测[2]。 古典批学习算法不能处理连续数据流流动,需要在线方法。在线学习[129],不断修改和精炼的过程模型中加入新的数据按需,已成为一个热门领域在过去的几年里,因为它解决重要问题的过程(如发生在时间。,股票价值由于其历史和其他外部因素)。映射过程实时更新,随着越来越多的样品。在线学习还可以用于非常大规模的数据集,因为一个可能的解决方案可能是学习数据顺序的方式。 在线特征选择没有得到同样的关注在线学习[129]。尽管如此,一些研究存在描述试图选择相关特性在一个场景,在该场景中,出现新的样品和新特性。Zhang et al。[130]提出了增量特征子集选择算法,原始的布尔矩阵技术,有效地选择有用的特性对于给定的目标数据。然而,特征选择方法的效率与增量没有测试机器学习算法。Katakis et al。[131]提出了一个动态特征空间的想法,即特征选择从最初的培训文档随后被认为是由学习者在系统操作。然而,可能随时间变化的特性,初步训练集通常不是在某些应用程序中可用。Katakis等。[131]结合增量特征选择与他们所谓的基于功能的学习算法在高维数据流处理在线学习。 这个框架是应用于概念漂移的特殊情况[132]固有的文本数据流(即。随着时间的推移,新的预测单词的外观)。这种方法的问题是,特点是认为离散值。珀金斯等。[133]描述了一个新颖的和灵活的方法,叫做嫁接,对选择合适的特征作为不可或缺的一部分学习正规化的预测学习框架。什么使嫁接适合大问题是,它在增量迭代的方式运作,逐步建立一套功能而使用梯度下降训练预测模型。帕金斯和赛尔[134]解决问题的特性可用一次而不是从一开始,他们的方法,称为在线特征选择(OFS),假设,不管出于什么原因,它是不值得等待,直到所有特性学习开始之前就已经到达。他们由此衍生出一个“足够好”映射函数从输入到输出基于特性见过这么日期的一个子集。OFS在图像处理领域的潜力是演示了通过应用边缘检测问题的[135]。一个有前途的替代方法,称为网络流特征选择(OSFS),选择和冗余功能[136]密切相关。在另一个方法中,两种小说在线特征选择方法使用相关性选择动态特性;冗余是后来才考虑,当这些特性通过流媒体,但训练例子的数量仍是固定的[137]。最后,文学包含许多研究指在线特征选择和分类。一个是一个在线学习算法对特征提取和分类,实现对影响声学信号榛子仁[138]。另一个,李维和Ullman[139],提出分类图像进行特征选择,虽然他们的方法只使用一个小的子集训练数据在每个阶段。另一个描述在线特征选择执行基于权重分配给每个分类器输入[140]。 网上可以看到,特征选择是处理主要是在个体基础上,即。一步,通过筛面的特性独立的在线机器学习步骤,或通过执行在线没有后续在线分类特征选择。因此,实现实时分析和对高维数据集的预测仍然是一个挑战对计算智能移动平台上。现在的问题是要找到能够修改的灵活的特征选择方法选择特征子集作为新的训练样本的到来。也希望这些方法执行在一个动态的特征空间,将最初是空的,但新信息到达时(如添加特性。、文档的文本分类应用程序)。 5.5。功能成本 本文中我们可以看到,尽管新的特征选择方法正在开发中,但大多数更关注移除不相关和冗余功能的成本而不是获取输入功能。相关的成本与功能是不同的概念。例如,一个模式在医学诊断由可观测的症状(如年龄和性别),没有成本,以及测试的结果,相关的成本和风险;作为一个例子,侵入性手术探查是昂贵得多比血液测试[141]和高风险。特征提取风险的另一个例子是由巴哈蒙德et al。[142],动物测定在现存动物评估肉牛的优点是必要的。另一个成本是相关的计算问题。在医学成像领域,从医学图像特征提取可以计算代价高昂;此外,在纹理分析技术称为[143]共生特性,提取每个特性的计算成本的变化意味着不同的计算时间。在实时应用中,空间复杂度是可以忽略不计,而时间复杂度[144]是至关重要的。图5显示了一些示例cost.1的特性 正如一位可能会注意到,功能有一个关联的成本可以在许多实际的应用程序。然而,这并没有为机器学习研究人员关注的焦点。大部分的作品只考虑错误分类成本,收到这是惩罚,而决定一个对象属于一个类,它不是真正的一个[145]。有一些试图平衡特性的贡献和他们的成本。例如,在分类、弗里德曼[146]包括正则化项传统线性判别分析(LDA);左边的成本函数计算误差和右侧术语与k正则化参数加权,提供一个框架,根据k值不同的正则化解决方案。相关特征提取,你et al。[147]提出了一个标准选择内核参数基于最大化类间散射和最小化在类散射。一般分类框架应用人脸识别提出了莱特等。[148]研究特征提取和健壮性闭塞获得稀疏表示。这种方法,而不是测量特性和类之间的相关性,评价表示错误。 尽管前面的分类和特征提取的尝试,有少数作品特征选择中处理这个问题。在1990年代早期,Feddema et al。[144]开发方法为图像特征的自动选择一个机器人。对于这个选择过程,他们雇了一个加权准则,考虑成本的计算特性,即。的时间和空间复杂性特征提取过程。几年后,杨和Honavar[141]提出了一种遗传算法进行特征子集选择、设计适应度函数的基础上的两个标准神经网络在分类精度和分类成本(成本定义为测量所需的特定功能的价值分类,风险,等等)。黄和王[149]使用遗传算法的特征选择和支持向量机的参数优化,使用分类精度,选择特性和功能成本作为标准来设计适应度函数。混合特征子集选择基于蚁群优化方法和人工神经网络也被描述[150],启发式的,使蚂蚁选择特性的逆成本参数。最近,提出了一种新的通用框架,包括添加新术语特征选择的评价函数方法,功能成本考虑[151]。最后,徐et al。[152]检查测试时间CPU成本的两个主要组件,即分类器的评估成本和特征提取成本,并展示了如何平衡这些成本与分类精度。 虽然减少了成本的问题与特征选择在过去的几年里,收到了一些关注小说的特征选择方法,可以处理大规模和实时应用迫切需要计算成本必须预算和占。机器学习研究的新机会与最先进的算法的准确性,同时降低计算成本。 5.6。可视化和可解释性 近年来,一些降维技术开发了数据可视化和预处理。然而,尽管目标可能是更好的可视化,大多数技术的限制被可视化的功能转换的原始特性[153 - 155]。因此,当模型解释能力是很重要的,降维的特征选择是首选的技术。 一个只是一样好它的特性,特性的原因产生了并将继续发挥优势作用模型的可解释性。用户有一个双重的可解释性和透明度的必要性在特征选择和模型创建过程:(i)他们需要更多的互动模型可视化,在那里他们可以改变输入参数更好的未来与模型和可视化交互场景和(2)他们需要更多的互动特征选择过程中,使用交互式可视化,他们有权遍历不同的特征子集,而不是绑定到一个特定的子集选择算法。 一些近期作品描述使用特征选择来提高模型的解释能力在不同领域获得的。一个例子是一个方法的自动和迭代优化推荐系统,特征选择的步骤选择的最佳特征初始模型自动优化它[156]。另一个是使用特征选择改善决定trees-representing代理模拟人员在一个组织中,模型可持续性behaviors-through专家审查的理论一致性[157]。另一个是基于映射生成地形数据可视化的方法估计功能特点同时作为可视化模型训练[158]。克劳斯等。[159]描述的可视化工具帮助用户开发的预测模型问题,允许他们排名功能(根据预定义的分数),结合功能和检测尺寸之间的相似之处。 然而,数据无处不在,不断增加,和异构。我们正在见证一种第欧根尼综合症指数据:组织收集和存储吨的数据,但大多数没有工具或资源的访问,从他们的数据生成战略报告和见解。组织需要以一种有意义的方式收集数据,以便从一个丰富的数据/ knowledge-poor场景数据丰富/ knowledge-rich场景。挑战在于让用户友好的可视化结果,从而增强可解释性。由大数据应用程序复杂性隐含也强调了需要限制可视化复杂性的增长。因此,尽管特征选择和可视化处理相对隔绝彼此在大多数研究到目前为止,数据的可视化功能可能在真实世界的高维度场景中可发挥重要作用。然而,同样重要的是要记住,尽管可视展开阅读全文
咨信网温馨提示:1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。




特征选择技术在大数据背景下的挑战教学内容.docx



实名认证













自信AI助手
















微信客服
客服QQ
发送邮件
意见反馈



链接地址:https://www.zixin.com.cn/doc/3863083.html