分享
分销 收藏 举报 申诉 / 113
播放页_导航下方通栏广告

类型专题三-CRM的数据管理.ppt

  • 上传人:精****
  • 文档编号:12636509
  • 上传时间:2025-11-17
  • 格式:PPT
  • 页数:113
  • 大小:1.58MB
  • 下载积分:20 金币
  • 播放页_非在线预览资源立即下载上方广告
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    专题 CRM 数据管理
    资源描述:
    单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,CRM的客户数据及数据库的构建,CRM的客户数据,客户数据类型,描述性,数据,交易性,数据,促销性,数据,定位,客户,针对性,促销,产生,交易,1、客户描述性数据,是描述客户或消费者的基本信息的数据类型。,2、市场促销性数据,市场促销数据主要包括促销活动类型、对促销活动的描述、促销媒体、促销时间、市场促销意图及相关的成本信息等。,匿名系统结构,标识信息,目的标识,消费者,具体信息,标,识,目,的,标,识,姓名地址,匿名数据分析,防火墙,客户,CRM数据库的构建,数据库发展简介,1963,年,美国,Honeywell,公司的,IDS,(,Integrated Data Store,)系统投入运行,揭开了数据库技术的序幕。,20,世纪,70,年代是数据库蓬勃发展的年代,,网状系统,和,层次系统,占据了整个数据库商用市场,而关系系统仅处于实验阶段。,20世纪80年代,,关系系统,由于使用简便以及硬件性能的改善,逐步代替网状系统和层次系统占领了市场。,20世纪90年代,关系数据库已成为数据库技术的主流。进入21世纪以后,无论是市场的需求还是技术条件的成熟,,对象数据库技术,、,网络数据库技术,的推广和普及已成定局。,数据库技术的基本术语,1、数据库,(Database,简记为,DB,)DB是,长期存储,在计算机内、,有组织,的、,可共享,的、,统一管理,的相关数据的集合。,DB的特点:,数据按一定的数据模型组织、描述和储存;,可为各种用户共享;,冗余度较小,数据独立性较高;,易扩展,2、数据库管理系统,(Database Management System,简记为,DBMS,)DBMS是位于,用户与操作系统(OS)之间,的一层,数据管理软件,,它为用户或应用程序提供访问DB的方法,包括DB的建立、查询、更新及各种数据控制。,DBMS用途:,能够科学地组织和存储数据、高效地获取和维护数据,用户,DBMS,分类:,DBMS总是基于某种数据模型,可以分为,层次型;,网状型,关系型;,面向对象型等,3、,数据库系统,(Database System,简记为,DBS,),DBS,是实现有组织地、动态地存储大量关联数据、方便多用户访问的计算机,硬件,、,软件,和,数据资源,组成的系统,即它是采用数据库技术的计算机系统。具体包括:,计算机硬件,数据库,数据库管理系统,应用软件,数据库管理员,4、,数据库技术,是研究数据库的,结构,、,存储,、,设计,、,管理,和,使用,的一门,软件学科,。,客户数据库的建立,1,、客户数据库的特点,(,1,)动态的、整合的顾客数据管理和查询系统,(,2,)基于数据库支持的顾客关系格式或结构系统,(,3,)基于数据库支持的忠诚顾客识别系统,(,4,)基于数据库支持的顾客购买行为参考系统,(,5,)个性化服务,2、客户数据来源,企业内部数据,一年内,无交易行为,继续购买中,流失客户,继续,来往客户,潜在客户,整理测试,剔除,企业外部数据,交易信息,营销信息,基本信息,交易信息,营销信息,基本信息,客户数据库,营销,渠道客户,3、数据处理工作内容:,(1)数据管理:收集信息、将信息用数据表示并按类别组织保存;,收集和整理数据;,组织和保存数据,进行数据维护;,提供数据查询和数据统计功能。,(2)数据加工:对数据进行变换、抽取和运算;,(3)数据传播:在空间或时间上以各种形式传播信息,而不改变数据的结构、性质和内容;,注意:,数据管理,是,数据处理业务的基本环节,,而且是任何数据处理业务中必不可少的共有部分。,应研制有效的数据管理软件,以减少程序员的负担。,数据处理是与数据管理相联系的,数据管理技术的优劣,将直接影响数据处理的效率。,4、建立客户数据库应注意的什么问题?,?,CRM,的数据采集,(,1,)定义商业问题,(,2,)建立营销数据库,(,3,)研究数据,(,4,)为建模准备数据,(,5,)建立模型,(,6,)评价模型,(,7,)展开模型获得结果,数据库的维护和更新,应该做的工作是什么?,CRM,数据,仓库,数据仓库,(DW),的概述,数据处理分为两类:,1、以操作为主要内容的操作性处理:对数据库联机的日常操作,通常是对记录的查询、修改、插入、删除等操作。,2、以分析决策为主要内容的分析型处理:用于决策分析,为管理人员提供决策信息。,为什么需要分离的数据仓库?,说明:,事务处理环境,不适合,运行分析型的应用系统,目的是提高两个系统的性能.操作数据库系统是为已知的任务和负载设计的,它的主要任务是联机事务处理OLTP;而数据仓库的查询通常是复杂的,涉及大量数据在汇总级的计算,在操作数据库系统上处理,OLAP,查询,可能会大大降低操作任务的性能,.,数据仓库的定义以及特点,1、数据仓库是面向主题的、集成的、不可更新的、随时间不断变化的数据的集合,数据仓库用来支持企业或组织的决策分析处理。,2、数据仓库的特点:,(1)数据仓库是面向主题的,(2)数据仓库是集成的,数据仓库的数据又来自于分散的操作型数据,将所需数据从原来,的数据中抽取出来,进行加工与集成、统一与综合之后才能进入数据,(3)数据仓库是不可更新的,数据仓库主要是为决策分析提供数据,所涉及的操作主要是数据的查询,一般情况下并不需要对数据进行修改操作。,(4)数据仓库是随时间而变化的,数据仓库中基本术语,1、数据集市,是一个针对某个主题的经过与统计处理的部门级分析数据库,如销售数据集市,营销数据集市,库存集市和财务集市等。,2、元数据,数据仓库中存放来自不同工作数据库系统的数据,记录原始数据的相关信息的数据称为元数据。,数据仓库的基本体系结构,数据源,抽取 装载,刷新 清理,数据仓库,数据集市,服务,OLAP,服务器,OLAP,服务器,前端工具,查询工具,分析工具,报表工具,数据挖掘工具,OLTP和OLAP的区别,用户和系统的面向性:,OLTP是面向顾客的,用于事务和查询处理,OLAP是面向市场的,用于数据分析,数据内容:,OLTP系统管理当前数据.,OLAP系统管理大量历史数据,提供汇总和,聚集机制.,数据库设计:,OLTP采用实体-联系ER模型和面向应用的,数据库设计.,OLAP采用星型或雪花模型和面向主题的数,据库设计.,视图:,OLTP主要关注一个企业或部门内部的当前,数据,不涉及历史数据或不同组织的数据,OLAP则相反.,访问模式:,OLTP系统的访问主要由短的原子事务组成.,这种系统需要并行和恢复机制.,OLAP系统的访问大部分是只读操作.,CRM中的数据仓库,CRM与数据仓库的关系,CRM的业务整合需要数据仓库,数据清洁与集中需要数据仓库,数据分析需要数据仓库,数据仓库的作用,客户行为分析,重点客户发现,个性化服务,市场性能评估,客户,交叉销售,增量销售,客户保持,潜在客户,市场策略,市场专家,客户行为反馈,产生市场机会,市场机会,客户关照流程,处理市场机会,客户关照过程,客户行为分析,发现重点客户,制定市场策略,CRM业务逻辑,客户信息,生产系统,客户行为,其他相,关数据,CRM数据仓库的系统结构,数据仓库建设,OLAP&报表,客户行为分组,重点客户发现,性能分析模板,客户分析,数据集市,数据仓库,分析数据准备,OLAP&报表,市场专家,调度调控,运营分析等,数据仓库的实施,SYBASE 数据仓库在 大鹏证券的应用分析,市场背景,项目背景,数据仓库选型,解决方案,实施效果,CRM数据挖掘及数据挖掘技术,CRM的数据挖掘,数据挖掘的含义,技术上的定义及含义,数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。,商业角度的定义,数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。,数据挖掘与传统分析方法的区别,数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识,数据挖掘的方法,1、分类,2、估计,3、预测,4、组合或关联法则,5、聚类,6、描述和可视化,间接的数据挖掘,直接的数据挖掘,商业领域的数据挖掘,作为研究工具的数据挖掘;,改进生产过程的数据挖掘;,市场营销中的数据挖掘;,客户关系管理中的数据挖掘。,数据挖掘的互动循环过程,数据挖掘的互动过程促成学习机制,使用数据挖掘方法将数,据转换成可执行的决策行动,理解企业业务问题,,了解数据,分析结果的价,值体现领域,按照决策,采取行动,评价工作成效,提出数据,探索方面的建设性意见,了解数据,数据准备,数据相关性前期探索,模型构造,模型评估与检验,检验达到预,定成功率?,确定分析和预测目标,部署和应用,预测变量相关,性不准确,基础数据不足,或噪音太大,是,是,否,是,CRM中应用数据挖掘的实施步骤,数据挖掘在客户关系管理中的应用,新客户的获取,交叉销售,增量销售,客户保持,实现一对一营销,发现重点客户客户中的VIP,从客户生命周期角度分析数据挖掘技术的应用,不同阶段客户扮演的角色,目标,市场,新客户,最初的,客户,高价值,低价值,高潜力,自愿离开,客户,被迫离开,的客户,未来潜在客户,新客户,已确定客户,流失客户,其余,重获,与客户生命周期息息相关的人生阶段,目标,市场,回应的,客户,最初的,客户,高价,值,低价值,高潜力,自愿离开,客户,被迫离开,的客户,未来潜在客户,回应的客户,已确定客户,流失客户,争取客户的促销活动,回应客户数据的取得,真正客户的重要事件,反馈活动和收集活动,激活,初次购买,目标,市场,回应的,客户,最初的,客户,高价值,低价值,高潜力,自愿离开,客户,被迫离开,的客户,未来潜在客户,回应的客户,已确定客户,流失客户,不同客户生命周期阶段出现的数据,促销记录活动,已消费客户的,人口数据,信用报告,自报信息,产品使用率,付账记录,对促销活动的反应,消费渠道偏好,终止原因,数据挖掘应用技术,常见数据挖掘技术,人工神经网络,决策树,遗传算法,回归预测,贝叶斯分类,聚类分析,时间序列分析,基于案例的推理,Web数据挖掘,关联规则,选择数据挖掘技术,1、根据数据挖掘目标选择数据挖掘技术,目标性数据挖掘,描述性数据挖掘,2、根据数据类型选择数据挖掘技术,关联规则,关联规则的含义,简单的说是在数据库和数据仓库中发现大量数据之间的有趣的相关联系。关联规则形式化的定义如下:,设I=i,1,i,2,i,m,是二进制文字的集合,其中的元素称为项。记D为交易T的集合,这里交易T是项的集合,T,I,。对应每一个交易有唯一的标识,记作TID。设X是一个I中项的集合,如果X,T,则交易T包含X。一个关联规则就是一个形如X,Y的蕴涵式,这里X,I,,Y,I,并且X,Y=,。,关联规则的两个重要特性,1、置信度(Confidence),又称为正确率,描述关联规则的可靠程度。具体而言,规则X,Y在交易集中的置信度是指包含X和Y的交易次数与包含X的交易次数之比,记作confidence(,X,Y)。,2、支持度(Support),又称覆盖率,描述关联规则的适用范围。具体而言,规则X,Y在交易集中的支持度是指交易集中同时包含X和Y的交易次数与所有交易次数之比,记作support(,X,Y)。,举例:,记录号,购物清单,1,2,3,4,5,啤酒、尿布、婴儿爽身粉、面包、雨伞,尿布、婴儿爽身粉,啤酒、尿布、牛奶,啤酒、尿布、洗衣粉,啤酒、牛奶、可乐,上表中,共发生交易5次,即T,1,,,T,2,,,T,3,,T,4,,,T,5,交易中的商品设为项,即啤酒为X,1,,尿布为X,2,,婴儿爽身粉为X,3,,面包为X,4,,牛奶为X,5,,洗衣粉为X,6,,可乐为X,7,。,问题:,超市经理想知道商品之间的关联,要求列出哪些同时购买的,且支持度0.4 的商品名称。,单项统计结果,单项统计,支持度,啤酒,尿布,婴儿爽身粉,牛奶,0.8,0.8,0.4,0.4,双项统计,支持度,啤酒,尿布,啤酒,牛奶,尿布,婴儿爽身粉,0.6,0.4,0.4,双项统计结果,得出如下规则:,R,1,:啤酒,尿布,S=0.6,C=0.6/0.8=0.75,R,2,:,尿布,啤酒,,S=0.6,C=0.6/0.8=0.75,R,3,:,牛奶,啤酒,,S=0.4,C=0.4/0.4=1,R,4,:啤酒,牛奶,S=0.4,C=0.4/0.8=0.5,R,5,:尿布,婴儿爽身粉,S=0.4,C=0.4/0.8=0.5,R,6,:,婴儿爽身粉,尿布,,S=0.4,C=0.4/0.4=1,关联规则的支持度与置信度的实际意义,置信度低,置信度高,支持度低,关联规则很少正确,而且很少被使用,关联规则在多数情况下是正确的,但是很少被使用,支持度高,关联规则很少正确,但可以经常被使用,关联规则在多数情况下是正确的,但可以经常被使用,关联规则的支持度与置信度,注:,参考书目:Jiawei Han and Micheline Kamber 的数据挖掘概念与技术,决策树,举例:,有一群人,描述这群人的属性有年龄,年收入,学历。,D,C,2,C,1,年龄,年收入,B,2,B,4,B,3,B,1,B,1,B,1,B,1,B,1,B,1,B,1,B,1,学历,决策树,一个树性的结构,内部节点上选用一个属性进行分割,每个分叉都是分割的一个部分,叶子节点表示一个分布,决策树生成算法分成两个步骤,树的生成,决策树的建立过程,开始,数据都在根节点,递归的进行数据分片,树的修剪,去掉一些可能是噪音或者异常的数据,决策树使用:,对未知数据进行分割,按照决策树上采用的分割属性逐层往下,直到一个叶子节点,停止分割的条件,一个节点上的数据都是属于同一个类别,没有属性可以再用于对数据进行分割,属性选择的统计度量,信息增益,Information gain,(ID3/C4.5),所有属性假设都是种类字段经过修改之后可以适用于数值字段,解释:ID3算法源于概念学习系统,是在20世纪70年代末由J.Ross Quinlan 提出的最早的决策树算法之一,是面向离散变量最经典的构建决策树的算法。,基尼指数Gini index,(IBM IntelligentMiner)能够适用于种类和数值字段,熵(,Entropy,)的基本概念,熵的概念是由,德国,物理学,家,克劳伊士,于,1865年,所提出。,1948年由,克劳德艾尔伍德香农,第一次引入到,信息论,中来。,熵在信息论的定义如下:,如果有一个系统S内存在多个事件S=E,1,.,E,n,每个事件的概率分布 P=p,1,.,p,n,,,则每个事件本身的信息为,I,e,=-,logpi,整个系统的平均信息量为,信息增益度度量(ID3/C4.5),任意样本分类的期望熵值:,H(X)=H(x,1,x,2,x,n,)=P,i,log,2,(p,i,)(i=1到n),注:,(i从1到m),其中,数据集为X,n为X的分类数目,,P,i,X,i,/,X,C,i,为某分类标号,P,i,为任意样本属于C,i,的概率,x,i,为分类C,i,上的样本数,假设属性A具有m个不同的值。相应地,可以用属性A将数据集划分为m个子集(X,1,X,2,X,m,),其中集合,X,j,中包含A中所有在属性A上取值A,j,的数据样本。,记x,ij,是子集X,j,中属于C,i,类的样本数。此时对应于属性A分类的信息熵值可以用下式来计算,H(X/A),=,(,x,1j,+,x,2j,+,x,nj,)/,x,H(,x,1j,x,2j,x,nj,),注:,(j从1到m),属性A对于分类提供的信息增益则为:,信息增益:Gain(A)=I(X;A)=H(X)H(X/A),应用规则:,对于测试属性A的信息增益越高,说明选择的测试属性A对于分类提供的信息越大,选择A之后对分类的不确定程度越小,因此,必须选择具有最高增益的属性为下一分类的测试属性。,具体步骤如下:,(1)令决策树T的初始状态只有一个根(X,Q),其中是X训练样本集合,Q是测试属性集合;,(2)判断中的所有叶节点(X,Q)的状态,如果满足一下条件之一,则停止执行ID3算法,得到最终结果T;,介绍ID3算法,集合X中的训练实例都属于同一类;,测试属性集Q 为空,即没有剩余属,性可用来进一步划分样本;,(3)否则,选取一个不具有步骤(2)所述状态的叶节点(X,Q ),使用信息增益的基于熵的度量做为启发信息,从Q 中选择最好地将样本分类的测试属性;,(4)基于该测试属性的所有取值都创建一个分支,并据此划分样本,生成新节点。同时对于新生成的节点而言,对应的测试属性集将设为其父节点的测试属性集减去当前的测试属性后的所得。,(5)转步骤(2),递归地执行算法。,举例,假设要为一家银行构建一个CRM系统,其中一项主要功能是需要通过对企业客户的经营状态、经济利润以及历年销售情况的分析来决定银行对该企业的信贷策略以及信贷力度。,数据列表如下:,企业,固定资产(万元),销售利润率,历年信贷信誉,是否给与贷款,A,B,C,D,E,F,G,H,I,J,K,2300,6000,560,1500,870,1100,3400,4120,1390,390,1200,12%,23%,3%,8.2%,13.1%,1.5%,6.2%,14.7%,2.7%,4.2%,7%,差,差,差,很好,很好,很好,很好,一般,一般,一般,差,是,是,是,是,是,是,否,否,否,否,否,1、属性:固定资产、销售利润率、历年信贷信誉、是否给与贷款,其中“是否给与贷款”是类的标号属性;,2、样本集合X由两个不同的类组成,即X=(C,1,C,2,),其中C,1,包括6个样本,而C,2,包括了5个样本,计算样本集合X分类的期望熵值:,H(X)=H(x,1,x,2,x,11,)=-P,i,log,2,(p,i,)=-6/11 log,2,(6/11)-5/11 log,2,(5/11)=0.994,3、计算对应的每一个属性的信息熵值,(1)固定资产,排序:390,560,870,1100,1200,1390,1500,2300,3400,4120,6000,固定资产划分为:1000万元以下,1000-5000万元,5000万元以上。,1000万元以下:,x,11,=0,x,21,=3,H(x,11,x,21,)=0,1000-5000万元,x,12,=5,x,22,=2,H(x,12,x,22,)=0.863,5000万元以上。,x,13,=1,x,23,=0,H(x,13,x,23,)=0,根据公式得:,H(X/A)=3/11 H(x,11,x,21,)+5/11 H(x,12,x,22,)+1/11 H(x,13,x,23,)=0.549,计算固定资产对分类提供的信息增益,为:I(X;A)=H(X)-(H/A)=0.445,(2)销售利润率,排序:1.5%,2.7%,3%,2.2%,6.2%,5,7%,8.2%,12%,13.1%,14.7%,23%,将销售利润划分为5%以下,510%,,1015%和15%以上,5%以下,x,11=,2,x,21=,2,H(x,11,x,21,)=1,510%,x,12=,1,x,22=,2,H(x,12,x,22,)=,1015%,x,13=,2,x,23=,1,H(x,13,x,23,)=,15%以上,x,14=,1,x,24=,0,H(x,14,x,24,)=0,计算销售利润对分类提供的信息增益,为:I(X;B)=H(X)-(H/B)=0.1295,(3)历年信誉被部分为三个档次:差,一般,很好,算法同上得:,计算销售利润对分类提供的信息增益I(X;C)=H(X)-(H/C)=0.63,将历年信誉作为测试属性,进行分支:,历年信誉,差,否,好,是,否,一般,是,通过初步分类后,样本量剩余4个,“是”的样本为2,“否”的样本为2,则H(X)=1,进一步计算信息增益:,I(X;B)=H(X)-H(X/B)=1,I(X;C)=H(X)-H(X/C)=0.541,将销售利润作为测试属性,进一步划分,:,历年信誉度,销售利润率,否,否,是,是,5%以下或,5%10%,10%15%或,15以上,一般,好,差,最后产生分类规则集,(1)IF企业“历年信誉度”=“好”THEN银行可以给予贷款,(2)IF企业“历年信誉度”=“差”THEN银行不可以给予贷款,(3)IF企业“历年信誉度”=“一般”AND“销售利润率”=“15%”THEN银行可以给予贷款,人工神经网络,一、人类对人工智能的研究分两种方式,且对应着两种不同的技术:,其一:传统的人工智能技术心理角度模拟;,其二:基于人工神经网络的技术生理角度模拟。,二、人工神经网络的概述(Artificial Neutral Network),(一)定义,人工神经网络是一并行、分布处理结构,它由处理单元及称为联接的无向信号通道互连而成。这些处理单元具有局部内存,并可以完全局部操作。每个处理单元有一个单一的输出联接,这个输出可以根据需要被分支成希望个数的许多并行联接,且这些并行联接都有输出相同的信号,即相应处理单元的信号,信号的大小不因分支的多少而变化。处理单元的输出信号可以是任何需要的数学模型,,每个处理单元中进行的操作必须是完全局部的。也就是说,它必须紧紧依赖于经过输入联接到达处理单元的所有输入信号的当前值和存储在处理单元局部内存中的值。,(二)PDP人工神经网络的基本构成要素,1、一组处理单元;,2、处理单元的激活状态(a,i,);,3、每个处理单元的输出函数(f,i,);,4、处理单元之间的连接模式;,5、传递规则(,w,ij,O,i,);,6、把处理单元的输入以及当前状态结合起来产生激活值的激活规则(F,i,);,7、通过经验修改联接强度的学习规则;,8、系统运行的环境(样本集合)。,(三)PDP模型下的人工神经网络模型如下:,x,1,w,1i,x,2,w,2i,.,x,n,w,ni,net,i,=,x,j,w,ji,a,i,=,F,i,(,a,i,net,i,),O,i,=f(a,i,),(四)神经网络的基本属性,1、非线性,2、全局性,3、时变性,4、多样性,三、人工神经网络的基础,(一)生物神经系统的六个基本特征,(1)神经元及其联接,(2)神经元之间的连接强度决定信号的传递强弱,(3)神经元之间的连接强度是可以所训练而改变的,(4)信号可以是起刺激作用,也可以期到抑制作用,(5)一个神经元接受信号的累计效果决定神经元的状态,(6)每个神经元可以有一个“阈值”,(二)人工神经元的基本构成,X=(x,1,x,2,x,3,x,n,)输入变量,W=(w,1,w,2,w,3,w,n,)联接权向量,net=,x,i,w,i,神经元的输入信号的累计效果,即神经元的网络输入,(三)激活函数,o=f(net),类型:,1、线性函数,2、非线性斜面函数,3、阈值函数/阶跃函数,4、s性函数/压缩函数/逻辑斯特函数,(四)M-P模型,net=XW,o=f(net),x,1,w,1,x,2,w,2,x,i,w,i,销售利润,拖欠贷款,三、人工神经元的决策,举例:银行是否给予企业贷款,条件:企业当年销售利润为8000万,当前拖欠贷款4000万。,第一步:将数值标准化0-1之间的数字,标准化后分别为:0.8和0.4,第二步:计算权值;,第三步:计算网络的输出,0.8,0.4,第四步:与给定阈值相比较,大于阈值,则被激活,即可以贷款,否则,不予贷款,注意:,1、采用何种神经元网络拓扑结构,2、如何确定阈值,权值和激活函数,聚类分析,聚类分析概述,研究目的:,就是把相似的对象归并成类,研究的主要内容是如何度量相似性以及怎样构造聚类的具体方法以达到分类的目的。,研究对象:,对样品进行分类,即从实际问题中,观测得到n个样品X,i,i=1,2,n,要根据某相似性原则,将这n样品进行分类;,二是对指标进行分类,即对所考察的p个指标X=(x,1,x,2,x,p,),根据n个观测值X,i,=(x,i1,x,i2,x,ip,),i=1,2,n,要由某相似原则将这p个指标x,1,x,2,x,p,进行分类。,与回归分析,判别分析并称为多元分析的三大方法。,聚类分析的方法,相似性度量,假设所考察的问题有p项指标,X=(x,1,x,2,x,p,),,仅得到n个观测值,X,i,=(x,i1,x,i2,x,ip,),,记,X,1,/,x,11,x,12,x,1p,X=,X,2,/,=,x,21,x,22,x,2p,X,N,/,x,n1,x,n2,x,np,n,p,样本数据矩阵,1、样本间的相似量,常用样品之间的距离来衡量样品间的相似程度,(1)对距离进行定义,如果样品X,i,和X,J,的函数满足d,iJ,=d(,X,i,X,J,),:,d,iJ,0,,,对一切,X,i,X,J,;,当且仅当,X,i,=,X,J,时,,有,d,iJ,=0,;,d,iJ,=,d,J,i,;,对于样品,X,i,X,J,X,k,,有,d,iJ,d,ik,+d,Jk,则称d,iJ,是样品X,i,和X,J,之间的距离。,(2)距离的类型,欧几里德 距离计算两点之间的几何距离,d(i,j)=(x,i1,-x,J1,),2,+(x,i2,-x,J2,),2,+(x,ik,-x,Jk,),2,1/2,其中:i=(x,i1,x,i2,x,ik,)和j=(x,J1,x,J2,x,Jk,)是两个k维的数据对象,马氏距离,B-模距离,闵可夫斯基距离,2、指标间的相似度量,指标的分类,一是间隔尺度,指标可以用连续的数值来表示,例如长度,直径等;,二是有序尺度,指标可以只可以用有序的等级号来描述,而没有明确的数量表示,如评价酒的等级分为好,中,次等;,三是名义尺度,指标即不能用数量表示,也没有次序关系,这时往往给以数字符号予以区别,如人的职业分为工人,干部,教师等。,间隔尺度指标的度量;,对有序尺度指标度量;,对名义尺度指标度量。,系统聚类法(Hierarchical Clustering Methods),1、,基本思想:,先将每个研究对象(样品或指标各自看成一类,按某种顺序分别称做第1,第2,第h类(如果对象是样品,则h=n;如果对象是指标,则h=p);然后根据对象间的相似度量,将h类中最相似的两类合并,组成一个新类,这样,得到h-1类,再在这h-1类中找出最相似的两类合并,得到h-2类,如此下去,直至将所有的对象并成一个大类为止。,2、,系统聚类法的具体步骤:,构造n个类,每一类只包含一个样品;,计算n个样品两两之间的距离,d,iJ,,记作,D,(0),=(,d,iJ,(0),),n,n,合并距离最近的两类为一新类,称做第n+1类,并取消刚合并的那两类,这样,得到n-1类。,计算新类与剩余各类的距离,其他各类间距离不变,得到降一阶的新距离矩阵,D,(1),=(,d,iJ,(1),),(n-1),(n-1),,若类的个数等于1,则转到步骤(5);否则,回到步骤(3),画聚类图,决定类的个数和类,3、,常见两类之间的“距离”或“相似系数”(以样品为例),:,设G,r,与G,s,为两类,以d,iJ,表示G,r,类中第i个样品与类G,s,中的第j个样品之间的距离,则:D,1,(r,s)=mind,iJ,|i,G,r,j,G,s,为类G,r,与G,s,之间的最短距离;,D,2,(r,s)=maxd,iJ,|i,G,r,j,G,s,为类G,r,与G,s,之间的最长距离;,D,3,(r,s)=1/n,r,n,s,d,iJ,为G,r,与G,s,之,间的类平均距离,其中n,r,,n,s,分别为G,r,,G,s,包含的样品个数;,i,G,r,j,G,s,D,4,(r,s)=d(G,r,G,s,)为G,r,与G,s,之间的类重心距离,其中d(G,r,G,s,)表示G,r,与G,s,的重心之间的距离。,4、,具体方法,(1)最短距离法,(2)最长距离法,(3)类平均法,举例:现有5个样品,每个只有一个指标,它们分别是1,2,3,4.5,6,8,求解:,将5个样品各级为一类:,G,1,=1,G,2,=2,G,3,=4.5,,G,4,=6,G,5,=8,计算两类之间的距离,利用欧氏距离,,D,(0),=,0,1 0,3.5 2.5 0,5 4 1.5 0,7 6 3.5 2 0,1 2 3 4 5,1,2,3,4,5,找出最小者,d,12,=1,,,所以合并,G,1,和,G,2,,,为新类,(,4,)利用最短距离,G,6,=1,,,2,,,G,3,=4.5,,,G,4,=6,,,G,5,=8,算出新类与剩余各类的距离,得,d,36,=,D,1,(3,6)=min,d,13,d,23,=min3.5,2.5,=,2.5,d,46,=,D,1,(4,6)=min,d,14,d,24,=min5,4,=,4,d,56,=,D,1,(5,6)=min,d,15,d,25,=min7,6,=,6,0,D,(1),=,1.5 0,3.5 2 0,2.5 4 6 0,重复第3步 寻找最小值得:d,34,=1.5,3 4 5 6,3,4,5,6,G,6,=1,2,G,7,=4.5,6,G,5,=8,算出新类与剩余各类的距离,得,d,57,=,D,1,(5,7)=min,d,35,d,45,=min3.5,2,=,2,d,67,=,D,1,(6,7)=min,d,36,d,46,=min2.5,4,=,2.5,0,6 0,2 2.5 0,D,(2),=,5 6 7,5,6,7,重复第3步 寻找最小值得:d,57,=2,得:,G,6,=1,2,G,8,=4.5,6,8,算出新类与剩余各类的距离,得,d,68,=,D,1,(6,8)=min,d,56,d,76,=min6,2.5,=,2.5,最后,将,G,6,和,G,8,合并成为一大类,G,9,,整个聚类过程结束。,0,2.5 0,D,(3),=,6 8,6,8,画出聚类图:,6,9,8,7,2,1,4,3,5,一般画图的两个约定:,(1)当两个样品合并时,具有较大序号者放在左侧;当两个不同的相似水平的类合并时,相似水平高的放在左侧;,(2)当一个样品与一个较高相似水平的合并时,较高水平的类放在左侧。,最后一步,决定类的个数和类,如果取距离的临界值2.2,则应聚为两大类G,6,和G,8,:,,其中G,6,含样品1,2,G,8,含样品3,4,5。,
    展开阅读全文
    提示  咨信网温馨提示:
    1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
    2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
    3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
    4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
    5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
    6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

    开通VIP折扣优惠下载文档

    自信AI创作助手
    关于本文
    本文标题:专题三-CRM的数据管理.ppt
    链接地址:https://www.zixin.com.cn/doc/12636509.html
    页脚通栏广告

    Copyright ©2010-2025   All Rights Reserved  宁波自信网络信息技术有限公司 版权所有   |  客服电话:0574-28810668    微信客服:咨信网客服    投诉电话:18658249818   

    违法和不良信息举报邮箱:help@zixin.com.cn    文档合作和网站合作邮箱:fuwu@zixin.com.cn    意见反馈和侵权处理邮箱:1219186828@qq.com   | 证照中心

    12321jubao.png12321网络举报中心 电话:010-12321  jubao.png中国互联网举报中心 电话:12377   gongan.png浙公网安备33021202000488号  icp.png浙ICP备2021020529号-1 浙B2-20240490   


    关注我们 :微信公众号  抖音  微博  LOFTER               

    自信网络  |  ZixinNetwork