换一换

咨信网 > 资源分类 > PDF文档下载

预览

《数据清洗》课件第7章采集Web数据实例.pdf

资源ID：231491 资源大小：1.11MB 全文页数：34页
资源格式： PDF 下载积分：15金币

微信登录下载

验证码下载

账号登录下载

三方登录下载：

微信扫一扫登录

下载资源需要15金币

邮箱/手机：
验证码：	获取验证码
温馨提示：	支付成功后，系统会自动生成账号（用户名为邮箱或者手机号，密码是验证码），方便下次登录下载和查询订单；
支付方式：
验证码：	换一换

VIP下载

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

特别提醒 | 会员权益免费领取5元金币

1、推荐【 2345浏览器】、【 WPS办公】、填表【下载求助】、【索取发票】、【退款申请】、咨询【微信客服】、【 QQ客服】、【客服电话：4008-655-100 | 投诉/维权电话：4009-655-100】。

2、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。

3、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。

4、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。

5、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【曲****】。

6、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。

7、文档遇到问题，请及时私信或留言给本站上传会员【曲****】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。

《数据清洗》课件第7章采集Web数据实例.pdf

1、数据清洗大数据应用人才培养系列教材第七章采集Web数据实例7.1网页结构7网络爬虫7：3 行为日志采集7：4上机练习与实训习题7.1网页结构第七章采集Web数据实例1.1.1 DOM 模型(1)DOM简介网页清洗的第一步是对页面结构的分析，页面结构分析在信息检索、分类、页面适应等方面都有重要作用。DOM模型是网页典型的树形结构模型。DOM(Document Object Mode,文档对象模型)是W3c组织推荐的处理可扩展标记语言的标准编程接口(API)。DOM将整个页面映射为一个由层次节点组成的文件,而HTML的标记也具有一定的嵌套结构。通过HTML解析器(parse)可以将HTM顷

2、面转化为一棵DOM树。如图所示，为网页DOM结构。7.1网页结构第七章采集Web数据实例1.1.1 DOM 模型(2)DOM树结构DOM是由一组对象和存取、处理文档对象的接口组成，包括文档、节点、元素、文本节点、属性等。如图7-1所示,为DOM树模型的结构。(3)访问DOM树结构属性是节点(HTML元素)的值，可通过JavaScript(以及其他编程语言)对 HTML DOM进行访问。访问HTML元素等同于访问节点，用户可以以不同的方式来访问HTML元素，表 7-1为访问HTM L元素的不同方法。7.1网页结构第七章采集Web数据实例根据W3C的HTML DOM标准，HTML 文档中的所有内容

3、都是节点。DOM文档是由分层的节点对象构成，这些节点对象构成一个页面。文档是一个节点，该节点只有一个元素，这个元素就是它自己。元素是除文本之外的大多数对象,是从节点类型推导出来的。元素包含属性，而且可以是另一个兀素的父类型。/整个文档是一个文档节点，每个HTML/元素是元素节点。HTML兀素内的文本是文本节点，义本节/点处理文档中的文本。每个HTML属性是属性节点，是元素的基本属性，因此它们不是元素的子节点。，7.1网页结构第七章采集Web数据实例(4)DOM的优点和缺点DOM的优点易用性强，使用DOM时，将把所有的 XML文档信息都存于内存中，并且遍历简单，支持XPath。DO

4、M的缺点效率低，解析速度慢，内存占用量过高，对于大文件来说几乎不可能使用。另外，效率低还表现在大量地消耗时间，因为使用DOM进行解析时，将为文档的每个 element、attribute,processing-instruction和comment都创建一个对象,这样在DO M机制中所运用的大量对象的创建和销毁无疑会影响其效率。，7.1网页结构第七章采集Web数据实例1.1.2正则表达式(2)规则正则表达式一般由普通字符(例如字符匕到z)以及特殊字符(称为元字符)组成。普通字符非打印字符特殊字符：特殊字符是一些有特殊含义的字符，若要匹配这些特殊字符，必须首先使字符转义，即将反斜杠字

5、符()放在它们前面限定符：限定符用来指定正则表达式的一个给定组件必须要出现多少次才能满足匹酉己定位符：定位符用来描述字符串或单词的边界，它能够将正则表达式固定到行首或行尾，还可以用来创建出现在一个单词内、一个单词的开头或者一个单词的结尾的正则表达式，7.1网页结构第七章采集Web数据实例1.1.2正则表达式（2）规则正则表达式一般由普通字符（例如字符匕到z）以及特殊字符（称为元字符）组成。选择：用圆括号将所有选择项括起来，相邻的选择项之间用T分隔。但用圆括号会有一个副作用，相关的匹配会被缓存，此时可用?：放在第一个选项前来消除这种副作用。反向引用：需要匹配两个或多个连续的相同的

6、字符的时候，就需要使用反向引用。，7.1网页结构第七章采集Web数据实例1.1.2正则表达式(3)局限性利用正则表达式来清洗网络数据具有很大局限性，因为正则表达式是完全依赖网页结构的。一旦网页布局发生变化，哪怕是一个小小的标记，也会导致数据清洗工作者费了很大时间、精力设计和调试的正则表达式失效。更多情况是，网页的结构是无法使用正则表达式来精确匹配的。大数据应用人才培养系列教材第七章采集Web数据实例7.1 网页结构7.2 网络爬虫7二3行为日志采集7.4 上机练习与实训习题，7.2网络爬虫第七章采集Web数据实例1.2.1网络爬虫简介网络爬虫(又被称为网页蜘蛛、网络机器人)，是一种按照

7、一定的规则，自动地抓取万维网信息的程序或者脚本。网络爬虫还有另外一些不常使用的名字，如蚂蚁、自动索引、模拟程序或者蠕虫等。(1)网络爬虫的工作流程网络爬虫的工作流程图如下图所示：，7.2网络爬虫第七章采集Web数据实例1.2.1网络爬虫简介网络爬虫具体流程如下：首先选取一部分种子URL 将这些URL输入待抓取URL队列从待抓取URL队列中取出待抓取的URL,解析DNS，得到主机的IP地址，并将URL对应的网页下载下来，存储到已下载网页库中，再将这些URL放进已抓取URL队列分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入抓取 URL队列如何编写网络爬虫呢？，7.2网

8、络爬虫第七章采集Web数据实例O安装Python1）下载Python程序安装包打开Python官方网站https:www.python.org，找至IDownloads区，单击进行下载。2）执行Python安装包注意，在安装Python过程中,集成开发环境IDLE是同Python一起安装，不过需要确保安装时选中了Tcl/Tk组件。3）测试Python安装是否成功测试Python安装是否成功，可用cmd打开命令行输入python”命令。网络爬虫第七章采集Web数据实例构造get请求爬取搜狗首页步骤1：打开Python编辑器IDLE。步骤2:导入要使用的库步骤3:获取目的网页响应的对象：使用ur

9、lopen方法打开目的网页，并返回网页响应对象fh，代码如下：fh=urllib.request.urlopen(http:/)步骤5:将data写入本地 sogoutest.HTML 文件进行保存。在系统中创建HTML格式的文件sogoutest。fh2=open(D:Pytho n35sugoutest.HTML,w 二encoding=utf-8)fh2.write(data)fh2.close()步骤4:获取对象fh的内容data，代码如下：data=fh.read()data=data.decode(utf-8f,ignore)，7.2网络爬虫第七章采集Web数据实例S模拟浏览

10、器爬取模事百科网当用上述脚本爬取某些网站时，会出现http.client.RemoteDisconnectedn错误提示，即远程主机关闭了连接。这是因为某些网站采用User-Agent用户代理机制来识别浏览器版本，而 Python编写的脚本不具备浏览器属性。下面将介绍运用Python 模拟浏览器进行爬虫的步骤。步骤1：打开Python编辑器IDLE。步骤2:导入要使用的库import urllib.request步骤3:设置目的网页地址，代码如下所示：url=https: 成Chrome浏览器的用户代理。headers=(User-Agent,Mozilla/5.0(Linux;Android

11、 6.0;Nexus 5 Build/MRA58N)AppleWebKit/537.36(KHTML,like Gecko)Chrome/46.0.2490.76Mobile Safari/537.36)步骤5:创建opener对象，并将headers报头信息加载到opener中，代码如下所示：opener=urllib.request.build_opener()opener.addheaders=headers步骤6:再利用。pener对象模拟Chrome浏览器爬取目的网页内容，代码如下所示：data=opener.open(url).read()再参照构造get请求爬取搜狗首页的步骤

12、5将data数据存储到本地。，7.2网络爬虫第七章采集Web数据实例5构建get请求爬取百度搜索1）打开Python编辑器IDLE2）导入要使用的库，代码如下所示import urllib.request3)设置待检索关键词key=Python 学习方法 key_code=urllib.request.quote(key)4)生成目的网址 url2=url+key_code5)获取目的网页响应的内容采用Request方法将uH2网址封装为一个get请求req,再使用urlopen方法打开req,通过read方法读取内容.req=urllib.request.Request(url2)data=

13、urllib.request.urlopen(url2).read6)将data写入本地baidusearch.HTML文件进行保存 fh=open(D:/Python35/baidusearch.HTML,b w)fh.write(data)fh.close()，7.2网络爬虫第七章采集Web数据实例6构建post请求爬取网页步骤1：打开Python编辑器IDLE步骤2:导入要使用的库，代码如下所示：import urllib.requestimport urllib.parse步骤3:设置目的网址。步骤4:设置post请求数据。post请求数据应为输入登录表单的账号、密码。postdata

14、=urllib.parse.urlencode(,name,:,ad min,pass:123 456).encode(utf-8)步骤5:构造post请求。req=urllib.request.Request(url,postdata)，7.2网络爬虫第七章采集Web数据实例O构建post请求爬取网页步骤6:模拟浏览器。将User-Agent的内容加载到post请求的头部。req.add-headerCUser-Agent/Mozilla/S.O(Linux;Android 6.0;Nexus 5 Build/MRA58N)AppleWebKit/537.36(KHTML,like Geck

15、o)Chrome/46.0.2490.76 Mobile Safari/537.36,)步骤7:获取目的网页响应内容。data=urllib.request.urlopen(req).read()步骤8:将data写入本地文件并保存。fh3=open(,D:/Python35/post_login.HTML,bw)fh3.write(data)fh3.close()7.2网络爬虫第七章采集Web数据实例爬取多页网页内容1）打开Python编辑器IDLE2）导入要使用的库，代码如下所示import urllib.requestimport re5）提取用户和内容信息6）遍历contentlist

16、中的内容，并将内容赋值给变量 name。name的形式为contentl、content2、contents 等3)步骤3:爬取某一页的具体内容。def getcontent(url,page)4)模拟浏览器，获取目的网页响应内容 headers=(User-Agent,Mozilla/5.0(Windows NT 10.0;WOW64)AppleWebKit/537.36(KHTML,like Gecko)Chrome/59.0.3071.115 Safari/537.36)opener=urllib.request.build_opener()opener.addheaders=heade

17、rs data=opener.open(url).read().decode(utf=8)7）遍历userlist中的内容，并通过exec（）函数，输出 content，content2等变量对应的值8）获取多页网页内容。，7.2网页爬虫第七章采集Web数据实例1.2.2网络爬虫异常处理,异常处理：当通过几十个代理IP实现爬虫操作时，如果其中一个代理IP突然不响应了就会报错，并且这种错误触发率极高。但是一个出问题并不会影响到整个脚本的任务，所以当捕获到此类异常的时候，直接忽略即可。URLError:通常，在没有网络连接（没有路由到特定服务器），或者服务器不存在的情况，就会触发URLErr

18、or。这种情况下，异常通常会包含一个由错误编码和错误信息组成的rea so n属性。HTTPError:HTTPError是URLError的子类，服务器上每一个HTTP的响应都包含一个数字的状态码。有时候状态码会指出服务器无法完成的请求类型，一般情况下Python会自动处理一部分这类响应，如果有一些无法处理的，就会抛出 HTTPError异常。这些异常包括典型的404（页面不存在），403（请求禁止）和 401（验证请求）。大数据应用人才培养系列教材第七章采集Web数据实例7；网页结构7.2 网络爬虫7.3 行为日志采集7合上机练习与实训习题）7.3行为日志采集第七章采集Web数据实例

19、13.1 用户实时行为数据采集用户行为日志采集是网站数据分析的第一步。而采集工具需要收集用户浏览目标网站的行为（如打开网页、停留时间、单击按钮、打开次数、客户端IP、业务流步骤等）及行为附加数据（浏览器、操作系统、Cookies等）。（1）JavaScript埋点进行数据收集利用JavaScript埋点进行数据收集的基本流程如下图所示：HTTP请求 HTTP请求浏览器J-被统计页面-JS文件（搜集客户端数据）HTTP请求-后端数据搜集脚本HTTP响应（种植cookie）写入访问日志)7.3行为日志采集第七章采集Web数据实例13.1用户实时行为数据采集(1)JavaScript埋点进行数据

20、收集具体步骤操作如下所示：用户的行为(比如打开网页)触发浏览器对被统计页面的一个HTTP请求。页面中埋点的JavaScript片段会被执行，指向一个独立的JS文件,会被浏览器请求并执行，也就是数据采集过程。数据收集完成后，会将收集到的数据通过HTTP参数的方式传递给后端脚本，后端脚本解析参数并按固定格式记录到访问日志，同时可能会在HTTP响应中给客户端种植一些用于追踪的Cookie。)7.3行为日志采集第七章采集Web数据实例13.1 用户实时行为数据采集(2)JS埋点案例JS埋点通过使用JS收集客户端的Cookie信息，发送到后台一组服务器。例如借助新浪IP地址库，显示本地城市名称代码

21、如下：remote_ip_info.countryremote_ip_info.provinceremote_ip_info.city然后依次获取客户端IP、获取用户的访问开始时间、访问结束时间，以及用户与网站的交互时间、获取单击按钮事件。)7.3行为日志采集第七章采集Web数据实例13.2 用户实时行为数据分析(1)行为日志采集相关技术 Flume:Flume是Cloudera提供的一个分布式、高可靠的、高可用的海量日志采集、聚合和传输的系统，它将各个服务器中的数据收集起来并送到指定的地方；Kafka:Kafka是一种高吞吐量的分布式发布-订阅消息系统，最初由Linkedln公司开发，之

22、后成为Apache项目的一部分。Nginx:Nginx(读作engine x)是一款轻量级、高性能的Web服务器/反向代理服务器及电子邮件(IMAP/P0P3)代理服务器。Hadoop:Hadoop实现了一个分布式文件系统(Hadoop Distributed File System,HDFS)o Storm:Storm是由BackType开发的开源的分布式实时处理系统，支持水平扩展，具有高容错性，保证每个消息都会得到处理。)7.3行为日志采集第七章采集Web数据实例13.2用户实时行为数据分析(2)用户实时行为数据分析流程用户实时行为数据分析流程如下图所示：日志采集集群kafka kaf

23、ka|kafkaKafka集群)7.3行为日志采集第七章采集Web数据实例13.2用户实时行为数据分析(2)用户实时行为数据分析流程用户实时行为数据分析流程具体步骤如下：Web或WAP通过网页埋点实时发送用户行为数据至日志采集后端Server,App直接调用 http接口，Server通过Logback输出日志文件。Flume通过tail命令监控日志文件变化,并通过生产者消费者模式将tail收集到日志推送至 Kafka集群。Kafka根据服务分配Topic,一个To pic可以分配多个Gro up,一个Group可以分配多个 PartitionoStorm实时监听Kafka,流式处理日志内容，

24、根据特定业务规则，将数据实时存储至Cache,同时根据需要可以写入H DFS。Kafka直接写入HDFS。大数据应用人才培养系列教材第七章采集Web数据实例7；网页结构7.2 网络爬虫7.3 行为日志采集7.4 上机练习与实训习题，7.4上机练习与实训第七章采集Web数据实例实训题目：免费网站用户行为采集工具的使用实训原理：Google Analytics(Google分析，简称GA)是Google的一款免费的网站分析服务。GA功能非常强大,它创新性地弓I入了可定制的数据收集脚本,可以分析出来访用户信息、访问时间段、访问次数、页面跳出率等信息，并且还提供丰富详尽的图表式报告。国内的百度统计、搜狗分析等产品均沿用了谷歌分析的模式。.实训内容：(1)注册GA账号。(2)网站埋点GA码。(3)网站用户行为采集。(4)网站用户行为数据分析。实训指导详见课本内容。大数据应用人才培养系列教材第七章采集Web数据实例7；网更结构72网络爬虫7.3 行为日志采集7.4 上机练习与实训习题习题:1.用正则表达式将下面的URL分解为协议（ftp、http 等）、域地址和页/路径。http:/:80/HTM L/HTM L-tutorial.HTM L感谢聆听

注意事项: 本文（《数据清洗》课件第7章采集Web数据实例.pdf）为本站上传会员【曲****】主动上传，咨信网仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知咨信网（发送邮件至1219186828@qq.com、拔打电话4008-655-100或【微信客服】、【 QQ客服】），核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载【60天内】不扣币。【服务填表】

《数据清洗》课件 第7章 采集Web数据实例.pdf

《数据清洗》课件 第7章 采集Web数据实例.pdf

《数据清洗》课件第7章采集Web数据实例.pdf

《数据清洗》课件第7章采集Web数据实例.pdf