![点击分享此内容可以赚币 分享](/master/images/share_but.png)
网络爬虫技术探究-本科毕设论文.doc
《网络爬虫技术探究-本科毕设论文.doc》由会员分享,可在线阅读,更多相关《网络爬虫技术探究-本科毕设论文.doc(51页珍藏版)》请在咨信网上搜索。
1、JIU JIANG UNIVERSITY毕 业 论 文题 目 网络爬虫技术探究 英文题目 Web Spiders Technology Explore 院 系 信息科学与技术学院 专 业 计算机科学与技术 姓 名 闻泽 班级学号 A081129 指导教师 邱兴兴 二一二年五月信息科学与技术学院学士学位论文摘 要网络爬虫是一种自动搜集互联网信息的程序。通过网络爬虫不仅能够为搜索引擎采集网络信息,而且可以作为定向信息采集器,定向采集某些网站下的特定信息,如招聘信息,租房信息,以及网络营销常要的邮箱地址信息等。本文通过JAVA实现了一个基于广度优先算法的爬虫程序。本论文阐述了网络爬虫实现中一些主要问
2、题:为何使用广度优先的爬行策略,以及如何实现广度优先爬行;系统实现过程中的数据存储;网页信息解析等。通过实现这一爬虫程序,可以搜集某一站点的所有URLs,并通过得到的URLs采集到页面的内容,在从内容中提取到需要的内容,如邮箱地址以及页面标题等。再将得到的URLs等采集到的数据存到数据库,以便检索。本文从搜索引擎的应用出发,探讨了网络爬虫在搜索引擎中的作用和地位,提出了网络爬虫的功能和设计要求。在对网络爬虫系统结构和工作原理所作分析的基础上,研究了页面爬取、解析等策略和算法,并使用Java实现了一个网络爬虫的程序,对其运行结果做了分析。关键词:网络爬虫,广度优先 ,搜索引擎AbstractTh
3、e Web Spider is an automated program collects information on the Internet. The Web Spider can not only search engine to collect network information and can be used as directional information collection, directed acquisition of some site specific information, such as recruitment information, rental i
4、nformation, as well as network marketing often have to e-mail address information.JAVA Implementation of an algorithm based on breadth first Spider program. This paper described the data stored in the Web Spider to achieve some of the major questions: Why use a breadth-first crawling strategy, as we
5、ll as how to implement the breadth-first crawling; system implementation process; web page information to resolve.Through the realization of this Spider can collect all of a sites URLs, URLs collected by and get to the page content, to extract from the content, the content, such as email address and
6、 page title. And then get the Urls collected was data saved to the database to retrieve. In this paper, the application of the search engine to explore the role and status of a Web Spider search engine, web Spider functionality and design requirements. Web Spider system structure and working princip
7、le of the analysis based on study strategies and algorithms of the page crawling, parsing, etc. and use the Java implementation of a Web Spider program, its operating results analysis.Keywords: Spider, Breadth First Search, Search Engine目 录摘 要IAbstractII1 绪论1.1 现状分析(1)1.2 系统开发背景(2)1.3 系统意义(3)1.4 论文主
8、要的工作(4)1.5 论文结构(4)2 需求分析2.1 系统非功能性需求(5)2.2 系统功能需求(5)2.3 系统数据流程分析(5)2.4 环境需求(8)2.5 本章小结(9)3 系统设计3.1 系统结构设计(10)3.2 爬行策略分析(12)3.3 爬虫技术分析(14)3.4 数据库设计(17)3.5 本章小结(17)4 系统实现4.1 系统功能简介(18)4.2 核心算法(20)4.3 功能模块实现(21)4.4 数据库实现.(30)4.5 本章小结(33)5 系统测试5.1 抓取测试(34)5.2 搜索测试(37)5.3 本章小结(38)6 总结与展望致谢(40)参考文献(41)IV信
9、息科学与技术学院学士学位论文1 绪论1.1 现状分析从雅虎最初的网页分类技术,谷歌PageRank开始,到目前的百度等搜索引擎的迅猛发展,搜索引擎在互联网中应用领域展示了越来越广泛的作用。搜索引擎的科学研究价值不仅仅体现在其高技术挑战性,而且表现在其对于整个互联网络乃至民生提供的便捷性和信息高速传达方式,对整个社会的高度的经济促进作用1。从2000年开始在国内的缓慢发展,到目前国内百度,谷歌,搜搜,搜狗,有道等搜索引擎林立,搜索引擎的研究还只是刚刚的开始,如何在Web信息中寻找最符合用户需求的信息展示出来,这不仅在尺度上是空前巨大,而且规范条件也是非常的不确定。及其的系统往往是很难判别出用户真
10、正需要的是什么信息的,而目前乃至以后,用户总是希望以最简短的搜索约束范围(即用户输入的关键字)搜索到自己想要的信息,所以系统得到的输入是一个笼统的模糊的概念,而这种笼统的不确定性的约束范围,和海量数据的处理,已经将搜索引擎研究技术乃至整个科学研究技术带入了一个真正的高度。在搜索技术中,对信息的处理,既要考虑到数据的客观性,又要考虑到行为的主观性。数据的客观性表现在Web中数据形式的客观存在性,面对任何人,同一网页中的信息是不变的,而主观性则是指,每条信息对于不同用户不同需求所能提供的信息量区别是很大的,这个可以很深刻的理解:一个介绍机器用法的网页对于新用户来说肯定是很有用的,而对于开发者来说,
11、却不一定有用或者作用的层次不同了。搜索引擎技术中客观性和主观性存在很多这样的矛盾之处,而不同的处理方式则会导致最后传达信息量的巨大或细微差别,这是以前的科学技术研究的盲点,而针对目前的社会需求,这又是刻不容缓的需要解决的一个方面,越来越多的人已经对这个领域产生了强大的兴趣。搜索引擎技术带动了很多相关学科的发展,离散数学,矩阵技术的应用让大家对数学产生了广泛的兴趣,搜索引擎优化技术(SEO)成为了许多人研究和工作的方向,同时也是电子商务的强力武器。而搜索引擎对于人工智能的贡献更是真正具有伟大意义的!自然语言理解,模式识别,机器学习,数据挖掘技术在搜索引擎的发展中得到了强大的提高。而文本分类,多媒
12、体识别,海量数据挖掘,机器在线增量学习,在线分类类聚,信息抽取和摘取,命名等又和实际应用紧密的结合成商用搜索引擎,而其强大的资金后盾,也促进了Web搜索和人工智能行业的大力发展。1.2 系统开发背景随着信息时代的到来和发展,Web上的信息正在飞速地增长,这带给人们前所未有护的丰富的信息资源。然而,在给人们提供丰富信息的同时,却在web信息的高效便捷使用方面给人们带来巨大的挑战:一方面Web上的信息种类繁多、丰富多彩,而另一方面却很难找到真正有用的信息。在信息社会中,没有控制和组织的信息不再是一种资源,它倒反而成为信息工作者的敌人。搜索引擎的问世,为快速、准确、有效地获取网络信息资源提供了极大的
13、帮助。搜索引擎是为满足人们搜索网络信息的需要而开发的网络工具,是互联网信息查询的导航针,是沟通用户与网络信息的桥梁。搜索引擎的出现很大程度上解决了人们在Web上查找信息的困难,但是随着信息多元化的增长,千篇一律给所有用户同一个入口显然不能满足特定用户更深入的查询需求。即现有搜索引擎在提供用户便利获取丰富的信息资源的同时,也存在着种种的不足之处。(1)查准率低:对任意主题,都可能很容易地包含成百上千的文档,这会使得搜索引擎返回的文档数过于庞大,其中很多相关性并不大,或所包含的内容质量不高。(2)查全率低:搜索引擎的索引能力正在越来越落后于网络的快速增长速度。(3)内容相对陈旧:各个搜索引擎搜索到
14、的文件有时是不再有效的,因为网页已被移至别处或不存在。有调查发现,几个不同搜索引擎检索到的第一个文件在网上存在的平均时间是186天。(4)信息分布不平衡:有83%的站点包含商业的内容,只有6%的站点包含科学或教育的内容。因而,人们提出了对搜索引擎新的要求:(l)运行在常规的软/硬件设备之上;(2)只采集某一特定学科或特定主题的Web信息资源;(3)能够方便地对专题和学科进行配置。为了满足这些新的要求,主题爬虫应运而生。主题爬虫就是针对性的为某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。可以简单的说成是搜索引擎领域的行业化分工。由于主题爬虫分类细致精确、数据全面深入、
15、更新及时,并且运用了人工分类以及特征提取等智能化策略,因此它将更加有效和准确。主题爬虫是主题搜索引擎的重要组成部分,它负责对用户感兴趣的某一主题的网页进行抓取。具备普通爬虫的功能,即通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。主题爬虫还具备主题过滤的功能,即使爬虫尽可能多地爬行主题相关的网页,尽可能少地爬行无关网页,对非主题的网页进行剔除。因此,主题爬虫得到越来越多研究者的关注。主题爬虫的优势在于,由于Web上的内容丰富多样,每个主题在其
16、中占的比例都很小,需要采集的内容也相对较少,可以极大地减少时间和存储空间的要求。在时间上的优势保证了网页的及时更新。而且,主题信息采集搜集的内容单一,用户查找时得到的冗余和无用信息也较少2。1.3 系统意义网络爬虫的工作是不停的抓取互联网上资源的信息,随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine),例如传统的通用搜索引擎AltaVista,Yahoo!和Google等,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性,为了解决上述问题,定向抓取相关网页
17、资源的网络爬虫应运而生。网络爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。网络爬虫的准确高效直接关系到搜索引擎的功能是否强大3。1.4 论文主要的工作(1)针对网络爬虫的工作原理,进行需求分析、结构分析、系统分析。(2)开始初期的实现,主要实现的功能是:网页抓取、URLs提取、页面内容解析、数据存储等。(3)系统测试网络爬虫的功能,修改不完善的地方,尽量做到符合基本的功能要求。1.5 论文结构本论文主要介绍的网络爬虫的开放过程,全文共分为五章:第一章绪论,简要的介绍了系统的开放背景级研究现状,以及文本的工作概要;第二章系统需求分析
18、,主要介绍了系统所要解决的问题,以及系统的体系结构和类结构;第三章系统总体设计,主要是介绍了系统实现的主要算法策略,以及具体的功能划分;第四章系统实现,主要介绍了实现的各个功能的具体代码的分析;第五章系统测试,主要是对整个系统进行各个模块的测试,是否符合要求;第六章总结与展望,主要讲述了整个系统完成后的心得以及系统的一些缺陷。论文的致谢和参考文献部分。2 需求分析2.1 系统非功能性需求所谓非功能性需求是指为满足用户业务需求必须具有且除功能需求外的特性。虽然此需求与系统业务逻辑无直接关系,但也影响着系统的质量,不能忽视。本系统的非功能性需求主要包括以下几个方面:(1)易用性本系统在功能完善的情
19、况下,用户界面尽量做到简洁友好、便于操作,并应有效地防止误操作的发生。(2)性能可靠本系统属于一个需要联网进行抓取数据的系统,因此需要做到用户在使用时,避免影响到用户上网浏览网页出现网速慢的问题。(3)通用性本系统可以适应各种系统环境,满足了不同类型用户的需求。2.2 系统功能需求通过需求分析,确定本系统有以下一些基本功能: (1)前台界面管理:前台界面主要用于对用户输入进行判断处理,再将合法输入提交到处理单元。(2)Servlet处理程序:主要用于接收传来的初始URL ,然后再调用Spider主程序。(3)Spider主程序:主要的功能是建立初始队列、解析URLs、抓取内容、数据存储等系统核
20、心的功能。(4)数据库管理:主要用于存放抓取的数据保存以便用户的检索。2.3 系统数据流程分析通过对网络爬虫的数据流动分析,得出数据流程如图2-1所示。NOYESYESNOYESNO将初始的URLS加入到等待队列启动爬虫程序从URL队列获取等待URL解析HTML,获取URLs重复URL吗绝对地址吗将URLs加入到URL等待队列将相对地址转换为绝对地址非法URL吗图2-1 爬虫工作原理流程图网络爬虫是搜索引擎的核心部分,其名称出自Spider 的意译,具有相同词义的词语还有Spider,robots,bots,wanderer等等。网络爬虫定义有广义和狭义之分,狭义上的定义为利用标准的Http协
21、议根据超级链接和Web文档检索的方法遍历万维网信息空间的软件程序,而广义则是所有能利用Http协议检索Web文档的软件都称之为网络爬虫。网络爬虫是一个功能很强的自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。它通过请求站点上的HTML文档访问某一站点。它遍历Web空间,不断从一个站点移动到另一个站点,自动建立索引,并加入到网页数据库中。网络爬虫进入某个超级文本时,它利用HTML语言的标记结构来搜索信息及获取指向其他超级文本的URL地址,可以完全不依赖用户干预实现网络上的自动“爬行”和搜索。下面将详细分析爬虫的工作流程,通过流程图来描述爬虫的工作原理,本网络爬虫工作原理
22、如下。(1)将给定的初始URL加入到URL等待队列。(2)创建爬虫程序,启动爬虫程序。(3)爬虫线程从URL等待队列中取得任务URL,根据URL下载网页内容,然后解析网页内容,获取超链接URLs以及页面内容信息。如果获取到的URL为相对地址,则需要转换为绝对地址,然后在判断是否为站外地址,是则淘汰站外URLs,如果是不能访问的地址如错误URLs或者不能解析的URL地址,则也要删除掉。再判断这些URL是否已经被下载到,如果没有则加入到URL等待队列4。(4)继续重复的执行步骤(3),直到结束条件满足后则停止继续爬行。通过图2-1所示的爬虫工作原理流程图,我们可以清楚的知道爬虫的工作流程以及工作的
23、原理。网络爬虫的主要目的就是爬取用户需要的内容,即尽可能的爬取有关内容的页面,尽可能减少抓取无关页面,对非主题的网页进行剔除,确保网页的质量。因而,在设计主题爬虫时,本文主要采用两种手段来实现高质量主题网页的下载。一是对已经下载到本地的网页进行主题相关性判断,将相关的网页保存,无关的丢弃。二是分析已有信息,预测出与主题相关的URL进行下一轮抓取。在设计的过程中,要考虑到以下几点:(1)稳定性:设计的总体结构要合理,保证系统能够稳定运行。(2)高效性:系统采用多线程技术对网页实现高效的抓取。(3)灵活性:对系统的各个配置参数进行修改,使系统能够更好地运行。(4)主题性:系统能够很好地应用于不同主
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 网络 爬虫 技术 探究 本科 论文
![提示](https://www.zixin.com.cn/images/bang_tan.gif)
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【a199****6536】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【a199****6536】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。