分享
分销 收藏 举报 申诉 / 32
播放页_导航下方通栏广告

类型SEO是什么与搜索引擎原理.ppt

  • 上传人:xrp****65
  • 文档编号:13134899
  • 上传时间:2026-01-25
  • 格式:PPT
  • 页数:32
  • 大小:605KB
  • 下载积分:10 金币
  • 播放页_非在线预览资源立即下载上方广告
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    SEO 是什么 搜索引擎 原理
    资源描述:
    单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,SEO是什么与搜索引擎原理,作者:罗义杰,沈阳SEO,目录,1、SEO的含义,2、SEO常见方向,3、Spider,4、内容处理、中文分词和索引,5、页面去重原理,6、用户需求分析,7、内容相关性计算,8、连接分析,9、用户体验判断,10、有效索引和缓存机制,11、反作弊和人工干预,沈阳SEO,1、SEO的含义,SEO原始定义,搜索引擎优化,指为了提升网页在搜索引擎自然搜索结果中的收录数量及排序位置而做的优化行为,这一行为的目的,是为了从搜索引擎中获得更多的免费流量,以及更好的展现网站形象。,SEO现实含义,还需要对搜索流量在网站中整个行为(PV和转化)负责。,沈阳SEO,思考,SEO是忽悠还是技术,策略还是艺术?,面试官问,“,你认为SEO是什么?,”,沈阳SEO,2、SEO常见方向,原始方向,发发外链,写写文章,堆堆关键词,现实方向,技术,产品,运营,沈阳SEO,搜索引擎原理,互联网,Spider,内容处理,分词,索引,去重,反作弊,内容相关性,链接分析,用户体验,查询分析,缓存机制,页面排序,沈阳SEO,搜索引擎原理,搜索引擎主动抓取网页进行的流程和机制,1、派出Spider,按照一定策略把网页抓回到搜索引擎服务器,用户进行查询后,搜索引擎工作流程和机制,2、对抓回的网页进行链接抽离、内容处理,消除噪声、提取该页面文本内容,3、对网页的文本内容进行中文分词、去除停止词,4、判断该页面内容与已索引网页是否重复,剔除重复页,对剩余网页进行倒排索引,然后等待用户检索,1、对用户所查关键词进行分词,并根据用户地理位置和历史检索特征进行用户需求分析,2、查找缓存中是否有该关键词的查询结果,如果有,搜索引擎会根据当下用户的各种信息判断其真正需求,对缓存中的结果进行微调或直接呈现给用户,3、如果用户查询的关键词在缓存中不存在,那么就在索引库中的网页进行调取排名呈现,并将该关键词和对应的搜索结果加入到缓存中,4、网页排名是根据用户的搜索词和搜索需求,对索引库中的网页进行相关性、重要性(链接权重分析)和用户体验的高低进行分析所得出的,沈阳SEO,3、Spider,Spider也就是大家常说的爬虫、蜘蛛或机器人,是处于整个搜索引擎最上游的一个模块,只有Spider抓回的页面或URL才会被索引和参与排名,首先,Spider想要抓取网页,要发现网页抓取入口,所以要给Spider一些网页入口,然后顺着入口进行爬行抓取,这就涉及抓取策略问题,其次,网页内容是有时效性的,所以Spider对不同网页的抓取频率也要有一定的策略性,这就涉及再次抓取和更新策略问题,再次,互联网中的网页总有一部分是没有外部链接导入的,也就是常说的,“,暗网,”,并且这部分网页也是需要呈现给网民浏览的,这就涉及如何解决暗网问题,最后,大型搜索引擎的Spider不可能只有一个,为了节省资源,要保证多个Spider同时作业且抓取页面不重复,这就涉及分布抓取策略,沈阳SEO,3.1Spider分类,批量型Spider,增量型Spider,垂直型Spider,有明显的抓取范围和目标,设置抓取时间限制、抓取数据量的限制,或抓取固定范围内页面的限制,没有固定目标、范围和时间限制,会无休止地抓取下去直到把全网的数据抓完为止,只对特定主题、特定内容或特定行业的网页进行抓取,一般都会聚焦在某一个限制的范围内进行增量型的抓取,沈阳SEO,3.2Spider的抓取策略,Spider眼中的互联网页面,已经抓取过的页面,待抓取的页面,可抓取的页面,暗网中的页面,1,2,3,4,5,6,7,8,9,已抓取页面,待抓取页面,可抓取页面,暗网中页面,沈阳SEO,3.2Spider的抓取策略,Spider的抓取方式,深度优先策略,广度优先策略,即一条道走到黑,当沿着一个路径走到无路可走时,再返回来走另一条路,Spider在一个页面上发现多个连接时,先把这些页面抓一遍,然后再抓这些页面中提取下来的链接,其他策略,重要页面优先抓取策略,大站优先策略,沈阳SEO,3.2Spider的抓取策略,A,1,2,3,4,5,6,7,8,9,10,11,12,13,14,A,1,2,3,4,5,6,7,8,9,10,11,12,13,14,深度优先策略,广度优先策略,沈阳SEO,3.3Spider再次抓取更新策略,用户体验,历史更新频率,网页类型,搜索引擎会搜集所有用户的搜索请求,然后统计所有搜索结果中用户可能看到的网页,继而进行优先再次抓取和更新。,Spider的再次抓取就是为了发现已经被索引网页是否有变化,如果某个网页持续没有变化,搜索引擎就会降低对其抓取的频率,不同的网页类型有不同的更新频率,网页权重,网页权重是决定抓取频率的重要因素,沈阳SEO,3.4分布式Spider和降权蜘蛛,分布式Spider,分布式抓取策略,任务分发机制,抓取范围,常规网页分类,站点质量等级分类,网页类型分类,站点或网页内容所在行业分类,沈阳SEO,3.5Spider和普通用户的区别,Spider可以容易的分辨网页中是否有隐藏内容,是否被挂了黑链,但不能完全了解网页的图片,JS,Flash中的内容,普通用户却恰恰相反,Spider对网站的抓取全部都是直接访问,而普通用户中除了直接访问的用户外一般都是有上级访问路径的,Spider不支持Cookie,但普通用户的浏览器一般是支持的,Spider不会主动注册登录网站,但是普通用户是可以的;Spider不会抓取网站Robots中屏蔽的内容,但是普通用户是可以访问的,Spider对于有多个动态参数网站的抓取,可能会陷入死循环,但是普通用户不会,Spider对于列表中前几页的新内容抓取可能不好,但是感兴趣的普通用户会依次浏览,Spider暂时还不能真正判断文章是不是原创,但是普通用户可以通过多种方式来确定是原创还是转载,沈阳SEO,4、内容处理、中文分词和索引,4.1内容处理,即搜索引擎对Spider抓取回来的页面进行处理,步骤,要判断该页面的类型,提取页面的文本信息,去除页面噪声,去除内容的停止词,沈阳SEO,4.2中文分词,中文分词,1、基于词典匹配,2、基于统计,对大量文字样本进行分析,把相邻出现次数多的几个字当成一个词,可以解决搜索引擎词典更新问题,并消除歧义,使用搜索引擎自己的词典对网页内容进行拆分,正向最大匹配,逆向最大匹配,最小匹配,匹配方式:,沈阳SEO,4.3索引,索引,搜索引擎中使用的是倒排索引,正向索引结构,倒排索引结构,沈阳SEO,5、页面去重原理,搜索引擎不想呈现给用户的搜索结果都是相同的内容,在抓取这些重复的页面,在一定意义上就是对搜索引擎自身资源的浪费,因此去除重复内容的网页也成了搜索引擎所面临的一大问题。,沈阳SEO,6、用户需求分析,6.1搜索词分析,当用户向搜索引擎提交查询后,搜索引擎首先判断用户所提交的搜索词的类型:是普通的文本搜索、普通文本带有高级指令的搜索,还是纯高级指令的搜索。,6.2搜索意图分析,当用户搜索一些比较宽泛的关键词时,只根据关键词本身,搜索引擎并不能知道用户确切需要什么,此时就会尝试性地分析用户的搜索意图,沈阳SEO,7、内容相关性计算,相关性是指内容和关键词的相关程度。现在搜索引擎其实并没有真正解决相关性计算的问题,只是通过关键词分词匹配、关键词在内容中的频率密度、关键词字体位置和页面外链等表面特征来进行内容相关度的计算。,沈阳SEO,7.1关键词匹配,1.把用户提交的搜索词分成词A和词B,2.同时使用词A和词B在索引库中进行检索,并提出所有包含词A或者词B的文件组成文件集合上L,3.在文件集合L中把同时包含词A和词B的文件优化提出来组成文件集合M排在前面,把只包含词A或词B的文件排在后面,4.继续对文件集合M进行分析,把完全包含用户搜索词的文档提出来组成文件集合N,并排在前面,把内容中没有完全匹配搜索词的文件排在后面,5.在根据搜索词在网页中出现的次数、位置、密度和形式等对文件集合N中的文件进行排序,6.搜索引擎还会分析文件的外链数量、质量和锚文本,根据锚文本辅助分析文件和关键词的相关度。外链的数量和质量来确定文件的重要程度,以进行排序调整,沈阳SEO,7.2语义分析,只根据关键词匹配和外部链接对网页的描述(锚文本),搜索引擎还不能真正理解网页的内容,语义分析技术其实就是同各国对海量内容的分析找出词汇之间的关系,当两个词或一组词经常出现在同一个文档中时,就可以认为这些词之间是语义相关的,沈阳SEO,8、连接分析,网页之间的链接关系在一定程度上反映了每个网页各自的重要程度,理论上重要的网页获得的连接数量会比较多。,同时链接的属性中还有锚文本,用来描述被连接页面的内容,对搜索引擎的排名有很大的影响,沈阳SEO,9、用户体验判断,现在的搜索引擎已经不是以连接分析为中心了,而是以用户体验为中心。在正常的内容相关性判断和链接分析的基础上,网页的用户体验对于搜索排名的影响越来越大。网站的用户体验优化(UEO),沈阳SEO,9.1正常用户体验,普通用户浏览网站时的用户体验,可以分以下五大类:,1.感官体验:呈现给用户视听上的体验,强调舒适性;,2.交互体验:呈现给用户操作上的体验,强调易用、可用性;,3.情感体验:呈现给用户心理上的体验,强调友好性;,4.浏览体验:呈现给用户浏览上的体验,强调吸引性;,5.信任体验:呈现给用户的信任体验,强调可靠性。,沈阳SEO,10、有效索引和缓存机制,10.1有效索引,用户搜索时,可能会匹配户几十万上至几亿的网页,但是大部分用户只会浏览前三页,这样搜索引擎就没有必要相应每次搜索时都对全部的索引文件进行检索,只需要对一个适当数量范围内的索引文件进行索引就可以了。,百度最多呈现760个结果,Google最多呈现1000个结果。,沈阳SEO,10.2缓存机制,缓存就是临时文件交换区,是可以进行高速数据交换的存储器,它先于内存与CPU交换数据,因此速率极快。,缓存淘汰机制,把使用频率小的搜索结果剔除,补充进来使用频率大的搜索结果,来保证缓存空间中的内容可以相应及命中当下尽可能多的用户搜索请求。,缓存更新机制,搜索引擎为了节约资源,不可能对缓存中的内容进行实时更新,而是会选择搜索请求比较少的时间段进行更新缓存。,沈阳SEO,11、反作弊和人工干预,自从有搜索引擎以来,就有人不断研究搜索引擎的排名机制,进而寻找搜索引擎排名的技术和逻辑漏洞,来快速提升自己网站的搜索排名。,沈阳SEO,11.1反作弊算法,反作弊就是过滤环节的重要组成部分,黑白名单,搜索引擎会根据网站内容的质量、权重、品牌建立白名单,也会找出明显作弊严重的网站建立黑名单。,作弊特征研究,作弊特征研究是现在搜索引擎进行反作弊的主要手法。当发现一个对搜索结果影响很大的作弊网站或一种新的作弊收法时,一般不会只是人工地把这个或这些网站降权或者屏蔽,而是潜心研究这个网站或这些网站到底是怎么作弊的,以及钻了搜索引擎技术和逻辑上的什么漏洞。,SEO工作中体现最明显的就是选择服务器和交换友情链接。,沈阳SEO,11.2人工干预,在反作弊过程中,也很有可能会伴随着人工干预自然搜索排名,但是搜索引擎中的人工干预肯定不会是大众想象的那样频繁,也不是浅层次上的干预,否侧搜索引擎自然排名的算法就可以丢弃了,搜索引擎也没有那么多专门来干预排名的人。,沈阳SEO,谢谢观看,罗义杰,沈阳SEO,
    展开阅读全文
    提示  咨信网温馨提示:
    1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
    2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
    3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
    4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
    5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
    6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

    开通VIP折扣优惠下载文档

    自信AI创作助手
    关于本文
    本文标题:SEO是什么与搜索引擎原理.ppt
    链接地址:https://www.zixin.com.cn/doc/13134899.html
    页脚通栏广告

    Copyright ©2010-2026   All Rights Reserved  宁波自信网络信息技术有限公司 版权所有   |  客服电话:0574-28810668    微信客服:咨信网客服    投诉电话:18658249818   

    违法和不良信息举报邮箱:help@zixin.com.cn    文档合作和网站合作邮箱:fuwu@zixin.com.cn    意见反馈和侵权处理邮箱:1219186828@qq.com   | 证照中心

    12321jubao.png12321网络举报中心 电话:010-12321  jubao.png中国互联网举报中心 电话:12377   gongan.png浙公网安备33021202000488号  icp.png浙ICP备2021020529号-1 浙B2-20240490   


    关注我们 :微信公众号  抖音  微博  LOFTER               

    自信网络  |  ZixinNetwork