余晖落尽暮晚霞,黄昏迟暮远山寻
本站
当前位置:网站首页 > 编程知识 > 正文

百度站长SEO问题答疑:网站抓取建设指南(网站教程百度SEO优化)

xiyangw 2022-11-25 11:16 18 浏览 0 评论

1、百度爬虫工作原理

百度站长SEO问题答疑:网站抓取建设指南

抓取系统是站长服务器与百度搜索的一个桥梁,我们通常把抓取系统称之为抓取环。

举例:以首页为例,“抓取器”与“网站服务器”交互抓取首页,进行对页面进行理解,包含类型、价值的计算,此外还会把页面所有超链接提取出来,提取出来的链接叫“后链”,后链是下一轮抓取的链接集合。下一轮抓取会从上一轮的后链选择需要抓取的数据去抓取,继续和网站交互获取页面提取链接,反复不断一层一层循环构成抓取环路。

2、抓取友好性优化

URL规范

url尽可能不要复杂,新站刚开始抓,蜘蛛并不知道URL里面的内容什么样,url长短?是否规范?是不是被选出来(指抓取)非常关键的。URL核心有两点:主流和简单。不要使用中文/中文编码虽然百度能识别,蜘蛛支持256个字符,建议小于<100字符。偏长URL不占有优势。

参数以及无效参数的问题?

url尽可能不要使用无效的参数“?”“&”会让一条资源,在蜘蛛没有抓取的情况下抓取多个相同内容,不同url导致重复抓取,浪费站点的权益。希望站长尽可能不适用参数,或者精简参数,仅保留必要参数,不要使用- #等连接符

合理发现链路

蜘蛛要尽可能的抓取完整网站资源,就需要首页到每一个资源(页面)超链接关系都做好,这样蜘蛛也会省力。从首页到内容来的路径是从首页到栏目一再到这个内容,这个链路关系我就把它称为一个发现链路。

举例:feed流 和 仅有搜索首页的页面,这类站点建议增加索引页,让蜘蛛发现更多有价值的内容,索引页要按照时间历史顺序排序,新资源要实时发布到索引页上,目的是尽可能的曝光给蜘蛛,也不要做大量的泛滥的索引页。后链的URL要在页面源码中直接露出,不要引入一些动作触发。最好是使用百度资源平台的资源提交工具。

Q:资源提交是不是越多越好?

A:收录效果的核心永远是内容质量,如果大量提交低质、泛滥资源会导致被算法别识别为低质,带来惩罚性打压。

Q:为什么提交了普通收录但没有抓?

A:资源提交只能加速资源发现,不保证短时间内抓取;同时技术大大在持续优化筛选算法,让优质的资源更快得到抓取。普通收录和sitemap 的作用不是提交后立马抓取,具体什么时候抓还是依赖策略的一个计算和选取。

注:所以好多新站/低质量站点刚开始提交,看不到蜘蛛爬取。

访问友好性

抓取器和网站要进行交互,要保证服务器稳定。

访问速度优化

两个建议,第一点 加载时间,建议控制在两秒以内加载,会有一定程度的优待。第二点 避免非必要的跳转,而且多级跳转也会影响加载速度。

服务器负载稳定︰

特别在短时间内大量提交优质资源后,关注服务器稳定,真的很优质且量大的内容,蜘蛛爬取频次会很高的。

抓取频次的高低和网站收录是否有联系?

抓取频次的高低其实和网站收录的效果是没有必然联系。

抓取目的主要分成两种:第一种 抓取网站上没有抓过的页面。第二种 抓取已经抓取过的页面,看这个页面是不是有更新。

注:第二种抓取目的很多站长都会忽略了,已经收录抓取的页面,在一次抓取,应该不是为了发现新页面(猜测),而是看页面是否“更新”内容。

问答环节

新站会不会有固定的抓取次数?

任何网站的抓取中没有一个特别固定的次数。自己建了个新站,其实很长时间百度采取抓取问题,基于这个问题,我们也做了一些相对应的优化,对于我们能识别出来新站,相比已经抓了一段时间的站,我会做一些相对应的流量倾斜的扶持。先给你一些流量,使站长能够在百度的系统里转起来,再基于你的价值判断来看,给予你流量是高还是低,是否需要去继续去提升。

注:本节公开课是五月二十一号的,今年确实有好多已备案新站,上线抓取频次很高,大概有1-2个月扶持。很多人借助百度给的扶持期,疯狂填充低质内容, 这是一个错误的操作。

如何让百度知道你是一个新建的站点?

1、在百度家平台上去做提交。 2、做ICP备案。

每个站点蜘蛛的抓取配会不会有调整?大约多久会调整一次?有没有固定时间?

有调整。对于新资源的抓取和站点的质量相关,对于旧资源的抓取和站点更新频率相关。计算出来你的站点,质量有变化,新资源抓取的频率就会发生变化。发现你的站长规模有变化,我们抓取频次会有变化。站点有很大的变动或改版,被识别出来,更新频率也会有相应变化。而整体上这些计算的,不是一个特别高的频次。大概会到一个周级的变化,才能体现出来。

注:这块说的四种可能会调整,更新变化频率是周级的。

网站将网站降权能否恢复?

网站降权恢复的前提是要针对网站的内容进行全面的自查整改,按照搜索资源平台发布的算法规范自查整改之后,要把相应的违规页面提交死链,线上进行删除之后搜索会对站点评评估。站点的内容都没有违规会进行恢复。

新站点是否有考核期?

没有一个严格的称为考核期的这么一个东西,新站点会有一定一个周期,来进行流量的倾斜,让新站在我们系统里转起来,这个周期大概是月级别的。假设新站已经给你倾斜一到两个月。发现你的价值还是不够高,可能我们就不会去特别高的处理。但是我们依旧会去抓,当发现站点质量有明显提升或优质规模有提升,也会相应去提升站点抓取频次。

注:这块是画重点,已备案,新站扶持期并非固定。

百度对于国外服务器和国内的服务器是否会有区别对待?

没有。从策略角度上来讲,没有一个特别硬性的策略来说,咱们对外网的要打压,对国内的要扶持,没有这样的一个策略的。只不过国外服务器延迟高不稳定因素多。

如果新站用一个老域名,会不会比用新域名更有优势?

这个不一定,在于老域名和新站是不是相同(相关)内容,如果在原来基础包装,起步阶段是有优势的,仅仅是起步阶段有优势。后期主要依赖内容。

老域名和新站内容领域不相符尤,非常不建议使用老域名,反而会影响价值评判,还不如做一个新站。

蜘蛛是否有权重IP之分?

没有。对于网站展现曝光依赖内容质量,结合用户行为进行评价的。

注:很多人一直都认为有蜘蛛权重ip,蜘蛛每天爬取量非常大,最常见的蜘蛛只有两段IP总共512个IP,百度这种出口IP肯定不止512组服务器,集群成千上万的服务器,这512个IP是出口IP,给后方集群服务器进行代理的IP。即使真有权重服务器,但是这个权重服务器也说不准从哪一个Ip出来,下图远端端口。

网站最近不收录有没有建议?

那要结合站点的内容,你的站点发布的内容在线上已经有大量的同质的资源,就会不会再进行抓取和展现。

内容来源:;常州姜东 https://www.dingjianseo.com/seo/252.html 本站可能不是首发,尽请关注

相关推荐

spring利用spring.handlers解析自定义配置(spring validation 自定义)

一、问题我们在spring的xml配置文件里经常定义各种各样的配置(tx、bean、mvc、bean等等)。以及集成第三方框架时,也会看到一些spring之外的配置,例如dubbo的配置、securi...

「Spring源码分析」AOP源码解析(上篇)(spring源码深度解析(第2版))

前言前面写了六篇文章详细地分析了SpringBean加载流程,这部分完了之后就要进入一个比较困难的部分了,就是AOP的实现原理分析。为了探究AOP实现原理,首先定义几个类,一个Dao接口:1&nbs...

Spring 解析注册BeanDefinition这一篇就Over
Spring 解析注册BeanDefinition这一篇就Over

一、简介:学习过Spring框架的人一定都会听过Spring的IoC(控制反转)、DI(依赖注入)这两个概念,对于初学Spring的人来说,总觉得IoC、...

2023-03-20 14:53 xiyangw

域、模块、空间、闭包,你真的懂了吗?(模块控制域与作用域的关系)

Javascript有一个特性叫做域。尽管对于初学者来说理解域是有难度的,但我会尽力用最简单的方式让你理解域。理解域能让你的代码更优秀,减少错误,及有助于你做出更强大的模式设计。什么是域域是在运行时,...

这一次搞懂Spring自定义标签以及注解解析原理
这一次搞懂Spring自定义标签以及注解解析原理

前言在上一篇文章中分析了Spring是如何解析默认标签的,并封装为BeanDefinition注册到缓存中,这一篇就来看看对于像context这种自定义标签是如...

2023-03-20 14:53 xiyangw

前端基础进阶(七)-前端工程师最容易出错的问题-this关键字
前端基础进阶(七)-前端工程师最容易出错的问题-this关键字

我们在学习JavaScript的时候,因为对一些概念不是很清楚,但是又会通过一些简洁的方式把它给记下来,那么这样自己记下来的概念和真正的概念产生了很强的偏差.当...

2023-03-20 14:52 xiyangw

深入K8s:守护进程DaemonSet及其源码分析(k8s 进程)
深入K8s:守护进程DaemonSet及其源码分析(k8s 进程)

建议学习:膜拜!阿里内部都在强推的K8S(kubernetes)学习指南,不能再详细了最近也一直在加班,处理项目中的事情,发现问题越多越是感觉自己的能力不足,...

2023-03-20 14:52 xiyangw

Spring 是如何解析 bean 标签的?(spring beans标签)
Spring 是如何解析 bean 标签的?(spring beans标签)

前情回顾上回「SpringIoC容器初始化(2)」说到了Spring如何解析我们定义的<bean>标签,代码跟进了一层又一层,跋山涉水,...

2023-03-20 14:52 xiyangw

快速了解JavaScript文本框操作(javascript文本框代码)
快速了解JavaScript文本框操作(javascript文本框代码)

HTML中使用<input>元素表示单行输入框和<textarea>元素表示多行文本框。HTML中使用的<input&...

2023-03-20 14:51 xiyangw

荐读|30道JavaOOP面试题,可以和面试官扯皮了
荐读|30道JavaOOP面试题,可以和面试官扯皮了

面试是我们每个人都要经历的事情,大部分人且不止一次,今天给大家准备了30道JavaOOP面试题,希望能够帮助到对Java感兴趣的同学,让大家在找工作的时候能够...

2023-03-20 14:51 xiyangw

源码系列——mybatis源码刨析总结,下(mybatis源码分析)
源码系列——mybatis源码刨析总结,下(mybatis源码分析)

接上文简答题一.1.Mybatis动态sql是做什么的?1.动态sql就是根据条件标签动态的拼接sql,包括判空,循环,拼接等2.哪些动态sql?动态sql大...

2023-03-20 14:50 xiyangw

Java面试题(第二弹)(java面试题及答案整理)
Java面试题(第二弹)(java面试题及答案整理)

1.抽象类和接口的区别?接口可以被多重implements,抽象类只能被单一extends接口只有定义,抽象类可以有定义和实现接口的字段定义默认为:public...

2023-03-20 14:50 xiyangw

mybatis3 源码深度解析-动态 sql 实现原理(sql数据库基础知识)
mybatis3 源码深度解析-动态 sql 实现原理(sql数据库基础知识)

大纲动态sql使用示例SqlSource和BoundSql以及实现类LanguageDriver以及实现类SqlNode以及实现类动态sql解...

2023-03-20 14:50 xiyangw

第43节 Text、Comment及CDATASection(第43节 Text、Comment及CDATASection)
第43节 Text、Comment及CDATASection(第43节 Text、Comment及CDATASection)

本内容是《Web前端开发之Javascript视频》的课件,请配合大师哥《Javascript》视频课程学习。文本节点用Text类型表示,包含的是可以按字面解释...

2023-03-20 14:49 xiyangw

Qt读写三种文件(qt读取文件数据并赋值给变量)

第一种INI配置文件.ini文件是InitializationFile的缩写,即初始化文件。除了windows现在很多其他操作系统下面的应用软件也有.ini文件,用来配置应用软件以实现不同用户的要...

取消回复欢迎 发表评论: