网站优化应对蜘蛛页面爬行异常

最专业的代练平台开发！

资讯热点

当前位置：首页 > 行业资讯 > 网站优化应对蜘蛛页面爬行异常

网站优化应对蜘蛛页面爬行异常

发布时间：2023-8-25 分类：行业资讯

包含是指搜索引擎抓取的网页，然后放入搜索引擎的库中。当人们搜索相关词汇时，他们可以在搜索结果页面显示列表中看到已包含的页面和页面信息。我们正在谈论“包含页面”，您可以在搜索结果页面上看到相关页面。相反，“不包括网页”更复杂，因为在搜索结果页面中没有看到相应的页面，这并不意味着网页不在搜索引擎的库中，或者不包括在内。有可能这是760条记录中当前搜索词严重排名的页面，因此未显示。

搜索引擎蜘蛛抓取包含网页，然后将其索引到搜索引擎的索引库中，并由用户搜索前端以进行此系列处理。对于想要优化其网站的SEO员工或非专业SEO人员，了解页面如何包含在搜索引擎中是非常有益的。帮助您进入网站的SEO是非常有益的。只要有可能，请遵循包含规则并增加所包含网站的比例。

当搜索引擎抓取网页时，它可能会遇到各种情况，某些网页被成功抓取，而某些抓取失败。如何显示页面的实际抓取结果？主要通过返回代码来指示抓取的成败与遇到的问题。例如，我们经常打开一个页面，页面是空白的，只显示404。 404这是一个返回代码，这意味着当前已爬网的页面已过期。当遇到显示404的页面时，如果搜索是短期的，则蜘蛛将找不到该URL。

有时，它会返回503,503代表网站暂时不可用的返回代码，可能是网站服务器关闭或其他临时措施造成的页面无法访问，一般来说，蜘蛛会继续抓取几次。如果网站恢复正常，则URL仍被视为普通URI。处理时，如果服务器始终无法访问，那么搜索引擎会从库中完全删除这些URL，这就要求我们保持站点的稳定性，尽量避免临时关机。返回码403是禁止访问状态。一般来说，如503，如果多次访问后仍处于禁止访问状态，搜索引擎将从库中删除。

在返回代码中，有一个需要特别注意的类，即301. 301表示永久删除，并且当前URL被永久重定向到另一个uRL。通常，由于修订等，一些URL需要永久地用新URL替换，必须使用返回码301来处理它们，以便可以将权重结合在一起以避免网站上的流量丢失。

返回码301的优化写入如下。

（1）创建一个htaccess.txt文件。

（2）在htaccess中。在txt中写入返回码30l的跳转消息。

假设旧URL为abc.com，则需要重定向到www.abc.com。您需要在文件中写入以下信息。

上的RewriteEngine

的RewriteCond％{HTTP_HOST} abc.com [NC]

RewriteRule ^（。*）$http://www.abc.com/$1[L,R=301]

（3）将htaccess.txt上传到FTP，然后将htaccess.txt修改为.htaccess。

需要提醒的是，当前的htaccess仅适用于Linux系统，并且需要虚拟主机支持，因此，在考虑htaccess文件处理返回码301时，需要检查虚拟主机是否完全受支持。

实际上，有多种方法可以处理重定向。简单来说，重定向可以分为http30x重定向，元刷新重定向和js重定向。此外，谷歌和百度等大型搜索引擎公司已确认支持Canonical标签。通过制定权威页面，他们可以引导蜘蛛仅索引一个权威页面。实际上，它也是间接重定向。在实际爬行过程中，蜘蛛会识别各种重定向效果。

有很多方法可以重定向，但从SEO的角度来看，如果它是一个永久重定向的页面，请尝试使用301的返回码。另外，来自

根据时间结果，百度对Canonical的支持不如谷歌那么好。采用Canonical可能无法达到预期的效果。一些网站通过不同的路径进入相同的路径

在一个页面上，可能有多个URL。面对这种情况，可能需要一些处理技能。有关Canonical的使用，请参阅Canonical上的书。

外部链接等因素会对搜索排名产生影响。它是否也会对抓取过程产生影响？百度对其爬行策略有优先描述，即执行包括“深度优先遍历策略，宽度优先遍历策略，PR优先策略，反链策略，社交共享指导策略等”。同时，这也表明每种策略都有各自的优缺点。在实际情况中，通常是多种策略的组合以实现最佳结果。从这个官方描述中，我们可以看到PR优先策略，反连锁策略，社交分享等等。我们可以认为百度在实际抓取时实际考虑了这些因素，但权重可能会有所不同，所以尝试改进网页PR，提高外部链的质量，实现高质量的社交共享，这对网站的SEO工作具有积极意义。

另外，对于在互联网上存在大量“盗版”的“收集”，在抓取过程中，蜘蛛会判断页面是否已经通过技术和URI进行了爬行。不同但具有相同实际内容的页面的URL被规范化，即被视为URL。那就是告诉SEO工作人员不要通过创建大量页面来获得更多的搜索资源。如果页面很多，但每个页面的内容都是高度重复的，或者只有uRL包含无效的参数来实现多个页面，搜索引擎仍会放置这些URI。作为uRL处理，也就是说，网站页面的数量不尽如人意。简单的方法是将网页拼凑在一起并部署大量长尾巴。但是，页面质量令人担忧，效果会适得其反。如果搜索引擎将大量此类页面判断为低质量页面，则可能会影响整个站点的SEO效果。

蜘蛛的爬行过程实际上是一个基于链接的连续探索过程。如果链节之间存在短路，则蜘蛛无法向前爬。在真实的网站操作中，我们可以看到许多网页实际上隐藏在网站的后端，并且无法抓取蜘蛛。例如，没有保留的入口链接，或者门户链接已经过期等，并且这些无法获取的内容和信息对于蜘蛛来说是一个孤立的岛屿。对于SEO人员，它不是内容的排水。同时，由于网络环境或网站规范，蜘蛛无法爬行。

如何解决无法抓取信息的问题？几种可行的方法如下。

·使用数据上传通道，例如搜索引擎平台提供的开发平台，可以独立提交数据。

·使用Sitemap提交方法。具有特殊结构的大型网站或网站具有大量历史页面。这些历史页面中有许多具有SEO的价值，但蜘蛛无法通过正常爬行爬行。对于这些页面，请构建Sitemap文件并将其提交给百度和其他搜索引擎。这是非常必要的。

当蜘蛛抓取网站时，它将遵循网站的协议进行抓取，例如哪些网页可以被搜索引擎抓取，哪些网页不允许被搜索引擎抓取。常用协议包括HTTP协议，HTTPS协议和机器人协议。

HTTP协议指定客户端和服务器端请求和响应的条件。客户端通常是指最终用户，服务器是指网站。最终用户通过浏览器，蜘蛛等向服务器指定端口发送HTTP请求。发送HTTP请求将返回相应的HTTP头信息，我们可以查看是否包含成功，服务器类型，网页的最新更新时间等。

HTTPS协议是一种通常传输用户安全数据的加密协议。 HTTPS在HTTP下添加SSL层。这种类型的页面应用程序是与支付相关或内部机密信息相关的更多网页。蜘蛛不会自动抓取此类网页。因此，从SEO的角度来看，在构建站点时，尝试区分页面的性质，并在非安全页面上执行HTTP处理，以实现网页的爬行和包含。

本文由领先网络菏泽网站建设公司负责人:https://www.lingchuangweb.com/原文，版权，请注明出处，并保留此链接，谢谢！

« 如何在设计中应用双钻设计模型 | Piggy Wisdom Store第三方会员导入功能升级，数据对接更灵活 »

: 周一周五 8:30 - 18:00

鲁ICP备14007395号-30

百度统计

客服QQ