“百度蜘蛛”全面解析

新闻资讯

“百度蜘蛛”全面解析

发布时间：2022-08-26 访问量：17185

小编为您带来对“百度蜘蛛”的全面分析，帮助您清晰了解“百度蜘蛛”在各种场景中的作用，为网站的整体运营奠定基础。

[抢文章]

1.什么是Baiduspider？

答:百度蜘蛛又称百度蜘蛛，是百度搜索引擎的自动程序。其功能是访问互联网上的网页并建立索引数据库，以便用户在百度搜索引擎中搜索网站相关内容。

2.问:如何才能正确识别当前正在爬行的百度蜘蛛？

答:判断百度蜘蛛有两种方法。

方法1:查看UA信息

如果UA信息不正确，可以直接判断为非百度搜索的蜘蛛。目前UA分为三个应用场景:移动端、PC端、小程序端。这三个通道UA如下:

移动UA:

Mozilla/5.0(Linux；u；安卓4 . 2 . 2；zh-cn；)AppleWebKit/534.46 (KHTML，像壁虎一样)版本/5.1手机Safari/10600.6.3(兼容；baiduspider/2.0；+http://www . Baidu . com/search/spider . html)

或者

Mozilla/5.0(iPhone；CPU iPhone OS 9_1像Mac OS X)apple WebKit/601 . 1 . 46(KHTML像壁虎)版本/9.0 Mobile/13B143 Safari/601.1(兼容；baiduspider-render/2.0；+http://www . Baidu . com/search/spider . html)

PC UA:

Mozilla/5.0(兼容；baiduspider/2.0；+http://www . Baidu . com/search/spider . html)

或者

Mozilla/5.0(兼容；baiduspider-render/2.0；+http://www . Baidu . com/search/spider . html)

小程序UA:

Mozilla/5.0(iPhone；CPU iPhone OS 9_1像Mac OS X)apple WebKit/601 . 1 . 46(KHTML像壁虎)版本/9.0 Mobile/13B143 Safari/601.1(兼容；baiduspider-render/2.0；Smartapp+http://www . Baidu . com/search/spider . html)

方法2:双向DNS解析身份验证

第一步:DNS反向检查IP。开发者可以通过在日志中对访问服务器的IP地址进行反向DNS查找，来判断一个蜘蛛是否来自百度搜索引擎。Baiduspider的主机名以*.baidu.com或者*.baidu.jp的格式命名，如果不是*.baidu.com或者* .baidu.jp就是冒名顶替。

根据linux/windows/os等不同平台上验证方法的不同，验证方法如下:

①在linux平台下，可以使用主机ip命令逆向ip解，判断是否来自Baiduspider。Baiduspider的主机名以*.baidu.com或*.baidu.jp的格式命名，如果不是*.baidu.com或* .baidu.jp，就是冒名顶替。

②在windows平台或IBM OS/2平台下，可以使用nslookup ip命令逆向解析ip，确定是否来自Baiduspider。

③在mac os平台下，可以使用dig命令反推ip，判断是否来自Baiduspider。

步骤2:在域名上运行正向DNS查找。对步骤1中的命令检索到的域名运行正向DNS查找，并验证该域名是否与日志中访问服务器的原始IP地址一致。如果IP地址一致，可以确认蜘蛛来自百度搜索引擎，如果IP地址不一致，就是冒名顶替。

3.问:百度蜘蛛会一直抢我的网站吗？

答:一般来说，如果网站不断产生新的资源，不断更新内容，蜘蛛就会不断爬行。需要提醒的是，如果网站需要百度蜘蛛抓取，一定不能封杀。(相关禁令请参考以下内容)

此外，还可以查看网站访问日志，及时判断正确的百度蜘蛛，防止有人恶意冒充百度蜘蛛频繁抓取你的网站。

4.问:百度蜘蛛频繁访问网站，导致网站服务器压力很大。我该怎么办？

答:如果发现百度蜘蛛频繁抓取，可能是因为

①网站有新的制作资源和更新内容可以抓取和更新；

②可能存在恶意冒充百度蜘蛛的情况，可以通过上面Q2“如何识别正常的百度蜘蛛”查看问题；

如果百度蜘蛛的抓取频率过高，导致网站服务异常，可以通过搜索资源平台——【抓取频率】工具调整频率。

[违禁物品]

1.问:网站有些资源不想被百度蜘蛛访问。我该怎么办？

答:百度蜘蛛遵守互联网机器人协议。站长可以更新robots.txt文件，很明显不希望百度蜘蛛访问资源或目录等。，并通过搜索资源平台——【robots】工具及时提交Robots文件。

注意，robots文件更新提交后，搜索引擎需要逐步完成更新，所以百度蜘蛛并不会立即停止抓取网页。请耐心等待。

2.问:网站禁止百度蜘蛛会有什么影响？

答:网站资源质量较高，没有其他违规行为，但存在以下情况。

①没有找到百度蜘蛛的抓取记录，

②百度搜索中没有收录和显示的，

③网站/目录流量异常下降，

④搜索结果中的摘要显示“禁止机器人”字样。

如果发现以上情况，可以先检查是否存在封禁百度蜘蛛的问题，及时解禁(解禁参考QA7)等待恢复。

3.问:如何解禁百度蜘蛛？

答:常见的拦截行为有机器人拦截、百度UA拦截、百度IP拦截，可以逐一排查解决:

(1)检查robots.txt文件，看是否有禁止记录。(一般robots.txt文件放在网站的根目录下。)

(2)robots文件正常，进一步检查百度UA是否被封禁；

方案一:执行curl-head-user-agent的‘Mozilla/5.0(兼容；baiduspider/2.0；+http://www . Baidu . com/search/spider . html)'-请求获取' xxxxxxx '

注意:正常返回码为200，否则为异常。

方案二:更改浏览器UA验证；

(3)以上核查无异常。最后，进一步查看是否有IP级封禁；

常见的IP拦截来自于网站的防火墙系统配置。你需要查看防火墙配置系统的后台，查看是否有百度蜘蛛的IP级拦截措施。

上一篇：为什么修改模板比买一套模板还贵？

下一篇：网站改版百度会收录吗？