RELATEED CONSULTING
相关咨询
选择下列产品马上在线沟通
服务时间:9:00-21:00
当您遇到问题
关闭右侧工具栏
“百度蜘蛛”全面解析
    发布时间:2022-08-26   访问量:16372

小编为您带来对“百度蜘蛛”的全面分析,帮助您清晰了解“百度蜘蛛”在各种场景中的作用,为网站的整体运营奠定基础。




[抢文章]

1.什么是Baiduspider?

答:百度蜘蛛又称百度蜘蛛,是百度搜索引擎的自动程序。其功能是访问互联网上的网页并建立索引数据库,以便用户在百度搜索引擎中搜索网站相关内容。




2.问:如何才能正确识别当前正在爬行的百度蜘蛛?

答:判断百度蜘蛛有两种方法。


方法1:查看UA信息


如果UA信息不正确,可以直接判断为非百度搜索的蜘蛛。目前UA分为三个应用场景:移动端、PC端、小程序端。这三个通道UA如下:




移动UA:


Mozilla/5.0(Linux;u;安卓4 . 2 . 2;zh-cn;)AppleWebKit/534.46 (KHTML,像壁虎一样)版本/5.1手机Safari/10600.6.3(兼容;baiduspider/2.0;+http://www . Baidu . com/search/spider . html)


或者


Mozilla/5.0(iPhone;CPU iPhone OS 9_1像Mac OS X)apple WebKit/601 . 1 . 46(KHTML像壁虎)版本/9.0 Mobile/13B143 Safari/601.1(兼容;baiduspider-render/2.0;+http://www . Baidu . com/search/spider . html)




PC UA:


Mozilla/5.0(兼容;baiduspider/2.0;+http://www . Baidu . com/search/spider . html)


或者


Mozilla/5.0(兼容;baiduspider-render/2.0;+http://www . Baidu . com/search/spider . html)




小程序UA:


Mozilla/5.0(iPhone;CPU iPhone OS 9_1像Mac OS X)apple WebKit/601 . 1 . 46(KHTML像壁虎)版本/9.0 Mobile/13B143 Safari/601.1(兼容;baiduspider-render/2.0;Smartapp+http://www . Baidu . com/search/spider . html)



方法2:双向DNS解析身份验证


第一步:DNS反向检查IP。开发者可以通过在日志中对访问服务器的IP地址进行反向DNS查找,来判断一个蜘蛛是否来自百度搜索引擎。Baiduspider的主机名以*.baidu.com或者*.baidu.jp的格式命名,如果不是*.baidu.com或者* .baidu.jp就是冒名顶替。




根据linux/windows/os等不同平台上验证方法的不同,验证方法如下:


①在linux平台下,可以使用主机ip命令逆向ip解,判断是否来自Baiduspider。Baiduspider的主机名以*.baidu.com或*.baidu.jp的格式命名,如果不是*.baidu.com或* .baidu.jp,就是冒名顶替。


②在windows平台或IBM OS/2平台下,可以使用nslookup ip命令逆向解析ip,确定是否来自Baiduspider。


③在mac os平台下,可以使用dig命令反推ip,判断是否来自Baiduspider。





步骤2:在域名上运行正向DNS查找。对步骤1中的命令检索到的域名运行正向DNS查找,并验证该域名是否与日志中访问服务器的原始IP地址一致。如果IP地址一致,可以确认蜘蛛来自百度搜索引擎,如果IP地址不一致,就是冒名顶替。




3.问:百度蜘蛛会一直抢我的网站吗?

答:一般来说,如果网站不断产生新的资源,不断更新内容,蜘蛛就会不断爬行。需要提醒的是,如果网站需要百度蜘蛛抓取,一定不能封杀。(相关禁令请参考以下内容)


此外,还可以查看网站访问日志,及时判断正确的百度蜘蛛,防止有人恶意冒充百度蜘蛛频繁抓取你的网站。




4.问:百度蜘蛛频繁访问网站,导致网站服务器压力很大。我该怎么办?

答:如果发现百度蜘蛛频繁抓取,可能是因为


①网站有新的制作资源和更新内容可以抓取和更新;


②可能存在恶意冒充百度蜘蛛的情况,可以通过上面Q2“如何识别正常的百度蜘蛛”查看问题;


如果百度蜘蛛的抓取频率过高,导致网站服务异常,可以通过搜索资源平台——【抓取频率】工具调整频率。




[违禁物品]

1.问:网站有些资源不想被百度蜘蛛访问。我该怎么办?

答:百度蜘蛛遵守互联网机器人协议。站长可以更新robots.txt文件,很明显不希望百度蜘蛛访问资源或目录等。,并通过搜索资源平台——【robots】工具及时提交Robots文件。


注意,robots文件更新提交后,搜索引擎需要逐步完成更新,所以百度蜘蛛并不会立即停止抓取网页。请耐心等待。




2.问:网站禁止百度蜘蛛会有什么影响?

答:网站资源质量较高,没有其他违规行为,但存在以下情况。


①没有找到百度蜘蛛的抓取记录,


②百度搜索中没有收录和显示的,


③网站/目录流量异常下降,


④搜索结果中的摘要显示“禁止机器人”字样。


如果发现以上情况,可以先检查是否存在封禁百度蜘蛛的问题,及时解禁(解禁参考QA7)等待恢复。



3.问:如何解禁百度蜘蛛?

答:常见的拦截行为有机器人拦截、百度UA拦截、百度IP拦截,可以逐一排查解决:


(1)检查robots.txt文件,看是否有禁止记录。(一般robots.txt文件放在网站的根目录下。)




(2)robots文件正常,进一步检查百度UA是否被封禁;


方案一:执行curl-head-user-agent的‘Mozilla/5.0(兼容;baiduspider/2.0;+http://www . Baidu . com/search/spider . html)'-请求获取' xxxxxxx '


注意:正常返回码为200,否则为异常。


方案二:更改浏览器UA验证;




(3)以上核查无异常。最后,进一步查看是否有IP级封禁;


常见的IP拦截来自于网站的防火墙系统配置。你需要查看防火墙配置系统的后台,查看是否有百度蜘蛛的IP级拦截措施。