python百度反收集如何使用

发布时间：2020年09月27日 08:07:19 来源：点击量：428

【摘要】1、从用户请求的Headers反爬虫是最常见的反爬虫策略。伪装headers。很多网站都会对Headers的User-Agent进行检测，还有一部分网站会对Refere

1、从用户请求的Headers反爬虫是最常见的反爬虫策略。

伪装headers。很多网站都会对Headers的User-Agent进行检测，还有一部分网站会对Referer进行检测（一些资源网站的防盗链就是检测Referer）。如果遇到了这类反爬虫机制，可以直接在爬虫中添加Headers，将浏览器的User-Agent复制到爬虫的Headers中；或者将Referer值修改为目标网站域名[评论：往往容易被忽略，通过对请求的抓包分析，确定referer，在程序中模拟访问请求头中添加]。对于检测Headers的反爬虫，在爬虫中修改或者添加Headers就能很好的绕过。

相关推荐：《Python基础教程》

2、基于用户行为反爬虫

还有一部分网站是通过检测用户行为，例如：同一IP短时间内多次访问同一页面，或者同一账户短时间内多次进行相同操作。这种防爬，需要有足够多的ip来应对。

大多数网站都是前一种情况，对于这种情况，使用IP代理就可以解决。可以专门写一个爬虫，爬取网上公开的代理ip，检测后全部保存起来。有了大量代理ip后可以每请求几次更换一个ip，这在requests或者urllib中很容易做到，这样就能很容易的绕过第一种反爬虫。

编写爬虫代理：

步骤：

1.参数是一个字典{'类型'：'代理ip：端口号'}

proxy_support=urllib.request.ProxyHandler({})

2.定制、创建一个opener

opener=urllib.request.build_opener(proxy_support)

3.安装opener

urllib.request.install_opener(opener)

4.调用opener

opener.open(url)

分享到：编辑：wangmin

上一篇：python入门基础教程下一篇：python无法安装scipy怎么办

就业培训申请领取

您的姓名

您的电话

意向课程

点击领取

环球青藤

官方QQ群

扫描上方二维码或点击一键加群，免费领取大礼包，加群暗号：青藤。一键加群

Python编程相关文章推荐

Python编程最新文章推荐

免费直播更多

应《中华人民共和国网络安全法》加强实名认证机制要求,同时为更加全面的体验产品服务,烦请您绑定手机号.

预约成功

本直播为付费学员的直播课节

请您购买课程后再预约

我要购买

最新文章

环球青藤移动课堂APP 直播、听课。职达未来！

安卓版

下载

iPhone版

下载

环球青藤官方微信服务平台

刷题看课 APP下载

免费直播一键购课

代报名等人工服务

Python编程热点排行