Python爬虫-scrapy介绍及使用

发布时间：2020年11月02日 20:40:49 来源：环球青藤点击量：561

【摘要】scrapy的流程其流程可以描述如下：● 调度器把requests-->引擎-->下载中间件--->下载器● 下载器发送请求，获取响应---->下载中间件---->

scrapy的流程

其流程可以描述如下：

● 调度器把requests-->引擎-->下载中间件--->下载器

● 下载器发送请求，获取响应---->下载中间件---->引擎--->爬虫中间件--->爬虫

● 爬虫提取url地址，组装成request对象---->爬虫中间件--->引擎--->调度器

● 爬虫提取数据--->引擎--->管道

● 管道进行数据的处理和保存

推荐学习：Python视频教程

注意：

图中绿色线条的表示数据的传递

注意图中中间件的位置，决定了其作用

注意其中引擎的位置，所有的模块之前相互独立，只和引擎进行交互

scrapy中每个模块的具体作用

1.scrapy项目实现流程

创建一个scrapy项目:scrapy startproject 项目名

生成一个爬虫:scrapy genspider 爬虫名允许爬取的范围

提取数据:完善spider，使用xpath等方法

保存数据:pipepne中保存数据

2. 创建scrapy项目

命令：scrapy startproject +<项目名字>

示例：scrapy startproject myspider

生成的目录和文件结果如下：

settings.py中的重点字段和内涵

● USER_AGENT 设置ua

● ROBOTSTXT_OBEY 是否遵守robots协议，默认是遵守

● CONCURRENT_REQUESTS 设置并发请求的数量，默认是16个

● DOWNLOAD_DELAY 下载延迟，默认无延迟

● COOKIES_ENABLED 是否开启cookie，即每次请求带上前一次的cookie，默认是开启的

● DEFAULT_REQUEST_HEADERS 设置默认请求头

● SPIDER_MIDDLEWARES 爬虫中间件，设置过程和管道相同

● DOWNLOADER_MIDDLEWARES 下载中间件

创建爬虫

命令：scrapy genspider +<爬虫名字> + <允许爬取的域名>

生成的目录和文件结果如下：

完善spider

完善spider即通过方法进行数据的提取等操做：

注意：

● response.xpath方法的返回结果是一个类似pst的类型，其中包含的是selector对象，操作和列表一样，但是有一些额外的方法

● extract() 返回一个包含有字符串的列表

● extract_first() 返回列表中的第一个字符串，列表为空没有返回None

● spider中的parse方法必须有

● 需要抓取的url地址必须属于allowed_domains,但是start_urls中的url地址没有这个限制

● 启动爬虫的时候注意启动的位置，是在项目路径下启动

数据传递到pipepne

为什么要使用yield？

● 让整个函数变成一个生成器，有什么好处呢？

● 遍历这个函数的返回值的时候，挨个把数据读到内存，不会造成内存的瞬间占用过高

● python3中的range和python2中的xrange同理

注意：

yield能够传递的对象只能是：BaseItem,Request,dict,None

6. 完善pipepne

pipepne在settings中能够开启多个，为什么需要开启多个？

● 不同的pipepne可以处理不同爬虫的数据

● 不同的pipepne能够进行不同的数据处理的操作，比如一个进行数据清洗，一个进行数据的保存

pipepne使用注意点

● 使用之前需要在settings中开启

● pipepne在setting中键表示位置(即pipepne在项目中的位置可以自定义)，值表示距离引擎的远近，越近数据会越先经过

● 有多个pipepne的时候，process_item的方法必须return item,否则后一个pipepne取到的数据为None值

● pipepne中process_item的方法必须有，否则item没有办法接受和处理

● process_item方法接受item和spider，其中spider表示当前传递item过来的spider

本文来自 python教程栏目，欢迎学习！

以上就是小编分享的关于Python爬虫-scrapy介绍及使用的详细内容希望对大家有所帮助，更多有关python教程请关注环球青藤其它相关文章！

分享到：编辑：wangmin

上一篇：怎么查看python版本? 下一篇：Tensorflow基础（机器学习开源软件库）

就业培训申请领取

您的姓名

您的电话

意向课程

点击领取

环球青藤

官方QQ群

扫描上方二维码或点击一键加群，免费领取大礼包，加群暗号：青藤。一键加群

Python编程相关文章推荐

Python编程最新文章推荐

免费直播更多

应《中华人民共和国网络安全法》加强实名认证机制要求,同时为更加全面的体验产品服务,烦请您绑定手机号.

预约成功

本直播为付费学员的直播课节

请您购买课程后再预约

我要购买

最新文章

环球青藤移动课堂APP 直播、听课。职达未来！

安卓版

下载

iPhone版

下载

环球青藤官方微信服务平台

刷题看课 APP下载

免费直播一键购课

代报名等人工服务

Python编程热点排行