爬虫毕设（一）：scrapy框架 - 哈喽比特

610次阅读 | 发布于5年以前

Scrapy安装

安装Scrapy有两种途径：

推荐使用第二种方式，安装速度很快。

在命令行中输入scrapy，会直接显示常用的命令：

1、scrapy startproject Demo（项目名）：创建一个新的项目。

2、scrapy genspider name domain：name是爬虫的名字，domain是所爬取的网站名。

3、scrapy crawl <spider>：启动爬虫。

4、scrapy list：查看所有的爬虫。

5、scrapy fetch <url>：打印响应。

6、scrapy shell [url]：调试shell。

在后续的系统设计的时候会慢慢的使用到各种命令进行调试。

1、scrapy.cfg：项目的配置文件

2、Spider/spiders：爬虫代码文件

3、Spider/items.py：存储爬取到的数据的容器

4、Spider/pipeline.py：执行保存数据的操作

5、Spider/setting.py：项目的设置文件

6、Spider/middlewares.py：中间件

在写代码的时候需要修改每个文件的内容。

spider类，定义爬虫的方法和属性。下边列出常见的方法和属性：

类属性：

类方法：

scrapy使用内置的scrapy.http.Request与Response对象去请求网络资源与响应的处理，常见的request对象参数列表：

Response类用于http下载返回信息的类，它只是一个基类，他还有几个子类：

当一个页面下载完成，下载器根据http响应头部中的Content-Type字段创建某个Response子类对象。Response对象属性和方法：

这就是爬虫的大概内容，后边的代码会在做毕业设计的过程中一步步的做完。